Modifier and Type | Class and Description |
---|---|
static class |
RobustTokenizer.AbbreviationMap |
static class |
RobustTokenizer.WordToken |
Modifier and Type | Field and Description |
---|---|
static java.lang.String |
ACRONYM |
static java.lang.String |
AMPERSAND |
static java.lang.String |
ANY |
static java.lang.String |
APOSTROPHE |
static java.lang.String |
AT |
static java.lang.String |
BLOCK |
static java.lang.String |
COMMA |
static java.lang.String |
DATE |
static java.lang.String |
DECNUM |
static java.lang.String |
DIGIT |
static java.lang.String |
DIGITSEQ |
static java.lang.String |
DOMAIN_EMAIL |
static java.lang.String |
DOT |
static java.lang.String |
DOTCOMMA |
static java.lang.String |
DOTDOT |
static java.lang.String |
DOUBLE_QUOTES |
static java.lang.String |
EMAIL |
static java.lang.String |
FULLNUM |
static java.lang.String |
GREATER |
static java.lang.String |
HTMLCODE |
static java.lang.String |
HTTP |
static java.lang.String |
LCB |
static java.lang.String |
LETTER |
static java.lang.String |
LETTERS |
static java.lang.String |
LIST_BULLET |
static java.lang.String |
LOOSE_ACRONYM |
static java.lang.String |
LOWER |
static java.lang.String |
LRB |
static int |
MAX_MULTI_WORD_SIZE |
static java.lang.String |
MINUS |
static java.lang.String |
NUM |
static java.lang.String |
PAREN |
static java.lang.String |
PHONE_PART |
static java.lang.String |
PLUS |
static java.lang.String |
PUNC |
static java.lang.String |
QUOTES |
static java.lang.String |
RCB |
static java.lang.String |
RECOGNISED_PATTERN |
static java.lang.String |
RRB |
static java.lang.String |
SGML |
static java.lang.String |
SIGN |
static java.lang.String |
SLASH |
static java.lang.String |
SMALL_URL |
static java.lang.String |
TIME |
static java.lang.String |
UNDERSCORE |
static java.lang.String |
UNDERSCORESEQ |
static java.lang.String |
UPPER |
static java.lang.String |
URL |
static java.lang.String |
WHITE_SPACE |
static java.lang.String |
WORD |
NEWLINE_TOKEN, nextToken
Constructor and Description |
---|
RobustTokenizer(boolean caseInsensitive,
java.lang.String buffer) |
RobustTokenizer(java.lang.String buffer) |
Modifier and Type | Method and Description |
---|---|
static java.lang.String |
block(java.lang.String s)
parens
|
int |
countNewLines(java.lang.String s,
int start,
int end) |
protected Word |
getNext()
Internally fetches the next token.
|
static boolean |
isAcronym(java.lang.String s) |
static boolean |
isDigitSeq(java.lang.String s) |
static boolean |
isEmail(java.lang.String s) |
static boolean |
isSgml(java.lang.String s) |
static boolean |
isSlashDate(java.lang.String s) |
static boolean |
isUrl(java.lang.String s) |
static void |
main(java.lang.String[] argv) |
static java.lang.String |
oneOrMore(java.lang.String s)
one or more
|
static java.lang.String |
or(java.lang.String s1,
java.lang.String s2)
any of the two
|
static java.lang.String |
or(java.lang.String s1,
java.lang.String s2,
java.lang.String s3)
any of the three
|
static java.lang.String |
or(java.lang.String s1,
java.lang.String s2,
java.lang.String s3,
java.lang.String s4)
any of the four
|
static java.lang.String |
or(java.lang.String s1,
java.lang.String s2,
java.lang.String s3,
java.lang.String s4,
java.lang.String s5)
any of the five
|
static java.lang.String |
or(java.lang.String s1,
java.lang.String s2,
java.lang.String s3,
java.lang.String s4,
java.lang.String s5,
java.lang.String s6)
any of the six
|
static java.lang.String |
or(java.lang.String s1,
java.lang.String s2,
java.lang.String s3,
java.lang.String s4,
java.lang.String s5,
java.lang.String s6,
java.lang.String s7)
any of the seven
|
static java.lang.String |
or(java.lang.String s1,
java.lang.String s2,
java.lang.String s3,
java.lang.String s4,
java.lang.String s5,
java.lang.String s6,
java.lang.String s7,
java.lang.String s8)
any of the eight
|
static java.lang.String |
or(java.lang.String s1,
java.lang.String s2,
java.lang.String s3,
java.lang.String s4,
java.lang.String s5,
java.lang.String s6,
java.lang.String s7,
java.lang.String s8,
java.lang.String s9)
any of the nine
|
static java.lang.String |
or(java.lang.String s1,
java.lang.String s2,
java.lang.String s3,
java.lang.String s4,
java.lang.String s5,
java.lang.String s6,
java.lang.String s7,
java.lang.String s8,
java.lang.String s9,
java.lang.String s10) |
static java.lang.String |
or(java.lang.String s1,
java.lang.String s2,
java.lang.String s3,
java.lang.String s4,
java.lang.String s5,
java.lang.String s6,
java.lang.String s7,
java.lang.String s8,
java.lang.String s9,
java.lang.String s10,
java.lang.String s11) |
static java.lang.String |
or(java.lang.String s1,
java.lang.String s2,
java.lang.String s3,
java.lang.String s4,
java.lang.String s5,
java.lang.String s6,
java.lang.String s7,
java.lang.String s8,
java.lang.String s9,
java.lang.String s10,
java.lang.String s11,
java.lang.String s12) |
protected java.util.List<RobustTokenizer.WordToken> |
postprocess(java.util.List<RobustTokenizer.WordToken> tokens)
Redefine this method to implement additional domain-specific tokenization rules
|
static java.lang.String |
range(java.lang.String s)
any in the set
|
static java.lang.String |
rangeNot(java.lang.String s)
not
|
java.lang.String |
tokenizeText()
Tokenizes and adds blank spaces were needed between each token
|
Word[] |
tokenizeToWords()
Smart tokenization storing the output in an array of CoreLabel
Sets the following fields:
- TextAnnotation - the text of the token
- TokenBeginAnnotation - the byte offset of the token (start)
- TokenEndAnnotation - the byte offset of the token (end)
|
java.util.List<RobustTokenizer.WordToken> |
tokenizeToWordTokens()
Tokenizes a natural language string
|
static java.lang.String |
zeroOrMore(java.lang.String s)
zero or more
|
static java.lang.String |
zeroOrOne(java.lang.String s)
zero or one
|
hasNext, next, peek, remove, tokenize
public static final int MAX_MULTI_WORD_SIZE
public static final java.lang.String DOT
public static final java.lang.String DOTDOT
public static final java.lang.String APOSTROPHE
public static final java.lang.String SLASH
public static final java.lang.String UNDERSCORE
public static final java.lang.String MINUS
public static final java.lang.String PLUS
public static final java.lang.String COMMA
public static final java.lang.String DOTCOMMA
public static final java.lang.String QUOTES
public static final java.lang.String DOUBLE_QUOTES
public static final java.lang.String LRB
public static final java.lang.String RRB
public static final java.lang.String LCB
public static final java.lang.String RCB
public static final java.lang.String GREATER
public static final java.lang.String LOWER
public static final java.lang.String AMPERSAND
public static final java.lang.String AT
public static final java.lang.String HTTP
public static final java.lang.String WHITE_SPACE
public static final java.lang.String DIGIT
public static final java.lang.String LETTER
public static final java.lang.String UPPER
public static final java.lang.String SIGN
public static final java.lang.String FULLNUM
public static final java.lang.String DECNUM
public static final java.lang.String NUM
public static final java.lang.String DATE
public static final java.lang.String TIME
public static final java.lang.String PUNC
public static final java.lang.String LETTERS
public static final java.lang.String BLOCK
public static final java.lang.String WORD
public static final java.lang.String ACRONYM
public static final java.lang.String LOOSE_ACRONYM
public static final java.lang.String PAREN
public static final java.lang.String SGML
public static final java.lang.String HTMLCODE
public static final java.lang.String ANY
public static final java.lang.String EMAIL
public static final java.lang.String DOMAIN_EMAIL
public static final java.lang.String URL
public static final java.lang.String SMALL_URL
public static final java.lang.String UNDERSCORESEQ
public static final java.lang.String LIST_BULLET
public static final java.lang.String PHONE_PART
public static final java.lang.String DIGITSEQ
public static final java.lang.String RECOGNISED_PATTERN
public RobustTokenizer(java.lang.String buffer)
public RobustTokenizer(boolean caseInsensitive, java.lang.String buffer)
public static java.lang.String range(java.lang.String s)
public static java.lang.String zeroOrOne(java.lang.String s)
public static java.lang.String zeroOrMore(java.lang.String s)
public static java.lang.String oneOrMore(java.lang.String s)
public static java.lang.String block(java.lang.String s)
public static java.lang.String or(java.lang.String s1, java.lang.String s2)
public static java.lang.String or(java.lang.String s1, java.lang.String s2, java.lang.String s3)
public static java.lang.String or(java.lang.String s1, java.lang.String s2, java.lang.String s3, java.lang.String s4)
public static java.lang.String or(java.lang.String s1, java.lang.String s2, java.lang.String s3, java.lang.String s4, java.lang.String s5)
public static java.lang.String or(java.lang.String s1, java.lang.String s2, java.lang.String s3, java.lang.String s4, java.lang.String s5, java.lang.String s6)
public static java.lang.String or(java.lang.String s1, java.lang.String s2, java.lang.String s3, java.lang.String s4, java.lang.String s5, java.lang.String s6, java.lang.String s7)
public static java.lang.String or(java.lang.String s1, java.lang.String s2, java.lang.String s3, java.lang.String s4, java.lang.String s5, java.lang.String s6, java.lang.String s7, java.lang.String s8)
public static java.lang.String or(java.lang.String s1, java.lang.String s2, java.lang.String s3, java.lang.String s4, java.lang.String s5, java.lang.String s6, java.lang.String s7, java.lang.String s8, java.lang.String s9)
public static java.lang.String or(java.lang.String s1, java.lang.String s2, java.lang.String s3, java.lang.String s4, java.lang.String s5, java.lang.String s6, java.lang.String s7, java.lang.String s8, java.lang.String s9, java.lang.String s10)
public static java.lang.String or(java.lang.String s1, java.lang.String s2, java.lang.String s3, java.lang.String s4, java.lang.String s5, java.lang.String s6, java.lang.String s7, java.lang.String s8, java.lang.String s9, java.lang.String s10, java.lang.String s11)
public static java.lang.String or(java.lang.String s1, java.lang.String s2, java.lang.String s3, java.lang.String s4, java.lang.String s5, java.lang.String s6, java.lang.String s7, java.lang.String s8, java.lang.String s9, java.lang.String s10, java.lang.String s11, java.lang.String s12)
public static java.lang.String rangeNot(java.lang.String s)
public static boolean isUrl(java.lang.String s)
public static boolean isEmail(java.lang.String s)
public static boolean isSgml(java.lang.String s)
public static boolean isSlashDate(java.lang.String s)
public static boolean isAcronym(java.lang.String s)
public static boolean isDigitSeq(java.lang.String s)
public int countNewLines(java.lang.String s, int start, int end)
public Word[] tokenizeToWords()
public java.util.List<RobustTokenizer.WordToken> tokenizeToWordTokens()
protected java.util.List<RobustTokenizer.WordToken> postprocess(java.util.List<RobustTokenizer.WordToken> tokens)
tokens
- public java.lang.String tokenizeText() throws java.io.IOException
java.io.IOException
protected Word getNext()
AbstractTokenizer
getNext
in class AbstractTokenizer<Word>
public static void main(java.lang.String[] argv) throws java.lang.Exception
java.lang.Exception