太多了不想写了,随便写了两个,这个根据需要去官网看文档吧。
ASCII Folding Token Filter
转为Ascii码等效项。
Length Token Filter
删除过长、过短的字词。
| 参数 | 说明 |
|---|---|
| min | 最小数值. 默认 0. |
| max | 最大数值. 默认 Integer.MAX_VALUE. |
Lowercase Token Filter
小写词元。
| 参数 | 说明 |
|---|---|
| language | greek, irish, turkish |
Uppercase Token Filter
大写词元
NGram Token Filteredit
nGram词元过滤器。
| 参数 | 说明 |
|---|---|
| min_gram | 默认为1。 |
| max_gram | 默认为2。 |
Edge NGram Token Filter
edgeNGram词元过滤器。
| 参数 | 说明 |
|---|---|
| min_gram | 默认为1。 |
| max_gram | 默认为2。 |
| side | 已弃用。front或back,默认front。 |
Stop Token Filteredit
删除停止词。
| 参数 | 说明 |
|---|---|
| stopwords | 停止词列表。默认_english_。 |
| stopwords_path | 停止词文件。 文件路径相对于config目录或使用绝对路径。 每个停止词必须单独一行。 文件为UTF-8编码。 |
| ignore_case | 设为true所有词被转为小写。默认false。 |
| remove_trailing | 设置为false忽略最后一个字词是停止词的情况。默认true。 |