文本搜索字典
Apache Cloudberry 的全文搜索解析器生成的词元(token)会依次传递给一系列字典,用于生成标准化的术语,即“词素”(lexeme)。可使用不同类型的字典,以适应不同语言并按需对词元进行过滤和转换。
本节包含以下子主题:
关于文本搜索字典
字典的作用是过滤掉不应参与搜索的词(即停用词),并将词语标准化,使相同词的不同派生形式能匹配在一起。标准化后的词称为词素(lexeme)。除了提升搜索质量,词的标准化和停用词移除还能减少 tsvector
表示文档时的大小,从而提高性能。标准化未必具备语言学含义,更多取决于应用语义。
一些标准化示例:
- 语言层面:Ispell 字典尝试将输入词还原为标准形式;词干提取(stemmer)字典会去除词尾;
- URL 标准化:可将等价的链接转换为统一形式,例如:
http://www.pgsql.ru/db/mw/index.html
http://www.pgsql.ru/db/mw/
http://www.pgsql.ru/db/../db/mw/index.html
- 颜色名称可转换为十六进制值,如:
red
,green
,blue
,magenta
→FF0000
,00FF00
,0000FF
,FF00FF
- 如果索引的是数字,可去除小数部分以减少取值范围,例如:
3.14159265359