首页 > 未分类 > Sphinx 单词+数字索引

Sphinx 单词+数字索引

2017年9月26日 admin

导读

Sphinx　是一个非常强大的全文搜索引擎，能处理各种复杂的索引请求．但有时候需要一些特殊的设置．

问题

比如文档中有一种词，该词包含了字母和数字，比如(onepiece123)　如果一般情况下直接搜索onepiece或者123的时候，你是得不到这个文档的．

原因

sphinx在处理单词时，把整个词看作一个整体，用关键词搜索的时候也是，比如，搜索词如果是onepiece，那么得到的文档只能是包含了onepiece这个词段(如onepiece 123)的才能被索引到，否则除非直接搜索onepiece123，你是得不到文档onepiece123的．

解决方式

这种时候有两种方式可以解决：

中缀索引

设置中缀索引长度，中缀索引可以让我们进行通配符搜索文档的操作，比如word, word*, *word

min_infix_len

中缀索引长度默认为０，即不做中缀索引，假如设置成一个合适的长度，那么就能根据单词的某一部分查找到对应的文档，比如把min_infix_len　设置为２，　那么文档中包含test的词汇就会被分成　te, es, st tes, est,test这几种(最小长度２)，当我们用关键字es　去搜索的时候，就能命中这个包含test的文档，当然，这也导致了我们的索引文件大小大幅度增加，索引速度降低的问题

为了解决开始的时候我们提到的这种单词带数字的查找，我们可以设置一个比较合适的中缀索引长度，比如８，那么包含onepiece123这个词的文档会被分成onepiece, onepiece1, onepiece12, onepiece123, nepiece12,…等等(按顺序包含至少８个原有字符，不能跳过任意的字母)，这样，当我们搜索oinepiece的时候，　因为原有的oinepiece123文档被分成了包含了onepiece等多个的文档，我们就能命中这个oinepiece123所在的文档了．

设置regexp_filter

该设置允许我们通过正则的方式映射最终的文档格式．那样的话我们就能统一一些常见的单词或者短语的格式了．
比如

'iphone 3gs' , 'iphone 3 gs' (或者甚是 'iphone3 gs')

当我们在搜索这些关键词的时候，我们都希望能命中包含iphone3gs这个文档，我们可以像这样设置索引：

regexp_filter　＝　[(iphone 3gs)| (iphone 3 gs) | (iphone3 gs)] => iphone3gs

这样在创建索引的时候，　所有包含上面三种的iphone　３gs的格式都能映射成iphone3gs，　在搜索iphone3gs的时候，　就能命中所有包含上面三种词的文档了

回归我们的初始问题，这种方式处理单词+数字的索引设置可以这么设置

regexp_filter　＝　(［a-z|A-Z］+)(\d+) =>\1 \2

“\1″和”\2″之间有空格，”\1″对应单词的正则匹配，　”\2″对应数字的正则匹配，中间加了一个空格，这就表示在创建索引的时候单词+数字的文档会被分开.
不过要说明的是，如果想使用这个配置，需要安装一个名叫re2的正则引擎替代系统内置的正则引擎，安装好后重新编译安装sphinx的源码，在./configure的时候带上参数
--with-re2，然后regexp_filter才会有用

这样也能解决单词+数字的搜索问题。

总结

两种方式都能起作用，中缀索引比较简单，但会大幅度增加索引文件的大小和索引的速度.regexp_filter安装正则引擎比较烦，而且要重新编译安装sphinx,　但对索引文件的大小和索引速度的影响较小。

分类: 未分类标签:

本文的评论功能被关闭了.

git 命名大小写修改 fatal: renaming ‘foldername’ failed: Invalid argument解决 mac编译nginx lua模块报 ld: symbol(s) not found for architecture x86_64

Whistle

Sphinx 单词+数字索引

导读

问题

原因

解决方式

中缀索引

设置regexp_filter

总结

近期文章

近期评论

归档

分类

功能

Categories

Blogroll

Archives

Meta