搜索实用---中文分词

最近需要实现一个针对学校名字进行搜索的功能,普通来说,就是关键字有什么就匹配起来输出对应的结果可以了。但是实际情况却是,我们提供学校根据关键字搜索,但是很有可能,家长输入的和实际情况大相径庭,比如学校名字叫 南昌市青云谱区好孩子幼儿园,家长输入可能是 好孩子、南昌市好孩子、好孩子的 等,效果是必须都能正确匹配到 南昌市青云谱区好孩子幼儿园 的结果选项。

需要搜索的效果

如果是简单的关键字匹配检索那就存在一个非常到的问题,只有在家长输入关键字百分百都包含的时候(如青云谱区好孩子),才能正确的筛选出学校,输入其他的都是查无结果的,因为 "好孩子的"、"南昌市好孩子" 都不是连续的关键字,不能简单用  like %% 就可以解决。如何能让程序能够正确的理解输入的内容就很关键了。比较中文词义和英文不一样,英文是每个单词之间都有空格,可以很好的拆分,但是中文都是连成一片的,需要智能的算法才可以很好识别词组。

还好就是有牛人能做到别人觉得不可能的事, SCWS 中文分词(http://www.xunsearch.com) 工具能很好的将一连串的中文高度智能的划分出来若干词组,精确度非常的高,能非常好的满足我解决问题的需要。

因为软件是开源的,可以自己部署或者直接调用 API 实现同样的效果。这里我就才用 API 的方式 http://www.xunsearch.com/scws/api.php,仅仅需要提交简单的几个参数就能得到分析完的结果,非常简单实用,然后通过分词后的词组,再分别去数据库或规则匹配包含着的学校名称,就能简单实现结果集大于等于预期想要的结果。





最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 转载请注明:终小南 » 中文分词算法总结 什么是中文分词众所周知,英文是以 词为单位的,词和词之间是靠空格隔开,而...
    kirai阅读 9,971评论 3 24
  • 我好像生了一场大病, 自此我看你的眼神无比的深情, 我始终不肯道出诚恳的誓言, 却又无比渴求你我的圆满。 你只知道...
    糜情阅读 140评论 3 1
  • 将恋爱这个词和猫这个字更换:恋爱摇头晃脑的钻进你的怀里,像猫咪一样温暖。 早晨运动将会延长一整天的代谢率 猫宁 脑...
    垃圾山山头大王阅读 205评论 0 0
  • 又是一天没出门,感觉都快憋黄芽了!儿子是个十足的宅男,从来不主动要求出去玩,但是一旦领他出去玩,就玩疯了,不知道回...
    薇薇冰朵阅读 161评论 0 5