全文检索

概念

从文本或者数据库中,不限定资料字段,自由地萃取出讯息的技术 执行全文检索任务的程式,一般称作搜索引擎, 将使用者随意输入的文字,试图从数据库中,找到符合的内容

相关议题

stemming 语根处理 token parser 符素解析器 word segmentation 断词/分词 inverted index 反向索引

和中文有关的议题:断词,语法解析,古籍议题,多语言混合

算法,搜寻策略的模型

布林式 boolean

统计模型  probabilistic model

向量空间模型 vector base model

隐性语义模型 latent semantic model

开源的全文检索系统

apache solr, BaseX, clusterpoint Server

DataparkSearch,Ferret,Ht-//Dig

Hyper Estraier, KinoSearch

Lemur/Indri  Lucene mnoGoSearch

Sphinx,Swish-e,Xapian,ElasticSearch

优化

stopwords 剔除字 词性标注 authority file 权威档 知识体系,本体论ontology 超链接分析技术page rank

历史和未来发展趋势

自由语句搜寻

引用
全文检索

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容