概念
从文本或者数据库中,不限定资料字段,自由地萃取出讯息的技术 执行全文检索任务的程式,一般称作搜索引擎, 将使用者随意输入的文字,试图从数据库中,找到符合的内容
相关议题
stemming 语根处理 token parser 符素解析器 word segmentation 断词/分词 inverted index 反向索引
和中文有关的议题:断词,语法解析,古籍议题,多语言混合
算法,搜寻策略的模型
布林式 boolean
统计模型 probabilistic model
向量空间模型 vector base model
隐性语义模型 latent semantic model
开源的全文检索系统
apache solr, BaseX, clusterpoint Server
DataparkSearch,Ferret,Ht-//Dig
Hyper Estraier, KinoSearch
Lemur/Indri Lucene mnoGoSearch
Sphinx,Swish-e,Xapian,ElasticSearch
优化
stopwords 剔除字 词性标注 authority file 权威档 知识体系,本体论ontology 超链接分析技术page rank
历史和未来发展趋势
自由语句搜寻
引用
全文检索