Solr有两种commit的方式
- hard commit(又叫normal commit)
- soft commit
hard commit
在对hard commit进行说明之前需要对transaction log进行说明
transaction log(tlog)
tlog的作用是保证数据的一致性(类似于Oracle中的Redo log),避免应用非正常关闭时的数据丢失。
commit操作时会将数据写入到tlog中,然后tlog会将数据的修改反映在索引库中。遇到应用非正常关闭的情况,在应用启动时,系统会将tlog中未操作的数据先写入到索引库中。如果tlog中有大量的未操作的数据,系统启动时恢复的时间会很长。
openSearcher选项
在commit完成后,是否开启新的searcher,以便能够搜索到新的数据。
开启新searcher时,过期旧searcher的cache(如filterCache, queryResultCache等),对新searcher进行Autowarming操作。
配置
<autoCommit>
<maxTime>600000</maxTime>
<maxDocs>50000</maxDocs>
<openSearcher>true</openSearcher>
</autoCommit>
soft commit
soft commit是solr 4.0中提供的新功能,soft commit是实现Solr的near real time search(NRT)功能的基础
soft commit保证数据的可见性,无论此时数据是否保存在索引库中。
soft commit后将会开启新的searcher,过期旧searcher的cache(如filterCache, queryResultCache等),对新searcher进行Autowarming操作。
如果数据量大,Autowarming操作的时间会很长。一旦Autowarming操作的时间大于soft commit的时间(新的searcher还没有创建完毕,有需要创建更新的searcher),将会一直打开新的searcher,系统资源将会耗尽。因此对于数据量大的应用尽可能的增加soft commit的时间。
配置
<autoSoftCommit>
<maxTime>1000</maxTime>
</autoSoftCommit>
应用场景
索引库中数据量超大的情况
大大增加soft commit的时间,避免open too much searcher的问题。
索引数据量大
避免因为应用非正常关闭引起的启动恢复时间过长的情况,将hard commit时间尽可能的减少,如15秒。将openSearcher的值设为false。
总结
- Hard commits are about durability, hard commit实际上是将tlog中的修改写入到Lucene index中
- soft commits are about visibility,soft commit后的开启的new searcher能够检索到新的数据
两者结合着使用,既能保证数据的完整性,又能确保速度。