一、语义相似度的简介
在很多情况下,直接计算词语之间的相似度非常的困哪,一般情况下,先计算词语之间的距离,再转换为相似度。
语义之间的距离,通常有两种计算方式,一种是通过大量的语料库进行统计,一种是根据某种本体或分类关系。
利用大规模的语料库进行统计,这种基于统计的方法主要将上下文信息的概率分布作为词汇语义相似度的参照依据。基于统计的词语语义相似度计算方法是一种经验主义方法,它把词语相似度的研究建立在可观察的语言事实上。它是建立在两个词语语义相似当且仅当它们处于相似的上下文环境中的这一假设的基础上。它利用大规模语料库,将词语的上下文信息作为语义相似度计算的参照依据。基于统计的定量分析方法能够对词汇间的语义相似性进行比较精确和有效的度量,但是这种方法比较依赖于训练所用的语料库,计算量大,计算方法复杂,另外,受数据稀疏和数据噪声的干扰较大,有时会出现明显的错误。
根据本体或分类关系计算词语语义距离的方法,一般是利用一部同义词词典。一般同义词词典都是将所有的词组织在一棵或几棵树状的层次结构中。在一棵树状图中,任何结点之间有且只有一条路径,于是这条路径的长度就可以作为这两个概念的语义距离的一种度量。有些研究者考虑的情况更复杂。除了节点件的路径长度外,还考虑到了其它一些因素。如:概念层次树的深度,概念层次树的区域密度等等。基于本体或分类关系的计算方法比较简单有效,无需用语料库进行训练,也比较直观,易于理解,但这种方法得到的结果受人的主观意识影响较大,有时并不能准确反映客观事实。
二、基于WordNet语义相似度算法研究
WordNet中的概念是由概念间关系连接在一起的,每个概念都通过关系和其他概念相连,而整个WordNet则是由概念和关系组成的巨大的网络。最上面图是WordNet中部分概念网络结构图。
下图是以"car"和“bag”为主体的概念,得到is_a关系树状分类图