【基础算法】文本相似度计算

在自然语言处理中，文本相似度是一种老生常谈而又应用广泛的基础算法模块，可用于地址标准化中计算与标准地址库中最相似的地址，也可用于问答系统中计算与用户输入问题最相近的问题及其答案，还可用于搜索中计算与输入相近的结果，扩大搜索召回，等等。
基于此，现将几种常见的文本相似度计算方法做一个简单总结，以便后续查阅，本文所有源码均已上传到github。

1.字符串相似度

字符串相似度指的是比较两个文本相同字符个数，从而得出其相似度。
python为我们提供了一个difflib包用于计算两个文本序列的匹配程度，我们可以将其视为两个文本字符串的相似度，其代码实现很简单，如果需要得到两个文本之间相同部分或不同部分，可参考Github：https://github.com/tianyunzqs/pynotes/tree/master/text_diff

import difflib
difflib.SequenceMatcher(None, string1, string2).ratio()

2.simhash相似度

simhash最早是由google在文章《detecting near-duplicates for web crawling》中提出的一种用于网页去重的算法。simhash是一种局部敏感hash，计算速度快，对海量网页文本可实现快速处理。
以下内容主要来源于：https://www.cnblogs.com/xlturing/p/6136690.html，介绍通俗易懂，故摘抄过来。

传统的Hash算法只负责将原始内容尽量均匀随机地映射为一个签名值，原理上仅相当于伪随机数产生算法。传统的hash算法产生的两个签名，如果原始内容在一定概率下是相等的；如果不相等，除了说明原始内容不相等外，不再提供任何信息，因为即使原始内容只相差一个字节，所产生的签名也很可能差别很大。所以传统的Hash是无法在签名的维度上来衡量原内容的相似度，而SimHash本身属于一种局部敏感哈希算法，它产生的hash签名在一定程度上可以表征原内容的相似度。

我们主要解决的是文本相似度计算，要比较的是两个文章是否相似，当然我们降维生成了hash签名也是用于这个目的。看到这里估计大家就明白了，我们使用的simhash就算把文章中的字符串变成 01 串也还是可以用于计算相似度的，而传统的hash却不行。

我们可以来做个测试，两个相差只有一个字符的文本串，
“你妈妈喊你回家吃饭哦，回家罗回家罗”
“你妈妈叫你回家吃饭啦，回家罗回家罗”。
通过simhash计算结果为：
1000010010101101111111100000101011010001001111100001001011001011
1000010010101101011111100000101011010001001111100001101010001011
通过传统hash计算为：
0001000001100110100111011011110
1010010001111111110010110011101

通过上面的例子我们可以很清晰的发现simhash的局部敏感性，相似文本只有部分01变化，而hash值很明显，即使变化很小一部分，也会相差很大。

基本流程

分词，把需要判断文本分词形成这个文章的特征单词。最后形成去掉噪音词的单词序列并为每个词加上权重，我们假设权重分为5个级别（1~5）。比如：“ 美国“51区”雇员称内部有9架飞碟，曾看见灰色外星人 ” ==> 分词后为 “ 美国（4） 51区（5）雇员（3）称（1）内部（2）有（1） 9架（3）飞碟（5）曾（1）看见（3）灰色（4）外星人（5）”，括号里是代表单词在整个句子里重要程度，数字越大越重要。

hash，通过hash算法把每个词变成hash值，比如“美国”通过hash算法计算为 100101,“51区”通过hash算法计算为 101011。这样我们的字符串就变成了一串串数字，还记得文章开头说过的吗，要把文章变为数字计算才能提高相似度计算性能，现在是降维过程进行时。

加权，通过 2步骤的hash生成结果，需要按照单词的权重形成加权数字串，比如“美国”的hash值为“100101”，通过加权计算为“4 -4 -4 4 -4 4”；“51区”的hash值为“101011”，通过加权计算为 “ 5 -5 5 -5 5 5”。

合并，把上面各个单词算出来的序列值累加，变成只有一个序列串。比如 “美国”的 “4 -4 -4 4 -4 4”，“51区”的 “ 5 -5 5 -5 5 5”，把每一位进行累加， “4+5 -4+-5 -4+5 4+-5 -4+5 4+5” ==》 “9 -9 1 -1 1 9”。这里作为示例只算了两个单词的，真实计算需要把所有单词的序列串累加。

降维，把4步算出来的 “9 -9 1 -1 1 9” 变成 0 1 串，形成我们最终的simhash签名。如果每一位大于0 记为 1，小于0 记为 0。最后算出结果为：“1 0 1 0 1 1”。

整个过程的流程图为：

hashcode生成过程

simhash的主要思想是将高维的特征向量（文本可转换为高维向量表示）映射成低维的特征向量，通过计算两个向量的汉明距离(Hamming Distance)来确定文本的相似度。
其中，汉明距离，表示在两个等长字符串中对应位置不同字符的个数。如，1011100 与 1001000 之间的汉明距离是 2。而字符串的编辑距离则是汉明距离的扩展。

根据以上simhash算法的流程描述，利用tfidf值表示词语的权重，实现simhash计算文本相似度代码如下

# -*- coding: utf-8 -*-
# @Time        : 2019/6/25 15:58
# @Author      : tianyunzqs
# @Description : 

import codecs
import numpy as np
import jieba.posseg as pseg


def load_stopwords(path):
    return set([line.strip() for line in open(path, "r", encoding="utf-8").readlines() if line.strip()])


stopwords = load_stopwords(path='stopwords.txt')


def string_hash(source):
    if not source:
        return 0

    x = ord(source[0]) << 7
    m = 1000003
    mask = 2 ** 128 - 1
    for c in source:
        x = ((x * m) ^ ord(c)) & mask
    x ^= len(source)
    if x == -1:
        x = -2
    x = bin(x).replace('0b', '').zfill(64)[-64:]
    return str(x)


def load_idf(path):
    words_idf = dict()
    with codecs.open(path, 'r', encoding='utf-8') as f:
        lines = f.readlines()
        for line in lines:
            parts = line.strip().split('\t')
            if len(parts) != 2:
                continue
            if parts[0] not in words_idf:
                words_idf[parts[0]] = float(parts[1])

    return words_idf


words_idf = load_idf(path=r'idf.txt')


def compute_tfidf(text):
    words_freq = dict()
    words = pseg.lcut(text)
    for w in words:
        if w.word in stopwords:
            continue
        if w.word not in words_freq:
            words_freq[w.word] = 1
        else:
            words_freq[w.word] += 1

    text_total_words = sum(list(words_freq.values()))

    words_tfidf = dict()
    for word, freq in words_freq.items():
        if word not in words_idf:
            continue
        else:
            tfidf = words_idf[word] * (freq / text_total_words)
            words_tfidf[word] = tfidf

    return words_tfidf


def get_keywords(text, topk):
    words_tfidf = compute_tfidf(text)
    words_tfidf_sorted = sorted(words_tfidf.items(), key=lambda x: x[1], reverse=True)
    return [item[0] for item in words_tfidf_sorted[:topk]]


def hamming_distance(simhash1, simhash2):
    ham = [s1 == s2 for (s1, s2) in zip(simhash1, simhash2)]
    return ham.count(False)


def text_simhash(text):
    total_sum = np.array([0 for _ in range(64)])
    keywords = get_keywords(text, topk=2)
    for keyword in keywords:
        v = int(words_idf[keyword])
        hash_code = string_hash(keyword)
        decode_vec = [v if hc == '1' else -v for hc in hash_code]
        total_sum += np.array(decode_vec)
    simhash_code = [1 if t > 0 else 0 for t in total_sum]
    return simhash_code


def simhash_similarity(text1, text2):
    simhash_code1 = text_simhash(text1)
    simhash_code2 = text_simhash(text2)
    print(simhash_code1, simhash_code2)
    return hamming_distance(simhash_code1, simhash_code2)


if __name__ == '__main__':
    print(simhash_similarity('在历史上有著许多数学发现', '在历史上有著许多科学发现'))

而simhash算法已有对应python包——simhash，安装即可实现simhash相似度计算

pip install simhash

利用simhash包，计算文本相似度示例代码

# -*- coding: utf-8 -*-
# @Time        : 2019/6/25 15:58
# @Author      : tianyunzqs
# @Description : 

from simhash import Simhash


def simhash_similarity(text1, text2):
    """
    :param text1: 文本1
    :param text2: 文本2
    :return: 返回两篇文章的相似度
    """
    aa_simhash = Simhash(text1)
    bb_simhash = Simhash(text2)
    max_hashbit = max(len(bin(aa_simhash.value)), (len(bin(bb_simhash.value))))
    # 汉明距离
    distince = aa_simhash.distance(bb_simhash)
    similar = 1 - distince / max_hashbit
    return similar


if __name__ == '__main__':
    print(simhash_similarity('在历史上有著许多数学发现', '在历史上有著许多科学发现'))

3.word2vec相似度

word2vec是对词语进行向量化的一种无监督算法，具体介绍与tensorflow实现可参考：【基础算法】word2vec词向量
word2vec相似度是指利用word2vec算法将文本向量化，进而利用余弦距离计算两个向量的余弦相似度作为两字符串的相似度。

    def sentence_similarity_word2vec(self, sentence1, sentence2):
        sentence1 = sentence1.strip()
        sentence2 = sentence2.strip()
        if sentence1 == sentence2:
            return 1.0
        vec1 = self.get_sentence_vector(sentence1)
        vec2 = self.get_sentence_vector(sentence2)
        return self.cosine_similarity(vec1, vec2)

word2vec对文本的向量化是将文本分词后，得到各词语的向量化表示，然后对向量的每个维度进行加权相加，形成文本向量，进而可利用余弦距离计算文本的相似度。

    def get_sentence_vector(self, sentence):
        words = self.text_segment(sentence)
        words_vec = [self.get_word_vector(word) for word in words]
        return np.mean(words_vec, axis=0)


    @staticmethod
    def cosine_similarity(vec1, vec2):
        tmp1, tmp2 = np.dot(vec1, vec1), np.dot(vec2, vec2)
        if tmp1 and tmp2:
            return np.dot(vec1, vec2) / (np.sqrt(tmp1) * np.sqrt(tmp2))
        return 0.0

完整代码，可参考Github

4.神经网络相似度

利用神经网络进行相似度计算的一种思路是将输入X编码为中间向量V，然后对中间结果进行解码得到输出Y，其中损失函数的计算方式就是尽可能减少X与Y之间的偏差，理想情况就是中间向量V能完全解码还原为原始输入X。网络训练完成后，我们也就得到了输入句子所表示的语义特征向量。

根据上述思路，我们自然可以联想到最基础的自编码器(AutoEncoder, AE)，当然还有其他更复杂的自编码器（如：栈式自编码器(Stacked Autoencoder, SAE)、变分自编码器(Variational auto-encoder, VAE)等）。

AutoEncoder能很好的编码句子中所包含的语义信息，可以在一定程度上解决字符串相似度计算中所缺乏的语义理解问题和word2vec相似度计算中所缺乏的词序问题。本文基于tensorflow实现了基础版本的自编码器，模型代码如下，完整的项目代码可参考Github

class AutoEncoder(object):
    def __init__(self,
                 embedding_size,
                 num_hidden_layer,
                 hidden_layers):
        assert num_hidden_layer == len(hidden_layers), 'num_hidden_layer not match hidden_layers'
        self.embedding_size = embedding_size
        self.num_hidden_layer = num_hidden_layer
        self.hidden_layers = hidden_layers
        self.input_x = tf.placeholder(tf.float32, [None, embedding_size])
        new_hidden_layers1 = [embedding_size] + hidden_layers + hidden_layers[::-1][1:]
        new_hidden_layers2 = hidden_layers + hidden_layers[::-1][1:] + [embedding_size]
        encoder_weights, encoder_biases, decoder_weights, decoder_biases = [], [], [], []
        for i, (hidden1, hidden2) in enumerate(zip(new_hidden_layers1, new_hidden_layers2)):
            if i < int(len(new_hidden_layers1) / 2.0):
                encoder_weights.append(tf.Variable(tf.random_normal([hidden1, hidden2])))
                encoder_biases.append(tf.Variable(tf.random_normal([hidden2])))
            else:
                decoder_weights.append(tf.Variable(tf.random_normal([hidden1, hidden2])))
                decoder_biases.append(tf.Variable(tf.random_normal([hidden2])))

        with tf.name_scope('output'):
            self.encoder_output = self.encoder_or_decode(self.input_x, encoder_weights, encoder_biases)
            self.decoder_output = self.encoder_or_decode(self.encoder_output, decoder_weights, decoder_biases)

        with tf.name_scope('loss'):
            self.loss = tf.reduce_mean(tf.pow(self.input_x - self.decoder_output, 2))

        self.global_step = tf.Variable(0, name="global_step", trainable=False)
        tf.summary.scalar('loss', self.loss)
        self.merge_summary = tf.summary.merge_all()
        self.saver = tf.train.Saver()

    @staticmethod
    def encoder_or_decode(input_data, encoder_weights, encoder_biases):
        layer_output = [input_data]
        for weight, biase in zip(encoder_weights, encoder_biases):
            layer_output.append(tf.nn.sigmoid(tf.add(tf.matmul(layer_output[-1], weight), biase)))
        return layer_output[-1]

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,530评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,403评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,120评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,770评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,758评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,649评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,021评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,675评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,931评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,751评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,410评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,004评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,969评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,042评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,493评论 2赞 343

【基础算法 】文本相似度计算

1.字符串相似度

2.simhash相似度

3.word2vec相似度

4.神经网络相似度

推荐阅读更多精彩内容

【基础算法】文本相似度计算