2021-04-10 ch7 文本表示

文本表示基础

单词和句子的表示

迭代1:one-hot表示
词库:[今天 天气 很好]
句子1:[今天 天气 很好] = [1,1,1]
缺点:没有顺序和权重;稀疏;无法比较语义相似度

迭代2:出现次数
句子1:[今天 天气 很好 很好 啊] = [1,1,2]
缺点:所以,如果只记录单词的个数也是不够的,我们还需要考虑单词的权重,也可以认为是质量。这有点类似于,一个人有很多朋友不代表这个人有多厉害,还需要社交的质量,其实是同一个道理。 那如何把这种所谓的“质量”引入到表示中呢?答案是tf-idf

迭代3:TF-IDF
首先,单词在该篇文档中的频率要高,同时,单词不能出现在过多的文档中。例如,“的”会100%出现在任何一篇文档中,因此 idf("的") = log(100/100) = 0
向量长度为词库的长度
对每一个词库的单词进行计算tfidf(w)

image.png

计算向量相似度
欧氏距离,没有考虑方向;通常使用 余弦相似度

import numpy as np
def cos_sim(a, b):
    """给定两个向量,a和b,计算它俩之间的余弦相似度
    """
    dot_product = np.dot(a,b)
    norm_a = np.linalg.norm(a)
    norm_b = np.linalg.norm(b)
    return dot_product / (norm_a * norm_b)

词向量基础

image.png

image.png

词向量到句向量

mean_pooling

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 文本表示的意思是把字词处理成向量或矩阵,以便计算机能进行处理。文本表示是自然语言处理的开始环节。 文本表示按照细粒...
    dingtom阅读 2,588评论 0 1
  • 自然语言处理中的舆情分析、情感分析有很多种方法,但是基于模型的方法对语料的质量要求高,如果不能弄到高质量的语料,很...
    wong11阅读 15,070评论 4 18
  • 一、文本特征 (一)基本文本特征提取 词语数量常,负面情绪评论含有的词语数量比正面情绪评论更多。 字符数量常,负面...
    cherryleechen阅读 1,804评论 0 1
  • 我是黑夜里大雨纷飞的人啊 1 “又到一年六月,有人笑有人哭,有人欢乐有人忧愁,有人惊喜有人失落,有的觉得收获满满有...
    陌忘宇阅读 8,615评论 28 53
  • 信任包括信任自己和信任他人 很多时候,很多事情,失败、遗憾、错过,源于不自信,不信任他人 觉得自己做不成,别人做不...
    吴氵晃阅读 6,233评论 4 8