文本表示有很多种,不同的种类对应着不同的应用场景和算法。
基于单词的表示方法有如下几个好处
- 通用性和鲁棒性:可以应用于多种自然语言
- 不需要太多人工操作
- 很多应用中能有很好的效果
- 可以构成更加复杂的表示方法
1. 最基础的词关系分为两种:
paradigmatic relation and syntagmatic relation
聚合关系和组合关系
聚合关系:两个词属于一类词,意思相近,可以相互替换。比如,“猫”和“狗”,“星期一”和“星期二”
组合关系:两个词属于搭配,往往同时出现。比如,“猫”和“坐”,“车”和“驾驶”
这两种基础且互不的关系可以很好地描述一门语言里面个体之间的关系。
2. 为何需要挖掘单词之间的关系?
- 可以提高一些nlp任务的准确率
-- 词性标注,句法分析(parsing),实体识别,缩写辨识
--语法学习 - 在文本检索中能直接使用
-- 文本检索
-- 自动构建浏览内容的主题地图:把词作为顶点,联系作为边
-- 比较和总结观点,比如,哪些词与iphone6“电池”的正面和负面评价联系最强烈
3. 聚合关系
-- 用上下文表示单词
-- 计算上下文的相似性
-- 上下文相似度高的单词更可能具有聚合关系
4. 组合关系
-- 计算文本中两个单词共现频率
-- 对比它们同时出现和单独出现
-- 利用独立性计算它们的出现是否相互独立(比如卡方检验法,概率独立性公式)
- 有聚合关系的单词比较有可能具有相同的组合单词——因此可能同时发现这种关系
5. 词袋模型
忽略文本中单词的顺序,宛如一个装了单词的袋子,因此亦可称作伪文本。
6. Expected Overlap of Words in Context(EOWC)
从直觉上判断,两个文本单词重叠得越多,文本相似度越高。
但是该模型存在两个问题
- 出现频率极高的单词会使得相似度很高
- 对于每种词都是一视同仁的(比如,"the"并没有"eats"这么有意义)
-
把TF进行亚线性转换,使得频率特别高的单词的TF也不会很高
-
提高稀有词的重要性,引入IDF单词权重。
在少数文本出现的词汇更具特征性
- 其中b和k是调整比例的,BM25(w,dl)则是计算平均频率