Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。
paradigmatic 关系发现
词上下文作为“伪文档”
- 上下文 = 伪文档 = BOW
- 上下文可能包含邻接或者非邻接得词
衡量上下文相似度
高 sim(word1, word2) 意味着 这两个词更加的 paradigmatic 相关
从 BOW 到 VSM 向量空间模型
其中 N 为词典的规模,所以每个伪文档 pseudo doc("cat") 就是一个上下文的向量表示。图中可以看到 d1 和 d2 分别表示了两个上下文向量。图里面省略了若干的维度,为了能够有比较好的展示效果,便画成了3维。请注意这点,看看 word 的下标是从 1 到 N 的。
用于 paradigmatic 关系挖掘的 VSM
如何计算每个向量,也就是向量的每个元素如何确定。这个地方有很多的处理手段(大多数都是来自文本检索的方法)
Expected Overlap of Words in Context (EOWC)
翻译出来就是 在上下文中词重叠的期望。
向量中的每个维度的元素,就是从 d 中随机选出 wi 的概率。这个概率通过在 d 中出现的词 wi 的数目除以 d 中所有的词的数目得到。
然后上下文的相似度就由这两个向量的内积算出。
EOWC 性能如何?
- 直觉上看,讲得通:两个上下文文档拥有更多的重叠,那么会有更高的相似度。
- 然而:
- 这个方法对于匹配一个频繁项非常有效,而匹配更多不同的项效果不好
- 同等地对待每个词(在“the”上的重叠相比于“eats”效果应当不同,而EOWC不能区分)
使用信息检索的启发式规则来提升 EOWC
- 对上面的倾向于匹配频繁项的问题:使用 TF(term frequency)的亚线性变换
- 对上面的同等对待每个词的问题:对于稀有词增加权重:IDF 项权重
TF 变换:c(w,d) -> TF(w,d)
可以看到使用亚线性作用后出现次数很多的那些词的 TF值实际上会有一个限度
TF 变换:改装 BM25 检索模型
IDF 权重:惩罚频繁的项
IDF 也即是 inverse document frequency,在信息检索中是常见的度量
将 BM25 检索模型用于 paradigmatic 关系挖掘
相似度就如上图定义
BM25 也可以发现 syntagmatic 关系
词 w 的上下文向量的高权重项更可能 syntagmatic 关联于 w
总结
- 用来发现 paradigmatic 关系的主要思想
- 收集候选词的上下文形成一个伪文档(BOW)
- 计算两个词对应的上下文文档之间的相似度
- 高相似度的词对推测有 paradigmatic 关系
- 实现的方法有很多种
- 文本检索模型可以轻易地转化成计算两个上下文文档的相似度
- BM25 + IDF 权重是目前的 the state of the art
- Syntagmatic 关系同样可以发现(作为副产品)