词关联挖掘和分析

Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。

词关联挖掘和分析

Paste_Image.png
  • 什么是词关联?
  • 为何要找出词关联?
  • 如何找出词关联?

基本的词关系:Paradigmatic 纵聚合和 Syntagmatic 横组合关系

  • Paradigmatic: A 和 B 有 paradigmatic 关系,当他们是可以被互相替代的(A 和 B在同样的类别中)
  • E.g., “cat” and “dog”; “Monday” and “Tuesday”
  • Syntagmatic:A 和 B 有 syntagmatic 关系,当他们可以组合在一起(A 和 B 语义相关)
  • E.g., “cat” and “sit”; “car” and “drive”

为何挖掘词关联?

  • 对于提升许多NLP任务的准确性很有帮助
  • POS tagging,parsing,实体识别,首字母缩略展开
  • 语法学习
  • 对文本检索和挖掘中的很多应用直接产生作用
  • 文本检索(例如,使用词关联来推荐一个查询的变体)
  • 自动生成话题导图供浏览使用:词是节点而关联是边
  • 比对和总结观点(例如,哪些词与 iPhone 6 的电池正面和反面评论最为相关?)

挖掘词关联:直觉

Paradigmatic:相似的上下文

Paste_Image.png
  • context("cat") 和 context("dog") 多相似?
  • context("cat") 和 context("computer") 多相似?

Syntagmatic:相关的出现

Paste_Image.png
  • 当“eats”出现,其他什么词也会出现?
  • “eats”出现对预测“meat”出现的帮助多大?
  • “eats”出现对预测“text”出现的帮助多大?

挖掘词关联:一般思路

  • Paradigmatic
  • 使用其上下文来表示每个词
  • 计算上下文的相似度
  • 拥有较高的上下文的相似度的词更加可能有 paradigmatic 关系
  • Syntagmatic
  • 计算两个词共现在一个上下文(如句子或篇章)的次数
  • 比较他们共现和独立出现的次数
  • 高共现数却相对低得独立出现数的词更可能有 syntagmatic 关系
  • paradigmatic 关联的词倾向于与相同的词有 syntagmatic 关系 -> 两种关系的联合发现
  • 这些想法可以用很多不同的方式实现出来
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容