Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。
情感分类
当我们知道 观点持有者、目标、内容和上下文的时候,就可以尝试进行 观点的情感分析了
任务的定义
- 输入: 包含观点的文本对象
- 输出:观点的标签
- 极性分析:如 正面 反面 中立;{5, 4, 3, 2, 1}
- 情感分析:如 高兴 悲伤 恐惧 愤怒 惊奇 反感
- 这是文本分类一种特殊情形:任何文本分类的方法都可以被用作情感分类
- 更多的提升
- 更加细致精密的特征选择
- 考虑分类的顺序(ordinal regression)
经常使用的文本特征
- 字符的n-gram:可以混合使用不同的 n
- 更加通用,不受拼写识别的错误影响,但是相比于词区分度低
- 词的n-gram:可以混合使用不同的 n
- unigram 不适合情感分类(比如 it's not good 或者 it's not as good as)
- 长的 n-gram 区分度好,但也会造成 过匹配
- POS tag n-gram:将词和位置的tag混合使用
- 如 “ADJECTIVE NOUN” 或者 great NOUN
- 词的类别
- 语法(=POS tag)
- 语义概念:如 thesaurus/ontology, 已经识别的实体
- 经验上的词聚类(e.g., cluster of paradigmatically or syntagmatically related words)
- 文本中频繁模式(如 频繁词集合,collocations)
- 比词更加具体和具有区分度
- 比纯的 n-gram 泛化性更好
- 分析树(频繁的子树,路径)
- 更加具有区分度,不过也需解决过匹配的问题
- 模式发现算法在特征构造的过程中非常有用
NLP 增强了文本表示,获得更加复杂的特征
用作文本分类的特征构造
- 特征设计显著影响分类的准确性
- 机器学习、误差分析和领域知识的并用更加有效
- 领域知识:种子特征 特征空间
- 机器学习:特征选择 特征学习
- 误差分析:特征验证
- NLP 增强了文本的表示:特征空间(更可能会过匹配)
- 优化 the tradeoff between exhaustivity and specificity