学习笔记-简单概念记录

  1. 语言模型:衡量一句话是句子的概率
    假设有句子s=w_1w_2,...,w_n,根据语言模型计算s的概率为p(s)=p(w_1)p(w_2|w_1)p(w_3|w_2,w_1),...,p(w_n|w_{n-1},...w_1)
    通常还使用n-gram语言模型计算句子概率
  • 1-gram语言模型(uni-gram model):p(s)=p(w_1)p(w_2),...,p(w_n)
  • 2-gram语言模型(bi-gram model):p(s)=p(w_1)p(w_2|w_1)p(w_3|w_2),...,p(w_n|w_{n-1})
  1. 句子对关系预测-表示模型和交互模型
    参考https://www.cnblogs.com/jiangxinyang/p/11882485.html (文章中有经典模型)
    句子对关系判断一般都两种模型:一是表示式模型,例如孪生网络,DSSM,这类模型的特点是将句子编码成向量,在编码时两个句子可以共享或不共享模型参数,之后再通过余弦,欧式距离等计算两个向量的距离,从而来表示两个句子的相关性;二是交互式模型,交互式模型比表示式模型要复杂,但在预测两个句子的相关性时不仅仅只使用了句子的信息,还使用了词,短语这一类更细粒度的信息,简单说就是在模型构造时会将两个句子中的词和短语做交互。

  2. pointwise & pairwise

  • pointwise:单文档方法的处理对象是单独的一篇文档,将文档转换为特征向量后,机器学习系统根据从训练数据中学习到的分类或者回归函数对文档打分,打分结果即是搜索结果
  • pairwise:Pairwise方法是通过近似为分类问题解决排序问题,输入的单条样本为标签-文档对。对于一次查询的多个结果文档,组合任意两个文档形成文档对作为输入样本。即学习一个二分类器,对输入的一对文档对AB(Pairwise的由来),根据A相关性是否比B好,二分类器给出分类标签1或0。对所有文档对进行分类,就可以得到一组偏序关系,从而构造文档全集的排序关系。该类方法的原理是对给定的文档全集S,降低排序中的逆序文档对的个数来降低排序错误,从而达到优化排序结果的目的。


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章,甚至之后...
    我偏笑_NSNirvana阅读 14,155评论 2 64
  • L2R将机器学习的技术很好的应用到了排序中,并提出了一些新的理论和算法,不仅有效地解决了排序的问题,其中一些算法(...
    Yespon阅读 1,895评论 0 2
  • 本文另两篇系列 NLP的巨人肩膀(上) NLP的巨人肩膀(下) 3. 梯子的一级半 除了在word级别的embed...
    weizier阅读 6,728评论 0 18
  • 通过提取句子和词的神经概要方法 摘要 传统方法提取概要十分依赖人工策划的特征。在这个工作中我们提出由数据驱使的方法...
    __子不语__阅读 1,449评论 0 2
  • 我对爱这个变量的理解 刚才看了马斯克的spacex的火箭返仓视频,深受感动。我认为很多人被感动的点,应该是他的“理...
    silvincent阅读 95评论 0 3