阅读笔记-计算广告第十章-基础知识准备

计算广告并不是一门独立的学科,它更应该被看成是一个工业界的具体问题。

在进入具体的广告技术和算法之前,先概要性的介绍几个相关领域的技术和算法,为后面的算法章节做铺垫。

1. 信息检索

1.1 倒排索引

倒排索引是现代搜索引擎的核心技术之一,其核心目的是将从大量文档中查找某些词的文档集合这一任务,用o(1)或o(logn)的时间复杂度完成。

假设有如下几篇文档:

D0=“谷歌地图之父跳槽Facebook”
D1=“谷歌地图之父加盟Facebook”
D2=“谷歌地图创始人离开谷歌加盟Facebook”
D3=“谷歌地图创始人跳槽Facebook与Wave项目取消有关”
D4=“谷歌地图创始人拉斯加盟社交网络Facebook”

对每篇文档都进行分词、去除’与’这样的没有实际表意作用的停止词,之后建立一个倒排索引,也就是所有关键词的倒排链集合。表示如下:

谷歌->{D0,D1,D2,D3,D4}
地图->{D0,D1,D2,D3,D4}
之父->{D0,D1}
跳槽->{D0,D3}
……

倒排索引最基本的操作有两项:一是向索引中加入一个新文档,二是给定一个由多个关键词组成的查询时,返回对应的文档集合。

1.2 向量空间模型

向量空间模型考虑将文档向量化表示,是度量文档相似度的主要方法之一,向量空间模型的核心主要有两点,文档的表示方法相似度计算方法。这里使用词袋(bag of words,BoW)假设,
对每个关键词,可以采用TF-IDF表示。

TF-IDF = TF*IDF,其中(图片取自维基百科)


TF

IDF

文档可以表示为
文档矢量

采用BoW的文档表示方法,在计算两个文档相似度时,一般采用其对应矢量的余弦距离:
向量的余弦矩阵

基于上述内容,可以建立起对海量文档进行检索的基本方案。在离线索引阶段,对文档集合进行分词,并按照BoW模型表示得到每个文档的TF-IDF矢量,对分此后的文档集合建立倒排索引。当在线查询到来时,也进行分词,从倒排索引中查出所有符合要求的文档候选,并对其中的每个候选评价其与查询的与仙居路,按距离由小到大进行排序。

2. 最优化方法

比上面的向量空间模型更加有效的计算广告方案,一般就要涉及到与数据挖掘和机器学习相关的算法问题,这一类都可以归为最优化问题。

最优化问题讨论的是,给定某个确定的目标函数,以及该函数自变量的一些约束条件,求解该函数的最大或最小值的问题,这样的问题可以表示为下面的一般形式:
最优化问题的一般形式

其中f(x)是关于自变量的目标函数,而g(x)和h(x)为x的矢量函数。对应着一组不等式和等式约束约束条件。

根据约束条件以及目标函数的性质不同,最优化问题求解的思路也有很大的不同。其中无约束优化问题的方法是基础,而带约束优化问题则在一定条件下可以转化为无约束优化问题来求解,以下对优化方法进行一个梳理。(涉及方法较多,这里不详细展开)

  • 带约束优化方法

    • 拉格朗日法和凸优化
  • 无约束优化方法

    • 不可导或代价极大

      • 下降单纯形法(又称阿米巴变形虫法)
    • 可导

      • 梯度下降法

        • 批梯度下降

        • 随机梯度下降

        • 动量Momentum

        • AdaGrad

  • 拟牛顿法(快速最优化)

3. 统计机器学习

这里很抱歉关于最大熵和EM算法笔者并没有看得太懂,以后有时间会补齐这个部分。

3.1 最大熵与指数族分布

最大熵原理:在某些约束条件下选择统计模型时,尽可能选择满足这些条件的模型中不确定性最大的那个。

3.2 混合模型和EM算法

EM算法是为了解决有隐变量存在时的最大似然估计问题的,每个迭代可以分为E-step和M-step:在E-step阶段,我们将参数变量和观测变量都固定,得到隐变量的后验分布;而在M-step阶段,我们将用得到的隐变量的后验分布和观测变量再去更新参数变量。

4.统计模型分布式优化框架

5.深度学习

深度神经网络并不是近年才有的新模型,要让复杂的网络结构发挥优势,一定要有大量的数据才行。目前开源的神经网络工具软件主要有tensorflow、caffe、mxnet等。

5.1 MLP(多层感知机)

MLP多层感知机示意图

输入层的每一个节点代表一个已知的输入变量,在隐藏层中,每个节点接受前一级的输入,通过一个神经元的非线性变换(称为激活函数),将其映射为一个新变量,经过多层的映射后,输出层负责将最后一个隐藏层的变量加工为最终的输出变量,输出变量有可能是一个,也可能是多个。

5.2 卷积神经网络(CNN)

卷积层

卷积神经网络是一种常见的深度神经网络,主要用于图像处理领域。

图像处理主要有两个特点:

  1. 局部感知。在图像上提取编译、发现物品等操作,往往只需要聚焦在图上的一个局部范围中。
  2. 参数共享。视觉元素的特征与位置无关,因此,在同一层中的不同神经元,可以共享一样的输入变量的权重。

卷积神经网络交替采用采样和卷积对原图像进行变换,从而获得越来越抽象的图像理解能力。假设最后的输出矢量为,
image.png

其softmax映射结果可以表示为:
image.png

神经网络整体优化的损失函数为:
image.png

5.3 循环神经网络(RNN):

循环神经网络主要用于处理时间序列数据的建模,典型例子是语音识别和机器翻译。

下面是RNN的网络结构


循环神经网络

可以看出,RNN在每个t时刻的局部结构是递归重复的、为了便于表达,也可以将其表达为图左侧的形式,其中的黑色方块表示该条边是到下一个时间单元相应位置的输入。在每一个时刻,其更新公式为:


image.png

由于RNN自身的特性,有时会导致反向传播的梯度过大也有可能会导致梯度极小,这会导致优化识别,因此为了解决这些问题,推出了长短时记忆LSTM以及GRU。

5.4 生成对抗网络(GAN):

生成对抗网络GAN

一般来说,虽然发生扰动但人眼可能识别不出来会导致误分类的样本称为对抗样本,利用这种样本可以得到对抗网络,模型既训练正常的样本也训练这种自己造的对抗样本,从而改进模型的泛化能力。

对抗网络通常包含一个生成模型G和一个判别模型D,生成模型用噪声数据生成一个类似真实训练数据的样本,追求效果是尽可能像真实样本,D是一个二分类器,估计一个样本来自训练数据(而非生成数据)的概率。

训练时,通过固定一个模型的参数,更新另一个模型的参数,交替迭代,使对方的错误最大化。最后的目标是使G能准确描述出样本数据的分布。

章节相关名词

  • VSM 向量空间模型 vector space model
  • BoW 词袋 bag of words
  • CNN 卷积神经网络 Convolutional Neural Network
  • RNN 递归神经网络 Recursive Neural Network
  • GAN 生成对抗网络 Generative Adversarial Net
  • IR 信息检索 Information Retrieval
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,036评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,046评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,411评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,622评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,661评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,521评论 1 304
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,288评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,200评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,644评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,837评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,953评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,673评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,281评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,889评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,011评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,119评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,901评论 2 355