分类问题

k 近邻分类法

非线性地分类方法

1,怎么选择距离  2,在样本量大地时候计算量很大,3, k的选择(应该用交叉验证)

对每个测试样本,时间是O(n),如果有m个测试样本的话,就是O(mn)太大了。采用kd树来作为存储的数据结构加快搜索。



如图,每一次做二分的标准是,两边差不多一样多。然后终止的标准是,叶节点里个数小于等于阈值。这样的话来一个新的测试样本可以很快确定在哪个叶节点。


缺点:训练集非常大的时候,泛化误差是bayes error rate的两倍。

           训练集小的时候过拟合。

优点:对于异常值不敏感,鲁棒


=====

决策树分类法

决策树的终止条件:某个节点中只属于某个类别(分类)或者方差很小(回归)

决策树每步决策两个要考虑的:1.到底选择哪个特征去分裂  2.这个特征下到底用什么标准去分裂

一般也不想要特别深的决策树,矮一点更好。


不纯度:每个阶段可以计算不纯度:越高的话代表越不纯,也就是这个节点里面类别很多。如果只有一个类别,不纯度就会最低。所以分裂要朝着不纯度下降很快的放下走着。



决策树还需要剪枝,如果分太细会过拟合

预剪枝:设定一个阈值下限。

后剪枝:弄完决策树之后再减。

需要平衡纯度(拟合度)和树的大小(复杂度)。\operatorname{cost}_{\alpha}(T)=\sum_{t=1}^{|T|} n_{t} \operatorname{Imp}(t)+\alpha|T| 



优点:可解释性好!

缺点:模型不稳定,方差大。改变训练集会导致性能变化。(集成方法解决)

           容易陷入局部最优解(贪心算法)

           决策边界是垂直坐标轴的,准确性会比较差。



三种度量不纯度的方法:

Gini   \operatorname{Gini}(t)=1-\sum_{c=1}^{C}[p(c | t)]^{2}  p是频率。当每个类别频率一样的时候是(1-1/C) 当只有一个类别的时候是0.

信息熵  \text { Entropy }(t)=-\sum_{c=1}^{C} p(c | t) \log _{2} p(c | t)  如果均匀分布  最大,是log 2 C ,如果只有一个类,是0 最小。

信息增益是: \text { InfoGain }=\text { Entropy }\left(t_{0}\right)-\sum_{k=1}^{K} \frac{n_{k}}{n} \text { Entropy }\left(t_{k}\right)  

但是实际上,我们仅仅用这个信息增益会容易把叶节点分出很多来,就导致过拟合。

所以\text { InfoGainRatio }=\frac{\text { InfoGain }}{\text { SplitInfo }}=\frac{\text { Entropy }\left(t_{0}\right)-\sum_{k=1}^{K} \frac{n_{k}}{n} \text { Entropy }\left(t_{k}\right)}{-\sum_{k=1}^{K} \frac{n_{k}}{n} \log _{2}\left(\frac{n_{k}}{n}\right)} (信息增益率)是一个更好的选择,避免分的太细了。

错误分类率\text { Error }(t)=1-\max (p(1 | t), p(2 | t), \cdots, p(C | t))

名字含义:如果按照当前组内最多数来确定类别,错误分类的概率。



只有两类的时候三种指标的示意图。可以看到用信息熵的话,对不良分类的惩罚是最大的。所以会倾向于分到很细很细的情况。


=====

机器学习framework/神经网络

我们的假设集不能太大也不能太小,overfit/不能拟合

如果\mathbb{P}_{\left\{x_{1}, \cdots, x_{n}\right\} \sim D^{n}}\left[R\left(h_{n}\right) \leq \epsilon\right] \geq 1-\delta 其中

R\left(h_{n}\right)=\mathbb{P}\left[h_{n}(x) \neq c(x)\right]=\mathbb{E}\left[1_{n_{n}(x) \neq c(x)}\right]  hn是算法返回的函数,这样就是PAC可以学习的。

能否把泛化误差表示成训练误差和假设集复杂度的函数

固定一个假设函数h,那么以1-delta的概率有

R(h) \leq \hat{R}(h)+\sqrt{\frac{\log \frac{2}{\delta}}{2 n}}

如果想要对某个有限的假设集里的h都成立,也就是以1-delta的概率有

\max _{h \in H}[R(h)-\hat{R}(h)] \leq \sqrt{\frac{\log |H|+\log \frac{2}{\delta}}{2 n}}

可见,n越大,那么经验误差和泛化误差就会很接近

神经网络缺陷:

不能训练未标注的数据,但现实中大多数数据都是未标注的。

修正信号在通过多个隐藏层传输时被减弱

当包含的隐藏层过多时,学习速度太慢

会陷于局部最优解

=====

SVM方法

间隔最大化的方法是最好的方法:

SVM :使得训练点到分割超平面的最小距离最大

=====

朴素贝叶斯方法

假设了特征条件独立

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,295评论 6 512
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,928评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,682评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,209评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,237评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,965评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,586评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,487评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,016评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,136评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,271评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,948评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,619评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,139评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,252评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,598评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,267评论 2 358

推荐阅读更多精彩内容