《机器学习》(入门1-2章)

开篇前话

      这篇笔记适合机器学习初学者，我是加入了一个DC算法竞赛的一个小组，故开始入门机器学习，希望能够以此正式进入机器学习领域。
      在网上我也找了很多入门机器学习的教程，但都不让人满意，是因为没有一个以竞赛的形式来进行教授机器学习的课程，但我在DC学院上看到了这门课程，而课程的内容设计也是涵盖了大部分机器学习的内容，虽然不是很详细，但能够系统的学习，窥探机器学习的“真身”。
      学完这个我想市面上的AI算法竞赛都知道该怎么入手了，也就进入了门槛，但要想取得不错的成绩，那还需努力，这篇仅是作为入门课已是足够。虽然带有点高数的内容，但不要害怕，都是基础内容，不要对数学产生恐慌，因为正是数学造就了今天的繁荣昌盛。

1.机器学习概论

1.1机器学习案例

可以像高手一样玩游戏
可以进行艺术创作
无人驾驶领域的应用
语音交互
商品推荐

1.2人工智能的基本内容

基本技术：知识表示、推理、搜索、规划
主要研究方向和应用：
- 机器感知：机器视觉、听觉、翻译、自燃语言理解
- 机器思维：机器推理
- 机器学习：符号学习、连接学习
- 机器行为：智能控制
- 计算智能：神经网络、模糊系统、进化计算
- 分布智能：多个体、群体智能
- 数据挖掘：知识发现、大数据
- 情感计算：情感识别、人机交互
- 脑机借口：意念识别、控制、疾病治疗
- 智能应用：博弈、自动定理、自动程序设计、专家系统、智能决策、智能机器人、交通、电力、建筑、设计等。

1.3机器学习分类

监督学习(supervised learning)：
1.在监督学习中，每组训练数据都有已知的特征(feature)及其对应的标记。
2.目标就是根据这些训练数据，寻找正确的特征与标记之间的对应关系。
3.在建立模型的过程中，监督学习将预测的结果与训练数据的标记结果作比较，不断的调整模型，直到准确率达到预期值。

监督学习分类.png
非监督学习
1.在非监督学习中，每组训练数据只有都有已知的特征，并未做任何标记。
2.需要通过模型找到数据中隐藏的结构。

非监督学习.png
增强学习(reinforcement learning)
又称强化学习，是一种基于奖励(reward)或惩罚(punish)，从而使模型不断调整自己来达到预期效果的方法。

增强学习.png
其它

其它学习算法.png

2.机器学习基础

2.1Numpy和Pandas的使用

这两种都是Python库

Numpy：Numpy适用于处理基本的数值计算，其中使用最多的就是矩阵计算功能。
Pandas：Pandas库的数据处理功能建立在Numpy库的基础之上，两者相辅相成。Pandas适用于处理包含不同变量类型(整数、浮点)的表格数据，和Matlab不同，Python的索引是从0开始的。

2.2Numpy的使用

导入Numpy的包import numpy

定义数组：a=numpy.array([1,2,3])
获取数组长度：a.shape --输出不确定的一纬序列。
获取数组元素：a[0] a[-1]表示最后一个元素
二维数组：a=numpy.array(([1,2,3],[4,5,6])) 2行3列数组
这时a.shape输出(2,3)表示2行3列。
全0的二维数组：a=numpy.zeros([2,3])
全1的二维数组：a=numpy.ones([2,3])
全是某个数组：a=numpy.full([2,3],7)
生成单位矩阵(行列相同，对角线为1，其它为0的举证)：a=numpy.eye(10)
生成随机矩阵：a=numpy.random.random([2,3])
区域矩阵获取：a=a[0:2,0:2]表示从第1行到第2行，不包括第3行开始，取第1列到第2列但不包括第3列的矩阵。a[1:]冒号后面不接的话就是到最后一项。
跳着获取索引：a=a[::2]表示间隔2个值获取。
自定义索引：
b=numpy.array([1,2,4])
a[b]表示获取a中的第2,3,5位的数字。
查看数据类型：a.dtype
强制类型转换：a.dtype=int
幂次方：a**b 表示a的b次方。
开根号：numpy.sqrt(a)
举证乘法：
a=numpy.array([1,2])
b=numpy.array([3,4])
a.dot(b) 表示1*3+2*4=11
矩阵的转制：a.T
矩阵同行相加：numpy.sum(a,axis=0)
生成等差数列：numpy.arange(0,10,1,dtype=int) 不包括stop的位置
等比数列：numpy.logspace(1,10,10,base=2) 1开始以比为2的10个等比数列

2.3Pandas的使用

导入Pandas的包import pandas 可以说是python中的Excel。

创建数组：pandas.Series([1,2,3]) 第一列为索引，第二列为数值
a=pandas.DataFrame(numpy.arange(12),reshape(3,4))
a[1] 为提取第一列
a.iloc[0] 为提取第一行
标准DataFrame：pandas.DataFrame(numpy.arange(16),reshape(4,4),
columns=['col1','col2','col3','col4'],
index=['a','b','c','d'])
columus表示列名，index表示行名。
a['col1'] 获取第一列
获取头几行：a.head(2) 获取前2行
a.tail(2) 获取最后2行
查看df的详细信息：a.describe()
矩阵的转制：a.T
添加特征(添加列)：a['col5']=[1,2,3,4]
删除列：del a['col5']
获取列名和行名：a.columns a.index
直接查看数据：a.values
索引获取数据：a.loc[['a','b'],['col1','col2']] 通过名称获取
a.iloc[0] 通过下标获取
读取文件：pandas.read_csv('/data.csv')
查看文件属性：a.info()
写入文件：a.to_csv('/data.csv',index=false)
删除特征为空的行：a.dropna()
删除特征为空的列：a.dropna(axis=1,how='any')
空值替换：a.fillna(0)
空值用均值替换：a.fillna(a['col4'].mean())
a.fillna(a['col4'].median()) 众数去替换

2.4线性代数和微积分基础

2.4.1向量基础

标量：表示一个单独的数。
向量：一个同时具有大小和方向的几何对象。
向量的模：表示向量的长度。

向量长度.png
向量的范数：向量长度的不同表达

向量的范数.png

1范数：向量各个维度的绝对值求和。
2范数：向量的模
无穷范数：各个维度绝对值的最大值
向量加法：

向量加法.png
向量数乘：

向量数乘.png
向量的乘积--点积：

点积.png
机器学习中常用的公式

公式.png

2.4.2矩阵基础

矩阵乘法--点积：要求a的n列等于b的n行，也就是a的行乘以b的列。

矩阵乘法.png
矩阵乘法--元素积：python代码为multiply(a,b)

元素积.png
矩阵的转置：矩阵中的数对角线进行交换。

矩阵的转置.png

2.4.3数学中的符号与运算

最大化参数(没看明白)：

最大化参数.png

2.4.4微分

微分：在数学中，微分是对函数的局部变化率的一种线性描述。
导数：

常见导数.png
微分的基本法则：

基本法则.png

2.5概率基础

古典概率：实验的全部可能结果只有有限个，且两两不相容。
事件发生的概率是相等的。
条件概率：在A事件发生的情况下，B事件发生的概率，表示A和B有交集。
联合分布：表示2个不相关的分布，联合组成的概率事件。例如骰子和硬币
边缘分布：在联合分布中，一个随机变量自身的概率分布叫做边缘分布，例如骰子为1的概率为1/6。
条件分布：对于二维随机变量(X,Y)，可以考虑在其中一个随机变量取得(可能的)固定值的条件下，另一随机变量的概率分布，这样得到的X或Y的概率分布叫做条件概率分布，简称条件分布。
期望：数学期望(mean)(或均值，亦简称期望)是实验中每次可能结果的概率乘以其结果的总和，它反映随机变量平均取值的大小。

期望.png
方差：一个随机变量的方差描述的是它的离散程度，也就是该变量离其期望值的距离。一个随机变量的方差也称为它的二阶矩或二阶中心动差，方差的算术平方根称为该随机变量的标准差。

2.6优化基础

极小值、极大值：

极小极大值.png
正定矩阵：

正定矩阵.png
顺序主子式：设A是nXn的矩阵，它的顺序主子式是左上角矩阵的行列式。
sylvester判定：1.如果A的所有顺序主子式都大于0(大于或等于0)，那么A是正定矩阵(半正定矩阵)。
2.如果A的所有奇数阶顺序主子式都小于0(小于或等于0)，所有的偶数阶顺序主子式都大于0(大于或等于0)，那么A是负定矩阵(半负定矩阵)。
3.计算顺序主子式是：对角线相乘后相加。
梯度和黑塞矩阵：

梯度.png
稳定点：满足一阶导数=0的点为稳定点。稳定点包含两类：一类是极值点，另一类不是极值点。
鞍点：满足一阶导数=0的但又不是极值点的点叫做鞍点。
函数的凸凹性：

函数的凸凹性.png
梯度下降法和牛顿法

梯度下降法和牛顿法的对比.png

2.7信息论基础

信息论的由来：信息论是应用数学的一个分支，主要研究的是对一个信号能够提供信息的多少进行量化，最初用于研究在一个含有噪声的信道上用离散的字母表来发送信息，指导最优的通信编码等。
基本想法：一个不太可能的事情竟然发生了要比一个非常可能的事件的发生能提供更多的信息，也就是说导致那些“异常”事件发生的背后拥有着我们更想知道的东西。
自信息：一个事件所包含的信息
l(x)=-logP(x)
信息熵：

信息熵.png
信息熵的意义：
1.熵的作用计算损失用于调整梯度递减的步长，本次熵(损失)比上次熵(损失)大，说明步长太大了。
2.用于决策树熵越大，说明特征的划分数据能力越强。
联合熵：度量二维随机变量的不确定性。
条件熵：X给定条件下，Y的条件概率分布的熵对X的数学期望(平均不确定性)。
相对熵：又称为KL散度，信息散度，信息增益。主要用来衡量两个分布的相似度。假设连续随机变量x，真是的概率分布为p(x)，模型得到的近似分布为q(x)。
互性信息：用来衡量两个相同的一维分布变量之间的独立性。I(X;Y)是衡量联合分布p(x,y)和p(x)p(y)分布之间的关系，即他们之间的相关系数。
信息增益：假设系统原有的熵为H(Y)，后来引入了特征T，在固定特征T的情况下，系统的混乱度减小，熵减少为H(Y|T)，那么特征T给系统带来的信息增益为：
IG(T)=H(Y)-H(Y|T)

最后编辑于：2018.10.08 21:05:20

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,372评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,368评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,415评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,157评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,171评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,125评论 1赞 297
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,028评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,887评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,310评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,533评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,690评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,411评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,004评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,659评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,812评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,693评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,577评论 2赞 353

《机器学习》(入门1-2章)

《机器学习》(入门1-2章)

开篇前话

目录

1.机器学习概论

1.1机器学习案例

1.2人工智能的基本内容

1.3机器学习分类

2.机器学习基础

2.1Numpy和Pandas的使用

2.2Numpy的使用

2.3Pandas的使用

2.4线性代数和微积分基础

2.4.1向量基础

2.4.2矩阵基础

2.4.3数学中的符号与运算

2.4.4微分

2.5概率基础

2.6优化基础

2.7信息论基础

推荐阅读更多精彩内容