机器学习里面数学知识,到底对数学水平要求多高?

过去几个月里,有不少人联系我,向我表达他们对数据科学、对利用机器学习技术探索统计规律性,开发数据驱动的产品的热情。但是,我发现他们中有些人实际上缺少为了获取有用结果的必要的数学直觉和框架。这是我写这篇文章的主要原因。

最近,许多好用的机器和深度学习软件变得十分易得,例如 scikit-learn,Weka,Tensorflow,等等。机器学习理论是与统计学、概率论、计算机科学、算法等方面交叉的领域,它产生于从数据出发的学习迭代,试图找出用于开发智能应用的隐藏的洞见。尽管机器学习和深度学习有无限的可能性,对这些技术有一个全面的数学理解对理解算法的内部工作机制、获取好的结果是有必要的。

为什么要关心数学?

为什么机器学习中的数学很重要?这个问题的理由我想强调以下几点:

选择合适的算法,要考虑的包括算法准确性、训练时间、模型复杂度、参数的数量和特征数量。

选择参数设置和验证策略。

理解偏差与方差的权衡以确定欠拟合和过拟合。

预估正确的置信区间和不确定性。

你需要多高的数学水平?

在这里给大家推荐一个python系统学习q群:250933691有免费开发工具以及初学资料,(人工智能,数据分析,数据可视化,爬虫,机器学习,神经网络)每天有老师给大家免费授课,欢迎一起交流学习。

试图了解一个例如机器学习这样的跨学科领域,主要的问题是必要的数学知识的量,以及理解这些技术需要的数学水平。这个问题的答案是多方面的,取决于个人水平和兴趣。对数学公式和机器学习的理论发展的研究一直在进行着,一些研究人员研究的是更先进的技术。以下我将说明我认为成为一名机器学习科学家/工程师需要的最低程度的数学,以及每个数学概念的重要性。


1. 线性代数

Skyler Speakman曾说:“线性代数式21世纪的数学”,我完全赞同该论述。在ML领域,线性代数无处不在。主成分分析(PCA)、奇异值分解(SVD)、特征分解、LU分解、QR分解、对称矩阵、正交化&标准正交化、矩阵运算、投射、特征值&特征向量、向量空间和规范等这些概念对理解机器学习的优化方法都是必须的。我认为线性代数很棒的一点是,互联网上的资源非常多。我总是说传统课堂要消亡,因为互联网上有如此大量的资源。我最喜欢的线性代数课程是MIT的Gilbert Strang教授的。

2. 概率论与数理统计

机器学习和数理统计并不是完全不同的领域。事实上,最近有人把机器学习定义为“在Mac上做数理统计”。ML需要的数理统计基础和概率论知识包括组合数学、概率规则&公理、贝叶斯定理、随机变量、方差和均值、条件和联合分别、标准分布(伯努利、二项、多项、统一和高斯)、矩母函数、最大似然估计(MLE)、先验和后验、最大后验估计(MAP)和采样方法。

3. 多元微积分

必要的概念包括微积分、偏导数、向量函数、方向梯度、Hessian、Jacobian、Laplacian和Lagragian分布。

4. 算法和复杂性优化

这对理解机器学习算法的计算效率和可扩展性以及数据集的开发稀疏性很重要。需要数据结构(二叉树、Hashing、Heap、Stack等等)的知识,以及动态编程、随机&次线性算法、图形、梯度/随机趋势、以及原对偶方法的知识。

5. 其他

这包括上述4个主要领域没有涉及的其他数学概念。包括实分析与复分析(集合和序列、拓扑结构、度量空间、单值和连续函数、极限)、信息理论(熵、信息增益)、函数空间和流形。

下面是部分机器学习所需数学概念的一些MOOC和学习资料:

Khan Academy’s Linear Algebra, Probability & Statistics, Multivariable CalculusandOptimization.

Coding the Matrix: Linear Algebra through Computer Science Applications by Philip Klein, Brown University.

Linear Algebra – Foundations to Frontiers by Robert van de Geijn, University of Texas.

Applications of Linear Algebra, Part 1 and Part 2. A newer course by Tim Chartier, Davidson College.

Joseph Blitzstein – Harvard Stat 110 lectures

Larry Wasserman’s book – All of statistics: A Concise Course in Statistical Inference .

Boyd and Vandenberghe’s course on Convex optimisation from Stanford.

Linear Algebra – Foundations to Frontiers on edX.

Udacity’s Introduction to Statistics.

最后,本文的主要目的是提供有关机器学习所需的重要数学概念的建议和有用的资源。但是,有些机器学习爱好者可能是数学初学者,会觉得这篇文章令人沮丧(这并不是我的目的)。对初学者来说,你并不需要先学好大量数学知识再开始做机器学习。正如这篇文章提到的,最基本的需要是数据分析,然后你可以在掌握更多技术和算法的过程中继续学习数学。在这里给大家推荐一个python系统学习q群:250933691有免费开发工具以及初学资料,(人工智能,数据分析,数据可视化,爬虫,机器学习,神经网络)每天有老师给大家免费授课,欢迎一起交流学习。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,324评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,356评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,328评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,147评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,160评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,115评论 1 296
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,025评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,867评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,307评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,528评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,688评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,409评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,001评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,657评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,811评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,685评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,573评论 2 353

推荐阅读更多精彩内容