ML1 - 导论

1 为什么存在Machine Learning?

Machine Learning的存在是为了解决实际的商业问题,即data mining tasks。

2 那么有哪些data mining tasks?

  • Classification
  • Regression
  • Similarity matching
  • Clustering
  • Co-occurrence grouping
  • Profiling
  • Link prediction
  • Data reduction
  • Casual modeling

其中比较主要的是属于supervised learning(即historical
dataset有标签变量Y)的Classification和Regression。这两者的目的都是给出对一个变量Y=F(X)的预测。而ML就是找到最接近原始F(X)\hat{F}(X)函数的过程,并带入X求解得到预测值\hat{Y}
至于unsupervised learning。一般有两个作用,第一个预先分类(pre-grouping),比如clustering;第二个提出冗余变量,比如PCA。这两个作用都属于降维(dimension reduction),以便于后续的supervised learning。

2.1 Classification

It attempts to predict, for each individual in a population, which of a set of classes that individual belongs to.
简单来说,Classification就是给出一个数据集中每个个体一个类别(Class)的预测值,并给出属于这个类别的概率(Probability)。变量Y=F(X)为类别值(categorical value)。

2.1 Regression

It attempts to estimate or predict, for each individual, the numerical value of some variable for that individual.
简单来说,Regression就是给出一个数据集中每个个体一个数值(Numerical Value)的预测值。变量Y=F(X)为连续数值。

3 利用ML解决task的workflow是怎么样的呢?

Workflow

4 如何评估我的ML Model是否能良好解决task?

主要从两方面来评估:

  • Accurracy: MSE/Error rate,当model比较复杂的时候,精确度会上升
  • Parsimony: model是否简洁,易于符合商业直觉;简洁的模型往往apply到不同的数据集的时候variance比较小


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 12,234评论 16 22
  • 今天感恩节哎,感谢一直在我身边的亲朋好友。感恩相遇!感恩不离不弃。 中午开了第一次的党会,身份的转变要...
    余生动听阅读 13,602评论 0 11
  • 可爱进取,孤独成精。努力飞翔,天堂翱翔。战争美好,孤独进取。胆大飞翔,成就辉煌。努力进取,遥望,和谐家园。可爱游走...
    赵原野阅读 8,509评论 1 1
  • 在妖界我有个名头叫胡百晓,无论是何事,只要找到胡百晓即可有解决的办法。因为是只狐狸大家以讹传讹叫我“倾城百晓”,...
    猫九0110阅读 8,958评论 7 3

友情链接更多精彩内容