听完课我的大概印象就是,机器学习是从一系列数据中找出规律,用这些规律可以预测,找规律的过程需要用到代码,这些规律可以称作算法或模型。课程里吴老师主要用案例介绍机器学习能做什么,今天的案例是分析房价的影响因素从而确定选址考虑因素;贷款违约的影响因素从而尽可能减少违约可能以及做好应对措施;还有通过分析客户浏览记录预测购买基金可能性从而针对性销售。这些应用很有吸引力,非常酷。通过案例介绍了一些我完全听不懂分析预测方法的名词。
对我来说要思考的是:听完这个课我能做什么。我想学习数据分析,能从数据中发现有价值的信息,所以这个课所代表的是我需要学习的哪一环节?
手边有本数据科学实战,很早就买了,一直看到第四章,是每个字都认识但连起来不怎么懂的书(但每次看还是会多懂一点点的)。看了几个小时还是停留在线性回归细节,知道机器学习重要的是算法,书后面章节提到的很多名词有点熟悉,但对自己今晚要整理的笔记思路可能没帮助(就短时间整理笔记而言),于是搜了书的阅读笔记想看其他读过的人从这本书中对机器学习和数据挖掘了解到什么了,豆瓣没什么有效的整体评论,谷歌搜索“数据科学实战 读书笔记”也没找到啥,大概是书对了解数据科学全貌有帮助,也有助于了解工业界可能遇到的具体问题。顺路看到《机器学习》[英] 弗拉赫(Peter Flach)好像详细机器学习相关内容。
之前搜索时看到机器学习是数据挖掘的手段之一,数据挖掘大概是从大量数据中获取信息,那机器学习在数据挖掘中是什么角色呢?于是搜到数据挖掘偏向商业角度获取信息,机器学习是获取信息的技术过程;https://www.zhihu.com/question/20747381觉得第三个答案比较好懂,这边我可以再写点我自己的阅读理解(因为自己懂太少,所以只能写点搜集资料得到的理解)
那数据挖掘和数据分析又是什么关系?https://www.zhihu.com/question/20127962觉得@miao君的答案比较好
又试图从数据挖掘的学习路径中发现数据挖掘的特点https://www.zhihu.com/question/20751219这边@Han Hsiao说了数据分析和数据挖掘技能差别主要在编程。
上面有些地方写的比较模糊,很多因为自己不太懂,也有比较晚了这篇只是大概记录我今天的思考过程。现在大概的意识是,分析大数据的话要数据挖掘要学起,但最基础的都是要有数理分析能力和对业务的理解,这个好像比较虚,需要学习一些理论在实际工作中用,那从工具使用开始学习编程语言先会做一些分析再说。其实看这些经验也会发现不同人的观点有时候甚至是矛盾的,先大概了解,自己做起来才知道吧。
幸好答应要写听课笔记,本来想提醒自己赶快听课(已经落下不少)且认真听课,今天听的直播,比较快,不方便暂停,很多地方不懂的也滑过去了,从另一个角度写的听课相关思考,怕自己今天完成不了做的检索又白费,况且社群一直提倡完成比完美重要,就暂且写下算是今天学习的一个最小可行产品了,记录下来也会促进自己做进一步的了解。期待大家的补充思考。
所有链接均为个人学习使用。