主讲人介绍
蒲博士,统计学博士
2007年-2011年在上海交大读核工程专业
2011年-2013年在明尼苏达大学读物理专业
2013年-2017年在加州大学圣地亚哥分校读统计学专业
即将毕业前往硅谷的一家明星企业做数据科学家
主要内容
读统计学专业的心路历程
读博期间的暑期实习经验
找数据科学家工作的经历
一、踏上统计学之路
(一)起因
硕士期间主修物理,同时也选修了统计课,发现对统计学的理解比对物理的理解更容易,且统计学专业更容易找工作,因此,决定继续深造,申请统计学博士。
(二)努力转型
因硕士期间没有数学基础与背景,所以选择课程自行学习并且拿到统计学教授的推荐信。
(三)读博经历
统计博士的学位要求:
1.完成课程
2.通过笔试
3.开题报告
4.发论文,参加会议
5.博士论文答辩
读博期间的课题领域:稀疏PCA,稀疏聚类,非参数/半参数统计,高维统计
读博期间的paper:
1.from sparse PCA to sparse clustering
2.a simple approach to sparse clustering
3.Semiparametric Estimation of Symmetric Mixture Models with Monotone and Log-Concave Densities
4.Concentration of Measure for Radial Distributions and Consequences for Statistical Modeling
读博期间的业余生活:攀岩、游泳、观光、徒步等
读博的出路:
总结:学术界并不好走,首先要能发表含金量高的论文,其次导师在学术界有一定的权威,最后要有沟通与教学的能力(而且教学的付出与收入不成正比)
那么博士进入工业界又有什么要求呢?
二、暑期实习
主要任务:利用机器学习的模型预测广告点击率(CTR),进而给不同的用户推荐不同的广告,提高广告营收。
扩展知识:线上广告推广
总结:
- 谷歌、facebook的主要盈利靠的是广告
- 广告市场有非常大的挖掘价值
CPM:按展示收费——弹出窗口
CPC:按点击付费——点击广告
CPV:展示广告——按投放广告网站的被展示次数计费,网站被打开一次计一次费(引自CPC、CPM、CPA、CPS、CPT、CPV的区别)
继续yahoo实习的话题,通过对扩展知识的了解,我们对广告模式有了一定的了解。
在yahoo公司的实习主要任务是预测广告的CTR。
解决步骤:
1.收集数据,包括用户的信息(年龄、性别、薪水等)、广告的信息、广告供应商的信息等。
2.数据清洗
3.提取有用的变量,训练模型
4.用模型预测用户的点击率
5.做线下实验,查看预测成功率
6.线上实验(步骤5成功后才执行步骤6)
实际上,预测广告的CTR是一个分类问题,因为广告被点击,标志设为“1”;相反地,广告没被点击,标志设为“0”。我们关注的并非是广告是否被点击,而是预测点击的概率有多少。
预测中使用的模型是逻辑回归模型,典型的监督学习算法,也是典型的分类算法。
真正在CTR预测中运用的模型是决策树、GDBT、逻辑回归算法。
扩展:分类算法
非参数模型:最邻近算法、决策树
参数模型:朴素贝叶斯算法、逻辑回归算法、线性判别式分析(LDA)、支持向量机(SVM)
集成方法:随机森林、Adaboost算法、GDBT
三、找工作经历
笔记总结:
1.转专业需要很大的勇气,最重要的是要看自己擅长什么、感兴趣的是什么
2.想要做的事情就尽全力去做,并且要提高自主学习能力
3.三思而后行,谨慎一点,对自己的人生负责
4.经验是宝贵的,能力是可提升的
5.软硬能力两手抓,每天进步一点点
6.知道自己目前的优劣点,有意识的弥补自己的不足
最后感谢蒲博士的分享,获益良多,数据科学的道路上我们共同进步!
本文为 泰阁志-解密大数据 学习笔记,了解更多请关注微信“泰阁志”