数据挖掘、数据分析已成为各大企业的重点,市场前景一片光明,但如何在短时间内成为大数据挖掘工程师呢?今天,大圣众包平台(www.dashengzb.cn)小编就为大家介绍一位在万达电商做数据挖掘的妹子小曼的经历,看她是如何从数学女生一年内获得万达数据挖掘工程师offer。
数据挖掘师需要哪些技能?
1、无论是数据分析还是数据挖掘,统计的概念、知识是必备的,因此,EXCEL、SPSS、SAS等这些至少要熟练。小曼本身是数学系,接触这些工具也比较多,有基础好掌握。
2、另外,数据挖掘还至少会一门编程语言,比如现在流行Python、Java、hadoop等,有时用MapReduce写程序,再用Hadoop或者Hyp来处理数据,如果用Python的话会和Spark相结合更配哦。
3、做数据挖掘的话,其实就是从海量数据中发现规律然后分类,应用到一些高等数学、概率论等知识,所以数据专业有优势,另外还需要懂些算法。比如朴素贝叶斯算法需要概率方面的知识,SKM算法需要高等代数或者区间论方面的知识。个人建议要想长远发展,数学知识是很有必要的。
数据挖掘主要工作内容有哪些?
以上是个人工作,不代表各家企业的数据挖掘。
数据分析的话更倾向于统计、分析然后作图作报告,这方面较少做。
数据挖掘的话主要是建模型,比如,我们做百货的数据分析。万达电商本身的数据非常大,具体要做什么需要项目组自己来定。我们分析百货数据就是为了提升销售业绩,带动新的业务,因此,我们从这些点出发,去进行用户分群工作;就拿刷卡消费记录来说,万达会员卡的卡号信息及历史记录都有,我们利用这些数据聚类,分不同的用户群,然后用户背后购买行为,比如倾向女装、家居用品还是亲子类等等,然后针对性推荐营销。
一般,用户分类主要是用K-means、K-means++等方法。(不懂挖掘算法可看《如何用数据挖掘算法进行精准营销》)处理数据的维度特别大,是300w*142维,如果全部拿来聚类,效果不太好,所以我们会进行降维,这时需要用到AutoEncoder算法,比如我们把142维数据灌进去,在隐含层降成50维数据,输出还是142维数据。也就是说把一开始的142维数据投射到50维数据之后,再还原成142维,这142维与之前的142维数据之间的映射关系是一样的,那么我们就可以用中间50维的数据做聚类分析。最后需要一个评价指标,分析降维前后的效果。
无论是数据挖掘师还是数据分析师,每个人都有自己的优势及兴趣,但从长远发展而言,个人建议不应贪多,而是提高自己的技术和业务水平,多学习编程语言,这些技术都可以慢慢学,但真正要长远下去,并获得升值成为核心,业务能力才是最重要,希望结合兴趣,在一个领域成为专家便足矣。
(更多大数据与商业智能领域干货、兼职机会及行业资源分享等请关注大圣众包平台,或添加大圣花花个人微信号(dashenghuaer),拉你入bigdata&BI交流群330648564。)