数据科学夏令营第一堂

数据科学带给了我们什么

数据科学是什么

数据挖掘、机器学习、人工智能都是数据科学的一个分类。

接下来,我们从这几个方面来剖析一下数据科学

  • 制定目标
  • 收集和管理数据
  • 建立模型
  • 评价和批判模型
  • 展现结果
  • 部署模型

制定目标

为什么要做这个事情

  • 提升销量
  • 减少退货损失
  • 提升转换率

收集和管理数据

收集

  • 初步探索(最大值、最小值、平均值、中位数、分位数、方差、标准差)
  • 可视化操作

管理

  • 发现有用的数据
  • 不断的探索

在收集数据和数据模型之间不断反复

建立模型

建立数据模型是数据科学的核心

分类

预测某个东西属于哪个类别,使用最广泛

应用领域

  • 销售预测
  • 用户购买行为预测
  • 款式查重
  • 人脸识别
  • 声音识别
  • 图片学习
  • 深度学习

首先有一个很大的类库,打上标签,通过分类算法,找出共性,学习完成之后,就可以进行分类了。
支付宝上已经在这方面取得了一些成功。

打分

为某事件预测一个数值(比如购买概率、定价)

引用领域

  • 推荐引擎
  • 定价模型

预测一个商品的打分,给特定的人定价格。

AlphaGo就是利用的打分和分类

排名

排序
和打分很类似

聚类

某个东西现在属于哪个类别

应用领域

  • 豆瓣九点
  • 评论信息

这种很容易和分类搞混,它不是预测算法,是由机器自动分类啊。某个东西属于哪个类别。
因为文本信息很复杂,维度太多了,人工分类很困难,机器聚类有一个比较明确的概念。

关联

找出潜在的相关性

应用领域

  • 啤酒与尿布(虽然是假的)

很出名的啤酒与尿布的故事,因为它是入门的数据模型,可以挖掘潜在的相关性,理论上挖掘出来可靠性多少等。电商里面用在推荐和搭配上

特征化

绘图或者报表

应用领域

  • 广告投放

打标签,在业务上分组。在电商业务上多用于广告的投放。

评价和批判模型

  • 准确率
  • 召回率
  • 是否比随机预测或者猜测更好
  • 是否现实意义

模型好不好,别乱猜要好。比如生男女的几率,通过一系列的模型得出的结果可能比不上你的猜测,因为你的猜测有百分之五十的几率,已经很大了。
不断的调整参数和新模型,花了一个月时间,准确率可能高了百分之一,也可能准确率讲下了。
具体怎么算,有类似Apache提供了Mahout等工具来算这些东西

展现结果

展示和编制分析报告是必不可少的

  • 体现你的目标,一定要有目标,我在这里面根据我的预测应该会出现什么样的结果来解释我的模型。
  • 展示模型输出的结果,模型的解读,通过一些可视化的工具来很明显的表现出模型的好处。
  • 置信度,比如:我们预测某个商品下个星期大卖,有百分之七十的可能性。然后让对方来评估风险,在进行生产等操作。很重要。

部署模型

试运行和不断调整

评价模型 不一定要新的数据, 拿历史数据来评价,训练级和测试级,在模型建立的时期,来判断数据模型的好坏。不能等上线之后。

总结

这一节课,我们了解了数据科学是什么,然后怎么制定分析目标,同时解说了几种模型和数据编制分析报告的重要性,还有一些部署模型的注意点。同时对数据科学与时下热门的机器学习和人工智能的关系有了一些了解。并了解了数据科学在实际业务上的一些实际操作。这一章节很重要,虽然信息量和陌生感可能大了一些,但是让我们体会到了我们数据科学之美。

下节课预告

  • 数据探索和管理
  • 数据基本统计和基本可视化
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,099评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,828评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,540评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,848评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,971评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,132评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,193评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,934评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,376评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,687评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,846评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,537评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,175评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,887评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,134评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,674评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,741评论 2 351

推荐阅读更多精彩内容