大数据中的统计

统计推断

主要关注如何从随机过程产生的数据中提取有效的信息。
统计估计量:将获取的数据进行简化,使他们更容易理解,用简明的方式概述规律,可以使用数学对其进行建模。

总体和样本
总体:一组特定的对象或单位 (e.g. 推特上的消息,天上的星星)
总体的观察数据:度量和提取这些对象的某些特征。
样本:在总体中选出的一个子集。记录样本的观察数据,根据样本的特征推断总体的情况。
如果采集样本的方法有偏差,会导致根据样本推断出的总体的结论错误。

大数据的总体和样本
如果可以获得总体的所有观察数据,为何还需要采样?

  • 采样可以解决scalability的问题,高效处理海量数据。
  • 即使拥有了所有数据,基于这些数据也不能推断和这些数据无关的总体。(此时的所有数据并不能遍历所在的属性空间)

每次对一种数据生成过程中所采集的数据进行观察, 这组数据就是样本。
采样过程中所带来的不确定性:取样分布

大数据的假设带来的问题

  • 采集和使用大量的数据,而并非小样本
  • 接受数据中的noise

如果使用N来表示对总体的观察次数,N=全部是否正确呢?
并非如此,N可能永远无法代表全部。
不能忽视一些因果关系,不能单纯地相信数据,因为可能还有好多相关的数据并不存在于统计的N次中。

建模

要分清到底是数据模型,统计学模型,还是机器学习算法。
用函数表示产生数据时存在的不确定性和随机性,以此来形容数据本身的结构。

在开展具体的建模之前,要对建模的流程有一定的了解。先做什么,什么变量影响什么变量,因果关系是什么,检验的结果怎么样。

如何构建模型? 可以探索性地对数据进行分析。比如,先绘制直方图或散点图,以便于对数据产生一个直观的感受。试着用一个线性方程,看这个方程对数据是否有意义?

概率分布
概率分布是统计模型的基础。在生活中的一些现象,经过测量后发现,他们以一种固定的数学模式重复出现,比如身高服从正态分布。产生的数据可以用函数来描述,通过设定函数中的参数,可以使函数接近于实际数据的分布,这些参数可以在对数据进行估计的基础上得出。

并非所有过程产生的数据都服从某种已知的分布,但大多数都会服从。概率分布可以理解为对可能结果的子集指定一个概率。比如正态分布的参数miu是平均数或中位数,决定分布的位置。参数sigma决定分布的幅度。


连续的概率密度分布

如果随机变量x的概率分布为p(x),该函数将x映射为一个实数,要使其成为概率密度函数,需要将其积分求曲线覆盖下的面积为1,这样才可以称其为概率。

例子:设x为距离下趟公交车到站的时间,x为随机变量,因为到站时间不固定。假设已知等待时间的概率密度函数为p(x)=2exp(-2x),如果我们想知道下趟车在等候12-13分钟后的可能性,只需要求2exp(-2x)在12-13之间的定积分的面积即可。

如何知道该使用哪种概率分布?
可以通过实验确定。随机到达公交车站,测量等候下一班车的时间,重复实验多次,将测量的数据绘制成散点图,看其与那种概率分布曲线温和。或者基于对等待时间是一种普遍的现象的了解,可以想到用指数分布p(x)=\lambda exp(-\lambda x)来描述。指数分布就是专门用来描述自然界这种现象的。

单变量还是多变量?
如果是多变量来描述随机变量的分布,称其为联合分布。比如使用p(x, y)来描述概率分布,则输入为一个平面上的点(x, y),输出为非负数,平面的积分为1。

当变量之间存在条件时,可使用条件分布p(x | y),即为给定y时,x的概率密度。

条件可以理解为空间中的子集。比如,我们设随机变量X为消费金额,用p(X)表示消费金额分布,假设用户购买商品前浏览Y件商品,则可以使用p(X|Y>5)表示用户在购买商品前浏览过5件商品时消费金额的概率分布。

当我们的数据表现形式为n行k列(有n个数据点,每个数据点有k个随机变量),这些数据为k个随机变量组成的联合分布的n个实例。

fitting模型
fitting即为拟合,使用数据来估计模型中的参数。在拟合过程中,要引入各种优化算法,比如maximum likelihood estimation (MLE)。估计参数的时候,参数就是估计量。比如,用函数y=ax+b来刻画出一个拟合模型,则可以判断该拟合模型为线性模型。

过拟合?
使用数据去估计模型参数的时候,得到的模型并不能模拟现实的情况,只在样本上效果比较好,而抛开样本后的效果不好。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,427评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,551评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,747评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,939评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,955评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,737评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,448评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,352评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,834评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,992评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,133评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,815评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,477评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,022评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,147评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,398评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,077评论 2 355