1、什么是数据
这或许算不上一个问题,数据你可以把它比作是加工过的“信息”,而数据分析是对信息作出的解读。所以,不管是social还是做研究,大家都在一个信息流动的世界。
这里举一个不太恰当的例子,eg:翟博士的“知网是什么”,信息被深度挖掘后,结果有些心酸。
如果大家对数据与信息比较感兴趣,可以了解一下香农提出的信息论。
(信息的基本作用就是消除人们对事物了解的不确定性)
2、数据从哪里来
生活中的数据是无处不在的,只是很多人通常不会将其挂在嘴边。将它当成信息即可,当你想推理一个问题或者有意识的注意到一些事情时,任何相关的信息都可以变成数据。
比如,你想减肥,你会留意你体重的变化;当你看到你朋友在朋友圈发了一个毕业照,你大概知道他快毕业了,或许你会疑惑,数据不应该是数字吗,但我现在发一些数字,如18808021,你也不知道它是什么,所以,数据应该传达信息(但信息是局部的,所以收集的越多,则越接近你的目的)。信息在你大脑中里做了量化,eg:毕业照( 信息给你的判断: 毕业VS 没毕业)。
3、什么是样本
大家一定都知道,最近华为爸爸被美帝打压,假设你想知道国人对华为的支持程度,你会怎么做呢?你会把全中国十多亿人都问一个遍吗?可能现实情况是这样子的,你打开了微博,看到了一个几万人的投票,然后你看到了100%都是红色支持华为的一方,然后你心里有数了。
不管你是比较感性还是理性,我们很多时候总会凭经验去做判断,比如第一印象就比较难忘记。这里其实涉及到统计中最基本也最重要的几个概念,样本与总体,统计推断。
一般,总体(population)是指我们研究的全体对象。样本(sample)是总体的一部分,
我们从样本中搜集信息,以便对总体做出推断。
4、 好的样本与坏的样本
提这个问题的原因有两个,第一是为了引出抽样以及误差的概念,我们已经知道,很多时候,我们都会从样本中获取信息,然后将其内化成我们的经验,然后对总体做出推理。
当你从一群反华分子中获取信息时,可能跟你预料的会相反。因此对样本的选择比较重要,该统计技术则是抽样。抽样分概率抽样(eg:随机抽样、分层抽样)与非概率抽样(eg:方便抽样、滚雪球抽样),另外是误差:误差里面有两个重要的概念,即偏差与变异性。偏差指的是,当我们取多个样本时,它们的统计量朝同一个方向偏离总体的参数值。变异性指的是,当我们取多个样本时,统计量的值的离散程度。变异性大,意味着不同样本的统计量可能差别也较大。 一个好的抽样方法, 其偏差与变异性都较小。
第二个原因是,出于个人的理解,目前信息无处不在,需要保持自我的判断。