微信日用户上亿,你如何算出男女比例?

我来答下磊叔【数据分析面试30题】专栏的小作业。

题目:微信日某一日的用户上亿,你如何算出这一日的男女比例?
解题思路:上亿的数据量,硬件人力软件时间都配齐肯定能算出来,但这明显浪费资源嘛。
既然不能硬算,那就自然想到估计法了。也就是抽样统计。

1.如何抽样?抽取的样本决定了估算的数值跟总体的偏差,怎么样尽量抽取一个无偏样本呢?对于这样大型的混合数据,我的思路是按照时间顺序每隔1千个数据,抽取一个数据,总共抽取上万个数据形成一个样本。(上万的数据用普通的分析软件如python都是可以轻松分析的。而且样本越多估计的准确性越大)

2.如何用样本估计总体?
一:用样本男生女生的比例来估计总体的比例,假设是无偏样本,理论上样本的比例的期望就是总体的比例,但是这样贸贸然说一个数值极有可能不对,毕竟只是估计
二:找出一个区间!样本(数量上万)的比例的分布符合正态分布,且分布的均值和方差可以计算出来,所以我们设置一个置信区间95%,得出在此置信区间下的比例在【a,b】范围内。那么最后结果就是样本男生比例在【a,b】的范围(95%置信区间)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容