数分相关学习笔记

1.灰度实验

灰度测试，就是在某项产品或应用正式发布前，选择特定人群试用，逐步扩大其试用者数量，以便及时发现和纠正其中的问题，由“灰”到“黑”。

2.AB测试

AB测试来源假设检验，现有两个随机均匀的样本组A、B，对其中一个组A做出某种改动，实验结束后分析两组用户行为数据，通过显著性检验判断这个改动对于我们所关心的核心指标是否有显著影响。
假设检验如下：
原假设H0：这项改动不会对核心指标有显著的影响
备择假设H1：这项改动会对核心指标有显著的影响

步骤：
（1）确定实验改动点
确定本次实验的对象，比如app中某个功能的改动
（2）确定核心指标
确定需要检验的指标，比如点击率、转化率等
（3）确定需要的样本量、周期
确定完成实验需要的最小样本量，实验样本越大，实验结果越可信，但对用户的影响越大，因此需要确定最小样本量，确定样本量后可以根据日活确定实验周期
样本量的确定其实就是根据检验假设的公式和现在的指标以及预期的指标（均值、方差）反推出如果根据这个表现要推翻原假设所需要的样本量
（4）流量分割
根据实验需要对样本的流量进行分割分层，保证样本的随机和均匀分布，避免辛普森悖论
正确的实验实施方案里，除被测变量外，其他可能影响结果的变量的比例都应该保持一致
（5）AB测试灰度
先小范围的实验，避免极端情况出现造成的损失
（6）AB测试上线
可以正式开始实验
（7）效果评估验证
显著性检验

A/B Test的重要理念：宁肯砍掉多个好的产品，也不要让一个不好的产品上线
在AB测试中，第一类错误是更为严重的错误，因为它会导致我们错误地认为一种变化是有效的，从而采取错误的行动。而第二类错误则意味着我们可能会错过一些真正有效的变化，但这种错误相对来说不太严重，因为我们可以在以后的测试中发现并纠正这些错误。因此，在AB测试中，更应该关注第一类错误。

什么时候不适合AB测试：
·没有清晰的对照组
·很难获得用户数据（本来就没多少流量，测试不了）

3.辛普森悖论

4.卡方检验

（1）卡方拟合度检验（单因素卡方检验））
一个分类变量的预期频率与观察到的频率相比是否存在显著差异
H0：期望值和观测值之间没有显著差异

${\chi}^2=\sum\frac{{f_o-f_e}^2}{f_e}$
$f_o:观察频率$
$f_e:期望频率$
卡方值查表，从卡方值的计算公式可以看到卡方值越大说明实际观测到的分布与预期的偏离越大

自由度df=k-1
k为组别（比如骰子有六个可能性，k就是6）

（2）卡方独立性检验（二因素卡方检验）
检验两个变量类别之间是否存在联系
公式和（1）是一样的
df=(r-1)(c-1)
行数减一乘列数减一，即两个类别变量的组数减一后相乘

前提假设：
a.既互斥又互补
每个观测值都会落入且仅会落入一个类别中
（e.g. 检验学习专业是否和人的理性思维感性思维相关的时候，一个人不能既是理性思维又是感性思维）
b.观测值之间相互独立
一个被试一般来说只能归类一次
(e.g.检验性别与三部科幻电影之间的偏好关系时一个人只能给一部电影打分，否则一个人可能因为个人对科幻电影的偏好给三部电影都打低分或高分）
建议：一个被试只计算一个观测值，观测次数等于被试数
c.期望频次不能太小
建议：每个期望值都大于5，若自由度为1时大于10（就是观测次数不能太少）

5.t检验

（1）独立样本t检验
检验两组数据之间的均数是否存在显著差异
$t=\frac{|\overline{x_1}-\overline{x_2}|}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}$
分子为组间差异，为均值相减，分母对应组内差异，分母中s为相应组的样本标准差，n为样本量：
·组间差异越大，t值越大
·组内差异越大，t值越小
·样本越大，t值越大
$自由度df=n_1+n_2-2$

（2）配对样本t检验
数据来自同一批被试的两组成绩或者对两个不同样本进行配对
e.g.体育老师对一个班的学生训练前和训练后的成绩进行比较

（3）单样本t检验
样本均值与已知总体均值进行比较
e.g.A班同学智商与该年龄段平均智商的比较

前提假设：
a.被测量的变量需要在总体和样本中呈正态分布
然而很多时候不是正态分布，但是根据中心极限定理，随着样本数的增加，均值可以认为是符合正态分布。一般认为每组样本大于30时就看作正态分布
b.方差齐性
需要两组样本之间的方差不能相差太多
一般样本量比较大时（每组大于100）或者两组被试量相等时方差齐性不会有问题

6.Z检验

总体标准差已知的情况下检验均值
$Z=\frac{\overline{x}-\mu}{\sigma/\sqrt{n}} N(0,1)$
如果总体标准差未知，就需要用t检验
实践中大部分情况下不会知道总体标准差，所以大部分情况是t检验

7.方差分析（ANOVA）/F检验

Analysis of Variance
用来比较不同组之间的均值是否存在显著差异（t检验只能检验2组，方差分析能检验更多组）
$H0:\mu_1=\mu_2=\mu_3$
备择假设H1：至少存在一组均值与其他均值不同（而不是所有之间都不同）
$F=\frac{MS_{bet}}{MS_W}$ 组间均方/组内均方 Mean-square-between/mean-square-within
自由度：
$df_{bet}=k-1$ k为组数或水平数
$df_W=N_T-k$ NT为总样本量

tips:
·当F值大于F临界值时，能够说拒绝零假设，但当小于时，不建议说接受零假设，最好说不能拒绝零假设
·方差分析无法告诉我们具体哪组之间存在显著差异

两因素方差分析（即两个自变量）
重复测量方差分析
混合设计方差分析

前提假设：
单/两因素ANOVA：
（1）独立随机抽样
（2）正态分布
（3）方差齐性
重复测量方差分析：
（1）（2）（3）加一个协方差齐性
混合设计方差分析：
（1）（2）（3）加一个组间协方差齐性

8.杜邦分析

把权益净利率ROE这个最综合的财务指标拆解成一系列细分指标，以此分析公司经营的具体情况。个人认为这个分析方法的思想其实就是一些统计指标反映信息的能力有限，需要用更多数据来反映更多信息从而做出更精准的决策。
$\begin{aligned} 股东权益回报率（ROE）&=\frac{净利润}{股东权益}\\ &=\frac{净利润}{销售收入}*\frac{销售收入}{平均总资产}*\frac{平均总资产}{股东权益}\\ &=销售净利润(NPM)*资产周转率(AU)*权益乘数(EM) \end{aligned}$
其中
$\begin{aligned} 权益乘数&=\frac{1}{净资产/平均总资产}\\\\ &=\frac{1}{1-负债/平均总资产}\\\\ &=\frac{1}{1-资产负债率} \end{aligned}$

9.波士顿矩阵（BCG矩阵/四象限分析法）

横轴：相对市场占有率纵轴：相对市场增长率

①问题类产品（question marks)销售增长率高、市场占有率低的产品群
对应产品生命周期：启动期

②明星类产品(stars)销售增长率和市场占有率“双高”的产品群
对应产品生命周期：成长期

③现金牛类产品(cash cow)销售增长率低、市场占有率高的产品群
对应产品生命周期：成熟期

④瘦狗类产品(dogs)销售增长率和市场占有率“双低”的产品群
对应产品生命周期：衰退期

波士顿矩阵分析的目标：为了实现“企业的产品品种及其结构能够适合市场需求的变化”，使企业的生产有意义。同时，解决“将企业有限的资源有效地分配到合理的产品结构中去”以保证企业收益的问题。波士顿咨询公司对美国57家公司的620种产品进行了历时三年的调查，最终创造出该分析方法。

产品战略对策：
（一）问题产品
其财务特点是利润率较低，所需资金不足，负债比率高。例如在产品生命周期中处于引进期、因种种原因未能开拓市场局面的新产品即属此类问题的产品。对问题产品应采取选择性投资战略。

（二）明星产品
这类产品可能成为企业的现金牛产品，需要加大投资以支持其迅速发展。采用的发展战略是：积极扩大经济规模和市场机会，以长远利益为目标，提高市场占有率，加强竞争地位。

（三）现金牛产品
又称厚利产品，其财务特点是销售量大，产品利润率高、负债比率低，可以为企业提供资金，而且由于增长率低，也无需增大投资。因而成为企业回收资金，支持其它产品，尤其明星产品投资的后盾。
①把设备投资和其它投资尽量压缩；
②采用榨油式方法，争取在短时间内获取更多利润，为其它产品提供资金。对于这一象限内的销售增长率仍有所增长的产品，应进一步进行市场细分，维持现存市场增长率或延缓其下降速度。

（四）瘦狗产品
也称衰退类产品，其财务特点是利润率低、处于保本或亏损状态，负债比率高，无法为企业带来收益。对这类产品应采用撤退战略，减少批量，逐渐撤退，对那些销售增长率和市场占有率均极低的产品应立即淘汰。

总结：总体的思想大概是随着企业和市场的发展，产品在四个象限中的分布情况也是在不断变化的，问题类产品可以有选择性地进行投资，使之转化为明星产品，明星产品继续发展转为金牛产品，金牛产品是现金流的主要来源，当金牛产品的下一个阶段一般会是瘦狗产品，这个转化过程需要尽力将其延长，这样可以从金牛产品身上获得更多利润。对瘦狗产品就可以考虑逐步将其淘汰。

10.漏斗分析

分析一种业务从起点到终点各个阶段的转化情况，并以此做针对性优化。

（1）AARRR模型
做用户增长和生命周期最常用的漏斗模型，从用户增长各阶段入手，包括Acquisition用户获取，Activation用户激活，Retention用户留存，Revenue用户产生收入，Refer自传播等用户的生命阶段，进行漏斗分析，判断用户流失大致处于哪个阶段，进而对问题阶段的用户进行细分，精细化运营，完成用户向成熟用户和付费用户的引导，实现用户增长。

11.RFM模型

Recency 最近一次消费
Frequency 消费频率
Monetary 消费金额
其实就是从这三个维度给用户进行细分，然后对不同分类的用户使用不同的运营策略