数学部分-统计学

Percentile

计算百分位数。PDF P438的例子。

当y=(n+1)*p/100 不是整数时,比如12.5, 那么取第12个和第13个数,然后用(v13-v12)(12.5-12)+v12 这样算。即在两个数之间,又按比例取了一个数

注意quitile,quartile这些,不一定是和换算为20,25百分位的数值完全相等。因为百分位可能不整除,而4分,5分位整除。

Coefficient of variation: 注意这个是变异系数,不是协方差。定义是标准差/平均值。比如一组数较小,一组数较大,但标准差相同。这两个

标准差就无法说明哪组数的波动性更大。但除以平均值后就可以说明了。

切比雪夫不等式:从平均值出发,偏离正负K个标准差(K>1)之内包含的数据点占整个集合的百分比,不低于1-1/k^2

夏普比率:  (组合收益-无风险收益)/组合收益的标准差。   衡量的是每一点风险带来的超额收益(相对于无风险收益)

如果没有无风险收益做参照物,那么就不可比。例如我把标准差弄的很小,但收益也较低,比率仍然可以比较大。有了无风险收益做对比,大家就被拉到了一个起跑线上

注意如果夏普比率为负,那么有可能标准差越大,夏普比率越大(往0的方向靠近)。这种情况就不能说夏普比率越大越好。

夏普比率的另一个应用是,他是用标准差衡量风险的。如果有些模型天然就是高频交易,每次盈利一点点,但有可能频率较低的有大额亏损,可能就不适合

偏度skewness :

sk=(各个值与均值之差的立方/标准差的立方)/n  (n较大,如>100时.n小时公式为n/((n-1)(n-2))  )

偏度衡量整个分布是往左偏还是往右偏。

丰度kurtosis :

kt=(各个值与均值之差的立方/标准差的立方)/n  (n较大,如>100时.n小时公式为n(n+1)/((n-1)(n-2)(n-3))  )

相对丰度:

kt' = kt-3  3是正态分布的丰度。这个值衡量的是相对于正态分布的丰度。

丰度较大,意味着fatter tail,表示偏离度可能比较大。一般来说丰度>1就算是比较大了。

有了丰度、偏度基本可以衡量一个历史数据的偏离度和大部分值落在哪里。



skewness

偏度形容了整个数据集往左偏还是往右偏。

错题的经验:

1. 读题不仔细。看清楚是mean,median。 看清楚起止日期。

2. 调和平均数计算平均价格。调和平均数

条件概率的理解:


条件概率的定义


联合概率,注意这个公式只有在A和B独立的情况下成立


条件概率的定义这样理解比较好:A和B的概率各是一个圈。A,B同时发生的概率是两个圈的交集。要求两个圈的交集部分占B圈的面积,就是P(AB)/P(B).  但这种理解并不好解释在A和B独立的情况

注意如果A和B独立,则从上述两个公式中可以推出P(A|B)=P(A).  所以大部分的场景下,考虑条件概率一般是A和B不相互独立。

还有一个公式是:

P(AB) = P(A | B)P(B)   是第一个公式的简单变形。

书中P492的例子(A是收益大于无风险收益的概率,0.7, B是收益大于0的概率,0.8)是一种特殊情况。收益大于无风险收益,那么收益肯定是大于0的,所以0.7是一个P(A&B),符合上述公式。

进入数学期望部分

前面所讨论的是基于样本的统计,描述了一组数据的集中程度、偏离集中点的程度。

数学期望则是一种预期,是一种预测,不是对已有数据的描述。但做出预测的基础还是已有的一些信息。期望还有另外一种解释,即样本在无穷大时的均值。

已经知道了随机变量的一些分布信息,比如有p1的概率取值为v1, 有p2的概率取值为v2 ,等等。然后需要给一个随机变量预测一个期望值,就是数学期望。

在前面做样本统计的时候,方差被用来描述样本偏离均值的程度。一个随机变量的方差用下面公式定义:

    

随机变量X的方差

随机变量的方差,被定义为(随机变量与数学期望的差的平方)的数学期望。

(X-E(X))^2  这个东西没有办法计算出来。因为X是一个随机变量。但这个东西的数学期望却是可以计算的,基于已有的信息。如下公式,X1,X2到Xn都代表一个样本点(或者说我们估计的以某个概率发生的事件)。P(Xn)代表了样本点发生的概率。

所以,上述方差公式展开后就变为:

随机变量的方差展开

这个公式比较重要。



数学期望树

这个树比较重要。划清楚这个树对于整理思路很有帮助。

如果一个随机变量是由几个随机变量构成的,每个随机变量有一定的权重,这就是投资组合的数学模型。

要求组合的数学期望,将各组成部分的数学期望求出来,然后乘以权重,再相加就可以了。

对于一个组合的方差,是如下公式:Rp代表Return of Portfolio 。

其中w1代表组合中第一个随机变量的权重,R1代表第一个随机变量。   

从这里展开

从而最终推导出:


最终推导结论

这是一个比较漂亮的N*N矩阵。对角线为每个随机变量的方差。其中cov协方差的定义:


协方差定义

i==j的时候,协方差就是方差。

一般来说,乘积的期望不等于期望的乘积,除非变量相互独立。所以协方差不能理解为E(Ri-ERi) * E(Rj-ERj)

(R-ER) ,有可能是负的,也有可能是正的,代表了独立变量在多大程度上,哪个方向上对期望的偏离。

两个独立变量距离各自期望的偏离之积。而这个积的期望反应的是这个积在样本无穷大时,这个积的值。当样本空间非常大时,这个积有如下趋势:

1,如果两个独立变量不相关(这里的不相关指不线性相关)或者独立,那么这个积趋向于0. 因为样本多了之后正负最终要相抵。

2,如果两个变量的变化方向相同,那么样本超多之后,这个积一定是正的或负的

协方差的符号说明了两个变量在变化上的相关性。其值的大小在一般的数学问题上没有意义,因为两个变量的量纲可能差距较远。但在计算投资回报时,因为投资回报率都是在-100%到100%波动,所以其值也衡量了波动的大小。

对于一般的数学问题,需要消除掉量纲的影响。消除量纲的方法是协方差除以每个变量的标准差,得到一个东西,这个东西就是相关系数:

相关系数 correlation= Cov(a,b)/(std(a)*std(b))

仍然注意这里的相关指的是线性相关。相关系数为1代表完全正相关,0代表完全不相关,-1代表完全负相关。

两个随机变量独立的定义:P(AB)=P(A)*P(B) 这和前面条件概率的讨论是一致的

两个随机变量不相关的定义:E(AB)=E(A)E(B)  


贝叶斯公式:

公式比较简单,从条件概率的变形即可得到:

因为 P(A|B)*P(B)=P(B|A)*P(A)=P(AB)

所以P(A|B)=P(B|A)*P(A)/P(B)

关键是此公式代表的现实意义和如何使用。当A是一个已知信息,B是新发生的信息,那么当B发生时,我如何更新A发生的概率?

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容

  • 1,中位数:按从小到大排列好的中间值 2,众数:出现次数最多的那个数 3,方差:数值和均值的距离的平方数的平均值 ...
    沈婷_bbf1阅读 5,121评论 1 2
  • 《深入浅出统计学》读书笔记 1、信息图形化 饼图 对不同组(或者类)所占的比例进行比较 条形图 对大小进行比较,但...
    haidaozheng阅读 4,905评论 0 6
  • 外面的雨一在下 滴答滴答滴答 哗啦哗啦哗啦 这次出差 竟然有点想家 莫非是多了一个人牵挂?昨天朋友告诉我 年龄不了...
    浪淘沙阅读 275评论 0 2
  • 人生之旅或阴或晴 风一程雨一程 但也要风雨兼程 一支笔一张纸(点击蓝色字有过程) 早睡早起才会遇见更好的自己 愿你...
    阿甘的蜗牛屋阅读 428评论 0 1
  • 在两天前开始追《明日之子》这档选秀节目,自己很喜欢一个选手马伯骞,从而进入了一个新的领域——饭圈。这也并不是说我之...
    秋叶随风V阅读 2,090评论 0 1