作者:关牮
微信:JamesG003
前言
行业研究的一个主要目的就是期望能够通过对既往数据的分析以寻找有价值的规律,并以此推测和判断未来各种可能的结果。然而,如何在看似庞杂而变化多端的历史数据中寻找可信的规则并加以利用则是一个非常有趣且有意义的话题,也是众多行业研究人员的工作重点之一。
本文会以世界半导体贸易统计(World Semiconductor Trade Statistics;WSTS)组织发布的1998~2017全球集成电路销售数据为基础,尝试和探索一个预测未来集成电路销售额以及相应市场趋势和机会的方法。
本文将以实际的行业数据为基础,进行一系列的计算和分析。其主要目的是探讨三个具体问题:
1、如何从看似随机凌乱的原始数据中寻找出可靠的规律?
2、如何利用数学手段对发现的规律进行有意义的量化?
3、如何利用获得的规律对外来的发展进行预测,并获得有价值的结果?
1)原始数据的建模
上图为前述的1998~2017全球集成电路每月销售数据(包含2018年初三个月数据,单位为Billion$)。由图可知,集成电路的整体销售额长期呈现明显的持续上升趋势,但除此以外,数据在短期内变化起伏较大,没有任何其它直观可见的明显规律。
为了能够寻找出需要的规律,我们就必须对于数据进行合理的建模。以下是我们对现有数据建立的模型:
实际销售额 = 理想销售额 + 重大事件影响 + 随机噪声
其中,理想销售额是假设没有任何异常因素干扰下,理论上的销售额数据。根据我们的假设它应该是按照每年固定比例增加,所以该数额沿时间轴应该是一条光滑的指数曲线。
重大事件影响是指在一定时期内因为幻夜内外的重大影响导致的大幅度异常波动,比如世界范围经济危机和泡沫破灭等。它的特征是影响幅度较大,会引起销售额在短期内的巨大波动,但影响的持续时间有限,只在一段时间(比如1到2年)范围内有明显作用。影响时间窗口过去以后,数据会向理想值回归。
随机噪声是指各种中小影响因素综合汇总后产生的随机变化干扰。这种影响的幅度相对较小,但会贯穿整个目标数据段。其具体表现就是数据会以理想值为中心,在有限幅度内随机震荡变化,其随机性符合高斯分布。这种影响虽然在短时间段内无法预测,但长期来看是可控的。
根据我们的模型,任一时刻下的销售额数据都是三种因素总和的结果。如果能够区分并分别定量分析这三个因素,我们便可以在一定概率范围内对未来的结果进行合理预测。
2)数据的初步分析
由上图可知,利用EXCEL的趋势线功能,就可以得到销售额数据的理想值。根据趋势线的表达式可以得到销售额的年增长率约为5.68%。也就是说,理想情况下,全球集成电路销售额是一个年化增长率5.68%的指数曲线。
图中灰色的偏差比例数据是实际销售额数据和理想数据差异的百分比:(实际-理想)/理想*100%。这一部分其实就是前述的重大事件影响和随机噪声的组合。通过对它的进一步分析,就可分别了解两个因素各自具体的表现和规律。
上图是销售额偏差率的分布统计。根据实际结果,其分布基本符合我们原先预期的高斯分布(正态分布)。其标准偏差值σ为13.56%。
将标准偏差值作为参考标准带入偏差率图中,我们可以发现图中有三处地方偏差率超出了±2σ的范围,而其它都在±2σ以内,并且绝大部分都分布于±σ的范围内。
回顾历史,我们不难发现这三处超过±2σ范围地方都有着明确的产生原因:
1:是由于2000年初的美国互联网行业严重泡沫导致服务器等一些列电子设备过度采购引起的以处理器为主的芯片出货暴增。
2:是由于随之而来的IT泡沫破灭导致的芯片出货量骤减。这次几乎用了两年的时间集成电路销售额才回复到正常水准。
3:是由2008年下半年的两房公司破产引起的金融危机导致的芯片出货大跌。不过这次行业的回复速度明显较快,从谷底回复到正常水准用了大约不到一年时间。
所以,这三处地方可以认作是我们前述的重大事件影响;而其它的部分的波动基本上可以都归纳为是随机噪声。
为方便读者有一个直观认识,我们将上面偏差率的±2σ范围映射回实际销售额数据图(见下图)。
根据偏差率数据的分布,我们可以其分为以下三种状态区域:
正常状态:偏差率变化在±σ范围以内,说明集成电路的销售基本符合理想值。
过热过冷状态:偏差率变化在±σ到±2σ的范围以内,说明行业处于过热或过冷状态。
极端状态:偏差率超过±2σ的范围,如前面图中的1、2、3处。一旦这种情况出现,必然有作为明确原因的重大事件发生。
由此,根据实际的历史数据我们可以得出以下的一些结论:
1)全球集成电路销售额在理想状态下是以每年大约5.68%的比率呈现指数增长
2)实际销售额和理想状态的偏差率在绝大多数情况下出于±σ范围以内(正常状态),而且一旦超出该范围都会迅速回调到范围之内
3)历史上一些特殊重大事件会导致偏差率突破±2σ的范围(重大事件影响),但都不会在范围外持续太久,而是迅速一直回调到正常范围以内。
3)重大事件影响的定量分析
如果销售额数据理想状态下指数增长的假设成立,则其用以预测未来结果的基本面便可以确立。由于随机噪声的影响较小(±σ范围以内),所以唯一对预测结果有较大干扰的就是那些重大事件影响。
所以,我们接下来需要探讨的就是:是否有一种方法或手段,可以对重大事件的影响进行定量分析,以寻找规律,帮助我们在以后遇到类似事件时用以判断未来变化。
上图是历史两次因为泡沫破灭导致销售额集聚下降后又回复的案例。通过简单目测,我们可以直观感受到以下几点:
1)无论数据下降的起点在哪里,两次下跌的底部基本上都在-2σ的位置。
2)相应的,每次反弹的终点也基本上都在1σ的位置。
3)反弹的速度(斜率)明显慢于下跌的速度,但似乎两者有着一定关系:下跌时间段越短,则反弹所用的时间段也似乎成一定比例地缩短。
根据以上初步的结论,我们接下来的任务就是要寻找办法能够比较准确地确认波峰和波谷的时间位置,从而使我们能够对波动进行定量分析。
确认波峰波谷位置的最大困扰是来自于噪声干扰:波峰波谷位置附近的细微抖动,使得我们对波峰波谷精确位置的确认变得困难。
所以,通过多种方法尝试,我们将连续五个月的平局值(当月数值和前后各两个月的数值的算术平均值)用来判断波峰波谷的具体位置。
由上图可见,通过前后五个月的数据平均,偏差比率的值变得平滑许多,而又不失基本的必要变化特征。
通过对平均数据的分析,我们可以比较容易确认波峰波谷的精确位置,从而获得下图:
由此,我们可以获得两次数据波动的具体信息,见下表:
可以看出,两次的下跌反弹具有一个共同特征:反弹的时间周期大约是下降周期的2.5倍左右。所以结合前面的数据,我们针对重大事件影响可以做出一些初步的定量猜测:
1)一般如果遇到金融危机等重大影响,集成电路销售额的跌幅一般会在-2σ左右的位置便企稳,并在数月内开始反弹。
2)反弹的时间周期要明显慢于前面的下跌周期。从历史数据上看,可能要达到2.5倍左右的比率。
3)反弹的会超过标准的期望值,一般达到1σ的位置上下,然后再有所小幅回落。
如果以上的猜测成立,或者有足够的参考价值,就可以帮助我们在确认重大事件影响发生后,及早对未来的数据走势做出判断。具体方法为:
1、利用5个月平局偏差率数据,确认下跌的起始和谷底位置
2、根据下跌的时间周期,大致估算出反弹的时间周期和最终时间点
3、以1σ位置为目标,确认反弹最终的高度
通过以上三个步骤,结合理想数据的预期值(按照年化5.68%的指数增长曲线),将两者叠加,我们就可以大致推演出未来1到2年的数据走势。
4)数据走势的影响因素和对未来的预测
在前面的章节中,我们通过对销售数据的建模,初步归纳了数据变化的规律。而接下来,就需要探讨这些规律形成的主要原因和影响因素。
前文中,我们对20年来集成电路销售数据里两次大的波动进行分析时就发现,两次波动的形成都是受到全球经济变化的影响,所以我们有理由相信,集成电路的市场和宏观经济有着密切关联。
上图是我们收集的1998~2016年全球GDP和同期集成电路销售数据的对比。可以很容易看出,两者呈现非常近似的指数上升趋势。从理想趋势数据看,GDP大约每年成长5.96%,而集成电路每年成长5.37%,略低于GDP成长。其主要原因可能是摩尔定律导致的集成电路单位成本下降速度较快影响的销售总额。
如果分别将两组实际数据和各自理想值(理想指数曲线数据)对比,计算偏差比例(见上图),我们就会发现两者有着更为接近的变化趋势。当GDP偏低的时候,集成电路的销售也会下降,反之亦然。而且,集成电路的偏差率变化明显大于GDP的变化。可以认为,集成电路的销售额的高低比较明确地反应了同时期整个市场经济的好坏冷暖,并且会明显放大这种波动趋势。可以说,集成电路的销售额是反映世界经济的一个重要晴雨表。
所以,集成电路市场的变化规律主要是受到宏观经济的影响。把握宏观经济的变化,就可以大致判断集成电路的销售额的发展趋势。特别是在遇到重大宏观经济变化时,便可以重大事件影响的模型来预测走势。具体定量的判断方法已经在前文有所描述。
而当全球宏观经济趋稳的时候,我们则可以以当前的数据,根据前述的随机噪声影响模型大致推测未来数据的变化范围。
由上图可知,从2016年1月开始到2018年初的一段时间内,全球宏观经济趋稳,集成电路的销售额的偏差率也如预期地主要在±1σ范围波动。由于前期数据处于1σ的相对高位,所以可以看到后续几个月有向中心值回归的趋向。假设未来一段时间世界宏观经济没有特别变化的话,那未来半年甚至一年的集成电路的销售数据的变化区间很有可能应该在0~1σ区间内随机波动。
所以,如上图所示,绿色部分就是未来一年销售额数据的最大可能分布范围。左图为偏差比例,右图为销售额。