预测中的小tips

1、做预测一般都会做一步向前和多步向前预测,但是要做几步向前比较合适呢?在论文中展示几步向前的结果合适呢?

下面介绍旅游领域top journal的做法:

1.1 年度数据

年度数据的话就做提前三年就行,然后1,2,3全列出来
https://www.sciencedirect.com/science/article/pii/S0261517705000646

1.2 季度数据

李刚老师23年发表的一篇论文Impact of decomposition on time series bagging forecasting performance(https://www.sciencedirect.com/science/article/pii/S0261517723000079)的做法是做12步向前预测,然后再文中只展示2,4,6,8步的结果也就是半年为间隔展示2年的结果

可以用是1,2,3,6,9,12这样展示(https://onlinelibrary.wiley.com/doi/10.1002/jtr.2453

1.3 月度数据

做一个月向前预测,展示1,3,6,9

1.4 周数据

做12周向前预测,展示1,2,3,6,9,12(https://www.sciencedirect.com/science/article/pii/S0160738320300566

2、旅游需求数据缺失的时候使用什么方法补全呢?

看到了两篇发表在top的期刊TM和ATR都是使用 R 中的 “na_kalman” 和 “tsoutliers” 函数来识别缺失数据并平滑异常值以进行数据预处理。

3、搜索指数构建

针对关键词选定主要是从旅游规划的六个方面(住宿、餐饮、景点、交通、旅游和购物)来确定初始关键词,然后使用百度指数的需求图谱查询相关系数高的关键词知道收敛,文献较多引用了Wen, L., Liu, C. and Song, H. (2019), “Forecasting tourism demand using search query data: a hybrid modelling approach”, Tourism Economics和Forecasting tourism demand with composite search index(https://www.sciencedirect.com/science/article/pii/S0261517724001237#bbib40)这两篇

image.png

image.png

4、MASE的计算公式

主要参考MASE的文献和发表在TM的论文,分母使用的是样本内的naive预测的MAE,分子就是测试集的MAE。
https://www.robjhyndman.com/papers/foresight.pdf

image.png

https://www.sciencedirect.com/science/article/pii/S0261517723000079#bib26
image.png

https://www.sciencedirect.com/science/article/pii/S0160738320300815
image.png

5、归一化和标准化,都要使用训练集上的信息来作为标准,不能引入测试集的东西

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler(feature_range=(0,1))
df_for_training_scaled = scaler.fit_transform(df_for_training)
df_for_testing_scaled=scaler.transform(df_for_testing)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容