读完了这篇文章,感悟颇深,实乃结合深度学习与行为金融之佳作。其创新的投资者情绪度量,和以BW为基础的精彩实证研究设计,从新的数据源上有力地验证了De Long等行为金融学者的提出的噪音交易者理论中的反转效应。精彩,精彩!
Motivation
在行为金融两大支柱中的心理学方面,投资者情绪是永恒的话题,投资者情绪的度量也随着信息的变革不断的发展。Baker and Wulger ( 2006 ) 时代用PCA方法从6个市场指标合成情绪拉开了投资者情绪度量的帷幕,大数据时代使用搜索引擎、财经论坛、社交媒体等多源数据中提取投资者情绪实现了更高频的衡量。然而,Khaled Obaid (2021)等人在JFE发表的A picture is worth a thousand words: Measuring investor sentiment by combining machine learning and photos from news,提出了一种刻画投资者情绪的新方法——图像信息。
1.数据来源
- 2008-2020年华尔街日报Online在 “Business,” “Economy,” “Markets,” “Politics,” and “Opinion.”等版块每天发布的新闻的标题,图片和摘要信息
- DeepSent提供的882张以情绪为标签的图像数据集
- 第三方5名人工评分全部通过
2.情绪指标的计算
- 情绪分类方法 - CNN卷积神经网络+迁移学习
使用TensorFlow中已经训练好的Google Inception (v3) model可以使用CNN方法识别任何图像并且输出许多特征,但由于本文的目标只需要投资者情绪的消极或积极特征,因此使用迁移学习把该图像识别通用领域的知识迁移到单一的情绪识别上。实现的原理是(Yang et al., 2013)的方法,把Google Inception (v3) mode最后的全连接层替换成只输出积极或消极情绪结果2种类别的新层,同时为了让模型具有识别情绪的能力,用DeepSent提供的情绪图像数据集去训练新的最后的全连接层,最后就能得到识别图像情绪的神经网络。
- 情绪分类质量的评估 - 各种指标
主要是机器学习领域的指标:accuracy(87.1%), recall(86.2%), precision (94.3%), and F1 (90.1%)
参考指标:1.Campos et al. (2017) 比较在DeepSent上训练的CNN模型,提出了accuracy 78.3% - 83.0%的范围,以此作为参考依据。;2.为了衡量在本文的目标数据集上的特定表现,随机抽取了100张图像并在第三方MTurk打好标签,然后重新测试模型的分类效果,accuracy(76.0%), recall(92.8%), precision (77.1%), and F1 (84.2%),接近You et al., (2015)的结果。
- 情绪指标的建立
图像分类的阈值超过50%被认为是消极情绪图像,计算当天消极情绪图像占当天新闻中出现的所有图像的比例得到对图像悲观情绪的测度。