泛景,Econophysics PhD in Physics 本来这篇文章想写一点金融物理学更基础的问题,但是想乘热打铁,吸引一下大家的眼球,所以挑一个热门的话题——大数据。最近很多研究都涉及到大数据如何与金融市场相结合,以后我会陆续介绍这些工作。今天先讲一篇论文,如何利用 Twitter 的数据来预测金融市场。 各个金融市场,包括股票市场的预测问题,一直吸引着学术界和商业界极大极的兴趣。但金融市场是否真的可以预测?传统的金融学是建立在随机行走和有效市场假说的基础之上。而根据有效市场假说理论,股票价格的变动取决于新出现的信息(新闻),而非取决于过去或未来的股价。而市场上新信息的出现是不可预测的,所以股票价格是不可预测的。 但是近年来出现许多新的工作开始挑战有效市场假说的合理性,如从行为金融学的角度。许多研究也表明金融市场并不是一个完全的随机过程,在一定程度上,也许金融市场存在着一定的可预测性。比如,我们确实无法预料市场中新信息的出现,但却可以从社交网络媒体(Twitter,Facebook,其他的博客等)抓取出一些征兆,利用这些征兆,可以在一定程度上预测经济和社会中未来情绪和信息的变化。实际上,已有这样的工作在经济和社会中发挥作用,比如利用在线网络聊天数据预测图书销售,利用 PLSA 模型从博客中抓取情绪化信息来预测电影票房,利用 Google 的搜索查询来预测流感的早期传播和传播速率等。 尽管我们知道新信息对股票价格的变化有着很大的影响,但实际上公众情绪可能在股票价格变动中扮演了更为重要的角色。在最近发表于 Journal of Computational Science 上的一篇论文中Twitter mood predicts the stock market,印第安娜大学和曼切斯特大学的研究人员利用 Twitter 上的用户发表的 tweet 内容,通过两种情绪分析模型,分别是 OpinionFinder 和 Google-Profile of Mood States (GPOMS),来抓取和分析公众的情绪变化。其中 OpinionFinder 是将人的情绪区分为正面和负面两种模式,而 GPOMS 将情绪分成更细致的六类,分别是 Calm,Alert,Sure,Vital,Kind 和 Happy。 利用格兰杰因果检验(Granger causality test),作者发现公众情绪和道琼斯平均指数(DJIA)之间存在着明显的关联,且公众情绪的时间序列可以作为股指变化的自变量。尤其是 GPOMS 中的 Calm 指标,在提前 2 天到 6 天的范围内,可以对指数变动做出有效的反应。因此,从某种程度上讲,公众情绪某些指标可能可以有效的预测未来股价的变动。 基于这样的猜测,该文作者在一个自组织模糊神经网络模型(Self-organizing Fuzzy Neural Network [SOFNN] model)的基础上,将公众情绪时间序列作为一个自变量输入到该模型中,通过这样的改进,使得预测的效果有明显的改进。该模型可以有效地预测 DJIA 指数收盘价的涨和跌的方向,其准确率高达 86.7% ,而预测失误的平均百分比下降 6%。 我个人的观点是,如果单纯的基于股价的历史价格,我们基本上是不能预测其未来的走势的。但是股价从短期说,本质上是由投资者的交易行为所决定,而交易行为受投资者的情绪影响很大。在此前,我们很难实时的获取公众情绪状态,其获取的成本也很高,而随着社会化媒体的繁荣,实时获取和分析公众情绪状态变得更为容易,我这里介绍的这个工作就是一个有效的尝试,虽然对于真正利用它来预测证券市场的行为还不太现实,但至少为此开启了一扇窗,为这样的预测提供一种可能性,同时也为社会化媒体数据的未来发展和应用提供一个方向。 PS,这篇论文发表才发表与 2011 年,但在 google scholar 上已经有了 1000+ 的引文数!相当牛。 ——————————————— 发自知乎专栏「金融物理学(Econophysics)」