前言:自ICLR2017首次提出图卷积神经网络(GCN)的概念,该模型在节点分类、边预测等任务上表现出了出色的性能。在传统因子选股模型中,常常将股票视为独立的个体,但事实上股票之间存在错综复杂的关系,使用GCN能将股票间的关系作为增量信息纳入预测模型,具有一定的提升价值和启发意义。 对于股票间关系的影响,学者进行了众多研究,在之前的文章中提及的REST模型就对于股票关系图进行了建模,取得模型性能的提升效果,但并没有涉及图卷积神经网络这一模型。考虑到GCN在各种任务上的出色表现令人瞩目,本文选取了两篇文献,分别构建不同股票关系网络应用GCN进行预测。 第一部分:GCN概述图(Graph)一般表示为: G=(V,E) ,其中 V 是顶点的集合, E 是边的集合。在本文的模型中均将股票作为顶点,而将股票间的关系用边来表示,边的权重则代表关系的强弱。 图卷积神经网络(GCN)关于图神经网络的基本概念和应用,Google团队在distill上发布了两篇文章[1]:“A Gentle Introduction to Graph Neural Networks”,“Understanding Convolutions on Graphs”提供了有趣的的交互页面和非常详细的讲解。 GCN由图信号理论和谱域图卷积发展而来,是GNN的常用变体之一,研究者受到CNN的启发,成功在图数据上重新定义卷积的概念。GCN的基本思想是对样本间关系进行显式或隐式建图,将图结构和节点特征作为输入,可以通过集合信息和非线性变换捕获图中节点复杂的相互作用,去创造新的特征。 图1 GCN GCN神经网络层间的传播方式是: H^{(l+1)}=\sigma(\tilde{D}^{-\frac12}\tilde{A}\tilde{D}^{-\frac12}H^{(l)}W^{(l)}) 其中:
GCN的方法为半监督分类,即使只有很少的节点有标签也能训练,尤为特殊的是,即使不训练,完全使用随机初始化的参数W,GCN提取出来的特征也非常优秀,这与其他常用的神经网络模型有非常显著的差别。 图结构数据主要涉及的问题分为三个层面,分别对应图,边和节点。GCN一经问世,便在图问题上获得了广泛的应用,对于节点问题可以进行节点分类、群集,识别最具影响力的节点;对于边问题可以预测缺失的连接;对于图问题可以对图形进行分类等。在推荐系统,虚假用户检测等问题上已经证明了其优秀的性能。在本文的主要场景下,节点即股票的状态是我们关注的重点,通过边来传递股票状态的变化,预测特定股票的涨跌。 第二部分:股票市场中的图为什么股票市场可以使用图来表示股票联动现象:股票联动是市场的自由规律。在股票市场中,相关性高的股票常常有齐涨齐跌的现象。这种齐涨齐跌的现象就叫做股票联动。 股票之间由于公司间的多种联系,诸如同行业,供应链上下游,支付网络,业务伙伴关系和股权联系等,存在交叉影响(cross interaction),也一定程度上解释了股票联动现象。 超前滞后理论(lead-lag theory):大量的实证结果证实了股价存在明显的超前滞后特点,即有些股票价格领先或落后于其他股票。行业信息扩散假说可以解释这一现象:新信息总是率先表现在行业龙头企业,之后再扩散到同行业的其他公司。 考虑到股票市场以上的特点,股票间的复杂关系应该被纳入研究者的考虑范围之中,而图结构能够很好地表示实体之间的关系,因此使用图来表示股票市场,并在此基础上进行进一步的分析。 模型中用到的图对于股票之间的关系图,有很多不同的角度可以考虑。有些学者选择通过模型学习股票关系,有些利用金融先验知识形成关系图;股票之间关系的种类也各有不同,在本文所选的两篇文献中,作者使用的关系图也各不相同。 GCNET:影响网络图2 构建影响网络的步骤 该模型采用股票历史数据建立影响网络,先在二次判别分析(QDA)的基础上训练出四个预测模型,得到预测值后对于每一对股票计算影响分数: influence_{\{i,j\}}=\frac{(Acc_{ij}-Acc_i)+(Acc_{ji}-Acc_j)}{2} 仅在影响分数为正的两节点间连接边。之后按照影响分数作为权重排序,按照从小到大的顺序移除边,直到图不再连通,这样保留了强联系,也避免了噪声的干扰。最后将权重归一化,即得到了最终的影响网络。 Multi-GCGRU该模型构建图的方法主要基于先验金融知识,共提取了如下三种关系图,分别对应持股关系,超前滞后效应和时事新闻影响。
一家公司的业绩表现不仅会影响自身财报,也会影响其股东公司的利益从而影响其股价。基于企业之间的持股关系,将持股比例作为边的权重构建持股关系图。但是由于持股关系并不普遍,图较为稀疏,一定程度上影响了表达的有效性。
市场中的超前滞后效应与公司规模有关,大公司的股票收益往往领先于同行业小公司。模型主要聚焦于行业内部的影响,行业间无连接,行业内公司间的边权重设置为 a_{ij}=\frac{M_i}{M_j} ,M表示公司规模
由于新闻会影响某一话题的相关股票,同一话题的股票之间具有一定的相关性,因此从网络获取股票的话题信息构建时事话题图。同一股票可能有多种话题标签,利用共有标签数量可以在一定程度上衡量股票间的联系 a_{ij}=\frac{T_{ij}}{M_i} ,其中 T_{ij} 表示共有话题数, M_i 表示股票 i 的话题数。 第三部分:GCN模型现有模型及缺点简述很多学者通过实验证明了考虑相关股票的数据有助于预测股价变化趋势,但是目前这方面的研究还不是很充分,如何建模这种关系并用于提升模型预测能力还是一个有挑战性的问题。目前的很多方法仅仅采用了图分析的技术,通用性和灵活性差,预测效果有限。 尽管有些研究也用到了相关股票的数据去训练预测模型,但大多都有以下几点缺点:
针对这几点问题,使用GCN网络可解释性强、更加灵活,能够更有效地聚合有用的信息,为了更好地适应股价预测问题,以下两个模型分别对基础网络进行了一些改进。 两个模型基本架构GCNET图3 GCNET搭建 GCNET将原问题转化为图的标签预测问题,基于相关股票的历史价格数据和程度建模,用半监督算法生成预测模型。给一部分节点使用PLD方法(plausible label discovery)做出可靠的预测作为初始标签,再用GCN处理来重新定义标签并预测未标签的股票。 模型中所使用的PLD方法的基本思路是,采用目标时间点前的历史数据对多个基础分类器训练,选择表现最好的分类器的预测结果作为初始标签。 将预测日前4天的真实股票数据图与预测当天使用PLD方法部分标签的图作为输入,预测完整的标签: Y=softmax(\hat A \text{ReLU}(\hat A \text{ReLU}(\hat AXW^0)W^1)W^2) 模型基础架构为三层,前两层为选择激活函数为ReLU的基本GCN传播层,最后一层使用Softmax函数来处理分类输出。使用交叉熵损失进行训练。 Multi-GCGRU图4 Multi-GCGRU架构 该模型在基础GCN传播层的基础上调整,将预定义的几类图结构合并放入模型中,提出了多图卷积层: H^{(l+1)}=\rho((\sum_{k=0}^{K-1}\theta_k(\theta_SL_S^k+\theta_IL_I^k+\theta_TL_T^k))H^{(l)}W^{(l)}) 其中 \{L_S,L_I,L_T\} 是三个邻接矩阵对应的拉普拉斯矩阵。 这里不仅可以使用之前定义的三类关系图,也可以方便地合并更多的关系图,易于扩展。即使没有预定义的图,也可以通过动态图卷积层从历史数据中进行学习。 由此按天计算出Multi-GCN部分的输出结果,再将其拼接后放入GRU(Gated Reccurent Unit)中,GRU作为RNN的变体之一,可以很好地处理时间序列问题。GRU层的公式为: \begin{aligned} r_t&=\sigma([H_{t-1},X_t,X_t^{GCN}]·W_r+b_r\\ u_t&=\sigma([H_{t-1},X_t,X_t^{GCN}]·W_u+b_u\\ \hat H_t&=tanh([r_t\odot H_{t-1},X_t,X_t^{GCN}]·W_h+b_n)\\ H_t&=u_t\odot H_{t-1}+(1-u_t)\odot \hat H_t\\ X_t^{GRU}&=\sigma(H_tW_g) \end{aligned} 其中 \sigma 表示sigmoid激活函数。 模型表现与价值两模型均采用Accuracy,MCC为主要评价指标,公式如下: \begin{aligned} ACC&=\frac{tp+tn}{tp+tn+fp+fn}\\ MCC&=\frac{tp*tn-fp*fn}{\sqrt{(tp+fp)(tp+fn)(tn+fp)(tn+fn)}} \end{aligned} 模型普遍获得了比基准模型更好的结果,从模型建立的角度来看,也为未来利用股票关系提升股价预测问题提供了新的思路指导。 GCNET作者选择了纳斯达克股票交易所的93只股票,用2011-2020年的股票每日数据,与其他常见模型对比如下: 图5 GCNET在纳斯达克数据集上的表现 在纳斯达克前20的股票上预测结果对比如图: 图6 GCNET模型预测结果对比图 GCNET比其他基准模型表现更好,特别是在MCC指标评价下,表明预测增长和下降类别的成功率更高。基于图的方法可以充分利用图结构推测标签,即使初始标签设置有误,也可以被模型修正。 图7 标签节点比例与准确率 模型中的初始标签选择大致占总股票数的30%最佳,过低则信息不足,过高则噪音过大,预测能力受限。 Multi-GCGRU作者选择的数据为沪深300和沪深500,时间从2015年6月到2019年12月,与其他模型对比如下: 图8 Multi-GCGRU表现 Multi-GCGRU表现更优,同时分别使用不同的图构建模型,经过对比实验发现,时事话题图的影响最强,持股关系图效果最差,可能由于我国股市散户较多、对于新闻信息更加敏感。 图9 不同时长Multi-GCGRU表现 在历史数据长度的选择上,参数选择为7天在沪深300和沪深500上预测的准确率均最佳。 第四部分:总结市场中股票相互关联的特点使其适合使用图结构进行建模。图神经网络则为研究者提供了分析股票关系的新方法,基于图的模型还有很多,诸如图注意力网络(GAT),GraphSAGE等,这里仅对于GCN在预测股票变化趋势的应用选取文献进行了简要概述。 两篇文献基于GCN做了不同的改进,GCNET主要使用历史数据构建影响网络,将原问题化为半监督的标签预测问题;Multi-GCGRU则设计了三种关系网络,并用GRU分析时序信息。虽然目前的准确率还有一定的提升空间,但是为进一步的研究提供了有效的思路,模型易于拓展的特性也让其具备了进一步提升的可能。 市场有风险,投资需谨慎。以上陈述仅作为对于历史事件的回顾,不代表对未来的观点,同时不作为任何投资建议。 参考文献 [1] A Gentle Introduction to Graph Neural Networks (distill.pub) [2] Ye J, Zhao J, Ye K, et al. Multi-graph convolutional network for relationship-driven stock movement prediction[C]//2020 25th International Conference on Pattern Recognition (ICPR). IEEE, 2021: 6702-6709. [3] Alireza Jafari & Saman Haratizadeh, 2022. "GCNET: graph-based prediction of stock price movement using graph convolutional network,"The Journal of Financial Data Science Oct 2022, 4 (4) 152-166; DOI: 10.3905/jfds.2022.1.104 [4] Chen Q, Robert C Y. Graph-Based Learning for Stock Movement Prediction with Textual and Relational Data[J]. The Journal of Financial Data Science, 2022, 4(4): 152-166. |