Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

【ネットワークの統計解析】第12回 株式市場とネットワーク分析 (1)

こんにちは.研究開発部の黒木裕鷹です.前回の記事から大分時間が空いてしまいました.

12月に宮崎で開催される青島太平洋マラソン2022にエントリーしました. ベスト(ネットタイムで3時間58分)を更新できるよう頑張りたいのですが,あまりの暑さで思うように練習できていません. 涼しい夜を狙ってしっかりスピード練習をして,秋のロング走でしっかりタイムを伸ばしたいところです.

さて,この連載では,自分の勉強・復習も兼ねて,ネットワークデータにまつわる統計(機械学習)の解析を気の向くままに紹介しています. 今回からは,最近興味が湧いているファイナンス,とりわけ株式市場におけるネットワーク分析にクローズし,数回にわけて取り上げていきたいと思います. アウトプットの機会を利用してインプットしてしまおう,いろいろと勉強したことをついでにアウトプットしよう,というモチベーションです. しばしお付き合いいただければ幸いです.

それではやっていきます.

はじめに:株式市場におけるネットワーク

明示的にネットワークとして与えられるものだけでなく,さまざまなドメインにおける関係性をネットワークと捉えることができることは,これまでの記事でも紹介してきました. たとえば,ユーザとアイテムの購買データなどです.

株式市場においてはどうでしょうか. 真っ先に思い浮かぶのは株価のデータですが,それぞれの銘柄で別個の時系列があるだけのように思われます. 今回の記事では,株式市場においてはどのようなネットワークを利用することができるか,使うデータの観点からその種類・作り方を広く収集し,整理してみたいと思います.

サプライチェーンに基づくネットワーク

そもそも株式市場とは,企業が発行した株式が売買される場です. 企業は市場を介して調達した資金を基に設備投資や事業への運用を行い,投資家はこれまでの企業活動や株式の値動きを反映して売買の意思決定を行います. 株式市場は多くの要因が絡み合う複雑系ですが,その大元は企業の経済活動です. 異なる企業の証券の統計的関係を理解する上で,構造的関係や接続が重要な役割を果たすことは,検討に値する仮説たり得るでしょう.

このような構造的関係には,たとえば,業界分類や同業者グループの特定によって捉えられるような,基礎となる事業の類似性などが含まれます. 最も代表的な企業と企業の関係性としては,サプライチェーンのネットワークが挙げられると思います. あるサービスに特有の好景気や不景気が起こった際には,そのサービスに関連するサプライチェーン全体も利益・不利益を受け,結果的にサプライチェーンでつながる企業の銘柄は相関すると考えられるでしょう.

たとえば Wu (2015) は,FactSet が提供するサプライチェーンデータから企業の中心性指標を算出し,中心的な企業の株式から成るポートフォリオが市場全体の動きに先行していることを検証しています. FastSet のデータは,企業の開示情報や年次報告書,その他の一次資料からの情報に基づいて,各企業の過去のサプライヤーと顧客の関係をマッピングすることで作成されています.

一方で,全ての調達や製造,配送,販売を正確に調査することが現実的ではないことから,完全なサプライチェーンネットワークを観測することが不可能である課題は避けては通れないでしょう. 上述の FactSet のデータセットにおいても,公示されている主要な取引先については観測されているものの,リアルタイム性と網羅性には限界がありそうです. 次からは,企業間の経済活動全体をできるだけ幅広く自動的に近似することを目的とした,テキストやその他のソースを分析するアプローチをとりあげます.

トランザクションデータに基づくアプローチ

企業と企業の取引に伴う送金データから構築されたネットワークは,理想的なサプライチェーンネットワークのかなり良い近似になっていることが期待できるでしょう. Letizia and Lillo (2019) は,ヨーロッパ大手銀行の決済プラットフォームから抽出した送金ネットワークを研究しています. この送金ネットワークには約240万社のイタリア企業が含まれており,その大部分の企業には信用リスクの格付けが付与されています. 送金ネットワークがスケールフリーかつスモールワールド性をもつことだけでなく,企業の局所的なネットワーク特性とリスクの間に有意な相関があることを発見しています. また,事業のリスクはネットワーク上で一様に広がるのではなく,むしろ特定の領域に集中し,連結しているということが示唆されています.

送金ネットワークの構築はログから直接作成することができますが,それぞれの大手銀行が観測している送金は全体からすると部分的である課題が残るでしょう. たとえば 皆川ら(2022)は,GNN を用いた link prediction でこれを補完することでこの課題に対処しようとしています.

テキスト情報からのリンク抽出

オルタナティブデータを活用した,サプライチェーンとは異なる「企業ネットワーク」の作成と研究も進展しており,興味深い知見が得られています. ここでオルタナティブデータとは,金融業界や株式分析に伝統的に利用される経済統計や財務情報以外の情報源から生成されるデータの総称を言います. 以下にその一例を列挙してみます.

  • Fan et al. (2019) は,10-K(アメリカの上場企業が義務付けられている決算報告書)のプロダクト説明のテキストから,その類似性のネットワークを構築しています. また,この類似性ネットワーク情報を後段の機械学習モデルの入力として利用し,企業の将来の成功や失敗の予測精度が著しく高くなることを報告しています.
  • Feng et al. (2019) や Kim et al. (2019) は,Wikipedia から得られるテキストやリンク構造を基に知識グラフを作成し,RNN をベースとしたリターンの予測を改善しています.
  • Rönnqvist and Sarlin (2014) は,オンライン・ディスカッションフォーラムから金融機関の共起ネットワークを構築し,金融機関が経営難に陥るリスクの分析しています.
  • Souza and Aste (2019) は,過去のリターンの相関に基づくネットワークについて,将来時点でエッジが張られたり削除される確率を予測しています. またそのために,過去時点の相関ネットワークだけでなく,Twitter における感情時系列の相関から推定された社会ネットワークも合わせて使用し,予測可能性が大幅に向上することを報告しています.

人のつながりに基づくアプローチ

株式市場は,企業の活動だけでなく,それを受けた投資家やトレーダー達の意思決定によっても左右される複雑系です. 彼らのつながりに着目したネットワークを利用することにも大きな意味がありそうです.

たとえば,投資家やトレーダーはそれぞれ社会的なつながりをもち,同じような考えを持ち,投資先の選択肢・情報を共有しているかもしれません. Ozsoylev et al. (2014) は,社会的なつながりや情報の共有を調査し,それらがどのように取引の相関パターンを予測することができるかを調査してます. 結果として,ネットワークにおいて近いトレーダーによる取引は正の相関をもち,遠いトレーダーによる取引は負の相関をもつことを示しています. また,Jeude et al. (2019) は,共通のオーナーや役員が存在する関係や共同研究のつながりなどを一つの企業ネットワークに盛り込み,企業業績と中心性指標との間に関連性があることを示しています.

時系列(株価)に基づくアプローチ

これまでみてきたような,企業の活動そのものや定性情報を用いたネットワーク作成のほかに,過去の株価に基づいてネットワークを構築するアプローチがあります. 古くは Mantegna (1999) に端を発する,時系列の相関から最小全域木を構成する方法(Mantegna 法)があり,最小全域木がちょうどデンドログラムに対応するため銘柄を改装的に分類することができます. Mantegna 法では,銘柄  i, j の相関係数を  \rho _ {i, j} としたとき, d = \sqrt{2(\rho _ {i, j})} で表されるような距離を用いて最小全域木を構成するのですが,以下のような問題点が指摘されており,その改善の研究が多くなされています.

  • 入力に対してロバストでない
  • 特に金融危機時のデータが混入すると不確実性が高まり,解釈が困難となる
  • クラスタリングのアルゴリズムによって結果が大きく異なる可能性がある

クラスタリングアルゴリズムの改善のほか,銘柄の時系列間の距離尺度でもさまざまな改善の工夫が凝らされているようです. たとえば以下のようなものが見つかりました.

  • グレンジャー因果を用いた距離 (Billio et al., 2012)
  • 偏相関を用いた距離 (Kenett et al., 2010)
  • 相互情報量を用いた研究 (Fiedor, 2014)
  • 推定された GARCHモデルの係数を用いてクラスタリング (Otranto, 2008)

ここで,グレンジャー因果は時系列間の因果性(正確には片方がもう片方の予測に寄与するかどうか)であり,GARCH モデルは時系列の分散の自己回帰性(e.g. 大きなショックが起きると次も大きな変動になりやすい)を表現するモデルです.

また,時系列の相関から直接ネットワークを構成するため,分散共分散行列(実際にはその逆行列である精度行列)をスパースに推定する Graphical Lasso (Friedman et al, 2008) を応用した研究などもあります (Millington and Niranjan, 2017).

本節で紹介した時系列を用いる方法は,すべて対数収益率を用いることに注意してください.株価をそのまま用いてしまうと,見せかけの回帰が起こってしまうためです.

おわりに

今回の記事ではドメインを金融,特に株式市場に絞り,どのようなネットワークデータが扱われているのかついて紹介しました. できるだけ平易に俯瞰できるよう心がけましたが,拾えていない重要な研究・アプローチがたくさんあるはずです. もし他に重要なものがあれば,教えてくださると嬉しいです.

次回の記事では,今回紹介したネットワークを用いて,具体的にどのようなタスクを解いていくのかを紹介できればと思います.  それではまた,ごきげんよう.

参考文献

  • Billio, M., Getmansky, M., Lo, A. W., & Pelizzon, L. (2012). Econometric measures of connectedness and systemic risk in the finance and insurance sectors. Journal of financial economics, 104(3), 535–559.
  • Fiedor, P. (2014). Information-theoretic approach to lead-lag effect on financial markets. The European Physical Journal B, 87(8), 1–9.
  • Feng, F., He, X., Wang, X., Luo, C., Liu, Y., & Chua, T. S. (2019). Temporal relational ranking for stock prediction. ACM Transactions on Information Systems (TOIS), 37(2), 1–30.
  • Friedman, J., Hastie, T., & Tibshirani, R. (2008). Sparse inverse covariance estimation with the graphical lasso. Biostatistics, 9(3), 432–441.
  • de Jeude, J. V. L., Aste, T., & Caldarelli, G. (2019). The multilayer structure of corporate networks. New Journal of Physics, 21(2), 025002.
  • Kenett, D. Y., Tumminello, M., Madi, A., Gur-Gershgoren, G., Mantegna, R. N., & Ben-Jacob, E. (2010). Dominating clasp of the financial sector revealed by partial correlation analysis of the stock market. PloS one, 5(12), e15032.
  • Kim, R., So, C. H., Jeong, M., Lee, S., Kim, J., & Kang, J. (2019). Hats: A hierarchical graph attention network for stock movement prediction. arXiv preprint arXiv:1908.07999.
  • Letizia, E., & Lillo, F. (2019). Corporate payments networks and credit risk rating. EPJ Data Science, 8(1), 21. Millington, T., & Niranjan, M. (2017). Robust portfolio risk minimization using the graphical lasso. In International Conference on Neural Information Processing. 863–872.
  • Mantegna, R. N. (1999). Hierarchical structure in financial markets. The European Physical Journal B-Condensed Matter and Complex Systems, 11(1), 193–197.
  • Otranto, E. (2008). Clustering heteroskedastic time series by model-based procedures. Computational Statistics & Data Analysis, 52(10), 4685–4698.
  • Ozsoylev, H. N., Walden, J., Yavuz, M. D., & Bildik, R. (2014). Investor networks in the stock market. The Review of Financial Studies, 27(5), 1323–1366.
  • Rönnqvist, S., & Sarlin, P. (2014). From text to bank interrelation maps. In 2014 IEEE Conference on Computational Intelligence for Financial Engineering & Economics (CIFEr), 48–54.
  • Souza, T. T., & Aste, T. (2019). Predicting future stock market structure by combining social and financial network information. Physica A: Statistical Mechanics and its Applications, 535, 122343.
  • Wu, L. (2015). Centrality of the supply chain network. available at SSRN 2651786.
  • 皆川直人, 和泉潔, 坂地泰紀, 佐野仁美 (2022). 産業テキスト情報とグラフニューラルネットを用いた潜在的取引の予測. 第28回人工知能学会 金融情報学研究会(SIG-FIN).

▼これまでの記事はこちら buildersbox.corp-sansan.com

© Sansan, Inc.