こんにちは. DSOC 研究開発部の黒木裕鷹です. なんとハーフマラソンにエントリーしてしまいました.思いつきって怖いですね. やるからには良いタイムで走りたいと思い,2時間切りを目標に練習しています. とはいえインターネットの記事や Youtube でしか情報収集していないため,良いトレーニングができていないかもしれません. どなたか知見をお持ちの方がいらっしゃったら是非ご教授ください.
先日,LINE株式会社主催の2つの論文読み会で発表する機会をいただきました. 私が紹介した2本の論文はどちらもグラフデータの機械学習に関するもので,せっかくなので今回の記事ではその報告をしたいと思います.
勉強会の概要・感想
参加した2つの勉強会は,それぞれICML,KDD という機械学習のトップの国際会議にアクセプトされた論文の中から好きなものを読み,紹介するという趣旨のものでした. ICML は実験を中心とし,理論寄りの研究も多く存在する学会で,KDD は企業での活用例のトラックが設けられているなど,実問題への適用を意識した研究が多い学会です.
発表形式はどちらも10分間の LT で,それぞれ10本の論文が紹介されました. また,発表は LINE株式会社,ボストン コンサルティング グループ (BCG Japan),株式会社ユーザベース,株式会社リクルート,Beatrust株式会社,Sansan株式会社 の有志10名により行われました. 発表時間自体は比較的短いですが,多様なバックグラウンドを持った方々により幅広いトピックが扱われ,濃厚で刺激的な時間を過ごすことができました. 運営のみなさまには改めて感謝申し上げます.
その他の情報や発表資料はこの記事では紹介しきれないため,以下の勉強会 URL よりご覧ください.
紹介した論文
さて,ここからは私が取り上げた論文について簡単に紹介いたします.
Deep-walking backwards from embeddings back to graphs
「ICML2021 論文読み会」で紹介したこちらの論文では,広く用いられている skip-gram 系の node embedding がどのような性質をもっているのかを明らかにすることをモチベーションとしています. skip-gram 系の node embedding にも色々ありますが,特に最も有名な DeepWalk を,明示的に行列因子分解の形で表した NetMF を対象のアルゴリズムとしています. 行列因子分解のように学習が決定的に行われることは,アルゴリズムの性質を探るうえで非常に扱いやすいと思います. NetMF 自体が非常に面白い研究なので,機会があればそのうちこの連載でも取り上げたいと思います.
論文ではまず逆変換のアルゴリズムを提案し,これを用いて復元されたグラフもまた NetMF が近似している対象を十分保つことを示しています. つまり,逆変換アルゴリズムの妥当性を,NetMF が直接的に学習している側面から示しています. 続いて,妥当性を(あくまでも学習の観点から)示した逆変換を用いて,復元されたグラフが様々なグラフ特性(クリークの数やコミュニティ構造など)をどの程度保持するかを示しています. 結論として,NetMF (DeepWalk) が局所的な情報を落としながらも,コミュニティのような大局的な構造は復元しやすいことを経験的に示しています. node embedding の後段で行われるタスクにとって局所的な情報はそこまで重要でないため,一定の情報を洗い流しているがゆえパフォーマンスを誇っており,人気なアルゴリズムになり得たと考えることもできるかもしれません.
Attentive heterogeneous graph embedding for job mobility prediction
「KDD2021 論文読み会」で紹介したこちらの論文は,転職市場をドメインとした論文です. 求職者と採用担当者の双方にとって,「次のキャリアを予測すること」には大きなメリットがあります. キャリア予測にはこれまでも様々な研究がなされてきましたが,個々の転職を別個に学習し,企業とポジションの相互作用を明示的に扱うことはしていませんでした. そこでこの論文では,その相互作用を Heterogeneous Graph,つまり異なる性質のノードとエッジを同時に持つグラフを明示的に学習する深層学習モデルを提案しています. ここで,ノードとしてはポジションと企業が,エッジにはポジション間の遷移,企業間の遷移,ポジションの企業への帰属がそれぞれ該当します. また,既存のモデルよりも高い精度を示す事でその妥当性を主張しています.
モデルの全体像については元論文や紹介資料に委ねますが,GNNパートでは,同質な近傍(企業-企業,ポジション-ポジション)を畳み込む部分と異質な近傍(企業-ポジション)を畳み込む部分,そしてそれらを統合する部分から成ります. 主張に対し,工夫が最低限である点は分かりやすくて良いと思いました. また,各所で Attention を利用しているのも今風でシンプルです.
グラフにまつわる他の発表
LINE 株式会社の高濱さんが紹介されたこちらの論文も,期せずして Heterogeneous Graph の GNN に関するものでした.
Heterogeneous Graph のグラフフィルタにもたくさんの種類があるのですが,包括的な検証を行い,Homogeneous を考慮していない GAT の方が良いことを示しています. 同時に,高いパフォーマンスを出している GAT にエッジの種類を考慮させる工夫を施した simple-HGN を提案し,GAT を上回る精度を出しています.
おわりに
今回の記事では,外部の勉強会への登壇をきっかけに,グラフにまつわる紹介した論文2本と聴講した論文1本を取り上げました.
次回の記事では,いちど GNN をはなれ,古典的なグラフ分析に戻ろうかと考えています. 引き続き,なにか読みたいテーマなどあればコメントお待ちしております!! それでは,ごきげんよう.
▼執筆者による連載記事はこちら
buildersbox.corp-sansan.com