ここ最近の計算社会科学の動向

反対意見を知れば分かりあえるのか？偏った集団でも正しい決定ができるのか？フェイクニュースほど広まりやすいのか？良好な人間関係はパフォーマンスを向上させるのか？研究者が束になってかかれば、社会的現象を予測できるのか？

こんにちは、Sansan DSOC R&D研究員の前嶋です。普段はつながりに効く、ネットワーク研究小話という連載を書いていますが、今回はここ2,3年の計算社会科学の潮流を紹介したいと思います。

計算社会科学(Computational Social Sciences)は、SNSなどのビッグデータ解析やオンライン上での実験などを用いて社会現象を定量的に分析するという、社会科学と計算機科学の融合分野です。

日本でも最近、マシュー・サルガニックによる概説書”Bit by Bit”が翻訳され、社会科学の研究者のみならず、広くその名前が知れ渡りました。日本には計算社会科学研究会というコミュニティがあります。Sansan DSOCでも、IC2S2やNetSciなど計算社会科学系の国際学会やワークショップで積極的に研究発表を行っています。

buildersbox.corp-sansan.com

さて、2020年4月のAnnual Reviews of Sociologyに、社会学分野での計算社会科学の研究潮流をまとめたレビュー論文が掲載されました(Edelmann et al. 2020)。”Bit by Bit”の原著は約3年前の2017年11月に出版されたものですが、計算社会科学ではこの間にも急速に研究が進んだようです。

そこで今回は、このレビュー論文で紹介されている研究のうち、2017年以降の計算社会科学の研究をいくつかピックアップして、"「ビッグデータ」「実験的アプローチ」「マス・コラボレーション」という3つのテーマに分けて、簡単な紹介を行いたいと思います。

ビッグデータ解析

「長い」つながりの強さ？

Park, P., Blumenstock, J., & Macy, M. (2018). The strength of long-range ties in population-scale social networks Science, 362(6421), 1410–1413. science.sciencemag.org

前提：ある二者の持つ共通の知人数とつながりの強さは正に相関する。
問い：共通の知人がいない二者間にどれくらいの長さのパスが存在するか(tie-range)と紐帯の強度の間に関係があるのではないか？
- つまり、共通の知人がいないペアでも「何人を辿ればお互いのもとにたどり着けるか」に濃淡があるという点に注目している。
データ：4大陸の11の文化的に多様な人口規模のネットワーク
- Twitterユーザー5,600万人、携帯電話加入者5,800万人からなるデータ
結果：つながりの長さとつながりの強さ(通話量など)は負の相関関係が見られた。
- しかし、中には例外的に「ワームホール」(長さ6以上だが強さが中央値以上のつながり)も存在していた。
- このワームホールの存在が、様々な情報拡散を説明する可能性がある。

※手前味噌ですが、強いつながりの条件は以下の記事にまとまっています。

buildersbox.corp-sansan.com

”偽”事千里を走る？

Vosoughi, S., Roy, D., & Aral, S. (2018). The spread of true and false news online. Science, 359(6380), 1146-1151.

science.sciencemag.org

前提：ソーシャルメディアでは真実と虚偽の情報が両方とも急速に広まり、政治・経済に影響を与える。
- e.g. 「オバマ大統領が爆発で負傷した」というフェイクニュースは、株価を1300億ドル下落させた。
問い：
- メッセージの真偽によって拡散過程は異なるのか？
- 人間の判断のどのような要因がその違いを説明するのか？
データ：
- 2006年から2017年までTwitterで配信された検証済みの真と偽のすべてのニュース。
- 約300万人が450万回以上ツイートした約126,000のストーリーが含まれる。
結果：
- フェイクニュースのほうが、遠く、速く、深く、広くまで拡散されていた。
- フェイクニュースのほうが真実よりも情報の新規性が高かった。
- 真実の情報には期待や悲しみ、喜びの感情が付随する一方で、フェイクニュースに対しては驚き、恐怖や嫌悪感が付随していた。

検索ワードの全世界的拡散の過程

Bail, C., Brown, T., & Wimmer, A. (2019). Prestige, Proximity, and Prejudice: How Google Search Terms Diffuse across the World. American Journal of Sociology, 124(5), 1496–1548.

前提：ガブリエル・タルドの模倣理論(c.f. 『模倣の法則』)
- より多くの権力と名声を持つ個人の実践、信念、行動ほど模倣されやすい。
- 社会的に近接した人ほど模倣されやすい。
- グループ間に反感や偏見が存在すると、模倣が起こりにくくなる。
- 現代では、グローバル企業などの組織の影響も見られるだろう。
問い：タルドの模倣理論は、全世界的な文化の拡散現象でも妥当するか？
- 国家間の威信と権力の差が大きいほど模倣の可能性が高い（仮説1）。
- 地理的、社会的、経済的に接触している人口が多いほど模倣の可能性が高い（仮説2）。
- 宗教の違い、植民地支配の歴史的経験、話し言葉の違いによって確立された文化的境界線が弱いほど、タルドの言葉で言うところの「偏見」が生じやすい（仮説3）。
データ：2004年から2014年までの間に199カ国のGoogle Trendsデータ、月ごとのトップ10単語およびトップ10上昇単語を収集。
- 経済的な接触は貿易データ、文化的な威信の高さは世界文化遺産の登録数などで測っている。
結果：
- 少数の大きな拡散経路があるわけではなく、マルチチャンネル構造になっていた。
  - アメリカが主導した拡散事例は全体の3％にすぎない。
- 「フランスからコートジボワールとセネガル」など、言語に基づく拡散経路が見られた。
- GDPに差があるほど模倣が発生する(仮説1を支持）。
- 地理的距離の近さ、貿易の多さ、政治的な近さ(NGO所属の重複度)があるほど模倣が発生する（仮説2を支持）。
- 宗教、言語、歴史が異なると、模倣が発生しにくくなる（仮説3を支持）。

ネットワークの構造的バランスが成功を生む？

Askarisichani, O., Lane, J. N., Bullo, F., Friedkin, N. E., Singh, A. K., & Uzzi, B. (2019). Structural balance emerges and explains performance in risky decision-making. Nature communications, 10(1), 1-10.

www.nature.com

前提：構造バランス理論(Structural Balance Theory, SBT)。以下のルールに則るのがバランスの取れたトライアド(三者関係)である。
- 友達の友達は友達。
- 敵の友達は敵。
- 敵の敵は友達。
- 友達の敵は敵。

en.wikipedia.org

問い：構造バランスの時系列変化は、パフォーマンスにどう影響するか？
データ：ある金融機関の66人のデイトレーダーを2年間にわたって分析。
- トレーダーの感情的関係：インスタントメッセンジャー(200万件以上のメッセージ)から推測。
- トレーディングパフォーマンス：損益計算書(100万件以上の取引)から測定。
結果：バランスの取れたネットワークを持っているトレーダーほど、大きい利益を生んでいた。
スキルのある人物はそれを犠牲にしてまで良好な職場の関係性を作るわけではなく、スキルと良好な人間関係は両立する。

実験的アプローチ

反対意見を知れば分かりあえるのか？

Bail, C., Argyle, L., Brown, T., Bumpus, J., Chen, H., Hunzaker, M., Lee, J., Mann, M., Merhout, F., & Volfovsky, A. (2018). Exposure to opposing views on social media can increase political polarization. Proceedings of the National Academy of Sciences, 115(37).

www.pnas.org

前提：Twitterなどのソーシャルメディアは、ユーザーの既存の信念に沿うような情報を優先的に流すため、「エコーチェンバー」を作り上げ、政治的分極化を深刻化させている…と言われている。

ja.wikipedia.org

問い：では、反対意見を摂取すれば、政治的分極化が緩和されるのか？
データ：Twitter上でのフィールド実験。
- 週に3回以上Twitterにアクセスする共和党支持者と民主党支持者が対象(N = 1652)。
- 介入群と対照群に分け、介入群にはTwitterボットまたは自動Twitterアカウントをフォローするための11ドルが提供され、1か月間毎日24のメッセージをリツイートすることが求められた。
- 実験ごとにリベラルなボットと保守的なボットを作成した。これらのボットは、4,176件の政治的アカウントのリストからランダムにサンプリングされたメッセージをリツイートした。
結果：
- 介入を受けた民主党支持者は、リベラルな態度をわずかに示すようになったが、統計的に有意ではなかった。
- 対照的に、介入群の共和党支持者は、かなり保守的な見解を示すようになった。
  - つまり、もともと持っていた政治的な態度が、更に極端になった。
  - 反対意見に触れることは、必ずしも政治的な見解を中和するとは限らない。

政治的な偏りは「群衆の知恵」を歪めるか？

Becker, J., Porter, E., & Centola, D. (2019). The wisdom of partisan crowds. Proceedings of the National Academy of Sciences, 116(22).

www.pnas.org

前提：無知な市民でも、話し合いなどの社会的情報処理を通すことで正確な信念に到達することができる、というのが「群衆の知恵」であり、熟議民主主義の基礎となっている。
問い：「群衆」が政治的に偏っている場合でも、その「知恵」は正しいのか？
データ：実験 (Amazon Mechanical Turk, N = 35)
- 事前の質問によって、被験者を共和党支持者と民主党支持者に区分。介入群は、同じ党派性を持つ人とのネットワークが作られる。
- 「先月のバラクオバマ大統領の大統領政権の失業率はいくらでしたか？」などの質問に答えていく。
- 実験のステップ：
  - ラウンド1：各被験者がそれぞれ独立に質問の答えを提出する。
  - ラウンド2：介入群には、ネットワークで繋がっている4人のラウンド1での回答の平均値が示され、これに基づいて回答を修正することができる。
  - ラウンド3：ネットワークで繋がっている4人のラウンド2での回答の平均値が示され、これに基づいて回答を修正することができる。
結果：
- 真値との乖離は、介入群と対照群で有意な差が見られなかった。
- さらに、回答における政治的分極化を緩和する効果も見られた。
  - 共和党支持者と民主党支持者の間の回答の差は、ラウンドを重ねていくことで小さくなっていった。
政治的に分離された社会ネットワークの内部でも、「群衆の知恵」に基づく民主主義が可能かもしれない。

なにが資源共有の戦略を決定するか？

Shirado, H., Iosifidis, G., Tassiulas, L., & Christakis, N. (2019). Resource sharing in technologically defined social networks. Nature Communications, 10(1), 1079.

www.nature.com

前提：シェアリングエコノミーが台頭する中で、ネットワークを介した資源共有の必要性が高まっている(ライドシェア、パワーグリッド)
問い：
- データ：「Wi-Fi共有ゲーム」(Amazon Mechanical Turk, N = 600)
  - 15ラウンド×30セッション。ラウンド毎に30ユニットのWi-Fiキャパシティが与えられる。
  - 被験者を20ノードのネットワーク内の場所にランダム割当。ネットワークは単位正方形にランダムに配置され、接続半径より小さければ2つのノードが接続される。セッションごとに接続半径がランダムに変わる。
  - プレイヤーは自分のリソースを隣人に割り当てることができる。ただし、他のプレイヤーのリソースは不明。
  - 近隣のノードから受け取ったリソースの量を最終的なスコアとし、被験者に金銭的報酬を与える。
結果：
- 接続半径を増加させるにつれて、被験者のスコアの不平等度が減少していく。被験者は前のラウンドで受け取ったよりも多く与えた隣人への割り当てを増やしていくため、取引が対称的になっていく。
- 中心性の一種であるGraph theoretic Power Index(GPI)とスコアの相関が大きかった。
  - GPI：あるノードが他のノードと相互的なつながりを形成する確率。
接続半径を操作したり、特定のつながりを形成するなどの介入を行うことで、リソース配分の不平等を減らす、あるいは全体の共有量を増やすことができるかもしれない。

NetSciX-2020でのバラバシ先生の基調講演も、ネットワークに対する操作・介入に関するものだったので、このような研究はこれから増えていくかもしれません。

マス・コラボレーション

社会科学版kaggle？

Salganik, M., Lundberg, I., Kindel, A., Ahearn, C., Al-Ghoneim, K., Almaatouq, A., Altschul, D., Brand, J., Carnegie, N., Compton, R., Datta, D., Davidson, T., Filippova, A., Gilroy, C., Goode, B., Jahani, E., Kashyap, R., Kirchner, A., McKay, S., Morgan, A., Pentland, A., Polimis, K., Raes, L., Rigobon, D., Roberts, C., Stanescu, D., Suhara, Y., Usmani, A., Wang, E., Adem, M., Alhajri, A., AlShebli, B., Amin, R., Amos, R., Argyle, L., Baer-Bositis, L., Büchi, M., Chung, B.R., Eggert, W., Faletto, G., Fan, Z., Freese, J., Gadgil, T., Gagné, J., Gao, Y., Halpern-Manners, A., Hashim, S., Hausen, S., He, G., Higuera, K., Hogan, B., Horwitz, I., Hummel, L., Jain, N., Jin, K., Jurgens, D., Kaminski, P., Karapetyan, A., Kim, E., Leizman, B., Liu, N., Möser, M., Mack, A., Mahajan, M., Mandell, N., Marahrens, H., Mercado-Garcia, D., Mocz, V., Mueller-Gastell, K., Musse, A., Niu, Q., Nowak, W., Omidvar, H., Or, A., Ouyang, K., Pinto, K., Porter, E., Porter, K., Qian, C., Rauf, T., Sargsyan, A., Schaffner, T., Schnabel, L., Schonfeld, B., Sender, B., Tang, J., Tsurkov, E., Loon, A., Varol, O., Wang, X., Wang, Z., Wang, J., Wang, F., Weissman, S., Whitaker, K., Wolters, M., Woon, W., Wu, J., Wu, C., Yang, K., Yin, J., Zhao, B., Zhu, C., Brooks-Gunn, J., Engelhardt, B., Hardt, M., Knox, D., Levy, K., Narayanan, A., Stewart, B., Watts, D., & McLanahan, S. (2020). Measuring the predictability of life outcomes with a scientific mass collaboration. Proceedings of the National Academy of Sciences of the United States of America, 117(15), 8398–8403.

www.pnas.org

著者が非常に多い研究論文。ファーストオーサーは”Bit by Bit”の著者でもあるサルガニック。
社会科学者のマスコラボレーションによって、社会的なアウトカムを予測するという取り組み。
パネル調査Fragile Families and Child Wellbeing Studyのデータ。
- 未婚の両親によって形成された家族とその子供の生活を理解することを目的として行われた調査。
- 出生時点(Wave 1)から9歳(Wave 5)までのデータを用いて、15歳(Wave 6)でのイベントを予測する。
  - GPA、立ち退き、保護者のレイオフなどを予測。
  - Wave 6の半量のデータが正解データとして与えられた。
  - リーダーボード用のテストデータと最終的なテストデータも分けられた。
457のチームが応募し、160のチームが予測データを提出した。
結果：すべてのアウトカムについて、うまく予測できなかった。
- しかし興味深いのは、各々のチームの採用した手法の複雑さに関わらず、予測できなかったケースが互いに似ていたこと。
では、このデータに基づく既存の研究や政策は現象をよく「理解」していなかったのだろうか？この「理解」と「予測」のパラドックスを解消するロジックには今のところ以下の3つのようなものがある。
- 理解が不十分である。
- 予測精度は必ずしも理解の深さを意味しない。
  - 記述的な分析や因果推論で理解を深めていくことができる。
- 理解は正しいが、不完全である。
  - 株式市場や気象現象などが参考になる可能性がある。
仮にモデルを複雑にしても、どのモデルでもベンチマークとの差がそれほどなかったのを鑑みるに、費用対効果に見合わない可能性もある。

以下の論考でGarip(2020)が主張しているように、既存のデータやモデルでも記述的な説明、因果関係の特定は可能である上に、仮に予測精度が良くても、現象と現象をつなぐメカニズムは特定される必要はあるとし、「予測」と「理解」は互いに補完的かもしれません。いずれにせよ、サルガニックらの研究は社会科学における「理解」を問い直すという点で、非常にインパクトが大きいと言えるでしょう。

www.pnas.org

最後に

レビュー論文によれば、これからの計算社会科学には、以下のような方向性があるようです。

伝統的な社会学的な問に対して新たなデータや方法で迫っていく。
- 社会的ネットワークや文化的変化に関する新しいマクロレベルの理論や、人間の意思決定に関するミクロレベルの理論をリンクさせていくことができるのではないか。
- これからはソーシャルメディアや行政のデータだけでは不十分だろう。
社会的に未知の領域(terra incognita)に新しい理論を作り上げていく。
- 例えば、デジタル抗議、文化的製品の消費、オンラインでの知識の普及、機械学習と人間の関係など。
コンピュテーショナルな方法それ自体を使って理論を作り上げていく。
- 機械学習それ自体で人間の行動を「リバースエンジニアリング」することは難しい。
- 社会行動の新たな次元を特定したり、既存の説明の堅牢性を検証したりするために、そのようなツールを体系的に利用することは可能。
- モデルによって生み出された予測値と根本的な現実との間のギャップを、変数ごとに比較する。
他の分野との共同作業によって理論を作り上げていく。

私個人の感想としては、データの独自性や大規模性はもはやデフォルトとなっており、「どれだけ面白くてground-breakingな問いを解いているか」が重要な価値になってきていると改めて思いました。これまでは検証が極めて難しかった大きな問を解く研究も増えてきたように感じます。加えて、「エコーチェンバー」など、00年代に盛んに喧伝されていた現象の社会的意義を根本から問い直すような研究が目立ちました。

最後になりますが、レビュー論文で取り上げられている研究の中には、日本発の研究が少なかったので、「もっと頑張らないといけないな」と思いました。今年も引き続きDSOCは計算社会科学にコミットしていくので、今後の動向をチェックしていただけると嬉しいです。