Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

【Dive into the Economics of Networks】vol.9 ERGM で学校における Segregation を分析する

R&D 研究員の小松です。前回は Double Metropolis-Hastings 法による ERGM のパラメーター推定方法を確認し、それを R で実装してみました。

buildersbox.corp-sansan.com

これまでは ERGM の理論的な話が続いていました。今回は ERGM の応用として、racial segregation を分析した Mele (2020) を紹介します。

Introduction

この研究が焦点を当てる現象は社会ネットワークにおける Segregation です。ある人が仲間や友人を選択する際に、社会経済的な特性や関係性を考慮することがよく知られています。例えば、「類は友を呼ぶ」という日本語のことわざがあるように、個人の特性が似たもの同士がより接触する機会が増えやすい傾向があることを homophily と呼んだりします。その結果、性別や人種、学歴や所得などいった特性に応じて集団が分離される現象 (segregation) が見られます。

以下の動画では、AddHealth と呼ばれるアメリカの学校の生徒間のネットワークに関するデータから、人種による segregation が見られることが示されています。

youtu.be

homophily に関しては弊社研究員の前嶋のブログに詳しく書かれていますので、そちらも参照するとよいでしょう。

buildersbox.corp-sansan.com

buildersbox.corp-sansan.com

本研究では学校における segregation に焦点を当てます。既存研究によれば、特にマイノリティグループの生徒の学校のアウトカム (テストスコアなど) が segregation によって影響を受けることが示唆されています。Mele (2020) では、そうした peer effect が存在しない場合であっても、学校間での生徒の allocation を変えることで segregation のパターンが変わることが示唆されることを示しました。そのために本研究では、生徒間のネットワーク形成モデルを推定します。そして、その推定されたモデルを用いて counterfactual simulation を行い、「もしも学校間で何らかの criteria に基づき生徒の配分を変えたとき、生徒のネットワーク構造がどう変わるか」という what if question に答えます。*1

ここでは directed network、つまりある生徒 i が別の生徒  j のことを友達と考えていたとしても、逆は必ずしもそうでないケースを含むようなネットワークを考えます。 そして以下のようなモデルを考えます。


\begin{align}
U_{i}(g, X) = \sum_{j=1}^{n} g_{ij} u_{ij} + \sum_{j=1}^{n} g_{ij}  g_{ji} m_{ij} +  \sum_{j=1}^{n} g_{ij} \sum_{k=1, k \neq i, j}^{n} g_{jk} v_{ik} + \sum_{j=1}^{n} g_{ij}  \sum_{k=1, k \neq i, j}^{n} g_{ki}  w_{kj}
\end{align}

ただし、 u_{ij} := u(X_{i}, X_{j}), m_{ij} := m(X_{i}, X_{j}), v_{ij} := v(X_{i}, X_{j}), w_{ij} := w(X_{i}, X_{j}) です。 最初の2つのコンポーネントは直接のつながりから得られる効用であり、残りの2つは間接のつながりからくる効用をそれぞれ表現しています。

特に最後の2つの間接のつながりから来る効用があることで、ネットワークの均衡が考えにくい (あるリンクを作る/削除すると、そのリンクの当事者以外にも影響が波及する) 側面があります。

そこで、ある仮定を課すことでネットワーク形成ゲームをポテンシャルゲームとして表現できるようにして、分析をしやすくするのでした。 詳しくは以下の記事を参照ください。

buildersbox.corp-sansan.com

今考えているネットワーク形成ゲームのインセンティブ構造は、以下のポテンシャル関数で要約することができます。


\begin{align}
Q(g, X) = \sum_{i=1}^{n} \sum_{j=1}^{n} g_{ij}u_{ij}+ \sum_{i=1}^{n} \sum_{j>i}^{n} g_{ij}  g_{ji} m_{ij} + \sum_{i=1}^{n} \sum_{j=1, j \neq i}^{n} \sum_{k=1, k \neq i, j}^{n} g_{ij}  g_{jk} v_{ik}
\end{align}

今考えているネットワーク形成ゲームは、ネットワークのマルコフチェーンを生成し、それは以下のような定常分布に収束します。


\begin{align}
\pi(g, X) =  \frac{\exp(Q(g, X))}{\sum_{\omega \in \mathcal{G}} \exp(Q(\omega, X))}
\end{align}

Identification

もしこちらの記事を覚えている方がいらっしゃれば、「あれ、間接的なつながりからくる効用のパラメーターは、それらがすべて正であるとき識別できないのでは」と思われるかもしれません。

buildersbox.corp-sansan.com

その結果はネットワークが1つしか観察できないときに、そのネットワークのノード数が無限に増えたときの理論的結果でした。 しかし今回使うネットワークは、複数の学校における生徒間のネットワークであり、それらのネットワークは互いに独立であるとしています。 このとき、十分統計量 (エッジの数や、間接的なつながりの数など) のネットワーク間の variation を用いて、パラメーターを識別することができます。 詳しくは Mele の Identification の議論を参照ください。

Estimation

得られた尤度関数からパラメータを推定するわけですが、分母のすべて考えられうるネットワークに対して  \exp(Q(\omega, X)) というのが現実的な時間で計算するというのができないため、Mele (2020) では Double Metropolis-Hastings を用いてパラメーターの事後分布を推定します。 推定手順について知りたい方は、以下の記事を参照ください。

buildersbox.corp-sansan.com

紙幅の都合上、実際に推定されたモデルの記述は省略しますが、この研究では直接のつながりだけでなく、間接のつながりにおける homophily を考慮したモデルを推定しています。

Segregation measures

推定されたモデルを用いて「もしこうだったらどうなるか」という counterfactual simulation を行います*2。ここでの実験は、ある基準に基づいて生徒の学校への配置を変えたときに、ネットワークの segregation の度合いがどうなるか、というものです。

そこで segregation を計測する指標として、Freeman Segregation IndexSpectral Segregation Index を用いています。

Freeman Segregation Index (FSI) とは、実際に観察されたあるカテゴリ間のつながりの数 (例えば、白人同士のつながりの数) が、完全にランダムにつながりが生成された時のあるカテゴリ間のつながりの数の期待値と比較して、どれほど多いか/少ないかを計測したものです。

実際に観察されたつながりの数を  m、ネットワークのノードの数を  n、あるカテゴリ  g に属するノードの数を  n_{g}とおくと、完全にランダムにつながりが生成された時あるカテゴリ  g 同士のつながりの数の期待値は


\begin{align}
\pi = m \times \frac{n_{g}(n_{g} - 1)}{n (n-1)}
\end{align}

と表せます。そしてカテゴリ  g 同士のつながりに関する FSI は


\begin{align}
FSI = \frac{\pi - n_{g}(n_{g} - 1)}{\pi}
\end{align}

と書けます (ここでは directed network を考えていることに注意)。ランダムにつながりが生成されたケースと比較してあるカテゴリ間のつながりが多いと、そのネットワークはそのカテゴリについてより segregate していると言えます。

一方 Spectral Segregation Index (SSI) は、PgeRankがウェブページのスコアを計算する方法と同様の方法で、グループの segregation を測定します。つまり、ある生徒の segregation の度合いが高いほど、その生徒とつながりのある生徒の segregation の度合いが高くなるようにします。SSI は (1) 個人のレベルまで disaggregated された指標であること、(2) segregated な個人とつながりのあるノードはより segregated されている、以上2つを満たすものとして、Echenique and Fryer (2007) により提案されたものです。

SSI は以下のように計算されます。まずネットワークの adjacency matrix  G から、ある特定のカテゴリのノード (例えば白人のみ) のみを残したサブネットワーク  G_{g} を作成します。ここからさらに connected components のみを残す、つまりつながりを持たない孤立したノードは落とします。そして各 connected component について固有値分解を行い、その固有値の最大値 (正確には degree の最大値と最小値によって正規化された指数) が SSI になります。

本研究では各ノードの SSI の平均値を、ネットワークの segregation measure の1つとして使用します。

Counterfactual simulations

さて、実際に counterfactual simulation を行います。ここでは使用されたネットワークの中で、2つの学校 (School 88 and 106) を対象としています。この2つの学校が選ばれた理由は、School 88 が完全に白人の生徒で構成されるのに対し、School 106 は完全に黒人の生徒で構成されており、両極端な構成となっているからです。

ここで、School 86 から  x パーセントの学生をランダムに School 106 に移動させ、同じ数だけ School 106 から School 88 に移動させるような政策を考えます。各学校で生徒の構成が変わったため、生徒はその変化に応じて誰とつながるかという戦略を変え、その結果ネットワークの構造が変わります。こうしたシミュレーションを各  x について1,000 回行ったときに、各学校の segregation がどう変化するかを見ます。

上のグラフで、赤が Freeman Segregation Index (FSI)、青が Spectral Segregation Index (SSI) です。各グラフは School 88, 106 における黒人生徒の segregation の度合いが、移動させる生徒の割合に応じてどう変化しているかを見たものです。

まず FSI (赤) の結果を見ると、黒人生徒の割合を増やすと最初はつながりの diversity が増える (segregation が小さく) なっているのがわかります。しかしその割合を増やすと、次第に segregation の度合いが再び高くなっていきます。直感的には、minotiry group の生徒少ないときは他の人種グループとつながる必要に駆られるが、次第に minority group が minority と言えなくなると、homophily の効果が大きくなり結果 segregation が発生してしまうと考えられます。

一方 SSI (青) を見ると、学校における黒人の割合が増えるほど、平均的な生徒はより高い人種の segregation にさらされることになります。ここでの SSI は各ノードの SSI の平均値ですから、直感的に言えば policy によってあるグループの segregation 度合いが平均どのぐらいになるかを計測しています。SSIに基づけば、人種的に完全に隔離された方が segregation の観点からは良いということになります。

また人種に応じた生徒の reallocation に加え、親の所得に応じて生徒を reallocation する政策についても評価しています。詳細は省略しますが、reallocation により学校間の所得別分離が進み、学校内の所得分布がより均質になると、各学校での異なる人種間のつながりが増えることが明らかになっています。

Concluding remarks

以上駆け足でしたが、ERGM の応用の例として Mele (2020) を紹介しました。ERGM の利点はつながり間の相互依存関係を考慮に入れたネットワーク形成モデルを考えることができる点です。その推定されたモデルから、ネットワークの構造がどう変わるかという counterfactual simulation を行うことができます。ERGM を用いた応用例として、同じ Add Health のデータを用いた、青少年ネットワークの非行の key player を特定するというものもあります (Lee et al., 2020)。こちらも機会があればご紹介します。

ERGM に関する記事はこのあたりで一段落させ、次回からは別のトピックを扱う予定です。お楽しみに。

References

  • Echenique, F., & Fryer Jr, R. G. (2007). A measure of segregation based on social interactions. The Quarterly Journal of Economics, 122(2), 441-485.
  • Lee, L. F., Liu, X., Patacchini, E., & Zenou, Y. (2021). Who is the key player? A network analysis of juvenile delinquency. Journal of Business & Economic Statistics, 39(3), 849-857.
  • Mele, A. (2020). Does school desegregation promote diverse interactions? An equilibrium model of segregation within schools. American Economic Journal: Economic Policy, 12(2), 228-57.

*1:こうした policy experiment に関心があるのは、アメリカ合衆国の公立学校における差別の撤廃に向けた取り組みが行われて来たことが背景にあります。

*2:本当は counterfactual simulation を行う前に、推定されたモデルが観察されたデータをうまく説明できるか goodness of fit を評価してあげる必要がありますが、この論文ではそれがどういうわけか省略されているようです。

© Sansan, Inc.