Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

実務に必要な統計学はすべてゲームのガチャが教えてくれる 第三回 統計的検定はゲームのガチャが教えてくれる

こんにちは、Sansanの研究開発部の糟谷勇児です。

ビジネスの実務(≠研究)に必要な統計学をガチャだけで説明してみようというブログです。
初回は1連ガチャの当たり数とその確率の関係を表した1連ガチャ分布(ベルヌーイ分布)と10連などのN連ガチャの当たり数とその確率の関係を表したN連ガチャ分布(二項分布)について説明しました。
buildersbox.corp-sansan.com


二回目ではそれらの実務での応用について紹介しました。
buildersbox.corp-sansan.com


今回は統計的検定の話です。
ところで皆さんは200連ガチャはやったことありますか?最近のゲームでは200連すると「天井」といってその時の当たりのキャラや武器をひくことができたりしますよね。
私も少し前にドラクエウォークでバイキルトを使えるロッドが欲しくて貯めてた無償石で200連しました。

ドラクエウォークのガチャで星5が出る確率は7%ですので、天井がないとすると、200連した時の星5の数とその数の星5が出る確率の関係は、次の図のようになります。

高精度計算サイト様(https://keisan.casio.jp/exec/system/1161228843)から図を作成。横軸が当たる星5の数、縦軸がその確率。例えば200連すると14個の星5が出ることが最も多く、その確率は11%ほどであることがわかる

こちらの図は第一回で紹介した、N連ガチャ分布(二項分布)の図を作ってくれるサイトで作成したものです。
Excelやスプレッドシートは数式や図に自由度があっていいですが、スマホなどで手軽にN連ガチャ分布(二項分布)を見てみたいときはこちらのサイトは便利です。使い分けが大事ですね。

今回紹介する統計的検定は結構理解が難しく、研究の世界でもたびたび間違った使い方が問題になったりします。
そこで今回は200連ガチャを題材に統計的検定についてみていきましょう。

統計的検定の例

あなたは最近ガチャで星5があまり出ません。そこであなたは運営が確率をサイレント修正(黙って仕様変更すること)しているのではないかと疑いました。そこで次の実験を考えました。今から200連ガチャを行います。星5が当たる確率は7%です。もし疑いとは逆にサイレント修正されていないとするなら、上で挙げた200連ガチャ分布(二項分布)のような確率になるはずです。14個ぐらい星5が出て普通、運が悪くても10個ぐらいは出てほしいですよね。
そこで実際に実験として、200連ガチャをやってみました。そうすると、なんと星5は2個しか出ませんでした。星5が2個以下(つまり0,1,2個)となる確率は合計で0.0064%ですから15000人に一人の確率です。
こんなのは星5率が7%と考えるとおかしい!あなたはそう考えて運営にお問い合わせフォームからお問い合わせすることにしました。

どうでしょうか。これが統計的検定の流れになります。何をしたのか振り返ってみましょう。
統計的検定ではまず示したいことを決めます。この例では運営が星5が当たる確率をサイレント下方修正しているということでした。この時、反対にサイレント下方修正していない、つまり7%のままであるということを仮定しました。このように示したいことに対して、反対にそうではないという仮説を立てて、そうだとするとおかしいということを示すのです。
この時の示したいことと反対の仮説を帰無仮説と言います。そして帰無仮説が成り立つとしたら、実験で起こったことは確率が低すぎるということを示します。これは高校1年生の数学で勉強する背理法と考え方は似ていますね。
さて、帰無仮説である7%を仮定して、200連ガチャの実験結果を考えると非常に低い確率値となりましたので、あなたは運営のサイレント下方修正を確信しました。

このようにN連ガチャ分布(二項分布)を使った検定を二項検定と呼びますが、二項検定と言ってもなんだったっけってなるので、このブログではN連ガチャ検定(二項検定)と書くことにしましょう。



別の例も考えてみましょう

あなたの友達も同じゲームを一緒にやっています。友達は200連したところ、なんと30個の星5が出たとのことです。7%だったら14個ぐらいが平均のはずなのにおかしい!そこであなたは友達が課金して星5確定ガチャを引いているのではないかと疑いました。
こちらも、N連ガチャ検定(二項検定)の枠組みで考えてみましょう。
まず、帰無仮説は先ほどと同じように7%で星5が出ると仮定します。
そうすると30個以上星5が出る確率は0.0067%ですからこちらもかなり低い確率です。

あなたはきっと友達は課金してより確率の高いガチャを引いているんだと思いました。


どうでしょうか大体統計的検定の流れはこのような形です。
ちなみに帰無仮説が正しいと仮定したときに実験で起こったことが、どのような確率で起こるかを表す値をp値と呼んだりします。
今回の例ではp値は0.0064%や0.0067%です。
p値がどの程度低いと確率が低すぎるとする(棄却するという)かは、しばしば5%以下や1%以下にラインが置かれます。

どうでしょうか統計的検定、この話だけ聞くといろいろな用語が出てくることを除けば、まあよく某巨大掲示板で見る話題ですよね。でも実際にはなかなか難しいところがあります。

統計的検定だけで事実は結論付けられない

まず気を付けなければいけない点として、統計的検定だけでは事実は結論付けられないことが多いということです。
prtimes.jp
こちらのサイトによるとドラクエウォークのユーザーは120万人を超えているようです。
そうすると、いくら15000人に一人の確率で不運だと主張したところで、そのような人は80人ぐらいいることになります。
あなたもその80人の一人だっただけなのかもしれません。
お問い合わせフォームで問い合わせても「そういうときも確率的にはありますよ」と言われておしまいでしょう。

しかし、そのような事例が同時に何件も出てくれば話は別です。
某巨大掲示板などにそのような書き込みが頻発し、事実が明らかになったケースもあります。

医療や健康などの世界も同様です。納豆を食べたらやせた。お茶を飲んだら風邪をひきにくくなったというような研究報告はありますが、1つの結果だけを見て納豆はやせると結論付けることはできません。
そのような論文を多数、横断的に検討して初めて結論を導くことができます(メタアナリシス)。
特に研究者の人は世界中にたくさんいますし、同時にたくさんの物質を実験することもあるわけで、100回実験すれば、たまたまp値が1%を下回ってしまうことは十分にありうるわけです。

恣意的な結果を出してしまう問題

次に気を付けなければいけないこととして、示したい仮説を示したいあまり、恣意的な結果を出してしまうことです。
例えば、最初の例では最近星5が出ないと悩んでいたことが始まりでした。そこで改めて200連したわけですが、
このように改めて回数を決めてやってみるというのは正しいやり方なのですが、ついやりがちなのは過去にさかのぼってデータを集めてしまうことです。

例えば過去300連のガチャをやっていれば200連の取り方は1回目から200回目を1つ目として2回目から201回目というように100種類の200連ガチャを作ることができます。その中で一番悪い時のものを取ってくれば当然p値が1%を下回るものも出てくるのです。

ちょっと実験してみましょう。ドラクエウォークで10連したときに1個でも当たりが出る確率は1.0 - (1.0 - 0.07)^10=48%ぐらいです。Excelで乱数を発生して10連を30回行ったときの挙動をシミュレーションしてみました。


ちなみに都合良く作ったのではなく本当に1回取って出しです。
さて、全体を見ると30回の10連のうち13回はあたりが含まれているので13÷30 = 43.3%で48%とはそんなに離れていない値です。
しかし、最初の200連までを見てみるとどうでしょう。20回中7回しかあたりが含まれていないので35%と48%よりだいぶ低いですよね。
このように運が悪いところを切り出してくれば、低い値を意図して取ってきてしまうことは可能なのです。

さらに、意図的にするなら「俺は160連で検証しようと最初から思っていたんだ」と言って最初の160連を対象としたらどうでしょう。5÷16=31%でさらに低い値にすることもできるわけです。今回の300連では起きませんでしたが、1000連もすれば50連して何も出ないというようなことも普通にありますので、いくらでも低い値を出すことができてしまうのです。


しかし、160連はさすがにキリが悪いのであれですが、厄介なことに、何件でやろうと思っていたか、いつのデータでやろうと思っていたかは本人の頭の中にしかないので、はたから見ると正しい実験をしたのかそうでないのかはなかなか判別がむずかしいのです。

何が悪かったのか

もう一度初心に戻って考えると、統計的検定で本当にわかっていることは、運営の設定した確率の通りだとしたら0.0046%でそういうこともあり得るということだけです。それをもとに事実を推論しようということなのですが、そこから先は人間がどう考えるかということでしかないのです。数学的にはどこからが不正でどこからがそうでないのかというラインなどないのです。そのことを忘れて事実を導き出してくれるツールのように扱ってしまうことにより、意図しない結果を導いてしまったり、意図的に事実と反することを述べるために使ってしまったりしてしまう、というのがこの問題の難しいところかなと思います。

とはいえ統計的検定はパワフルなツールである

確かに都合の良いデータだけを恣意的に出すことが可能という問題はありますが、信頼できる人達で結果を話し合って数字以外の情報などからも多角的に判断すれば自分たちの意思決定をサポートするには非常にパワフルなツールとなります。
特にN連ガチャ検定(二項検定)は多くの場面で用いることができる手法です。統計学の教科書などを読むとt検定と呼ばれる検定ができて一人前みたいなイメージを抱かれる方も多いと思いますが、そこで挫折した方もN連ガチャ検定(二項検定)は容易に理解できるはずです。

次のブログでは実際に業務で統計的検定を使う方法について考えていきたいと思います。

© Sansan, Inc.