DSOC研究員の吉村です. 年末年始の連休で本をたくさん読むぞと意気込んだにも関わらず, 2.5冊しか読めなかった悔しさに苛まれております.
さて, 今回も前回に引き続き評価指標についてまとめていきます. 特に, ランキング学習の出力結果を評価する際に用いられる指標について見ていきましょう. マルチラベル分類の文脈における, ランキング学習の出力結果の評価指標の一部については, 前回の記事で紹介しておりますので, そちらも読んでいただけると嬉しいです.
ランキング学習の精度評価
ランキング学習とは, 対象物の順序を予測するように学習する問題です. マルチラベル分類の予測時に各ラベルの信頼度を計算するようなモデルを用いる場合には, その信頼度の大小によって順位付けができるため, マルチラベル分類とも関係の深い問題設定です. そのため, ランキング学習の評価指標がマルチラベル分類の予測結果の評価に使われることも度々あります.
今回は, ランキング学習の評価指標として下記の 7 個を紹介します.
- Discounted Cumulative Gain (DCG) [*1, *2]
- normalized Discounted Cumulative Gain (nDCG)
- Mean Reciprocal Rank (MRR)
- Kendall rank correlation coefficient, Kendall's
- Spearman's rank correlation coefficient, Spearman's
- Yandex's pFound [*3, *4]
- Expected Reciprocal Rank (ERR) [*5]
ただし, 今回はランキング学習の評価指標という意味の中に, なんらかのモデルの出力として得られるランキング結果の性能を評価するというかなり広義の意味を含めています. そのため, ここで紹介する各種指標は何が与えられているか (e.g. 真のラベル, 真のランキングなど) によって, 使えるものが異なることに注意してください. また, ランキングを扱うという点で Information Retrieval (IR) の色が強いため, 今回は並べ換える対象のことをドキュメントと呼ぶことにします. この部分は適宜, 並べ換えるアイテムとして読み替えてもらえるといいかと思います.
*1:K. Järvelin, and J. Kekäläinen, "Cumulated gain-based evaluation of IR techniques," in TOIS, 2002.
*2:C. Burges, T. Shaked, E. Renshaw, A. Lazier, M. Deeds, N. Hamilton, and G. Hullender, "Learning to rank using gradient descent," in ICML, 2005.
*3:A. Gulin, P. Karpovich, D. Raskovalov, and I. Segalovich, "Yandex at romip’2009: Optimization of ranking algorithms by machine learning methods," in ROMIP, 2009.
*4:I. Segalovich, "Machine learning in search quality at yandex," in SIGIR, 2010.
*5:O. Chapelle, D. Metzler, Y. Zhang, and P. Grinspan, "Expected Reciprocal Rank for Graded Relevance", in CIKM, 2009