比較データと確率モデル

n 個のアイテムからなる集合 \mathcal{P} = \{ 1, \ldots, n \} を考える。本記事では、これらのアイテム間の比較に基づくデータ(例えば二者間の勝敗など)に対して、適当な確率モデルを導入し、説明することについて考える。また、その確率モデルの潜在変数を、データを元に推定することについて考える。

前提:Luce's Choice Axiom

この記事では特に、 Luce's choice axiom (ルースの選択公理) [Luce08] に基づく確率モデルのみ考える(公理の定義はこの記事では触れない)。

この公理のもとでは、各アイテムに紐づけられた潜在的なパラメタ  v_{1}, \ldots, v_{n} > 0 (これらの値が 0 である場合もあるが、この記事では簡単のため正の値として考える。)が存在し、比較はこれらの値に基づいて行われる。

なお、このパラメタは論文や文脈により異なる呼ばれ方をする。例えば "skill rating" [Caron+12] 、 "goodness value" [Koyama+17] 、 "quality scale" [Tsukida+11] などがある。

本題:比較データの形式と主な確率モデル

比較データにはいくつかの形式が考えられる。それぞれについて、それを説明するための確率モデルが考案されている。

なお、この節の内容は http://choix.lum.li/en/latest/data.html に簡潔にまとまっている。

Pairwise Comparison(一対比較)

Pairwise comparisonは日本語では一対比較などと呼ばれる。Paired comparisonとも表記される(例えば [神嶌09; Handley01] など)。これは2つのアイテムが比較された結果どちらかが選択されたという事象を表すデータ形式である。

アイテム i がアイテム j と比較された結果 i が選ばれるという事象は

\displaystyle i \succ j

などと表現される。

Pairwise comparisonのデータを扱う確率モデルとしては Bradley-Terryモデル がある [Brochu+07; Hunter04; Tsukida+11] 。このモデルでは、上記の事象が起こる確率を

\displaystyle\text{Pr}(i \succ j) = \frac{v_{i}}{v_{i} + v_{j}}

とする。

Generalized Bradley-Terryモデルというより表現力の高い確率モデルも存在する [Caron+12; Hunter04] 。

Pairwise comparisonを扱う確率モデルとしては他にThurstone-Mostellerモデル [Chu+05; Handley01; Tsukida+11] が存在し、Bradley-Terryモデルと同様の文脈で議論されることがある [Handley01] 。Thurstone-Mostellerモデルは "Thurstone's Law of Comparative Judgement, Case V" を指している [Handley01] 。Bradley-Terryモデルは、Thurstone-Mostellerモデルが仮定しているGaussian分布をGumbel分布に置き換えたものと解釈することが可能である [Tsukida+11] 。

Top-1 List

Top-1 listはあまり共通認識のある呼称ではないかもしれないが、ここでは http://choix.lum.li/ に倣い、このように呼ぶことにする。これは、2つ以上のアイテムが同時に比較された結果ある1つのアイテムが選択されたという事象を表すデータ形式である。

アイテム群 \{ i, j, \ldots, k \} からアイテム i が選ばれるという事象は

\displaystyle i \succ \{ j, \ldots, k \}

などと表現される [Koyama+17] 。

Top-1 listのデータを扱う確率モデルとしては Bradley-Terry-Luceモデル がある [Koyama+17; Luce08; Tsukida+11] 。このモデルでは、上記の事象が起こる確率を

\displaystyle\text{Pr}(i \succ \{ j, \ldots, k \}) = \frac{v_{i}}{v_{i} + v_{j} + \cdots + v_{k}}

とする。

なお、比較対象がちょうど2つのときはBradley-Terryモデルと実質的に同じになる。

Partial Ranking

Partial rankingは、2つ以上のアイテムについて、それらの順序が与えられたという事象を表すデータ形式である。

アイテム群  \{ i, j, \ldots, k \} に対し、 i \rightarrow j \rightarrow \cdots \rightarrow k という順序が与えられるという事象は

\displaystyle i \succ j \succ \cdots \succ k

などと表現される [神嶌09] 。

Partial rankingを扱う確率モデルとしては Plackett-Luceモデル がある [Guiver+09; 神嶌09] 。このモデルでは、上記の事象が起こる確率を

\displaystyle\text{Pr}(i \succ j \succ \cdots \succ k) = \frac{v_{i}}{v_{i} + v_{j} + \cdots + v_{k}} \cdot \frac{v_{j}}{v_{j} + \cdots + v_{k}} \cdot \cdots \cdot \frac{v_{k}}{v_{k}}

とする。これは、順位が早いものから逐次的に選択し取り除くという事象をBradley-Terry-Luceモデルを用いて表したものと解釈することができる。

潜在的なパラメタの推定

最尤推定 (maximum likelihood estimation)により、比較データから確率モデルの潜在的なパラメタを推定することができる [Tsukida+11] 。

また、潜在的なパラメタにある事前分布を仮定することで 最大事後確率推定 (maximum a posteriori estimation) により潜在的なパラメタを推定することもできる [Tsukida+11; Caron+12] 。

choix http://choix.lum.li/ というPythonライブラリは、これらの実装を提供している。

余談:主観的な好み(preference)と比較データ

比較データを扱う確率モデルは preference learning という分野でも活用される(例えば [Chu+05; Brochu+07] など)。これは、人間(評価者)の 主観的な好み(preference) をデータから学習することに関連する分野である。

好みに関するデータを集める上で、あるアイテムに対する好みの評価値をそのまま評価者に聞く方法は望ましくなく、比較に基づくデータを集めるような方法が良いと考えられている [Tsukida+11; Koyama+17; Brochu+10] 。あるアイテムに対する好みの評価値を直接聞く方法が望ましくない理由として、

  • (評価者が複数人いる場合)評価者によってスケールが異なる
  • (複数のアイテムの評価を行う場合)スケールが時間経過と共に変化する(この効果はdriftと呼ばれる)
  • (複数のアイテムの評価を行う場合)早い段階で評価を行ったアイテムによって全体のスケールが影響を受ける(この効果はanchoringと呼ばれる)

などにより、一貫したデータを取得できないことが考えられるためである [Brochu+10] 。

文献

以下に示す文献は本記事を書く上で実際に参考にしたもの(私がもともと良く知っていた文献や、キーワードで検索してたまたま発見した文献など)であって、記事の内容を説明する上で適切な文献を厳選したわけではない。

注意とお願い

私は確率・統計・機械学習等の専門家ではありません。本記事は、私が学びながらとったメモを整形したものに過ぎず、根本的な誤りが含まれるかもしれません。また、些細なことでも構いませんので、誤りの訂正・表現に違和感のある箇所の指摘・改善の提案等ありましたらコメント頂けると幸いです。