どのように裁判所の判決を予測するか(Aletras et al. 2016のレビュー)
裁判所の判決を予測する研究は有名ですが、個人的にきちんと読めていなかったため少し古い論文から順に簡単に中身をまとめてみようと思います。
なお、この論文への批判などその後の展開についてはフォローできていないため、その点はご留意ください。
もし誤りなどありましたらご指摘いただけると幸いです。
今回は、
Aletras et al. (2016) "Predicting judicial decisions of the European Court of Human Rights: a Natural Language Processing perspective"
https://peerj.com/articles/cs-93.pdf
を扱ってみます。
6年前の論文なので予測の精度の話は置いておきたいと思います。
利用しているデータ
- 欧州人権裁判所が扱った欧州人権条約の3, 6, 8条に関連する事件を対象
- そのうち英語で書かれているものに限定して、違反していたものと違反していなかった裁判例をカウント
- 少ない方は全ての裁判例を、多い方はもう一方と同じ数だけランダムに抽出
- 最終的に、3, 6, 8条それぞれについて250, 80, 254の裁判例を取得
テキストの処理
基本的に判決書のセクションごとに算出されたN-grams(N ∈ {1,2,3,4})のうち頻出の2000を使っています。セクションは、手続き面を示すProcedure、法的構成とは関係しない情報をまとめたThe facts(背景情報を記述しているThe circumstances of the caseと関連法令をまとめたRelevant lawをサブセクションとして有する)、本案判決が載っているThe lawで構成されています。
加えて裁判例×2000にまとめたN-gramsの行列を利用して、コサイン類似度を利用したsimilarity matrixを作成しspectral clusteringによる分類で得られたトピックも抽出しています。
予測タスク
上記で得られたN-gramsとトピックを特徴量としてSVMによる予測を行っています。
以上がこの論文の簡単な概要です。今後はより新しい研究のタスクの内容を概観してきたいと思います。