データセット評価指標

2025-05-20

以下では LLM 学習用データセットの多様性（あるいは「同質性」を避けられているか）を測る代表的な指標を、定義 → 計算方法 → 読み取り方 → 長所/限界 の順で簡潔に整理します。

distinct-N

paper
code

定義

生成コーパス（または学習データ）の中で 重複を除いた n-gram の種類数 を、総 n-gram 数で割った比率。

$$ \text{distinct-}n=\frac{\lvert{\text{unique }n\text{-grams}}\rvert}{\text{total }n\text{-grams}} $$

読み取り方

値は 0〜1。1 に近いほど語彙的な反復が少なく、表層的に多様。
distinct-1 / distinct-2（1,2-gram）が最も一般的。

強み

軽量・参照不要・タスク非依存。限界
長文ほど分母が大きくなり過大評価されやすい。
内容的（意味的）な多様性は把握できない。

Diversity Coefficient（Task2Vec-DC）

paper

着想 Task2Vec で「サンプル1 バッチ = 1 タスク」と見立て、タスク埋め込み間の平均距離でデータ内部の潜在概念のばらつきを定量化する。

計算フロー（概要）

データセットからランダムに $B$ サンプルを抽出（= 1 タスク）。
Task2Vec (Barrett et al., 2019) で各タスクをベクトル化（勾配のFisher情報行列対角を縮約）。
タスク埋め込み集合 ${\mathbf{t}_i}$ の分散（例：平均コサイン距離や Frobenius ノルム）を取り

$$ \text{DC} = \frac{2}{B(B-1)}\sum_{i<j} d(\mathbf{t}_i,\mathbf{t}_j) $$
大きいほど「タスクが互いに異なる」= より多様。

強み意味レベルでの多様性を高速に近似。
限界 Task2Vecの前提（モデルと層選択）に依存／語順など表層のばらつきは捉えにくい。

Self-BLEU

paper
参考

定義

コーパス内の 各文を「仮説」、残り全文を 「参照」 とみなして BLEU を計算し、文ごとに平均。低いほど多様（互いに似ていない）。

計算

$$ \text{Self-BLEU} = \frac1{N}\sum_{i=1}^{N}\text{BLEU}\bigl(\text{sent}_i,; \mathcal{D}\setminus{\text{sent}_i}\bigr) $$

読み取り方

0 に近いほど高多様性。
BLEU ベースなので n-gram 重み付けや平滑化は通常の BLEU と同一。

長所 distinct-n より“語順を伴う重複”を強くペナルティ。
弱点計算が $O(N^2)$、BLEU の問題（語義を見ない）を継承。

LLM Cluster Score

paper

アイデア

LLM に各サンプルのメタ特徴（トピックなど）を要約・埋め込みさせる。
埋め込みをクラスタリング（K-means 等）。
クラスタ数 $K$ と 各クラスタのエントロピー から

$$ \text{Cluster Score}=H(\text{cluster labels}) \times \frac{K}{K_{\max}} $$

— 直感的に「サンプルが均等に多くの話題に散らばっているほど高得点」。

用途巨大合成コーパスで従来指標が飽和・不安定になる問題を緩和。
注意点 LLM の“まとめ方”がクラスタ品質を左右／高次元でのクラスタ個数設定がハイパーパラメータになる。

DCScore

paper
code

発想「もし各サンプルを分類クラスだと思って識別器を訓練したら、正解率が高いほど互いに違う＝多様」と捉える。

手順

$N$ サンプルを N-way 1-shot のようにラベル付け（サンプル $i$ はクラス $i$)。
小型テキスト分類器 $f_\theta$ を数エポックだけ学習。
開発セットでの 分類精度を Diversity Classification Score (DCScore) として採用。

高精度 = サンプルを容易に区別 ⇒ データが互いに異質で多様
低精度 = 似た文が多く誤分類 ⇒ 同質的

利点語彙・構文・意味差分をまとめて反映しつつ計算コストを抑制（学習回数はごく少ない）。
欠点分類器設計・学習ハイパラに感度がある。

まとめ

指標	捉える多様性	軽量	意味情報	大規模データ適性	主な弱点
distinct-N	表層 n-gram	◎	✕	◎	長文補正が必要
Self-BLEU	表層＋語順	△	✕	○ (要サンプリング)	計算 $O(N^2)$
Diversity Coefficient	概念・タスク	○	◎	◎	Task2Vec 依存
LLM Cluster Score	トピック分布	○	◎	◎	クラスタ数選定
DCScore	サンプル識別難度	△	◎	○	分類器依存

高速スクリーニング → distinct-N, Self-BLEU
意味レベルの網羅性 → DC, LLM Cluster, DCScore
超大規模コーパス → DC, LLM Cluster（計算がバッチ並列化しやすい）
生成モデルの出力評価 → distinct-N + Self-BLEU（表層反復チェック）

これらの指標を併用し、表層と意味の両面からバランス良く評価することが、実際の LLM 学習データ選定では推奨されます。