以下では LLM 学習用データセットの多様性(あるいは「同質性」を避けられているか)を測る代表的な指標を、定義 → 計算方法 → 読み取り方 → 長所/限界 の順で簡潔に整理します。
distinct-N
定義
-
生成コーパス(または学習データ)の中で 重複を除いた n-gram の種類数 を、総 n-gram 数で割った比率。
$$ \text{distinct-}n=\frac{\lvert{\text{unique }n\text{-grams}}\rvert}{\text{total }n\text{-grams}} $$
読み取り方
- 値は 0〜1。1 に近いほど語彙的な反復が少なく、表層的に多様。
- distinct-1 / distinct-2(1,2-gram)が最も一般的。
強み
- 軽量・参照不要・タスク非依存。 限界
- 長文ほど分母が大きくなり過大評価されやすい。
- 内容的(意味的)な多様性は把握できない。
Diversity Coefficient(Task2Vec-DC)
着想 Task2Vec で「サンプル1 バッチ = 1 タスク」と見立て、タスク埋め込み間の平均距離でデータ内部の潜在概念のばらつきを定量化する。
計算フロー(概要)
-
データセットからランダムに $B$ サンプルを抽出(= 1 タスク)。
-
Task2Vec (Barrett et al., 2019) で各タスクをベクトル化(勾配のFisher情報行列対角を縮約)。
-
タスク埋め込み集合 ${\mathbf{t}_i}$ の分散(例:平均コサイン距離や Frobenius ノルム)を取り
$$ \text{DC} = \frac{2}{B(B-1)}\sum_{i<j} d(\mathbf{t}_i,\mathbf{t}_j) $$
-
大きいほど「タスクが互いに異なる」= より多様。
強み 意味レベルでの多様性を高速に近似。
限界 Task2Vecの前提(モデルと層選択)に依存/語順など表層のばらつきは捉えにくい。
Self-BLEU
定義
- コーパス内の 各文を「仮説」、残り全文を 「参照」 とみなして BLEU を計算し、文ごとに平均。 低いほど多様(互いに似ていない)。
計算
$$ \text{Self-BLEU} = \frac1{N}\sum_{i=1}^{N}\text{BLEU}\bigl(\text{sent}_i,; \mathcal{D}\setminus{\text{sent}_i}\bigr) $$
読み取り方
- 0 に近いほど高多様性。
- BLEU ベースなので n-gram 重み付けや平滑化は通常の BLEU と同一。
長所 distinct-n より“語順を伴う重複”を強くペナルティ。
弱点 計算が $O(N^2)$、BLEU の問題(語義を見ない)を継承。
LLM Cluster Score
アイデア
-
LLM に各サンプルのメタ特徴(トピックなど)を要約・埋め込みさせる。
-
埋め込みをクラスタリング(K-means 等)。
-
クラスタ数 $K$ と 各クラスタのエントロピー から
$$ \text{Cluster Score}=H(\text{cluster labels}) \times \frac{K}{K_{\max}} $$
— 直感的に「サンプルが均等に多くの話題に散らばっているほど高得点」。
用途 巨大合成コーパスで従来指標が飽和・不安定になる問題を緩和。
注意点 LLM の“まとめ方”がクラスタ品質を左右/高次元でのクラスタ個数設定がハイパーパラメータになる。
DCScore
発想 「もし各サンプルを分類クラスだと思って識別器を訓練したら、正解率が高いほど互いに違う=多様」と捉える。
手順
- $N$ サンプルを N-way 1-shot のようにラベル付け(サンプル $i$ はクラス $i$)。
- 小型テキスト分類器 $f_\theta$ を数エポックだけ学習。
- 開発セットでの 分類精度を Diversity Classification Score (DCScore) として採用。
- 高精度 = サンプルを容易に区別 ⇒ データが互いに異質で多様
- 低精度 = 似た文が多く誤分類 ⇒ 同質的
利点 語彙・構文・意味差分をまとめて反映しつつ計算コストを抑制(学習回数はごく少ない)。
欠点 分類器設計・学習ハイパラに感度がある。
まとめ
指標 | 捉える多様性 | 軽量 | 意味情報 | 大規模データ適性 | 主な弱点 |
---|---|---|---|---|---|
distinct-N | 表層 n-gram | ◎ | ✕ | ◎ | 長文補正が必要 |
Self-BLEU | 表層+語順 | △ | ✕ | ○ (要サンプリング) | 計算 $O(N^2)$ |
Diversity Coefficient | 概念・タスク | ○ | ◎ | ◎ | Task2Vec 依存 |
LLM Cluster Score | トピック分布 | ○ | ◎ | ◎ | クラスタ数選定 |
DCScore | サンプル識別難度 | △ | ◎ | ○ | 分類器依存 |
- 高速スクリーニング → distinct-N, Self-BLEU
- 意味レベルの網羅性 → DC, LLM Cluster, DCScore
- 超大規模コーパス → DC, LLM Cluster(計算がバッチ並列化しやすい)
- 生成モデルの出力評価 → distinct-N + Self-BLEU(表層反復チェック)
これらの指標を併用し、表層と意味の両面からバランス良く評価することが、実際の LLM 学習データ選定では推奨されます。