2025-05-18
AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。
https://ceur-ws.org/Vol-3290/short_paper2780.pdf
背景と目的
- 既存の語彙多様度指標(TTR、Shannon entropy 等)は 表層文字列のユニークさに依存するため,OCR 誤りや歴史的綴り揺れを含むコーパスでは過大評価を招く。
- 生態学で用いられる 属性多様度 (attribute diversity) の枠組みを導入し,「語彙項目同士の機能的 / 意味的距離」を考慮した Functional Diversity (FD) を Humanities 研究に適用することが本研究の目的。
提案手法
-
語彙間距離の計算
- 歴史英語 LLM MacBERTh で各トークンの文脈依存埋め込みを取得し,コサイン距離で語彙間距離行列 Δ を作成。
-
機能グループの定義
- 距離しきい値 θ を設定し,Δ ≤ θ の語を同一 functional group とみなす。
-
多様度の定式化
-
各語タイプ i の出現頻度 $f_i$ と機能グループ頻度 $g_i(θ)$ を用い,
$$ FD_{q}(θ) ;=;\Bigl(\sum_{i=1}^{A} \bigl[,\tfrac{f_i}{g_i(θ)},\bigr]^{q}\Bigr)^{\tfrac{1}{1-q}} $$
と定義($q=0$ は機能的リッチネス,$q=1$ は Shannon,$q=2$ は Gini–Simpson の逆数に対応)。
-
これは Chao & Chiu の Functional Hill Numbers 拡張に一致する。
-
実験設定
- コーパス: ARCHER 3.2(1600–1999 年,約 3.3 M 語,12 ジャンル)。
- ノイズシミュレーション: 確率 p = 0, 0.1, 0.2, 0.35, 0.5, 0.75 で各語内の文字をランダム置換し OCR / 綴り誤りを再現。
- 各設定で 5 回再生成し,FD と従来のタイプ数 (θ = θ_min) を比較。
主な結果
観点 | 従来の「タイプ数」 | Functional Diversity |
---|---|---|
ノイズ耐性 | p 上昇に伴いほぼ線形で過大評価 | θ = θ_mean では変化が小さく安定 |
ジャンル差 | 広告 vs. 小説で顕著差出ず | 広告は「列挙型」で functional group への凝集度が高く,小説は幅広い機能範囲を示す |
語数補正 | TTR では短文優遇 | Hill Numbers により頻度分布まで統一尺度で比較可能 |
考察・意義
- 実務的利点: OCR エラーや歴史綴りを多く含むコーパスでも,前処理なしで頑健に語彙多様度を評価できる。
- 理論的利点: 「語彙の幅 (breadth) と深さ (depth)」を分離評価でき,語彙豊富さに新しい次元を導入。
- ツールキットへの貢献: 生態学的属性多様度を計算人文学へ転用し,計量語彙研究の標準指標に機能的側面を追加。
結論
Functional Diversity は
- 綴りノイズに強く,
- 意味的内実を捉える 多様度指標であり,
- 歴史コーパスを含む計算人文学研究に有益である。
著者らは FD を「従来のカテゴリカル指標の補完」と位置付け,公開済みモデル (MacBERTh) とスクリプトで再現可能な手法として提供している。