データセット評価指標 以下では LLM 学習用データセットの多様性(あるいは「同質性」を避けられているか)を測る代表的な指標を、定義 → 計算方法 → 読み取り方 → 長所/限界 の順で簡潔に整理します。 distinct-N paper code 定義 生成コーパス(または学習データ)の中で 重複を除いた n-gram … nlp deeplearning chat データセット指標 2025-05-20