データセット指標

EVALUATING THE DIVERSITY AND QUALITY OF LLM GENERATED CONTENT

AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2504.12522 AIが作る文章やプログラムの「質」と「種類の豊富さ（多様性）」をどう評価するかの研究です。この論文では、ただ多様なだけでなく「使える（質の高い）」アウトプット …

2025-05-21

Texygen: A Benchmarking Platform for Text Generation Models

AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/1802.01886 サマリー本論文では、オープンドメインテキスト生成モデルの研究を支援するためのベンチマークプラットフォームである Texygen を紹介す …

nlp deeplearning paper_summary データセット指標

2025-05-21

データセット評価指標

以下では LLM 学習用データセットの多様性（あるいは「同質性」を避けられているか）を測る代表的な指標を、定義 → 計算方法 → 読み取り方 → 長所/限界の順で簡潔に整理します。 distinct-N paper code 定義生成コーパス（または学習データ）の中で重複を除いた n-gram …

nlp deeplearning chat データセット指標

2025-05-20

Measuring Diversity in Synthetic Datasets

AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2502.08512 https://github.com/bluewhalelab/dcscore この論文は、AI（特に大規模言語モデル）が作る学習用データセットの「中身のバラ …

nlp deeplearning paper_summary データセット指標

2025-05-20

Beyond Scale: The Diversity Coefficient as a Data Quality Metric for Variability in Natural Language Data

AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2306.13840 https://github.com/brando90/beyond-scale-language-data-diversity サマリー本論文は、LLMの …

nlp deeplearning paper_summary データセット指標

2025-05-19

On the Diversity of Synthetic Data and its Impact on Training Large Language Models

AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/html/2410.15226v2 エグゼクティブサマリー本論文は synthetic data の多様性が Large Language Models (LLMs) の性能に与える影 …

nlp deeplearning paper_summary データセット指標

2025-05-19