EVALUATING THE DIVERSITY AND QUALITY OF LLM GENERATED CONTENT AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2504.12522 AIが作る文章やプログラムの「質」と「種類の豊富さ(多様性)」をどう評価するかの研究です。この論文では、ただ多様なだけでなく「使える(質の高い)」アウトプット … nlp deeplearning paper_summary データセット指標 2025-05-21
Texygen: A Benchmarking Platform for Text Generation Models AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/1802.01886 サマリー 本論文では、オープン ドメイン テキスト生成モデルの研究を支援するためのベンチマーク プラットフォームである Texygen を紹介す … nlp deeplearning paper_summary データセット指標 2025-05-21
データセット評価指標 以下では LLM 学習用データセットの多様性(あるいは「同質性」を避けられているか)を測る代表的な指標を、定義 → 計算方法 → 読み取り方 → 長所/限界 の順で簡潔に整理します。 distinct-N paper code 定義 生成コーパス(または学習データ)の中で 重複を除いた n-gram … nlp deeplearning chat データセット指標 2025-05-20
Measuring Diversity in Synthetic Datasets AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2502.08512 https://github.com/bluewhalelab/dcscore この論文は、AI(特に大規模言語モデル)が作る学習用データセットの「中身のバラ … nlp deeplearning paper_summary データセット指標 2025-05-20
Beyond Scale: The Diversity Coefficient as a Data Quality Metric for Variability in Natural Language Data AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2306.13840 https://github.com/brando90/beyond-scale-language-data-diversity サマリー 本論文は、LLMの … nlp deeplearning paper_summary データセット指標 2025-05-19
On the Diversity of Synthetic Data and its Impact on Training Large Language Models AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/html/2410.15226v2 エグゼクティブサマリー 本論文は synthetic data の多様性 が Large Language Models (LLMs) の性能に与える影 … nlp deeplearning paper_summary データセット指標 2025-05-19