AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2504.12522 AIが作る文章やプログラムの「質」と「種類の豊富さ(多様性)」をどう評価するかの研究です。この論文では、ただ多様なだけでなく「使える(質の高い)」アウトプット …
Texygen: A Benchmarking Platform for Text Generation Models
データセット評価指標
Measuring Diversity in Synthetic Datasets
Hugoでkatexを使った数式が表示されなくて困った
Hugoで数式を表示するためにkatex@0.16.22を利用している。 https://katex.org/docs/browser 基本的に表示されるが表示されないこともあり困っていた。 結論 shortcodeを作る 以下のようなpassthroughするだけのショートコードを作る …
Beyond Scale: The Diversity Coefficient as a Data Quality Metric for Variability in Natural Language Data
On the Diversity of Synthetic Data and its Impact on Training Large Language Models
Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases (AI論文要約)
Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases (AI論文要約)
AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2502.19249 どんなもの この研究は、形式言語での事前事前学習が自然言語学習に役立つことを示し、どのような形式言語が有効な帰納バイアス(inductive bias)を与え …