Posts

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking (AI論文要約)

AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2501.04519 どんなもの rStar-Mathは、大規模言語モデル(LLM)からの蒸留なしに、小さな言語モデル(SLM)がOpenAI o1と同等以上の数学的推論能力を持つ …

nlp deeplearning paper_summary

2025-01-11

Fact-aware Sentence Split and Rephrase with Permutation Invariant Training (AI論文要約)

AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2001.11383 どんなもの複雑な文を意味を保ったまま複数の簡単な文に分割・言い換える Sentence Split and Rephrase タスクのための新しいフレームワ …

nlp deeplearning paper_summary

2025-01-02

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention (AI論文要約)

AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2404.07143 どんなもの Transformerベースの大規模言語モデル(LLMs)を、bounded memoryとcomputationで無限長の入力にスケールするため …

nlp deeplearning paper_summary

2025-01-02

Only-IF :Revealing the Decisive Effect of instruction diversity on Generalization (AI論文要約)

AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2410.04717 どんなもの大規模言語モデル（LLM）の指示遵守能力を向上させるためのデータセット構築戦略に関する研究。特に、instruction diversity（指示 …

nlp deeplearning paper_summary

2025-01-02

Steering Knowledge Selection Behaviours in LLMs via SAE-Based Representation Engineering (AI論文要約)

AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2410.15999 どんなもの本論文は、大規模言語モデル (LLM) の知識選択行動を、事前学習済みスパースオートエンコーダ (SAE) を用いた表現エンジニアリング手法 …

nlp deeplearning paper_summary

2025-01-02

Mechanistic Unlearning: Robust Knowledge Unlearning and Editing via Mechanistic Localization(AI論文要約)

AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2410.12949 どんなもの本論文は、大規模言語モデル(LLM)から望ましくない知識を削除または修正する「知識のアンラーニングと編集」手法に関する研究です。特に、モデルの特定 …

nlp deeplearning paper_summary

2025-01-02

Mixture of expertsのサンプル実装

mixture of expertsを実装してみる。並列化や計算効率の向上などの部分は複雑なので、それら取り除いた簡単な実装を行ってみる。 Mixture of expertsとは特定のタスクに特化したexpertを複数用意し、入力に対してexpertを切り替えることで性能を上げる手法。 …

python nlp torch

2023-12-16

huggingfaceのgenerationの関数をtorch modelから使えるようにしたい

torchなどのライブラリを使いpre_trainingを行い文章生成させる際、文章生成の計算は基本的に自分で実装する必要がある。 huggingface用のmodelに変換しても良いが、おれおれアーキテクチャにした場合、変換も面倒… そこで、huggingfaceにあるtop_kや …

python nlp huggingface torch pre_training

2023-12-05

llama2のアーキテクチャを変更してpre trainingしてみる

できるだけ小さいサイズのモデルで日本語を喋れるモデルを作りたい、ということでllama2のpre_trainingはすでにおこなったがさらなる改善のため、いくつかのアーキテクチャを考えてみる。比較のベースとなる標準的なモデルに対し、新たに3つのモデルを作成し比較する transformerの …

python nlp transformer pre_training

2023-12-05

複数ファイルに分割されたデータセットをHuggingface Hubにアップロードするメモ

データセットなどサイズの大きいデータをHuggingface Hubにアップロードして使う場合のメモ。公式ドキュメントにはアップロードする方法が様々あるが、いまいちどれを使えば良いか分かりづらかったのでメモ。今回作成したデータセットは以下。 …

python nlp huggingface

2023-11-21