Mechanistic Unlearning: Robust Knowledge Unlearning and Editing via Mechanistic Localization(AI論文要約)

AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2410.12949 どんなもの 本論文は、大規模言語モデル(LLM)から望ましくない知識を削除または修正する「知識のアンラーニングと編集」手法に関する研究です。特に、モデルの特定 …

Mixture of expertsのサンプル実装

mixture of expertsを実装してみる。 並列化や計算効率の向上などの部分は複雑なので、それら取り除いた簡単な実装を行ってみる。 Mixture of expertsとは 特定のタスクに特化したexpertを複数用意し、入力に対してexpertを切り替えることで性能を上げる手法。 …

llama2のアーキテクチャを変更してpre trainingしてみる

できるだけ小さいサイズのモデルで日本語を喋れるモデルを作りたい、ということでllama2のpre_trainingはすでにおこなったがさらなる改善のため、いくつかのアーキテクチャを考えてみる。 比較のベースとなる標準的なモデルに対し、新たに3つのモデルを作成し比較する transformer …

xgenでJGLUEを試す

日本語ベンチマークとしてJGLUE(JP Language Model Evaluation Harness)が提案されている。 https://techblog.yahoo.co.jp/entry/2022122030379907/ 文章分類、文ペア分類、質問応答のタスクに対し評価を行う。 タスク …

rinna 3Bをcppで動かす

rinnaをcppで動かせるように色々試して見ました。 instructionもあり、そのままlangchainなどに突っ込んでも動かせそうということで、 ローカルで遊ぶならcppしてないと遊べないので色々試してみました。 …

VicunaでReActっぽいことを試してみる

vicunaでReActっぽいことを試してみる。正確には違うので注意 ReActは、Thought、Action、Observationをループさせ、LLMの出力の精度上げる手法 ReActの処理の流れは以下のような形。LangChainの実装を参考にする。 与えられた質問(Question)に対 …

BloomをLoRaで日本語finetuning

LlamaをAlpacaデータセットを使いLoRaでfine tuneしたものが良い感じだったので、Bloomを日本語で学習させてみようと思う。 https://github.com/tloen/alpaca-lora とりあえず動かすまででしっかりfine tune …

LlamaIndex(GPTIndex)を触る

LlamaIndexを動かしていきます。最近名前がGPTIndexから変わったみたい。 LlamaIndexとは、LLMのPromptの作成などを外部のデータソースと連携して行えるようにしたツールキット。 …

code blockにrefarenceをつける

Hugoでコードブロックを使うときは、GitHubからの引用し、その下に参照元のURLを貼り付けることが多い。 コードブロックの下にそのままURLが表示されるの若干見づらかったので、コードブロックとセットでいい感じに表示したい。 HugoにMarkdown Render Hooks …