Python

Mixture of expertsのサンプル実装

mixture of expertsを実装してみる。並列化や計算効率の向上などの部分は複雑なので、それら取り除いた簡単な実装を行ってみる。 Mixture of expertsとは特定のタスクに特化したexpertを複数用意し、入力に対してexpertを切り替えることで性能を上げる手法。 …

python nlp torch

2023-12-16

huggingfaceのgenerationの関数をtorch modelから使えるようにしたい

torchなどのライブラリを使いpre_trainingを行い文章生成させる際、文章生成の計算は基本的に自分で実装する必要がある。 huggingface用のmodelに変換しても良いが、おれおれアーキテクチャにした場合、変換も面倒… そこで、huggingfaceにあるtop_k …

python nlp huggingface torch pre_training

2023-12-05

llama2のアーキテクチャを変更してpre trainingしてみる

できるだけ小さいサイズのモデルで日本語を喋れるモデルを作りたい、ということでllama2のpre_trainingはすでにおこなったがさらなる改善のため、いくつかのアーキテクチャを考えてみる。比較のベースとなる標準的なモデルに対し、新たに3つのモデルを作成し比較する transformer …

python nlp transformer pre_training

2023-12-05

複数ファイルに分割されたデータセットをHuggingface Hubにアップロードするメモ

データセットなどサイズの大きいデータをHuggingface Hubにアップロードして使う場合のメモ。公式ドキュメントにはアップロードする方法が様々あるが、いまいちどれを使えば良いか分かりづらかったのでメモ。今回作成したデータセットは以下。 …

python nlp huggingface

2023-11-21

HuggingfaceのDataLoaderとDatacollatorのソースコードを眺める

エラーでハマったので、hugging faceのdatasetからbatche_sizeごとのinput_idsやlabelsにするあたりの実装、特にDataLoaderとDataCollatorあたりをちゃんと確認しておく train loopは以下から始まる def train( self, …

python nlp huggingface

2023-09-21

xgenでJGLUEを試す

日本語ベンチマークとしてJGLUE(JP Language Model Evaluation Harness)が提案されている。 https://techblog.yahoo.co.jp/entry/2022122030379907/ 文章分類、文ペア分類、質問応答のタスクに対し評価を行う。タスク …

python nlp jglue xgen

2023-07-01

OpenCALM-7Bをloraで学習して、quantizeするまで

cyberagent/open-calm-7bをLoraを用いて学習し、quantizeするまでやっていきます https://huggingface.co/cyberagent/open-calm-7b gpt-neoxのlora weight mergeの記事が見つからなかったのでメモとして動 …

nlp deeplearning python huggingface

2023-05-22

loraで学習する場合のpromptって何でも良いんだっけ？rinna instruction 3Bで試す

loraを用いて学習する場合の、promptのtemplateは日本語にしたほうが良いんだっけ？ユーザー入力のフォーマットとかLLM側の出力のフォーマットとかどうすれば良いんだっけ？ってなったので学習させて結果を比較してみる。せっかくなの …

nlp deeplearning python huggingface

2023-05-21

rinna 3Bをcppで動かす

rinnaをcppで動かせるように色々試して見ました。 instructionもあり、そのままlangchainなどに突っ込んでも動かせそうということで、ローカルで遊ぶならcppしてないと遊べないので色々試してみました。 …

nlp deeplearning python huggingface

2023-05-18

VicunaでReActっぽいことを試してみる

vicunaでReActっぽいことを試してみる。正確には違うので注意 ReActは、Thought、Action、Observationをループさせ、LLMの出力の精度上げる手法 ReActの処理の流れは以下のような形。LangChainの実装を参考にする。与えられた質問(Question)に対 …

nlp python langchain

2023-04-01