llama2のアーキテクチャを変更してpre trainingしてみる

できるだけ小さいサイズのモデルで日本語を喋れるモデルを作りたい、ということでllama2のpre_trainingはすでにおこなったがさらなる改善のため、いくつかのアーキテクチャを考えてみる。 比較のベースとなる標準的なモデルに対し、新たに3つのモデルを作成し比較する transformer …