Home | Notifications | New Note | Local | Federated | Search | Logout

Note Detail


きゅーけー@tojoqk@mastodon.tojo.tokyo (2026-06-13 13:23:00)
うちの環境で12bのGemma4でMTPがあるのとないのではだいぶ回答速度に差があり、日本語チャットでの体感では最高で2倍くらい速くて、会話が長くなってくるとドラフターの予測が当たらなくなってきて徐々に遅くなるみたいな感じの動きしてる。MTPの有無で段違いだったんで、ROCmがフォークした llama.cpp をコンテナの中でビルドして使うのは大正解だった。

---Reply--- きゅーけー@tojoqk@mastodon.tojo.tokyo (2026-06-13 13:25:40) Ollamaが対応してくれる可能性については引き続き期待している
Reply