ホーム / 使い方 / 生成速度の目安

生成速度の目安(実測ベンチマーク)

Inkubus の生成にかかる時間の実測まとめです。生成は大きく 3 種類(小説の生成・キャストの画像解析・命名)あり、どれも モデルとマシン(とくに GPU の VRAM)で大きく変わります。「一晩で何本書けるか」の判断材料になる大事な目安なので、順次、計測データを増やしていく予定です。あくまで開発機での実測で、お使いの環境では前後します。

01 計測した環境

下の数値は、基本的に次の開発機での実測の目安です(モデルにより試行回数は異なります)。別の GPU での参考値は、その都度 環境を明記します。

  • GPU: GeForce RTX 5070 Ti(VRAM 16GB)
  • CPU / メモリ: Ryzen 7 9700X(8 コア)/ 64GB
  • 文脈サイズ: 64K / モデル: gemma4

VRAM がいちばん効きます。モデルが VRAM に収まりきると速く、あふれて CPU 併用になると一気に遅くなります。同じモデルでも、GPU が違えば結果は大きく変わります。

02 小説の生成

本編 1 章(約 2,500 字)あたりの目安です。

モデル1 章(約 2,500 字)生成速度一晩(8 時間)の目安位置づけ
gemma4:e4b約 15 秒約 170 字/秒4 章 × 最大 100 本軽量・高速。量産や下書き向き
gemma4:12b約 33 秒約 76 字/秒4 章 × 最大 100 本新しめの中量級。VRAM 16GB に収まりきるので高速、品質は e4b より上
gemma4:26b約 2 分約 19 字/秒4 章 × 約 50 本速さと品質のバランス型
gemma4:31b約 11 分約 4 字/秒4 章 × 約 10 本高品質。VRAM 16GB では CPU 併用で低速

本編 1 章 ≈ 2,500 字で換算。「一晩」は 8 時間として算出した目安です。

「一晩で 100 本」は軽量モデルでの上限の目安です。大きいモデル(例 gemma4:31b)は品質が上がる代わりに、VRAM 16GB では CPU 併用で大きく遅くなります。本数を稼ぎたいときは軽量モデル、品質重視なら大きいモデル+少なめの本数、と使い分けてください。

VRAM の大きい GPU なら 31B でも量産できる

大きいモデルの速度は GPU の VRAM で激変します。同じ gemma4:31b でも、VRAM に余裕のある GPU なら一気に速くなります。下は、手元の 16GB と RunPod の RTX 5090 の比較です。

環境(gemma4:31b1 章(約 2,500 字)生成速度一晩(8 時間)の目安
開発機 RTX 5070 Ti(VRAM 16GB)約 11 分約 4 字/秒(CPU 併用)4 章 × 約 10 本
クラウド RTX 5090(RunPod)約 40 秒約 63 字/秒4 章 × 最大 100 本

同じ 31B が 約 15 倍。手元の 16GB では高品質な 31B は一晩 約 10 本どまりですが、RTX 5090 なら上限の 100 本(約 5 時間で完走)まで狙えます。31B を実用速度で量産するなら、VRAM の大きい GPU(クラウド GPU / RunPod 含む)が効きます。

03 キャストの画像解析

画像 1 枚を Vision モデルが解析して描写文(「顔・体格」「衣装」)を作る、登録時の 一度きりの処理です。所要は Vision モデルの大きさしだい(開発機での実測の目安)。

軽い Vision モデルほど速くなります。使い方は キャスト を参照。

04 命名(マジックペン)

描写文から名前候補を作る短い処理です。命名用モデルは ⚙️ から切り替えでき、軽量モデルにするほど速くなります(開発機での目安)。

名前生成は軽いモデルで十分なので、軽量モデルがおすすめです。