Inkubus を使いこなす
基本に慣れたら、もう一歩。高性能なビデオカードが無くても、外出先のスマホからでも、強い GPU を使って Inkubus を回せます。鍵になるのは 仕組み のところで見た「Inkubus 本体は手元、Ollama(GPU)は別の場所でもいい」という性質です。
01 GPU が無くても書く(クラウド・別 PC)
「うちの PC、ビデオカードが弱いから…」という場合でも諦める必要はありません。Inkubus 本体は軽いので手元の PC で動かしたまま、文章を書く頭脳(Ollama)だけ強い GPU に任せられます。
- クラウド GPU を借りる — RunPod などで GPU インスタンスを立て、そこで動く Ollama に接続。必要なときだけ強い GPU を借りる使い方で、5090 や H200 クラスも選べます。
- 家の別 PC を使う — 家に GPU の強いデスクトップがあるなら、そこで Ollama だけ動かし、ふだん使いのノート PC から LAN 越しに使います。
Inkubus 側は設定画面で接続先 URL を変えるだけ。あとは Ollama を動かす側で外から繋げるように OLLAMA_HOST=0.0.0.0 などを設定します。具体的な手順とラベルの付け方は リモート Ollama / 外出先アクセス に、構成の全体像は 仕組みの「3 つの構成パターン」 にまとめています。
時間課金のクラウド GPU では、Ollama が keep_alive でモデルをしばらく保持する点に注意。生成が終わってもしばらく GPU を占有するので、使い終わったらインスタンスを止めると無駄がありません。
02 外出先のスマホから回す(Tailscale)
Inkubus のバッチはサーバプロセスで走り続け、ブラウザは表示しているだけです。だから外出先のスマホは「リモコン」として使えます。喫茶店や移動中に新しい実行を積み、進捗を眺め、できた作品を読む——生成そのものは自宅の PC(や、その先のクラウド GPU)が淡々と続けます。
Inkubus をそのままインターネットに公開しないでください。認証機構が無いため、公開すると誰でも閲覧・削除・新規実行ができてしまいます。外からのアクセスは VPN 経由にしてください。
おすすめは Tailscale です。無料枠で個人利用には十分で、スマホと自宅 PC の両方にアプリを入れるだけ。NAT 越えも自動でやってくれます。
- 自宅 PC とスマホの両方に Tailscale を入れ、同じアカウントでログイン。
- 自宅 PC で Inkubus を起動(
npm run dev)。 - スマホのブラウザから、Tailscale 上の自宅 PC のアドレスに
:5173を付けて開く(例http://100.x.x.x:5173)。 - あとは自宅の画面と同じ。実行を積む・進捗を見る・作品を読む、すべてできます。
VPN を切っても生成は止まりません。電波が途切れても、繋ぎ直して画面を開けば途中から追いつきます。「家を出る前にジョブを積んでおき、外で進み具合を眺める」といった回し方が気持ちよくハマります。
合わせ技:自宅 Inkubus の接続先をクラウド GPU にしておけば、「スマホで操作 → 自宅 Inkubus → クラウドの強い GPU で生成」という、手元に GPU が無くても外から大量生成できる構成になります。
03 夜どおし大量に回す
Inkubus の本領は「寝ているあいだの量産」です。ジョブに積んでおけば、順番に夜通し実行されます。
- ジョブに積む — 新規実行から「キューに追加」で、設定の違うバッチをいくつも待機列に。順に消化されます。
- 作品間スリープ — 作品と作品のあいだに休みを入れ、GPU の発熱を抑えます(既定 60 秒、秒単位で調整可)。長時間まわすほど効いてきます。
- 停止の使い分け — 途中で止めたくなったら、ソフト停止(章の切れ目まで待つ)か強制停止(即中断・途中まで保存)を選べます。
ジョブの待機列はサーバを再起動すると停止状態に戻ります(意図しない自動起動を防ぐため)。朝、ジョブ画面を開いて「稼働中」に戻してください(積んだ内容は消えません)。4 つの LLM 処理が重ならない仕組みは ジョブの排他制御 を。
04 速度を詰める
「一晩で何本書けるか」は、ほぼ モデルの大きさと GPU の VRAM で決まります。
- モデルは目的で選ぶ — 軽いモデルは速くて本数が稼げ、重いモデルは質が上がるぶん遅くなります。まず軽いモデルで数を出し、気に入った題材を重いモデルで書き直す、という二段構えが効率的です。
- VRAM に丸ごと載せる — モデルが VRAM に収まりきらないと、一部が CPU に回って大幅に遅くなります。モデルサイズは VRAM に収まるものを選ぶのが速度の基本です。
- コンテキストは欲張りすぎない — 文脈窓は 64K(65536)以上を推奨しますが、大きくするほどメモリも食います。長編で破綻しない範囲に。
モデル別の実測値(何文字/秒、一晩で何本)は 生成速度の目安 にまとめています。手元の GPU で 1 本だけ計測して当たりを付けてから本数を決めると失敗しません。
05 狙った作品を出す
量だけでなく「狙った作品」を出すための合わせ技も少し。