ホーム / 使い方 / Inkubus を使いこなす

Inkubus を使いこなす

基本に慣れたら、もう一歩。高性能なビデオカードが無くても、外出先のスマホからでも、強い GPU を使って Inkubus を回せます。鍵になるのは仕組みのところで見た「Inkubus 本体は手元、Ollama（GPU）は別の場所でもいい」という性質です。

01 GPU が無くても書く（クラウド・別 PC）

「うちの PC、ビデオカードが弱いから…」という場合でも諦める必要はありません。Inkubus 本体は軽いので手元の PC で動かしたまま、文章を書く頭脳（Ollama）だけ強い GPU に任せられます。

クラウド GPU を借りる — RunPod などで GPU インスタンスを立て、そこで動く Ollama に接続。必要なときだけ強い GPU を借りる使い方で、5090 や H200 クラスも選べます。
家の別 PC を使う — 家に GPU の強いデスクトップがあるなら、そこで Ollama だけ動かし、ふだん使いのノート PC から LAN 越しに使います。

Inkubus 側は設定画面で接続先 URL を変えるだけ。あとは Ollama を動かす側で外から繋げるように OLLAMA_HOST=0.0.0.0 などを設定します。具体的な手順とラベルの付け方はリモート Ollama / 外出先アクセスに、構成の全体像は仕組みの「3 つの構成パターン」にまとめています。

時間課金のクラウド GPU では、Ollama が keep_alive でモデルをしばらく保持する点に注意。生成が終わってもしばらく GPU を占有するので、使い終わったらインスタンスを止めると無駄がありません。

02 外出先のスマホから回す（Tailscale）

Inkubus のバッチはサーバプロセスで走り続け、ブラウザは表示しているだけです。だから外出先のスマホは「リモコン」として使えます。喫茶店や移動中に新しい実行を積み、進捗を眺め、できた作品を読む——生成そのものは自宅の PC（や、その先のクラウド GPU）が淡々と続けます。

Inkubus をそのままインターネットに公開しないでください。認証機構が無いため、公開すると誰でも閲覧・削除・新規実行ができてしまいます。外からのアクセスは VPN 経由にしてください。

おすすめは Tailscale です。無料枠で個人利用には十分で、スマホと自宅 PC の両方にアプリを入れるだけ。NAT 越えも自動でやってくれます。

自宅 PC とスマホの両方に Tailscale を入れ、同じアカウントでログイン。
自宅 PC で Inkubus を起動（npm run dev）。
スマホのブラウザから、Tailscale 上の自宅 PC のアドレスに :5173 を付けて開く（例 http://100.x.x.x:5173）。
あとは自宅の画面と同じ。実行を積む・進捗を見る・作品を読む、すべてできます。

VPN を切っても生成は止まりません。電波が途切れても、繋ぎ直して画面を開けば途中から追いつきます。「家を出る前にジョブを積んでおき、外で進み具合を眺める」といった回し方が気持ちよくハマります。

合わせ技：自宅 Inkubus の接続先をクラウド GPU にしておけば、「スマホで操作 → 自宅 Inkubus → クラウドの強い GPU で生成」という、手元に GPU が無くても外から大量生成できる構成になります。

03 夜どおし大量に回す

Inkubus の本領は「寝ているあいだの量産」です。ジョブに積んでおけば、順番に夜通し実行されます。

ジョブに積む — 新規実行から「キューに追加」で、設定の違うバッチをいくつも待機列に。順に消化されます。
作品間スリープ — 作品と作品のあいだに休みを入れ、GPU の発熱を抑えます（既定 60 秒、秒単位で調整可）。長時間まわすほど効いてきます。
停止の使い分け — 途中で止めたくなったら、ソフト停止（章の切れ目まで待つ）か強制停止（即中断・途中まで保存）を選べます。

ジョブの待機列はサーバを再起動すると停止状態に戻ります（意図しない自動起動を防ぐため）。朝、ジョブ画面を開いて「稼働中」に戻してください（積んだ内容は消えません）。4 つの LLM 処理が重ならない仕組みはジョブの排他制御を。

04 速度を詰める

「一晩で何本書けるか」は、ほぼ モデルの大きさと GPU の VRAM で決まります。

モデルは目的で選ぶ — 軽いモデルは速くて本数が稼げ、重いモデルは質が上がるぶん遅くなります。まず軽いモデルで数を出し、気に入った題材を重いモデルで書き直す、という二段構えが効率的です。
VRAM に丸ごと載せる — モデルが VRAM に収まりきらないと、一部が CPU に回って大幅に遅くなります。モデルサイズは VRAM に収まるものを選ぶのが速度の基本です。
コンテキストは欲張りすぎない — 文脈窓は 64K（65536）以上を推奨しますが、大きくするほどメモリも食います。長編で破綻しない範囲に。

モデル別の実測値（何文字／秒、一晩で何本）は生成速度の目安にまとめています。手元の GPU で 1 本だけ計測して当たりを付けてから本数を決めると失敗しません。

05 狙った作品を出す

量だけでなく「狙った作品」を出すための合わせ技も少し。

制約＝プロットとして書く — 登場人物・あらすじ・起承転結まで書けば、ブレずに狙った話になります（制約の書き方）。
ロールで土台、制約で中身 — ロールは書き手の作風、制約はその一作の設計図。役割を分けると安定します。
キャストと拡張を組み合わせる — 推しキャラをキャストで登場させ、気に入った作品は拡張で続編やスピンオフへ。