リモート Ollama / 外出先からのアクセス

2 つの「リモート」用途を扱います。① ローカル Inkubus からリモート Ollama（RunPod 等）を使う（GPU が手元に無い）/ ② 外出先から自宅 Inkubus にアクセスする（VPN 推奨）。

01 リモート Ollama（RunPod 等）

ローカルに GPU がない場合、クラウドの GPU インスタンス上で動いている Ollama に接続して Inkubus を使えます。

02 接続手順

リモート側で Ollama を起動し、公開 URL を取得（例 https://xxxx-11434.proxy.runpod.net）。
Inkubus の設定画面を開く。
ラベル（例 RunPod 3090）とベース URL を入力して保存。
「接続テスト」でモデル件数が返ることを確認。

接続先は保存され、新規実行時にスナップショットされるので、ライブラリで「どの GPU で走らせたか」が一目で分かります。

Ollama サーバー側の設定。別の PC やクラウドの Ollama に外から接続するには、Ollama を動かす側で次の 2 つを設定して Ollama を再起動します。
OLLAMA_HOST=0.0.0.0 — 全ネットワークインターフェースで待ち受け（既定は localhost のみで、他の端末からは届きません）。
OLLAMA_ORIGINS=* — 接続元を許可。
Ollama がネットワークに開く形になるので、信頼できる LAN か VPN 経由で使ってください。RunPod などの公開プロキシを使う場合は、その案内どおりで自動的に整っていることもあります。

03 接続先の優先順位

設定画面で保存した URL（最優先）
OLLAMA_BASE 環境変数
ビルトイン http://localhost:11434

ベース URL に Basic 認証情報を埋め込むと（https://user:pass@host/）そのまま使われます。トークン式（Bearer など）には現時点で未対応です。

04 リモート運用時の制約

強制停止: Inkubus 側の接続を切断する方式のため、リモート側の生成プロセスは走り切る可能性があります。GPU を即解放したいときはリモート側で手動停止を。
ソフト停止（章完了まで待つ）とクールダウン（作品間スリープ）はそのまま効きます。

05 回線・コストの注意

ストリーミング中は常時通信が発生します（長文でも実データは数 MB/作品程度）。従量課金回線では通信量に注意。
リモート側 Ollama は keep_alive を 24 時間に設定しているため、連続バッチ中はモデルがメモリに残ります。逆にバッチ後もしばらく占有するので、時間課金の GPU では注意。

06 トラブル時

「接続テスト」で 502 → リモート URL のパス・ポートを再確認。
モデル一覧が空 → リモート側で ollama pull <モデル名> 済みか確認。
生成が途中で切れる → リモート側 / プロキシのアイドルタイムアウトを確認（長文 1 章 = 数分の連続通信に耐えるか）。

07 外出先からのアクセス

直接インターネット公開はしないでください。Inkubus には認証機構がなく、公開すると世界中の誰でもアクセス可能になります（閲覧・削除・新規実行すべて可能）。

推奨は VPN 経由です。VPN / トンネル側で認証するので、Inkubus 自体の認証欠如をカバーできます。

方式	特徴
Tailscale	無料枠で個人利用には十分。端末ごとにアプリを入れるだけ、NAT 越え自動。
WireGuard	自前構築できるなら軽量で高速。ルーター対応があれば楽。
Cloudflare Tunnel	独自ドメインがある場合。Cloudflare Access で認証も足せる。

VPN 接続中のスマホから http://<自宅 PC の VPN IP>:5173 でアクセスできます。Inkubus のバッチはサーバプロセスで走り続けるので、VPN を切っても生成は続き、繋ぎ直せば追いつけます。