DeepSeek R1 をローカル導入する方法: 自前インフラで私有推論を回す実践ガイド

なぜ DeepSeek R1 に注目が集まっているのか

2025 年初頭、DeepSeek R1 は「オープンウェイトの推論モデルでも、開発タスクでは主要な商用モデルに十分対抗できる」と示したことで急速に注目を集めました。評価されたのは精度だけではありません。重みが公開されているため、チームが自分たちで管理する基盤の中に推論を持ち込めることが大きいのです。

ここで重要なのは、単に安い選択肢が増えたという話ではないことです。推論をどこで動かすか、誰が境界を持つか、どのデータが外へ出るかを自分で決められるようになった、という意味があります。

どんなときにローカル導入が合理的か

自社コード、未公開の財務データ、個人情報のような内容を扱うなら、ワークロードのすべてを公開 API に流すのは必ずしも自然ではありません。少なくとも一部の処理は、自社の管理境界内に置いた方が整合的です。

DeepSeek R1 をローカルで動かすと、主に次の 3 つの利点があります。

データの滞留先を自分で決められる
プロンプト、出力、関連ファイルを自社環境内にとどめやすくなります。
コスト構造を変えられる
ハードウェアを回す前提なら、反復推論の従量課金を抑えられる場合があります。
実行系を自分で制御できる
推論スタック、モデル更新、ルーティング、運用ポリシーを自分たちで決められます。

GetClaw VPS で DeepSeek R1 を動かす

「推論モデルを自前で動かす」と聞くと大げさに聞こえますが、今は Ollama や vLLM のような OSS 推論エンジンが整っているため、以前よりかなり始めやすくなっています。

これを GetClaw の VPS と組み合わせると、実験用にも社内向けにも扱いやすい私有環境を作れます。root 権限、専有計算資源、閉じたネットワーク境界があるため、モデル配信エンドポイントを短時間で立ち上げ、そのまま私有基盤に固定できます。

ローカル導入前に考えるべきこと

ローカル推論は万能ではありません。始める前に、次の観点を整理しておくべきです。

観点	確認すべきこと
メモリ要件	どのサイズのモデルを回すか、実メモリで足りるか
推論量	常時推論なのか、断続的な利用なのか
運用体制	障害時に誰が再起動・更新・監視を担うか
品質要件	frontier モデル並みの性能が必須か、用途ごとに分けられるか
データ境界	本当にローカルに残すべき処理は何か

ここを整理せずに「とりあえずセルフホスト」に進むと、あとで保守負担だけが増えることがあります。

Ollama を使った最小構成

SSH でノードに入り、Ollama を導入して DeepSeek R1 を pull するのが一番分かりやすい出発点です。

# 1. Ollama をインストール
curl -fsSL https://ollama.com/install.sh | sh

# 2. サービスを起動
systemctl start ollama

# 3. DeepSeek R1 の蒸留モデルを起動
# （VPS の RAM に応じてサイズを選ぶ）
ollama run deepseek-r1:14b

起動後、Ollama は localhost:11434 に OpenAI 互換 API を公開します。まずはこの状態で、ローカル推論が自分たちの用途に合うかを確かめるのが堅実です。

AI Gateway とどう組み合わせるか

モデルを動かすだけでは足りません。実際のチーム運用では、社内ユーザーやアプリから安全に使わせる経路が必要です。

ここで役立つのが GetClaw AI Gateway です。Gateway を挟むことで、ローカルの DeepSeek R1 を 1 本の制御面に組み込めます。

負荷分散: 必要に応じて複数インスタンスへ振り分ける
BYOK の検証: 誰がどの経路を使えるかを管理する
利用状況の可視化: ペイロードを外に出さずに運用メトリクスを取る
混成運用: ローカルモデルと公開 API を同じインフラ内で使い分ける

{
  "routes": [
    {
      "model_name": "deepseek-reasoner-private",
      "upstream_url": "http://127.0.0.1:11434/v1/chat/completions",
      "require_auth": true
    }
  ]
}

ローカル推論が向くワークロード

DeepSeek R1 をローカルに置く価値が高いのは、次のようなケースです。

社内コードや設計資料を扱う推論
長時間の反復実行がある評価ジョブ
外部 API へ出したくない機密性の高い要約・分類
コストが膨らみやすいバッチ処理

逆に、常に最高の frontier 性能が必要な処理や、負荷が散発的で GPU 利用率を上げにくい処理は、ホスト型 API の方が合理的なこともあります。

この記事は、オープンウェイト推論モデルをプライベート用途で運用する前提で整理しています。
関連記事: Public AI API・BYOK・Self-Hosted Models、マルチモデル Gateway の基礎

DeepSeek R1 をローカル導入する方法: 自前インフラで私有推論を回す実践ガイド

なぜ DeepSeek R1 に注目が集まっているのか

どんなときにローカル導入が合理的か

GetClaw VPS で DeepSeek R1 を動かす

ローカル導入前に考えるべきこと

Ollama を使った最小構成

AI Gateway とどう組み合わせるか

ローカル推論が向くワークロード

実務上の結論

FAQ

DeepSeek R1 は常にセルフホストした方が良いですか？

ローカルモデルはセルフホスト型エージェントに必須ですか？

一番現実的な始め方は何ですか？

出典とメモ

AI クラウドをデプロイする準備はできましたか？

関連記事

OpenClaw と自律型エージェント向け VPS の選び方: 導入前に確認すべきこと

OpenClaw を Slack・Telegram・WhatsApp に 1 つのプライベート Gateway から接続する方法

鍵やローカルファイルを晒さずに OpenClaw をプライベート VPS で動かす方法