DeepSeek v3とR1の使い方:推論とチャットタスクのためのプロンプティング
プロンプトを過剰に設計した結果、かえって悪い答えを得てしまった経験はありませんか? DeepSeek R1のような推論重視のモデルや、DeepSeek v3のような高スループットのチャットモデルでは、従来のやり方(長いプロンプト、強引なchain-of-thoughtの誘導)は逆効果になることがよくあります。このガイドでは、DeepSeek v3とR1に対して、推論タスクとチャットタスクのためにどのようにプロンプトを作成するかを正確に示します。何をシンプルに保ち、いつ足場を組み、安定した正確な結果を得るために設定をどのように調整するかを解説します。
スタイルの注意点:実用的かつ問題解決志向。うまくいくことに焦点を当て、カット&ペーストできるパターンと安全策を紹介します。
- 堅牢な多段階推論、証明、複雑な計画が必要な場合は、DeepSeek R1を使用してください。
- 高速で正確なチャット、コーディング支援、下書き、および大規模な一般的なQ&Aには、DeepSeek v3を使用してください。
- chain-of-thoughtを強制しないでください。「最終的な答え」、「簡単な根拠」、または構造化された出力を代わりに求めてください。
- プロンプトを短く明確に保ち、制約と評価基準は必要な場合にのみ追加してください。
- まずzero-shotから始め、一貫した失敗モードが見られる場合にのみfew-shotの例を追加してください。
DeepSeek R1とv3の違い
- DeepSeek R1:「答える前に考える」ように設計された推論最適化モデルであり、明示的な段階的なプロンプトの必要性を減らします。多くのプラットフォームやドキュメントでは、chain-of-thoughtの要求を避けるようにアドバイスしています。zero-shotがR1には最適な場合が多いです。
- DeepSeek v3:高速で強力なMoEチャットモデル(合計671Bのパラメータ、トークンあたり37Bがアクティブ)であり、優れたコストパフォーマンス、使い慣れたAPIエルゴノミクス、最新のモデル品質を備えた汎用言語タスクを目的としています。公式ドキュメントでは、OpenAIスタイルのAPIの使用法が示されています。
実際には:
- R1の選択:算数の文章題、戦略の分解、複数制約のある計画、潜在的なステップを伴うトリッキーな推論。
- v3の選択:カスタマーチャット、コーディングレビュー、書き換え、要約、および高速なイテレーションループ。
黄金律:推論モデルに過剰なプロンプトを与えないでください
R1のような推論モデルは、すでに内部で熟考を行っています。chain-of-thought(「ステップごとに考え、あなたの推論を示してください」)を強制すると、冗長性が増し、モデルの注意をそらし、設定によっては推奨されない場合があります。代わりに、以下を使用してください:
- 「答えを与え、あなたをそこに導いた3つの重要な要素をリストしてください。」
これは、R1に対しては、シンプルでzero-shotのプロンプトが、複雑な段階的な指示と同じくらい効果的、あるいはそれ以上である可能性があるというガイダンスと一致しています。
うまくいくプロンプトのパターン
1) Zero-Shot、ミニマリスト(R1の最初の試みに最適。v3にも最適)
目標:最小限の制約で自明ではない問題を解決します。
プロンプトテンプレート:
あなたは注意深い問題解決者です。
質問:{task}
指示:最終的な答えと簡潔な根拠(最大3文)を提供してください。
これがうまくいく理由:出力を集中的かつ短く保ちながら、内部推論を促進するため。
2) 制約付き出力(API、信頼性、または自動化の場合)
予測可能な形式が必要な場合に使用します。
プロンプトテンプレート:
システム:有効なJSONのみを返す必要があります。
ユーザー:このドキュメントを5つの箇条書きで要約し、1つのリスクと1つの機会を含めてください。
JSONを返す:{
"bullets": . ニュース/モデルのメモはv3の効率と規模を強調し、モデルカードは追加のコンテキストを提供します。
ユースケース別のDeepSeek v3とR1の選択
- カスタマーサポートチャット:速度とコストのためにv3を使用。口調とポリシー遵守のためにfew-shotの例を追加します。
- アナリストのブリーフィングと意思決定メモ:より高い完全性の推論のためにR1を使用。「簡単な根拠」の制約を設定します。
- コーディングレビューとリファクタリング計画:迅速なイテレーションにはv3が優れています。トレードオフに関する深い推論が必要な場合はR1を使用します。
- 制約のある数学、ロジック、スケジューリング:通常、R1が優れています。
- 大規模な要約または書き換えパイプライン:スループットにはv3を使用します。
RAGアシスタントでR1を使用して構築するチュートリアルについては、エンドツーエンドのパターン、v3のコーディング指向の例、およびコミュニティスタックを通じたローカル実験を示すコミュニティおよびチュートリアルの記事を参照してください。
推論コンテンツの安全な取り扱い
- 完全なchain-of-thoughtを求めないでください。透明性が必要な場合は、短い正当化または主要な要素のリストを要求します。
- 機密性の高いドメインの場合は、ポリシーラインを含めます。「不明な場合、またはタスクが危害を加える可能性がある場合は、明確にするための質問をするか、拒否してください。」
- 数値タスクの検証プロンプトを追加します。「回答する前に算術を再確認してください。」
これは、R1スタイルのモデルに対する一般的なベストプラクティスガイダンスを反映しています:最小限のプロンプト、chain-of-thoughtの引き出しを避け、モデルの内部推論に依存します。
プロンプトライブラリ:コピー可能なスニペット
A) 複雑な計画 (R1)
目標:最小限のチャーンで1,000人のユーザー向けの6週間の製品ベータ版を計画します。
戻り値:
- 軽減策(リスクごとに1つ)
制約:合計200語未満にしてください。
システム:あなたは親切で、ポリシーに準拠したアシスタントです。リクエストがポリシーと矛盾する場合は、明確にするための質問をするか、安全な代替案を提供してください。
ユーザー:遅延した注文に対する払い戻し応答を作成します。共感的なトーンを保ち、2つのオプションを提供してください。
以下を解いてください。最終的な答えと2文のチェックを提供してください。
問題:{word problem}
あなたは上級Pythonレビュアーです。パフォーマンスと可読性についてスニペットを分析してください。
戻り値:
システム:有効なJSONのみを返してください。
ユーザー:テキストから会社、収益、および本社を抽出します。欠落している場合は、nullを使用します。
スキーマ:{"company":"string","revenue":"string|null","hq":"string|null"}
テキスト:{paste}
トラブルシューティング:出力がドリフトまたはハルシネートする場合
- 冗長すぎる? 最大トークン数を減らすか、「最大120語」を追加します。
- 形式が一貫していない? JSONのみのシステムプロンプトとストップシーケンスを追加します。
- 間違った仮定? 1行の制約を追加します。「不明な場合は、明確にするための質問を1つしてください。」
- 算術エラー? 「最終的な答えの前に算術を再確認してください」を追加します。
- 脆弱なチェインタスク? 2つの呼び出しに分割します:計画 → 実行。
APIクイックスタート(概念的)
- エンドポイントとキーの管理は、OpenAIスタイルのインターフェースに従います。
model、messages、temperature、max_tokens、およびストリーミングオプションのような標準フィールドを期待してください。
- DeepSeek v3の仕様とパフォーマンスの主張は、公式のニュース/モデルのアップデートとモデルカードにまとめられています。
注目に値すること:プロンプトのイテレーションにSider.AIを使用する
パターンを迅速に探索している場合—zero-shotとfew-shotのテスト、形式の切り替え、またはR1とv3の応答の比較—オーバーレイアシスタントはループを高速化できます。ちなみに、Sider.AIを使用すると、単一のワークフローでページとツール全体でプロンプトを作成、反復、およびA/Bテストすることが容易になり、タスクに最適な最小限のプロンプトに焦点を当てることができます。 主なポイント
- DeepSeek R1には最小限のzero-shotプロンプトを推奨します。明示的なchain-of-thoughtのリクエストは避けてください。
- 高速でスケーラブルなチャットと構造化されたタスクにはDeepSeek v3を使用します。信頼性のために制約付き形式に頼ってください。
- 一貫した失敗モードを修正するためにのみ、few-shotの例を追加してください。
- JSONスキーマ、短いシステムプロンプト、およびストップシーケンスで構造を強制します。
- 複雑な推論については、完全な推論ログではなく、最終的な答えと簡単な正当化を求めてください。
FAQ
Q1:DeepSeek v3よりもDeepSeek R1を選択するのはいつですか?
複数ステップの推論、複雑な計画、および数学/ロジックタスクにはDeepSeek R1を選択してください。高速な一般的なチャット、下書き、コーディング支援、および高スループットパイプラインにはv3を選択してください。
Q2:DeepSeek R1でchain-of-thoughtプロンプトを使用する必要がありますか?
いいえ。ガイダンスでは、明示的なchain-of-thoughtを避け、モデルの組み込み推論に依存することを示唆しています。代わりに、簡単な正当化を伴う最終的な答えを求めてください。
Q3:DeepSeek v3から一貫したJSONを取得するにはどうすればよいですか?
JSONのみを義務付ける短いシステムプロンプトを使用し、厳密なスキーマを定義し、オプションでストップシーケンスを設定します。ドリフトを制限するために、温度を下げ、最大トークン数を制限します。
Q4:推論タスクにはどの温度を使用する必要がありますか?
決定論と評価のために、低い値(0.0〜0.3)から始めてください。下書きまたはコーディングでバランスの取れた創造性を得るには0.4〜0.7に上げてください。ブレインストーミングにはより高い値を使用してください。
Q5:DeepSeekモデルをローカルで実行できますか?
実験用のコミュニティセットアップは存在しますが、本番環境では安定性とパフォーマンスのためにホストされたAPIを使用することがよくあります。ローカルの指示については、モデルカードとコミュニティガイドを確認してください。