How do I prepare data to fine-tune my own AI model with Tinker API?

Use JSONL with clear instruction–response or chat-style pairs. Keep tone consistent, anonymize sensitive info, and hold out 10–20% for testing so you don’t fool yourself with inflated scores.

Is fine-tuning with Tinker API better than prompt engineering?

Use prompts for quick tone tweaks and simple behaviors; use fine-tuning when you need durable style, structure, or domain patterns. Many teams combine both—RAG for facts, fine-tune for voice.

How much data do I need to fine-tune a model with Tinker API?

Quality beats quantity. A few hundred strong examples can outperform thousands of noisy ones. Start small, evaluate, then add targeted examples where the model struggles.

How do I deploy a fine-tuned model in Tinker API?

After training, Tinker returns a model ID you can call via the standard completions or chat endpoint. Set a helpful system prompt, tune temperature, and monitor outputs in real traffic.

How do I stop my fine-tuned model from hallucinating?

Train with examples that admit uncertainty, lower temperature, and pair with retrieval for facts. Make “cite sources” or “say you don’t know” part of the instruction and the training data.

AIがまるで天気予報ロボットみたいで、もっと…あなた自身のように聞こえたらいいなと思ったことはありませんか？

想像してみてください。AIに顧客からのメールを要約するように頼んだら、まるで航海気象通報をナレーションしているかのように答えるのです。技術的には正しいのですが、精神的には役に立ちません。本当に欲しいのは、ガレージに研究所を建てなくても、あなたのAI—あなたの口調、あなたの専門用語、あなたの好み—なのです。

そこで、ファインチューニングが登場します。そして、「Tinker API」について何か耳にしたことがあるなら、あなたは正しい場所にいます。これは、Tinker APIを使ってあなた自身のAIモデルをファインチューニングするためのハウツーガイドです。—そうすれば、次に「返信の下書き」と入力したとき、HAL 9000のいとこではなく、あなたのチームのように聞こえるものが得られます。

ファインチューニングの意味、データの準備方法、Tinker APIでファインチューニングを実行する方法、そして予算（または忍耐力）を無駄にしない方法など、すべてを説明します。いたずら好きな小人がどこに住んでいるかさえ教えます。—なぜなら、ファインチューニングは強力ですが、魔法使いの妖精ではありません。

キーワードに関する注意：私たちは「Tinker APIの使い方」をたくさん言います。なぜなら、それがあなたが探しに来た質問だからです。また、「あなた自身のAIモデルをファインチューニングする」「Tinker APIチュートリアル」「ファインチューニングのためのデータセット準備」「ファインチューニングされたモデルのデプロイ」のようなロングテールな用語も織り交ぜます。それがたくさんに聞こえるかもしれませんが、心配しないでください—人間味を保ちます。

ファインチューニングとは—そして、そうでないもの

もし一般的なAIモデルがスイスアーミーナイフだとすれば、ファインチューニングはあなたが「ナイフよ、聞いて。あなたを小包を開けるのが非常に、非常に得意になるようにするわ」と言うようなものです。あなたはナイフを発明しているわけではありません。お気に入りの段ボールを教えているのです。

実際には、ファインチューニングとは、ベースモデル（すでにインターネット上の膨大なテキストでトレーニングされている）を取り、あなたの例—あなたのライティングスタイル、あなたのドメイン固有のQ&A、あなたのサポートスクリプト—でそれを微調整し、あなたが望むように応答させることを意味します。それは、モデルにスタイルガイドと練習クイズの山を渡すようなものです。

しかし、ファインチューニングは魔法の呪文ではありません。データがそれらのパターンを教えない限り、決して見たことのない事実を突然学習することはありません。また、代表的なスニペットを与えない限り、巨大な独自のドキュメントを「記憶」することもありません。そして、あなたのデータが雑然としていたり、矛盾していたり、小さすぎたりすると、あなたのモデルはティーンエイジャーのロックバンドがドラマーのテンポを受け継ぐように、それらの癖を受け継ぎます。

簡単な旅程

あなた自身のAIモデルをファインチューニングするためにTinker APIをどのように使うかの鳥瞰図を以下に示します：

Tinker APIでベースモデルを選択します。

プロンプトと理想的な応答を含む、クリーンでバランスの取れたデータセットを準備します。

データセットをTinkerにアップロードします。

明確なハイパーパラメータを持つファインチューニングジョブを作成します。

トレーニングを監視し、ホールドアウトテストセットで結果を評価します。

本番環境でファインチューニングされたモデルをデプロイして呼び出します。

奇妙な点を見つけたら、反復します。

コードスタイルの例を貼り付けたり、画面に向かって叫ぶのを防いだヒントを交えながら、ステップバイステップで説明します。

ステップ1：レンタカーを選ぶようにベースモデルを選ぶ

マンハッタンで縦列駐車するために15人乗りバンを借りることはないでしょう。同様に、1日に何百万ものリクエストに対して高速で安価な返信が必要な場合は、巨大なモデルを選択しないでください。Tinker APIは通常、いくつかのモデルファミリー—軽量、ミドルサイズ、「うわー、それは賢い」を提供しています。

速度とコスト削減が必要な場合：より小さいベースを選択してください。

ニュアンス、推論、または長文のライティングが必要な場合：より大きいベースを選択してください。

あなたのドメインに専門用語がたくさんある場合（医療、法律、サポートマクロ）：ミドルからラージモデルはより実りあるファインチューニングを行います。

プロのヒント：プロトタイプを作成するためにより小さいものから始めます。主要なメトリックがジャンプしたら、同じデータセットをより大きなベースに移動します。

ステップ2：データセットを、ガラクタ入れではなくレシピカードのように準備する

あなたのデータセットは、品質にとって最大のレバーです。モデルは模倣によって学習します。例が曖昧な場合、モデルは曖昧になることを学習します。例が鮮明で、一貫性があり、多様であれば、あなたのモデルは実際にメモを読む役立つ同僚になります。

明示的な指示-応答ペアを持つJSONL（JSON Lines）形式を目指してください。チャットスタイルのファインチューニングの場合、system/user/assistantのような役割を含めます。各例を短〜中程度に保ちます。数十の高品質な例が、数千のノイズの多い例よりも優れています。

例（指示スタイル）：

{"instruction": "このサポートチケットを2文で要約してください。フレンドリーな口調で。", "input": "顧客が「注文追跡」をクリックすると404エラーが発生すると報告", "output": "ご指摘ありがとうございます！お客様が「注文追跡」をクリックすると、サイトに404が表示されます。「注文追跡」ページのリンク切れを調査しており、修正後にフォローアップします。"}

例（チャットスタイル）：

{"messages": [ {"role": "system", "content": "あなたは簡潔でフレンドリーなサポートエージェントです。わかりやすい英語を使用してください。"}, {"role": "user", "content": "サブスクリプションが更新されましたが、カードの期限が切れていました。助けて？"}, {"role": "assistant", "content": "ご迷惑をおかけして申し訳ありません！プランを再確認しました—期限切れのカードで更新が試みられました。請求ページでカードを更新してください。保存されたら、請求を再試行します。"} ]}

ファインチューニングのためのデータセット準備のヒント：

一貫性が重要です。常に同じ口調、署名、構造を使用してください。

トピックのバランスを取ってください。例の90％が払い戻しの場合、モデルは払い戻し妖精になります。

トリッキーなケースにラベルを付けます。Tinker APIが優先シグナルをサポートしている場合は、否定的な例（言ってはいけないこと）を含めます。

安全に保ちます。個人データを削除します。機密情報を扱う場合は、匿名化または合成します。

データの10〜20％をテストセットとして保持します。トレーニングセットで採点すると、モデルが天才だと錯覚してしまいます。どうして知っているか聞いてください。

ステップ3：涙なしでTinker APIにデータをアップロードする

ほとんどのファインチューニングプラットフォームはストレージエンドポイントを提供しています。Tinker APIを使用すると、通常：

データセットリソースを作成します（例：POST /datasets）

JSONLファイルをアップロードします

スキーマを検証します（Tinkerは通常、便利なレポートを返します：OKカウント、エラー、奇妙なフィールド）

疑似例（curl風）：

curl -X POST -H "Authorization: Bearer YOUR_TINKER_KEY" -F "file=@my_finetune_data.jsonl" -F "purpose=finetune"

Tinker APIがCLIをサポートしている場合、生活は楽になります：

アップロード

tinker datasets upload my_finetune_data.jsonl --purpose finetune

検証

tinker datasets validate DATASET_ID

検証エラーはあなたの友達です。彼らは批判的に感じますが、午前2時に発生する神秘的なトレーニングの失敗からあなたを救います。

ステップ4：ファインチューンジョブを開始し、健全な設定を選択する

データセットと選択したベースモデルを指すジョブを開始します。ほとんどのTinker APIファインチューニングエンドポイントは、エポック、学習率、バッチサイズ、評価頻度などのパラメータを受け入れます。言い換えれば、データに対するパスの数、モデルがどれだけ積極的に学習するか、一度に学習する例の数、および進捗レポートを表示する頻度です。

リクエスト例：

curl -X POST -H "Authorization: Bearer YOUR_TINKER_KEY" -H "Content-Type: application/json" -d '{ "base_model": "tinker-large-1", "dataset_id": "ds_abc123", "epochs": 3, "learning_rate": 1e-5, "batch_size": 8, "eval_dataset_id": "ds_eval789", "suffix": "support-tone-v1" }'

健全なデフォルト：

エポック：小〜中程度のデータセットの場合は3〜5。多いほど常に良いとは限りません。時には、余分なステップで過剰適合しているだけです。

学習率：控えめに開始します（1e-5または2e-5）。モデルの学習が速すぎると、一般的な知識を忘れてしまいます。

バッチサイズ：クォータで許可されているものは何でもかまいませんが、心配しないでください—パフォーマンスの向上は主に優れたデータから得られます。

早期停止：Tinker APIが提供している場合は、有効にします。それは、時々「はい」と言う機械学習の「もう着いた？」です。

ステップ5：鷹のようにトレーニングを監視する—ただし、冷静な鷹

Tinkerは通常、トレーニング損失、評価損失、および定義する可能性のあるカスタムメトリック（Q&Aの完全一致など）をログにストリーミングします。お茶の葉を読む方法は次のとおりです：

トレーニング損失が低下し、評価損失が横ばいまたは上昇していますか？過剰適合しています—トレーニングの回答を暗記していますが、新しい回答をしくじっています。

両方とも低下傾向にありますか？順調です。

損失がポゴスティックのように跳ね返っていますか？学習率が高すぎるか、データセットに一貫性がない可能性があります。

Tinkerがトレーニング中にプレビュー生成を提供している場合は、部分的な出力を確認してください。テストセットからいくつかのプロンプトをサンプリングし、口調/精度を評価します。はい、それは定性的ですが—あなたは物理学の証明ではなく、スタイルをトレーニングしています。

ステップ6：名前を付け、デプロイし、呼び出す

ジョブが完了すると、Tinker APIはft:tinker-large-1:support-tone-v1:abc123のようなモデルIDで祝福してくれます。その後、エンドポイントの背後にデプロイし、ベースモデルとまったく同じように呼び出すことができます—ただし、今ではあなたのチームのように話します。

生成の呼び出し例：

curl -X POST -H "Authorization: Bearer YOUR_TINKER_KEY" -H "Content-Type: application/json" -d '{ "model": "ft:tinker-large-1:support-tone-v1:abc123", "messages": [ {"role": "system", "content": "あなたは簡潔でフレンドリーなサポートエージェントです。"}, {"role": "user", "content": "払い戻しが遅れており、迷惑しています。"} ], "temperature": 0.4 }'

モデルが饒舌すぎたり、無愛想すぎたりする場合は、「presence_penalty」を高くしたり、「temperature」を低く設定することもできます。Tinkerのドキュメントにはノブが詳しく説明されています—実験することをためらわないでください。

ステップ7：裁判官ではなくコーチのように評価する

自動スコアカードと人間のスコアカードが必要です。自動メトリック（BLEU、ROUGE、精度）は整っていますが、口調には盲目です。人間は「これは皮肉に聞こえる」という問題を捉えます。

小さな評価基準を設定します：

口調の一致（1〜5）

指示の遵守（1〜5）

事実性（1〜5）

長さの制御（1〜5）

安全性/コンプライアンス（1〜5）

ホールドアウトセットから50〜100の出力をサンプリングします。2人に個別に評価してもらいます。カテゴリの平均が3未満の場合は、データセットに遡り、必要な動作を示す例を追加します。

ステップ8：コストとパフォーマンス：CFOとサーバーが気にするもの

Tinker APIでのファインチューニングには、トレーニングと推論の2つの場所でお金がかかります。トレーニングは1回のスプリントです。推論はマラソンです。

トークンの長さを減らします。プロンプトと出力が短いほど=請求額が小さくなります。

スタイルをフレーム化するシステムプロンプトを使用しますが、Tinkerがデプロイメントレベルのデフォルトをサポートしている場合は、すべての呼び出しで巨大な指示を繰り返さないでください。

可能な場合は、一般的なプロンプトをキャッシュします。

ルーティング戦略を検討してください。ファインチューニングされた大きなモデルは必要な場合にのみ使用してください。それ以外の場合は、より小さく、安価なモデルにフォールバックしてください。

レイテンシも重要です。ファインチューニングされたモデルの実行速度が遅い場合は、コンテキストウィンドウを小さくするか、分類には小さいモデルを使用し、生成テキストには大きいモデルのみを使用してください。

ステップ9：トラブルシューティング：グレムリンの最大のヒット

モデルが壊れたレコードのように繰り返します。

温度を下げます。鮮明で短い回答の例を追加します。可能な場合はビーム幅を減らします。

指示を無視します。

システムプロンプトを強化し、厳密な指示に従うことを示すトレーニング例を含めます。

自信満々に事実を捏造します。

「わかりません」と言うか、ソースにリンクする例を含めます。温度を下げます。応答を接地するために検索とペアリングします。

親切すぎます。（ええ、それはあります。）

境界を設定し、ポリシーを明確にするトレーニング例を追加します—「Xはできませんが、Yはこちらです。」

トレーニングが途中で失敗します。

データセットの検証、奇妙な文字、および最大トークン長を確認します。バッチサイズを小さくするか、エポック数を減らしてみてください。

ステップ10：いつファインチューニングするか、いつプロンプトまたは検索を使用するか

私はファインチューニングが大好きですが、それは唯一のハンマーではありません。3つの一般的な戦略：

プロンプトエンジニアリングのみ：最も安く、最速です。口調の調整や簡単な一貫性が必要な場合に最適です。

検索拡張生成（RAG）：新鮮な事実と大規模な知識ベースに最適です。モデルは実行時にドキュメントを読み取ります。

ファインチューニング：スタイル、構造、および毎日変更されないドメインパターンに最適です。

多くの場合、勝利のレシピはそれぞれ少しずつです。RAGを使用して事実を取得し、署名の声で答えるように、ファインチューニングされたモデルに渡します。

コピーアンドペーストできる簡単なTinker APIチュートリアル

これは、多くのTinkerスタイルのプラットフォームを反映した、統合された架空のウォークスルーです。エンドポイントとIDを実際のIDに置き換えてください。

データセットの作成とアップロード

curl -X POST -H "Authorization: Bearer $TINKER_KEY" -F "[email protected]" -F "purpose=finetune"

curl -X POST -H "Authorization: Bearer $TINKER_KEY" -F "[email protected]" -F "purpose=eval"

ファインチューニングを開始する

curl -X POST -H "Authorization: Bearer $TINKER_KEY" -H "Content-Type: application/json" -d '{ "base_model": "tinker-medium-1", "dataset_id": "ds_train", "eval_dataset_id": "ds_eval", "epochs": 4, "learning_rate": 2e-5, "suffix": "email-summarizer-v1" }'

ログをストリーミングする

curl -N -H "Authorization: Bearer $TINKER_KEY"

ファインチューニングされたモデルを使用する

curl -X POST -H "Authorization: Bearer $TINKER_KEY" -H "Content-Type: application/json" -d '{ "model": "ft:tinker-medium-1:email-summarizer-v1:xyz", "prompt": "次のメールを2つの箇条書きで要約してください。フレンドリーな口調で：\n\n[メールを貼り付け]", "max_tokens": 160, "temperature": 0.4 }'

実際のシナリオ：何が起こるか…

サポートマクロでファインチューニングする

突然、AIはエージェントが使用するのと同じ構造で回答します：謝罪、行動、フォローアップ。人々は驚きよりも一貫性を好むため、CSATが上昇することがよくあります。

ブランドの声でファインチューニングする

モデルは「役立つがしつこくない」スタイルを釘付けにします。17個の感嘆符の熱意を回避します。マーケティングはよく眠れます。

コードの提案のためにファインチューニングする

タスクの説明と理想的なコードスニペットのペアを含めます。例は短く焦点を絞って保ちます。ノイズの多いコードはノイズの多い完了につながります。

分類のためにファインチューニングする

はい、できます。ラベル付きの例を提供し、短いプロンプトでモデルを呼び出します。厳密なラベルの場合は、温度をゼロに設定します。

安全第一、最後、そして常に

ユースケースが規制対象または機密領域に触れる場合は、システムプロンプトとトレーニングデータで明るい線を引きます。拒否を優雅に示す例を追加します。出力をログに記録し、ユーザーに問題を報告させます。ファインチューニングされたモデルは自信を持つことができます—自信を持って慎重になるようにトレーニングします。

Sider.AIが適合する場所（および適合しない場所）

驚くべきことに、Tinker APIの使用方法を理解している間、Sider.AIは素晴らしいコンパニオンになります。それは、文句を言わずにドキュメントを読む注意深い副操縦士がいるようなものです。既存のメールやナレッジベースを閲覧しながら、Siderのサイドバーでデータセットの例を下書きし、クリーンで一貫性のあるJSONLをエクスポートできます。トレーニングジョブを実行するわけではありません—それはTinkerの役割です—しかし、例の下書き、リファクタリング、およびQAについては、非常に実用的です。「この返信を落ち着いたわかりやすい英語のサポートボイスで2文で書き換えてください」と尋ねて、データセットの品質がジャンプするのを見てください。

誰かが教えてくれたらよかったと思った落とし穴

より多くのデータは常に良いとは限りません—より代表的なデータです。

口調を過剰適合させないでください。ユーザーが創造的になったときにモデルが即興で対応できるように、いくつかのワイルドカードの例を保持します。

すべてをバージョン管理します：データセットv1.1、モデルv1.2、プロンプトテンプレートv3.0。将来のあなたはあなたに感謝のマフィンを送るでしょう。

ロールバックボタンを保持します。新しいファインチューンがレールから外れた場合は、以前のモデルをすばやく再デプロイします。

最も美しい例だけでなく、実際のユーザーのプロンプトで評価します。ユーザーは混乱の詩人です。

最後に…

Tinker APIでのファインチューニングは、Skynetを構築することではありません。AIがチームの一員のように感じられるように、大まかなエッジを削り取ることです。小さく始めて、容赦なく測定し、より単純なトリック（より良いプロンプトなど）が機能する場合は、ためらわずに認めます。

なぜなら、AIがついにあなたと同じように答えるとき？それは単なる効率ではありません。それは正気です。

チートシート

あなた自身のAIモデルをファインチューニングするためにTinker APIをどのように使用するか：クリーンで一貫性のあるJSONLペアを準備します。アップロードします。健全なデフォルトでファインチューンを開始します。人間とメトリックで評価します。デプロイして反復します。

スタイルと安定したパターンにはファインチューニングを使用します。新鮮な事実には検索を使用します。

短いプロンプト、小さいモデル、およびルーティングでコストを制御します。

安全性をデータセットの明示的な部分にします。

Sider.AIのようなツールを使用して、「トレーニング」を押す前に、より良い例を作成できるようにします。

よくある質問

Q1：Tinker APIを使用して独自のAIモデルをファインチューニングするために、データをどのように準備しますか？明確な指示-応答またはチャットスタイルのペアでJSONLを使用します。口調の一貫性を保ち、機密情報を匿名化し、10〜20％をテスト用に保持して、誇張されたスコアで自分をだまさないようにします。

Q2: Tinker APIを使ったファインチューニングは、プロンプトエンジニアリングよりも優れていますか？プロンプトは、迅速なトーン調整や単純な動作に使用します。一方、永続的なスタイル、構造、またはドメインパターンが必要な場合は、ファインチューニングを使用します。多くのチームが両方を組み合わせて使用しています。つまり、事実はRAGで取得し、表現はファインチューニングで調整します。

Q3: Tinker APIでモデルをファインチューニングするには、どのくらいのデータが必要ですか？量より質が重要です。数百の質の高い例は、数千のノイズの多い例よりも優れたパフォーマンスを発揮することがあります。まずは少ないデータで始め、評価を行い、モデルが苦戦している箇所に的を絞って例を追加してください。

Q4: Tinker APIでファインチューニングされたモデルをデプロイするにはどうすればよいですか？トレーニング後、TinkerはモデルIDを返します。このIDは、標準の補完またはチャットエンドポイントを介して呼び出すことができます。役立つシステムプロンプトを設定し、温度を調整し、実際のトラフィックでの出力を監視してください。

Q5: ファインチューニングされたモデルがハルシネーション（幻覚）を起こすのを防ぐにはどうすればよいですか？不確実性を受け入れる例でトレーニングし、温度を下げ、事実確認のために検索と組み合わせます。「情報源を引用する」または「わからないと言う」ことを指示とトレーニングデータの一部にしてください。