APIを叩くのをやめて自分のモデルを訓練しろ

AI問題へのデフォルト回答：「APIを叩け」。GPT-4、Claude、どれか選んでリリース。

請求書が来るまで。レイテンシがスパイクするまで。モデルがユーザーの言語でハルシネーションするまで。

Grabの問題

東南アジア全域のIDカードからテキストを抽出。タイ語、ベトナム語、インドネシア語。

大型モデル？非ラテン文字でハルシネーション。P99レイテンシがP50の3-4倍。検証パイプラインを壊す一貫性のない出力。

月100万画像のコスト比較:

                    GPT-4 Vision    Grabの1B
P50レイテンシ       800ms           416ms
P99レイテンシ       2400ms          1056ms
月額コスト          $15,000         $2,000
精度（SEA IDs）     94%             98%
データは内部に      No              Yes

Grabの節約: $156,000/年 + より高い精度 + より速いP99

だから自分で作った。10億パラメータ。まさにそのユースケースでゼロから訓練。

Build vs Rent 決定マトリックス

APIを叩くべきとき:

プロトタイピングか低ボリューム（月10Kリクエスト未満）
汎用タスク（要約、主要言語への翻訳）
チームにMLエンジニアがいない
データがインフラを離れてもいい
市場投入時間がコストより重要

自分で訓練すべきとき:

特定ドメイン（医療、法律、地域言語）
高ボリュームでAPIコスト > インフラコスト
厳しいレイテンシ要件（P99 < 500ms）
タスクが狭くて小さいモデルが勝てる
データが内部に留まる必要がある（コンプライアンス、プライバシー）

クロスオーバーポイント：通常月10万リクエスト以上で、自分のモデルを動かすインフラコストがAPI呼び出しより安くなる。

小さいモデルが大きいモデルに勝つ

直感に反する部分がこれ：

正確なタスクで訓練された小さく集中したモデルは、巨大な汎用モデルに勝つ。毎回。

誰も言わない80/20

Grabはただモデルを訓練したわけではない。インフラを構築した：

自動ラベリングプラットフォーム — 合成データ生成、ヒューマンインザループ検証、品質スコアリング
データパイプライン — 取り込み → クリーン → アノテート → 検証 → 保存。6ヶ月で50万ラベル付き例。
3フェーズ訓練 — プリトレイン → ファインチューン → アラインメント

時間配分:
  モデルアーキテクチャ決定:  20%
  データパイプラインとラベリング: 80%

モデルは仕事の20%だ。データパイプラインが80%だ。

データインフラがないなら、モデルはない。絶対にリリースされないサイドプロジェクトがあるだけだ。

チェックリスト

作る前に、自分をチェックしろ：

10万以上のラベル付き例がある？
タスクは狭くて明確に定義されている？
ボリュームでお金を節約できる？（計算しろ）
メンテできるMLエンジニアがいる？
レイテンシはハード要件？（P99 < 500ms）
データは内部に留まる必要がある？（コンプライアンス/プライバシー）

スコア: 4つ以上チェック → 作れ。4未満 → APIを叩き続けろ。

ほとんどのチームはAPIを叩き続けるべきだ。そうすべきでないチームはわかる — 計算をしたから、レイテンシの壁にぶつかったから、データを外部に送れないから。

最高のモデルは最大のモデルではない。破産させずに問題を解決するモデルだ。

— blanho

AI問題へのデフォルト回答：「APIを叩け」。GPT-4、Claude、どれか選んでリリース。

請求書が来るまで。レイテンシがスパイクするまで。モデルがユーザーの言語でハルシネーションするまで。

Grabの問題

東南アジア全域のIDカードからテキストを抽出。タイ語、ベトナム語、インドネシア語。

大型モデル？非ラテン文字でハルシネーション。P99レイテンシがP50の3-4倍。検証パイプラインを壊す一貫性のない出力。

月100万画像のコスト比較:

                    GPT-4 Vision    Grabの1B
P50レイテンシ       800ms           416ms
P99レイテンシ       2400ms          1056ms
月額コスト          $15,000         $2,000
精度（SEA IDs）     94%             98%
データは内部に      No              Yes

Grabの節約: $156,000/年 + より高い精度 + より速いP99

だから自分で作った。10億パラメータ。まさにそのユースケースでゼロから訓練。

Build vs Rent 決定マトリックス

APIを叩くべきとき:

プロトタイピングか低ボリューム（月10Kリクエスト未満）
汎用タスク（要約、主要言語への翻訳）
チームにMLエンジニアがいない
データがインフラを離れてもいい
市場投入時間がコストより重要

自分で訓練すべきとき:

特定ドメイン（医療、法律、地域言語）
高ボリュームでAPIコスト > インフラコスト
厳しいレイテンシ要件（P99 < 500ms）
タスクが狭くて小さいモデルが勝てる
データが内部に留まる必要がある（コンプライアンス、プライバシー）

クロスオーバーポイント：通常月10万リクエスト以上で、自分のモデルを動かすインフラコストがAPI呼び出しより安くなる。

小さいモデルが大きいモデルに勝つ

直感に反する部分がこれ：

正確なタスクで訓練された小さく集中したモデルは、巨大な汎用モデルに勝つ。毎回。

誰も言わない80/20

Grabはただモデルを訓練したわけではない。インフラを構築した：

自動ラベリングプラットフォーム — 合成データ生成、ヒューマンインザループ検証、品質スコアリング
データパイプライン — 取り込み → クリーン → アノテート → 検証 → 保存。6ヶ月で50万ラベル付き例。
3フェーズ訓練 — プリトレイン → ファインチューン → アラインメント

時間配分:
  モデルアーキテクチャ決定:  20%
  データパイプラインとラベリング: 80%

モデルは仕事の20%だ。データパイプラインが80%だ。

データインフラがないなら、モデルはない。絶対にリリースされないサイドプロジェクトがあるだけだ。

チェックリスト

作る前に、自分をチェックしろ：

10万以上のラベル付き例がある？
タスクは狭くて明確に定義されている？
ボリュームでお金を節約できる？（計算しろ）
メンテできるMLエンジニアがいる？
レイテンシはハード要件？（P99 < 500ms）
データは内部に留まる必要がある？（コンプライアンス/プライバシー）

スコア: 4つ以上チェック → 作れ。4未満 → APIを叩き続けろ。

最高のモデルは最大のモデルではない。破産させずに問題を解決するモデルだ。

— blanho

APIを叩くのをやめて自分のモデルを訓練しろ

Grabの問題

Build vs Rent 決定マトリックス

小さいモデルが大きいモデルに勝つ

誰も言わない80/20

チェックリスト

Related Posts

CLI vs MCP：AIエージェントはツールとどう話すべきか？

マイクロサービスはクソだ（ほとんどの人にとって）

システム設計は君の個性じゃない

APIを叩くのをやめて自分のモデルを訓練しろ

Grabの問題

Build vs Rent 決定マトリックス

小さいモデルが大きいモデルに勝つ

誰も言わない80/20

チェックリスト

Related Posts

CLI vs MCP：AIエージェントはツールとどう話すべきか？

CLI vs MCP：AIエージェントはツールとどう話すべきか？

マイクロサービスはクソだ（ほとんどの人にとって）

マイクロサービスはクソだ（ほとんどの人にとって）

システム設計は君の個性じゃない

システム設計は君の個性じゃない

CLI vs MCP：AIエージェントはツールとどう話すべきか？

マイクロサービスはクソだ（ほとんどの人にとって）

システム設計は君の個性じゃない