AI問題へのデフォルト回答:「APIを叩け」。GPT-4、Claude、どれか選んでリリース。
請求書が来るまで。レイテンシがスパイクするまで。モデルがユーザーの言語でハルシネーションするまで。
東南アジア全域のIDカードからテキストを抽出。タイ語、ベトナム語、インドネシア語。
大型モデル?非ラテン文字でハルシネーション。P99レイテンシがP50の3-4倍。検証パイプラインを壊す一貫性のない出力。
月100万画像のコスト比較:
GPT-4 Vision Grabの1B
P50レイテンシ 800ms 416ms
P99レイテンシ 2400ms 1056ms
月額コスト $15,000 $2,000
精度(SEA IDs) 94% 98%
データは内部に No Yes
Grabの節約: $156,000/年 + より高い精度 + より速いP99
だから自分で作った。10億パラメータ。まさにそのユースケースでゼロから訓練。
APIを叩くべきとき:
自分で訓練すべきとき:
クロスオーバーポイント:通常月10万リクエスト以上で、自分のモデルを動かすインフラコストがAPI呼び出しより安くなる。
直感に反する部分がこれ:
正確なタスクで訓練された小さく集中したモデルは、巨大な汎用モデルに勝つ。毎回。
Grabはただモデルを訓練したわけではない。インフラを構築した:
時間配分:
モデルアーキテクチャ決定: 20%
データパイプラインとラベリング: 80%
モデルは仕事の20%だ。データパイプラインが80%だ。
データインフラがないなら、モデルはない。絶対にリリースされないサイドプロジェクトがあるだけだ。
作る前に、自分をチェックしろ:
スコア: 4つ以上チェック → 作れ。4未満 → APIを叩き続けろ。
ほとんどのチームはAPIを叩き続けるべきだ。そうすべきでないチームはわかる — 計算をしたから、レイテンシの壁にぶつかったから、データを外部に送れないから。
最高のモデルは最大のモデルではない。破産させずに問題を解決するモデルだ。
— blanho
どちらも同じAPIを呼んでいる。違いはエージェントがどう呼び出すかだ — そしてその違いは思っている以上に重要だ。
Netflixの問題なんか抱えてない。3人の開発者と1つのPostgresデータベースがあるだけだ。
みんな箱と矢印を描いている。誰もコードをリリースしていない。システム設計は重要だ、でもTwitterが思うほどじゃない。
# GPT-4: 1.7兆パラメータ、すべてで訓練
# Grabのモデル: 10億パラメータ、IDカード専用で訓練
# IDカードテキスト抽出(SEA言語):
gpt4_accuracy = 0.94 # すべてに良い、何も得意でない
grab_accuracy = 0.98 # 1つのことに優れている
# なぜ?
# - 1.7兆パラメータがすべてのタスクに分散 = 薄まった知識
# - 10億パラメータが1タスクに集中 = 凝縮した専門性
# - 訓練データ: 本物のSEA IDカード、インターネットテキストではない
# - エッジケースでファインチューン: ぼやけ、グレア、スタンプ