データベースがボトルネックだ

チームはアプリサーバーを2台から10台にスケールした。ロードバランサーでトラフィックは問題なく処理できた。アプリサーバーのCPU使用率は20%に下がった。すべてが良く見えた。

ただし、レスポンスタイムは悪化した。

2台のときはデータベースの平均レスポンスが50msだった。10台にしたら200msに跳ね上がった。同じデータベース、同じクエリ — ただ5倍のコネクションが同じ行とロックを奪い合っているだけだ。

結局、10台のサーバーが1つのデータベースを叩くのは、2台が叩くより悪い。スケールしていなかった。ただボトルネックを移動しただけだった。

スケーリングの旅

実際に壊れる順序はこうだ。

シングルサーバー — AppとDBが1台のマシンに同居。100〜500同時接続ユーザーまでは動くが、データベースのディスクI/Oが先に限界を迎える。

DB分離 — データベースを専用マシンに移す。1,000同時接続ユーザーあたりまでの余裕が生まれる。次に壊れるのはコネクション数だ。

ロードバランサーの後ろにアプリサーバー複数台 — ここが罠だ。アプリサーバーを追加してスケールしているつもりでも、追加したサーバーごとに同じデータベースへのコネクションが増える。データベースが天井になり、その天井をさらに強く押し上げているだけだ。

ほとんどのチームがここで詰まる。

垂直 vs 水平（データベース編）

垂直スケーリングはより大きいデータベースサーバーにすること。より多いRAM、より速いSSD、より多いコア。db.r5.largeの月$200からdb.r5.24xlargeの月$6,400まで上げていく。AWSの最大インスタンスか予算に達するまでは動く。

水平スケーリングは複数のデータベースサーバーにすること。ここが複雑になる。

リードレプリカは簡単な最初のステップだ。

ほとんどのアプリの80%は読み込みだ。リードレプリカでかなりの余裕が買える。

リードレプリカでは足りないとき

書き込みが多いワークロードはまだプライマリを叩く。そうなるとシャーディングが必要になる — ユーザーIDの範囲などのキーでデータを複数のデータベースクラスタに分割する。

シャーディングは痛い。クロスシャードクエリは高コストになる。シャード間のトランザクションには分散調整が必要。ここに行く前によく考えろ。

ほとんどの人がスキップするステップ

シャーディングの前に、これらを試せ。

インデックスが1つ欠けているだけでアプリケーション全体が落ちる。何度も見てきた。

コネクションプーリングももう一つの無料の勝ち筋だ。PgBouncerをアプリサーバーとデータベースの間に置けば、500のアプリケーションコネクションが20の実際のデータベースコネクションを共有できる。データベースがコネクションのオーバーヘッドで溺れなくなる。

キャッシングは3つ目のレバーだ。データベースに秒間1,000回叩いていて、その90%が同じホットキーなら、前にRedisを置け。データベースへのQPSは100まで下がる。

順序が重要

クエリ最適化 — 無料、低複雑度、2〜10倍のインパクト。
キャッシング追加 — 月$50、低複雑度、5〜20倍のインパクト。
コネクションプーリング — 無料、低複雑度、2〜5倍のインパクト。
リードレプリカ追加 — 月$200、中複雑度、2〜5倍のインパクト。
データベースシャーディング — 高額、高複雑度、10倍以上のインパクト。

1つのインデックスで解決できたはずの問題にシャーディングに飛びつくチームを見てきた。順番に作業しろ。シンプルな解決策が失敗したときだけ複雑さを追加しろ。

データベースはほぼ常にボトルネックだ。それに応じて扱え。

サーバーを追加する前に、クエリをチェックしろ。

— blanho

ただし、レスポンスタイムは悪化した。

結局、10台のサーバーが1つのデータベースを叩くのは、2台が叩くより悪い。スケールしていなかった。ただボトルネックを移動しただけだった。

スケーリングの旅

実際に壊れる順序はこうだ。

シングルサーバー — AppとDBが1台のマシンに同居。100〜500同時接続ユーザーまでは動くが、データベースのディスクI/Oが先に限界を迎える。

DB分離 — データベースを専用マシンに移す。1,000同時接続ユーザーあたりまでの余裕が生まれる。次に壊れるのはコネクション数だ。

ほとんどのチームがここで詰まる。

垂直 vs 水平（データベース編）

水平スケーリングは複数のデータベースサーバーにすること。ここが複雑になる。

リードレプリカは簡単な最初のステップだ。

ほとんどのアプリの80%は読み込みだ。リードレプリカでかなりの余裕が買える。

リードレプリカでは足りないとき

ほとんどの人がスキップするステップ

シャーディングの前に、これらを試せ。

インデックスが1つ欠けているだけでアプリケーション全体が落ちる。何度も見てきた。

順序が重要

クエリ最適化 — 無料、低複雑度、2〜10倍のインパクト。
キャッシング追加 — 月$50、低複雑度、5〜20倍のインパクト。
コネクションプーリング — 無料、低複雑度、2〜5倍のインパクト。
リードレプリカ追加 — 月$200、中複雑度、2〜5倍のインパクト。
データベースシャーディング — 高額、高複雑度、10倍以上のインパクト。

データベースはほぼ常にボトルネックだ。それに応じて扱え。

サーバーを追加する前に、クエリをチェックしろ。

— blanho

データベースがボトルネックだ

スケーリングの旅

垂直 vs 水平（データベース編）

リードレプリカでは足りないとき

ほとんどの人がスキップするステップ

順序が重要

Related Posts

速いシステムがなぜ遅く感じるのか

APIをスケールする方法（頭おかしくならずに）

ステートフルサービスはスケーリングを壊す

データベースがボトルネックだ

スケーリングの旅

垂直 vs 水平（データベース編）

リードレプリカでは足りないとき

ほとんどの人がスキップするステップ

順序が重要

Related Posts

速いシステムがなぜ遅く感じるのか

速いシステムがなぜ遅く感じるのか

APIをスケールする方法（頭おかしくならずに）

APIをスケールする方法（頭おかしくならずに）

ステートフルサービスはスケーリングを壊す

ステートフルサービスはスケーリングを壊す

速いシステムがなぜ遅く感じるのか

APIをスケールする方法（頭おかしくならずに）

ステートフルサービスはスケーリングを壊す