RDBにとって頭の痛いデータ
データ構造(スキーマ)に問題はない
データ自体に問題がある
- タグのデータはとても大きい
- クエリ結果も大量の行となる
- 複数タグを指定すると、大量の行の積集合演算となる(高コスト)
キャッシュテーブルを作ろう
- {tag1, tag2, item_name, score} みたいな
  - score: 人気度
- PK: {tag1, tag2, item_name}
- 正規形でない
  - 繰り返しパターンなので1NFでない
  - {item_name} -> {score} なる関数従属性がある
- が、キャッシュなので問題ない
- 重複をなくすために、 tag1 < tag2といった条件をつけること
- インデックス{tag1, tag2, score}なるインデックスがあれば上位のアイテムを高速に取得できる
  - {tag1, tag2, score, item_name}としてカヴァリングインデックスを狙うのも良い
メリット
- 上位コンテンツの取得が速い
デメリット
- 行数が多い
  - アイテムにn個のタグがついていて、うちm個で検索する組み合わせはnCm通り
    - 階乗オーダー
  - 要件として検索可能なタグ数を制限できない場合は諦めよう

コラム: 転置インデックスを使用して検索を高速化する

スケールアウト

データの論理的整合性
- スレーブに対して問い合わせをする場合、マスタに対して行うのと全く同じクエリを記述できる
- マスタの完全なコピーを持っているため
非同期レプリケーション
- 完全コピーはオーバヘッドが大きいため、同期レプリケーションは使用不可
- スレーブ上のデータはマスタのものと比べて古い可能性がある
  - もっとも、1秒未満になることがほとんど
- 少しの時間差も許されない場合はレプリケーションによるスケールアウトは使用できないことに注意する