AB テスト設計の決定版 — サンプル数・有意水準・よくある失敗
AB テストの設計から判定までを実務目線で解説。サンプル数の決め方、有意水準の選定、テスト期間、よくある失敗パターンと対処法を網羅します。
AB テストは「検証」であって「探索」ではない
AB テストの正しい使い方は、ヒューリスティック評価や定性調査で立てた仮説を「数値で確認する」段階です。「とりあえず2案作ってどちらが良いか試す」のは AB テストではなく当て推量です。
効果的な AB テストは、明確な仮説(「サイズガイドを商品ページ上部に置けば、サイズ選択で離脱するユーザーが減るはず」)を立て、統計的に有意な差を検出できるサンプル数とテスト期間を事前に設計し、結果を学びとして次の仮説に繋げる活動です。
AB テスト設計の5ステップ
- 1. 仮説を明確に書く「○○を△△に変更すれば、□□の指標が +X% 改善するはず。理由は◯◯(行動経済学・既存データ・顧客インタビュー等)」の形式で書く。仮説が書けないテストは実施しない。
- 2. 主要指標(OEC)を1つ選ぶOverall Evaluation Criterion。「カート投入率」「購入率」「会員登録率」等、ビジネスインパクトに直結する1指標を主指標に。複数の指標を同時最適化しようとすると判断ができなくなる。
- 3. 検出すべき最小リフト幅を決めるビジネス的に意味のある最小改善幅(例: CVR 2% → 2.2% = +10%)を決める。これより小さい変化を検出する必要はない(実装コストに見合わない)。
- 4. 必要サンプル数を計算する最小リフト幅・有意水準(通常 95%)・検出力(通常 80%)から必要サンプル数を計算。Optimizely / VWO のサンプル数計算機で容易に出せる。
- 5. テスト期間を設計する必要サンプル数 ÷ 1日あたり訪問数 = 必要日数。最低でも 1〜2 週間(曜日変動を吸収するため)。短すぎても長すぎても駄目。
サンプル数の目安(CVR 改善幅別)
現状 CVR 2% を基準とした、改善幅検出に必要なサンプル数の目安です。
| 検出したい改善幅 | 1群あたりサンプル数 | 総サンプル数(A/B合計) |
|---|---|---|
| +50%(CVR 2% → 3%) | 2,500 | 5,000 |
| +25%(CVR 2% → 2.5%) | 10,000 | 20,000 |
| +15%(CVR 2% → 2.3%) | 27,000 | 54,000 |
| +10%(CVR 2% → 2.2%) | 62,000 | 124,000 |
| +5%(CVR 2% → 2.1%) | 250,000 | 500,000 |
有意水準 95%、検出力 80%、両側検定の場合。CVR が低いほど必要サンプル数は増える。
AB テストでよくある失敗パターン7つ
- 1. サンプル数不足で結論を急ぐ1週間で「Bが勝った」と判断するが、サンプル数が足りず偶然の差。最低でも事前計算したサンプル数に到達するまで待つ。
- 2. 主要指標を後から変えるテスト開始時は「CVR」を見ていたのに、結果が芳しくないので「カート投入率」に変える。p-hacking と呼ばれ、信頼性ゼロ。
- 3. テスト期間が短すぎる週末の購入行動と平日は異なる。最低でも7日間、推奨は2週間以上。曜日要因を吸収する。
- 4. 複数の変更を同時に行うヒーロー画像 + コピー + CTA 全部変えて B案勝利。どれが効いたか分からない。1テスト1変更が原則。
- 5. 既存ユーザーへの影響を見ないB案で新規 CVR は上がったが、既存ユーザーのリピート購入が下がった。新規/既存セグメント別に評価する。
- 6. ローカルマキシマム(局所最適)に陥る細かい改善ばかり積み重ねて、根本的な構造変革に手をつけない。年に1回は大胆な改修案も AB テストで検証する。
- 7. 結果の解釈を「勝ち負け」にするB案が負けても、なぜ負けたかから学べる。負けたテストの考察が次の仮説の質を上げる。
よくある質問
Q. AB テストの有意水準はいくつに設定すべきですか?
通常 95%(α=0.05)が標準。重要な意思決定では 99%(α=0.01)に上げます。逆に「失敗してもダメージが小さい変更」では 90% に緩めることもありますが、推奨はしません。事前に決めて変えないことが重要。
Q. テスト期間は最低どれくらい必要ですか?
最低7日間、推奨は2週間以上。曜日変動・季節要因・キャンペーン要因を吸収するためです。EC では月初・月末・給料日後など特定タイミングで購買行動が変わるため、月をまたぐ設計も検討します。
Q. 途中で結果を覗いて中断しても良いですか?
事前に「中断条件」を設計していなければ駄目です。ピーキング(中間結果を見て判断)は α エラー率を上げ、偽陽性を増やします。シーケンシャルテスト(事前に中断ルールを設計した手法)は専門知識が必要です。
Q. AB テストツールは何を使うべきですか?
予算とトラフィック規模で決めます。Google Optimize は2023年でサービス終了。現主流は Optimizely / VWO / AB Tasty(海外系)、Sprocket / DLPO(国内系)。月100万 PV 未満なら Microsoft Clarity(無料)でセグメント分析を行い、AB テストの近似手法も有効。
Q. AI ペルソナシミュレーションで AB テストの代替になりますか?
代替ではなく補完です。実トラフィックでの結果が最も確度が高い一方、AI シミュレーションは「テストすべき仮説を絞る」のに有効。AI で10件の仮説を出し、上位3件を AB テストするのが時間とコストの最適化です。
MAXsuite — CROMAX
AB テストの仮説を絞るなら CROMAX
1,000人の AI ペルソナが30分でサイトを買い物。AB テストすべき改善仮説を Top 10 として返します。実トラフィックの少ないサイトでも仮説検証が回せる。