ABテストの「母数」とは何か

ABテストにおける母数とは、テスト結果の信頼性を担保するために必要なサンプルサイズ(参加ユーザー数)を指します。私たちが200社以上のLP改善を支援してきた中で断言できるのは、母数設計の甘さがABテスト失敗の最大原因だということです。

各パターン50人程度でテストを終了し「Bの方がCVRが高い」と判断するケースを頻繁に目にしますが、この規模ではCVR差0.5ポイント程度の改善を検出する検定力はわずか8〜12%しかありません。つまり、本当に効果がある施策でも約9割の確率で「差なし」と誤判断します。

ABテストの母数は「十分に集まったら終わり」ではなく、テスト開始前に統計的根拠をもって設計するものです。この前提を外すと、どれだけテストを繰り返しても有効な知見は蓄積されません。

必要サンプルサイズの計算式と考え方

ABテストの母数を正しく設計するには、サンプルサイズの事前計算が不可欠です。私たちのチームでは全案件でテスト設計書にこの計算結果を必ず記載しています。

サンプルサイズを決める3つの変数

変数 意味 私たちの標準設定
検出したい最小効果量(MDE) どの程度の改善幅を検出したいか ベースCVRの相対15〜20%
有意水準(α) 偽陽性を許容する確率 5%(片側2.5%)
検定力(1-β) 真の差を検出できる確率 80%以上、重要施策は90%

具体例を示します。CVR 2.0% のLPで 相対20%改善(0.4ポイント) を検出したい場合、各パターンに必要なサンプル数は約4,800セッションです。CVR 5.0% のページで同じ相対改善率なら約1,800セッションまで減ります。

計算には Evan Miller のサンプルサイズ計算機が実用的ですが、私たちは社内スプレッドシートにベースCVRとMDEを入力すれば自動算出される仕組みを構築しています。手計算に頼ると設計漏れが起きるため、仕組み化を強く推奨します。

必要サンプルサイズの計算式と考え方のイメージ図
必要サンプルサイズの計算式と考え方のイメージ図

母数が不足するとどうなるか

ABテストの母数が不足した状態で結論を出すと、2種類の統計的エラーが高確率で発生します。私たちのクライアント監査で過去のテスト結果を再検証した際、全テストの約35%がサンプル不足による誤判断だったことが判明しました。

母数不足で起きる2つのエラー

エラーの種類 内容 実務で起きた事例
偽陽性(Type I Error) 差がないのに「Bが優れている」と誤判断 CTA変更で「CVR +30%」と判定→本番適用後に元のCVRに戻った
偽陰性(Type II Error) 本当は差があるのに「差なし」と誤判断 実際にはCVR +18%の改善効果がある施策を不採用にしていた

特に深刻なのは偽陰性です。効果のある施策を「差なし」で却下し続けると、改善機会の損失が積み重なり、年間で数百万円規模の逸失利益になるケースもあります。

月間3,000UU以下のページでは、母数確保に2〜3ヶ月かかることも珍しくありません。その場合はテスト対象ページの統合やトラフィック誘導の増強を先に行い、テスト可能な環境を整えてから着手する判断が重要です。

母数が不足するとどうなるかのイメージ図
母数が不足するとどうなるかのイメージ図

月間PVとCVRから必要期間を逆算する

ABテストの母数設計で最も実用的なステップは、必要サンプル数と月間トラフィックから所要期間を逆算することです。私たちはクライアントへの提案時に必ずこの逆算表を提示し、テスト実施の現実性を事前に共有しています。

逆算シミュレーション

条件
ベースCVR 2.0%
検出したい改善幅 相対20%(+0.4pt)
必要母数(各パターン) 約4,800 UU
2パターン合計 約9,600 UU
月間UU 3,000 のLP 約3.2ヶ月
月間UU 10,000 のLP 約29日
月間UU 30,000 のLP 約10日

ここで重要なのは曜日・季節変動の排除です。私たちの運用ルールでは、計算上の必要期間に関わらず最低2週間(1ビジネスサイクル以上)を確保し、可能であれば4週間を標準としています。

月間UUが5,000未満のページでは、必要期間が2ヶ月を超えるケースが多発します。この場合、テスト期間中に外部環境が変化するリスクが高まるため、MDEを相対30%程度に緩和して必要母数を下げるか、テスト対象を高トラフィックページに変更する判断を推奨します。

月間PVとCVRから必要期間を逆算するのイメージ図
月間PVとCVRから必要期間を逆算するのイメージ図

母数設計をテスト計画の第一歩に

ABテストの母数設計は、テスト計画の最初に行うべき工程です。私たちが支援するプロジェクトでは、母数設計なしにテストを開始することは一切ありません。

テスト開始前に以下の4点を整理してください。

  1. 現状CVR -- GA4のコンバージョンレポートから正確に取得(例:2.0%)
  2. 検出したい改善幅 -- 相対15〜20%が現実的な目安(例:+0.4ポイント)
  3. 月間トラフィック -- テスト対象ページのユニークユーザー数(例:8,000 UU/月)
  4. 逆算した所要期間 -- 最低2週間を下限に設定
チェック項目 判断基準
所要期間が4週間以内 テスト実施可能
所要期間が4〜8週間 MDE緩和またはトラフィック増強を検討
所要期間が8週間超 テスト対象ページの変更を推奨

curumiでは母数計算からテスト設計、結果の統計的検証まで一貫して伴走し、判断ミスのないABテスト運用を実現しています。母数設計に不安がある場合は、ぜひ一度ご相談ください。