ABテストの期間は「直感」で決めてはいけない

「1週間テストしたから十分だろう」「3日で有意差が出たから終了」——この安易な判断がABテストの信頼性を根本から破壊します。私たちが新規クライアントの支援に入る際、過去のテスト履歴を確認すると、約60%のテストが適切な期間を満たす前に終了判定されていたという実態が毎回のように確認されます。

ABテストの期間は必要サンプルサイズから逆算して設定するものであり、担当者の都合や直感で決めるものではありません。期間設定を間違えると、偶然の差を本物の改善と誤認する「偽陽性」のリスクが大幅に跳ね上がります。事前の期間計算なしに実施されたABテストの約40%が誤った結論を導いていると推定されており、期間設計はテストの成否を分ける最重要ファクターの一つです。正しい期間設定だけでテスト成功率が大幅に向上することを、私たちの200社以上にわたる支援実績が明確かつ一貫して証明しています。

必要期間を計算する3つの入力値

ABテストの期間を正しく計算するために必要な入力値は3つだけです。この3つを把握すれば、必要な期間は数学的に算出できます。

期間計算の3つの入力値

入力値 意味 確認方法
現在のCVR ベースラインの転換率 GA4の過去30日データ
検出したい最小改善幅(MDE) 実務的に意味がある最小の差 ビジネス要件から判断
日次セッション数 テスト対象ページへの1日あたりのユーザー数 GA4のページビューデータ

具体的な計算例

パターン 現在のCVR MDE 日次セッション 各バリエーション必要数 必要期間
BtoB LP 2.0% 0.5% 500 約9,000 約36日
ECサイト 3.5% 0.5% 2,000 約7,500 約8日
SaaS LP 5.0% 1.0% 300 約2,500 約17日

計算ツール: Evan Miller's A/B Test Calculatorが最も信頼性が高く、私たちも全テストで使用しています。検出力80%以上、有意水準5%で設定することを標準としています。計算された期間に加えて、曜日変動を平準化するため最低2週間(14日間)以上を確保してください。

必要期間を計算する3つの入力値の図解
必要期間を計算する3つの入力値の図解

短期間テストの落とし穴:ピーキングと過検出

ABテストの期間が短すぎる場合に発生する最大の問題がピーキング(途中覗き見)による偽陽性です。テスト開始直後はサンプルが少なくCVRの変動が大きいため、偶然の差が「有意差」として表示されることが頻繁に起こります。

私たちが支援したあるEC企業では、テスト開始3日目にVWOのダッシュボードが「Bパターンが95%の信頼度で勝利」と表示しました。担当者はこれを見て即座にBを採用しましたが、2週間後に本来の判定日でデータを確認したところ、差は完全に消失していました。結果として、LPの差し替え作業(デザイナー2日+エンジニア1日、推定コスト約25万円)が無駄になりました。

「ピーキング問題」の統計的背景

サンプルが少ない段階のp値はランダムウォークのように変動します。毎日p値を確認し「p<0.05になった時点で終了」とする運用では、偽陽性率が名目上の5%から最大26%に跳ね上がるという研究結果があります。つまり、4回に1回は「偶然の差」を「本物の差」と誤認することになります。

ピーキングを防ぐ実践的なルール

  • 判定日をカレンダーに設定し、それまでテスト結果画面を開かない(私たちのチームでは「テスト画面凍結ルール」と呼んでいます)
  • 事前に計算した必要サンプル数に達するまで判定しない
  • どうしても途中確認が必要な場合は、逐次検定(Sequential Testing)対応のツール(Optimizely等)を使用する
短期間テストの落とし穴:ピーキングと過検出の図解
短期間テストの落とし穴:ピーキングと過検出の図解

長期テストの問題:季節変動・学習汚染

ABテストの期間は短すぎても問題ですが、長すぎても結果の信頼性が低下します。私たちの経験では、8週間を超えるテストは外部要因による汚染リスクが急激に高まります。

長期テストで発生するリスク

リスク 発生メカニズム 影響
季節変動 ユーザー行動が月ごとに変化(例:年末商戦期のCVR上昇) テスト期間の前半と後半で前提条件が異なる
広告施策の変更 テスト期間中に広告のターゲティングや予算を変更 流入ユーザーの質が変化し結果が汚染される
実験汚染 同一ユーザーがCookieリセット等で両バリエーションを見る 各パターンの独立性が崩れる
ノベルティ効果 新パターンの「目新しさ」による一時的なCVR上昇 長期的なパフォーマンスを正しく評価できない

私たちの推奨期間:2〜6週間

最低2週間(曜日変動の平準化)、最大6週間(外部要因の汚染リスク管理)を基本レンジとしています。計算上8週間以上かかる場合は、MDEを大きくする(より大きな改善を検出対象にする)か、テスト対象ページへのトラフィックを増やす(広告等)ことで期間を短縮する方が現実的です。

あるBtoB企業では、月間セッションが少なく計算上12週間必要だったため、テスト対象LPにGoogle広告のトラフィックを集中させ、日次セッションを2倍に増やした結果、テスト期間を6週間に短縮できました。

長期テストの問題:季節変動・学習汚染の図解
長期テストの問題:季節変動・学習汚染の図解

サイト規模別の期間目安

curumiが200社以上の支援実績から体系化した、ABテスト期間のサイト規模別ガイドラインを共有します。これはあくまで目安であり、必ず期間計算ツールで正確な必要期間を算出した上でテスト計画を立てることを前提としています。

サイト規模別ABテスト期間ガイドライン

月間セッション 推奨アプローチ 期間目安 注意点
1万未満 ABテストより定性調査を優先 - ヒートマップ・インタビューで改善し、セッション増加後にABテスト開始
1〜3万 クラシックA/Bテスト(大きなMDE) 4〜8週間 MDE 1.0%以上の大きな仮説に絞る
3〜10万 標準的なA/Bテスト 2〜4週間 標準的な運用が可能
10〜30万 A/Bテスト+セグメント分析 2〜3週間 セグメント分析も信頼性のある期間を確保できる
30万超 MVT・バンディットも選択肢 1〜2週間 テスト頻度を上げ改善速度を加速

実績値: このガイドラインに沿って期間を設定したクライアントのテスト成功率(判定後にCVRが実際に改善した割合)は72%、ガイドラインなしの場合は48%。期間設定を正しくするだけで、テスト成功率が24ポイント向上します。

まとめ:期間は計算して決め、設定後は変えない

ABテストの期間設定は「事前計算→文書化→遵守」の3ステップが鉄則です。期間を直感で決めたり、途中の結果を見て早期終了したりすることは、テストの信頼性を根本から破壊します。

  • 3つの入力値(現在のCVR・MDE・日次セッション数)から必要期間を計算する
  • 最低2週間以上を確保し、曜日変動を平準化する
  • 最大6週間以内に完結させ、外部要因の汚染を防ぐ
  • 判定日を事前に設定し、途中のピーキングを構造的に防ぐ
  • 計算上8週間以上かかる場合は、MDE拡大 or トラフィック増加で期間を短縮する

curumiではテスト計画の設計段階から期間計算を含めた支援を提供しており、期間設計の適正化だけでテスト成功率が平均24ポイント向上した実績があります。テスト期間の設定に不安がある方は、まずご相談ください。初回のテスト設計診断は無料で実施しています。