ABテストにおける「検定」とは何か
ABテストにおける検定とは、テストで得られた結果が「本当の差」なのか「偶然の差」なのかを科学的に判断するための手法です。統計的検定の理解なしにABテストの結果を判断することは、コイン投げで重要な事業判断をするのと大差ありません。
私たちが200社以上のクライアントのABテスト運用を分析した結果、検定を正しく理解・実施できている企業は全体の25%以下でした。残りの75%は「ツールが有意差ありと表示したから採用した」「CVRが高い方を選んだ」という、検定の本質を理解しない運用をしていました。例えばCVRがAパターン3.2%、Bパターン3.8%だった場合、この0.6%の差が偶然なのか本物なのかを検定で判断します。検定なしの判断はテスト回数の約40%で誤った結論を導くリスクがあり、正しい検定の理解と実践こそが、ABテストで再現性のある成果を出すための確固たる基盤となります。
p値と有意水準の意味
ABテストの検定で最初に理解すべきがp値と有意水準です。p値とは「差がないと仮定した場合に、今回の結果以上の差が偶然生じる確率」であり、この値が有意水準(α)以下であれば「統計的に有意」と判断します。
有意水準の設定基準
| 有意水準 | 意味 | 適用場面 | 私たちの使い分け |
|---|---|---|---|
| α=0.01(1%) | 99%の確信度 | 高額な実装を伴う変更、不可逆的な判断 | 決済フロー変更、年間契約の影響があるテスト |
| α=0.05(5%) | 95%の確信度 | 標準的な設定 | ほとんどのABテストで採用 |
| α=0.10(10%) | 90%の確信度 | 探索的テスト、低リスクの変更 | コピー微調整、ビジュアル変更の初期検証 |
実務上のポイント: 有意水準はテスト開始前に決定し、変更しません。「p=0.06だったからα=0.10に変えて有意差ありにしよう」という後付け調整は統計的に不正です。私たちはテスト設計書に有意水準を明記し、判定日まで変更禁止としています。
p値の限界を理解する
p値が教えてくれるのは「差が存在するかどうか」だけであり、「差がどれくらい大きいか」は教えてくれません。月間100万セッションのサイトでは、CVR差0.01%でもp<0.05が出ることがあります。p値は「差の有無」、効果量は「差の大きさ」、信頼区間は「差の範囲」——この3つをセットで見ることが検定を実務に活かす鍵です。

カイ二乗検定とt検定の使い分け
ABテストの検定で使用する手法は、検証するデータの種類によって異なります。間違った検定手法を選ぶと結果の信頼性が低下します。
データの種類による検定手法の選択
| データの種類 | 検定手法 | 具体例 |
|---|---|---|
| 割合(二値データ) | カイ二乗検定・z検定 | CVR比較、CTR比較、直帰率比較 |
| 連続値(数量データ) | Welch's t-test | 平均注文額・滞在時間・ページ遷移数 |
| 収益データ(歪んだ分布) | Mann-Whitney U検定 | 売上額(外れ値の影響を抑えたい場合) |
実務でよくある使い分け
- LPのCVR比較 → カイ二乗検定(CVはコンバージョンした/しないの二値)
- ECサイトの平均注文額比較 → Welch's t-test(金額は連続値)
- サブスクの顧客生涯価値比較 → Mann-Whitney U検定(一部の高額ユーザーが平均を歪める)
VWO・Optimizely等のツールは自動で適切な検定手法を選択しますが、GTM+GA4の簡易実装では自分で判断が必要です。
実務Tip: ECサイトの売上テストではCVR(二値)とAOV(連続値)を別々に検定すべきです。あるアパレルECではCVRが+0.5%改善した一方AOVが-800円低下し、売上ベースではマイナスでした。

実務でよくある検定の誤用
curumiの支援事例でよく見られるABテスト検定の誤用パターンを、実例とともに共有します。これらの誤用は統計の専門家でなくとも、パターンを知っていれば回避できます。
誤用パターン1:検出力不足のまま早期終了
サンプル数が必要数の50%に満たない段階でp<0.05が出たため、即座に採用判定。しかし検出力(Power)が40%しかなく、偽陽性のリスクが非常に高い状態でした。テスト延長後、差は消失。
誤用パターン2:多重比較補正の欠如
5つのKPIを同時に検定し、「CTRだけ有意差あり」としてCTR改善を報告。しかし5指標を同時検定すると偶然有意差が出る確率は約23%(1−0.95^5)。ボンフェローニ補正を適用するとp<0.01が基準になり、有意差なしと判定されるべきでした。
誤用パターン3:片側検定と両側検定の混同
「Bの方が良いはず」という前提で片側検定を使用し、p=0.04で有意差あり判定。しかし両側検定ではp=0.08で有意差なし。片側検定は「Bが悪化する可能性を無視する」前提であり、使用には慎重な判断が必要です。
curumiの対策: 全テストに「検定チェックリスト」を適用し、上記の誤用を構造的に防いでいます。検定手法の選択・検出力の確認・多重比較補正の要否・片側/両側の選択——この4項目をテスト設計書に事前記載することで、誤用率を5%以下に抑えています。

検定を正しく活用してCVR改善を加速させる
ABテストの検定は「どのパターンが本当に優れているか」を科学的に判断するための基盤であり、正しく運用すればテストの信頼性と改善速度が大幅に向上します。
以下の3指標と運用ルールを理解し、テスト設計に組み込むことで、施策の成功率が飛躍的に向上します。
- p値 — 差の有無を判断する。有意水準は事前に固定し、後付け変更しない
- 信頼区間 — 差の範囲を把握する。下限がプラスであれば採用リスクが低い
- 検出力(Power) — サンプル不足を防ぐ。80%以上を確保してからテスト開始する
- データの種類に応じた検定手法(カイ二乗/t検定/U検定)を正しく選択する
- 多重比較を行う場合は必ず補正する
curumiでは検定設計から結果解釈まで一貫したサポートを提供しており、検定チェックリストの導入によりクライアントの検定誤用率を5%以下に抑えています。ABテストの検定に不安がある方は、まずご相談ください。