有意差の話

postd.cc

これって片側検定、両側検定の問題なのか?
「2つのまったく同じホームページの比較テスト」の結果を見てみると、95%信頼区間が重なってないし、これって片側でも両側でもきっと有意になるんじゃないか?

それに、片側、両側って、計算上は危険率を倍にするかどうかと同じはずなので、危険率をどこに置くかという問題と同じで、相対的な話なのでは?
(同じ危険率に対し、両側は常に片側より厳しい(誤って「効果あり」とするケース=第一種の過誤は減る)が、結局、どこまで厳しく判定すればよいかというのは決めの問題。
危険率を低く取り過ぎると、効果がある施策でも「効果があるとは言い切れない」としてしまうケース=第二種の過誤は増えるし。)
本質的な問題は、A/Bテストする側が、自分等がどの程度の危険率でもって優位性を判断しているのか分かってないということかもしれない。

「新奇性効果」の話とか、「大抵のA/Bテストツール有意性が見えたらすぐに、テストを終了することを推奨しています。」「疑問がある時は、テストプラットフォームがストップサインを出すポイントを越えて、テストを長くやってください。」というのはその通りだと思う。前にWebで、データサイエンティストがブログで「A/Bテストして有意差が出ないんで、有意差が出るまでもうちょっとテストしてみようかなぁ」みたいなことを書いていたのを猛烈に批判してる人がいたのを見たことがあるが、これも同じ問題。
統計的バラツキのために、たまたま有意差が出る可能性はあるわけで、「差が出たらテスト終了」、「差が出るまでテストする」というのは明らかに恣意的なのだ。本来なら「これくらいサンプルをとれば信頼区間これぐらいだし十分だろう」という基準を予め決めておいて、そこまでサンプル数集まったらそこで検定する、というのが正しいのではないかと思う。あるいは、時系列の変動もみて「新奇性効果じゃないよね」、「一時的な変動ではなく、常に差が出ているよね」というのを確認すればより確からしくなるのではなかろうか。

というわけで、こういった議論について、私なりに以下のように考えている。

  • 危険率やサンプル数といった基準を明確にして評価・判断する

→ 100%というのはバラツキを考慮するとあり得ないので、どこかで判断が必要。但し、判断基準を明確にする。恣意的なのはもってのほか。

  • 一つの分析結果だけでなく、データをいろいろな角度で見て判断する。

→ 例えば時系列で見てみるとか。相関係数でも偽相関というのがあるが、グラフにしてみると見抜けるという点で、似たような問題じゃないだろうか。