【統計学入門】統計的検定と有意確率

【定義】
仮説検定とは。。。

「仮説検定」とは、統計的仮説の「有意性」の検定である。
仮設の下で我々が期待するものと、観測した結果との違いを、これらの差が単に「偶然」によって起こったものか否かという見地から、確率の基準で評価する。

母集団について仮定された命題を標本に基づいて検証することが目的である。
このとき、理論比からのずれが誤差の範囲内か、それ以上の何かの意味のあるものか、ということが重要である。
誤差の範囲外（何か意味のある誤差）の場合、仮説からのずれは有意（意味がある）という。
有意性は標本が有意なずれを示す確率で表される。

帰無仮説と対立仮説を立て、帰無仮説が棄却されるかどうかを調べる際に有意確率(p値)が出力される。
p値は、帰無仮説が正しいと仮定して、そのときのデータまたはそれ以上に帰無仮説から乖離したと思われるデータが得られる可能性を示す。
ところで、データそのものはいま手にしているので「ある程度その可能性は高いはず」と考える。
従って、もしもp値が小さい場合、「ある程度可能性が高いはず」な「そのときのデータが得られるはず可能性が小さい」ということになり、それは矛盾した結果ということになる。つまり、帰無仮説が正しいという仮定が間違っていたということになり、帰無仮説は棄却される・・・。小難しい説明やなぁ・・・。

p値が小さい→帰無仮説が正しくない

だいぶ分かりづらい。

ここで復習。
1群のt検定*1でのt値は次の通り。
$t=\frac{\bar{x}-\mu_{0}}{s/\sqrt{n}}$
この式を読むと、次の性質が分かる。

t値が大きい場合、分子が大きい。つまり、平均の差 $\bar{x}-\mu_{0}$ が大きい。

t値が大きい場合、分母が小さい。つまり、標準偏差とサンプルサイズの平方根の比 $s/\sqrt{n}$ が小さい。

標準偏差 $s$ が小さい（もしくは、分散が小さい）。

サンプルサイズ $n$ が大きい。

t値が大きい場合、分散が小さいというのは、データの平均からのバラツキが小さいので平均をグループの代表値として採用しても、まぁまぁ問題ないだろうということ。また、サンプルサイズが大きいというのも平均や期待値を信頼できるだろうということ。

ところで、p値(p-value)とは「帰無仮説の下で実際にデータから計算された統計量よりも極端な統計量が観測される確率」である(by wikipedia)この定義から、p値が大きいということは、極端な統計量が観測される確率が高いということに等しい。
それでは、「極端な統計量」とは何をもって「極端」と見なすのか。これは「平均からのずれが大きいこと」と理解できるのではないか。つまり、分散が大きいということで、これはt値が小さいと理解できる。まとめると次のようになろう。

t値が大きい→分散が~~小さい~~大きい→p値が小さい
t値が小さい→分散が小さい→p値が大きい

※）t値は分散だけに依存する値ではないけれど、直感的な理解としてはこの程度で良いのではないかと考えている。

（追記　検定の手順）

１．「帰無仮説」を立てる。
２．「帰無仮説」が「真」であるという仮定のもとに「検定統計量」を決める。ただし、「検定統計量」の確率分布はわかっているとする。
３．試行や標本（サンプル）の抽出により「検定統計量」を計算する。
４．「検定統計量」の実現値（計算値）が、どの程度の確率で起こりうるかを確認する。
５．「検定統計量」の実現値（計算値）が、十分に低い確率（有意水準以下）でしか起き得ない時、「帰無仮説」を棄却する。
※）「こんなにも珍しいことが起こった」と考えるのではなく、「そんな珍しいことは通常起こらない」と考えて、帰無仮説を棄却する。

*1:母集団の平均値μが特定の値である μ0と等しいかどうかの帰無仮説を検定する。wikipediaによる。