統計入門

統計の基本的な考えについて説明します.

統計はデータを用いて現象を分析するものですが、その統計にはざっくり言うと二つの方向性があります.

  • 統計的検定
  • 統計的推定

これらの違いはざっと言うと,統計的検定は仮説が正しいかをデータを用いて判断することであり、統計的推定はその結果をもとに将来(未知な部分について)を予測する方法です.

統計的検定

統計なので絶対はいえないですが、おそらく正しい、おそらく間違っているというのはあると思います。 そのために、統計的検定では以下のプロセスを行います.

  1. 仮説を作成する
  2. その仮説が正しいかどうかを判定する基準を設定
  3. 実際に現象に基づきその確率(=p値)を計算
  4. 2.の基準を超えているかどうかで仮説が否定されるかを判断する

典型的には5%を仮説が否定する基準になることが多いようです. 最近問題にもなっていますが p値 は仮説のただしさを保証する絶対的な基準ではないです.

例題1

コインを10回投げて表が2回出たという状況をかんがえましょう.

この時、先ほどの説明に基づき以下を設定します

項目
仮説 表が出る確率が50%
有意水準 5%

実際に起きた確率を計算すると  {45 + 2^9 ≒ 0.11} となり有意水準を上回るので.仮説は否定されないことがわかります.

例題2

コインを100万回投げて表が50万回出たとします.

この時、先ほどの説明に基づき以下を設定します

項目
仮説 表が出る確率が50%
有意水準 5%

実際に起きた確率はここを参照してもらうとして

おおよそその確率は {7.0 \cdot 10^{-4}} となります. 遥に0.05より小さいですね。 なので有意水準の考え方からするとこの仮説は否定されるわけです.

ではこの結果を元に仮説を否定するのが正しいのでしょうか? そこには明らかに問題があることがわかっていただけと思います

統計的推定

統計的推定では未知のデータに対して既存のデータを元に予測することをします.今の機械学習の手法とほとんど同じですね. 例えばベイズ推定や最尤推定がこうした話の基本になります.

なので、大抵の場合はある目的関数を最小化する関数を予測すると思ってくれればよいです.

具体的な話はまた今度します.

// コードブロック