標本分散の証明から統計学の勉強の仕方を考えた
最近あまり投資をしてなくて,投資について書くことがないので,ここ数年熱い視線が注がれている統計学について書いてみます.
数年前から「これからはデータの時代」,「データアナリストは食いっぱぐれない」というメッセージを目にするようになり,データ分析と言うと出てくるのが統計学で,統計学はこれからの読み書きそろばんだ,ということをよく聞きます.
個人的には,統計学は「このデータから何が言えるのか」に答えを出すものではなく,「このデータからこういうことが言えそうだけど,どうかな」という仮説を検証するためのツールだと思っています.
なので,まずは仮説構築力が大事だと思うのですが,統計学を勉強することはとても意味があることです.
今回,統計学の中でつまずきやすいポイントの標本分散について備忘も兼ねて解説し,最後に統計学の勉強の仕方について書いてみます.
標本とは
例えば,日本の労働者の年収がどんな分布になっているか調べたい,と思ったとします.
この時,日本の労働者全員からデータを集めることができれば理想ですが,やるとなれば膨大な手間とコストがかかりますし,全員からデータを得ることは実際は不可能です.
そこで,日本の全労働者である母集団から何人かをランダムにピックアップしてその分布を調べますが,このランダムにピックアップされたものを標本といい,\(X_{1}\), \(X_{2}\), \(\dots\) \(X_{n}\)と表します.
そして,標本から計算された平均を標本平均といい,標本平均\(\bar X\)は
\(\bar X = \frac{X_{1} + \dots + X_{n}}{n}\)
で定義されます.
母集団の真の姿を掴むこと不可能なので,標本から母集団を推測しようというのが統計学のアプローチです.
これを聞くと「標本を調べても母集団の真の姿がわからないなら意味がない」と思うかもしれませんが,標本平均の期待値は,母集団の平均(母平均)を\(\mu\)(ギリシャ文字で,ミューと読みます)で表すと,
\(E(\bar X) = E(\frac{X_{1} + \dots + X_{n}}{n})=\frac{n\mu}{n}=\mu\)
となって\(\mu\)に一致します.
また,標本平均の分散については,母分散を\(\sigma^2\)(これもギリシャ文字で,シグマと読みます)で表すと
\(V(\bar X) = V(\frac{X_{1} + \dots + X_{n}}{n})=\frac{1}{n^2}V{(X_{1} + \dots + X_{n})}=\frac{n\sigma^2}{n^2}=\frac{\sigma^2}{n}\)
となって,nが大きいほど,つまり標本が多くなるほど分散は0に収束していきます.
このことから,標本から母集団を推計することは合理的で意味のあることだと分かります.
標本分散に挑む
標本分散の定義
最初に標本分散\(s^2\)の定義式を書くと,
\(s^2=\frac{1}{n-1}({(X_{1}-\bar X)}+{(X_{2}-\bar X)}+ \dots +{(X_{n}-\bar X)})\)
となります.
まず,標本分散を上に書いた\(V(\bar X)\)と区別することが大事で,\(V(\bar X)\)は標本平均の分散であり,標本分散とは別物です.
もうひとつ注意すべきは,分散の計算といえば標本の数がnの時はnで割るが,標本分散はnではなくn-1で割るという点です.
この理由は,標本分散のn-1で割ることで,
\(E(s^2)=\sigma^2\)
と標本分散の期待値が母分散\(\sigma^2\)に一致して,母分散を過大にも過小にも推定しないためです.
過大にも過小にも偏りなく推定することを統計学では不偏といい,その点から標本分散は母分散の不偏推定量とか不偏分散ともいいます.
じゃあ,n-1でなくnで割った標本分散\(S^2\)はどうなるかというと,
\(S^2=\frac{1}{n}({(X_{1}-\bar X)}+{(X_{2}-\bar X)}+ \dots +{(X_{n}-\bar X)})\)
これは標本から計算された分散なので「標本分散」と言えますが,不偏でない標本分散であまり望ましくないです.
実際に\(S^2\)を\(\sigma^2\)で表すと
\(E(S^2)=\frac{n-1}{n}\sigma^2\)
となり,例えば標本数が10くらいだと10%くらい母分散を過小評価してしまいます.
今はデータ分析ソフトが充実しているので,ここらへんのロジックがブラックボックス化していても,割り切って「標本分散はn-1で割る」と覚えてソフトが使えればOKと考える人もいるかもしれませんが,私は証明をたどって理解しないとどうしても気持ち悪くてたまりません.
ということで,\(E(s^2)=\sigma^2\)を示したいと思います.
標本分散の不偏性を証明する
\({Y_{i}}={X_{i}} – \mu\) とおくと,\(E({Y_{i}})=E({\bar Y})=0\)
\({\bar Y} = \frac{\displaystyle \sum_{k=1}^{n}({X_{i}}-\mu)}{n}=\bar X – \mu \) だから
\({\displaystyle \sum_{k=1}^{n}({X_{i}}-\bar X)^2}={\displaystyle \sum_{k=1}^{n}({Y_{i}}+\mu-(\bar Y + \mu))^2}\)
\(={\displaystyle \sum_{k=1}^{n}({Y_{i}}-\bar Y)^2}={\displaystyle \sum_{k=1}^{n}({Y_{i}}^2-2\bar Y{Y_{i}}+\bar Y^2)}\)
\(={\displaystyle \sum_{k=1}^{n}{Y_{i}}^2}-2\bar Y{\displaystyle \sum_{k=1}^{n}{Y_{i}}+n\bar Y^2}\)
\(={\displaystyle \sum_{k=1}^{n}{Y_{i}}^2}-n\bar Y^2\)
ここで,\(E({Y_{i}}^2)=V({Y_{i}})+E({Y_{i}})^2=V({X_{i}})=\sigma^2\)
∴ \(E({\displaystyle \sum_{k=1}^{n}{Y_{i}}^2})=n\sigma^2\)
\(E({\bar Y}^2)=V({\bar Y})+E({\bar Y})^2=\frac{1}{n^2}n\sigma^2=\frac{\sigma^2}{n}\)
∴ \(E(s^2)=\frac{E({\displaystyle \sum_{k=1}^{n}{Y_{i}}^2)}-nE({\bar Y}^2)}{n-1}\)
\(=\frac{n\sigma^2-\sigma^2}{n-1}=\frac{\sigma^2(n-1)}{n-1}=\sigma^2\) (証明終了)
となります.
最後に 統計学の勉強ステップ
お疲れ様でした.
数式が多くて大変だったと思いますが,こうして自分で証明することで理解は一段と深まります.
締めくくりに,私が考える統計学の勉強の仕方について書いてみます.
統計学に興味を持つ人が増え,関連本が増えてきています.
多くの人が読めるように,数式を使わずにグラフや図だけで説明したり,実際のケースを紹介するだけの本もありますが,統計学の論理を理解するには数式はどうしても必要です.
レベル的には高校数学は必須,大学初等の線形代数と微積の知識があれば望ましく,決して簡単ではないですが,数式を追い,ロジックを理解したら問題を解いて演習する,結局これが統計学をツールとして使えるようになるための最短ルートだと思っています.
余裕があれば演習の時にPythonなどを使って解けばPythonの勉強もできて一石二鳥ですね.
なので,順番としては
- 高校数学(特に数列,場合の数,確率,微積,行列)
- 線形代数,微積
- 統計学
となります.
数学の基礎を終え,いよいよ統計学を勉強するという時におすすめする本は東京大学出版会の『統計学入門』,通称「赤本」です.
入門とありますが,数学の知識なくこの本を読むと間違いなく挫折しますが,数学の知識があればこの本は統計学のトピックを幅広く網羅していて,間違いなくおすすめの一冊ですし,この本が理解できれば,より専門的な統計学の本に切り込んでいくこともできます.
腰を据えて統計学を学んびたいという人はぜひ.
ディスカッション
コメント一覧
まだ、コメントがありません