統計学をPythonでコーディングするのにおすすめの本
データ分析,統計学,プログラミング,機械学習…,最近のビジネストレンドですが,そんな中,以前から少し気になっていた『Pythonで学ぶ あたらしい統計学の教科書』という本を図書館で借りて通読してみたのでレビューしてみます.
総評
感想を一言で述べると,
統計理論を数式で学んだ人がPythonでどうやってコーディングするかはいい本だが,統計初心者が教科書として統計理論を学ぶことはおすすめできない
です.
理由をプロコンに分けて説明します.
Pros
この本のいい点は,統計理論をPythonで実行するためのコーディングが豊富だという点です.
SciPy (サイパイ)を使って色々な統計量を計算したり,推定や仮説検定を行うためのコーディングが豊富に載っているので,統計理論を数式からしっかり学んだ人で,これまではExcelで実装していたけどPythonでコーディングしたいと言う人には参考になると思います.
Cons
次にこの本の気をつける点についてですが,理論を飛ばしすぎ,これに尽きます.
例えば,統計理論を数式レベルから理解している人は標本分散を n-1 で割るべき理由も分かりますが,この本は標本分散を n-1 で割る理由を「nで割ると分散を過小に見積もるというバイアスがあるから」の一言で説明しています.
んー…,たしかに間違ってはいないのですが,やはり私は n-1 で割ることで不偏分散を求められること,つまりE(s²) = σ² だから,というのを数式を展開して理解すべきだと思います.
因みに,不偏分散の証明は下の記事で数式を使って解説していますので,興味のある方は読んでみてください.
https://econ-blog.com/how-to-study-statistics/
また,統計学では馴染み深い標準化という作業についても,「標準化するには全てのデータから一律に平均を引き,標準偏差で割ればよい」の一言で片付けていますが,これも E(Z) = 0, V(Z) = 1 を数式展開して納得しないと気が済まないのは私だけでしょうか.
この本の記述レベルで統計の事実だけを知りPythonや他の統計ソフトを使うことは統計学がブラックボックス化するので,初心者がこの本を教科書にして統計学を学ぶのはおすすめできません.
あと,細かい点ですが,コードに使われているサンプルデータのダウンロードのURLも書いていないのもマイナスでした.
本のタイトルで検索すればいいのは想像できますが,やはり不親切だと思います.
おすすめの統計学の教科書は?
じゃあ,おすすめの統計学の教科書は?と聞かれたら私のおすすめは東京大学出版会の『統計学入門』で,統計学を勉強したことのある人なら知らない人はいないくらい有名な本 ¹ で,ジュンク堂や紀伊國屋などの大きな本屋の統計学コーナーなら置いているはずです.
私はこの本を大学の統計学の授業のテキストとして買い,すでに10年以上経っていますが,いまだに辞書的にパラパラめくって使っています.
1 カバーが赤いので通称「赤本」と呼ばれています.因みに,同じシリーズの『自然科学の統計学』は「青本」と呼ばれています.
統計学の理論を理解するには数学はどうしても必要で,この本もたくさんの数式が出てきます.
レベル的には高校数学はmust, 大学初等の線形代数と微積の知識がwant です.
なので数学がそのレベルに達していない場合は,まず高校数学,特に数列,場合の数,確率,微積,行列 ² を勉強して,その後線形と微積をやってからこの本に入るといいと思います.
2 私が高校生の時は数III・Cで行列やりましたが,今は高校では行列はやらないみたいですね.高校で行列やると大学で線形を勉強する時のいい橋渡しになると思うんですが.
高校数学から勉強してたらいつまで経っても統計の勉強が始められない!と思うかもしれませんが,断言しますが,高校数学ができてないと統計学はブラックボックス化します.
どんなものでも,基礎が大事,遠回りに見えても,これが一番近道だと信じています.
ディスカッション
コメント一覧
まだ、コメントがありません