[統計] 統計でおすすめの本(主に回帰)
はじめに
統計学を勉強するために読んだ本の中から、オススメの本をいくつか紹介しつつまとめてみる。
統計学と一口に言っても、トピックは多岐にわたるので、この記事では回帰に関する記述が豊富な書籍に絞った。
諸注意
- 本稿の筆者は統計学の専門家ではありません。
- 基本的には独立なデータに対する回帰の話題に絞っています。例えば時系列解析の書籍などは本稿では扱っていません。
対象者について
本の良し悪しは絶対的なものでなく、往々にして目的依存であると考えている。そこで、本を紹介する前に、私がどのような目的で統計学の本を読んでいるか説明しておく。
- 統計手法がどのような目的を持つか知りたい(どんなタイプのデータから何を導けるか)
- 統計手法がどのような数学的理論に基づいているのか知りたい(「このコマンドを打てばP値が出ます」では不満。とは言え、数理統計学の本を読んで定理と証明を厳密に知りたいというほどではない)
- 得られた解析結果が統計学的にどう解釈されるか知りたい(有意差がある・ない、AIC最小ってつまりどういう"意味"?)
私と似たような目的を持って統計学の本を探している人には、以下で紹介する本が役に立つかもしれない。
統計の基本~単回帰
統計学入門
オススメ度 ★★★☆☆
良いところ
- 検定や区間推定の細かいところまで詳しく書かれている。例えば、t統計量を用いた区間推定をどのように行うのか、その計算の詳細まで書かれており、付録の表を使えば手計算でも区間推定が可能なほど詳しい。
- 統計学での考え方をはっきり書いている。例えば、区間推定で得られた区間がどういう意味なのか、詳しく説明されている。
- 個人的には、第1章で紹介されている統計学の歴史がとても興味深かった。統計学が一見するとさまざまな手法の寄せ集めにも見える理由に納得がいった。
良くないところ
- 書名に「入門」とあるものの、書き方が固く読みづらい。もちろん、固い本に慣れている人ならあまり支障はないかもしれない。
- 話の行く末が見えづらい。本の前半は用語の紹介や古典的手法の説明が続くので(非常に大事なことが書かれているものの)、退屈な印象を受ける。
- 基本的かつ古典的な手法しか載っていない。最終章まで読んでも、一変数の直線回帰(単回帰)までしかできるようにならない。もちろん、新しい手法を理解するために古典的な手法を抑えておくべきではある。
総評
統計学の考え方をちゃんと学びたい人には、自信を持ってオススメできる。この本が読める人には1冊目としてオススメしたいが、固すぎて読めないという人も多いと思う。
一般化線形モデル(GLM)
一般化線形モデルは正規線形モデル(直線回帰)の拡張。正規線形モデルを勉強したいという場合でも、その拡張である一般化線形モデルを勉強しておき、正規線形モデルをその特殊な例とみなす方が、見通しが良いように感じる。また、分散分析や共分散分析は、正規線形モデルに基づく分析手法であるため、これらの手法を学ぶ場合にも一般化線形モデルに触れておいて損はないと思う。本によっては分散分析も扱っている。
データ解析のための統計モデリング入門
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者:久保 拓弥
- 発売日: 2012/05/19
- メディア: 単行本
オススメ度 ★★★★☆
統計を扱ったインターネットの記事ではよく見かける本で、緑本と呼ばれて親しまれているようだ。
良いところ
- 前半でGLMとGLMM、後半でベイズ階層モデルが扱われており、統計モデルを概観することができる。とくに前半のGLMの話は非常に分かりやすい。
- 実際に動くRのコードも載っており、自分で手を動かしながら学ぶことができる。
- AICについてのまとまった記述がある。AICについては、非専門家向けに日本語で書かれた解説は少ないように思うので、これは貴重だと思う。
良くないところ
- 数学的な話・理論的な話は省略されている。その辺りは無理にこの本で理解するよりも、他の本を読んだ方が良い。例えば下で紹介するDobson『一般化線形モデル入門』など。
- 統計モデルを使った回帰の話に特化している。例えば相関に関する話題はない。まあこの点は良くないところというわけではないが・・・
総評
とても読みやすい本なので、GLMを勉強する際の1冊目としてオススメできる。
一般化線形モデル入門
- 作者:Annette J.Dobson
- 発売日: 2008/09/08
- メディア: 単行本
オススメ度 ★★★★★
数式を使いながら一般化線形モデルを解説している本。
良いところ
- 一般化線形モデルを数式を使ってちゃんと定式化し、最尤推定なども数式で示している。式展開は丁寧で分かりやすい。本文の説明が丁寧なので、途中の式を読み飛ばしながらでも十分内容を理解できる。
- 指数型分布族、デザイン行列(計画行列)、連結関数(リンク関数)、スコア統計量、情報量といった用語は三章までで分かりやすく説明されている。
- 最終章には、相関のあるデータに対する回帰手法が紹介されている。
良くないところ
- 他の本に比べると数式が多いので(とは言え数理統計の本ほどではないが)、とっつきにくさは感じる。ただ、言葉の説明が曖昧で分かりにくいところは、数式を見に行けば厳密な意味が理解できるという利点はある。
総評
数式が多くてとっつきにくいかもしれないが、とても良い本なので是非読んで欲しい。とは言え、いきなり読むのは難しいので、RでGLMを使えるくらいにはGLMを理解してから読むことをオススメしたい。
自然科学の統計学
オススメ度 ★☆☆☆☆
上で紹介した『統計学入門』の続編。本全体としては必ずしも統計モデルに焦点を当てているわけではないが、第2章で正規線形モデル、第3章で分散分析、第4章で一般化線形モデルが扱われている。
良いところ
- 第4章ではカウントデータに直線回帰をしてはいけない理由が丁寧に説明されていたり、最尤法がなぜ良いのか(最尤推定量は推定量としてどういった点で優秀なのか)が説明されていたりと、他の本にはあまり書かれていないような細かい話まで抑えている。
良くないところ
- 前の『統計学入門』よりも数学的な話が多くなり、さらに固く読みづらい(実のところ第2章は難しくてまだ理解できてない・・・)。
総評
推定量の話などは一読の価値があると思うが、万人にオススメできる本ではないと感じる。数理統計学の話題を数理統計学の本を勉強することなしに理解したいという人には良いかもしれない。
R
プログラミングが得意な人はRをわざわざ勉強する必要はないかもしれない(ネット上にも情報は豊富にある)。しかし実際には、R特有の落とし穴や頻出バグがあるので、一度体系的に勉強してみても良いと思う。自分の場合は、「Rでの正しいコーディングルールが知りたかった(スペースの入れ方や慣習的な命名規則)」というのと「グローバル変数の慣習的な扱いが知りたかった(ネットで探すとグローバル変数だらけのコードが多くてちょっと気持ち悪かった)」というのがモチベーションとしてあった。
アート・オブ・Rプログラミング
オススメ度 ★★★☆☆
- 作者:Norman Matloff
- 発売日: 2012/09/26
- メディア: 大型本
いくつかRの本を開いてみたが、この本が一番良さそうだと感じた。信頼と実績のオライリー。
ただし、これはRの文法書であって統計の本ではないことに注意。統計処理を行うRのコード集が欲しいという人には向かない。