「このデータ、何を意味しているんだろう?」と思ったことはありませんか。統計学は「不確実なデータから何がわかるか」を数学で扱う道具箱です。この講義では、データを整理する記述統計から始め、確率分布、母集団の推測(信頼区間と仮説検定)、変数間の関係を測る回帰分析、そして新データで信念を更新するベイズ統計まで、一緒に地図を描いていきます。
ねらい — 手元のデータを「一言で要約」するための道具を覚えよう。平均・分散・グラフが統計の第一歩です。
記述統計(きじゅつとうけい)は「手元にあるデータそのものを要約する」技法です。代表的な要約方法として、平均(mean)・中央値(median)・最頻値(mode)があります。例えば年収のデータを考えると、一部の億万長者が平均を大きく引き上げてしまいます。そのため「典型的な年収」を表すには、ちょうど真ん中の人の値「中央値」の方が適切です。分布が歪んでいるほど、平均と中央値は離れていきます。
データの「ばらつき」を測るのが分散(ぶんさん)と標準偏差(ひょうじゅんへんさ)です。分散は各データ点と平均の差の二乗の平均 (xᵢ−x̄)² で、標準偏差はその平方根です。例えばテストの点数の標準偏差が10点なら「平均から大体10点の範囲に多くの人がいる」とイメージできます。異なる単位のデータを比べたいときは、平均0・標準偏差1に変換する「標準化(z スコア)」が便利です。
数字だけ見ていると形を誤解することがあります。例えば「平均・分散がまったく同じ」4種類のデータセット(Anscombe の四重奏)でも、グラフに描くと形が全然違います。だからまずデータをグラフにして目で確かめることが大切です。ヒストグラム(棒グラフで分布を表す)・箱ひげ図(中央値と広がりを示す)・散布図(2変数の関係を点で示す)が基本の三点セットです。
統計は「数字を出す技術」ではなく「数字をどう読むか」の技術——まずグラフを描く癖をつけよう。
ねらい — 「ランダムな結果」を数式で扱う言葉を身につけよう。確率変数・期待値・正規分布が推測統計の土台になります。
確率(かくりつ)とは「起こりやすさ」を 0 から 1 の数で表したものです。0 は「絶対に起きない」、1 は「必ず起きる」です。起こりうる結果を並べた標本空間 Ω のある事象 A に対し P(A) が定まります。「AまたはB」の確率を求める加法定理 P(A∪B)=P(A)+P(B)−P(A∩B) と、「BのときにAも起きる」確率を意味する条件付き確率 P(A|B) が基本の道具です。
確率変数(かくりつへんすう)とは「実験の結果に数値を割り当てる関数」のことです。例えばサイコロの目がそのまま確率変数です。値が飛び飛びの分布(離散分布)の代表が二項分布・ポアソン分布、値が連続している分布(連続分布)の代表が正規分布・指数分布です。分布の「中心」を表すのが期待値 E[X]、「広がり」を表すのが分散 V[X] です。
中心極限定理(ちゅうしんきょくげんていり)は統計学で最も重要な定理の一つです。「独立に同じ分布に従う確率変数をたくさん足し合わせると、元の分布の形に関わらず、和は正規分布(釣り鐘型)に近づく」という定理です。例えばサイコロを何百回も振って合計を記録すると、どんな形にも関わらず正規分布に近づきます。これが「現実のデータが正規分布に従いやすい」理由であり、後の推測統計の屋台骨になります。
ねらい — 「1000人にアンケートを取って、全国民の傾向を推測する」——これが推測統計の仕事です。正確に、でも過信せずに結論を出す方法を学びましょう。
推測統計(すいそくとうけい)の目標は「少数の標本(サンプル)から、母集団全体(例えば国民全員)の真の値を推測すること」です。点推定では標本平均 x̄ を使って母平均 μ を1つの数値として推定します。区間推定では「95% の信頼区間」のように「真の値がおそらく含まれる範囲」を提示します。「95% 信頼区間」は「このデータの取り方を100回繰り返したら、95回はこの区間に真の値が入る」という意味です。
仮説検定(かせつけんてい)は「偶然じゃないか、本当に差があるのか」を判定する仕組みです。例えば「新薬は効果がない(帰無仮説 H₀)」と仮定した上で、実験結果を数値化した「検定統計量」を計算します。それがどれだけ「偶然起きにくいか」を表す数値が p 値です。p 値があらかじめ決めた有意水準(よく 0.05 = 5%)より小さければ「偶然とは考えにくい=H₀ を棄却する」と判断します。
ここで大事な注意があります。p 値は「仮説が正しい確率」ではありません。「H₀ が正しいときに、今回のような結果が偶然出る確率」です。この混同が広まった結果、アメリカ統計学会は2016年に p 値の使いすぎへの警告を発しました。p 値だけに頼らず、効果の大きさ(効果量)・信頼区間・実験の事前登録を合わせて示すことが現代の標準的なやり方です。
p<0.05 は「真実」ではなく「棄却の合図」にすぎない。効果量と信頼区間を必ず一緒に確認しよう。
ねらい — 「勉強時間が増えると点数は上がるか?」——変数間の関係を数式で表して予測に使う方法が回帰分析です。
単回帰モデル(たんかいきもでる)は y=α+βx+ε という式で、説明変数 x(例:勉強時間)が目的変数 y(例:テストの点数)にどう影響するかを直線で表します。最小二乗法(さいしょうにじょうほう)は「データ点と直線の誤差の二乗の合計が最も小さくなる直線を引く」方法で、αとβを解析的に求められます。回帰係数 β は「x が1単位増えると y が平均的にどれだけ変わるか」を表します。
複数の説明変数を同時に扱うのが重回帰(じゅうかいき)です。決定係数 R²(アールじじょう)は「モデルが y のばらつきの何 % を説明できているか」を 0〜1 で表します。ただし変数を増やすほど R² は自動的に上がってしまうので、変数の数を考慮した「自由度調整済 R²」や過学習(かがくしゅう)を防ぐ情報量基準(AIC・BIC)も合わせて確認することが大切です。
回帰分析で最も注意すべきなのは「相関は因果ではない」という原則です。例えば「アイスが売れると溺死事故が増える」という相関がデータに出ても、アイスが溺死の原因ではありません(気温という第三の変数が両方に影響しています)。回帰係数が有意でも、それは「条件付きの関係」にすぎません。本当の因果関係を調べるには、ランダム化比較試験(RCT)や操作変数法など、別の設計が必要です。
ねらい — 「最初は50:50と思っていたけど、新しい情報が入ったら考えを変える」——この「情報による更新」を数式にしたのがベイズ統計です。
ベイズの定理は P(H|D)=P(D|H)P(H)/P(D) と書きます。「仮説 H に対する最初の信頼度(事前確率 P(H))」を、「データ D を観測した後の信頼度(事後確率 P(H|D))」に更新する枠組みです。頻度主義が「確率とは長期的な繰り返しの相対的な頻度」と捉えるのに対し、ベイズ統計は「確率とは信念の強さ」と捉えます。例えば「明日雨が降る確率 70%」は、過去データから推定した信念の強さです。
ベイズ統計の強みは3つあります。①少ないデータでも事前知識を活かして妥当な推論ができる、②「どの仮説が最もあり得るか」を確率分布として返せる、③事前情報を明示的に組み込める透明性がある。スパムフィルタ(迷惑メール判定)・医療診断・A/B テスト・自動運転など、日常の至る所でベイズ統計が使われています。
かつては「積分が難しすぎて複雑なモデルに使えない」のがベイズ統計の弱点でした。しかし近年のコンピューターの性能向上により、MCMC(マルコフ連鎖モンテカルロ法)や変分推論(へんぶんすいろん)という計算技術で複雑なモデルでも事後分布を求められるようになりました。Stan・PyMC・NumPyro などのライブラリが広く使われています。