Lecture Note · Statistics 101

統計学の基礎
— 記述統計から推測・回帰・ベイズまで、不確実性の数学を1講で

「このデータ、何を意味しているんだろう？」と思ったことはありませんか。統計学は「不確実なデータから何がわかるか」を数学で扱う道具箱です。この講義では、データを整理する記述統計から始め、確率分布、母集団の推測（信頼区間と仮説検定）、変数間の関係を測る回帰分析、そして新データで信念を更新するベイズ統計まで、一緒に地図を描いていきます。

学部1〜2年

対象

全5講

講義回数

高校数学・基礎的な微分積分

前提知識

約75分

所要時間

Syllabus

講義の流れ

01記述統計 — データを要約する
02確率と確率分布
03推測統計 — 信頼区間と仮説検定
04回帰分析 — 関係を測る
05ベイズ統計 — 信念を更新する

第1講

記述統計 — データを要約する

ねらい — 手元のデータを「一言で要約」するための道具を覚えよう。平均・分散・グラフが統計の第一歩です。

記述統計（きじゅつとうけい）は「手元にあるデータそのものを要約する」技法です。代表的な要約方法として、平均（mean）・中央値（median）・最頻値（mode）があります。例えば年収のデータを考えると、一部の億万長者が平均を大きく引き上げてしまいます。そのため「典型的な年収」を表すには、ちょうど真ん中の人の値「中央値」の方が適切です。分布が歪んでいるほど、平均と中央値は離れていきます。

データの「ばらつき」を測るのが分散（ぶんさん）と標準偏差（ひょうじゅんへんさ）です。分散は各データ点と平均の差の二乗の平均 (xᵢ−x̄)² で、標準偏差はその平方根です。例えばテストの点数の標準偏差が10点なら「平均から大体10点の範囲に多くの人がいる」とイメージできます。異なる単位のデータを比べたいときは、平均0・標準偏差1に変換する「標準化（z スコア）」が便利です。

数字だけ見ていると形を誤解することがあります。例えば「平均・分散がまったく同じ」4種類のデータセット（Anscombe の四重奏）でも、グラフに描くと形が全然違います。だからまずデータをグラフにして目で確かめることが大切です。ヒストグラム（棒グラフで分布を表す）・箱ひげ図（中央値と広がりを示す）・散布図（2変数の関係を点で示す）が基本の三点セットです。

Key Terms

平均と中央値: — どちらも「代表値」だが、収入のように歪んだデータでは中央値の方が「典型」を表しやすい。一部の極端な値に引きずられないのが中央値の強み。
分散・標準偏差: — データのばらつきの大きさを表す指標。標準偏差はデータと同じ単位で読めるため、「平均±1標準偏差の範囲」などと直感的に使える。
標準化（z スコア）: — 値から平均を引いて標準偏差で割る (x−μ)/σ。英語のテストと数学のテストのように単位が違う指標を比較できるようにする変換。

統計は「数字を出す技術」ではなく「数字をどう読むか」の技術——まずグラフを描く癖をつけよう。

第2講

確率と確率分布

ねらい — 「ランダムな結果」を数式で扱う言葉を身につけよう。確率変数・期待値・正規分布が推測統計の土台になります。

確率（かくりつ）とは「起こりやすさ」を 0 から 1 の数で表したものです。0 は「絶対に起きない」、1 は「必ず起きる」です。起こりうる結果を並べた標本空間 Ω のある事象 A に対し P(A) が定まります。「AまたはB」の確率を求める加法定理 P(A∪B)=P(A)+P(B)−P(A∩B) と、「BのときにAも起きる」確率を意味する条件付き確率 P(A|B) が基本の道具です。

確率変数（かくりつへんすう）とは「実験の結果に数値を割り当てる関数」のことです。例えばサイコロの目がそのまま確率変数です。値が飛び飛びの分布（離散分布）の代表が二項分布・ポアソン分布、値が連続している分布（連続分布）の代表が正規分布・指数分布です。分布の「中心」を表すのが期待値 E[X]、「広がり」を表すのが分散 V[X] です。

中心極限定理（ちゅうしんきょくげんていり）は統計学で最も重要な定理の一つです。「独立に同じ分布に従う確率変数をたくさん足し合わせると、元の分布の形に関わらず、和は正規分布（釣り鐘型）に近づく」という定理です。例えばサイコロを何百回も振って合計を記録すると、どんな形にも関わらず正規分布に近づきます。これが「現実のデータが正規分布に従いやすい」理由であり、後の推測統計の屋台骨になります。

Key Terms

条件付き確率: — 「B が起きたとわかったとき、A が起きる確率」。P(A|B)=P(A∩B)/P(B) と計算する。例：「雨の日に傘を持っている確率」。
正規分布: — 平均 μ を中心とした左右対称の釣り鐘型の分布。N(μ, σ²) と表す。自然界の多くの現象（身長・気温など）がこの形をとる。
中心極限定理: — 独立なランダム変数を多数足すと、元の分布の形に関わらず正規分布に近づく定理。推測統計の理論的根拠。

第3講

推測統計 — 信頼区間と仮説検定

ねらい — 「1000人にアンケートを取って、全国民の傾向を推測する」——これが推測統計の仕事です。正確に、でも過信せずに結論を出す方法を学びましょう。

推測統計（すいそくとうけい）の目標は「少数の標本（サンプル）から、母集団全体（例えば国民全員）の真の値を推測すること」です。点推定では標本平均 x̄ を使って母平均 μ を1つの数値として推定します。区間推定では「95% の信頼区間」のように「真の値がおそらく含まれる範囲」を提示します。「95% 信頼区間」は「このデータの取り方を100回繰り返したら、95回はこの区間に真の値が入る」という意味です。

仮説検定（かせつけんてい）は「偶然じゃないか、本当に差があるのか」を判定する仕組みです。例えば「新薬は効果がない（帰無仮説 H₀）」と仮定した上で、実験結果を数値化した「検定統計量」を計算します。それがどれだけ「偶然起きにくいか」を表す数値が p 値です。p 値があらかじめ決めた有意水準（よく 0.05 = 5%）より小さければ「偶然とは考えにくい＝H₀ を棄却する」と判断します。

ここで大事な注意があります。p 値は「仮説が正しい確率」ではありません。「H₀ が正しいときに、今回のような結果が偶然出る確率」です。この混同が広まった結果、アメリカ統計学会は2016年に p 値の使いすぎへの警告を発しました。p 値だけに頼らず、効果の大きさ（効果量）・信頼区間・実験の事前登録を合わせて示すことが現代の標準的なやり方です。

Key Terms

信頼区間: — 「真の値がこの範囲に入りそう」という推定の区間。95% 信頼区間なら、同じ方法で100回実験したとき95回はこの区間に真の値が入る。
p 値: — 帰無仮説が正しいとき、今回の実験と同じかそれ以上に極端な結果が偶然起きる確率。「仮説が正しい確率」ではないことに注意。
第1種・第2種の過誤: — 本当は差がないのに「差あり」と判断してしまう誤り（第1種）と、本当は差があるのに「差なし」と判断してしまう誤り（第2種）。

p<0.05 は「真実」ではなく「棄却の合図」にすぎない。効果量と信頼区間を必ず一緒に確認しよう。

第4講

回帰分析 — 関係を測る

ねらい — 「勉強時間が増えると点数は上がるか？」——変数間の関係を数式で表して予測に使う方法が回帰分析です。

単回帰モデル（たんかいきもでる）は y=α+βx+ε という式で、説明変数 x（例：勉強時間）が目的変数 y（例：テストの点数）にどう影響するかを直線で表します。最小二乗法（さいしょうにじょうほう）は「データ点と直線の誤差の二乗の合計が最も小さくなる直線を引く」方法で、αとβを解析的に求められます。回帰係数 β は「x が1単位増えると y が平均的にどれだけ変わるか」を表します。

複数の説明変数を同時に扱うのが重回帰（じゅうかいき）です。決定係数 R²（アールじじょう）は「モデルが y のばらつきの何 % を説明できているか」を 0〜1 で表します。ただし変数を増やすほど R² は自動的に上がってしまうので、変数の数を考慮した「自由度調整済 R²」や過学習（かがくしゅう）を防ぐ情報量基準（AIC・BIC）も合わせて確認することが大切です。

回帰分析で最も注意すべきなのは「相関は因果ではない」という原則です。例えば「アイスが売れると溺死事故が増える」という相関がデータに出ても、アイスが溺死の原因ではありません（気温という第三の変数が両方に影響しています）。回帰係数が有意でも、それは「条件付きの関係」にすぎません。本当の因果関係を調べるには、ランダム化比較試験（RCT）や操作変数法など、別の設計が必要です。

Key Terms

最小二乗法: — データ点と回帰直線の「ずれ（誤差）の二乗の合計」を最小にする直線を引く方法。回帰分析の基本的な計算手法。
決定係数 R²: — 「目的変数のばらつきのうち、モデルが何 % 説明できているか」を 0〜1 で表す指標。1に近いほどモデルの当てはまりが良い。
交絡因子: — 説明変数 x と目的変数 y の両方に影響する、隠れた第三の変数。これを見落とすと見かけだけの相関が生まれる。

第5講

ベイズ統計 — 信念を更新する

ねらい — 「最初は50:50と思っていたけど、新しい情報が入ったら考えを変える」——この「情報による更新」を数式にしたのがベイズ統計です。

ベイズの定理は P(H|D)=P(D|H)P(H)/P(D) と書きます。「仮説 H に対する最初の信頼度（事前確率 P(H)）」を、「データ D を観測した後の信頼度（事後確率 P(H|D)）」に更新する枠組みです。頻度主義が「確率とは長期的な繰り返しの相対的な頻度」と捉えるのに対し、ベイズ統計は「確率とは信念の強さ」と捉えます。例えば「明日雨が降る確率 70%」は、過去データから推定した信念の強さです。

ベイズ統計の強みは3つあります。①少ないデータでも事前知識を活かして妥当な推論ができる、②「どの仮説が最もあり得るか」を確率分布として返せる、③事前情報を明示的に組み込める透明性がある。スパムフィルタ（迷惑メール判定）・医療診断・A/B テスト・自動運転など、日常の至る所でベイズ統計が使われています。

かつては「積分が難しすぎて複雑なモデルに使えない」のがベイズ統計の弱点でした。しかし近年のコンピューターの性能向上により、MCMC（マルコフ連鎖モンテカルロ法）や変分推論（へんぶんすいろん）という計算技術で複雑なモデルでも事後分布を求められるようになりました。Stan・PyMC・NumPyro などのライブラリが広く使われています。

Key Terms

事前分布・事後分布: — データを観る「前」の信念を表す分布が事前分布、データを観た「後」の更新された信念が事後分布。ベイズ統計の中心概念。
尤度: — 「あるパラメータが正しいとしたら、このデータが得られる確率はどのくらいか」を表す量。P(D|H) と書く。
MCMC: — マルコフ連鎖モンテカルロ法の略。事後分布から直接サンプルを取り出す数値計算技術で、複雑なベイズモデルの実装に使われる。

Recap

この講義の要点

・統計学は「データを整理する記述統計」「不確実性を数式で扱う確率論」「サンプルから母集団を推測する推測統計」の三層で成り立っています。回帰分析は変数間の関係を数値化し、ベイズ統計は新しいデータで信念を更新する枠組みを提供します。
・p 値や R² は「道具」であり「結論」ではありません。効果量・信頼区間・因果設計まで踏み込んで初めて、統計はデータから確かな知識を引き出す技術になります。