Lecture Note · Data Science 101

データサイエンスの基礎
— データから意思決定へ

データサイエンスは「大量のデータから役立つ知識を取り出し、意思決定に活かす」学問です。スポーツの選手評価からSNSのおすすめ機能、医療診断まで、データサイエンスは現代社会のあらゆる場面に浸透しています。統計・計算・倫理の4つの柱をこの講義で一気につかみましょう。

学部1〜2年

対象

全4講

講義回数

高校数学

前提知識

約70分

所要時間

Syllabus

講義の流れ

01データサイエンスとは何か
02統計的推論の基礎
03機械学習の実践
04可視化と倫理

第1講

データサイエンスとは何か

ねらい — 「統計もできてプログラミングもできてビジネスもわかる」——それがデータサイエンティストに求められるスキルセットです。

データサイエンスは統計学・コンピュータ科学・そして対象分野の専門知識（医療・金融・製造など）の3つが重なるところに位置します。たとえばスポーツのデータ分析なら「統計の知識」「プログラミング」「野球やサッカーの知識」がすべて必要です。どれかひとつでは足りません。

CRISP-DMは「ビジネス理解→データ理解→データ準備→モデル作成→評価→現場展開」という6ステップのプロセス設計図です。実際のデータ分析プロジェクトはこの流れを何度も行き来しながら進みます。

「ゴミを入れればゴミが出る（ガベージイン・ガベージアウト）」という格言が示すように、どんなに高度な機械学習モデルを使っても、元のデータが汚れていたり偏っていたりすれば結果は使い物になりません。データの品質管理と前処理がプロジェクトの成否を左右します。

Key Terms

CRISP-DM: — データ分析プロジェクトを「ビジネス理解→データ準備→モデル化→評価→展開」という流れで進める、業界標準のプロセスフレームワークです。
前処理: — 分析モデルに入れる前にデータを整える作業で、欠損値の補完・重複削除・形式統一などを行います。データ作業の大半を占めると言われています。
ドメイン知識: — 分析対象の分野（医療・金融・製造など）に関する専門的な知識で、「どのデータが意味を持つか」を判断するために欠かせません。

第2講

統計的推論の基礎

ねらい — 「100人に調査したデータ」から「1億人の傾向」を推測するのが統計的推論の力です。

統計には2種類あります。「今手元にある1000人分のデータを平均・分散・相関でまとめる」のが記述統計。「1000人のデータから日本人全体の傾向を推測する」のが推測統計です。この2つの区別を意識するだけで、ニュースの調査報道の読み方が変わります。

「信頼区間（推測値にどれくらい幅があるか）」と「仮説検定（この差は偶然ではないといえるか）」は統計的推論の核心ツールです。新薬の効果を確かめたり、広告のA/Bテストの勝者を決めたりするときに使われます。

統計学には「頻度主義（データを繰り返し集めれば真実に近づく）」と「ベイズ主義（事前知識と新データを組み合わせて更新する）」の2つの流派があります。近年はコンピュータの性能向上により、事前知識を活かしやすいベイズ統計が多くの分野で使われるようになっています。

Key Terms

信頼区間: — 「真の値はこの範囲の中にあるはずだ」という推定の幅を示したもので、たとえば「支持率42%±3%」のように使われます。
仮説検定: — 「この結果は偶然起きた可能性が低い」かどうかを確率的に判断する手続きで、科学論文や製品評価で広く使われます。
ベイズ統計: — 「最初の予想（事前確率）」と「新しいデータ」を組み合わせて推測を更新していく統計の考え方で、スパムメールフィルターなどに使われています。

第3講

機械学習の実践

ねらい — 機械学習とは「データからルールを自動的に学ぶ」技術です。

機械学習の主なタスクは3種類です。「回帰（数値を予測する：明日の気温は？）」「分類（どのグループに属するか：このメールはスパムか？）」「クラスタリング（似たものをグループ分けする：この顧客はどんなタイプ？）」。線形回帰・決定木・ランダムフォレスト・ニューラルネットなどのアルゴリズムがこれらに使われます。

「過学習」は機械学習でよく起こる落とし穴で、訓練データに過剰にフィットしすぎて、新しいデータには全く通用しなくなる現象です。これを防ぐために「交差検証（データを複数の塊に分けて検証する）」や「特徴量エンジニアリング（予測に役立つ変数を工夫して作る）」が重要になります。

近年は深層学習（ディープラーニング）の発展により、ChatGPTのような大規模言語モデルや画像生成AIが登場しました。これにより、以前は不可能だったテキスト・画像・音声の自動処理が一般的になり、データサイエンスの応用範囲は爆発的に広がっています。

Key Terms