データサイエンスは「大量のデータから役立つ知識を取り出し、意思決定に活かす」学問です。スポーツの選手評価からSNSのおすすめ機能、医療診断まで、データサイエンスは現代社会のあらゆる場面に浸透しています。統計・計算・倫理の4つの柱をこの講義で一気につかみましょう。
ねらい — 「統計もできてプログラミングもできてビジネスもわかる」——それがデータサイエンティストに求められるスキルセットです。
データサイエンスは統計学・コンピュータ科学・そして対象分野の専門知識(医療・金融・製造など)の3つが重なるところに位置します。たとえばスポーツのデータ分析なら「統計の知識」「プログラミング」「野球やサッカーの知識」がすべて必要です。どれかひとつでは足りません。
CRISP-DMは「ビジネス理解→データ理解→データ準備→モデル作成→評価→現場展開」という6ステップのプロセス設計図です。実際のデータ分析プロジェクトはこの流れを何度も行き来しながら進みます。
「ゴミを入れればゴミが出る(ガベージイン・ガベージアウト)」という格言が示すように、どんなに高度な機械学習モデルを使っても、元のデータが汚れていたり偏っていたりすれば結果は使い物になりません。データの品質管理と前処理がプロジェクトの成否を左右します。
ねらい — 「100人に調査したデータ」から「1億人の傾向」を推測するのが統計的推論の力です。
統計には2種類あります。「今手元にある1000人分のデータを平均・分散・相関でまとめる」のが記述統計。「1000人のデータから日本人全体の傾向を推測する」のが推測統計です。この2つの区別を意識するだけで、ニュースの調査報道の読み方が変わります。
「信頼区間(推測値にどれくらい幅があるか)」と「仮説検定(この差は偶然ではないといえるか)」は統計的推論の核心ツールです。新薬の効果を確かめたり、広告のA/Bテストの勝者を決めたりするときに使われます。
統計学には「頻度主義(データを繰り返し集めれば真実に近づく)」と「ベイズ主義(事前知識と新データを組み合わせて更新する)」の2つの流派があります。近年はコンピュータの性能向上により、事前知識を活かしやすいベイズ統計が多くの分野で使われるようになっています。
ねらい — 機械学習とは「データからルールを自動的に学ぶ」技術です。
機械学習の主なタスクは3種類です。「回帰(数値を予測する:明日の気温は?)」「分類(どのグループに属するか:このメールはスパムか?)」「クラスタリング(似たものをグループ分けする:この顧客はどんなタイプ?)」。線形回帰・決定木・ランダムフォレスト・ニューラルネットなどのアルゴリズムがこれらに使われます。
「過学習」は機械学習でよく起こる落とし穴で、訓練データに過剰にフィットしすぎて、新しいデータには全く通用しなくなる現象です。これを防ぐために「交差検証(データを複数の塊に分けて検証する)」や「特徴量エンジニアリング(予測に役立つ変数を工夫して作る)」が重要になります。
近年は深層学習(ディープラーニング)の発展により、ChatGPTのような大規模言語モデルや画像生成AIが登場しました。これにより、以前は不可能だったテキスト・画像・音声の自動処理が一般的になり、データサイエンスの応用範囲は爆発的に広がっています。
ねらい — どんなに優れた分析でも、「伝わらない」「信頼されない」では意味がありません。
データ可視化はグラフや図を使って分析結果を誰にでもわかりやすく伝える技術です。棒グラフの基線をずらして差を大げさに見せる「チャートジャンク」のような可視化の悪用も多く、データを正しく読む力(データリテラシー)と合わせて学ぶ必要があります。
データ倫理とは、AIやデータを使うときに「プライバシーは守られているか」「アルゴリズムが特定の人種や性別を不当に差別していないか」「誰が責任を取るのか」を問う領域です。採用AIが女性を不当に低評価していた事例など、現実の問題として頻繁に起きています。
「再現可能性」とは、別の研究者が同じデータと手順を使えば同じ結果が出せることで、科学の信頼性の根本です。バージョン管理(Git)・分析ノート(Jupyter Notebook)・コンテナ(Docker)を使った再現可能なワークフローが現代のデータサイエンスでは必須スキルになっています。