LLMとは何か——大規模言語モデルの仕組みから最前線まで完全解説

What Is an LLM? — A Complete Guide to Large Language Models

「LLMは賢いから使える」——この理解は半分しか正しくない。大規模言語モデルが革命的なのは賢さではなく、人間の言語を確率分布として扱う汎用インターフェースとしての性質にある。GPT・Claude・Geminiの技術比較から、ハルシネーションの構造的原因、RAGの限界、日本企業の活用最前線まで。技術の優劣よりも「どのLLMをどの用途に当てるか」を設計できる人が、AI時代を主導する。

2026-04-0914 min

「LLMは何が革命的なのか」——定義と登場の衝撃

What Makes LLMs Revolutionary — Definition and Impact

Key Figures

大規模言語モデルを数字で理解する

1750億

GPT-3 パラメータ数

2020年、OpenAI

5日

ChatGPT 100万ユーザー

2022年11月——史上最速

27%

幻覚発生確率（研究推定）

テキストの46%に事実誤り

16社

日本国産LLM（2025年）

tsuzumi / ELYZA / PLaMo 他

出典: OpenAI, Gartner, AI Data Base, デジタル庁各種発表

2022年11月、ChatGPTは公開から5日で100万人のユーザーを獲得した。Netflixが同じ数字に達するまで3年半かかったことを考えると、この速度がいかに異常かわかる。だが「なぜ突然これほど使えるAIが登場したのか」を正確に理解している人は少ない。

LLM（Large Language Model、大規模言語モデル）の本質は、「膨大なテキストから言語の確率分布を学習したモデル」だ。単純に言えば、「次にどの単語が来るか」を予測するシステムの極限形態である。GPT-3の1750億パラメータ、GPT-4の推定1兆パラメータ超という規模は、それ自体が目的ではなく、言語のパターンを正確に捉えるための手段だ。

「LLMは"賢い"から使えるのではなく、"汎用インターフェース"として機能するから使えるのだ。」

革命の核心は汎用性にある。翻訳・要約・コード生成・質問応答——これらをすべて、同一のモデルが統一的に扱える。従来のAIは「画像認識なら画像認識専用モデル」「翻訳なら翻訳専用モデル」という縦割り構造だった。LLMはそれを一変させた。

LLMを支える技術の起点は2017年のGoogleの論文「Attention Is All You Need」だ。ここで提唱されたTransformerアーキテクチャが、現代のすべての主要LLMの基盤になっている。OpenAIのGPTシリーズ、AnthropicのClaude、GoogleのGemini——いずれもTransformerを核に持つ。

トランスフォーマーとアテンション機構——技術の核心

Transformers and Attention — The Technical Core

Architecture

Transformerの処理フロー——入力から出力まで

入力テキスト

「今日の天気は？」

→

トークン化

単語→トークン（数値）に変換

→

埋め込み表現

各トークンを多次元ベクトルへ

→

Self-Attention

単語間の関係性を全対全で計算

→

FFN層

特徴を非線形変換（×N層）

→

出力生成

次の単語の確率分布→サンプリング

Self-Attentionは文中の全単語ペアの関係をO(n²)で計算。「彼女は山田さんに本を渡した。彼女は喜んだ。」——「彼女」が誰かを理解できる理由がここにある。

Transformerが登場する前、自然言語処理の主流はRNN（再帰型ニューラルネットワーク）だった。RNNは文章を左から右へ逐次的に処理するため、長い文章で「冒頭の内容を忘れる」という致命的な問題を抱えていた。

Transformerはこの限界を「アテンション機構（Self-Attention）」で突破した。アテンションは、文中のすべての単語が互いに「どれだけ注目すべきか」を同時計算する仕組みだ。「田中さんが山田さんに本を渡した。彼女はとても喜んだ。」——「彼女」が誰を指すかを理解するには、「田中」と「山田」の両方を参照する必要がある。アテンションはこの文脈依存性を長距離でも正確に処理できる。

エンコーダーとデコーダー

Transformerは2つの部品から成る。エンコーダーは入力テキストを数値ベクトル（埋め込み表現）に変換し、デコーダーがそのベクトルをもとに出力テキストを生成する。GPTシリーズはデコーダーのみを使う「デコーダー専用モデル」であり、テキスト生成に特化している。

スケーリング則（Scaling Laws）

OpenAIが2020年に発表した研究は衝撃的だった。「モデルサイズ・データ量・計算量を一定の比率で増やすと、性能は予測可能に向上する」というスケーリング則だ。これはつまり、より大きく作るほど賢くなることが数式で保証されたことを意味する。この知見が「より大きなモデルへ」という開発競争を加速させた。

2026年現在、先進モデルはマルチヘッドアテンション（複数の視点から同時に注目）、位置エンコーディング（単語の順序情報の付与）、フィードフォワードネットワーク（特徴の非線形変換）を積み重ねた構造を持つ。GPT-4のTransformerブロック数は推定120層以上とされる。

パラメータ数の意味と誤解——「大きければ賢い」は本当か

Parameters — What the Numbers Mean and What They Don't

Model Scale

主要LLMのパラメータ規模——大きさと賢さは別物

GPT-3(2020)

175B

GPT-4 (推定)(2023)

~1T (MoE)

Gemini 1.5 Pro(2024)

~1T (MoE)

Claude 3 Opus(2024)

未公表

Llama 3.1 70B(2024)

70B

Gemma 3 27B(2025)

27B

ELYZA 70B(2025)

70B (Llama base)

PLaMo 2.0(2025)

100B+

注: GPT-4・Gemini 1.5はMoE（Mixture of Experts）アーキテクチャ。表示パラメータ数は全体規模であり、1回の推論で使う実パラメータは一部のみ。

「GPT-4は1兆パラメータ、だからGPT-3（1750億）より賢い」——この理解は正確ではない。パラメータ数はモデルの「容量」を示すが、賢さと同義ではない。

パラメータとは何か

パラメータとは、ニューラルネットワークの重み（weight）の数だ。人間の脳における神経細胞の結合強度に相当する。学習とは「正しい出力が生成されるようにこの重みを調整するプロセス」であり、1750億という数字は「1750億個の重みを持つ関数」を意味する。

「モデルのパラメータ数は"器の大きさ"であり、中に入っているものの質は学習データと手法に依存する。」

2025〜2026年のトレンドで注目すべきは小型化と効率化だ。Meta LlamaシリーズやGoogleのGemma、MistralのMixtralなど、7B〜70Bパラメータの小型モデルが驚異的な性能を発揮している。重要な技術革新が2つある。

MoE（Mixture of Experts）

GPT-4やGemini 1.5は、すべてのパラメータを常時使わず、タスクに応じて一部の「専門家モジュール」だけを活性化する。表面上のパラメータ数は大きくても、1回の推論に使う実パラメータは一部に過ぎない。これが「1兆パラメータ」の実態だ。

蒸留（Distillation）と量子化

大きなモデルの知識を小さなモデルに圧縮する「蒸留」技術により、DeepSeek R1（671B MoE）をベースにした小型モデルが、スマートフォンでも動作するレベルまで圧縮されている。量子化（重みの精度を32bit→4bitに落とす）と組み合わせることで、ローカル環境でのLLM運用が現実的になってきた。

GPT・Claude・Gemini・国産モデルを比較する

GPT vs Claude vs Gemini vs Japanese Models — Comparison

Comparison

主要LLM 用途別比較（2026年4月時点）

モデル	強み	Context	料金 (in/out)	最適用途
GPT-5系 OpenAI	UI自動化、Computer Use、エージェント	128K	~$2.50/$20	PCオペレーション自動化
Claude Opus 4.6 Anthropic	長文処理、コーディング、ビジネス文書	200K	$5/$25	法務・医療・大規模コード
Gemini 2.0 Flash Google	マルチモーダル、低コスト大量処理	1M	$0.075/$0.30	動画・画像処理、コスト最適化
Rakuten AI 3.0 楽天	日本語特化、楽天エコシステム連携	未公表	非公開	日本語ビジネス、GPT-4o超え主張
PLaMo 2.0 PFN	日本語フルスクラッチ、企業向け	未公表	要問合せ	政府・金融・製造の国内案件

料金は概算。$は1Mトークンあたり（入力/出力）。国産LLMは要問合せのものが多い。

2026年春時点で、主要LLMの「住み分け」は明確になってきた。

GPT-5シリーズ（OpenAI）はUI自動化とComputer Useが突出する。「ブラウザを操作して調べごとをする」「画面を見て操作を実行する」といったエージェント型タスクで最強クラスだ。企業向けにはAzure OpenAI経由での展開が主流で、Microsoft 365との統合が強みになる。

Claudeシリーズ（Anthropic）はビジネス文書・コーディング・長文処理で優位を持つ。200Kトークンのコンテキストウィンドウ（標準）は、財務報告書・法律文書・大規模コードベースの一括処理を可能にする。GDPval-AA（経済価値タスク評価）でGPT-5.2に対し+144 Eloの優位を示す。

Geminiシリーズ（Google）はマルチモーダル性能とコストパフォーマンスで勝る。テキスト・画像・動画・音声を統合処理できる点は他モデルを大きく上回る。Gemini 2.0 Flashは入力$0.075/1Mトークンという破格の料金で高性能を実現し、価格重視の用途に適する。

国産LLMの動向も見逃せない。デジタル庁が2025年末に「ガバメントAI」用途で選定したのは、NTTの「tsuzumi 2」、KDDI/ELYZAの「Llama-3.1-ELYZA-JP-70B」、Preferred Networksの「PLaMo 2.0 Prime」だ。楽天は2026年3月に「Rakuten AI 3.0」をリリースし、日本語ベンチマークでGPT-4oを上回ったと発表。Stockmark-2-100BはビジネスQ&Aで90%精度（GPT-4oは88%）を達成し、トヨタ・パナソニック・日清・サントリーで実採用されている。

注意すべき点は、国産LLMの多くがMetaのLlamaをベースに日本語データで追加学習した「ファインチューニング型」である点だ。独自アーキテクチャから構築した「フルスクラッチ型」はPLaMo 2.0のみに近い。

ハルシネーション——LLMが「嘘をつく」構造的理由

Hallucination — Why LLMs Fabricate Facts Structurally

Hallucination

LLMが「嘘をつく」4つの構造的原因と緩和策

確率的生成の限界

「次の単語の確率」を出力するため、事実より「それらしい文章」を優先することがある

断言調の学習データ

論文・ニュース・百科事典は断言調。LLMはその文体ごと学習し、根拠なく自信満々に答える

知識カットオフ

学習データの期限以降の情報を「知らない」のに答えてしまう

指示への過剰適合

「必ず答えよ」という指示があると、知らなくても作話して応答する

主な緩和策

RAG

外部DBから根拠を検索して渡す

Chain-of-Thought

ステップ分解で推論を透明化

自己整合性チェック

複数回生成して多数決

ファクトチェックツール

専用ツールで生成後に検証

注意: RAGも万能ではない。検索の不正確さとLLMの幻覚が複合すると、「信頼できそうな情報源があるように見せながら間違える」という最悪パターンが起きる。

LLMの最大の課題はハルシネーション（幻覚）だ。存在しない文献を引用し、計算を間違え、事実を捏造する。研究によれば、LLMは最大27%の確率で幻覚を起こし、生成テキストの46%に事実誤りが含まれると推定されている。

なぜ嘘をつくのか——その答えは「LLMが事実を検索しているのではなく、確率的に次の単語を生成しているから」だ。「東京の人口は？」という質問に対し、LLMは「東京の人口は○○万人です」という形式のテキストを学習から生成する。正確な数字を「知っている」のではなく、「そういう文脈でよく出てくる数字」を出力する。

「LLMは"知っているから答える"のではなく"答えるべき形の文章を生成する"のだ。この違いを理解することがAI活用の出発点になる。」

2025年の研究は、ハルシネーションを「バグ」ではなく「確率的言語生成の構造的帰結」として定義し直した。つまり原理的に完全に排除することはできない。

なぜ自信満々に間違えるのか

学習データには「自信満々に述べる文体」が多く含まれる。論文・ニュース・百科事典はすべて断言調だ。LLMはその文体も学習するため、根拠のない情報も断言調で出力する。不確かさを認識する能力は、それ専用の訓練をしなければ身につかない。

対策としてChain-of-Thought（段階的思考）、自己整合性チェック、RAG（検索拡張生成）が使われるが、RAGも万能ではない。検索の不正確さとLLMの幻覚が複合した場合、RAGは幻覚を「信頼できる情報源があるように見せながら間違える」という形で増幅させることがある。この点は実務でのRAG導入時に特に注意が必要だ。

RAGとファインチューニング——実用化のための2大技術

RAG and Fine-tuning — Two Pillars of LLM Deployment

RAG & Fine-tuning

LLM実用化の2大技術——RAGフローと手法比較

STEP 1

質問入力

「〇〇の規定は？」

→

STEP 2

ベクトル検索

社内DBから関連文書を取得

→

STEP 3

コンテキスト注入

文書をプロンプトに追加

→

STEP 4

LLM生成

根拠ありの回答を生成

RAG

✓ 知識更新が容易、モデル再学習不要

✗ 検索精度に依存、複合エラーリスク

ファインチューニング

✓ スタイル・深い知識の埋め込みに強い

✗ コスト高・学習データ準備が必要

LoRA (PEFT)

✓ 軽量FT——数時間・少数GPUで完了

✗ フルFTより効果は限定的

LLMをそのまま業務に使おうとすると2つの壁にぶつかる。「自社固有の情報を知らない」「古い情報しか持っていない」——これを解決する2大技術がRAGとファインチューニングだ。

RAG（Retrieval-Augmented Generation、検索拡張生成）

RAGは「答える前に関連文書を検索してから生成する」仕組みだ。社内規定・マニュアル・最新データをベクトルDBに格納し、質問が来るたびに関連文書を検索、その内容をコンテキストとしてLLMに渡して回答させる。ハルシネーションを外部知識で抑制でき、知識の更新もDBを更新するだけで済む。

2025年のMIT Technology Reviewの調査では、企業の3社中2社がRAGをすでに導入しているか導入検討中と回答した。導入コストが比較的低く、モデルの再学習が不要という点が支持される理由だ。

ファインチューニング

ベースモデルに対し、特定ドメインのデータで追加学習する手法だ。「医療文書の読解」「特定の文体での文章生成」「自社製品の詳細知識」など、RAGでは対応しにくい知識・スタイルの埋め込みに適する。コストはRAGより高いが、推論速度や一貫性が向上する。

PEFT（Parameter-Efficient Fine-Tuning）、特にLoRA（Low-Rank Adaptation）の普及により、全パラメータを更新せず一部だけを追加学習する軽量ファインチューニングが標準になった。70Bクラスのモデルでも数枚のGPUで数時間のファインチューニングが可能になっている。

両者は競合ではなく補完関係にある。「最新情報・社内固有情報→RAG」「文体・専門知識の深い埋め込み→ファインチューニング」という役割分担が、2026年の実装のベストプラクティスだ。

日本企業のLLM活用最前線

Japanese Companies at the LLM Frontier

Japanese LLMs

国産・日本語特化LLM主要モデル一覧（2026年4月）

★ デジタル庁選定モデル

tsuzumi 2★

NTTデータ

独自

政府・金融

Llama-3.1-ELYZA-JP-70B★

KDDI / ELYZA

Llamaベース

一般業務

PLaMo 2.0 Prime★

PFN

独自

企業向け

Rakuten AI 3.0

楽天

Qwenベース

楽天EC・金融

Stockmark-2-100B

Stockmark

独自

ビジネスQ&A

Llama 3.1 Swallow

東工大 / AIST

Llamaベース

研究・OSS

注: 「Llamaベース」はMetaのオープンモデルを日本語データで追加学習したモデル。「独自」はフルスクラッチまたは独自アーキテクチャ。

日本企業のLLM活用は「試験導入フェーズ」から「本格展開フェーズ」に移行しつつある。ただし、その進捗には業種間で顕著な差がある。

メルカリは商品カテゴリの自動分類にGPT-4を活用し、分類精度の向上と運用コスト削減を達成した。C2C プラットフォームの特性上、毎日大量の新規出品が発生するため、LLMによる自動化の効果が特に大きい。

みずほフィナンシャルグループはClaude展開を従業員3万人規模で進める。法規制の多い金融機関がClaudeを選ぶ理由は、Constitutional AIによる安全性の透明性が「社内稟議を通りやすい」という実務的判断だ。

エムスタイルジャパンはLLMによる業務自動化で全社月100時間以上の業務削減を達成。コールセンター確認業務は月16時間からほぼゼロに圧縮された。

一方、導入に慎重な業種も存在する。医療・製薬・建設・製造の現場では、ハルシネーションリスクと「責任の所在」の不明確さが障壁になっている。「AIが間違えたとき誰が責任を取るのか」という問いに、現行の法制度は答えを持っていない。

「日本のLLM活用の最大のボトルネックは技術ではなく、責任論と組織の合意形成プロセスにある。」

デジタル庁はLLM活用ガイドラインを整備し、政府機関でのLLM活用を推進している。2025年末の国産LLM選定（tsuzumi 2・ELYZA・PLaMo 2.0）はその象徴的な動きだ。ただし「国産＝安全・高品質」ではなく、多くの国産モデルがLlamaベースである点はユーザーが把握すべき事実だ。

「どのLLMを選ぶか」より「どう使うか」の時代へ

Beyond Model Selection — The Era of Orchestration Design

Selection Guide

ユースケース別LLM選択ガイド（2026年4月）

コーディング / Claude Code

SWE-bench 80.8%、エージェント安定性

Claude Opus 4.6

UI・ブラウザ自動化

Computer Use、画面認識性能が最強

GPT-5系

動画・画像処理

マルチモーダル統合、1Mコンテキスト

Gemini 2.0 Flash

大量テキスト処理（低コスト）

$0.075〜$0.25/1Mトークン

Gemini 2.0 Flash / Claude Haiku

法務・医療・長文文書

200K ctx、Constitutional AI安全性

Claude Opus 4.6

日本語業務システム

日本語特化、国内規制対応

ELYZA / PLaMo 2.0

マルチLLM戦略: ルーティングレイヤーで「簡単なタスク→安いモデル、複雑なタスク→高いモデル」と振り分けることで、品質を落とさずコストを最大70%削減できる。

2026年のLLM活用において、「どのモデルが最強か」という問いはほとんど意味をなさなくなった。GPT・Claude・Geminiはそれぞれ異なる強みを持ち、どれか1つがすべてを制することはない。問われるのはオーケストレーション設計——どのタスクにどのモデルを当て、どう組み合わせるかだ。

用途別の現実的な使い分け

コーディング・エージェントタスクはClaude Code（Opus 4.6）が最有力。UI自動化・Computer UseはGPT-5シリーズ。マルチモーダル（画像・動画処理）と低コスト大量処理はGemini 2.0 Flash。日本語に特化した業務システムには楽天AI・ELYZA・PLaMo 2.0を検討する価値がある。

コストの現実も直視が必要だ。GPT-4o（$2.50/$10）、Gemini 2.0 Flash（$0.075/$0.30）、Claude Haiku 4.5（$0.25/$1.25）など、軽量モデルの性能向上により「フラッグシップモデルをすべての用途に使う必要はない」という設計が合理的になっている。ルーティングレイヤーで「簡単なタスクは安いモデル、複雑なタスクは高いモデル」と振り分けるアーキテクチャが実用段階に入った。

「LLMをどれか1つ選んで全社導入する時代は終わった。複数モデルを組み合わせるマルチLLM戦略が、2026年以降のエンタープライズAIのデファクトになる。」

The Briefの見立てでは、今後1〜2年の競争軸は「モデルの賢さ」から「エコシステムの深さ」に移行する。OpenAIはMicrosoft 365、GoogleはWorkspace、AnthropicはAWS Bedrock——モデル単体よりも既存業務ツールとの統合度が導入可否を決める要素になる。

日本企業が今すべきことは、特定モデルへのロックインを避けながら、組織内にLLM活用の知見を蓄積することだ。モデルは半年ごとに塗り替わる。設計思想と評価フレームワークこそが、持続的な競争優位の源泉になる。

LLMとは何か——大規模言語モデルの仕組みから最前線まで完全解説

What Is an LLM? — A Complete Guide to Large Language Models

2026-04-0914 min

モデル

Context

最適用途

GPT-5系

OpenAI

128K

PCオペレーション自動化

Claude Opus 4.6

Anthropic

200K

法務・医療・大規模コード

Gemini 2.0 Flash

Google

動画・画像処理、コスト最適化

Rakuten AI 3.0

楽天

未公表

日本語ビジネス、GPT-4o超え主張

PLaMo 2.0

PFN

未公表

政府・金融・製造の国内案件

LLMとは何か——大規模言語モデルの仕組みから最前線まで完全解説

「LLMは何が革命的なのか」——定義と登場の衝撃

トランスフォーマーとアテンション機構——技術の核心

パラメータ数の意味と誤解——「大きければ賢い」は本当か

GPT・Claude・Gemini・国産モデルを比較する

ハルシネーション——LLMが「嘘をつく」構造的理由

RAGとファインチューニング——実用化のための2大技術

日本企業のLLM活用最前線

「どのLLMを選ぶか」より「どう使うか」の時代へ

関連記事 / Related

ChatGPT vs Gemini vs Claude — 2026年最新AIモデル徹底比較

Claude Opus 4.6の全貌 — Anthropicが「有用で安全なAI」を両立させた方法

LLMとは何か——大規模言語モデルの仕組みから最前線まで完全解説

「LLMは何が革命的なのか」——定義と登場の衝撃

トランスフォーマーとアテンション機構——技術の核心

パラメータ数の意味と誤解——「大きければ賢い」は本当か

GPT・Claude・Gemini・国産モデルを比較する

ハルシネーション——LLMが「嘘をつく」構造的理由

RAGとファインチューニング——実用化のための2大技術

日本企業のLLM活用最前線

「どのLLMを選ぶか」より「どう使うか」の時代へ

関連記事 / Related

ChatGPT vs Gemini vs Claude — 2026年最新AIモデル徹底比較

Claude Opus 4.6の全貌 — Anthropicが「有用で安全なAI」を両立させた方法

「LLMは何が革命的なのか」——定義と登場の衝撃

トランスフォーマーとアテンション機構——技術の核心

パラメータ数の意味と誤解——「大きければ賢い」は本当か

GPT・Claude・Gemini・国産モデルを比較する

ハルシネーション——LLMが「嘘をつく」構造的理由

RAGとファインチューニング——実用化のための2大技術

日本企業のLLM活用最前線

「どのLLMを選ぶか」より「どう使うか」の時代へ

関連記事 / Related

ChatGPT vs Gemini vs Claude — 2026年 最新AIモデル徹底比較

Claude Opus 4.6の全貌 — Anthropicが「有用で安全なAI」を両立させた方法

「LLMは何が革命的なのか」——定義と登場の衝撃

トランスフォーマーとアテンション機構——技術の核心

パラメータ数の意味と誤解——「大きければ賢い」は本当か

GPT・Claude・Gemini・国産モデルを比較する

ハルシネーション——LLMが「嘘をつく」構造的理由

RAGとファインチューニング——実用化のための2大技術

日本企業のLLM活用最前線

「どのLLMを選ぶか」より「どう使うか」の時代へ

関連記事 / Related

ChatGPT vs Gemini vs Claude — 2026年 最新AIモデル徹底比較

Claude Opus 4.6の全貌 — Anthropicが「有用で安全なAI」を両立させた方法

ChatGPT vs Gemini vs Claude — 2026年最新AIモデル徹底比較

ChatGPT vs Gemini vs Claude — 2026年最新AIモデル徹底比較