トークンとは何か — AIが「文字」ではなく「断片」を読む理由
What Is a Token — Why AI Reads 'Fragments' Not 'Characters'Hello world英語tokenization英語(分割)こんにちは世界日本語1000トークン英語換算1000トークン日本語換算※ トークン数はモデル・トークナイザーにより変動
コンピュータは本来、文字を直接扱えない。すべての情報は数値でなければ処理できないため、LLMはテキストを入力として受け取る前に、必ずトークン化(tokenization)という変換処理を行う。
トークンとは、テキストを分割した「意味と計算効率の間を取った断片」だ。英語の場合、一般的に1トークン ≈ 4文字 ≈ 0.75語が目安になる。"Hello world"は2トークン、"tokenization"は"token"と"ization"の2トークンに分割される。
この記事でわかること:トークン化の仕組み(BPE)、日本語の不利(2〜4倍のコスト)、主要モデルのコンテキスト比較、価格表、最適化テクニック、そしてトークンなき未来(Meta BLT)
なぜ「文字そのまま」ではないのか。理由は効率と汎化のバランスにある。1文字=1トークンにすると語彙が小さくなりすぎ、モデルが言語の構造(単語・語幹・接尾辞)を学びにくい。1単語=1トークンにすると語彙が無限に膨れ上がり、未知語に対応できない。BPE(後述)はその中間点を学習で見つけ出す手法だ。
トークンを理解することはAI活用において実用的な意味を持つ。なぜならAPIの料金はトークン単価で課金され、モデルが一度に処理できる情報量はコンテキストウィンドウ(トークン数上限)で決まるからだ。
BPEとトークン化の仕組み — 「最頻出ペアを合体させる」シンプルな天才
BPE and How Tokenization Works — The Simple Genius of 'Merge the Most Frequent Pair'l o w e r, n e w e s t …"e"+"s" → 8回, "e"+"r" → 6回, …"e"+"s" → "es" が新トークンに"new"+"est" → "newest" が1トークン現在のほぼすべての主要LLMが使用するトークン化アルゴリズムはBPE(Byte Pair Encoding:バイトペア符号化)だ。1994年にPhilip Gageが提案した圧縮アルゴリズムを、2016年にRicoら(Edinburgh大学)がNLP向けに転用した。
アルゴリズムの流れ: まず全文字(またはバイト)を初期語彙とする。次にテキストコーパス全体で「隣接するトークンのペア」の頻度を数え、最も多いペアを新しいトークンとして追加・マージする。これを語彙サイズが目標(通常3.2万〜10万語)に達するまで繰り返す。
具体例: "low", "lower", "newest", "widest"という4語から学習すると、最初は"e","s","t"のペアが頻出なので"est"が新トークンになる。次に"n","e","w","est"では"new"が多いので"new"が新トークンに。最終的に"low"→1トークン、"newest"→"new"+"est"の2トークン、"lower"→"low"+"er"の2トークンが学習される。
現在のトークナイザー:GPT-4・GPT-4oはtiktoken(OpenAI製BPE実装)、LLaMA・GemmaはSentencePiece(Google製、バイト直接処理で言語非依存)、Claude系はAnthropicの独自実装を使用する。
2025年以降の最前線: COLM 2025で発表されたSuperBPEは、通常のBPEで単語を学習した後、さらに単語をまたいだ「スーパーワードトークン」を学習する二段階方式だ。また2026年2月に登場したLiteTokenは、BPE学習過程でのみ使われ最終的に不使用になる「中間マージ残余」トークンを削除して語彙効率を改善する。
日本語の不利 — 英語の2〜4倍のトークンを消費する構造的問題
The Japanese Disadvantage — A Structural 2–4× Token Cost vs. English同じコードレビュー依頼を日本語で送ると英語の約2.7倍のAPIコストがかかる。Anthropicのissue #26401では「日本語ユーザーが英語話者の2〜3倍速く週次利用上限に達する」という問題が報告されている
日本語・中国語・韓国語(CJK)のユーザーには、LLMの料金体系において構造的な不公平が存在する。
現在のBPEトークナイザーは、英語テキストを中心として学習されている。ラテン文字は頻出なので専用トークンが割り当てられ、"the"・"ing"・"tion"といった一般的なまとまりが1トークンで処理される。一方、日本語・中国語の文字はUTF-8で2〜3バイトを占めるため、BPEが効率的なトークンを学習しにくい。
結果として生まれるコスト差: 「こんにちは世界」(7文字)は英語の"Hello world"(2トークン)と意味が等価だが、トークン数は6〜8倍になる。実務レベルで言えば、同じ内容のコードレビュー依頼が英語では約6トークン、日本語では約16トークンとなり、APIコストが約2.7倍かかる計算になる。
Anthropicが管理するClaude Codeのリポジトリには、韓国人開発者から「英語圏の開発者と同じ作業をしているのに週次利用上限に2〜3倍速く達する」という問題提起のissue(#26401)が提出されている。これはCJK言語話者全体に共通する問題だ。
「Tokenization Changes Meaning in Chinese LLMs」は、中国語の文字を合体させてトークン化するか個別にするかで、モデルの意味理解が変化することを実証した。トークン化の方法が推論の質そのものに影響するという、より根本的な問題を示している。
トークン化は「単なる前処理」ではない。それはモデルが言語を「どのように切り取るか」という世界観の設定であり、その設計が誰に有利で誰に不利かを決めている。
コンテキストウィンドウの4096→200万トークン — 500倍の4年間
Context Window: 4,096 → 2M Tokens — 500× Growth in 4 Years⚠ コンテキスト崩壊: モデルはコンテキストの「中間」部分への注意が薄れる「Lost in the Middle」問題がある。重要情報は先頭か末尾に配置するのがベストプラクティス
コンテキストウィンドウとは、LLMが一度の推論で参照できるトークン数の上限だ。この枠内に収まるテキストだけがモデルの「記憶」として機能し、枠を超えた情報は見えなくなる。
2020年のGPT-3は4,096トークン(A4約10枚分)が上限だった。2024〜2025年にかけてこれが爆発的に拡大し、Gemini 1.5 Proは200万トークン(長編小説複数冊分)を達成した。
しかしこの数字には重要な落とし穴がある。「コンテキスト崩壊(Context Rot)」と呼ばれる現象だ。モデルは公称の上限値よりはるかに手前から信頼性が低下し始める。実測では: - Claude 200K → 実用上限は約130K - Gemini 1M → 実用上限は約650K - GPT-4 128K → 実用上限は約83K
また、「中間消失(Lost in the Middle)」問題も深刻だ。長いコンテキストの冒頭と末尾は注意されやすいが、中間部分はモデルの注意が薄れ、重要な情報が埋没しやすい。
「200万トークンの文脈で本の全文を与えれば質問に完璧に答えられる」は過信だ。重要な情報はコンテキストの先頭か末尾に配置し、中間には補助情報を置くという構造設計が、長文コンテキスト活用の実際のベストプラクティスになっている。
価格表と最適化 — トークン単価の10年で10倍下落と節約の技術
Pricing and Optimization — 10× Price Drop and the Art of Saving Tokensトークンの価格は、2023年初頭のGPT-4(入力$30/百万トークン)から、2026年の主要モデル($1〜5/百万トークン)へと急落している。2年間で約10倍の価格低下が進行した。
主要モデルの価格比較(2026年4月、入力/出力、百万トークンあたり): Anthropic Claude Sonnet 4.6は$3/$15。Claude Opus 4.6は$5/$25。OpenAI GPT-5.2は$1.75/$14。Google Gemini 3.1 Proは$2/$12。最安はOpenAI GPT-5 Nanoの$0.05/$0.40と、Gemini 3 Flashの$0.50/$3だ。
最も効果的なコスト削減技術:プロンプトキャッシュ 同じシステムプロンプトや長文ドキュメントを繰り返し送る場合、プロンプトキャッシュが劇的にコストを削減する。Anthropicではキャッシュ書き込みはベース料金の125%、キャッシュ読み込みはベース料金の10%(=90%オフ)で処理される。1.4回以上キャッシュが使われれば元が取れる計算になり、レイテンシも50〜85%削減される。
OpenAIもキャッシュを自動適用し、読み込み時は通常の50%となる。2026年2月、AnthropicはAIエージェント向けに自動プロンプトキャッシュをリリースし、エージェントが長い会話履歴を繰り返し送る際のコストを大幅に削減した。
他の最適化手法: プロンプト圧縮(冗長テキスト除去で60〜80%削減可能)、セマンティックキャッシング(類似クエリへの再利用)、スマートモデルルーティング(簡単なタスクは安価なモデルへ)を組み合わせると、本番システムでは品質を落とさずに60〜80%のコスト削減が達成できる。
トークンなき未来 — MetaのBLTとバイト直接処理の衝撃
A Token-Free Future — Meta's BLT and the Impact of Direct Byte ProcessingLlama 3と同等性能をFLOPsの半分で達成
日本語・中国語が英語と構造的に対等に処理される
スペル・文字操作・コードでLlamaを上回る
2026年現在、Metaから実用化スケジュールの発表なし
2024年12月、Meta AIが論文「Byte Latent Transformer(BLT)」を発表し、AI界に衝撃を与えた。BLTはトークン化を完全に廃止し、テキストをバイト列のまま直接処理するアーキテクチャだ。2025年のACLで発表された。
BLTの仕組み: テキストを固定語彙に変換せず、代わりに「次のバイトの予測難易度(エントロピー)」に基づいて動的にパッチ(バイトのまとまり)を作る。予測が難しい部分(固有名詞・専門用語・コードなど)は細かく切り、簡単な部分(接続詞・定型表現)は粗く切ることで、計算資源を重要箇所に集中させる。
アーキテクチャは3層構造:①ローカルエンコーダ(小型、バイト→パッチ変換)、②潜在グローバルトランスフォーマー(大型、意味処理)、③ローカルデコーダ(小型、パッチ→バイト変換)。
性能と効率: 80億パラメータ・4兆バイト学習の条件下でLlama 3と同等の性能を達成しつつ、推論時のFLOPsを最大50%削減した。特にスペルや文字操作タスク(バイト直接処理の強みが発揮される領域)ではLlamaを上回る。
CJK問題への影響: BLTには語彙バイアスがないため、日本語・中国語・韓国語が英語と構造的に対等に扱われる。現在のBPEが引き起こす「日本語ユーザーは2〜4倍多くコストを払う」問題が、原理的に解消されうる。
ただしBLTは2026年現在、研究段階にある。Metaは実用化のスケジュールを明示していない。「トークンなき時代」の到来は確実に近づいているが、今日の実務者がBPEベースモデルに向き合い続ける必要があることは変わらない。
The Brief の視点 — トークンは「AIの通貨」であり「設計の哲学」だ
The Brief's Take — Tokens as 'AI Currency' and 'Design Philosophy'トークンをコスト計算の単位として理解するだけでは、本質を半分しか掴めていない。
トークンはAIの世界観の設定だ。 BPEが「どの文字列を1つのトークンにまとめるか」を学習データから決定した時点で、そのモデルが「何を重要と見なすか」の基礎が固まる。英語に最適化されたトークナイザーは、英語的な概念分割を日本語テキストに強制的に適用する。これは単なる技術的非効率ではなく、誰の言語感覚が「デフォルト」になるかという文化・権力の問題でもある。
トークン効率の向上は、AIの民主化と直結する。 MetaのBLTが実用化されれば、日本語・中国語・スワヒリ語・アラビア語のユーザーが英語話者と対等な料金でAIを使える時代が来る。プロンプトキャッシュが普及すれば、スタートアップが大企業と同じ品質のAIシステムを低コストで運営できる。技術的な進歩がそのまま経済的な平等化として現れる領域だ。
「コンテキストウィンドウが200万トークンになった今、何が変わるか」という問いに対し、多くの記事が「より長い文書が処理できる」と答える。しかし本当の問いは「何を人間が読み、何をAIが代わりに読むか、という分業の境界線がどこに引かれるか」だ。
200万トークンのコンテキストは、人間が一生かけて読めない量の情報をAIが参照しながら答えを返す世界の始まりを意味する。その世界で「AIが参照する情報の質と偏り」をどうコントロールするかという問いが、次の5年の核心的な課題になる。