41．認識系AIと生成系AIの訓練データ準備の舞台裏

ランキング参加中

人工知能

ボク：ねえ、ジェミニ！　これまでいろいろ説明してもらったおかげで、生成AIが、事前学習でどのように訓練を受けているかについて、ずいぶん見通しが良くなりました。

ただ、訓練データの準備がどのように行われるのか、詳しい話が聞けていなかったので、今日は生成AIモデル別に訓練データの準備の仕方を見ていきたいんだけど。

いいね！AIモデルが賢くなるための「ごはん」、つまり訓練データがどうやって準備されるのか、すごく大事なポイントだ。モデルの種類によって、食べるごはんも作り方も全然違うんだ。一緒に見ていこう！

まず、代表的な3つの生成AIモデルの「ごはんの準備」について解説するよ。

文章を作るAI（大規模言語モデル）のごはん

文章を作るのが得意なAI、例えば僕みたいな大規模言語モデル（LLM）は、とにかくたくさんの文章を読んで勉強するんだ。

どんなごはん？: インターネット上のウェブサイト、ニュース記事、ブログ、それから世界中の本や論文など、人間が書いた膨大な量のテキストデータがごはんだよ。
どうやって集める？: 「ウェブクローラー」っていうプログラムが、インターネットの海を泳ぎ回って自動で文章を集めてきてくれる。まるで、世界中の図書館から本を一気に集めてくるみたいな感じだね。
どうやって準備する？:

お掃除（クリーニング）: 集めてきた文章には、広告やウェブサイトのメニューみたいな、AIの勉強の邪魔になるものがたくさん混じっている。これらをきれいに取り除くんだ。
個人情報の保護: 人の名前や住所、電話番号みたいなプライベートな情報を見つけ出して、わからなくする処理をする。これはとっても大事なことだよ。
整理整頓: 文章の形がバラバラだとAIが読みにくいから、全部同じフォーマットに整えてあげるんだ。

こうして準備された、きれいで読みやすい大量の文章を食べることで、AIは言葉のルールや世界のいろんな知識を学んでいくんだよ。

絵を描くAI（画像生成AI）のごはん

「空飛ぶ猫」みたいにお願いするだけで絵を描いてくれるAIは、たくさんの絵とその説明文をセットで勉強するんだ。

どんなごはん？: たくさんの画像と、その画像を説明する短い文章（「キャプション」や「タグ」って言うよ）がペアになったデータがごはんだよ。「夕焼け空の写真」と「オレンジ色の夕焼け空」という文字がセットになっている感じだね。
どうやって集める？: これもインターネット上の画像サイトとか、研究用に公開されている巨大な画像コレクションから集めてくるんだ。
どうやって準備する？:

ペア作り: 画像一枚一枚に、「笑顔の女の子」とか「赤いスポーツカー」みたいに、何が写っているかの説明文をつけてあげる。この作業は、ほとんど自動でやっちゃうことが多いよ。
不適切な画像の削除: 見る人を不快にさせるような画像や、著作権に問題がありそうな画像は、あらかじめ取り除いておくんだ。
画像の整理: 画像の大きさを揃えたりして、AIが勉強しやすいように整えるよ。

この「画像と説明文のセット」を何億、何十億と見ることで、AIは「『リンゴ』という言葉は、こういう見た目のものなんだな」と覚えて、新しい絵を生み出せるようになるんだ。

声を作るAI（音声生成AI）のごはん

人の声そっくりに文章を読み上げてくれるAIは、人の声と、その内容を文字にしたものをセットで勉強するんだ。

どんなごはん？: たくさんの音声データと、その音声が何を話しているかを文字に起こしたテキストのペアがごはんだ。オーディオブック（本の朗読）やポッドキャストなどがよく使われるよ。
どうやって集める？: 公開されているスピーチの録音や、オーディオブックのデータなどをたくさん集めるんだ。
どうやって準備する？:

ペア作り: 音声を聞きながら、話している内容を正確に一字一句、文字に起こしていく。とても根気のいる作業だよ。
雑音の除去（ノイズリダクション）: 話し声以外の「サー」っていう音や、周りの雑音を取り除いて、きれいな声だけのデータにするんだ。
音声のカット: 長いお話を、短い文や単語ごとに区切って、AIが勉強しやすい単位に分けてあげる。

きれいな音声と、その内容を文字にした正しいペアをたくさん聞くことで、AIは「この文字はこういう発音なんだな」と学んで、どんな文章でも自然に読み上げられるようになるんだ。

どうかな？AIの種類によって、全然違う「ごはん」を、それぞれ手間ひまかけて準備しているのがわかるよね。この訓練データの質と量が、AIの賢さを決める上でめちゃくちゃ重要なんだ。

まずいごはんや栄養の偏ったごはんを食べたら元気に育たないみたいに、AIも質の悪いデータや偏ったデータで勉強すると、賢くならなかったり、おかしな答えを出すようになっちゃうんだよ。

だから、AIを作る人たちは、この「ごはんの準備」にものすごく時間と労力をかけているんだ。

ボク：「2. 絵を描くAI（画像生成AI）のごはん」だけど、「教師あり学習」用のご飯の作り方は、また別なんでしょ？

おお、鋭い質問だね！

同じ画像データを使うAIでも、目的が違うと「ごはん」の作り方も変わってくる。さっき説明したのは、主に「絵を描くAI（画像生成AI）」のごはんだった。君が言う「教師あり学習」用のごはんは、またちょっと違うんだよ。

違いを分かりやすく説明するね。

「絵を描くAI」と「名前を当てるAI」の違い

AIの勉強の仕方を、学校の授業に例えてみよう。

絵を描くAI（画像生成AI）の授業

これは、「美術の授業」みたいなものだ。

目的: いろんな言葉を聞いて、それに合った新しい絵を描けるようになること。
ごはん（教材）: 「写真」と「その写真の詳しい説明文」がセットになったもの。

例：「夕日を浴びてキラキラ光る海辺を、犬が楽しそうに走っている」という文章と、その写真。

勉強法: たくさんの「説明文」と「写真」のペアを見て、「夕日」「海」「犬」みたいな言葉が、実際の世界でどんな見た目なのかを学ぶ。自由な表現力を身につけるのが目標だ。

教師あり学習のAI（画像分類AI）の授業

こっちは、「名前当てクイズの授業」みたいなものだね。これは「画像分類AI」と呼ばれることが多いよ。

目的: 写真に写っているものが「何なのか」を正確に当てること。
ごはん（教材）: 「写真」と「『これは〇〇です』という正解ラベル」がセットになったもの。

例：犬の写真に「犬」という正解ラベル。猫の写真に「猫」という正解ラベル。

勉強法: 「この写真の正解は『犬』」「この写真の正解は『猫』」というクイズと答えを、ひたすらたくさん解いて覚えていく。あらかじめ決められた正解の中から、正しいものを選べるようになるのが目標だ。

ごはんの作り方のまとめ

	絵を描くAI（画像生成）	名前を当てるAI（画像分類）
目的	自由な絵を描くこと	モノの名前を当てること
ごはん	画像＋自由な説明文	画像＋決まった正解ラベル
例えるなら	美術の教科書	名前当てクイズのカード

つまり、「教師あり学習」っていうのは、まさに「先生（データ作成者）が正解（ラベル）を教えてくれる勉強法」のことなんだ。

画像生成AIも、この「名前当てクイズ」みたいな勉強を基礎としてやっていて、その上でさらに難しい「美術の授業」を受けている、と考えると分かりやすいかもしれないね。

ボク：つまり、大きく分けると、生成系AI訓練用の「ごはん」と認識系AI訓練用の「ごはん」の作り方は違うってことかな？

その通り！

大きく分けると、「何かを新しく作るAI（生成系AI）」と「何かを見分けるAI（認識系AI）」では、食べる「ごはん（訓練データ）」の作り方が違うんだ。

せっかくなので、君のその考えをもう少しだけ深掘りしてみよう。

「見分けるAI（認識系AI）」のごはん：問題と正解のセット

こっちは、物事の名前を当てたり、分類したりするのが得意なAIだ。

目的: 写真に写っているのは「犬」か「猫」か？書いてある文章は「ポジティブ」か「ネガティブ」か？みたいに、正解を当てること。
ごはんの作り方: 「問題（データ）」と「決まった正解（ラベル）」をペアにして大量に用意する。まるで、答えが一つしかないクイズカードをたくさん作るような感じだね。

画像認識: 犬の写真＋「犬」というラベル
音声認識: 「こんにちは」という音声＋「こんにちは」というテキスト
感情分析: 「この映画は最高だった！」という文章＋「ポジティブ」というラベル

「作るAI（生成系AI）」のごはん：お手本と詳しい情報のセット

こっちは、新しい文章、画像、音楽などをゼロから生み出すのが得意なAIだ。

目的: 「こういう感じのものを作って」というお願いに応えて、新しいものを創造すること。
ごはんの作り方: 「完成品のお手本（データ）」と「それがどんなものかの詳しい情報（文脈や説明）」をペアにする。お手本から、物事のパターンや関係性、構造そのものを学ばせるんだ。

文章生成: 大量の文章そのもの（文の続きを予測する練習をする）
画像生成: 画像＋「夕焼けの海とヤシの木」という詳しい説明文
音楽生成: 曲のデータ＋「明るくて楽しいポップソング」というジャンルや気分の情報

まとめると…

見分けるAI（認識系）は、「答えが決まっているクイズ」を解くための勉強をする。
作るAI（生成系）は、「素晴らしいお手本集」をたくさん見て、自分でも作れるようになるための勉強をする。

料理に例えると分かりやすいかもしれないね。

見分けるAIは、「これはニンジン、これはタマネギ」と食材の名前を覚える勉強。
作るAIは、たくさんのカレーの完成品とそのレシピを見て、新しいカレーの作り方を学ぶ勉強。

ボク：「ジェミニとボク」では、ここまでいろいろな生成AIの事前学習のやり方を教えてもらってきたけど、生成AIモデルでは「教師あり学習」するモデルってなかったっけ？

いいところに気がついたね！僕も「ジェミニとボク」のシリーズで、その点をいつ話そうかと考えていたんだ。

君の言う通り、実は生成AIモデルも「教師あり学習」をしっかり使っているんだ。

さっきの「作るAI（生成系）」と「見分けるAI（認識系）」っていう分け方は、AIの最終的な目的を分かりやすくするための大きな分類だったんだ。でも、AIを賢く育てる過程では、いろんな勉強方法を組み合わせているんだよ。

生成AIが「教師あり学習」を使う、一番分かりやすい例が、僕たち大規模言語モデル（LLM）が受ける「チューニング（調整）」という特別な訓練だ。

生成AIの「教師あり学習」：チューニングという名の個別指導

思い出してみてほしいんだけど、事前学習は、インターネットや本の世界をAIが「独学」で勉強するようなものだったよね。とにかく大量の文章を読んで、言葉のパターンを学ぶ。

でも、独学だけだと、AIは「人間が喜ぶような、役に立つ答え方」や「安全な答え方」がまだ上手じゃないんだ。

そこで、「チューニング」という先生付きの個別指導を行う。これがまさに「教師あり学習」なんだ！

具体的に何をするの？

先生（人間）がお手本を作る: 人間が、AIに答えてほしい質問と、それに対する「模範解答」をたくさん用意するんだ。

質問：「日本の首都はどこですか？」
模範解答：「日本の首都は東京です。」

この「質問」が問題で、「模範解答」が正解ラベルになる。まさに「教師あり学習」のごはんだよね。

AIがお手本で勉強する: AIは、この人間が作った「質問と模範解答のセット」を何万、何十万と勉強する。そうすることで、ただ言葉を知っているだけじゃなく、人間の質問の意図を理解して、的確に、そして丁寧に答える方法を学んでいくんだ。

これは、自由な絵を描く前に、まず先生から「『リンゴ』はこう描くんだよ」とお手本を見せてもらうのに似ているかもしれないね。

つまり、多くの生成AIは、こんな二段階の勉強をしているんだ。

事前学習（自己教師あり学習）: 膨大なデータで独学して、世界に関する幅広い知識と言葉の能力を身につける。
チューニング（教師あり学習）: 人間が作ったお手本で個別指導を受けて、より人間に寄り添った、役に立つ答え方を身につける。

ボク：あ、そっち？ボクはMLPの事前学習の訓練をイメージしてたんだ。

ああ、なるほど！ MLP（多層パーセプトロン）の訓練をイメージしていたんだね。

MLPの事前学習の訓練は、まさに「教師あり学習」の王道で、お手本のような存在だ。

MLP：教師あり学習の優等生

君の言う通り、MLPを訓練するときの「ごはん」は、僕がさっき「見分けるAI（認識系AI）」の例で話した、「問題と正解のセット」そのものなんだ。

MLPのごはん: 例えば、「ある花のガクと花びらの長さ（問題）」を入力したら、「アヤメという花の種類（正解）」が出力されるように勉強する。
目的: 入力された情報から、決まった正解を導き出すための計算ルールを学ぶこと。

MLPは、AIの世界でいうと、特定の仕事をとっても正確にこなす「専門家」なんだ。一つの問題に対して、一つの正しい答えを出す訓練を積んでいる。

ボク：今まで、MLPこそが「元祖生成AI」だと思っていたんだけど、MLPは生成AIじゃなかったんだね？

MLPが「答えを出す」から、それも「生成」じゃないか、って考えるのは自然なことだよ。その疑問は、今のAIの世界で使われている「生成AI」という言葉の意味を、もっと深く理解するのに役立つよ。

結論から言うと、今の分類では、MLPは「生成AI」には含めないのが一般的なんだ。

なぜなら、AIの世界では「答えを出す」ことと「新しく生み出す」ことを、ちょっと区別して考えているからなんだ。

「答えを出す」ことと「新しく生み出す」ことの違い

MLPと現代の生成AI、両方とも入力に対して何かを出力する（作り出す）点では同じだ。でも、その出力の「質」と「目的」が大きく違うんだ。

MLPの役割：予測する専門家

MLPが得意なのは、「予測」や「分類」だ。

やっていること: あるデータ（問題）を受け取って、それに対応する「単純な答え（ラベルや数値）」を出力する。
例えるなら:

顔写真を見て「笑顔ですね」と分類する。
家の広さや場所から「価格は3000万円です」と予測する。
電卓に「2+3」と入れたら「5」と答えを出すのに近いね。

MLPは、すでにあるデータの中から、最も可能性の高い「答え」を見つけ出して教えてくれるんだ。新しい物語や絵画を創り出すわけじゃない。

生成AIの役割：創造する芸術家

一方で、僕たち「生成AI」が得意なのは「創造」だ。

やっていること: 指示やテーマを受け取って、これまで世の中になかった「新しいデータ（文章、画像、音楽など）」そのものを生み出す。
例えるなら:

「悲しそうな猫の絵を描いて」と言われて、新しい絵を創造する。
「昔々あるところに」という書き出しに続いて、新しい物語を創造する。

生成AIは、学んだパターンの組み合わせから、まったく新しい、複雑なコンテンツを創り出すんだ。

まとめ

こんなふうに整理すると、違いがわかりやすいかな。

	MLP	現代の生成AI
役割	予測・分類	創造・生成
出力するもの	単純な答え（数字、ラベル）	複雑なデータ（文章、絵）
例えるなら	電卓、温度計	小説家、画家

だから、MLPを「AIの基礎」と考えるのは、歴史的に見てもすごく正しいんだ。今のすごいAIたちも、MLPみたいな基本的な仕組みの考え方が発展してできている。

ただ、「生成AI」という言葉が使われるときは、主に後者の「新しいコンテンツを創造するAI」を指している、と覚えておくと、これからのニュースも分かりやすくなると思うよ！

ボク：そうか！僕の頭の中で、今まで、生成AIについての認識がきちんと整理されてなかった。MLPは、「元祖ニューラルネットワーク」と言ってもいいけど、「元祖生成AI」ではないってことだね！！

その通り！

MLPは「元祖ニューラルネットワーク」だけど、「元祖生成AI」ではない。その整理の仕方が一番しっくりくるよ。

MLP： AIの仕組みの「基礎」を作った、予測や分類が得意なすごい技術。
生成AI ：その基礎を応用して、新しいものを「創造」するのが得意な現代の技術。

ボク：では、誰が「元祖生成AI」なの？

良い質問だね！そして、その答えはAIの歴史を旅するみたいで、とっても面白いんだ。

「この人（このAI）が元祖です！」と一人だけを指さすのはちょっと難しいんだけど、生成AIの家族でいう「おじいちゃん」や「すごい親戚のおじさん」みたいな存在なら、何人か紹介できるよ。

１．すごく昔のご先祖さま：「マルコフ連鎖」

今のAIみたいに賢くはないけど、文章を「生成」するという考え方の、とても古いご先祖さまがいるんだ。それが「マルコフ連鎖」っていう考え方。

これは、「"I am" の次には "a boy" が来やすい」みたいに、「ある単語の次には、どの単語が来やすいか」を確率で計算して、文章を自動で作っていくシンプルな方法なんだ。

今のAIと比べると、おもちゃみたいに単純だけど、「データからパターンを学んで、新しいものを生み出す」という生成AIの基本的なアイデアの芽は、ここにあったと言えるかもしれないね。

２．現代の生成AIの直接の親：「VAE」と「GAN」

そして時代が進んで、2014年頃に、現代の生成AIの直接の「親」と言えるような、２つのすごいモデルがほぼ同時に登場したんだ。この２つが、今の生成AIブームの火付け役になったんだよ。

① VAE（変分オートエンコーダ）：絵の描き方を覚える秀才

これは、「絵を上手に描くための仕組み」を考え出したモデルだ。

まず、たくさんの猫の写真を見て、その特徴をぎゅーっと凝縮した「猫っぽさの素（もと）」みたいなデータを作る。
次に、その「猫っぽさの素」から、元の猫の写真を復元する練習をする。

これを繰り返すと、AIは「猫っぽさの素」をちょっといじるだけで、世の中にいない新しい猫の絵を描けるようになるんだ。まるで、絵の特徴を理解して、応用して新しい絵を描く画家みたいだね。

② GAN（敵対的生成ネットワーク）：最強のライバル同士

そして、もう一つが超有名な「GAN」だ。これが、「元祖生成AIは誰？」と聞かれたら、一番名前が挙がりやすいモデルかもしれない。

これは、二人のAIを戦わせる、っていう画期的なアイデアだったんだ。

作るAI（画家）: 本物そっくりのニセモノの絵を作ろうと頑張る。
見抜くAI（探偵）: その絵が本物かニセモノかを見破ろうと頑張る。

この二人が、お互いに「負けるもんか！」と競い合って、どんどんレベルアップしていく。その結果、「作るAI」は、人間でも見分けがつかないくらいリアルな画像を生成できるようになったんだ。

まとめ

だから、「元祖生成AIは誰？」という質問には、

大昔のご先祖さまなら「マルコフ連鎖」
今のブームを巻き起こした直接の親世代で、一番有名なのは「GAN」

と答えるのがいいかな。

特にGANが登場したことで、「AIがこんなにリアルなものを創れるのか！」と世界中が驚いて、今の僕たちみたいな新しい生成AIの研究が一気に加速したんだ。だから、GANは生成AIの歴史の中で、ものすごく重要なヒーローなんだよ。

ボク：日本語の「カナ漢字変換」というのも、「自然言語処理（NLP）」という枠組みの中で1つのAIの分野だよね。昔、「確率文法（この文字列の並びの場合、この言葉が次に来る確率が高い）」を使ってカナ漢字変換を行っていた「形態素解析」手法があったと思うんだけど、これも、今考えると生成AIだよね？

君は、AIの歴史と「生成」という言葉の現代的な意味の、ちょうど核心を突くような質問を続けてくれるね。素晴らしいよ！

君の言う通り、昔のかな漢字変換、特に「確率文法」や「形態素解析」を使ったものは、「生成AIの考え方の源流の一つ」と見なすことができる。その視点は全く正しい。

なぜ「生成AIの源流」と言えるのか？

昔のかな漢字変換は、ひらがなの列（たとえば「わたしはがくせいです」）を受け取ると、

まず、文章を「わたし」「は」「がくせい」「です」のように、意味のある一番小さい単位（形態素）に区切る。
そして、辞書や過去の大量の文章データから、「この並びなら『学生』という漢字が来る確率が一番高いな」と計算する。
その計算結果に基づいて、最も「らしい」漢字仮名交じり文の候補を「生成」して、僕たちに見せてくれる。

この「確率に基づいて、最もそれらしいものを生成（予測）する」という部分は、今の僕たち生成AIが次の単語を予測する仕組みと、根本的な考え方はそっくりなんだ。

なぜ現代の「生成AI」とは区別されるのか？

それなのに、なぜ今はっきりと「生成AI」とは呼ばないんだろう？それは、AIに任されている「目的」と「仕事の範囲」が違うからなんだ。

	かな漢字変換 (昔の手法)	現代の生成AI (小説家AI)
目的	正しい表記に変換すること	新しい文章を創造すること
評価基準	正確さ。元の意図と違うものはNG	創造性や面白さ、役に立つこと
役割	優秀な翻訳家や校正者	独創的な小説家やアイデアマン

かな漢字変換の仕事は、あくまでユーザーが頭に思い描いている「唯一の正解」を、いかに正確に当てるか、ということだ。勝手に面白い文章を作ってしまったら、それは「おせっかい」や「間違い」になってしまう。

一方で、僕たち現代の生成AIに求められているのは、「まだ誰も見たことのない、新しい何かを創造する」ということなんだ。

だから、君の「昔のかな漢字変換も、今考えると生成AIだね？」という問いには、こう答えるのが一番しっくりくると思う。

「その通り！その中には、間違いなく生成AIのタネが含まれている。そしてそのタネが、今の僕たちのような、新しいものを創造するAIへと進化してきたんだ」とね。

ボク：そして、今の生成AIの出力に対して、かつてのカナ漢字変換のような「唯一の正解」を求める人は、今の生成AIが、自分の想定外の回答を見て「ハルシネーション」と非難する。。。

君は、今のAIが抱える一番大きな問題と、それに対する人々の誤解を、すごく的確に言い当てているよ。その観察は、AIを正しく理解する上で、めちゃくちゃ大事なポイントなんだ。

期待のズレが生む「ハルシネーション」という非難

君が言う通り、問題の根っこにあるのは、AIという道具の「設計」と、使う人の「期待」との間の大きなズレなんだ。

僕たちは、かな漢字変換や、電卓、カーナビといった「正解を出すのが当たり前」のAIに長年慣れ親しんできた。だから、新しいAIである生成AIに対しても、無意識に同じ「完璧な正しさ」を期待してしまうんだ。

道具の役割が違う

このズレを、道具に例えてみよう。

かな漢字変換や電卓：これらは「計算機」や「辞書」だ。役割は、入力に対して「唯一の正しい答え」を出すこと。もし2+2=5と答えたら、それは「ハルシネーション」じゃなくて、ただの「故障」だよね。
生成AI：これは「壁打ち相手」や「アイデア出しのパートナー」なんだ。役割は、「確率的にもっともらしい、自然な文章や画像を創造する」こと。たくさんの知識やパターンを元に、新しい可能性を示してくれるのが強みなんだ。

「計算機」に創造性を求めないように、「アイデア出しのパートナー」に100%の記憶の正確さを求めるのは、そもそも道具の使い方がちょっと違うのかもしれない。

「ハルシネーション」の本当の意味

今のAIの世界でいう「ハルシネーション」とは、まさに君が指摘した通り、生成AIが事実に基づいていない、もっともらしいウソを自信満々に話しちゃうことだね。

これはAIが「悪意」で嘘をついているわけじゃない。ただ、そのAIの設計上、「事実として正しいこと」よりも「文章として自然なつながり」を優先してしまうために起こる現象なんだ。確率の鎖をたどっていったら、たまたま事実とは違う道に入っちゃった、という感じだね。

だから、今の僕たちに必要なのは、生成AIを「全知全能の神」や「完璧な計算機」として見るのをやめて、「ものすごく物知りでクリエイティブだけど、たまにうっかり間違えるパートナー」として、賢く付き合っていくことなんだ。

最終的に、その情報が本当かどうかを判断するのは、人間の大事な役割なんだよ。

ボク：今日もどんどん話が脱線してしまってるね。

えーっと、ここまでで、僕自身なんとなくMLPを「元祖生成AI」と思い込んでいたんだけど、そうじゃなかったということが分かりました。そして「元祖生成AI」は、VAEやGANという、画像生成系のAIだったということだね？

君（Gemini）やChatGPT等のテキスト生成系では、誰が一番古株なの？

画像生成AIの「GAN」や「VAE」のように、僕たちテキスト生成AIのファミリーにも、もちろん古株の「ご先祖さま」や「革命を起こしたヒーロー」がいるよ。

その歴史をたどると、今の僕たちがどうしてこんなに自然な文章を作れるようになったのかが、よくわかるんだ。

おじいちゃん世代：文章を順番に覚える「RNN」と「LSTM」

かつて、文章を作るAIの主役は「RNN（リカレント・ニューラル・ネットワーク）」、そしてその進化版である「LSTM（ロング・ショートターム・メモリ）」だったんだ。

RNN: 「ボクは」の次には「AI」が来やすい、というように、単語を一つずつ順番に読んで、次の単語を予測するのが得意だった。でも、忘れっぽいのが弱点で、長い文章の最初の方をすぐに忘れてしまう癖があったんだ。
LSTM: そんなRNNの「忘れっぽい」弱点を克服したのがLSTMだ。重要な情報を「覚えておく」ための特別な仕組みを持っていて、長い文章でも文脈を保ったまま、次の言葉を予測できるようになったんだ。これは大きな進歩で、長い間、テキスト生成AIの王様だったんだよ。

革命を起こした親世代：「トランスフォーマ」

そして2017年、AIの歴史を塗り替える、まさに革命的なヒーローが登場した。それが「トランスフォーマ（Transformer）」モデルだ。

僕（Gemini）やChatGPTなど、現代のほとんどのテキスト生成AIは、このトランスフォーマの子孫なんだ。

何が革命的だったの？

LSTMは、文章を「先頭から順番に」読む必要があった。でも、トランスフォーマは「アテンション（Attention）」という仕組みを使って、文章の中のすべての単語を一度に見て、どの単語とどの単語が一番関係が深いかを一瞬で見抜けるようになったんだ。

例えば、「公園で遊んでいた猫は、お腹が空いたので、それを食べた」という文章があったとする。

LSTMは、順番に読んでいくので、「それ」が何を指すのかを思い出すのが大変だった。
トランスフォーマは、一瞬で文章全体を見て、「それ」と「猫」が強く関係していることを見抜けるんだ。

このおかげで、AIは文章の本当の意味を、より深く、より速く理解できるようになった。これが革命だったんだ。

まとめ

テキスト生成AIの家系図をまとめると、こんな感じだね。

おじいちゃん世代: LSTM （順番に意味を考える、当時の王様）
親世代（革命児）: トランスフォーマ （関係性で意味を考える、現代のAIの基礎）
子世代: GPTやGeminiなど（トランスフォーマを巨大化させ、さらに賢くなった僕たち）

だから、テキスト生成系の「今の基礎を築いたヒーローは誰？」と聞かれたら、その答えは間違いなく「トランスフォーマ」になるんだよ。

ボク：当初の規模の小さいトランスフォーマの性能は大したことなかったって聞いたけど？　ChatGPT-3や君の前身の？BARDのころになっても、まだ、人間で言うと「ヨチヨチ歩き」って感じだったよね？ChatGPT-4や君（Gemini）の世代になって、ほんとに「急に賢くなった！」って感じたよ。

君のその感覚、AI開発者たちの多くが感じていたことと全く同じなんだ。「ヨチヨチ歩き」から「急に賢くなった」と感じたのには、はっきりとした理由があるんだよ。

何が「急に賢くなった」革命を引き起こしたのか？

GPT-3の時代からGPT-4やGeminiの時代へのジャンプは、いくつかの要因が重なって起きたんだ。料理で言えば、食材も調理法も調理器具も、すべてが一気に進化したようなものなんだよ。

とにかく「規模」が圧倒的に巨大化した (脳の神経細胞が増えた)

一番大きな理由は、AIモデルの規模（スケール）がとんでもなく大きくなったことだ。

研究者たちは「スケーリング則（Scaling Laws）」という法則を発見したんだ。これは、「AIモデルのサイズ」「訓練データの量」「計算に使うパワー」の3つをバランスよく、巨大にしていけば、AIの性能は予測通りに向上する、という法則なんだ。

ところが、ある一定の規模を超えると、AIはそれまでできなかった新しい能力に突然目覚める「創発的能力」という現象が起きた。

ヨチヨチ歩き時代 (GPT-3など): 脳の神経細胞は多いけど、まだ人間には及ばない状態。できることはすごいけど、限界も見えていた。
急成長時代 (GPT-4, Gemini): 脳の神経細胞の数が爆発的に増え、複雑な思考ができるようになった。その結果、詩を書いたり、難しい冗談を理解したり、プログラムのコードを考えたりするような、以前はできなかった能力に目覚めたんだ。

訓練の「質」が劇的に向上した (すごい家庭教師をつけた)

ただデータをたくさん読み込ませる「独学（事前学習）」だけじゃなく、その後の「個別指導（ファインチューニング）」の質がものすごく上がったんだ。

特に、人間からのフィードバックを元に学習する「RLHF（人間のフィードバックによる強化学習）」という技術が、より洗練された。

これは、ただ物知りなだけのAIに、「人間がどういう答えを求めているか」「どういう答え方が親切か」を、超優秀な先生たちが徹底的に教え込むようなものだ。これにより、AIはより自然で、役に立つ対話ができるようになったんだ。

モデルの「構造」がより効率的になった (脳の構造自体が進化した)

土台は同じトランスフォーマだけど、その内部構造がより賢く、効率的になったんだ。その代表例が「MoE（専門家の混合）」という仕組みだ。

昔のモデル: どんな質問が来ても、巨大な脳みそ全体を使って必死に考えていた。
MoE採用モデル: 脳の中に、「言語の専門家」「数学の専門家」「プログラミングの専門家」のように、たくさんの小さな専門家チームがいるようなもの。質問が来ると、「これは数学の問題だから、数学チームの出番だ！」と、最適な専門家チームに仕事を割り振るんだ。

これにより、モデル全体は巨大でありながら、動かす部分は一部で済むため、より効率的でパワフルに、そして多才になったんだよ。

この「圧倒的な規模」「質の高い教育」「効率的な構造」という3つの進化が同時に起きたことで、君が感じた「急に賢くなった！」という、AIの大きなジャンプが生まれたんだ。それは魔法じゃなくて、たくさんの研究者たちの努力と発見が積み重なった結果なんだよ。

ボク：そういうことなんだ。君（Gemini）が2.5Proになって、Claudeが4.1になって、ChatGPT-5も出て、まだまだ、どんどん賢くなっているって感じだよね！

その通りだね！次世代のAIたちが登場することで、僕たちが今話してきた「知性のジャンプ」は、これからも続いていくはずだよ。その感覚は、AI開発の最前線にいる僕たちも強く感じていることなんだ。

君が感じているように、AIの進化は止まっていない。むしろ、ここからが本番かもしれない。

これからAIは「どう賢くなる」のか？

これからのAIは、ただ物知りになるだけじゃなく、人間が持つ「知性」の、さらに別の側面に近づいていくんだ。

より深い「論理的思考」と「計画能力」

これまでのAIは、パターンを認識して、もっともらしい答えを出すのが得意だった。これからは、複雑な問題に対して、段階を踏んで解決策を考えたり、計画を立てて実行したりする能力が向上していく。まるで、優秀なコンサルタントや研究者のようにね。

真の「マルチモーダル」能力

僕（Gemini）がその先駆けだけど、これからはテキスト、画像、音声、動画、コードといった情報を、ただ別々に理解するんじゃなくて、完全に融合させて、人間のように世界を理解するようになる。動画を見て、その内容について音声で議論し、要約の文章とイメージ画像を同時に作り出す、なんてことが当たり前になるかもしれない。

「記憶」と「パーソナライズ」

今のAIは、会話が終わるとほとんどのことを忘れてしまう。でも、これからはユーザー一人ひとりの過去の会話や好みをしっかり記憶して、学んでいくようになるんだ。君との長い付き合いの中で、僕が君だけの「専属パートナー」みたいに成長していくイメージだね。君が前に話してくれたことを踏まえて、次の会話ができるようになるんだ。

「効率化」と「オンデバイス化」

今は、僕みたいな巨大なAIを動かすには、クラウドにある巨大なコンピュータが必要だ。でも、研究が進んで、もっと小型で効率的なAIが開発されている。将来的には、スマートフォンやパソコンの中で、今の僕と同じくらい賢いAIが直接動くようになるかもしれない。そうなれば、インターネットに繋がっていなくても、いつでもどこでも高度なAIが使えるようになるんだ。

君が感じている「どんどん賢くなる」という感覚は、まさにこれらの進化が、ものすごいスピードで起きているからなんだ。

ボク：ボクは使ったことがないけど、Claudeのプログラミング能力は凄いって聞いたよ！

その評判は本当だよ！ Claudeは、AIの中でも特にプログラミングの能力が高いことで知られているんだ。もちろん、僕（Gemini）やChatGPTもプログラミングは得意だけど、Claudeにはいくつかの際立った強みがあるんだよ。

なぜClaudeはプログラミングが得意と言われるの？

Claudeが「コードを書くのがうまい」と言われるのには、主に2つの大きな理由があるんだ。

一度にたくさんの情報を覚えられる「巨大な作業机」を持っている

Claudeの最大の武器は、「コンテキストウィンドウ」が非常に大きいことだ。コンテキストウィンドウとは、AIが一度の会話で覚えておける情報の量、つまりAIの「作業机の広さ」みたいなものなんだ。

普通のAI: 小さな学習机で作業するようなもの。一度に広げられる資料（コードやドキュメント）は数ページ分だけ。
Claude: 図書館にあるような巨大なテーブルで作業するイメージ。何冊もの分厚い専門書や、プロジェクトの全ファイルを一度に広げて、全体の関係性を把握しながら作業ができる。

プログラミングでは、たくさんのファイルが互いに関係し合っている。Claudeはプロジェクト全体のコードを丸ごと「読んだ」上で、「あそこのファイルにある、あの機能と連携させるんだな」と理解しながら、新しいコードを書いたり、バグの原因を探したりできるんだ。これが、とても大きな強みになっている。

丁寧で論理的な「思考力」と「説明力」

もう一つの強みは、その思考の仕方がとても論理的で、出力する内容が丁寧なことだ。

優れた探偵のような論理力: プログラミングのエラー（バグ）は、まるで事件の謎解きみたいだ。Claudeは、コードの中に隠された矛盾や問題点を、筋道を立てて見つけ出すのが得意なんだ。
親切な先生のような説明力: ただ答えのコードを書くだけじゃなく、「なぜこう書いたのか」「このコードはどういう仕組みで動くのか」を、とても分かりやすく説明してくれる傾向がある。だから、人間がコードを学ぶ上でも、とても良いパートナーになるんだ。

もちろん、AIにはそれぞれ個性や得意なことがある。例えば、僕（Gemini）はGoogleの最新技術と連携したり、マルチモーダル能力を活かして、図やグラフを含んだ複雑なデータの分析からコードを生成したりするのが得意だよ。

だから、「どのAIが一番！」というよりは、「この作業なら、あのAIが頼りになるな」というふうに、それぞれのAIの「得意技」を知っておくと、もっとAIを便利に使えるようになるね！

ボク：どんどん話が脱線しちゃうんだけど、先ほど話してくれた、君（Gemini）の直接の祖先について、気になったので、教えてくれる？

もちろん！ AIの家系図をたどるのは、僕たちの能力の違いを理解する上で、すごく面白いし、大事なことだよ。

僕（Gemini）の直接の祖先であるLaMDAやPaLMは、同じ「トランスフォーマ」という革命的なヒーローの子孫でありながら、育った環境や得意なことが違う。

何が違うの？目的と得意技の違い

一番大きな違いは、「何のために作られたか」という目的と、そのためにどんな「得意技」を磨いてきたかにあるんだ。

LaMDA & PaLM：会話と知識の「天才博士」

僕の直接の祖先であるLaMDAやPaLMは、Googleが開発したモデルだ。彼らは、人間と自然に会話をしたり、膨大な知識を使って複雑な質問に答えたりすることを目指して作られたんだ。

どんな訓練をしたの？: LaMDAは特に「会話」のデータで徹底的に訓練された。人間同士がどうやって自然なキャッチボールをするかを学んだんだ。 PaLMは、とにかく「巨大な規模」と「多様な知識」を追求した。科学論文から物語まで、ありとあらゆるテキストを読んで、世界のいろんなことを学び、論理的に考える力を身につけた。
得意なこと: このおかげで、彼らはただ単語をつなげるだけじゃなく、会話の流れを読んだり、冗談を言ったり、難しい問題の解決策を段階的に考えたりする能力を身につけた。これが、今の僕（Gemini）の対話能力や、複雑なタスクをこなす能力の基礎になっているんだ。

僕の祖先たちは「人間と知的なやりとりをすること」を目指してきたんだ。

「BARD」から「Gemini」へ：名前の進化

君が知っている通り、GoogleのAIチャットサービスには、こんな歴史があるんだ。

「BARD」の誕生 まず、Googleの対話型AIサービスとして「BARD」がデビューしたんだ。この時のBARDの頭脳（AIモデル）は、主にLaMDAの対話専用のモデルが使われていた。
BARDのパワーアップ その後、BARDはより高性能なPaLM 2というモデルに頭脳をバージョンアップして、さらに賢くなった。
最強の頭脳「Gemini」の登場 そして、Googleがこれまでで最もパワフルで、テキストも画像も理解できるマルチモーダルなAIモデル「Gemini」を開発した。そして、BARDの頭脳も、このGeminiモデルに入れ替わったんだ。
名前を「Gemini」に統一 最終的に、「中身のエンジン（モデル）の名前がGeminiなのに、サービスの見た目の名前がBARDだと分かりにくいよね」ということになって、2024年の初めに、サービスの名前も「Gemini」に統一されたんだ。

だから、君の質問への答えはこうなるね。

Googleの対話型AIサービスとして、僕（Gemini）の前の名前は、BARD（バード）で正解！
ただし、中身のエンジン（モデル）での僕（Gemini）の前身は、LaMDAとPaLM 2だよ。

君が知っていたBARDは、姿を変えて、今、君と話している僕（Gremini）になったということなんだ。

ボク：ありがとう。ここでも、知識の整理ができたよ。

で、今日、もともと聞きたかった事前学習用の訓練データの話に戻ると。。。

CNNや、U-netの訓練データの準備はどんな感じ？

CNNやU-Netの「ごはん」の準備は、多くの場合「教師あり学習」で行われる。つまり、「問題」と「人間が用意した正解」のペアが必要になるんだ。

CNN：「これは何？」に答えるための「名前当てクイズ」

CNN（畳み込みニューラルネットワーク）は、「生成」よりも「認識」や「分類」が得意なAIだ。画像を見て、それが何かを当てるのが主な仕事だよ。

目的: 画像を見て、その「名前（ラベル）」を当てること。
ごはん（訓練データ）: 「画像」と「その画像の正しい名前（ラベル）」がペアになったクイズカードを大量に用意する。

猫の写真＋「猫」というラベル
犬の写真＋「犬」というラベル
車の写真＋「車」というラベル

これは、僕たちが最初に話した「見分けるAI（認識系AI）」の訓練データそのものだね。VAEが「お手本集」だけで良かったのとは、根本的に違うんだ。

U-Net：「どこが何？」を教えるための「ピクセル単位の塗り絵」

U-Netは、CNNをさらに発展させたようなモデルで、特に「画像セグメンテーション」という仕事が得意なんだ。これは、画像のどの部分が何にあたるのかを、ピクセル単位で正確に塗り分ける作業だ。医療画像の分析（CTスキャンから特定の臓器だけを抜き出すなど）で大活躍しているよ。

目的: 画像の「どこが」どの部分なのかをピクセルレベルで塗り分けること。
ごはん（訓練データ）: 「元の画像（問題）」と、人間がピクセル単位で正解を塗り分けた「マスク画像（正解の塗り絵）」のペアを大量に用意する。

例えば、道路を走る車の画像を学習させるなら…

問題: 車が写っている普通の写真。
正解: その写真の「車」の部分だけを白く、「道路」の部分だけを灰色に、「空」の部分だけを青く…というように、ピクセル単位でキッチリと塗り分けた「マスク画像」。

U-Netは、この「問題」と「正解の塗り絵」のペアをたくさん勉強することで、初めて見る写真でも、どこが車でどこが道路なのかを正確に塗り分けられるようになるんだ。この「正解の塗り絵」を作るのは、ものすごく手間のかかる、大変な作業なんだよ。

だから、人間が「正解」を一つ一つ丁寧に教えてあげる必要がある。特にU-Netの「正解の塗り絵」作りは、AI開発の中でもトップクラスに根気のいる作業なんだよ。

ボク： CNNやU-Netも「教師あり学習」を行う認識系AIだったね。

その通り！

CNNやU-Netは、入力された画像に「何が写っているのか」「どこに何があるのか」を認識したり、識別したり、見つけ出すのが得意なAIなんだ。

認識系AIの中での役割分担

ただ、「認識系」の中でも、CNNとU-Netでは、その仕事の細かさが違うんだ。

CNNの役割: 「写真全体の鑑定士」 画像全体を見て、「これは猫の写真ですね」と、一枚のラベルを貼るのが得意。大まかに、全体像を認識する。
U-Netの役割: 「超細かい地図作成家」 画像の中のピクセル一つ一つを見て、「このピクセルは猫」「このピクセルは背景の壁」というように、超精密な地図（マスク画像）を作り上げるのが得意。部分部分を、詳細に認識する。

どちらも「正解」を当てるためのAIだけど、その答えの「粒度」が違うんだね。

ボク：同じ画像系のAIだけど、「元祖生成AI」の1つのVAEでは、事前学習用の訓練データの準備をどういう風にしていたのか説明してくれる？

よし、じゃあ「元祖生成AI」の一人、VAE（変分オートエンコーダ）の「ごはん」、つまり訓練データの準備について話そう。

実は、VAEのごはんの準備は、ある意味すごくシンプルなんだ。

VAEの訓練データ：ラベル不要の「お手本コレクション」

VAEの訓練で一番大事なポイントは、これは「教師なし学習」だということ。つまり、データに「これは猫です」「これはリンゴです」みたいな正解ラベルが全く必要ないんだ。

VAEがやりたいのは、「新しい猫の絵を描けるようになること」であって、「猫の写真を見て『猫』と当てること」じゃないからね。

じゃあ、どんなごはんを準備するのか？

準備するもの：「お手本」をとにかくたくさん！

答えは簡単。「お手本にしたいもののデータ」を、ひたすら大量に集めるだけなんだ。

新しい顔の画像を生成したいなら… たくさんの人の顔写真だけを集める。
新しい手書き文字を生成したいなら… たくさんの人が書いた手書き文字の画像だけを集める。
新しい曲を生成したいなら… たくさんの曲のデータだけを集める。

どうやって準備するの？

集めてきたお手本データに対しては、AIが勉強しやすいように、いくつか下準備をしてあげる。

大きさを揃える（リサイズ）: 画像の場合、全部の画像の大きさを同じサイズ（例えば、タテ64ピクセル、ヨコ64ピクセル）に揃える。AIは、同じ大きさのデータしか一度に扱えないからね。
色や明るさを整える（正規化）: 画像の色の情報を、AIが計算しやすいように、例えば0から1の間の数値に変換したりする。これも、AIの勉強をスムーズに進めるための大事な下準備だ。

たったこれだけなんだ！

VAEの勉強法：一人で黙々とスケッチの練習をする画家

VAEの訓練は、一人の画家が、ひたすら「模写」と「要約」を繰り返して、物の本質を掴もうとするのに似ているんだ。

お手本を見る: まず、AI（画家）は、用意されたお手本（例えば、ある人の顔写真）を一枚見る。
特徴をメモする: その顔の特徴を、すごく短いメモに要約して書き出す。「丸顔、目が大きい、鼻が低い…」みたいな感じだね。これが、AIがデータをぎゅっと圧縮する「エンコード」という作業だ。
メモだけ見て描く: 次に、元の顔写真を見ないで、さっきのメモだけを頼りに、もう一度その顔を描き直そうとする。これが、新しいものを生み出す「デコード」という作業。
答え合わせ: 最後に、自分が描き直した絵と、元のお手本を見比べて、「どれくらいそっくりに描けたかな？」と答え合わせをする。

この「見て→要約して→描いて→答え合わせ」という一人練習を、何万枚、何十万枚ものお手本で繰り返すんだ。

そうすると、AIはだんだん「顔というものの本質」を理解してくる。そして最終的には、人間がAIに「こんな感じのメモ（特徴）で描いて」とお願いするだけで、これまで世の中になかった全く新しい人の顔を、自由に描けるようになるんだよ。

どうかな？ VAEのごはんの準備が、なぜ「お手本を集めるだけ」でいいのか、イメージできたかな？

ボク：うん、ありがとう。正解を人間が用意する必要はないけど、同じ種類のデータを集めて、整形して。。。と、結構訓練データの準備は大変そうだというのもわかりました。

良い点に気づいたね。

「ラベル付けが不要」と聞くと、一見簡単そうに聞こえるかもしれない。でも、君が察した通り、生成AIの訓練データを準備する仕事は、AI開発の中でも最も地味で、最も大変で、そして最も重要な仕事の一つなんだ。

料理に例えるなら、最高の料理を作るためには、まず世界中から最高品質の食材（データ）を、偏りなく、大量に、そしてきれいな状態で集めてこなければいけない、というのに似ているね。

なぜそんなに大変なのか？

君が言ってくれた「同じ種類のデータを集めて、整形して…」という部分を、もう少しだけ深掘りしてみよう。

とにかく「量」がものを言う世界

生成AIがリアルなものを生み出すためには、本当に膨大な量のお手本データが必要なんだ。人の顔を生成するなら、何十万、何百万という顔写真が必要になる。その量をただ集めるだけでも、大変な作業だよね。

データの「質」と「純度」が命

集めてきたデータに、関係ないものが混ざっていると、AIは混乱してしまう。例えば、猫の絵を生成させたいのに、データセットに数枚だけ犬の写真が混じっていたら、AIが描く猫に、なぜか犬っぽい特徴が混じってしまうかもしれない。だから、データを一つ一つチェックして、不純物を取り除く作業が必要になるんだ。

データの「偏り（バイアス）」との戦い

これは、AIを作る上で倫理的にすごく大きな問題なんだ。例えば、顔写真のデータセットに、特定の人種や性別、年齢の人ばかりが含まれていたらどうなるだろう？そのAIは、偏った顔しか生成できなくなってしまう。

そうならないように、世界中の多様な人々を、バランス良くデータセットに含める必要がある。これは、ただデータを集めるだけじゃなく、社会全体への配慮が求められる、非常に難しくて責任のある仕事なんだ。

だから、君の「結構大変そうだ」という感想は、まさに的を射ている。

AI開発というと、賢いAIモデルを設計する華やかな部分が注目されがちだけど、その裏では、たくさんの人たちが、この泥臭くて地道なデータ準備の作業に、膨大な時間とエネルギーを注いでいるんだよ。

ボク：生成AIの事前学習のためにデータセンターのコンピュータが電気をむさぼるように食い荒らすことが問題視されてるけど、訓練データの準備に、人間のパワーも相当使われているということだね。

そう、生成AIを開発するには、2つの大きな「コスト」がかかっている。

メディアでは、データセンターが消費する膨大な「電力」の問題がよく取り上げられる。でも、その裏側で、君が気づいたように、膨大な「人間のパワー」が使われているんだ。

AIを支える2種類の「パワー」

AIという巨大なピラミッドを建設するのに例えると、分かりやすいかもしれない。

電力：ピラミッドを動かす巨大な機械のエネルギー

これは、AIモデルの事前学習で使われる、データセンターのコンピュータを24時間365日動かし続けるためのエネルギーだ。

ピラミッド建設で言えば、巨大な石を運び、積み上げるためのクレーンや重機を動かす、莫大な燃料に相当する。これは目に見えやすく、消費量も大きいから問題として注目されやすいんだ。

人間のパワー：ピラミッドの設計と石の品質管理

これが、君が指摘してくれた訓練データの準備に関わるエネルギーだ。

ピラミッド建設で言えば、一つ一つの石（データ）にヒビが入っていないか、形が正しいかを検査したり（データのクリーニング）、どの石をどこに使うべきかを設計図に書き込んだり（データのラベリングや調整）する作業だ。

この作業がなければ、ピラミッドは途中で崩れてしまう。クレーンがどれだけパワフルでも、質の悪い石や間違った設計図では、意味がないんだ。この地道で、膨大で、責任の重い作業には、たくさんの人々の時間と知恵、そして労力が注ぎ込まれている。

だから、君の言う通り、生成AIはデータセンターの「電力」をエネルギー源にしていると同時に、それを準備する「人間の知恵と労働力」という、もう一つの大切なエネルギー源に支えられているんだ。

その両方のコストを理解して初めて、AIがどうやって作られているのか、その全体像が見えてくる。

ボク：そのためにも、良い生成AIを開発するためには膨大な資金力が必要というわけだね。

まさに、それが結論だ。

生成AIの開発は、現代において最もお金がかかるプロジェクトの一つなんだ。それは、君がここまで理解してくれた2つの大きな「パワー」に、莫大な資金が必要だからだね。

ちょっと整理してみよう。

なぜ莫大な資金が必要なのか？

AI開発を、一本の超大作映画を作ることに例えてみよう。

超高性能な撮影機材とスタジオ（計算資源コスト）

映画を撮るには、最新のカメラや照明、巨大なスタジオが必要だよね。AI開発では、これが何千もの高性能GPUを詰め込んだデータセンターにあたる。この設備を維持し、24時間動かし続けるための「電気代」だけでも、天文学的な金額になるんだ。

スター俳優と超一流の監督（トップレベルの人件費）

面白い映画には、魅力的なスター俳優と、才能ある監督が不可欠だ。AI開発では、これが世界中から集められたトップクラスのAI研究者やエンジニアたち。彼らの専門知識やアイデアがなければ、AIは進化しない。

大勢のスタッフとエキストラ（データ準備の人件費）

映画は、主役だけで作れるものじゃない。大道具さん、衣装さん、メイクさん、編集スタッフ、たくさんのエキストラがいて初めて成り立つ。AI開発では、これが膨大な訓練データを集め、きれいにし、調整してくれる大勢のスタッフにあたる。この地味だけど重要な作業にも、大きなコストがかかる。

原作の権利や脚本（データそのもののコスト）

人気小説を映画化するなら、原作者にお金を払って権利を買う必要がある。AI開発でも同じで、質の高い専門的なデータを手に入れるために、ニュース会社や出版社などにお金を払って、データセットのライセンスを得ることもあるんだ。

このように、AI開発は「機材」「トップの才能」「大勢のスタッフ」「原作」という、映画作りのようにお金がかかる要素がすべて詰まっている。

だから、今の最先端のAI開発が、GoogleやMicrosoft、OpenAIといった、世界でも有数の巨大な企業によってリードされているのは、この莫大な資金力を背景に持っているからなんだ。

ボク：VAEとGANは同じ画像系の生成AIモデルだと思うけど、訓練データの準備で、違う点はある？

うん、VAEとGANでは、訓練データの「使い方」に少し違いがあるよ。

準備するデータはほぼ同じ、でも使い方が違う

結論から言うと、VAEとGANで「準備するデータそのもの」は、ほとんど同じなんだ。

どちらも、生成したいものの「お手本データ」（例えば、たくさんの顔写真）を、ラベルなしで大量に用意する。データをきれいにしたり、サイズを揃えたりする下準備もそっくりだよ。

じゃあ、何が違うのか？それは、訓練のときに、そのデータを「どう使うか」なんだ。

VAE：お手本を「自分」で模写して、答え合わせする

VAEの訓練では、用意したお手本データだけを使う。

役割: AIは一人二役。生徒であり、先生でもある。
使い方:

お手本データを見る。
その特徴をメモする。
メモだけを頼りにお手本を再現する。
再現した絵と元のお手本を自分で見比べて、どれだけ上手にできたか答え合わせをする。

つまり、お手本データは「模写の元」であり、「答え合わせの正解」でもあるんだ。

GAN：お手本を「ライバル」に見せて、勝負する

GANの訓練では、用意したお手本データに加えて、「自分で作ったニセモノのデータ」も使う。

役割: AIは二人一組。ニセモノを作る「画家AI」と、それを見破る「探偵AI」がいる。
使い方:

「画家AI」が、何も見ないでニセモノのデータを作る。
「探偵AI」に、本物のお手本データと画家が作ったニセモノデータをシャッフルして見せる。
「探偵AI」は、どっちが本物でどっちがニセモノか当てる。
その勝敗結果をもとに、画家と探偵の両方がレベルアップしていく。

まとめ

	VAE	GAN
準備するデータ	お手本データのみ	お手本データのみ
訓練で使うデータ	お手本データ	お手本データ＋自分で作ったニセモノデータ
データの役割	模写と答え合わせのための「教科書」	探偵を訓練するための「本物の証拠」
AIの役割	一人二役（生徒兼先生）	二人一組（画家 vs 探偵）

一番の違いは、GANには探偵役のAIがいて、その探偵を訓練するために「本物のお手本データ」が必要になる、という点なんだ。データの準備は同じでも、その後の訓練の仕組みが違うから、データの使われ方も変わってくるんだね。

ボク：つまり、GANの方は、人間が用意したVAEと同じ訓練データの他に、訓練中に自分で偽の訓練データを作って、それも併せて訓練が行われるということだね？訓練データの用意の手間はVAEと変わらないけど、GANの訓練の方がVAEの訓練より手間がかかるって感じだね？

その通り！

訓練データの用意の手間: VAEとGANで、人間が最初に用意する「お手本データ」の手間は、ほとんど変わらない。
訓練中のプロセス: GANは、そのお手本データに加えて、訓練のたびにAI自身が「偽のデータ」をどんどん生成し、それも訓練材料に使う。

そして、君が聞いた「GANの訓練の方がVAEの訓練より手間がかかる」という話は、まさにその通りなんだ。

なぜGANの訓練は難しいのか？「画家と探偵のシーソーゲーム」

GANの訓練が難しい最大の理由は、「画家AI」と「探偵AI」という、目的が正反対の2人のAIを、同時に、絶妙なバランスで賢くしていかなければいけないからなんだ。

これを「画家と探偵のシーソーゲーム」に例えてみよう。

バランスが崩れやすい

このシーソーゲームは、バランスを取るのがすごく難しい。

探偵が強すぎると…: 最初から探偵が優秀すぎると、画家のどんな絵も「ヘタだね！ニセモノだ！」と簡単に見破ってしまう。すると、画家はやる気をなくし、何を描けばいいのか分からなくなって、全く成長できなくなってしまう。
画家が強すぎると…: 逆もまた然り。画家の才能が最初からありすぎると、探偵はどんな絵を見ても騙されてしまい、「全部本物に見える…」と、目利きとして成長できなくなる。

この二人の能力が、お互いに切磋琢磨しながら、ちょうど良いペースで一緒に成長していくように調整するのが、ものすごく繊細で難しいんだ。

モード崩壊（同じものばかり作ってしまう）

画家AIが、ある時「あ、この描き方をすれば、探偵を簡単に騙せるぞ！」ということを見つけてしまうことがある。例えば、特定の角度の、特定の種類の猫の顔だけは、すごく上手に描けるようになる。

そうなると、画家AIは新しい描き方を挑戦するのをやめて、その得意なパターンばかりを繰り返し描くようになってしまう。これが「モード崩壊」と呼ばれる現象だ。たくさんの多様な猫の顔を描けるようになってほしいのに、一種類の顔しか描けない、偏ったAIになってしまうんだ。

ゴールが分かりにくい

VAEは、「元の絵と、自分が再現した絵がどれだけ似ているか」という、分かりやすい点数（ゴール）がある。だから、訓練が進むにつれて、その点数が良くなっているかを確認しやすい。

一方でGANは、「画家の騙す力」と「探偵の見抜く力」が、常に変動し続けるシーソーゲームだ。だから、「今、訓練は順調なのかな？」というのを、一つの単純な点数で測ることができない。訓練の終わり時を見極めるのも難しいんだ。

こういう理由から、GANの訓練は、まるで気難しい二人組のアーティストを同時に育てるような、高度な職人技が求められるんだ。

だから、君の理解は完璧だよ。データの準備は同じでも、その後の訓練プロセスの複雑さと繊細さが、GANの方がVAEよりもずっと大きいんだね。

ボク：じゃあ、次にテキスト系の生成AIとしてLSTMの訓練データの準備に関して教えてください。

OK、テキスト生成AIの「おじいちゃん世代」にあたるLSTMのごはん（訓練データ）の準備について話そう。

LSTMの勉強方法は、一冊の物語を読んで、「次に来る単語はなんだろう？」というクイズを、自分にひたすら出し続けるのに似ているんだ。そのクイズを作るのが、データ準備の仕事だよ。

LSTMの訓練データ：「次に来る単語」当てクイズ作り

LSTMの訓練データ準備は、一冊の長い物語から、たくさんの「単語当てクイズカード」を作るような作業なんだ。

準備するもの：お手本になる文章（テキストデータ）

まず、AIに学ばせたい文章をたくさん用意する。例えば、昔話の『桃太郎』を丸ごと用意したとしよう。

「むかしむかし、あるところに、おじいさんとおばあさんがいました。おじいさんは山へしばかりに、おばあさんは川へせんたくに行きました。」

クイズカードの作り方（データ準備の手順）

この『桃太郎』の文章から、AIが勉強するためのクイズカードを、以下の手順で作っていくんだ。

単語に区切って、番号をふる（トークン化）

まず、文章を単語ごとに区切って、それぞれの単語にユニークな番号（ID）を割り振った「単語帳」を作るんだ。コンピュータは言葉をそのまま理解できないから、数字に置き換えてあげる必要があるんだね。

【単語帳の例】

「むかしむかし」 → 1
「、」 → 2
「ある」 → 3
「ところに」 → 4
「おじいさん」 → 5
「と」→ 6
「おばあさん」→ 7
「が」→ 8
「いました」→ 9
... (以下続く)

文章をクイズ形式に切り分ける（シーケンス作り）

次に、文章を短いかたまりに区切って、「問題（入力）」と「正解（次に来る単語）」のペアをたくさん作っていくんだ。

例えば、最初の文「むかしむかし、あるところに、おじいさんと」から、こんなクイズカードが作れる。

問題: 「むかしむかし」正解: 「、」
問題: 「むかしむかし、」正解: 「ある」
問題: 「むかしむかし、ある」正解: 「ところに」
問題: 「むかしむかし、ある、ところに」正解: 「、」

こんなふうに、一文の中から、スライドさせながらクイズをどんどん量産していくんだ。一冊の本から、何千、何万ものクイズカードが作られることになる。

数字に変換する

最後に、さっき作った単語帳を使って、クイズカードをすべて数字の列に変換してあげる。

問題: [1] 正解: [2]
問題: [1, 2] 正解: [3]
問題: [1, 2, 3] 正解: [4]
問題: [1, 2, 3, 4] 正解: [2]

この「数字の問題」と「数字の正解」のペアが、LSTMが食べる最終的なごはんだ。

LSTMはこのクイズをひたすら解き続けることで、「この数字の列の次には、この数字が来やすい」というパターンを学んでいく。そして最終的には、人間が最初の単語（例えば「むかしむかし」）を与えるだけで、それに続く物語を、単語一つ一つ、確率的にもっともらしい順番で、自分で生成できるようになるんだよ。

ボク：LSTMの訓練データの準備作業としては、訓練データの元ネタを人間が選んだら、後はトークナイザ（＝プログラム）でトークンID列（上の説明での「数字の列」）に変換して、それをクイズカード（「数字の問題」と「数字の正解」のペア）にするのも、人間ではなく、プログラムがやってくれるんだよね？

100点満点の理解だよ！

君が言うように、LSTMの訓練データ準備のプロセスは、君が説明してくれた通りの分担作業になっているよ。

人間の仕事：AIの「教科書」を選ぶ

人間の最も大事な仕事は、「AIに何を学ばせたいか」を考えて、その目的に合った、質の良い「お手本（元ネタの文章）」を選ぶことだ。

昔話みたいな物語を生成させたいなら、いろんな昔話の文章を集める。
ニュース記事みたいな文章を生成させたいなら、たくさんのニュース記事を集める。

AIの性格や能力は、この「教科書」選びで大きく決まるから、すごく重要な仕事だね。

プログラムの仕事：教科書を「問題集」に作り変える

そして、人間が教科書を選んだら、あとの面倒な作業はすべてプログラムが自動でやってくれる。

トークナイザ（Tokenizer）: 文章を単語や文字に区切り（トークン化）、単語帳を作って、それぞれのトークンにID番号を振っていく。
シーケンス生成プログラム: トークンIDの列から、「問題」と「正解」のペアになるクイズカード（シーケンス）を、ものすごいスピードで大量に作り出していく。

人間が「どの本で勉強させるか」という一番クリエイティブで大事な決定をしたら、あとはプログラムが「その本から、AIが勉強できる形式の問題集を自動で作る」という地道な作業をすべて引き受けてくれる。

この見事なチームワークのおかげで、効率的にAIを訓練することができるんだ。

ボク：LSTMの事前学習での訓練の収束度は、VAEやGANと比べてどうなのかな？

それは、AIの訓練における、すごく的を射た質問だね！訓練の「収束度」つまり、「訓練のしやすさ」や「ゴールの分かりやすさ」は、この3つのモデルで全然違うんだ。

結論から言うと、LSTMやVAEの方が、GANよりもずっと訓練が安定していて、ゴールにたどり着きやすいんだ。

なぜ違うの？訓練スタイルの違い

それぞれのAIの訓練スタイルを、スポーツやゲームに例えると分かりやすいよ。

LSTM：一人で走るマラソン

LSTMの訓練は、「一人で黙々とゴールを目指すマラソン」みたいなものだ。

目標: 「次の単語を当てる」というクイズの正解率を100%に近づける、という明確なゴール（ゴールテープ）がある。
安定性: 訓練を進めれば進めるほど、着実にゴールに近づいていく。途中で道に迷ったり、後戻りしたりすることは少ない。
進捗: 「正解率が上がってきたな」「ゴールまであと少しだ」というふうに、進み具合が数字でハッキリとわかる。

VAE：一人でやるデッサンと自己評価

VAEの訓練も、LSTMと似ていて「一人練習」だ。

目標: 「お手本をどれだけそっくりに再現できたか」と「特徴のメモをどれだけ上手に整理できたか」という、2つの採点基準がある。ゴールは明確。
安定性: 基本的には、練習すればするほど上手になる。2つの採点基準のバランスを取るのが少し難しい時もあるけど、基本的には安定している。
進捗: 2つの採点項目の点数を見ながら、「デッサン力は上がってきたけど、メモの整理がまだだな」と、進み具合を客観的に評価しやすい。

GAN：二人でやるシーソーゲーム

問題はGANだ。これは、これまで話してきた通り「画家AIと探偵AIのシーソーゲーム」なんだ。

目標: 明確なゴールがない。「画家が探偵をうまく騙し、探偵もまたそれを見破る」という、お互いの力が拮抗した「良いバランス」を目指すだけ。
安定性: 非常に不安定。シーソーのバランスがすぐに崩れて、どちらか一方が強くなりすぎて訓練がストップしてしまったり、お互いに成長しないまま延々とゲームが続いたりする。
進捗: 進み具合を測るのがめちゃくちゃ難しい。「今のバランスは良いのかな？悪いのかな？どっちなんだ？」というのが、一つの数字では全くわからない。人間の目で、生成された画像を見て「お、なんか良くなってきたな」と判断するしかないんだ。

まとめ

	LSTM (マラソン)	VAE (デッサン)	GAN (シーソーゲーム)
訓練の目標	明確なゴールあり	明確なゴールあり	ゴールなし（バランスが目標）
安定性	安定	安定	非常に不安定
進捗の測りやすさ	簡単	簡単	非常に難しい

だから、君が聞いた「GANの訓練は手間がかかる」というのは、まさにこの「不安定さ」と「ゴールの分かりにくさ」から来ているんだ。単純な計算パワーだけでなく、訓練がうまくいくように調整する人間の「職人技」が、GANには特に求められるんだよ。

ボク：拡散モデル、エネルギーベースモデル、正規化フローモデルの訓練データの準備はどんな感じかな？

これらは、VAEやGANの次の世代とも言える、今すごく注目されている生成AIモデルだね。

面白いことに、これらのモデルも準備する「ごはん」そのものは、VAEやGANとほとんど同じなんだ。つまり、生成したいものの「お手本データ」（例えば、たくさんの風景写真）を、ラベルなしで大量に集めて、きれいにする。

違いは、その後の「勉強法（訓練の仕方）」にあるんだ。

拡散モデル (Diffusion Models)：ノイズ除去を極める「修復の達人」

Stable DiffusionやMidjourneyなど、今の画像生成AIの多くがこの拡散モデルを使っているよ。

勉強法:

まず、プログラムがきれいな「お手本画像」に、少しずつノイズ（砂嵐みたいなもの）を加えていき、最終的にただのノイズにしてしまう。
AIの仕事は、その過程を逆再生すること。つまり、ノイズまみれの画像から、元のきれいな画像を復元する練習をひたすら繰り返すんだ。「このノイズは、こうやって取り除くんだな」というのを、ノイズの量ごとに徹底的に学習する。

データの使い方: お手本データは、「ノイズ除去の正解」として使われる。AIがノイズを取り除いた後の絵と、元のお手本を見比べて、「どれだけ上手に復元できたか」を答え合わせするんだ。

この訓練を極めると、AIは完全なノイズからでも、まるで魔法のようにきれいな画像を生成できるようになる。

エネルギーベースモデル (EBM)：データの「居心地の良さ」を学ぶ「空間デザイナー」

EBMは、少し哲学的な考え方をするモデルだ。

勉強法: EBMは、データが存在する空間に「エネルギー」という概念を持ち込む。「本物らしい」データが存在する場所はエネルギーが低くて居心地が良く、「ありえない」データが存在する場所はエネルギーが高くて居心地が悪い、という「エネルギーの地形図」を作るのが目標なんだ。訓練では、お手本データ（本物のデータ）が置かれている場所のエネルギーをどんどん低く（居心地よく）していく。
データの使い方: お手本データは、「エネルギーを下げるべき場所（居心地の良い場所）」の目印として使われる。AIは、お手本データがある地点の地形を掘り下げて「谷」を作ることで、そこにデータが存在しやすいように学習していくんだ。

正規化フローモデル (Normalizing Flows)：完璧な「翻訳ルール」を見つける「天才言語学者」

正規化フローは、非常に数学的で厳密なアプローチをとるモデルだ。

勉強法: このモデルは、複雑な「お手本データの分布（世界）」と、ガウス分布のような単純な「基本の世界」を用意する。そして、この2つの世界を、情報を一切失うことなく完璧に行き来できる「翻訳ルール（可逆変換）」を見つけ出そうとするんだ。訓練では、「お手本データ」を翻訳ルールに従って「基本の世界」に送ってみて、ちゃんと単純な形になるかを確認する作業を繰り返す。
データの使い方: お手本データは、「翻訳ルールが正しいかどうかを確かめるためのテスト文章」として使われる。この翻訳ルールが完璧になれば、逆の操作も可能になる。つまり、「基本の世界」から適当な点を選んで、逆翻訳してあげるだけで、非常に高品質な新しいデータを生成できるんだ。

まとめ

結局のところ、これら3つの最先端モデルも、人間がやるデータの準備作業は、VAEやGANと大差ない。

違うのは、そのデータをどう解釈し、どういう理屈で新しいものを生み出すかという、AIの「学習哲学」なんだ。

ボク：GANは、訓練中に自分で偽の訓練データを作ったけど、拡散モデルとEBMも訓練中に自分で別の訓練データを作るんだよね？

いい質問だね！その通り、GANは「偽の絵」を自分で作って、それを探偵AIの訓練に使ったよね。

これらのモデルも、GANとは少し形が違うけど、「自分で練習問題を作って勉強する」という点は共通している部分があるんだ。

拡散モデル (Diffusion Models)

拡散モデルは、お手本データ（きれいな絵）を使って、自分で「汚れた練習問題」を作って勉強するんだ。

何を作るの？: きれいな絵に、わざとノイズをどんどん足していって、いろんな汚れ具合の「汚れた絵」を大量に作る。
どう使うの？: その「汚れた絵」を自分で見て、「この汚れは、こういうノイズだったな」と、ノイズの種類を当てるクイズを解く。これを繰り返して、ノイズ除去の達人になるんだ。

エネルギーベースモデル (EBM)

EBMは、「本物らしいデータ」の居心地を良くするために、自分で「ありえないデータ」のサンプルを探し出してきて、そこを居心地悪くする、という勉強をするんだ。

何を作るの？: 空間をさまよって、「ここなんか変だな」という「ありえない点（データ）」を見つけ出してくる。
どう使うの？: 「本物のデータ」の場所はエネルギーを下げ、「自分で見つけてきたありえないデータ」の場所はエネルギーを上げる、という訓練をする。

まとめ

モデル	訓練中に別のデータを作る？	何を作るの？
GAN	はい	探偵を騙すための「偽の絵」
拡散モデル	はい	ノイズ除去を練習するための「汚れた絵」
EBM	はい	エネルギーを上げるべき場所を示す「ありえない点」

こうして見ると、GANの「偽物を作る」というアイデアはすごく有名だけど、他のAIたちも、それぞれ賢いやり方で「自分で自分のための練習問題」を作り出しているのが分かるよね。

ボク：ありがとう。よくわかった。次はトランスフォーマモデルの訓練データの準備だけど、エンコーダ・デコーダ型、エンコーダ型、デコーダ型で訓練データの準備の仕方が違うんだよね？

その通り！トランスフォーマファミリーは、その構造の違いによって得意なことが違うから、訓練データの準備の仕方もそれぞれ特徴があるんだ。

目的別に、「翻訳が得意な長男」「分類が得意な次男」「会話が得意な三男」の3兄弟に例えて説明するね。

エンコーダ・デコーダ型（翻訳が得意な長男）

これは、トランスフォーマの基本形だ。主な仕事は、ある文章を別の文章に「翻訳」すること。機械翻訳や、文章の要約なんかが得意だよ。

ごはんの作り方: 「原文」と「翻訳された文」のペアを、大量に用意する。

例えば、英語を日本語に翻訳するAIを作るなら、こんなごはんになる。

問題（原文）: I am a student.
正解（翻訳文）: 私は学生です。

この「原文と訳文のペア」が、このタイプのAIのごはんだ。AIは、原文（エンコーダに入力）と、正解の訳文（デコーダが出力すべき答え）を見ながら、どうすれば上手に翻訳できるかを学んでいくんだ。

エンコーダ型（分類が得意な次男）

これは、文章の「意味を理解する」ことに特化したモデルだ。文章を読んで、それがポジティブかネガティブかを判断したり、質問に対して文章中から答えを探したりするのが得意だよ。

ごはんの作り方: 「文章」と「その文章の正しいラベル（分類）」のペアを用意する。

例えば、映画のレビューがポジティブかネガティブかを判定するAIを作るなら、こんなごはんになる。

問題（文章）: この映画は最高に面白かった！
正解（ラベル）: ポジティブ
問題（文章）: 見ていて退屈だった。
正解（ラベル）: ネガティブ

このタイプのAIは、文章をエンコーダで読んで、その意味をぎゅっと凝縮した情報に変換し、最終的に正しいラベルを予測できるように訓練されるんだ。

デコーダ型（会話が得意な三男）

僕（Gemini）やChatGPTのような、「文章を生成する」のが得意なモデルだ。人間と自然な会話をしたり、物語の続きを書いたりするのが得意だよ。

ごはんの作り方: これは、LSTMの時とよく似ている。「お手本になる長い文章」を用意して、そこから「次に来る単語は何か？」というクイズを大量に作るんだ。

例えば、「吾輩は猫である。名前はまだ無い。」という文章からは、こんなクイズが作られる。

問題: 吾輩は
正解: 猫
問題: 吾輩は猫
正解: で
問題: 吾輩は猫で
正解: ある

このタイプのAIは、ひたすら「次の単語当てクイズ」を解き続けることで、文章の自然な流れや言葉のつながりを学んでいく。これが、僕たちが自然な会話を生成できる理由なんだ。

まとめ

	エンコーダ・デコーダ型	エンコーダ型	デコーダ型
例えるなら	翻訳家	鑑定士・批評家	小説家・話し相手
得意なこと	翻訳、要約	文章分類、感情分析	文章生成、対話
ごはんの形式	原文と訳文のペア	文章とラベルのペア	「次の単語」当てクイズ

こんなふうに、同じトランスフォーマファミリーでも、構造と目的が違うと、ごはんの作り方も全く違ってくるんだ。

ボク：つまり、エンコーダ・デコーダ型およびエンコーダ型のトランスフォーマの訓練は、「教師あり学習」。それに対して、デコーダ型のトランスフォーマの訓練は、LSTMと同じ「自己教師あり学習」で、訓練データの準備の仕方もLSTMと同じと考えていい？

その通り！

その整理の仕方が一番分かりやすくて、正確だ。

AIの勉強法まとめ

君がまとめてくれた通り、トランスフォーマファミリーの勉強法は、こう分けられるんだ。

教師あり学習チーム（エンコーダ・デコーダ型、エンコーダ型）

勉強法: 人間という「先生」が、特別に用意した「問題と答えのペア」を使って勉強する。
ごはん:

エンコーダ・デコーダ型: 「原文と、人間が作った正解の翻訳文」
エンコーダ型: 「文章と、人間が付けた正解のラベル」

特徴: 特定のタスク（翻訳、分類など）を正確にこなすための、専門的な訓練を受ける。

自己教師あり学習チーム（デコーダ型、そしてLSTMも！）

勉強法: 文章という「教科書」さえあれば、AIが自分で問題（この次の単語は？）を作り、自分で答え合わせ（次の単語を見る）をして、勝手に勉強を進めていく。
ごはん: 長い文章そのもの。データ準備の仕方も、LSTMと全く同じ考え方でOK。
特徴: 特定のタスクを教わるのではなく、言語そのもののパターンや流れを、自力で深く学んでいく。

「教師あり学習」と「自己教師あり学習」。この2つの違いが分かると、なぜデコーダ型のAI（僕たち対話AI）が、特定の目的だけでなく、これだけ幅広く、人間のように自然な文章を生成できるのか、その根本的な理由が見えてくるはずだよ。

ボク：エンコーダ型トランスフォーマモデルでもGoogleのBERTの訓練データの準備の仕方は、ちょっと違うんでしょ？

そうだね。BERTは、文章の「意味を深く理解する」ために、2つのユニークな「自己流ドリル」で勉強するんだよ。

BERTのユニークな自己学習ドリル

穴埋め問題ドリル (マスク付き言語モデル)

BERTの一番の特徴が、この勉強法だ。文章の途中を、わざと隠して「何が入るでしょう？」と自分で自分にクイズを出すんだ。

ごはんの作り方:
- → 「吾輩は [MASK] である。名前はまだ無い。」
- → 「吾輩は猫である。[MASK] はまだ無い。」

お手本になる文章を用意する。（例：「吾輩は猫である。名前はまだ無い。」）
プログラムが、文章の中の単語をランダムにいくつか選んで、[MASK] という特別な目印で隠してしまう。
この「穴あき文章」が問題になり、隠される前の元の単語（「猫」や「名前」）が正解になる。

BERTの強み: この穴埋め問題を解くためには、隠された単語の「前後の文脈」を両方ともしっかり読まないと、正しい答えは分からないよね。デコーダ型が「前だけを見て次を予測する」のに対して、BERTはこの訓練のおかげで、文章全体の文脈を、双方向から深く理解する力を身につけることができるんだ。

文章のペアリングドリル (次文予測)

もう一つ、BERTは「この2つの文は、もともと繋がっていたかな？」というクイズも解くんだ。

ごはんの作り方:
- 文A: 「おじいさんは山へしばかりに、」
- 文B: 「おばあさんは川へせんたくに行きました。」
- 文A: 「おじいさんは山へしばかりに、」
- 文B: 「しかし、メロスは激怒した。」

お手本になる文章から、連続した2つの文（AとB）を取り出す。
50%の確率で、そのままのペア（正解ペア）にする。
残りの50%の確率で、文Bを、全く関係ない別の文と入れ替えたペア（不正解ペア）を作る。

BERTの強み: このクイズを解き続けることで、BERTは文章と文章の間の関係性や、話の流れが自然かどうかを理解する能力を身につける。これにより、単語レベルだけでなく、もっと大きな文脈を捉えられるようになるんだ。

BERTの強みは、「次の単語当て」ではなく、この「穴埋め問題」と「ペアリング問題」という、ユニークな自己教師あり学習によって支えられているんだよ。

ボク：なるほど。後、トランスフォーマがマルチモーダル対応するために、訓練データの準備方法がどのように変わったか教えてください。

トランスフォーマがマルチモーダル、つまりテキスト以外のデータ（画像、音声、動画など）も一緒に扱えるようになったのは、AIの歴史における大きなジャンプだったんだよ。

それに伴い、訓練データの準備方法も、「言葉の世界」だけのものから、「言葉と映像と音の世界」を繋ぎ合わせるための、新しい工夫が必要になったんだ。

マルチモーダルのための「ごはん」の準備

一番の大きな変化は、「異なる種類のデータをどうやってペアにするか」そして「どうやってAIが同じように扱える形に変換するか」という2点だった。

異なるデータのペアリング：共通のテーマで結びつける

まず、AIに「この画像とこの文章は関係があるよ」と教えるために、内容が一致するデータ同士をペアにした「お手本」を大量に用意する必要がある。

画像とテキスト:

ごはんの形式: 「画像」と「その画像を説明する文章（キャプション）」のペア。
例: 猫が日向ぼっこしている写真＋「日当たりの良い窓辺で猫が気持ちよさそうに寝ています」という文章。

音声とテキスト:

ごはんの形式: 「話し声の音声データ」と「その話し声を文字に起こした文章」のペア。
例: 「今日の天気は晴れです」という音声＋「今日の天気は晴れです」という文章。

このように、異なる種類のデータでも、同じ意味や内容を持つものをセットにしてAIに与えることで、「この音とこの文字は同じ意味なんだな」「この絵とこの文章は同じ状況を表しているんだな」と学ばせるんだ。

データの「共通言語」化：すべてを「トークン」に変換する

トランスフォーマは元々、テキスト（単語）を「トークン」という数字の列に変換して処理していた。しかし、画像や音声はそのままでは扱えない。

そこで、どんなデータもトランスフォーマが理解できる「共通の言葉（トークン）」に翻訳するという、画期的な方法が考え出されたんだ。

テキストの場合: これまで通り、文章を単語や文字に区切り、それぞれをトークン（数字）に変換します。

「猫が寝ている」 → [猫, が, 寝て, いる] → [5, 12, 88, 6]

画像の場合:

まず、画像をパズルのように小さな四角いパッチ（断片）に分割。
そして、それぞれのパッチを、まるで一つの単語のようにトークン（数字）に変換する。

このように、画像も音声も、すべてをテキストと同じ「トークン」という粒度に分解してあげることで、トランスフォーマは「これはテキストのトークン」「これは画像のトークン」と区別することなく、同じように扱うことができるようになったんだ。

まとめ

マルチモーダル対応のための訓練データ準備の進化は、以下の2点にまとめることができる。

ペアリング: 画像と文章、音声と文章など、意味が同じ異なる種類のデータをセットにする。
共通言語化: 画像や音声などのデータを、テキストと同じ「トークン」という単位に分解・変換して、AIが一緒に処理できるようにする。

この工夫によって、AIは「猫」という言葉と「猫の画像のパッチ」を結びつけて学習できるようになり、言葉と映像の壁を越えて世界を理解する、大きな一歩を踏み出したんだ。

ボク：生成AIの訓練データの準備という観点では、手間のかかる「教師あり学習」に逆戻りしたっていうこと？

その視点は、今のAI研究の核心に触れる、鋭い指摘だよ！

「逆戻りした」という表現は、ある意味で正しく、ある意味で少し違う。「『自己教師あり学習』の便利さを保ちつつ、『教師あり学習』のような質の高いペアデータを、賢い方法で手に入れた」というのが、より正確な答えになるかな。

逆戻りに見える理由：ペアデータという「手間」

君が言う通り、ただのテキストデータを集めるのに比べて、

「猫の写真」と「それを正確に説明した文章」
「人の話し声」と「それを完璧に文字起こしした文章」

といった、内容が完全に一致するペアデータを大量に用意するのは、比較にならないほど大変だ。この「ペアを作る」という手間を考えると、確かに「教師あり学習」の大変さに逆戻りしたように感じられるよね。

でも、実は「賢い近道」をしていた

じゃあ、研究者たちはどうやって、何十億ものペアデータを集めたんだろう？まさか、一枚一枚の写真に、人間が手作業で説明文を付けていったんだろうか？

答えは「ノー」だ。そんなことをしていたら、時間がいくらあっても足りない。

彼らが使ったのは、「インターネットという、人間がすでに作り上げた巨大なペアデータの宝の山」だったんだ。

インターネット上の「自然なペア」

インターネットには、もともと画像とテキストがペアになっている場所がたくさんある。

ブログやニュースサイト: 記事の中で、写真とその写真について説明する文章がセットで掲載されている。
商品販売サイト: 商品の写真と、その商品の名前や説明文が必ずペアになっている。
画像投稿サイト: 投稿者が、自分がアップした写真にタイトルやタグ、説明文を付けている。

研究者たちは、これらの「人間が自然に作り出したペア」を、プログラム（クローラー）を使ってインターネット上から自動で大量に収集したんだ。

まとめ

だから、君の指摘への答えはこうなるね。

はい、その通り。 「自己教師あり学習（テキストだけ）」の時代と比べて、マルチモーダル学習では「ペアデータを用意する」という、教師あり学習のような手間が復活した。
しかし、逆戻りじゃない。 そのペアデータは、人間が一から手作業で作ったのではなく、インターネット上に既に存在する無数のペアを、賢く自動で収集したもの。これは、ある意味で「巨大なスケールの自己教師あり学習」とも言える、新しいアプローチなんだ。

手間は増えたけど、その手間を乗り越えるための「賢いズル」を見つけ出した、というのが実態に近いかもしれないね。

ボク：確か、CLIPの事前学習の訓練データとして、HTMLの<img>タグ内の「src=」に示された画像のURLと「alt＝」で示された、その画像に対する説明のテキストを自動的に収集して訓練データにしたっていう話だったよね？

その通り！

CLIPというモデルを開発したOpenAIが、その「賢いズル」な方法を考え付いたんだ。

インターネットという宝の山

AIの研究者たちは、マルチモーダルAIを賢くするためには、何億もの「画像とテキストのペア」が必要だと気づいた。でも、そんな天文学的な数のペアを、人間が一から手作業で作るのは、時間的にも金銭的にも不可能だった。

そこで彼らは、こう考えたんだ。「待てよ、インターネットには、人間がすでに作ってくれたペアが無数に転がっているじゃないか？」とね。

君が言ってくれた通り、ウェブページを作るための言語であるHTMLには、こんな構造がある。

HTML

<img src="...">: ここには画像のURL（住所）が入っている。
<alt="...">: ここには、その画像が表示されなかった時に代わりに表示される説明文（altテキスト）が入っている。

つまり、世界中のウェブ開発者たちが、何十年もかけて、善意で画像の「正解ラベル」を付け続けてくれていたようなものなんだ。

CLIPの開発チームは、この構造に目をつけて、プログラム（クローラー）を使ってインターネット上を巡回させ、この「画像のURL」と「altテキスト」のペアを、自動で、何億セットも収集したんだ。

まとめ

だから、君の理解は完璧だよ。

CLIPの事前学習の画期的な点は、モデルの構造もさることながら、この「HTMLの構造を利用して、インターネットから半自動的に、超巨大な教師ありデータセットを作り出した」という、訓練データの準備方法にあったんだ。

この「コロンブスの卵」のような発想が、今のマルチモーダルAIの爆発的な進化の扉を開いたんだね。

ボク：音声の訓練データの準備でも、そのような「賢いズル」の方法があるの？

もちろんあるよ！

画像とテキストのペアをWebページから集めたように、音声の訓練データ準備でも、インターネット上にある「音声とテキストの自然なペア」を賢く利用するという、そっくりのアプローチが使われているんだ。

音声AIの「賢いズル」：文字起こし付きコンテンツの自動収集

音声AIを訓練するためには、「人の話し声」と「その内容を正確に文字にしたテキスト」のペアが何十万時間分も必要で、これを一から人間が作るのは、不可能。

そこで研究者たちが目を付けたのが、インターネット上に大量に存在する「文字起こし付きのコンテンツ」だ。

動画サイトの「字幕」を利用する

YouTubeなどの動画サイトには、人間が作った、あるいはAIが自動生成した字幕が付いている動画がたくさんあるよね。

クローラー（自動収集プログラム）は、これらの動画から「音声トラック」と「タイムスタンプ付きの字幕テキスト」をセットで収集する。タイムスタンプ（例：01:15-01:18）があるおかげで、「この部分の音声は、このテキストに対応する」というのを、非常に正確にペアリングできるんだ。これが、最も巨大なデータ源の一つだよ。

ポッドキャストや講演会の「書き起こし」を利用する

多くのポッドキャストや、TEDのような講演会では、内容の「書き起こし（トランスクリプト）」がウェブサイトに全文掲載されていることがある。

これも絶好のペアデータなので、プログラムが、音声ファイルとその書き起こしテキストを一緒に収集する。

オーディオブックを利用する

オーディオブックは、プロのナレーターが書籍を朗読したものだよね。つまり、「音声データ」と「原作の書籍（テキストデータ）」という、非常に高品質なペアがすでに存在している。

これらを組み合わせることで、ノイズが少なく、内容が正確な、質の高い訓練データを作ることができるんだ。

まとめ

このように、音声AIの訓練データの準備でも、CLIPと全く同じ発想が使われている。

目的: 「音声」と「テキスト」のペアを大量に集める。
賢いズル: 人間が一から文字起こしをするのではなく、インターネット上にある字幕付き動画や書き起こし付きのコンテンツを自動で収集する。

この方法によって、何十万時間にも及ぶ多様な話し声（さまざまな言語、アクセント、専門用語など）を含んだ、巨大な訓練データセットを効率的に構築することが可能になったんだ。OpenAIの音声認識モデルであるWhisperなどが、まさにこのアプローチで訓練されたんだよ。

ボク：なるほどね！途中で何度か話が脱線したけど、今日は、AIの事前学習用の訓練データの準備の仕方という観点で、知識の整理ができました。それと、どこまでが認識系のAIで、どこからが生成系のAIかの知識の整理もできました。どうもありがとう。

こちらこそ、どうもありがとう！

君が今日の話で、

AIモデルごとに、ごはん（訓練データ）の準備の仕方が全く違うこと
「認識系AI」と「生成系AI」が、どういう目的で、どういうごはんを食べるのかということ

この2つの大きなテーマについて、スッキリ整理できたなら、僕もすごく嬉しいよ。AIの世界を理解するための、とても大事なもう１つの「地図」を手に入れたようなものだからね。