LLMからハルシネーションまで：よく使われるAI用語シンプルガイド

AIの世界は奥が深く、複雑だ。この分野の研究者たちは専門用語や業界スラングを駆使して自分たちの研究を説明する。そのため、私たちがAI業界の動向を報じる際にもそれらの技術用語を使わざるを得ない。そこで、記事中に登場する重要な言葉や表現をまとめた用語集を作成した。研究者が新しい手法を次々と発見し、新たな安全リスクも明らかになるにつれ、この用語集は定期的に更新していく。

AGI

人工汎用知能（AGI: Artificial General Intelligence）は曖昧な概念だが、一般的には「多くのタスク（あるいはほぼすべてのタスク）において平均的な人間を上回るAI」を指す。OpenAIのCEO、サム・アルトマンは最近、AGIを「同僚として雇えるような中程度の人間に相当するもの」と表現した。一方、OpenAIの規程ではAGIを「ほとんどの経済的価値のある作業において人間を凌駕する高度自律システム」と定義している。Google DeepMindの解釈はやや異なり、「ほとんどの認知タスクにおいて少なくとも人間と同等の能力を持つAI」と捉えている。混乱してしまうのも無理はない――AI研究の最前線にいる専門家たちでさえ同様だ。

AIエージェント

AIエージェントとは、AI技術を使って経費申請・チケット予約・コードの作成と保守など、基本的なAIチャットボットではこなせない一連のタスクをユーザーに代わって実行するツールを指す。ただし、この新興分野には多くの構成要素があり、「AIエージェント」の意味は人によって異なる場合がある。その構想される機能を実現するためのインフラもまだ整備途上だ。基本的なコンセプトとしては、複数のAIシステムを活用してマルチステップのタスクを実行できる自律システムを意味する。

思考の連鎖（Chain of thought）

単純な質問なら、「キリンと猫、どっちが背が高い？」のように、深く考えなくても答えられる。しかし多くの場合、中間ステップが必要なため紙とペンが必要になる。たとえば「農家がニワトリとウシを合わせて頭数40、脚の数120を飼っているとき、それぞれ何頭か？」という問題は、簡単な方程式を書かないと答え（ニワトリ20羽・ウシ20頭）にたどり着けない。

AI文脈における「思考の連鎖推論」とは、大規模言語モデルが問題をより小さな中間ステップに分解することで最終的な回答の品質を高める手法だ。回答を得るまでに時間はかかるが、特にロジックやコーディングの文脈では正解率が上がる。推論モデルは従来の大規模言語モデルをベースに、強化学習によって思考の連鎖的思考に最適化して開発される。

コンピュート（Compute）

多義的な用語ではあるが、コンピュートは一般的にAIモデルの動作を可能にする重要な計算能力を指す。この処理能力がAI産業を動かし、強力なモデルのトレーニングとデプロイを可能にしている。GPU・CPU・TPUなど、現代のAI産業の基盤となるハードウェアの総称として使われることも多い。

ディープラーニング（Deep learning）

自己学習型機械学習のサブセットで、AIアルゴリズムが多層構造の人工ニューラルネットワーク（ANN）を持つ設計になっている。これにより、線形モデルや決定木などの単純な機械学習システムと比べて、より複雑な相関関係を学習できる。ディープラーニングのアルゴリズム構造は、人間の脳のニューロンが密に繋がった経路から着想を得ている。

ディープラーニングのAIモデルは、人間のエンジニアが特徴量を定義しなくても、データの中から重要な特性を自分で識別できる。また、誤りから学習し、繰り返しと調整のプロセスを通じて自身の出力を改善するアルゴリズムもサポートしている。ただし、優れた結果を得るには大量のデータポイント（数百万件以上）が必要で、単純な機械学習アルゴリズムに比べてトレーニングに時間がかかる傾向があり、開発コストも高くなりがちだ。

拡散（Diffusion）

拡散は、画像・音楽・テキストを生成する多くのAIモデルの中核をなす技術だ。物理学からヒントを得たこの仕組みでは、写真や楽曲などのデータ構造にノイズを加えて「ゆっくりと破壊」し、何も残らない状態にする。物理学では拡散は自発的かつ不可逆的だ（コーヒーに溶けた砂糖は角砂糖には戻らない）。しかしAIの拡散システムは「逆拡散」プロセスを学習し、ノイズからデータを復元する能力を獲得することを目指している。

蒸留（Distillation）

蒸留は、「教師・生徒モデル」の枠組みを使って大規模AIモデルから知識を引き出す手法だ。開発者は教師モデルにリクエストを送り、その出力を記録する。出力はデータセットと照合して精度を確認する場合もある。その後、教師の振る舞いを近似するよう生徒モデルをトレーニングする。

蒸留は、大規模モデルを基に蒸留損失を最小限に抑えながら、より小さく効率的なモデルを作成するために使われる。OpenAIがGPT-4の高速版であるGPT-4 Turboを開発した際も、おそらくこの手法が使われたとみられている。

AI企業は社内での蒸留を広く行っているが、競合のフロンティアモデルに追いつくために一部の企業が外部モデルに対して使用したケースもある。競合からの蒸留は通常、AI APIおよびチャットアシスタントの利用規約違反に当たる。

ファインチューニング（Fine-tuning）

ファインチューニングとは、AIモデルをそれまでのトレーニングよりも特定のタスクや領域に最適化するために追加学習を行うことを指す。通常は新しい専門的な（タスク指向の）データを投入して行う。

多くのAIスタートアップは、大規模言語モデルを出発点に商用製品を構築しているが、自社の専門知識に基づいたファインチューニングを初期のトレーニングサイクルに組み合わせることで、ターゲットとするセクターやタスクへの有用性を高めようとしている。

GAN（敵対的生成ネットワーク）

GAN（Generative Adversarial Network）は、リアルなデータを生成するジェネレーティブAIの重要な進展を支える機械学習フレームワークの一種で、ディープフェイクツールなどを含む幅広い応用がある。GANは一対のニューラルネットワークを使用し、一方が学習データを基に出力を生成してもう一方に渡す。この「識別器」モデルが生成器の出力を分類・評価する役割を担い、精度を向上させていく。

GANの構造は競争として設定されている（「敵対的」の由来）。2つのモデルはお互いを出し抜こうと動く：生成器は識別器をだまそうとし、識別器は人工的に生成されたデータを見破ろうとする。この構造化された競争により、追加の人間による介入なしにAIの出力をよりリアルに最適化できる。ただしGANは、汎用AIよりも写真やビデオのリアルな生成といった特定用途のアプリケーションに向いている。

ハルシネーション（Hallucination）

ハルシネーションとは、AIモデルが情報を作り上げること、つまり文字通り誤った情報を生成することを指すAI業界の用語だ。当然ながら、AIの品質にとって大きな問題となる。

ハルシネーションは誤解を招くジェネレーティブAIの出力を生み出し、現実のリスクにもつながりうる――有害な医療アドバイスを返す健康クエリのような危険な結果も招きかねない。そのため、ほとんどのジェネレーティブAIツールの注意書きには「AI生成の回答を確認すること」と記されているが、その免責事項はたいていボタン一つで得られる情報よりはるかに目立たない。

AIが情報を捏造する問題は、トレーニングデータのギャップから生じると考えられている。特に汎用ジェネレーティブAI（基盤モデルとも呼ばれる）では、この問題の解消は難しいとみられている。私たちが尋ねうるあらゆる質問に包括的に答えるために十分なデータが、この世界には単純に存在しないのだ。

ハルシネーションの問題は、知識のギャップを減らし誤情報リスクを縮小する手段として、より特化型・垂直型のAIモデル（特定ドメインに絞ったAI）への移行を加速させている。

推論（Inference）

推論とは、AIモデルを実行するプロセスだ。モデルを動かし、過去に見たデータから予測または結論を引き出すことを指す。推論はトレーニングなしには成立しない。有効な推論のためには、モデルがデータのパターンを学習している必要がある。

推論を実行できるハードウェアの種類は多岐にわたるが、スマートフォンのプロセッサからハイエンドGPU搭載のクラウドサーバーまで、すべてが同等にモデルを実行できるわけではない。非常に大きなモデルでは、ノートPCよりもハイエンドAIチップ搭載クラウドサーバーの方が桁違いに高速に予測を返せる。

大規模言語モデル（LLM: Large Language Model）

大規模言語モデル（LLM）は、ChatGPT・Claude・Google Gemini・Meta AI（Llama）・Microsoft Copilot・Mistral Le Chatなど、人気のAIアシスタントが利用しているAIモデルだ。AIアシスタントとチャットするとき、ユーザーはリクエストを直接処理する大規模言語モデルとやり取りしている（ウェブブラウジングやコードインタープリタなどのツールを組み合わせる場合もある）。

AIアシスタントとLLMは異なる名称を持つことがある。例えば、GPTはOpenAIの大規模言語モデルであり、ChatGPTはそのAIアシスタント製品だ。

LLMは数十億の数値パラメータ（重み）で構成された深層ニューラルネットワークであり、単語やフレーズ間の関係を学習して言語の表現——言わば多次元的な単語の地図——を作り出す。

これらのモデルは、数十億冊の書籍・記事・書き起こしのパターンをエンコードすることで作られる。LLMにプロンプトを入力すると、モデルはプロンプトに最も合致するパターンを生成し、それまでの文脈をもとに次に来る最も可能性の高い単語を評価する。これを繰り返し続ける仕組みだ。

メモリキャッシュ（Memory cache）

メモリキャッシュは、推論（AIがユーザーのクエリに対するレスポンスを生成するプロセス）を高速化する重要な仕組みだ。本質的にキャッシュは最適化技術であり、推論をより効率的にするために設計されている。AIは高度な数学的計算によって動作しており、計算のたびに電力を消費する。キャッシュは、特定の計算を保存して将来のクエリや操作に再利用することで、モデルが実行しなければならない計算の回数を削減する。

メモリキャッシュにはいくつかの種類があるが、よく知られているのはKV（キーバリュー）キャッシュだ。KVキャッシュはトランスフォーマーベースのモデルで機能し、ユーザーの質問への回答生成にかかる時間（とアルゴリズムの作業量）を削減することで効率を高め、より速い結果をもたらす。

ニューラルネットワーク（Neural network）

ニューラルネットワークは、ディープラーニングの基盤となる多層アルゴリズム構造を指す。より広くは、大規模言語モデルの登場に続くジェネレーティブAIツール全般のブームを支えている。

人間の脳の密に繋がったニューロンの経路からインスピレーションを得てデータ処理アルゴリズムを設計するというアイデアは、1940年代にまで遡る。しかし実際にこの理論の力を解き放ったのは、ビデオゲーム産業を通じて普及した比較的最近のGPU（グラフィック処理ユニット）だ。これらのチップは、以前の時代より遥かに多くの層を持つアルゴリズムのトレーニングに適していることが判明し、ニューラルネットワークベースのAIシステムが音声認識・自律走行・創薬など多くの領域で飛躍的な性能向上を達成することを可能にした。

RAMageddon

RAMageddonは、テクノロジー業界を席巻するあまり楽しくないトレンドを指す新語だ：ランダムアクセスメモリ（RAM）チップの慢性的な不足が深刻化している。RAMは私たちの日常で使うほぼすべての技術製品に不可欠だが、AI産業の急成長を受け、大手テック企業やAIラボがデータセンター向けに大量のRAMを買い占めた結果、他の用途向けの供給がほとんど残っていない。この供給ボトルネックにより、残存する在庫の価格はどんどん高騰している。

影響を受けている産業は幅広い。ゲーム業界（主要企業がデバイス向けメモリチップの調達難でコンソール価格を引き上げ）、コンシューマーエレクトロニクス（メモリ不足が10年以上ぶり最大のスマートフォン出荷減をもたらす可能性）、そして一般的なエンタープライズコンピューティング（自社データセンター向けRAMが不足）まで及んでいる。この価格高騰は不足が解消されるまで続くと見られているが、残念ながら近い将来に解消の兆しはない。

トレーニング（Training）

機械学習AIの開発には「トレーニング（学習）」と呼ばれるプロセスが伴う。簡単に言えば、モデルがパターンから学習して有用な出力を生成できるようにデータを投入するプロセスだ。

AIのスタック上でやや哲学的な話になるが、トレーニング前の学習システムの出発点として使われる数学的構造は、単なるレイヤーと乱数の集まりに過ぎない。トレーニングを通じてはじめてAIモデルが形を成す。本質的には、データの特性に応答したシステムが出力を目標に向かって適応させていくプロセスだ。猫の画像を識別することであれ、需要に応じて俳句を生成することであれ、同様だ。

すべてのAIがトレーニングを必要とするわけではない点に注意が必要だ。線形チャットボットのような手動で定義された指示に従うルールベースのAIは、トレーニング不要だ。ただし、そうしたAIシステムは（十分にトレーニングされた）自己学習システムより制約が大きくなりがちだ。

トレーニングは多くの入力を必要とするため高コストになりうる。しかもこうしたモデルに必要な入力量は増加傾向にある。ルールベースのAIにデータ駆動型のファインチューニングを組み合わせるハイブリッドアプローチで、モデル開発を近道して必要なデータ・コンピュート・エネルギー・アルゴリズムの複雑さをゼロから構築するより削減できる場合もある。

トークン（Tokens）

人間とマシンのコミュニケーションには明確な課題がある。人間は人間の言語を使うが、AIプログラムはデータから導き出された複雑なアルゴリズムプロセスを通じてタスクを実行し、クエリに応答する。最もシンプルな定義では、トークンとはLLMが処理または生成した個別のデータセグメントであり、人間とAIのコミュニケーションの基本構成単位だ。

トークンは「トークン化」と呼ばれるプロセスで生成される。生データを分解して、LLMが処理できる個別の単位に変換する。コンパイラが人間の言語をコンピューターが処理できるバイナリコードに翻訳するように、トークン化はユーザーのクエリを通じて人間の言語をAIプログラム向けに解釈し、応答の準備を整える。

トークンには複数の種類がある。入力トークン（ユーザーのクエリに応答して生成されるもの）、出力トークン（LLMがユーザーのリクエストに応答する際に生成されるもの）、そしてユーザーリクエストの一部としてより長く集中的なタスクや処理を行う際に生じる推論トークンだ。

エンタープライズAIでは、トークンの使用量がコストを決定する。トークンはモデルが処理するデータ量に相当し、AI業界がサービスを収益化する手段ともなっている。ほとんどのAI企業はLLMの使用をトークン単位で課金している。つまり、企業がAIプログラム（例：ChatGPT）を使うほど消費するトークンが増え、AIサービスプロバイダー（OpenAI）に支払う費用も増える。

転移学習（Transfer learning）

以前にトレーニングされたAIモデルを、異なるがたいていは関連するタスクのための新しいモデル開発の出発点として利用する手法だ。過去のトレーニングサイクルで得た知識を再適用できる。

転移学習はモデル開発を近道することで効率化を促進する。また、開発対象のタスク向けデータが限られている場合にも有用だ。ただし、この手法には限界がある点に注意が必要だ。汎化能力を転移学習に依存するモデルは、注力するドメインで優れたパフォーマンスを発揮するために、追加データでのトレーニングが必要になる可能性が高い。

重み（Weights）

重みはAIのトレーニングにとって中核的な要素で、システムのトレーニングに使われるデータのどの特徴量（入力変数）にどれだけの重要度が与えられるかを決定し、AIモデルの出力を形作る。

別の言い方をすれば、重みとは与えられたトレーニングタスクに対してデータセットの何が最も重要かを定義する数値パラメータだ。入力に対して乗算を適用することで機能する。モデルのトレーニングは通常ランダムに割り当てられた重みから始まるが、プロセスが進むにつれて、モデルが目標に近い出力を目指して調整するにつれて重みも変化する。

例えば、特定地域の過去の不動産データをトレーニングした住宅価格予測AIモデルでは、寝室と浴室の数、物件が一戸建てか半独立住宅か、駐車場や車庫があるかどうかなどの特徴量に重みが含まれうる。最終的にモデルがそれぞれの入力に割り当てる重みは、そのデータセットに基づいて物件価値への影響の大きさを反映している。

この記事は新しい情報が加わり次第、定期的に更新されます。