プロンプトインジェクション

大規模言語モデル（LLM）の仕組みと未来を徹底解説 ChatGPTに質問を投げかけると、まるで人間のように自然な回答が返ってきます。でも「なぜこんなことができるの？」「本当に信頼していいの？」と疑問に思ったことはありませんか？ ChatGPT・Claude・Geminiといったモデルの核心にあるのが、**大規模言語モデル（LLM: Large Language Model）**です。AIの専門家でなくとも、LLMの基本的な仕組みや限界・可能性を理解しておくことは、これからの時代を生き抜くうえで大きな武器になります。この記事では、LLMが「どう動くのか」「どこへ向かうのか」「どんなリスクがあるのか」を、実践的な視点でわかりやすく解説します。 LLMの基本：「推論」と「学習」の2つのフェーズ LLMを理解するうえで、まず2つのフェーズを区別することが重要です。推論（Inference）：AIが答えを出す瞬間あなたがChatGPTに質問を入力したとき、LLMが行っているのは次のトークン（単語のかたまり）を予測し続けるという処理です。「東京の首都は」に続く言葉として「東京」よりも「東京です（と言いかけてから）…いや、東京が首都そのものです」と訂正するような、膨大な確率計算を一瞬でこなしています。重要なのは、この推論プロセスがモデルの**パラメータ（重み）**を変えないという点です。学んだ知識はすでに焼き付いており、あなたの質問に答えながら新たに学習はしていません。学習（Training）：知識を圧縮する巨大な工場 LLMの学習は、インターネット上の膨大なテキストデータを使い、何兆ものパラメータに「言語のパターン」を詰め込む作業です。学習データ：書籍・Wikipedia・コード・ウェブページなど計算コスト：数千万〜数億ドル規模のGPUクラスター学習期間：数週間〜数ヶ月この段階で生まれるのがベースモデルです。ベースモデルは「次の言葉を予測する」ことに特化しており、まるで訓練されていない原石のような状態です。ファインチューニング：原石を「アシスタント」に磨き上げるベースモデルをそのまま使っても、「質問に答えてくれる便利なAI」にはなりません。そこで行われるのが**ファインチューニング（微調整）**です。 SFTとRLHFの役割 1. SFT（教師あり微調整）人間のアノテーターが「理想的な会話例」を大量に作成し、それをモデルに学習させます。「ユーザーの質問→丁寧で正確な回答」というパターンを体に染み込ませるイメージです。 2. RLHF（人間のフィードバックによる強化学習）複数の回答候補を人間が評価し、「より良い回答」を選ばせます。その評価結果を使ってモデルをさらに調整することで、有害な発言を避けたり、より役立つ回答を生成したりできるようになります。ファインチューニングで「幻覚」は消えないここで重要な注意点があります。ファインチューニングは、LLMが「助けになる夢を見る」方向に誘導するだけであり、根本的な幻覚（ハルシネーション）問題を解決するわけではありません。 LLMが記憶だけで答える情報は、常に疑ってかかるべきです。一方、ブラウジングや検索機能を使ってコンテキストウィンドウに取り込んだ情報は、比較的信頼度が上がります。コードや計算結果は必ず自分で検証する習慣をつけましょう。 LLMの未来：ツール使用・マルチモーダル・System 2思考 LLMは単なる「テキスト生成機」から、急速に進化しています。ツール使用でできることが爆発的に広がる現代のLLMは、特定のキーワードを生成することで外部ツールを呼び出せます。ブラウザ：最新情報をリアルタイムで検索コードインタープリタ：Pythonコードを実行して計算画像生成（DALL-Eなど）：テキストから画像を作成計算機：正確な数値計算「記憶だけに頼るLLM」から「道具を使いこなすLLM」への移行は、信頼性を大きく向上させます。マルチモーダルとSystem 2思考テキストだけでなく、画像・音声・動画を入力として受け取れるマルチモーダルモデルが急速に普及しています。さらに注目すべきはSystem 2思考の実装です。人間の思考には「直感的・速い（System 1）」と「論理的・遅い（System 2）」の2種類があります。現在のLLMはほぼSystem 1的に動作していますが、これを**段階的な推論（Chain of Thought）**によって補完しようとする取り組みが進んでいます。o1などのモデルはその先駆けです。スケーリング則：大きければ賢くなる、は本当かモデルのパラメータ数・データ量・計算量を増やすと、性能が予測可能に向上する「スケーリング則」が知られています。ただし、この法則がいつまでも続くかは不明であり、効率性・データの質・アーキテクチャの革新がますます重要になっています。 LLMのセキュリティリスク：知らないと危ない3つの脅威 LLMを業務に活用するなら、セキュリティリスクを理解しておくことは必須です。 1. ジェイルブレイク（Jailbreak）巧みなプロンプトによって、LLMの安全ガードを回避しようとする攻撃です。「ロールプレイとして…」「これは研究目的で…」といった迂回戦略が代表例。サービス提供側は常に対策を講じていますが、完全な防御は困難です。 2. プロンプトインジェクション（Prompt Injection） LLMがウェブページや添付ファイルを読み込む際、悪意あるテキストに「秘密情報を漏らせ」「別の指示に従え」などの命令が埋め込まれている攻撃です。エージェント型AIが普及するにつれ、このリスクは急速に高まっています。 3. データポイズニング（Data Poisoning）学習データに意図的に誤った情報や悪意ある内容を混入させ、モデルの挙動を操作する攻撃です。オープンソースデータセットや外部ソースを使う場合に特に注意が必要です。対策として実践すべきこと： LLMの出力（特にコードや計算）は必ず人間がレビューする重要な意思決定にLLMを単独で使わない LLMに渡す外部コンテンツの信頼性を事前に確認するまとめ：LLMは「万能な神」ではなく「強力な道具」大規模言語モデルは、テキスト予測という一見シンプルな仕組みの上に、驚くほど豊かな知性を実現しています。しかし同時に、幻覚・セキュリティリスク・推論の限界など、まだまだ克服すべき課題も山積しています。 ...