Transformer

GPTをゼロから作って理解する完全ガイド ChatGPTを毎日使っているのに、「中身がどうなっているか全くわからない」という方は多いのではないでしょうか。ブラックボックスとして使うだけでは、プロンプトエンジニアリングの限界に気づかなかったり、AIツールの選定で迷ったりすることがあります。 OpenAIの元研究員で「nanoGPT」の作者でもあるAndrej Karpathyは、GPTをゼロからコードで実装する方法を丁寧に解説しています。本記事では、その学習アプローチをもとに、Transformerの核心を自分の手で実装しながら理解するためのロードマップをお届けします。なぜ「作って理解する」アプローチが最強なのか AIの論文を読んでも、「なんとなくわかった気がする」で終わってしまう経験はありませんか？理論の理解だけでは、実際のモデル動作やトラブルシューティングには限界があります。 Karpathyが提唱する**「spelled out（手順を声に出して説明しながら実装する）」**アプローチの強みは次の3点です。理解の穴を即座に発見できる：コードが動かない＝理解が不完全な箇所直感的な数値感覚が身につく：テンソルの形状変化を目で追える論文と実装のギャップを埋められる：「Attention is All You Need」の数式がコードに対応する小さなモデルでも本物のGPTと同じ原理で動く点が、この学習法の最大のメリットです。実装の全体像：7つのステップ GPTのスクラッチ実装は、大きく以下のステップで進みます。ステップ1：データの準備とトークン化まず、テキストデータ（たとえばシェイクスピア全集）を読み込み、文字レベルのトークン化を行います。 1 2 3 4 5 6 7 8 9 10 11 12 # テキストを読み込み、ユニークな文字の語彙を作成 with open('input.txt', 'r', encoding='utf-8') as f: text = f.read() chars = sorted(list(set(text))) vocab_size = len(chars) # 文字→整数、整数→文字の変換辞書 stoi = { ch:i for i,ch in enumerate(chars) } itos = { i:ch for i,ch in enumerate(chars) } encode = lambda s: [stoi[c] for c in s] decode = lambda l: ''.join([itos[i] for i in l]) ここで重要なのは、トークン化の粒度がモデルの語彙サイズと学習効率に直結するという点。実際のGPT-4はByte Pair Encoding（BPE）という手法で数万規模の語彙を扱っています。ステップ2：バイグラムモデルで最初のベースラインを作る最初からTransformerを実装するのではなく、まずバイグラム言語モデル（前の1文字だけを見て次の文字を予測する）をベースラインとして構築します。これにより、言語モデルの損失計算や生成ロジックの「型」を習得できます。ステップ3：セルフアテンションの核心を実装する GPTの心臓部がセルフアテンションです。Karpathyは4段階で段階的に実装を発展させていきます。 for loopによる素朴な平均化（過去のトークンを単純平均）行列積による高速化（同じ計算をベクトル演算で） Softmaxの導入（重みの正規化） Key・Query・Valueによる本物のアテンション最終的なセルフアテンションの計算式は次のようになります。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 # 1ヘッドのセルフアテンション class Head(nn.Module): def __init__(self, head_size): super().__init__() self.key = nn.Linear(n_embd, head_size, bias=False) self.query = nn.Linear(n_embd, head_size, bias=False) self.value = nn.Linear(n_embd, head_size, bias=False) self.register_buffer('tril', torch.tril(torch.ones(block_size, block_size))) def forward(self, x): B, T, C = x.shape k = self.key(x) # (B, T, head_size) q = self.query(x) # (B, T, head_size) # アテンションスコアの計算（スケーリングあり） wei = q @ k.transpose(-2, -1) * k.shape[-1]**-0.5 wei = wei.masked_fill(self.tril[:T, :T] == 0, float('-inf')) wei = F.softmax(wei, dim=-1) v = self.value(x) return wei @ v **「なぜsqrt(head_size)で割るのか？」**という疑問が生まれたら、それが深い理解への入口です。答えは「head_sizeが大きいとdot productの分散が増大し、softmaxが極端に尖ってしまうから」。こういった「なぜ？」をコードと数式で確認できるのが、スクラッチ実装の醍醐味です。 ...

ChatGPTで文章を生成したり、Google翻訳でスラスラと外国語を訳したりするとき、その裏側でどんな仕組みが動いているか気になったことはありませんか？現代のAI技術の多くは、**Transformer（トランスフォーマー）**と呼ばれるニューラルネットワークアーキテクチャを基盤にしています。GPT、BERT、T5——耳にしたことがある名前ばかりかもしれませんが、これらはすべてTransformerの「子孫」です。この記事では「Transformerって名前は聞いたことがあるけど、中身はよくわからない」という方に向けて、その仕組みと実際の使われ方をわかりやすく解説します。なぜTransformerが登場したのか——旧来技術の限界 Transformerが登場する以前、自然言語処理（NLP）の主役はRNN（再帰型ニューラルネットワーク）やLSTMでした。これらのモデルは文章を「左から右へ」順番に処理する仕組みで、ちょうど人間が音読するように単語を一つずつ読み進めます。しかしこのアプローチには大きな弱点がありました。長文が苦手: 文が長くなるほど、最初のほうの情報が「薄れて」しまう並列処理ができない: 順番に処理するため、学習に時間がかかる遠い単語の関係を捉えにくい: 「私は昨日、友人と映画館で映画を観た」のように、主語と述語が離れている場合に精度が落ちる 2017年、Googleの研究者たちが論文「Attention Is All You Need」を発表し、これらの問題を一気に解決するTransformerを世に送り出しました。 Transformerの核心——「自己注意機構（Self-Attention）」とは Transformerの最大の革新は**自己注意機構（Self-Attention Mechanism）**です。難しそうな名前ですが、考え方はシンプルです。単語の「文脈的な重みづけ」を学習する例えば、次の2つの文を考えてみましょう。 1 2 ① 「銀行に預金しに行った」 ② 「川の銀行（岸）を散歩した」「銀行」という単語の意味は文脈によってまったく異なります。自己注意機構は、文中のすべての単語が互いにどれだけ関係しているかを計算し、文脈に応じた意味を動的に判断します。処理の流れ（概念図）各単語をベクトルに変換（埋め込み表現） Query・Key・Valueの3つの行列を生成 QueryとKeyの内積でスコアを計算（どの単語に「注目」するかを決定） Softmaxで正規化（注意の重みを0〜1に変換）重みをValueに掛けて合算（文脈を考慮した表現を生成）これをすべての単語に対して同時並列で実行できるのがTransformerの強みです。RNNのように順番に処理する必要がないため、大規模なGPUクラスタを使った高速学習が可能になりました。 GPT・BERT・T5——それぞれ何が違うのか Transformerはその使い方によって、大きく2つのタイプに分かれます。エンコーダー型：BERTに代表される理解特化モデル BERT（Bidirectional Encoder Representations from Transformers）はTransformerのエンコーダー部分を活用したモデルです。テキストを双方向に読み込むため、文脈理解が非常に得意文章分類、固有表現抽出、質問応答などのタスクに強い「この文章はポジティブ？ネガティブ？」といった分析・理解タスクに向いているデコーダー型：GPTに代表される生成特化モデル GPT（Generative Pre-trained Transformer）はTransformerのデコーダー部分を活用したモデルです。左から右へ次の単語を予測しながらテキストを生成文章生成、要約、コード生成などが得意 ChatGPTはこのGPTシリーズを基盤に構築されているエンコーダー＋デコーダー型：T5・翻訳モデルなど T5や機械翻訳モデルは両方を組み合わせ、入力を理解してから出力を生成するタスク（翻訳・要約など）に使われます。 Transformerが変えた世界——実際の活用シーン Transformerベースのモデルは、すでに私たちの日常のあちこちで活躍しています。ビジネスでの活用例カスタマーサポートの自動化: 問い合わせ文の意図分類と自動回答生成文書要約: 長い報告書や論文を数秒で要点まとめコード補完: GitHub CopilotなどのAIコーディングアシスタント多言語対応: リアルタイム翻訳・多言語コンテンツ生成個人での活用例 ChatGPT / Claude: 文章作成、アイデア出し、学習補助 Google翻訳の高精度化: 以前より自然な翻訳が可能に検索エンジンの精度向上: Googleの検索アルゴリズムにもBERTが組み込まれている Transformerを自分のアプリに組み込む——はじめの一歩「Transformerを使ってみたい」と思った方に、実際に始めやすい方法を紹介します。 ...