アテンション機構（Attention Mechanism）完全数式ビジュアライザ | Transformer・自己アテンション学習ツール

Step 1. 射影（Q, K, V の全並列算出）

Transformer（生成AI）の全入力トークン行列 $X = [X_1; X_2]$ に対し、学習パラメータである重み行列 $W_Q, W_K, W_V$ を並列に乗算します。これにより、アテンション演算のベースとなる3組のペアベクトル（計6つ）を一度にすべて算出します。

Query (問い合わせ窓口)

・単語1の検索条件： Q₁
・単語2の検索条件： Q₂

Key (タグ・インデックス)

・単語1の索引特徴： K₁
・単語2の索引特徴： K₂

Value (中身・情報量)

・単語1が引き渡す内容： V₁
・単語2が引き渡す内容： V₂

自己アテンション(Self-Attention)では、QueryもKeyもValueも、すべて同一の入力文章情報から並列して生成されます。

行列の掛け算ルールに沿って行われる、すべてのベクトルの完全な計算過程です。

◆ Query の全算出 ($Q = X W_Q$)

◆ Key の全算出 ($K = X W_K$)

◆ Value の全算出 ($V = X W_V$)

Step 2. 内積（すべての組み合わせの類似度アライメント）

アテンション機構では、文章内のすべての Query と、すべての Key のあり得る全ての組み合わせ（計4つの内積）を並列で算出します。

🌟 現在の主役：Q₁ からの相性（実数値）
・自単語1へ：0.00
・相手単語2へ：0.00

● Query 1 ($Q_1$) からの相性

S₁₁ (単語1 → 単語1)： 0.00

S₁₂ (単語1 → 単語2)： 0.00

● Query 2 ($Q_2$) からの相性

S₂₁ (単語2 → 単語1)： 0.00

S₂₂ (単語2 → 単語2)： 0.00

幾何学プロットに表示されている黄色い極太の線が、「内積＝Keyの方向に投影されたQueryの影の長さ」を直接表しています。この長さが大きいほど、相性が良いと判断されます。

◆ 内積定義式

◆ 全組み合わせの完全代入計算 (4式すべて並列表示)

Step 3. スケーリング（全スコアの除算調整）

算出された4つの内積値を、ベクトルの次元数の平方根 $\sqrt{d_k} = \sqrt{2} \approx 1.414$ でそれぞれすべて割り算します。

● Q₁ 側の縮小スコア

S₁₁ / √2： 0.00

S₁₂ / √2： 0.00

● Q₂ 側の縮小スコア

S₂₁ / √2： 0.00

S₂₂ / √2： 0.00

◆ スケーリング定義式

◆ 全パターンのスケーリング計算式

Step 4. ソフトマックス（2系列の全アテンション分布）

各Queryの行ごとに独立してSoftmax層を通します。これにより、Q₁の視点からの注目比率（合計100%）と、Q₂の視点からの注目比率（合計100%）の、双方向の全アテンション確率値が確定します。

■ 単語1 (Q₁) のアテンション配分

α₁₁ (自単語1へ)： 0%

α₁₂ (相手単語2へ)： 0%

■ 単語2 (Q₂) のアテンション配分

α₂₁ (相手単語1へ)： 0%

α₂₂ (自単語2へ)： 0%

◆ Softmax定義式

◆ 全Queryに対する、Softmax正規化ের代入展開

Step 5. Value の加重合成（Z₁ と Z₂ の同時完成）

最後に、各系列の注目配分（$\alpha$）に基づいて、元の情報の詰まった Value ベクトル（$V_1, V_2$）を合算し、完全な出力（コンテキスト）ベクトル $Z_1$ と $Z_2$ を同時に合成します。

元の情報 V₁： V₁=[0.00, 0.00]

元の情報 V₂： V₂=[0.00, 0.00]

● 単語1の最終表現 $Z_1$ (文脈を吸い込んだAI)

$V_1$ を 0%、 $V_2$ を 0% の割合で足し合わせます：
（掛け算後の伸縮部分情報：[0,0] + [0,0]）
⇒ Z₁=(0.00, 0.00)

● 単語2の最終表現 $Z_2$ (文脈を吸い込んだMind)

$V_1$ を 0%、 $V_2$ を 0% の割合で足し合わせます：
（掛け算後の伸縮部分情報：[0,0] + [0,0]）
⇒ Z₂=(0.00, 0.00)

これにより、周囲の単語との「文脈関係」を吸い込み、各単語のベクトルが豊かに更新されました。

◆ 加重合成式

◆ Z₁ と Z₂ の完全な代入掛け算とベクトル加算式

Attention Mechanism Deep Visualizer

アテンション動作モード

2Dベクトル空間・リアルタイム幾何学マッピング

W_Q (Query用重み)

W_K (Key用重み)

W_V (Value用重み)

Attention 計算ステップ

Step 1. 射影（Q, K, V の全並列算出）

Step 2. 内積（すべての組み合わせの類似度アライメント）

Step 3. スケーリング（全スコアの除算調整）

Step 4. ソフトマックス（2系列の全アテンション分布）

Step 5. Value の加重合成（Z₁ と Z₂ の同時完成）