カスタム入力・ハイパーパラメータ
12段階極小数理ステップ詳細解説
STEP 1: トークンベクトルの入力 (Token Input)
Input VectorTransformerレイヤー内の前段処理(Self-Attention、LayerNormなど)から送り出された高次元特徴の隠れ状態ベクトル $x$ です。この3次元値は、トークンの持つ文脈的文法意味の幾何学的位置情報を表しています。後続するゲートおよび並列処理ネットワークは、この特徴分布をもとに配送最適化と非線形変換を開始します。
STEP 2: ルーター重みとの適合度 (Routing Logits)
Linear Affinityルーターの学習パラメータ行列 $W_g$ の各行(各Expertの判定基準プロファイル)と入力 $x$ の行列積(内積演算)により、未正規化の適合度スコア $s_{\text{raw}}$ を算出します。これにより「トークンがどの知識ドメイン(例:文法、数学、コーディング、歴史など)に属するか」を線形代数的に判別します。
STEP 3: 探索ノイズ尺度の決定 (Noise Scaling)
Std Dev CalcNoisy Top-K ゲート機構の根幹をなすパラメータです。学習初期はノイズを強く付加して探索(Exploration)を促すことで、「たまたま最初に適合度が高くなったExpertだけが追加学習を繰り返し、他のExpertのパラメータが全く更新されない」というデッド・エキスパート問題(Winner-Takes-All現象)を数理的・動的に抑止します。
STEP 4: ノイズの加算 (Gaussian Noise Addition)
Noisy Gating算出された生の適合スコアに、ガウス分布(正規分布)からサンプリングした微小乱数 $\epsilon_i$ を加算します。これにより、適合度が極めて近いExpert間で順位の「逆転」があえて発生するようになり、学習過程における局所解へのスタック回避とロードバランシング(負荷平準化)を可能にします。
STEP 5: Top-K フィルタリング (Sparsity Cutoff)
KeepTopK Gate全 $N$ 個の専門家のうち、スコアが上位 $k$ 個(例:2個)に満たない残りのスコアを強制的にマイナス無限大 $-\infty$ に置き換えます。これがMoEの「スパース性」の真髄であり、無用な演算を遮断し、パラメータ総数は莫大(数千億クラス)でもトークンごとの実行演算量(FLOPs)を低次元に固定するマジックです。
STEP 6: Softmax関数による確率正規化 (Softmax)
Normalize Prob指数関数と正規化(Softmax)を施すことで、上位 $k$ 個の活性専門家には連続的な重み比率(総和1.0)が割り当てられます。一方で、選外(Step 5で $-\infty$ マスクされた)専門家は $\exp(-\infty) = 0$ となり、割り当て確率は完全な $0.000$ となって、微分可能な性質を保持したまま不活性化されます。
STEP 7: 選択専門家へのトークン配送 (Routing & Dispatch)
Token Dispatchゲート確率がゼロより大きくなった $k$ 個の専門家(実体はFFNの物理ブロック)にトークンデータ $x$ を複製して配送します。ディープラーニングシステム上では、この段階で大量のトークンを束ねるテンソルの配置転換(GPU内のAll-to-All通信など)が行われ、超並列計算プロセスへと流されます。
STEP 8: Expert内部 FFN 第1層(Up-Projection)
Up-Projection選ばれたエキスパート(FFN)の第1層目の重み行列 $W_{\text{up}, i}$ と入力 $x$ の積を計算します。低次元(Transformerの隠れ空間)から高次元の中間隠れ層に引き上げることで、情報間の複雑な関係性を幾何学的に分離・表現しやすい状態(非線形セパレータビリティ)を作ります。
STEP 9: 非線形活性化関数(ReLU)の適用
Activation (ReLU)中間層ベクトル $z_i$ に対して要素ごとに $\text{ReLU}$ 関数を適用し、負の値を一律 $0$ にリセットします。この活性化関数がないと、多層のニューラルネットワークも「単一の線形代数写像」に退化してしまいます。非線形活性化を通じてはじめて、ニューロンは複雑なパターンや条件分岐ルールをニューラルに学習できます。
STEP 10: Expert内部 FFN 第2層(Down-Projection)
Down-Projection活性化中間層ベクトル $h_i$ に下降投影行列 $W_{\text{down}, i}$ を掛け、元の3次元隠れ次元に圧縮します。これにより、各Expert(知識ドメイン)内で高度に特殊化・精査された変換データが、元のモデルの伝播経路へとスムーズに戻すことができるコンパクトな形式 $E_i(x)$ へと結実します。
STEP 11: ゲート確率による出力のスケーリング (Gating Scale)
Weight Scaling算出された個別のExpert出力ベクトル $E_i(x)$ に対し、Step 6で決定した割り当て割合(ゲート値) $g_i$ を掛け合わせます。これにより、単なる二者択一(1 or 0)ではなく、ルーターの「この専門家に80%任せ、あちらには20%任せる」といったソフトな重要度配分が数理的に保障され、誤差逆伝播の勾配がルーターまで適切に届くようになります。
STEP 12: 各専門家出力の加重和・最終合成出力 (Weighted Sum)
Final Combine重み付けされたExpertのアウトプットベクトルを要素ごとに加算(加重和)し、MoE層の最終出力 $y$ を合成します。このベクトル $y$ は、モデルが持つ全Expert(巨大な全体知)の中から、そのトークンに最も適合する特化知を高効率にアンサンブル・凝縮した精鋭の特徴量を意味し、次なるTransformerブロックへと引き継がれます。