Transformer_vs_MOE
Transformer_vs_MOE
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
+ + + + + + + +
Decoder Decoder
Block Block
+ +
Router
Feed
Forward
Network
+
+ +
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
What is a Transformer?
... ... ... ... ... ... ... ... ... ... ... ...
+ + + +
Positional Embedding
Decoder
Block
Layer Norm
Layer Norm
Feed
Forward
Network
Decoder Block * N
... ... ... ... ... ... ... ... ... ... ... ...
Key Components
Key Components
Experts: Individual neural network sub-models,
each trained to specialize in a particular subset of
data.