RWKV v7

MollySophia · MollySophia · commit 536d77ec25e5 · 2025-01-09T22:14:11.000+08:00
Signed-off-by: Molly Sophia &lt;mollysophia379@gmail.com&gt;
diff --git a/python/convert_pytorch_to_ggml.py b/python/convert_pytorch_to_ggml.py
@@ -129,6 +129,7 @@ def write_state_dict(state_dict: Dict[str, torch.Tensor], dest_path: str, data_t
                     '.time_',
                     '.k_k', '.k_a', '.r_k',
                     '.x_rwkvag', '.x_k',
+                    '.w0', '.a0', '.v0',
                 ]
             ):
                 tensor = tensor.half()
diff --git a/rwkv.cpp b/rwkv.cpp
@@ -107,7 +107,12 @@ struct rwkv_context * rwkv_init_from_file(const char * file_path, const uint32_t
     ggml_backend_cpu_set_n_threads(cpu_backend, n_threads);
     ctx->model->backends.push_back(cpu_backend);
 
-    RWKV_ENSURE_OR_NULL(rwkv_load_model_from_file(file_path, *ctx->model, n_gpu_layers));
+    int ngl = n_gpu_layers;
+    if (ctx->model->backends.size() == 1) {
+        ngl = 0;
+    }
+
+    RWKV_ENSURE_OR_NULL(rwkv_load_model_from_file(file_path, *ctx->model, ngl));
 
     RWKV_ENSURE_OR_NULL(rwkv_measure_and_build_serial_context(*ctx->model, ctx->serial_graph));
 
diff --git a/rwkv_graph.inc b/rwkv_graph.inc
@@ -388,6 +388,103 @@ static struct ggml_tensor * rwkv_att_v6(
     return ggml_mul_mat(ctx, layer.att_output, x);
 }
 
+static struct ggml_tensor * rwkv_att_v7(
+    struct ggml_context * ctx,
+    struct ggml_tensor * x,
+    struct ggml_tensor * &v_first,
+    struct rwkv_layer layer,
+    struct rwkv_layer_state & state,
+    const int64_t head_count,
+    const int64_t head_size
+) {
+    size_t n_embed = x->ne[0];
+    size_t sequence_length = x->ne[1];
+
+    struct ggml_tensor * x_prev;
+    rwkv_carry_x(ctx, layer.ln1_weight, layer.ln1_bias, x, x_prev, state.att_xx);
+    state.att_xx = ggml_view_1d(ctx, x, n_embed, n_embed * (sequence_length - 1) * sizeof(float));
+
+    // sx = x - x_prev
+    struct ggml_tensor * sx = ggml_sub(ctx, x_prev, x);
+    struct ggml_tensor * dummy = ggml_new_tensor_3d(ctx, GGML_TYPE_F32, n_embed, sequence_length, 6);
+    sx = ggml_repeat(ctx, sx, dummy);
+    struct ggml_tensor * xxx = ggml_add(ctx, ggml_mul(ctx, sx, layer.att_x_rwkvag), x);
+
+    struct ggml_tensor *xr = ggml_view_2d(ctx, xxx, n_embed, sequence_length, xxx->nb[1], 0);
+    struct ggml_tensor *xw = ggml_view_2d(ctx, xxx, n_embed, sequence_length, xxx->nb[1], n_embed * sequence_length * sizeof(float));
+    struct ggml_tensor *xk = ggml_view_2d(ctx, xxx, n_embed, sequence_length, xxx->nb[1], n_embed * sequence_length * 2 * sizeof(float));
+    struct ggml_tensor *xv = ggml_view_2d(ctx, xxx, n_embed, sequence_length, xxx->nb[1], n_embed * sequence_length * 3 * sizeof(float));
+    struct ggml_tensor *xa = ggml_view_2d(ctx, xxx, n_embed, sequence_length, xxx->nb[1], n_embed * sequence_length * 4 * sizeof(float));
+    struct ggml_tensor *xg = ggml_view_2d(ctx, xxx, n_embed, sequence_length, xxx->nb[1], n_embed * sequence_length * 5 * sizeof(float));
+
+    struct ggml_tensor * r = ggml_reshape_3d(ctx, ggml_mul_mat(ctx, layer.att_receptance, xr), head_size, head_count, sequence_length);
+    struct ggml_tensor * g = ggml_mul_mat(ctx, layer.att_g2, ggml_sigmoid(ctx, ggml_mul_mat(ctx, layer.att_g1, xg)));
+    struct ggml_tensor * a = ggml_sigmoid(ctx,
+        ggml_add(
+            ctx,
+            ggml_mul_mat(ctx, layer.att_a2, ggml_mul_mat(ctx, layer.att_a1, xa)),
+            layer.att_a0
+        )
+    );
+
+    struct ggml_tensor * w = ggml_add(
+        ctx,
+        ggml_mul_mat(ctx, layer.att_w2, ggml_tanh(ctx, ggml_mul_mat(ctx, layer.att_w1, xw))),
+        layer.att_w0
+    );
+    w = ggml_exp(ctx, ggml_scale(ctx, ggml_cast(ctx, ggml_sigmoid(ctx, w), GGML_TYPE_F32), -0.606531));
+
+    struct ggml_tensor * k = ggml_mul_mat(ctx, layer.att_key, xk);
+    struct ggml_tensor * kk = ggml_reshape_3d(ctx, ggml_mul(ctx, k, layer.att_k_k), head_size, head_count, sequence_length);
+    kk = rwkv_l2norm(ctx, kk);
+    struct ggml_tensor * ka = ggml_mul(ctx, k, layer.att_k_a);
+    k = ggml_add(ctx, k, ggml_sub(ctx, ggml_mul(ctx, a, ka), ka));
+    
+    struct ggml_tensor * v = ggml_mul_mat(ctx, layer.att_value, xv);
+    if (v_first == NULL) {
+        v_first = v;
+    } else {
+        v = ggml_add(ctx, v, ggml_mul(ctx,
+                ggml_sub(ctx, v_first, v),
+                ggml_sigmoid(ctx, 
+                    ggml_add(ctx,
+                        ggml_mul_mat(ctx, layer.att_v2, ggml_mul_mat(ctx, layer.att_v1, xv)),
+                        layer.att_v0
+                    )
+                )
+            )
+        );
+    }
+
+    w = ggml_reshape_3d(ctx, w, head_size, head_count, sequence_length);
+    k = ggml_reshape_3d(ctx, k, head_size, head_count, sequence_length);
+    v = ggml_reshape_3d(ctx, v, head_size, head_count, sequence_length);
+    a = ggml_reshape_3d(ctx, a, head_size, head_count, sequence_length);
+
+    struct ggml_tensor * wkv_out = rwkv_wkv_v7(ctx, state.att_heads, r, w, k, v, ggml_neg(ctx, kk), ggml_mul(ctx, kk, a));
+    x = ggml_view_1d(ctx, wkv_out, n_embed * sequence_length, 0);
+
+    state.att_heads = ggml_view_1d(ctx, wkv_out, n_embed * head_size, n_embed * sequence_length * sizeof(float));
+
+    // group norm with head_count groups
+    x = ggml_reshape_3d(ctx, x, head_size, head_count, sequence_length);
+    x = ggml_norm(ctx, x, 64e-5f);
+    // Convert back to a regular vector.
+    x = ggml_reshape_2d(ctx, x, n_embed, sequence_length);
+    x = ggml_add(ctx, ggml_mul(ctx, x, layer.att_ln_x_weight), layer.att_ln_x_bias);
+
+    x = ggml_add(ctx, x, 
+        ggml_reshape_2d(ctx,
+            ggml_mul(ctx, v, ggml_sum_rows(ctx, ggml_mul(ctx, ggml_mul(ctx, k, r), layer.att_r_k))),
+            n_embed, sequence_length
+        )
+    );
+
+    x = ggml_mul(ctx, x, g);
+
+    return ggml_mul_mat(ctx, layer.att_output, x);
+}
+
 static struct ggml_tensor * rwkv_ffn_v4_v5(struct ggml_context * ctx, struct ggml_tensor * x, struct rwkv_layer layer, struct rwkv_layer_state & state) {
     struct ggml_tensor * x_prev;
     rwkv_carry_x(ctx, layer.ln2_weight, layer.ln2_bias, x, x_prev, state.ffn_xx, true);
@@ -437,6 +534,18 @@ static struct ggml_tensor * rwkv_ffn_v6(struct ggml_context * ctx, struct ggml_t
     return ggml_mul(ctx, r, ggml_mul_mat(ctx, layer.ffn_value, k));
 }
 
+static struct ggml_tensor * rwkv_ffn_v7(struct ggml_context * ctx, struct ggml_tensor * x, struct rwkv_layer layer, struct rwkv_layer_state & state) {
+    struct ggml_tensor * x_prev;
+    rwkv_carry_x(ctx, layer.ln2_weight, layer.ln2_bias, x, x_prev, state.ffn_xx, true);
+    x_prev = ggml_sub(ctx, x_prev, x);
+
+    struct ggml_tensor * xk = ggml_add(ctx, ggml_mul(ctx, x_prev, layer.ffn_x_k), x);
+
+    struct ggml_tensor * k = ggml_sqr(ctx, ggml_relu(ctx, ggml_mul_mat(ctx, layer.ffn_key, xk)));
+
+    return ggml_mul_mat(ctx, layer.ffn_value, k);
+}
+
 static void rwkv_create_input_and_output_views(
     struct ggml_context * ctx,
     struct rwkv_layer_state * inputs,
@@ -543,6 +652,9 @@ static bool rwkv_build_serial_graph(struct rwkv_model & model, struct rwkv_compu
     ggml_set_name(output, "state.out");
     ggml_set_input(graph.tokens);
 
+    // For v7.
+    struct ggml_tensor * v_first = NULL;
+
     // x = self.w.emb.weight[token]
     struct ggml_tensor * x = ggml_get_rows(ctx, model.emb, graph.tokens);
 
@@ -556,7 +668,8 @@ static bool rwkv_build_serial_graph(struct rwkv_model & model, struct rwkv_compu
 
         switch (model.arch_version_major) {
             case 7:
-
+                x = ggml_add(ctx, x, rwkv_att_v7(ctx, x, v_first, layer, state, model.head_count, model.head_size));
+                x = ggml_add(ctx, x, rwkv_ffn_v7(ctx, x, layer, state));
                 break;
             case 6:
                 x = ggml_add(ctx, x, rwkv_att_v6(ctx, x, layer, state, model.head_count, model.head_size));
@@ -671,6 +784,9 @@ static bool rwkv_build_sequential_graph(struct rwkv_model & model, struct rwkv_c
     ggml_set_name(output, "state.out");
     ggml_set_input(graph.tokens);
 
+    // For v7.
+    struct ggml_tensor * v_first = NULL;
+
     // x = self.w.emb.weight[token]
     struct ggml_tensor * x = ggml_get_rows(ctx, model.emb, graph.tokens);
 
@@ -684,7 +800,7 @@ static bool rwkv_build_sequential_graph(struct rwkv_model & model, struct rwkv_c
 
         switch (model.arch_version_major) {
             case 7:
-
+                x = ggml_add(ctx, x, rwkv_att_v7(ctx, x, v_first, layer, state, model.head_count, model.head_size));
                 break;
             case 6:
                 x = ggml_add(ctx, x, rwkv_att_v6(ctx, x, layer, state, model.head_count, model.head_size));
@@ -703,7 +819,7 @@ static bool rwkv_build_sequential_graph(struct rwkv_model & model, struct rwkv_c
         // TODO Can we skip ffn for all but the last token, the same way we skip unembedding?
         switch (model.arch_version_major) {
             case 7:
-
+                x = ggml_add(ctx, x, rwkv_ffn_v7(ctx, x, layer, state));
                 break;
             case 6:
                 x = ggml_add(ctx, x, rwkv_ffn_v6(ctx, x, layer, state));
diff --git a/rwkv_model_loading.inc b/rwkv_model_loading.inc
@@ -170,14 +170,16 @@ static bool rwkv_set_params(struct rwkv_model & model, F callback, const uint32_
                 }
 
                 RWKV_ENSURE_OR_FALSE(callback((strcpy(&buffer[offset], "att.r_k"), buffer), layer.att_r_k, offload_layer));
-                RWKV_ENSURE_OR_FALSE(callback((strcpy(&buffer[offset], "att.k_k"), buffer), layer.att_k_k, offload_layer));
+                // Somehow offloading this layer makes the model output NaN after several iterations.
+                RWKV_ENSURE_OR_FALSE(callback((strcpy(&buffer[offset], "att.k_k"), buffer), layer.att_k_k, false));
                 RWKV_ENSURE_OR_FALSE(callback((strcpy(&buffer[offset], "att.k_a"), buffer), layer.att_k_a, offload_layer));            
 
                 RWKV_ENSURE_OR_FALSE(callback((strcpy(&buffer[offset], "att.key.weight"), buffer), layer.att_key, offload_layer));
                 RWKV_ENSURE_OR_FALSE(callback((strcpy(&buffer[offset], "att.value.weight"), buffer), layer.att_value, offload_layer));
                 RWKV_ENSURE_OR_FALSE(callback((strcpy(&buffer[offset], "att.receptance.weight"), buffer), layer.att_receptance, offload_layer));
                 RWKV_ENSURE_OR_FALSE(callback((strcpy(&buffer[offset], "att.output.weight"), buffer), layer.att_output, offload_layer));
 
+                // These too.
                 RWKV_ENSURE_OR_FALSE(callback((strcpy(&buffer[offset], "att.ln_x.weight"), buffer), layer.att_ln_x_weight, false));
                 RWKV_ENSURE_OR_FALSE(callback((strcpy(&buffer[offset], "att.ln_x.bias"), buffer), layer.att_ln_x_bias, false));
                 break;
diff --git a/rwkv_operators.inc b/rwkv_operators.inc
@@ -1,4 +1,4 @@
-// #include "rwkv_operators_wkv_v5.inc"
+#include "rwkv_operators_wkv_v7.inc"
 
 #define SUPPRESS_UNUSED_WARNINGS_IN_CUSTOM_OP() { (void) ith; (void) nth; (void) userdata; }
 
@@ -36,11 +36,60 @@ static void rwkv_max_impl(
     SUPPRESS_UNUSED_WARNINGS_IN_CUSTOM_OP();
 }
 
+// TODO: Upstream to ggml
+static void rwkv_l2norm_impl(
+    struct ggml_tensor * dst,
+    const struct ggml_tensor * src0,
+    int ith,
+    int nth,
+    void * userdata
+) {
+    GGML_ASSERT(dst->type == GGML_TYPE_F32);
+    GGML_ASSERT(src0->type == GGML_TYPE_F32);
+    GGML_ASSERT(ggml_is_contiguous(dst));
+    GGML_ASSERT(ggml_is_contiguous(src0));
+    GGML_ASSERT(ggml_are_same_shape(src0, dst));
+
+    GGML_TENSOR_UNARY_OP_LOCALS
+
+    float eps = 1e-12f;
+
+    // TODO: optimize
+    for (int64_t i03 = 0; i03 < ne03; i03++) {
+        for (int64_t i02 = 0; i02 < ne02; i02++) {
+            for (int64_t i01 = ith; i01 < ne01; i01 += nth) {
+                const float * x = (float *) ((char *) src0->data + i01*nb01 + i02*nb02 + i03*nb03);
+
+                float sum = 0.0;
+                for (int64_t i00 = 0; i00 < ne00; i00++) {
+                    float v = x[i00];
+                    sum += v*v;
+                }
+
+                float * y = (float *) ((char *) dst->data + i01*nb01 + i02*nb02 + i03*nb03);
+
+                const float scale = 1.0f/fmaxf(sqrtf(sum), eps);
+
+                // ggml_vec_scale_f32(ne00, y, scale);
+                for (int64_t i00 = 0; i00 < ne00; i00++) {
+                    y[i00] = x[i00] * scale;
+                }
+            }
+        }
+    }
+
+    SUPPRESS_UNUSED_WARNINGS_IN_CUSTOM_OP();
+}
+
 // Element-wise max(x, y)
 struct ggml_tensor * rwkv_max(struct ggml_context * ctx, struct ggml_tensor * x, struct ggml_tensor * y) {
     return ggml_map_custom2(ctx, x, y, rwkv_max_impl, 1, NULL);
 }
 
+struct ggml_tensor * rwkv_l2norm(struct ggml_context * ctx, struct ggml_tensor * x) {
+    return ggml_map_custom1(ctx, x, rwkv_l2norm_impl, 1, NULL);
+}
+
 struct ggml_tensor * rwkv_layer_norm(struct ggml_context * ctx, struct ggml_tensor * x, struct ggml_tensor * weight, struct ggml_tensor * bias) {
     // LayerNorm in RWKV is `x = (x - mean(x)) / sqrt(variance(x) + 1e-5) * weight + bias`
     // Looks like ggml_norm does the first part, we only need to apply weight & bias.
diff --git a/rwkv_operators_wkv_v7.inc b/rwkv_operators_wkv_v7.inc

Original file line number	Diff line number	Diff line change
`@@ -129,6 +129,7 @@ def write_state_dict(state_dict: Dict[str, torch.Tensor], dest_path: str, data_t`
`129`	`129`	`'.time_',`
`130`	`130`	`'.k_k', '.k_a', '.r_k',`
`131`	`131`	`'.x_rwkvag', '.x_k',`
	`132`	`+ '.w0', '.a0', '.v0',`
`132`	`133`	`]`
`133`	`134`	`):`
`134`	`135`	`tensor = tensor.half()`