keras-team · martin-gorner · Jul 12, 2023 · Jun 21, 2023 · Jun 22, 2023 · Jun 22, 2023
diff --git a/examples/demo_jax_distributed.py b/examples/demo_jax_distributed.py
@@ -157,13 +157,7 @@ def make_model():
 # data will be split along the batch axis
 data_mesh = Mesh(devices, axis_names=("batch",))  # naming axes of the mesh
 # naming axes of the sharded partition
-data_sharding = NamedSharding(
-    data_mesh,
-    P(
-        "batch",
-    ),
-)
-
+data_sharding = NamedSharding(data_mesh,P("batch",),)
 # all variables will be replicated on all devices
 var_mesh = Mesh(devices, axis_names=("_"))
 # in NamedSharding, axes that are not mentioned are replicated (all axes here)
@@ -275,7 +269,7 @@ def train_step(train_state, x, y):
     )
 
     trainable_variables, optimizer_variables = optimizer.stateless_apply(
-        grads, train_state.trainable_variables, train_state.optimizer_variables
+        train_state.optimizer_variables, grads, train_state.trainable_variables
     )
 
     return loss_value, TrainingState(