jax.debug.visualize_array_sharding 分片规则 模型不同组件的分片规则如下所示: 参数如何分片: 参数要在 8 个 GPU 之间分配。例如,LM head(lm_head/kernel ...