microsoft · tohtana · Sep 29, 2024 · Sep 29, 2024 · Sep 29, 2024 · Sep 30, 2024
@@ -225,8 +225,8 @@ def setup_zero_stage3_hooks(self):
         @instrument_w_nvtx
         def _end_of_forward_hook(module, *args):
 
-            if not torch._C.is_grad_enabled():
-                self.get_param_coordinator(training=False).reset_step()
+            self.get_param_coordinator(training=False).reset_step()
+            self.get_param_coordinator(training=True).reset_step()
 
         #likely one of them should be enough but just to be safe
         self._register_hooks_recursively(self.module)
@@ -463,7 +463,7 @@ def post_sub_module_forward_function(self, sub_module):
 
     @torch.no_grad()
     def pre_sub_module_backward_function(self, sub_module):
-        assert sub_module.training, "backward pass is invalid for module in evaluation mode"
+        # assert sub_module.training, "backward pass is invalid for module in evaluation mode"
         param_coordinator = self.get_param_coordinator(training=True)
         param_coordinator.trace_prologue(sub_module)
         if param_coordinator.is_record_trace():
@@ -472,7 +472,7 @@ def pre_sub_module_backward_function(self, sub_module):
 
     @torch.no_grad()
     def post_sub_module_backward_function(self, sub_module):
-        assert sub_module.training, "backward pass is invalid for module in evaluation mode"
+        # assert sub_module.training, "backward pass is invalid for module in evaluation mode"
         see_memory_usage(
             f"After sub module backward function {sub_module.__class__.__name__} {sub_module.id} before release",
             force=False)

@@ -266,6 +266,22 @@ def safe_set_local_grad(param, value):
     param._z3_optimizer.set_local_grad_for_param(value, param)
 
 
+def safe_set_local_grad(param, value):
+    """Update the gradient of a partitioned parameter.
+        Args:
+            param (``torch.nn.Parameter``): A model parameter
+            value (``torch.Tensor``): New value
+    """
+    if param.grad is not None:
+        return param.grad.copy_(value)
+
+    # ZeRO stage 3 param
+    if hasattr(param, 'ds_id'):
+        return param._z3_optimizer.set_local_grad_for_param(value, param)
+
+    return None
+
+
 def safe_get_local_fp32_param(param):
     """Get the local partition of a ZeRO-3 partitioned parameter in fp32 precision.
         Args: