torch/optim/optimizer.py

*da0073e9SAndroid Build Coastguard Worker# mypy: allow-untyped-decorators
*da0073e9SAndroid Build Coastguard Worker# mypy: allow-untyped-defs
*da0073e9SAndroid Build Coastguard Worker"""Base optimizer."""
*da0073e9SAndroid Build Coastguard Workerimport functools
*da0073e9SAndroid Build Coastguard Workerimport warnings
*da0073e9SAndroid Build Coastguard Workerfrom collections import defaultdict, OrderedDict
*da0073e9SAndroid Build Coastguard Workerfrom copy import deepcopy
*da0073e9SAndroid Build Coastguard Workerfrom itertools import chain
*da0073e9SAndroid Build Coastguard Workerfrom typing import (
*da0073e9SAndroid Build Coastguard Worker    Any,
*da0073e9SAndroid Build Coastguard Worker    Callable,
*da0073e9SAndroid Build Coastguard Worker    cast,
*da0073e9SAndroid Build Coastguard Worker    DefaultDict,
*da0073e9SAndroid Build Coastguard Worker    Dict,
*da0073e9SAndroid Build Coastguard Worker    Hashable,
*da0073e9SAndroid Build Coastguard Worker    Iterable,
*da0073e9SAndroid Build Coastguard Worker    List,
*da0073e9SAndroid Build Coastguard Worker    Optional,
*da0073e9SAndroid Build Coastguard Worker    overload,
*da0073e9SAndroid Build Coastguard Worker    Set,
*da0073e9SAndroid Build Coastguard Worker    Tuple,
*da0073e9SAndroid Build Coastguard Worker    TypeVar,
*da0073e9SAndroid Build Coastguard Worker    Union,
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Workerfrom typing_extensions import ParamSpec, Self, TypeAlias
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport torch
*da0073e9SAndroid Build Coastguard Workerimport torch.utils.hooks as hooks
*da0073e9SAndroid Build Coastguard Workerfrom torch._utils import is_compiling
*da0073e9SAndroid Build Coastguard Workerfrom torch.utils._foreach_utils import (
*da0073e9SAndroid Build Coastguard Worker    _get_foreach_kernels_supported_devices,
*da0073e9SAndroid Build Coastguard Worker    _get_fused_kernels_supported_devices,
*da0073e9SAndroid Build Coastguard Worker    _group_tensors_by_device_and_dtype,
*da0073e9SAndroid Build Coastguard Worker    Indices,
*da0073e9SAndroid Build Coastguard Worker    TensorListList,
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Workerfrom torch.utils.hooks import RemovableHandle
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerArgs: TypeAlias = Tuple[Any, ...]
*da0073e9SAndroid Build Coastguard WorkerKwargs: TypeAlias = Dict[str, Any]
*da0073e9SAndroid Build Coastguard WorkerStateDict: TypeAlias = Dict[str, Any]
*da0073e9SAndroid Build Coastguard WorkerDeviceDict = Dict[Optional[torch.device], torch.Tensor]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerGlobalOptimizerPreHook: TypeAlias = Callable[
*da0073e9SAndroid Build Coastguard Worker    ["Optimizer", Args, Kwargs], Optional[Tuple[Args, Kwargs]]
*da0073e9SAndroid Build Coastguard Worker]
*da0073e9SAndroid Build Coastguard WorkerGlobalOptimizerPostHook: TypeAlias = Callable[["Optimizer", Args, Kwargs], None]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker__all__ = [
*da0073e9SAndroid Build Coastguard Worker    "Optimizer",
*da0073e9SAndroid Build Coastguard Worker    "register_optimizer_step_pre_hook",
*da0073e9SAndroid Build Coastguard Worker    "register_optimizer_step_post_hook",
*da0073e9SAndroid Build Coastguard Worker]
*da0073e9SAndroid Build Coastguard Worker_global_optimizer_pre_hooks: Dict[int, GlobalOptimizerPreHook] = OrderedDict()
*da0073e9SAndroid Build Coastguard Worker_global_optimizer_post_hooks: Dict[int, GlobalOptimizerPostHook] = OrderedDict()
*da0073e9SAndroid Build Coastguard Worker_foreach_supported_types = [torch.Tensor, torch.nn.parameter.Parameter]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass _RequiredParameter:
*da0073e9SAndroid Build Coastguard Worker    """Singleton class representing a required parameter for an Optimizer."""
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __repr__(self) -> str:
*da0073e9SAndroid Build Coastguard Worker        return "<required parameter>"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerrequired = _RequiredParameter()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _use_grad_for_differentiable(func):
*da0073e9SAndroid Build Coastguard Worker    def _use_grad(self, *args, **kwargs):
*da0073e9SAndroid Build Coastguard Worker        import torch._dynamo
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        prev_grad = torch.is_grad_enabled()
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            # Note on graph break below:
*da0073e9SAndroid Build Coastguard Worker            # we need to graph break to ensure that aot respects the no_grad annotation.
*da0073e9SAndroid Build Coastguard Worker            # This is important for perf because without this, functionalization will generate an epilogue
*da0073e9SAndroid Build Coastguard Worker            # which updates the mutated parameters of the optimizer which is *not* visible to inductor, as a result,
*da0073e9SAndroid Build Coastguard Worker            # inductor will allocate for every parameter in the model, which is horrible.
*da0073e9SAndroid Build Coastguard Worker            # With this, aot correctly sees that this is an inference graph, and functionalization will generate
*da0073e9SAndroid Build Coastguard Worker            # an epilogue which is appended to the graph, which *is* visible to inductor, as a result, inductor sees that
*da0073e9SAndroid Build Coastguard Worker            # step is in place and is able to avoid the extra allocation.
*da0073e9SAndroid Build Coastguard Worker            # In the future, we will either 1) continue to graph break on backward, so this graph break does not matter
*da0073e9SAndroid Build Coastguard Worker            # or 2) have a fully fused forward and backward graph, which will have no_grad by default, and we can remove this
*da0073e9SAndroid Build Coastguard Worker            # graph break to allow the fully fused fwd-bwd-optimizer graph to be compiled.
*da0073e9SAndroid Build Coastguard Worker            # see https://github.com/pytorch/pytorch/issues/104053
*da0073e9SAndroid Build Coastguard Worker            torch.set_grad_enabled(self.defaults["differentiable"])
*da0073e9SAndroid Build Coastguard Worker            torch._dynamo.graph_break()
*da0073e9SAndroid Build Coastguard Worker            ret = func(self, *args, **kwargs)
*da0073e9SAndroid Build Coastguard Worker        finally:
*da0073e9SAndroid Build Coastguard Worker            torch._dynamo.graph_break()
*da0073e9SAndroid Build Coastguard Worker            torch.set_grad_enabled(prev_grad)
*da0073e9SAndroid Build Coastguard Worker        return ret
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    functools.update_wrapper(_use_grad, func)
*da0073e9SAndroid Build Coastguard Worker    return _use_grad
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _get_value(x):
*da0073e9SAndroid Build Coastguard Worker    # item is significantly faster than a cpu tensor in eager mode
*da0073e9SAndroid Build Coastguard Worker    if not torch.jit.is_scripting() and is_compiling():
*da0073e9SAndroid Build Coastguard Worker        return x
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        return x.item() if isinstance(x, torch.Tensor) else x
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _stack_if_compiling(x):
*da0073e9SAndroid Build Coastguard Worker    if not torch.jit.is_scripting() and is_compiling():
*da0073e9SAndroid Build Coastguard Worker        return torch.stack(x)
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        return x
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _disable_dynamo_if_unsupported(single_tensor_fn=None):
*da0073e9SAndroid Build Coastguard Worker    # workaround for torchscript BC
*da0073e9SAndroid Build Coastguard Worker    # it requires all called functions to be in the
*da0073e9SAndroid Build Coastguard Worker    # global environment at the site at which the
*da0073e9SAndroid Build Coastguard Worker    # maybe_fallback closure is created
*da0073e9SAndroid Build Coastguard Worker    if single_tensor_fn:
*da0073e9SAndroid Build Coastguard Worker        globals()[single_tensor_fn.__name__] = single_tensor_fn
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def wrapper(func):
*da0073e9SAndroid Build Coastguard Worker        import inspect
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        disabled_func = torch._disable_dynamo(func)
*da0073e9SAndroid Build Coastguard Worker        ps = inspect.signature(func).parameters
*da0073e9SAndroid Build Coastguard Worker        has_state_steps = True
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            state_steps_ind = list(ps.keys()).index("state_steps")
*da0073e9SAndroid Build Coastguard Worker        except ValueError:
*da0073e9SAndroid Build Coastguard Worker            has_state_steps = False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Today, there are cases where we stack state steps
*da0073e9SAndroid Build Coastguard Worker        # and pass them as the value arg of foreach ops.
*da0073e9SAndroid Build Coastguard Worker        # Having state steps on cuda as the value arg is not supported in eager,
*da0073e9SAndroid Build Coastguard Worker        # but this only occurs in the rare case that the user explicitly deletes
*da0073e9SAndroid Build Coastguard Worker        # the capturable flag. If capturable=True, this is not a problem.
*da0073e9SAndroid Build Coastguard Worker        @functools.wraps(func)
*da0073e9SAndroid Build Coastguard Worker        def maybe_fallback(*args, **kwargs):
*da0073e9SAndroid Build Coastguard Worker            if is_compiling() and (
*da0073e9SAndroid Build Coastguard Worker                not kwargs.get("capturable", False)
*da0073e9SAndroid Build Coastguard Worker                and has_state_steps
*da0073e9SAndroid Build Coastguard Worker                and (args[state_steps_ind] and args[state_steps_ind][0].is_cuda)
*da0073e9SAndroid Build Coastguard Worker                or (
*da0073e9SAndroid Build Coastguard Worker                    "state_steps" in kwargs
*da0073e9SAndroid Build Coastguard Worker                    and kwargs["state_steps"]
*da0073e9SAndroid Build Coastguard Worker                    and kwargs["state_steps"][0].is_cuda
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            ):
*da0073e9SAndroid Build Coastguard Worker                return disabled_func(*args, **kwargs)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                return func(*args, **kwargs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return maybe_fallback
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return wrapper
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker# For any optimizer with a faster implementation, we attempt to default to the
*da0073e9SAndroid Build Coastguard Worker# fastest + stablest whenever possible. For foreach, the requirements are to have
*da0073e9SAndroid Build Coastguard Worker# native params all on CUDA. For fused, there's currently the additional requirement
*da0073e9SAndroid Build Coastguard Worker# that the tensors' dtypes must be floating point. Neither alternative supports
*da0073e9SAndroid Build Coastguard Worker# torch.jit.script nor differentiable, so we fall back to the single tensor
*da0073e9SAndroid Build Coastguard Worker# implementation in those cases.
*da0073e9SAndroid Build Coastguard Workerdef _default_to_fused_or_foreach(
*da0073e9SAndroid Build Coastguard Worker    params: List[torch.Tensor], differentiable: bool, use_fused: bool = False
*da0073e9SAndroid Build Coastguard Worker) -> Tuple[bool, bool]:
*da0073e9SAndroid Build Coastguard Worker    if torch.jit.is_scripting() or differentiable:
*da0073e9SAndroid Build Coastguard Worker        return False, False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    fused_supported_devices = _get_fused_kernels_supported_devices()
*da0073e9SAndroid Build Coastguard Worker    foreach_supported_devices = _get_foreach_kernels_supported_devices()
*da0073e9SAndroid Build Coastguard Worker    fused = use_fused and all(
*da0073e9SAndroid Build Coastguard Worker        p is None
*da0073e9SAndroid Build Coastguard Worker        or (
*da0073e9SAndroid Build Coastguard Worker            type(p) in _foreach_supported_types
*da0073e9SAndroid Build Coastguard Worker            and p.device.type in fused_supported_devices
*da0073e9SAndroid Build Coastguard Worker            and torch.is_floating_point(p)
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        for p in params
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    foreach = not fused and all(
*da0073e9SAndroid Build Coastguard Worker        p is None
*da0073e9SAndroid Build Coastguard Worker        or (
*da0073e9SAndroid Build Coastguard Worker            type(p) in _foreach_supported_types
*da0073e9SAndroid Build Coastguard Worker            and p.device.type in foreach_supported_devices
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        for p in params
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    return fused, foreach
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _device_dtype_check_for_fused(
*da0073e9SAndroid Build Coastguard Worker    p: torch.Tensor, cuda_unsupported: bool = False
*da0073e9SAndroid Build Coastguard Worker) -> None:
*da0073e9SAndroid Build Coastguard Worker    fused_supported_devices = _get_fused_kernels_supported_devices()
*da0073e9SAndroid Build Coastguard Worker    if cuda_unsupported:
*da0073e9SAndroid Build Coastguard Worker        fused_supported_devices.remove("cuda")
*da0073e9SAndroid Build Coastguard Worker    if not (p.device.type in fused_supported_devices and torch.is_floating_point(p)):
*da0073e9SAndroid Build Coastguard Worker        raise RuntimeError(
*da0073e9SAndroid Build Coastguard Worker            "`fused=True` requires all the params to be floating point Tensors of "
*da0073e9SAndroid Build Coastguard Worker            f"supported devices: {fused_supported_devices} but {p.dtype} and {p.device.type}"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _view_as_real(params, *state_and_grads):
*da0073e9SAndroid Build Coastguard Worker    for i, p in enumerate(params):
*da0073e9SAndroid Build Coastguard Worker        if torch.is_complex(p):
*da0073e9SAndroid Build Coastguard Worker            params[i] = torch.view_as_real(params[i])
*da0073e9SAndroid Build Coastguard Worker            for s in state_and_grads:
*da0073e9SAndroid Build Coastguard Worker                s[i] = torch.view_as_real(s[i])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _get_scalar_dtype(is_fused=None):
*da0073e9SAndroid Build Coastguard Worker    if is_fused:
*da0073e9SAndroid Build Coastguard Worker        return torch.float32
*da0073e9SAndroid Build Coastguard Worker    return (
*da0073e9SAndroid Build Coastguard Worker        torch.float64 if torch.get_default_dtype() == torch.float64 else torch.float32
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _get_capturable_supported_devices(supports_xla: bool = True) -> List[str]:
*da0073e9SAndroid Build Coastguard Worker    r"""Return the device type list that supports capturable optimizer."""
*da0073e9SAndroid Build Coastguard Worker    capturable_supported_devices = ["cuda", "xpu", "hpu"]
*da0073e9SAndroid Build Coastguard Worker    if not torch.jit.is_scripting():
*da0073e9SAndroid Build Coastguard Worker        capturable_supported_devices.append(torch._C._get_privateuse1_backend_name())
*da0073e9SAndroid Build Coastguard Worker    if supports_xla:
*da0073e9SAndroid Build Coastguard Worker        capturable_supported_devices.append("xla")
*da0073e9SAndroid Build Coastguard Worker    return capturable_supported_devices
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker# Common doc strings among optimizers
*da0073e9SAndroid Build Coastguard Worker_foreach_doc = r"""foreach (bool, optional): whether foreach implementation of optimizer
*da0073e9SAndroid Build Coastguard Worker            is used. If unspecified by the user (so foreach is None), we will try to use
*da0073e9SAndroid Build Coastguard Worker            foreach over the for-loop implementation on CUDA, since it is usually
*da0073e9SAndroid Build Coastguard Worker            significantly more performant. Note that the foreach implementation uses
*da0073e9SAndroid Build Coastguard Worker            ~ sizeof(params) more peak memory than the for-loop version due to the intermediates
*da0073e9SAndroid Build Coastguard Worker            being a tensorlist vs just one tensor. If memory is prohibitive, batch fewer
*da0073e9SAndroid Build Coastguard Worker            parameters through the optimizer at a time or switch this flag to False (default: None)"""
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker_fused_doc = r"""fused (bool, optional): whether the fused implementation is used.
*da0073e9SAndroid Build Coastguard Worker            Currently, `torch.float64`, `torch.float32`, `torch.float16`, and `torch.bfloat16`
*da0073e9SAndroid Build Coastguard Worker            are supported. (default: None)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    .. note:: The foreach and fused implementations are typically faster than the for-loop,
*da0073e9SAndroid Build Coastguard Worker              single-tensor implementation, with fused being theoretically fastest with both
*da0073e9SAndroid Build Coastguard Worker              vertical and horizontal fusion. As such, if the user has not specified either
*da0073e9SAndroid Build Coastguard Worker              flag (i.e., when foreach = fused = None), we will attempt defaulting to the foreach
*da0073e9SAndroid Build Coastguard Worker              implementation when the tensors are all on CUDA. Why not fused? Since the fused
*da0073e9SAndroid Build Coastguard Worker              implementation is relatively new, we want to give it sufficient bake-in time.
*da0073e9SAndroid Build Coastguard Worker              To specify fused, pass True for fused. To force running the for-loop
*da0073e9SAndroid Build Coastguard Worker              implementation, pass False for either foreach or fused. """
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker_capturable_doc = r"""capturable (bool, optional): whether this instance is safe to
*da0073e9SAndroid Build Coastguard Worker            capture in a CUDA graph. Passing True can impair ungraphed performance,
*da0073e9SAndroid Build Coastguard Worker            so if you don't intend to graph capture this instance, leave it False
*da0073e9SAndroid Build Coastguard Worker            (default: False)"""
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker_differentiable_doc = r"""differentiable (bool, optional): whether autograd should
*da0073e9SAndroid Build Coastguard Worker            occur through the optimizer step in training. Otherwise, the step()
*da0073e9SAndroid Build Coastguard Worker            function runs in a torch.no_grad() context. Setting to True can impair
*da0073e9SAndroid Build Coastguard Worker            performance, so leave it False if you don't intend to run autograd
*da0073e9SAndroid Build Coastguard Worker            through this instance (default: False)"""
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker_maximize_doc = r"""maximize (bool, optional): maximize the objective with respect to the
*da0073e9SAndroid Build Coastguard Worker            params, instead of minimizing (default: False)"""
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef register_optimizer_step_pre_hook(hook: GlobalOptimizerPreHook) -> RemovableHandle:
*da0073e9SAndroid Build Coastguard Worker    r"""Register a pre hook common to all optimizers.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    The hook should have the following signature::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        hook(optimizer, args, kwargs) -> None or modified args and kwargs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Args:
*da0073e9SAndroid Build Coastguard Worker        hook (Callable): A user defined hook which is registered on all optimizers.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Returns:
*da0073e9SAndroid Build Coastguard Worker        :class:`torch.utils.hooks.RemovableHandle`:
*da0073e9SAndroid Build Coastguard Worker            a handle that can be used to remove the added hook by calling
*da0073e9SAndroid Build Coastguard Worker            ``handle.remove()``
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    handle = hooks.RemovableHandle(_global_optimizer_pre_hooks)
*da0073e9SAndroid Build Coastguard Worker    _global_optimizer_pre_hooks[handle.id] = hook
*da0073e9SAndroid Build Coastguard Worker    return handle
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef register_optimizer_step_post_hook(hook: GlobalOptimizerPostHook) -> RemovableHandle:
*da0073e9SAndroid Build Coastguard Worker    r"""Register a post hook common to all optimizers.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    The hook should have the following signature::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        hook(optimizer, args, kwargs) -> None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Args:
*da0073e9SAndroid Build Coastguard Worker        hook (Callable): A user defined hook which is registered on all optimizers.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Returns:
*da0073e9SAndroid Build Coastguard Worker        :class:`torch.utils.hooks.RemovableHandle`:
*da0073e9SAndroid Build Coastguard Worker            a handle that can be used to remove the added hook by calling
*da0073e9SAndroid Build Coastguard Worker            ``handle.remove()``
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    handle = hooks.RemovableHandle(_global_optimizer_post_hooks)
*da0073e9SAndroid Build Coastguard Worker    _global_optimizer_post_hooks[handle.id] = hook
*da0073e9SAndroid Build Coastguard Worker    return handle
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerParamsT: TypeAlias = Union[Iterable[torch.Tensor], Iterable[Dict[str, Any]]]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker_P = ParamSpec("_P")
*da0073e9SAndroid Build Coastguard WorkerR = TypeVar("R")
*da0073e9SAndroid Build Coastguard WorkerT = TypeVar("T")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass Optimizer:
*da0073e9SAndroid Build Coastguard Worker    r"""Base class for all optimizers.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    .. warning::
*da0073e9SAndroid Build Coastguard Worker        Parameters need to be specified as collections that have a deterministic
*da0073e9SAndroid Build Coastguard Worker        ordering that is consistent between runs. Examples of objects that don't
*da0073e9SAndroid Build Coastguard Worker        satisfy those properties are sets and iterators over values of dictionaries.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Args:
*da0073e9SAndroid Build Coastguard Worker        params (iterable): an iterable of :class:`torch.Tensor` s or
*da0073e9SAndroid Build Coastguard Worker            :class:`dict` s. Specifies what Tensors should be optimized.
*da0073e9SAndroid Build Coastguard Worker        defaults: (dict): a dict containing default values of optimization
*da0073e9SAndroid Build Coastguard Worker            options (used when a parameter group doesn't specify them).
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    OptimizerPreHook: TypeAlias = Callable[[Self, Args, Kwargs], Optional[Tuple[Args, Kwargs]]]  # type: ignore[misc]
*da0073e9SAndroid Build Coastguard Worker    OptimizerPostHook: TypeAlias = Callable[[Self, Args, Kwargs], None]  # type: ignore[misc]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    _optimizer_step_pre_hooks: Dict[int, OptimizerPreHook]
*da0073e9SAndroid Build Coastguard Worker    _optimizer_step_post_hooks: Dict[int, OptimizerPostHook]
*da0073e9SAndroid Build Coastguard Worker    _optimizer_state_dict_pre_hooks: 'OrderedDict[int, Callable[["Optimizer"], None]]'
*da0073e9SAndroid Build Coastguard Worker    _optimizer_state_dict_post_hooks: 'OrderedDict[int, Callable[["Optimizer", StateDict], Optional[StateDict]]]'
*da0073e9SAndroid Build Coastguard Worker    _optimizer_load_state_dict_pre_hooks: 'OrderedDict[int, Callable[["Optimizer", StateDict], Optional[StateDict]]]'
*da0073e9SAndroid Build Coastguard Worker    _optimizer_load_state_dict_post_hooks: 'OrderedDict[int, Callable[["Optimizer"], None]]'
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __init__(self, params: ParamsT, defaults: Dict[str, Any]) -> None:  # noqa: D107
*da0073e9SAndroid Build Coastguard Worker        torch._C._log_api_usage_once("python.optimizer")
*da0073e9SAndroid Build Coastguard Worker        self.defaults = defaults
*da0073e9SAndroid Build Coastguard Worker        self._optimizer_step_pre_hooks = OrderedDict()
*da0073e9SAndroid Build Coastguard Worker        self._optimizer_step_post_hooks = OrderedDict()
*da0073e9SAndroid Build Coastguard Worker        self._optimizer_state_dict_pre_hooks = OrderedDict()
*da0073e9SAndroid Build Coastguard Worker        self._optimizer_state_dict_post_hooks = OrderedDict()
*da0073e9SAndroid Build Coastguard Worker        self._optimizer_load_state_dict_pre_hooks = OrderedDict()
*da0073e9SAndroid Build Coastguard Worker        self._optimizer_load_state_dict_post_hooks = OrderedDict()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self._patch_step_function()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if isinstance(params, torch.Tensor):
*da0073e9SAndroid Build Coastguard Worker            raise TypeError(
*da0073e9SAndroid Build Coastguard Worker                "params argument given to the optimizer should be "
*da0073e9SAndroid Build Coastguard Worker                "an iterable of Tensors or dicts, but got " + torch.typename(params)
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.state: DefaultDict[torch.Tensor, Any] = defaultdict(dict)
*da0073e9SAndroid Build Coastguard Worker        self.param_groups: List[Dict[str, Any]] = []
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        param_groups = list(params)
*da0073e9SAndroid Build Coastguard Worker        if len(param_groups) == 0:
*da0073e9SAndroid Build Coastguard Worker            raise ValueError("optimizer got an empty parameter list")
*da0073e9SAndroid Build Coastguard Worker        if not isinstance(param_groups[0], dict):
*da0073e9SAndroid Build Coastguard Worker            param_groups = [{"params": param_groups}]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for param_group in param_groups:
*da0073e9SAndroid Build Coastguard Worker            self.add_param_group(cast(dict, param_group))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Allows _cuda_graph_capture_health_check to rig a poor man's TORCH_WARN_ONCE in python,
*da0073e9SAndroid Build Coastguard Worker        # which I don't think exists
*da0073e9SAndroid Build Coastguard Worker        # https://github.com/pytorch/pytorch/issues/72948
*da0073e9SAndroid Build Coastguard Worker        self._warned_capturable_if_run_uncaptured = True
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __getstate__(self) -> Dict[str, Any]:  # noqa: D105
*da0073e9SAndroid Build Coastguard Worker        return {
*da0073e9SAndroid Build Coastguard Worker            "defaults": self.defaults,
*da0073e9SAndroid Build Coastguard Worker            "state": self.state,
*da0073e9SAndroid Build Coastguard Worker            "param_groups": self.param_groups,
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __setstate__(self, state: Dict[str, Any]) -> None:  # noqa: D105
*da0073e9SAndroid Build Coastguard Worker        self.__dict__.update(state)
*da0073e9SAndroid Build Coastguard Worker        if "_optimizer_step_pre_hooks" not in self.__dict__:
*da0073e9SAndroid Build Coastguard Worker            self._optimizer_step_pre_hooks = OrderedDict()
*da0073e9SAndroid Build Coastguard Worker        if "_optimizer_step_post_hooks" not in self.__dict__:
*da0073e9SAndroid Build Coastguard Worker            self._optimizer_step_post_hooks = OrderedDict()
*da0073e9SAndroid Build Coastguard Worker        if "_optimizer_state_dict_pre_hooks" not in self.__dict__:
*da0073e9SAndroid Build Coastguard Worker            self._optimizer_state_dict_pre_hooks = OrderedDict()
*da0073e9SAndroid Build Coastguard Worker        if "_optimizer_state_dict_post_hooks" not in self.__dict__:
*da0073e9SAndroid Build Coastguard Worker            self._optimizer_state_dict_post_hooks = OrderedDict()
*da0073e9SAndroid Build Coastguard Worker        if "_optimizer_load_state_dict_pre_hooks" not in self.__dict__:
*da0073e9SAndroid Build Coastguard Worker            self._optimizer_load_state_dict_pre_hooks = OrderedDict()
*da0073e9SAndroid Build Coastguard Worker        if "_optimizer_load_state_dict_post_hooks" not in self.__dict__:
*da0073e9SAndroid Build Coastguard Worker            self._optimizer_load_state_dict_post_hooks = OrderedDict()
*da0073e9SAndroid Build Coastguard Worker        self._patch_step_function()  # To support multiprocessing pickle/unpickle
*da0073e9SAndroid Build Coastguard Worker        self.defaults.setdefault("differentiable", False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __repr__(self) -> str:  # noqa: D105
*da0073e9SAndroid Build Coastguard Worker        format_string = self.__class__.__name__ + " ("
*da0073e9SAndroid Build Coastguard Worker        for i, group in enumerate(self.param_groups):
*da0073e9SAndroid Build Coastguard Worker            format_string += "\n"
*da0073e9SAndroid Build Coastguard Worker            format_string += f"Parameter Group {i}\n"
*da0073e9SAndroid Build Coastguard Worker            for key in sorted(group.keys()):
*da0073e9SAndroid Build Coastguard Worker                if key != "params":
*da0073e9SAndroid Build Coastguard Worker                    format_string += f"    {key}: {group[key]}\n"
*da0073e9SAndroid Build Coastguard Worker        format_string += ")"
*da0073e9SAndroid Build Coastguard Worker        return format_string
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Currently needed by Adam and AdamW
*da0073e9SAndroid Build Coastguard Worker    def _cuda_graph_capture_health_check(self) -> None:
*da0073e9SAndroid Build Coastguard Worker        # Note [torch.compile x capturable]
*da0073e9SAndroid Build Coastguard Worker        # If we are compiling, we try to take the capturable path automatically by
*da0073e9SAndroid Build Coastguard Worker        # setting the flag to True during tracing. Due to this, we skip all the checks
*da0073e9SAndroid Build Coastguard Worker        # normally required for determining whether we can use CUDA graphs and
*da0073e9SAndroid Build Coastguard Worker        # shunt the responsibility to torch.inductor. This saves time during tracing
*da0073e9SAndroid Build Coastguard Worker        # since the checks are slow without sacrificing UX since inductor will warn
*da0073e9SAndroid Build Coastguard Worker        # later if CUDA graphs cannot be enabled, e.g.,
*da0073e9SAndroid Build Coastguard Worker        # https://github.com/pytorch/pytorch/blob/d3ba8901d8640eb16f88b2bfef9df7fa383d4b47/torch/_inductor/compile_fx.py#L390.
*da0073e9SAndroid Build Coastguard Worker        # Thus, when compiling, inductor will determine if cudagraphs
*da0073e9SAndroid Build Coastguard Worker        # can be enabled based on whether there is input mutation or CPU tensors.
*da0073e9SAndroid Build Coastguard Worker        if (
*da0073e9SAndroid Build Coastguard Worker            not is_compiling()
*da0073e9SAndroid Build Coastguard Worker            and torch.backends.cuda.is_built()
*da0073e9SAndroid Build Coastguard Worker            and torch.cuda.is_available()
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            capturing = torch.cuda.is_current_stream_capturing()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if capturing and not all(
*da0073e9SAndroid Build Coastguard Worker                group["capturable"] for group in self.param_groups
*da0073e9SAndroid Build Coastguard Worker            ):
*da0073e9SAndroid Build Coastguard Worker                raise RuntimeError(
*da0073e9SAndroid Build Coastguard Worker                    "Attempting CUDA graph capture of step() for an instance of "
*da0073e9SAndroid Build Coastguard Worker                    + self.__class__.__name__
*da0073e9SAndroid Build Coastguard Worker                    + " but param_groups' capturable is False."
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if (
*da0073e9SAndroid Build Coastguard Worker                (not getattr(self, "_warned_capturable_if_run_uncaptured", False))
*da0073e9SAndroid Build Coastguard Worker                and all(group["capturable"] for group in self.param_groups)
*da0073e9SAndroid Build Coastguard Worker                and (not capturing)
*da0073e9SAndroid Build Coastguard Worker            ):
*da0073e9SAndroid Build Coastguard Worker                warnings.warn(
*da0073e9SAndroid Build Coastguard Worker                    "This instance was constructed with capturable=True or some of all the param_groups came with capturable=True, "
*da0073e9SAndroid Build Coastguard Worker                    "but step() is running without CUDA graph capture. If you never intend to graph-capture this "
*da0073e9SAndroid Build Coastguard Worker                    "instance, capturable=True can impair performance, and you should set capturable=False."
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                self._warned_capturable_if_run_uncaptured = True
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _optimizer_step_code(self) -> None:
*da0073e9SAndroid Build Coastguard Worker        """Entry point for `torch.profile.profiler`.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        When python tracing is enabled the profiler will hook into this
*da0073e9SAndroid Build Coastguard Worker        function at the CPython level to inspect the optimizer's parameters and
*da0073e9SAndroid Build Coastguard Worker        param groups. It is called it after `step()` since many optimizers
*da0073e9SAndroid Build Coastguard Worker        lazily initialize state.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        This is a workaround due to lack of a proper step hook on the optimizer,
*da0073e9SAndroid Build Coastguard Worker        and will be removed if it exists.
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @staticmethod
*da0073e9SAndroid Build Coastguard Worker    def profile_hook_step(func: Callable[_P, R]) -> Callable[_P, R]:  # noqa: D102
*da0073e9SAndroid Build Coastguard Worker        @functools.wraps(func)
*da0073e9SAndroid Build Coastguard Worker        def wrapper(*args: _P.args, **kwargs: _P.kwargs) -> R:
*da0073e9SAndroid Build Coastguard Worker            self, *_ = args
*da0073e9SAndroid Build Coastguard Worker            self = cast(Optimizer, self)
*da0073e9SAndroid Build Coastguard Worker            profile_name = f"Optimizer.step#{self.__class__.__name__}.step"
*da0073e9SAndroid Build Coastguard Worker            with torch.autograd.profiler.record_function(profile_name):
*da0073e9SAndroid Build Coastguard Worker                # call optimizer step pre hooks
*da0073e9SAndroid Build Coastguard Worker                for pre_hook in chain(
*da0073e9SAndroid Build Coastguard Worker                    _global_optimizer_pre_hooks.values(),
*da0073e9SAndroid Build Coastguard Worker                    self._optimizer_step_pre_hooks.values(),
*da0073e9SAndroid Build Coastguard Worker                ):
*da0073e9SAndroid Build Coastguard Worker                    result = pre_hook(self, args, kwargs)
*da0073e9SAndroid Build Coastguard Worker                    if result is not None:
*da0073e9SAndroid Build Coastguard Worker                        if isinstance(result, tuple) and len(result) == 2:
*da0073e9SAndroid Build Coastguard Worker                            args, kwargs = result  # type: ignore[assignment]
*da0073e9SAndroid Build Coastguard Worker                        else:
*da0073e9SAndroid Build Coastguard Worker                            raise RuntimeError(
*da0073e9SAndroid Build Coastguard Worker                                f"{func} must return None or a tuple of (new_args, new_kwargs), but got {result}."
*da0073e9SAndroid Build Coastguard Worker                            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                out = func(*args, **kwargs)
*da0073e9SAndroid Build Coastguard Worker                self._optimizer_step_code()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # call optimizer step post hooks
*da0073e9SAndroid Build Coastguard Worker                for post_hook in chain(
*da0073e9SAndroid Build Coastguard Worker                    self._optimizer_step_post_hooks.values(),
*da0073e9SAndroid Build Coastguard Worker                    _global_optimizer_post_hooks.values(),
*da0073e9SAndroid Build Coastguard Worker                ):
*da0073e9SAndroid Build Coastguard Worker                    post_hook(self, args, kwargs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                return out
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return wrapper
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @staticmethod
*da0073e9SAndroid Build Coastguard Worker    def _group_tensors_by_device_and_dtype(
*da0073e9SAndroid Build Coastguard Worker        tensorlistlist: TensorListList,
*da0073e9SAndroid Build Coastguard Worker        with_indices: bool = False,
*da0073e9SAndroid Build Coastguard Worker    ) -> Union[
*da0073e9SAndroid Build Coastguard Worker        Dict[Tuple[None, None], Tuple[TensorListList, Indices]],
*da0073e9SAndroid Build Coastguard Worker        Dict[Tuple[torch.device, torch.dtype], Tuple[TensorListList, Indices]],
*da0073e9SAndroid Build Coastguard Worker    ]:
*da0073e9SAndroid Build Coastguard Worker        """Group a list of lists of tensors by device and dtype.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Skips this step if we are compiling since this will occur during inductor lowering.
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        if is_compiling():
*da0073e9SAndroid Build Coastguard Worker            return {(None, None): (tensorlistlist, list(range(len(tensorlistlist[0]))))}
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            return _group_tensors_by_device_and_dtype(tensorlistlist, with_indices)  # type: ignore[return-value, arg-type]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _patch_step_function(self) -> None:
*da0073e9SAndroid Build Coastguard Worker        self._zero_grad_profile_name = (
*da0073e9SAndroid Build Coastguard Worker            f"Optimizer.zero_grad#{self.__class__.__name__}.zero_grad"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        hooked = getattr(self.__class__.step, "hooked", None)
*da0073e9SAndroid Build Coastguard Worker        if not hooked:
*da0073e9SAndroid Build Coastguard Worker            self.__class__.step = self.profile_hook_step(self.__class__.step)  # type: ignore[assignment]
*da0073e9SAndroid Build Coastguard Worker            self.__class__.step.hooked = True  # type: ignore[attr-defined]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def register_step_pre_hook(self, hook: OptimizerPreHook) -> RemovableHandle:
*da0073e9SAndroid Build Coastguard Worker        r"""Register an optimizer step pre hook which will be called before optimizer step.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        It should have the following signature::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            hook(optimizer, args, kwargs) -> None or modified args and kwargs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        The ``optimizer`` argument is the optimizer instance being used. If
*da0073e9SAndroid Build Coastguard Worker        args and kwargs are modified by the pre-hook, then the transformed
*da0073e9SAndroid Build Coastguard Worker        values are returned as a tuple containing the new_args and new_kwargs.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Args:
*da0073e9SAndroid Build Coastguard Worker            hook (Callable): The user defined hook to be registered.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Returns:
*da0073e9SAndroid Build Coastguard Worker            :class:`torch.utils.hooks.RemovableHandle`:
*da0073e9SAndroid Build Coastguard Worker                a handle that can be used to remove the added hook by calling
*da0073e9SAndroid Build Coastguard Worker                ``handle.remove()``
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        handle = hooks.RemovableHandle(self._optimizer_step_pre_hooks)
*da0073e9SAndroid Build Coastguard Worker        self._optimizer_step_pre_hooks[handle.id] = hook
*da0073e9SAndroid Build Coastguard Worker        return handle
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def register_step_post_hook(self, hook: OptimizerPostHook) -> RemovableHandle:
*da0073e9SAndroid Build Coastguard Worker        r"""Register an optimizer step post hook which will be called after optimizer step.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        It should have the following signature::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            hook(optimizer, args, kwargs) -> None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        The ``optimizer`` argument is the optimizer instance being used.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Args:
*da0073e9SAndroid Build Coastguard Worker            hook (Callable): The user defined hook to be registered.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Returns:
*da0073e9SAndroid Build Coastguard Worker            :class:`torch.utils.hooks.RemovableHandle`:
*da0073e9SAndroid Build Coastguard Worker                a handle that can be used to remove the added hook by calling
*da0073e9SAndroid Build Coastguard Worker                ``handle.remove()``
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        handle = hooks.RemovableHandle(self._optimizer_step_post_hooks)
*da0073e9SAndroid Build Coastguard Worker        self._optimizer_step_post_hooks[handle.id] = hook
*da0073e9SAndroid Build Coastguard Worker        return handle
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def register_state_dict_pre_hook(
*da0073e9SAndroid Build Coastguard Worker        self, hook: Callable[["Optimizer"], None], prepend: bool = False
*da0073e9SAndroid Build Coastguard Worker    ) -> RemovableHandle:  # noqa: D101
*da0073e9SAndroid Build Coastguard Worker        r"""Register a state dict pre-hook which will be called before :meth:`~torch.optim.Optimizer.state_dict` is called.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        It should have the following signature::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            hook(optimizer) -> None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        The ``optimizer`` argument is the optimizer instance being used.
*da0073e9SAndroid Build Coastguard Worker        The hook will be called with argument ``self`` before calling ``state_dict`` on ``self``.
*da0073e9SAndroid Build Coastguard Worker        The registered hook can be used to perform pre-processing before the ``state_dict``
*da0073e9SAndroid Build Coastguard Worker        call is made.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Args:
*da0073e9SAndroid Build Coastguard Worker            hook (Callable): The user defined hook to be registered.
*da0073e9SAndroid Build Coastguard Worker            prepend (bool): If True, the provided pre ``hook`` will be fired before
*da0073e9SAndroid Build Coastguard Worker                all the already registered pre-hooks on ``state_dict``. Otherwise,
*da0073e9SAndroid Build Coastguard Worker                the provided ``hook`` will be fired after all the already registered
*da0073e9SAndroid Build Coastguard Worker                pre-hooks. (default: False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Returns:
*da0073e9SAndroid Build Coastguard Worker            :class:`torch.utils.hooks.RemoveableHandle`:
*da0073e9SAndroid Build Coastguard Worker                a handle that can be used to remove the added hook by calling
*da0073e9SAndroid Build Coastguard Worker                ``handle.remove()``
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        handle = hooks.RemovableHandle(self._optimizer_state_dict_pre_hooks)
*da0073e9SAndroid Build Coastguard Worker        self._optimizer_state_dict_pre_hooks[handle.id] = hook
*da0073e9SAndroid Build Coastguard Worker        if prepend:
*da0073e9SAndroid Build Coastguard Worker            self._optimizer_state_dict_pre_hooks.move_to_end(handle.id, last=False)
*da0073e9SAndroid Build Coastguard Worker        return handle
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def register_state_dict_post_hook(
*da0073e9SAndroid Build Coastguard Worker        self,
*da0073e9SAndroid Build Coastguard Worker        hook: Callable[["Optimizer", StateDict], Optional[StateDict]],
*da0073e9SAndroid Build Coastguard Worker        prepend: bool = False,
*da0073e9SAndroid Build Coastguard Worker    ) -> RemovableHandle:
*da0073e9SAndroid Build Coastguard Worker        r"""Register a state dict post-hook which will be called after :meth:`~torch.optim.Optimizer.state_dict` is called.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        It should have the following signature::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            hook(optimizer, state_dict) -> state_dict or None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        The hook will be called with arguments ``self`` and ``state_dict`` after generating
*da0073e9SAndroid Build Coastguard Worker        a ``state_dict`` on ``self``. The hook may modify the state_dict inplace or optionally
*da0073e9SAndroid Build Coastguard Worker        return a new one. The registered hook can be used to perform post-processing
*da0073e9SAndroid Build Coastguard Worker        on the ``state_dict`` before it is returned.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Args:
*da0073e9SAndroid Build Coastguard Worker            hook (Callable): The user defined hook to be registered.
*da0073e9SAndroid Build Coastguard Worker            prepend (bool): If True, the provided post ``hook`` will be fired before
*da0073e9SAndroid Build Coastguard Worker                all the already registered post-hooks on ``state_dict``. Otherwise,
*da0073e9SAndroid Build Coastguard Worker                the provided ``hook`` will be fired after all the already registered
*da0073e9SAndroid Build Coastguard Worker                post-hooks. (default: False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Returns:
*da0073e9SAndroid Build Coastguard Worker            :class:`torch.utils.hooks.RemoveableHandle`:
*da0073e9SAndroid Build Coastguard Worker                a handle that can be used to remove the added hook by calling
*da0073e9SAndroid Build Coastguard Worker                ``handle.remove()``
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        handle = hooks.RemovableHandle(self._optimizer_state_dict_post_hooks)
*da0073e9SAndroid Build Coastguard Worker        self._optimizer_state_dict_post_hooks[handle.id] = hook
*da0073e9SAndroid Build Coastguard Worker        if prepend:
*da0073e9SAndroid Build Coastguard Worker            self._optimizer_state_dict_post_hooks.move_to_end(handle.id, last=False)
*da0073e9SAndroid Build Coastguard Worker        return handle
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @torch._disable_dynamo
*da0073e9SAndroid Build Coastguard Worker    def state_dict(self) -> StateDict:
*da0073e9SAndroid Build Coastguard Worker        r"""Return the state of the optimizer as a :class:`dict`.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        It contains two entries:
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        * ``state``: a Dict holding current optimization state. Its content
*da0073e9SAndroid Build Coastguard Worker            differs between optimizer classes, but some common characteristics
*da0073e9SAndroid Build Coastguard Worker            hold. For example, state is saved per parameter, and the parameter
*da0073e9SAndroid Build Coastguard Worker            itself is NOT saved. ``state`` is a Dictionary mapping parameter ids
*da0073e9SAndroid Build Coastguard Worker            to a Dict with state corresponding to each parameter.
*da0073e9SAndroid Build Coastguard Worker        * ``param_groups``: a List containing all parameter groups where each
*da0073e9SAndroid Build Coastguard Worker            parameter group is a Dict. Each parameter group contains metadata
*da0073e9SAndroid Build Coastguard Worker            specific to the optimizer, such as learning rate and weight decay,
*da0073e9SAndroid Build Coastguard Worker            as well as a List of parameter IDs of the parameters in the group.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        NOTE: The parameter IDs may look like indices but they are just IDs
*da0073e9SAndroid Build Coastguard Worker        associating state with param_group. When loading from a state_dict,
*da0073e9SAndroid Build Coastguard Worker        the optimizer will zip the param_group ``params`` (int IDs) and the
*da0073e9SAndroid Build Coastguard Worker        optimizer ``param_groups`` (actual ``nn.Parameter`` s) in order to
*da0073e9SAndroid Build Coastguard Worker        match state WITHOUT additional verification.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        A returned state dict might look something like:
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        .. code-block:: text
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            {
*da0073e9SAndroid Build Coastguard Worker                'state': {
*da0073e9SAndroid Build Coastguard Worker                    0: {'momentum_buffer': tensor(...), ...},
*da0073e9SAndroid Build Coastguard Worker                    1: {'momentum_buffer': tensor(...), ...},
*da0073e9SAndroid Build Coastguard Worker                    2: {'momentum_buffer': tensor(...), ...},
*da0073e9SAndroid Build Coastguard Worker                    3: {'momentum_buffer': tensor(...), ...}
*da0073e9SAndroid Build Coastguard Worker                },
*da0073e9SAndroid Build Coastguard Worker                'param_groups': [
*da0073e9SAndroid Build Coastguard Worker                    {
*da0073e9SAndroid Build Coastguard Worker                        'lr': 0.01,
*da0073e9SAndroid Build Coastguard Worker                        'weight_decay': 0,
*da0073e9SAndroid Build Coastguard Worker                        ...
*da0073e9SAndroid Build Coastguard Worker                        'params': [0]
*da0073e9SAndroid Build Coastguard Worker                    },
*da0073e9SAndroid Build Coastguard Worker                    {
*da0073e9SAndroid Build Coastguard Worker                        'lr': 0.001,
*da0073e9SAndroid Build Coastguard Worker                        'weight_decay': 0.5,
*da0073e9SAndroid Build Coastguard Worker                        ...
*da0073e9SAndroid Build Coastguard Worker                        'params': [1, 2, 3]
*da0073e9SAndroid Build Coastguard Worker                    }
*da0073e9SAndroid Build Coastguard Worker                ]
*da0073e9SAndroid Build Coastguard Worker            }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        for pre_hook in self._optimizer_state_dict_pre_hooks.values():
*da0073e9SAndroid Build Coastguard Worker            pre_hook(self)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Save order indices instead of Tensors
*da0073e9SAndroid Build Coastguard Worker        param_mappings: Dict[int, int] = {}
*da0073e9SAndroid Build Coastguard Worker        start_index = 0
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def pack_group(group: Dict[str, Any]) -> Dict[str, Any]:
*da0073e9SAndroid Build Coastguard Worker            nonlocal start_index
*da0073e9SAndroid Build Coastguard Worker            packed = {k: v for k, v in group.items() if k != "params"}
*da0073e9SAndroid Build Coastguard Worker            param_mappings.update(
*da0073e9SAndroid Build Coastguard Worker                {
*da0073e9SAndroid Build Coastguard Worker                    id(p): i
*da0073e9SAndroid Build Coastguard Worker                    for i, p in enumerate(group["params"], start_index)
*da0073e9SAndroid Build Coastguard Worker                    if id(p) not in param_mappings
*da0073e9SAndroid Build Coastguard Worker                }
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            packed["params"] = [param_mappings[id(p)] for p in group["params"]]
*da0073e9SAndroid Build Coastguard Worker            start_index += len(packed["params"])
*da0073e9SAndroid Build Coastguard Worker            return packed
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        param_groups = [pack_group(g) for g in self.param_groups]
*da0073e9SAndroid Build Coastguard Worker        # Remap state to use order indices as keys
*da0073e9SAndroid Build Coastguard Worker        packed_state = {
*da0073e9SAndroid Build Coastguard Worker            (param_mappings[id(k)] if isinstance(k, torch.Tensor) else k): v
*da0073e9SAndroid Build Coastguard Worker            for k, v in self.state.items()
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        state_dict = {
*da0073e9SAndroid Build Coastguard Worker            "state": packed_state,
*da0073e9SAndroid Build Coastguard Worker            "param_groups": param_groups,
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for post_hook in self._optimizer_state_dict_post_hooks.values():
*da0073e9SAndroid Build Coastguard Worker            hook_result = post_hook(self, state_dict)
*da0073e9SAndroid Build Coastguard Worker            if hook_result is not None:
*da0073e9SAndroid Build Coastguard Worker                state_dict = hook_result
*da0073e9SAndroid Build Coastguard Worker        return state_dict
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @staticmethod
*da0073e9SAndroid Build Coastguard Worker    def _process_value_according_to_param_policy(
*da0073e9SAndroid Build Coastguard Worker        param: torch.Tensor,
*da0073e9SAndroid Build Coastguard Worker        value: torch.Tensor,
*da0073e9SAndroid Build Coastguard Worker        param_id: int,
*da0073e9SAndroid Build Coastguard Worker        param_groups: List[Dict[Any, Any]],
*da0073e9SAndroid Build Coastguard Worker        key: Hashable = None,
*da0073e9SAndroid Build Coastguard Worker    ) -> torch.Tensor:
*da0073e9SAndroid Build Coastguard Worker        # Floating-point types are a bit special here. They are the only ones
*da0073e9SAndroid Build Coastguard Worker        # that are assumed to always match the type of params.
*da0073e9SAndroid Build Coastguard Worker        # Make sure state['step'] is not casted https://github.com/pytorch/pytorch/issues/74424
*da0073e9SAndroid Build Coastguard Worker        # UNLESS fused or capturable, see note [special device hosting for step]
*da0073e9SAndroid Build Coastguard Worker        fused = False
*da0073e9SAndroid Build Coastguard Worker        capturable = False
*da0073e9SAndroid Build Coastguard Worker        assert param_groups is not None
*da0073e9SAndroid Build Coastguard Worker        for pg in param_groups:
*da0073e9SAndroid Build Coastguard Worker            if param_id in pg["params"]:
*da0073e9SAndroid Build Coastguard Worker                fused = pg["fused"] if "fused" in pg else False
*da0073e9SAndroid Build Coastguard Worker                capturable = pg["capturable"] if "capturable" in pg else False
*da0073e9SAndroid Build Coastguard Worker                break
*da0073e9SAndroid Build Coastguard Worker        if key == "step":
*da0073e9SAndroid Build Coastguard Worker            if capturable or fused:
*da0073e9SAndroid Build Coastguard Worker                return value.to(dtype=torch.float32, device=param.device)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                return value
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            if param.is_floating_point():
*da0073e9SAndroid Build Coastguard Worker                return value.to(dtype=param.dtype, device=param.device)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                return value.to(device=param.device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def register_load_state_dict_pre_hook(
*da0073e9SAndroid Build Coastguard Worker        self,
*da0073e9SAndroid Build Coastguard Worker        hook: Callable[["Optimizer", StateDict], Optional[StateDict]],
*da0073e9SAndroid Build Coastguard Worker        prepend: bool = False,
*da0073e9SAndroid Build Coastguard Worker    ) -> RemovableHandle:  # noqa: D205 D400
*da0073e9SAndroid Build Coastguard Worker        r"""Register a load_state_dict pre-hook which will be called before
*da0073e9SAndroid Build Coastguard Worker        :meth:`~torch.optim.Optimizer.load_state_dict` is called. It should have the
*da0073e9SAndroid Build Coastguard Worker        following signature::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            hook(optimizer, state_dict) -> state_dict or None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        The ``optimizer`` argument is the optimizer instance being used and the
*da0073e9SAndroid Build Coastguard Worker        ``state_dict`` argument is a shallow copy of the ``state_dict`` the user
*da0073e9SAndroid Build Coastguard Worker        passed in to ``load_state_dict``. The hook may modify the state_dict inplace
*da0073e9SAndroid Build Coastguard Worker        or optionally return a new one. If a state_dict is returned, it will be used
*da0073e9SAndroid Build Coastguard Worker        to be loaded into the optimizer.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        The hook will be called with argument ``self`` and ``state_dict`` before
*da0073e9SAndroid Build Coastguard Worker        calling ``load_state_dict`` on ``self``. The registered hook can be used to
*da0073e9SAndroid Build Coastguard Worker        perform pre-processing before the ``load_state_dict`` call is made.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Args:
*da0073e9SAndroid Build Coastguard Worker            hook (Callable): The user defined hook to be registered.
*da0073e9SAndroid Build Coastguard Worker            prepend (bool): If True, the provided pre ``hook`` will be fired before
*da0073e9SAndroid Build Coastguard Worker                all the already registered pre-hooks on ``load_state_dict``. Otherwise,
*da0073e9SAndroid Build Coastguard Worker                the provided ``hook`` will be fired after all the already registered
*da0073e9SAndroid Build Coastguard Worker                pre-hooks. (default: False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Returns:
*da0073e9SAndroid Build Coastguard Worker            :class:`torch.utils.hooks.RemoveableHandle`:
*da0073e9SAndroid Build Coastguard Worker                a handle that can be used to remove the added hook by calling
*da0073e9SAndroid Build Coastguard Worker                ``handle.remove()``
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        handle = hooks.RemovableHandle(self._optimizer_load_state_dict_pre_hooks)
*da0073e9SAndroid Build Coastguard Worker        self._optimizer_load_state_dict_pre_hooks[handle.id] = hook
*da0073e9SAndroid Build Coastguard Worker        if prepend:
*da0073e9SAndroid Build Coastguard Worker            self._optimizer_load_state_dict_pre_hooks.move_to_end(handle.id, last=False)
*da0073e9SAndroid Build Coastguard Worker        return handle
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def register_load_state_dict_post_hook(
*da0073e9SAndroid Build Coastguard Worker        self, hook: Callable[["Optimizer"], None], prepend: bool = False
*da0073e9SAndroid Build Coastguard Worker    ) -> RemovableHandle:  # noqa: D205 D400
*da0073e9SAndroid Build Coastguard Worker        r"""Register a load_state_dict post-hook which will be called after
*da0073e9SAndroid Build Coastguard Worker        :meth:`~torch.optim.Optimizer.load_state_dict` is called. It should have the
*da0073e9SAndroid Build Coastguard Worker        following signature::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            hook(optimizer) -> None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        The ``optimizer`` argument is the optimizer instance being used.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        The hook will be called with argument ``self`` after calling
*da0073e9SAndroid Build Coastguard Worker        ``load_state_dict`` on ``self``. The registered hook can be used to
*da0073e9SAndroid Build Coastguard Worker        perform post-processing after ``load_state_dict`` has loaded the
*da0073e9SAndroid Build Coastguard Worker        ``state_dict``.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Args:
*da0073e9SAndroid Build Coastguard Worker            hook (Callable): The user defined hook to be registered.
*da0073e9SAndroid Build Coastguard Worker            prepend (bool): If True, the provided post ``hook`` will be fired before
*da0073e9SAndroid Build Coastguard Worker                all the already registered post-hooks on ``load_state_dict``. Otherwise,
*da0073e9SAndroid Build Coastguard Worker                the provided ``hook`` will be fired after all the already registered
*da0073e9SAndroid Build Coastguard Worker                post-hooks. (default: False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Returns:
*da0073e9SAndroid Build Coastguard Worker            :class:`torch.utils.hooks.RemoveableHandle`:
*da0073e9SAndroid Build Coastguard Worker                a handle that can be used to remove the added hook by calling
*da0073e9SAndroid Build Coastguard Worker                ``handle.remove()``
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        handle = hooks.RemovableHandle(self._optimizer_load_state_dict_post_hooks)
*da0073e9SAndroid Build Coastguard Worker        self._optimizer_load_state_dict_post_hooks[handle.id] = hook
*da0073e9SAndroid Build Coastguard Worker        if prepend:
*da0073e9SAndroid Build Coastguard Worker            self._optimizer_load_state_dict_post_hooks.move_to_end(handle.id, last=False)  # type: ignore[attr-defined]
*da0073e9SAndroid Build Coastguard Worker        return handle
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @torch._disable_dynamo
*da0073e9SAndroid Build Coastguard Worker    def load_state_dict(self, state_dict: StateDict) -> None:
*da0073e9SAndroid Build Coastguard Worker        r"""Load the optimizer state.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Args:
*da0073e9SAndroid Build Coastguard Worker            state_dict (dict): optimizer state. Should be an object returned
*da0073e9SAndroid Build Coastguard Worker                from a call to :meth:`state_dict`.
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        # shallow copy, to be consistent with module API
*da0073e9SAndroid Build Coastguard Worker        state_dict = state_dict.copy()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for pre_hook in self._optimizer_load_state_dict_pre_hooks.values():
*da0073e9SAndroid Build Coastguard Worker            hook_result = pre_hook(self, state_dict)
*da0073e9SAndroid Build Coastguard Worker            if hook_result is not None:
*da0073e9SAndroid Build Coastguard Worker                state_dict = hook_result
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Validate the state_dict
*da0073e9SAndroid Build Coastguard Worker        groups = self.param_groups
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Deepcopy as we write into saved_groups later to update state
*da0073e9SAndroid Build Coastguard Worker        saved_groups = deepcopy(state_dict["param_groups"])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if len(groups) != len(saved_groups):
*da0073e9SAndroid Build Coastguard Worker            raise ValueError(
*da0073e9SAndroid Build Coastguard Worker                "loaded state dict has a different number of " "parameter groups"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker        param_lens = (len(g["params"]) for g in groups)
*da0073e9SAndroid Build Coastguard Worker        saved_lens = (len(g["params"]) for g in saved_groups)
*da0073e9SAndroid Build Coastguard Worker        if any(p_len != s_len for p_len, s_len in zip(param_lens, saved_lens)):
*da0073e9SAndroid Build Coastguard Worker            raise ValueError(
*da0073e9SAndroid Build Coastguard Worker                "loaded state dict contains a parameter group "
*da0073e9SAndroid Build Coastguard Worker                "that doesn't match the size of optimizer's group"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Update the state
*da0073e9SAndroid Build Coastguard Worker        id_map = dict(
*da0073e9SAndroid Build Coastguard Worker            zip(
*da0073e9SAndroid Build Coastguard Worker                chain.from_iterable(g["params"] for g in saved_groups),
*da0073e9SAndroid Build Coastguard Worker                chain.from_iterable(g["params"] for g in groups),
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def _cast(param, value, param_id=None, param_groups=None, key=None):
*da0073e9SAndroid Build Coastguard Worker            r"""Make a deep copy of value, casting all tensors to device of param."""
*da0073e9SAndroid Build Coastguard Worker            if isinstance(value, torch.Tensor):
*da0073e9SAndroid Build Coastguard Worker                return Optimizer._process_value_according_to_param_policy(
*da0073e9SAndroid Build Coastguard Worker                    param, value, param_id, param_groups, key
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            elif isinstance(value, dict):
*da0073e9SAndroid Build Coastguard Worker                return {
*da0073e9SAndroid Build Coastguard Worker                    k: _cast(
*da0073e9SAndroid Build Coastguard Worker                        param, v, param_id=param_id, param_groups=param_groups, key=k
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker                    for k, v in value.items()
*da0073e9SAndroid Build Coastguard Worker                }
*da0073e9SAndroid Build Coastguard Worker            elif isinstance(value, Iterable):
*da0073e9SAndroid Build Coastguard Worker                return type(value)(_cast(param, v, param_id=param_id, param_groups=param_groups) for v in value)  # type: ignore[call-arg]
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                return value
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Copy state assigned to params (and cast tensors to appropriate types).
*da0073e9SAndroid Build Coastguard Worker        # State that is not assigned to params is copied as is (needed for
*da0073e9SAndroid Build Coastguard Worker        # backward compatibility).
*da0073e9SAndroid Build Coastguard Worker        state: DefaultDict[torch.Tensor, Dict[Any, Any]] = defaultdict(dict)
*da0073e9SAndroid Build Coastguard Worker        for k, v in state_dict["state"].items():
*da0073e9SAndroid Build Coastguard Worker            if k in id_map:
*da0073e9SAndroid Build Coastguard Worker                param = id_map[k]
*da0073e9SAndroid Build Coastguard Worker                state[param] = _cast(
*da0073e9SAndroid Build Coastguard Worker                    param, v, param_id=k, param_groups=state_dict["param_groups"]
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                state[k] = v
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Update parameter groups, setting their 'params' value
*da0073e9SAndroid Build Coastguard Worker        def update_group(
*da0073e9SAndroid Build Coastguard Worker            group: Dict[str, Any], new_group: Dict[str, Any]
*da0073e9SAndroid Build Coastguard Worker        ) -> Dict[str, Any]:
*da0073e9SAndroid Build Coastguard Worker            new_group["params"] = group["params"]
*da0073e9SAndroid Build Coastguard Worker            return new_group
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        param_groups = [update_group(g, ng) for g, ng in zip(groups, saved_groups)]
*da0073e9SAndroid Build Coastguard Worker        self.__setstate__({"state": state, "param_groups": param_groups})
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for post_hook in self._optimizer_load_state_dict_post_hooks.values():
*da0073e9SAndroid Build Coastguard Worker            post_hook(self)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @torch._disable_dynamo
*da0073e9SAndroid Build Coastguard Worker    def zero_grad(self, set_to_none: bool = True) -> None:
*da0073e9SAndroid Build Coastguard Worker        r"""Reset the gradients of all optimized :class:`torch.Tensor` s.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Args:
*da0073e9SAndroid Build Coastguard Worker            set_to_none (bool): instead of setting to zero, set the grads to None.
*da0073e9SAndroid Build Coastguard Worker                This will in general have lower memory footprint, and can modestly improve performance.
*da0073e9SAndroid Build Coastguard Worker                However, it changes certain behaviors. For example:
*da0073e9SAndroid Build Coastguard Worker                1. When the user tries to access a gradient and perform manual ops on it,
*da0073e9SAndroid Build Coastguard Worker                a None attribute or a Tensor full of 0s will behave differently.
*da0073e9SAndroid Build Coastguard Worker                2. If the user requests ``zero_grad(set_to_none=True)`` followed by a backward pass, ``.grad``\ s
*da0073e9SAndroid Build Coastguard Worker                are guaranteed to be None for params that did not receive a gradient.
*da0073e9SAndroid Build Coastguard Worker                3. ``torch.optim`` optimizers have a different behavior if the gradient is 0 or None
*da0073e9SAndroid Build Coastguard Worker                (in one case it does the step with a gradient of 0 and in the other it skips
*da0073e9SAndroid Build Coastguard Worker                the step altogether).
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        foreach = self.defaults.get("foreach", False) or self.defaults.get(
*da0073e9SAndroid Build Coastguard Worker            "fused", False
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if not hasattr(self, "_zero_grad_profile_name"):
*da0073e9SAndroid Build Coastguard Worker            self._patch_step_function()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        per_device_and_dtype_grads: Optional[
*da0073e9SAndroid Build Coastguard Worker            DefaultDict[torch.device, DefaultDict[torch.dtype, List[torch.Tensor]]]
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker        if foreach:
*da0073e9SAndroid Build Coastguard Worker            per_device_and_dtype_grads = defaultdict(lambda: defaultdict(list))
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            per_device_and_dtype_grads = None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with torch.autograd.profiler.record_function(self._zero_grad_profile_name):
*da0073e9SAndroid Build Coastguard Worker            for group in self.param_groups:
*da0073e9SAndroid Build Coastguard Worker                for p in group["params"]:
*da0073e9SAndroid Build Coastguard Worker                    if p.grad is not None:
*da0073e9SAndroid Build Coastguard Worker                        if set_to_none:
*da0073e9SAndroid Build Coastguard Worker                            p.grad = None
*da0073e9SAndroid Build Coastguard Worker                        else:
*da0073e9SAndroid Build Coastguard Worker                            if p.grad.grad_fn is not None:
*da0073e9SAndroid Build Coastguard Worker                                p.grad.detach_()
*da0073e9SAndroid Build Coastguard Worker                            else:
*da0073e9SAndroid Build Coastguard Worker                                p.grad.requires_grad_(False)
*da0073e9SAndroid Build Coastguard Worker                            if not foreach or p.grad.is_sparse:
*da0073e9SAndroid Build Coastguard Worker                                p.grad.zero_()
*da0073e9SAndroid Build Coastguard Worker                            else:
*da0073e9SAndroid Build Coastguard Worker                                assert per_device_and_dtype_grads is not None
*da0073e9SAndroid Build Coastguard Worker                                per_device_and_dtype_grads[p.grad.device][
*da0073e9SAndroid Build Coastguard Worker                                    p.grad.dtype
*da0073e9SAndroid Build Coastguard Worker                                ].append(p.grad)
*da0073e9SAndroid Build Coastguard Worker            if foreach:
*da0073e9SAndroid Build Coastguard Worker                assert per_device_and_dtype_grads is not None
*da0073e9SAndroid Build Coastguard Worker                for per_dtype_grads in per_device_and_dtype_grads.values():
*da0073e9SAndroid Build Coastguard Worker                    for grads in per_dtype_grads.values():
*da0073e9SAndroid Build Coastguard Worker                        torch._foreach_zero_(grads)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @overload
*da0073e9SAndroid Build Coastguard Worker    def step(self, closure: None = ...) -> None:
*da0073e9SAndroid Build Coastguard Worker        ...
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @overload
*da0073e9SAndroid Build Coastguard Worker    def step(self, closure: Callable[[], float]) -> float:
*da0073e9SAndroid Build Coastguard Worker        ...
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def step(self, closure: Optional[Callable[[], float]] = None) -> Optional[float]:
*da0073e9SAndroid Build Coastguard Worker        r"""Perform a single optimization step to update parameter.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Args:
*da0073e9SAndroid Build Coastguard Worker            closure (Callable): A closure that reevaluates the model and
*da0073e9SAndroid Build Coastguard Worker                returns the loss. Optional for most optimizers.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        .. note::
*da0073e9SAndroid Build Coastguard Worker            Unless otherwise specified, this function should not modify the
*da0073e9SAndroid Build Coastguard Worker            ``.grad`` field of the parameters.
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        raise NotImplementedError
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @torch._disable_dynamo
*da0073e9SAndroid Build Coastguard Worker    def add_param_group(self, param_group: Dict[str, Any]) -> None:
*da0073e9SAndroid Build Coastguard Worker        r"""Add a param group to the :class:`Optimizer` s `param_groups`.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        This can be useful when fine tuning a pre-trained network as frozen layers can be made
*da0073e9SAndroid Build Coastguard Worker        trainable and added to the :class:`Optimizer` as training progresses.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Args:
*da0073e9SAndroid Build Coastguard Worker            param_group (dict): Specifies what Tensors should be optimized along with group
*da0073e9SAndroid Build Coastguard Worker                specific optimization options.
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        if not isinstance(param_group, dict):
*da0073e9SAndroid Build Coastguard Worker            raise TypeError(f"param_group must be a dict, but got {type(param_group)}")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        params = param_group["params"]
*da0073e9SAndroid Build Coastguard Worker        if isinstance(params, torch.Tensor):
*da0073e9SAndroid Build Coastguard Worker            param_group["params"] = [params]
*da0073e9SAndroid Build Coastguard Worker        elif isinstance(params, set):
*da0073e9SAndroid Build Coastguard Worker            raise TypeError(
*da0073e9SAndroid Build Coastguard Worker                "optimizer parameters need to be organized in ordered collections, but "
*da0073e9SAndroid Build Coastguard Worker                "the ordering of tensors in sets will change between runs. Please use a list instead."
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            param_group["params"] = list(params)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for param in param_group["params"]:
*da0073e9SAndroid Build Coastguard Worker            if not isinstance(param, torch.Tensor):
*da0073e9SAndroid Build Coastguard Worker                raise TypeError(
*da0073e9SAndroid Build Coastguard Worker                    "optimizer can only optimize Tensors, "
*da0073e9SAndroid Build Coastguard Worker                    "but one of the params is " + torch.typename(param)
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            if not self.defaults.get("differentiable", None) and not (
*da0073e9SAndroid Build Coastguard Worker                param.is_leaf or param.retains_grad
*da0073e9SAndroid Build Coastguard Worker            ):
*da0073e9SAndroid Build Coastguard Worker                raise ValueError("can't optimize a non-leaf Tensor")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for name, default in self.defaults.items():
*da0073e9SAndroid Build Coastguard Worker            if default is required and name not in param_group:
*da0073e9SAndroid Build Coastguard Worker                raise ValueError(
*da0073e9SAndroid Build Coastguard Worker                    f"parameter group didn't specify a value of required optimization parameter {name}"
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                param_group.setdefault(name, default)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        params = param_group["params"]
*da0073e9SAndroid Build Coastguard Worker        if len(params) != len(set(params)):
*da0073e9SAndroid Build Coastguard Worker            warnings.warn(
*da0073e9SAndroid Build Coastguard Worker                "optimizer contains a parameter group with duplicate parameters; "
*da0073e9SAndroid Build Coastguard Worker                "in future, this will cause an error; "
*da0073e9SAndroid Build Coastguard Worker                "see github.com/pytorch/pytorch/issues/40967 for more information",
*da0073e9SAndroid Build Coastguard Worker                stacklevel=3,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        param_set: Set[torch.Tensor] = set()
*da0073e9SAndroid Build Coastguard Worker        for group in self.param_groups:
*da0073e9SAndroid Build Coastguard Worker            param_set.update(set(group["params"]))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if not param_set.isdisjoint(set(param_group["params"])):
*da0073e9SAndroid Build Coastguard Worker            raise ValueError("some parameters appear in more than one parameter group")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.param_groups.append(param_group)