docs/source/distributed.tensor.parallel.rst

*da0073e9SAndroid Build Coastguard Worker.. role:: hidden
*da0073e9SAndroid Build Coastguard Worker    :class: hidden-section
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor Parallelism - torch.distributed.tensor.parallel
*da0073e9SAndroid Build Coastguard Worker======================================================
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor Parallelism(TP) is built on top of the PyTorch DistributedTensor
*da0073e9SAndroid Build Coastguard Worker(`DTensor <https://github.com/pytorch/pytorch/blob/main/torch/distributed/_tensor/README.md>`__)
*da0073e9SAndroid Build Coastguard Workerand provides different parallelism styles: Colwise, Rowwise, and Sequence Parallelism.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker.. warning ::
*da0073e9SAndroid Build Coastguard Worker    Tensor Parallelism APIs are experimental and subject to change.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerThe entrypoint to parallelize your ``nn.Module`` using Tensor Parallelism is:
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker.. automodule:: torch.distributed.tensor.parallel
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker.. currentmodule:: torch.distributed.tensor.parallel
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker.. autofunction::  parallelize_module
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor Parallelism supports the following parallel styles:
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker.. autoclass:: torch.distributed.tensor.parallel.ColwiseParallel
*da0073e9SAndroid Build Coastguard Worker  :members:
*da0073e9SAndroid Build Coastguard Worker  :undoc-members:
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker.. autoclass:: torch.distributed.tensor.parallel.RowwiseParallel
*da0073e9SAndroid Build Coastguard Worker  :members:
*da0073e9SAndroid Build Coastguard Worker  :undoc-members:
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker.. autoclass:: torch.distributed.tensor.parallel.SequenceParallel
*da0073e9SAndroid Build Coastguard Worker  :members:
*da0073e9SAndroid Build Coastguard Worker  :undoc-members:
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTo simply configure the nn.Module's inputs and outputs with DTensor layouts
*da0073e9SAndroid Build Coastguard Workerand perform necessary layout redistributions, without distribute the module
*da0073e9SAndroid Build Coastguard Workerparameters to DTensors, the following ``ParallelStyle`` s can be used in
*da0073e9SAndroid Build Coastguard Workerthe ``parallelize_plan`` when calling ``parallelize_module``:
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker.. autoclass:: torch.distributed.tensor.parallel.PrepareModuleInput
*da0073e9SAndroid Build Coastguard Worker  :members:
*da0073e9SAndroid Build Coastguard Worker  :undoc-members:
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker.. autoclass:: torch.distributed.tensor.parallel.PrepareModuleOutput
*da0073e9SAndroid Build Coastguard Worker  :members:
*da0073e9SAndroid Build Coastguard Worker  :undoc-members:
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker.. note:: when using the ``Shard(dim)`` as the input/output layouts for the above
*da0073e9SAndroid Build Coastguard Worker  ``ParallelStyle`` s, we assume the input/output activation tensors are evenly sharded on
*da0073e9SAndroid Build Coastguard Worker  the tensor dimension ``dim`` on the ``DeviceMesh`` that TP operates on. For instance,
*da0073e9SAndroid Build Coastguard Worker  since ``RowwiseParallel`` accepts input that is sharded on the last dimension, it assumes
*da0073e9SAndroid Build Coastguard Worker  the input tensor has already been evenly sharded on the last dimension. For the case of uneven
*da0073e9SAndroid Build Coastguard Worker  sharded activation tensors, one could pass in DTensor directly to the partitioned modules,
*da0073e9SAndroid Build Coastguard Worker  and use ``use_local_output=False`` to return DTensor after each ``ParallelStyle``, where
*da0073e9SAndroid Build Coastguard Worker  DTensor could track the uneven sharding information.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerFor models like Transformer, we recommend users to use ``ColwiseParallel``
*da0073e9SAndroid Build Coastguard Workerand ``RowwiseParallel`` together in the parallelize_plan for achieve the desired
*da0073e9SAndroid Build Coastguard Workersharding for the entire model (i.e. Attention and MLP).
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerParallelized cross-entropy loss computation (loss parallelism), is supported via the following context manager:
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker.. autofunction:: torch.distributed.tensor.parallel.loss_parallel
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker.. warning ::
*da0073e9SAndroid Build Coastguard Worker    The loss_parallel API is experimental and subject to change.