src/ATen/FunctionalizeFallbackKernel.cpp

*da0073e9SAndroid Build Coastguard Worker#include <ATen/core/dispatch/Dispatcher.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/core/LegacyTypeDispatch.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/EmptyTensor.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/FunctionalTensorWrapper.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/InferSize.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/TensorUtils.h>
*da0073e9SAndroid Build Coastguard Worker#include <torch/library.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/util/irange.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/util/strides.h>
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker#ifndef AT_PER_OPERATOR_HEADERS
*da0073e9SAndroid Build Coastguard Worker#include <ATen/ATen.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/Functions.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/NativeFunctions.h>
*da0073e9SAndroid Build Coastguard Worker#else
*da0073e9SAndroid Build Coastguard Worker#include <ATen/ops/_to_copy.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/ops/to_native.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/ops/lift.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/ops/lift_fresh.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/ops/lift_fresh_copy.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/ops/resize.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/ops/as_strided.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/ops/as_strided_copy.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/ops/empty_strided_native.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/ops/_unsafe_view.h>
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker#include <utility>
*da0073e9SAndroid Build Coastguard Worker#endif
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workernamespace {
*da0073e9SAndroid Build Coastguard Worker  void functionalizeFallback(const c10::OperatorHandle& op, c10::DispatchKeySet dispatchKeySet [[maybe_unused]], torch::jit::Stack* stack) {
*da0073e9SAndroid Build Coastguard Worker    const auto& schema = op.schema();
*da0073e9SAndroid Build Coastguard Worker    // NB: auto_functionalize handles the case where outputs do not have alias info.
*da0073e9SAndroid Build Coastguard Worker    // This error message therefore suggests users to modify their custom op to the
*da0073e9SAndroid Build Coastguard Worker    // point where auto_functionalize works instead of asking them to try the raw
*da0073e9SAndroid Build Coastguard Worker    // functionalization API (because that is a bit difficult to use).
*da0073e9SAndroid Build Coastguard Worker    // If you're here and want to try the raw functionalizaton kernel approach,
*da0073e9SAndroid Build Coastguard Worker    // see https://gist.github.com/bdhirsh/7dadbf6296f8f7d1abcf4c482f438aaa
*da0073e9SAndroid Build Coastguard Worker    TORCH_CHECK(
*da0073e9SAndroid Build Coastguard Worker      !schema.hasAnyAliasInfo(),
*da0073e9SAndroid Build Coastguard Worker      "Found a custom (non-ATen) operator whose output has alias annotations: ",
*da0073e9SAndroid Build Coastguard Worker      op.schema(),
*da0073e9SAndroid Build Coastguard Worker      ". We only support functionalizing operators whose outputs do not have alias ",
*da0073e9SAndroid Build Coastguard Worker      "annotations (e.g. 'Tensor(a)' is a Tensor with an alias annotation whereas ",
*da0073e9SAndroid Build Coastguard Worker      "'Tensor' is a Tensor without. The '(a)' is the alias annotation). "
*da0073e9SAndroid Build Coastguard Worker      "The alias annotation specifies that the output ",
*da0073e9SAndroid Build Coastguard Worker      "Tensor shares storage with an input that has the same annotation. ",
*da0073e9SAndroid Build Coastguard Worker      "Please check if ",
*da0073e9SAndroid Build Coastguard Worker      "(1) the output needs to be an output (if not, don't return it), ",
*da0073e9SAndroid Build Coastguard Worker      "(2) if the output doesn't share storage with any inputs, then ",
*da0073e9SAndroid Build Coastguard Worker      "delete the alias annotation. ",
*da0073e9SAndroid Build Coastguard Worker      "(3) if the output indeed shares storage with an input, then add a ",
*da0073e9SAndroid Build Coastguard Worker      ".clone() before returning it to prevent storage sharing and then "
*da0073e9SAndroid Build Coastguard Worker      "delete the alias annotation. ",
*da0073e9SAndroid Build Coastguard Worker      "Otherwise, please file an issue on GitHub.");
*da0073e9SAndroid Build Coastguard Worker    const auto num_arguments = schema.arguments().size();
*da0073e9SAndroid Build Coastguard Worker    const auto arguments_begin = stack->size() - num_arguments;
*da0073e9SAndroid Build Coastguard Worker    auto arguments = torch::jit::last(stack, num_arguments);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    auto any_functional_inputs = false;
*da0073e9SAndroid Build Coastguard Worker    auto any_tensor_inputs = false;
*da0073e9SAndroid Build Coastguard Worker    for (uint64_t idx = 0; idx < num_arguments; ++idx) {
*da0073e9SAndroid Build Coastguard Worker      const auto& ivalue = arguments[idx];
*da0073e9SAndroid Build Coastguard Worker      if (ivalue.isTensor()) {
*da0073e9SAndroid Build Coastguard Worker        any_tensor_inputs = true;
*da0073e9SAndroid Build Coastguard Worker        const auto& t = ivalue.toTensor();
*da0073e9SAndroid Build Coastguard Worker        if (t.defined() && at::functionalization::impl::isFunctionalTensor(t)) {
*da0073e9SAndroid Build Coastguard Worker          any_functional_inputs = true;
*da0073e9SAndroid Build Coastguard Worker          at::functionalization::impl::sync(t);
*da0073e9SAndroid Build Coastguard Worker          auto t_new = c10::IValue(at::functionalization::impl::from_functional_tensor(t));
*da0073e9SAndroid Build Coastguard Worker          (*stack)[arguments_begin + idx] = t_new;
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker      } else if (ivalue.isTensorList()) {
*da0073e9SAndroid Build Coastguard Worker        any_tensor_inputs = true;
*da0073e9SAndroid Build Coastguard Worker        auto tensors = ivalue.toTensorList();
*da0073e9SAndroid Build Coastguard Worker        if (at::functionalization::impl::isFunctionalTensor(tensors)) {
*da0073e9SAndroid Build Coastguard Worker          any_functional_inputs = true;
*da0073e9SAndroid Build Coastguard Worker          at::functionalization::impl::sync(tensors);
*da0073e9SAndroid Build Coastguard Worker          auto t_new = c10::IValue(at::functionalization::impl::from_functional_tensor(tensors));
*da0073e9SAndroid Build Coastguard Worker          (*stack)[arguments_begin + idx] = t_new;
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker      } else if (ivalue.isOptionalTensorList()) {
*da0073e9SAndroid Build Coastguard Worker        any_tensor_inputs = true;
*da0073e9SAndroid Build Coastguard Worker        auto opt_tensors = ivalue.toOptionalTensorList();
*da0073e9SAndroid Build Coastguard Worker        if (at::functionalization::impl::isFunctionalTensor(opt_tensors)) {
*da0073e9SAndroid Build Coastguard Worker          any_functional_inputs = true;
*da0073e9SAndroid Build Coastguard Worker          at::functionalization::impl::sync(opt_tensors);
*da0073e9SAndroid Build Coastguard Worker          auto t_new = c10::IValue(at::functionalization::impl::from_functional_tensor(opt_tensors));
*da0073e9SAndroid Build Coastguard Worker          (*stack)[arguments_begin + idx] = t_new;
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    // we should wrap the output if any inputs were wrapped,
*da0073e9SAndroid Build Coastguard Worker    // OR if we're hitting a factory function (with no tensor inputs)
*da0073e9SAndroid Build Coastguard Worker    auto should_wrap_outputs = !any_tensor_inputs || any_functional_inputs;
*da0073e9SAndroid Build Coastguard Worker    {
*da0073e9SAndroid Build Coastguard Worker      at::AutoDispatchSkipFunctionalize guard;
*da0073e9SAndroid Build Coastguard Worker      op.callBoxed(stack);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    const auto num_returns = schema.returns().size();
*da0073e9SAndroid Build Coastguard Worker    const auto returns_begin = stack->size() - num_returns;
*da0073e9SAndroid Build Coastguard Worker    auto returns = torch::jit::last(stack, num_returns);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for (const auto idx : c10::irange(num_returns)) {
*da0073e9SAndroid Build Coastguard Worker      const auto& ivalue = returns[idx];
*da0073e9SAndroid Build Coastguard Worker      if (ivalue.isTensor() && should_wrap_outputs) {
*da0073e9SAndroid Build Coastguard Worker        const auto& t = ivalue.toTensor();
*da0073e9SAndroid Build Coastguard Worker        if (!t.defined()) continue;
*da0073e9SAndroid Build Coastguard Worker        auto t_new = c10::IValue(at::functionalization::impl::to_functional_tensor(t));
*da0073e9SAndroid Build Coastguard Worker        (*stack)[returns_begin + idx] = t_new;
*da0073e9SAndroid Build Coastguard Worker      } else if (ivalue.isTensorList() && should_wrap_outputs) {
*da0073e9SAndroid Build Coastguard Worker        auto tensors = ivalue.toTensorList();
*da0073e9SAndroid Build Coastguard Worker        auto t_new = c10::IValue(at::functionalization::impl::to_functional_tensor(tensors));
*da0073e9SAndroid Build Coastguard Worker        (*stack)[returns_begin + idx] = t_new;
*da0073e9SAndroid Build Coastguard Worker      } else if (ivalue.isOptionalTensorList() && should_wrap_outputs) {
*da0073e9SAndroid Build Coastguard Worker        auto opt_tensors = ivalue.toOptionalTensorList();
*da0073e9SAndroid Build Coastguard Worker        auto t_new = c10::IValue(at::functionalization::impl::to_functional_tensor(opt_tensors));
*da0073e9SAndroid Build Coastguard Worker        (*stack)[returns_begin + idx] = t_new;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// resize_() is special because:
*da0073e9SAndroid Build Coastguard Worker// - when we resize to a larger size, it acts as a mutation
*da0073e9SAndroid Build Coastguard Worker// - when we resize to a smaller size, it acts as a view
*da0073e9SAndroid Build Coastguard Worker// See Note [resize_ in Functionalization] for more dtails
*da0073e9SAndroid Build Coastguard Workerstatic const at::Tensor & resize__functionalization(c10::DispatchKeySet dispatchKeySet [[maybe_unused]], const at::Tensor & self, at::IntArrayRef size, std::optional<at::MemoryFormat> memory_format) {
*da0073e9SAndroid Build Coastguard Worker  // First unwrap the tensor arguments
*da0073e9SAndroid Build Coastguard Worker  at::Tensor self_;
*da0073e9SAndroid Build Coastguard Worker  if (at::functionalization::impl::isFunctionalTensor(self)) {
*da0073e9SAndroid Build Coastguard Worker    at::functionalization::impl::sync(self);
*da0073e9SAndroid Build Coastguard Worker    self_ = at::functionalization::impl::from_functional_tensor(self);
*da0073e9SAndroid Build Coastguard Worker  } else {
*da0073e9SAndroid Build Coastguard Worker    self_ = self;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  // Case 1: arguments are not functional tensors, so we no-op and redispatch.
*da0073e9SAndroid Build Coastguard Worker  if (!at::functionalization::impl::isFunctionalTensor(self)) {
*da0073e9SAndroid Build Coastguard Worker     at::AutoDispatchSkipFunctionalize guard;
*da0073e9SAndroid Build Coastguard Worker     self_.resize_(size, memory_format);
*da0073e9SAndroid Build Coastguard Worker     return self;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Case 2: actually functionalize resize_()
*da0073e9SAndroid Build Coastguard Worker  at::Tensor tmp_output;
*da0073e9SAndroid Build Coastguard Worker  {
*da0073e9SAndroid Build Coastguard Worker    at::AutoDispatchSkipFunctionalize guard;
*da0073e9SAndroid Build Coastguard Worker    tmp_output = at::resize(self_, size, memory_format);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  auto itemsize = self.dtype().itemsize();
*da0073e9SAndroid Build Coastguard Worker  auto storage_offset = self.storage_offset();
*da0073e9SAndroid Build Coastguard Worker  auto new_size_bytes = at::detail::computeStorageNbytesContiguous(size, itemsize, storage_offset);
*da0073e9SAndroid Build Coastguard Worker  auto needs_resize_storage = new_size_bytes > self.storage().nbytes();
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  if (needs_resize_storage) {
*da0073e9SAndroid Build Coastguard Worker    // If resize_() actually increases the size of the storage, then we need to tell FunctionalTensorWrapper about it.
*da0073e9SAndroid Build Coastguard Worker    // See Note[resize_() in functionalization pass]
*da0073e9SAndroid Build Coastguard Worker    auto func_impl = at::functionalization::impl::unsafeGetFunctionalWrapper(self);
*da0073e9SAndroid Build Coastguard Worker    func_impl->maybe_replace_storage(tmp_output);
*da0073e9SAndroid Build Coastguard Worker    // See the note - we're guaranteed at this point that "self" is *not* a view (and has no outstanding views)
*da0073e9SAndroid Build Coastguard Worker    // So we don't need to treat the output of resize as view tensor.
*da0073e9SAndroid Build Coastguard Worker    return self;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Otherwise, we know that we're resizing to a smaller size.
*da0073e9SAndroid Build Coastguard Worker  // resize_() is effectively a view operator.
*da0073e9SAndroid Build Coastguard Worker  // The output of resizing is equivalent to taking a slice of a larger tensor.
*da0073e9SAndroid Build Coastguard Worker  // We have to emulate this "slicing" with an as_strided call.
*da0073e9SAndroid Build Coastguard Worker  auto reapply_views = at::functionalization::impl::getFunctionalizationReapplyViewsTLS();
*da0073e9SAndroid Build Coastguard Worker  at::functionalization::ViewMeta view_meta = at::functionalization::ViewMeta(
*da0073e9SAndroid Build Coastguard Worker    [reapply_views = reapply_views, size = size.vec()](const at::Tensor & base, int64_t mutated_view_idx [[maybe_unused]]) -> at::Tensor {
*da0073e9SAndroid Build Coastguard Worker      if (reapply_views) {
*da0073e9SAndroid Build Coastguard Worker        return base.as_strided(size, c10::contiguous_strides(size));
*da0073e9SAndroid Build Coastguard Worker      } else {
*da0073e9SAndroid Build Coastguard Worker        return at::as_strided_copy(base, size, c10::contiguous_strides(size));
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    },
*da0073e9SAndroid Build Coastguard Worker    [size = size.vec()](const at::Tensor & base, const at::Tensor & mutated_view, int64_t mutated_view_idx [[maybe_unused]]) -> at::Tensor {
*da0073e9SAndroid Build Coastguard Worker      return base.as_strided_scatter(mutated_view, size, c10::contiguous_strides(size));
*da0073e9SAndroid Build Coastguard Worker    },
*da0073e9SAndroid Build Coastguard Worker    /*has_symbolic_inputs=*/false
*da0073e9SAndroid Build Coastguard Worker  );
*da0073e9SAndroid Build Coastguard Worker  at::functionalization::impl::mutate_view_meta(self, view_meta);
*da0073e9SAndroid Build Coastguard Worker  return self;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstatic at::Tensor lift_functionalize(const at::Tensor & self) {
*da0073e9SAndroid Build Coastguard Worker  TORCH_INTERNAL_ASSERT(!at::functionalization::impl::isFunctionalTensor(self));
*da0073e9SAndroid Build Coastguard Worker  at::AutoDispatchSkipFunctionalize guard;
*da0073e9SAndroid Build Coastguard Worker  auto out = at::lift(self);
*da0073e9SAndroid Build Coastguard Worker  return at::functionalization::impl::to_functional_tensor(out);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstatic at::Tensor lift_fresh_functionalize(const at::Tensor & self) {
*da0073e9SAndroid Build Coastguard Worker  // See Note [Exporting and compiling a graph with lift_fresh_copy]
*da0073e9SAndroid Build Coastguard Worker  if (at::functionalization::impl::isFunctionalTensor(self)) {
*da0073e9SAndroid Build Coastguard Worker    return self.view_as(self);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  at::AutoDispatchSkipFunctionalize guard;
*da0073e9SAndroid Build Coastguard Worker  auto out = at::lift_fresh(self);
*da0073e9SAndroid Build Coastguard Worker  return at::functionalization::impl::to_functional_tensor(out);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstatic at::Tensor lift_fresh_functionalize_copy(const at::Tensor & self) {
*da0073e9SAndroid Build Coastguard Worker  // Note [Exporting and compiling a graph with lift_fresh_copy]
*da0073e9SAndroid Build Coastguard Worker  // If out is already a functional tensor, don't wrap it twice.
*da0073e9SAndroid Build Coastguard Worker  // In theory this could be useful if we want to nest functionalization with itself,
*da0073e9SAndroid Build Coastguard Worker  // but that isn't really a use case today.
*da0073e9SAndroid Build Coastguard Worker  // Needed for https://github.com/pytorch/pytorch/issues/105327
*da0073e9SAndroid Build Coastguard Worker  if (at::functionalization::impl::isFunctionalTensor(self)) {
*da0073e9SAndroid Build Coastguard Worker    // Note [Composite Functionalization under PreDispatch mode]
*da0073e9SAndroid Build Coastguard Worker    // When we are tracing under PreDispatch, PreDispatch key will be
*da0073e9SAndroid Build Coastguard Worker    // in the local include TLS. As a result, when we redispatch here,
*da0073e9SAndroid Build Coastguard Worker    // we will end up hitting PreDispatch stack first. So, we should
*da0073e9SAndroid Build Coastguard Worker    // directly redispatch to the functionalize key manually.
*da0073e9SAndroid Build Coastguard Worker    static auto op = c10::Dispatcher::singleton().findSchemaOrThrow("aten::clone", "").typed<at::Tensor(const at::Tensor &, std::optional<at::MemoryFormat>)>();
*da0073e9SAndroid Build Coastguard Worker    return op.redispatch(c10::DispatchKeySet({c10::DispatchKey::Functionalize}), self, std::nullopt);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  at::AutoDispatchSkipFunctionalize guard;
*da0073e9SAndroid Build Coastguard Worker  auto out = at::lift_fresh_copy(self);
*da0073e9SAndroid Build Coastguard Worker  return at::functionalization::impl::to_functional_tensor(out);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstatic bool device_opted_into_functionalization(c10::Device self_device, std::optional<c10::Device> tgt_device) {
*da0073e9SAndroid Build Coastguard Worker    // If the target device is empty, then the output tensor should be on the same device as the input
*da0073e9SAndroid Build Coastguard Worker    auto real_tgt_device = tgt_device.has_value() ? tgt_device.value() : self_device;
*da0073e9SAndroid Build Coastguard Worker    return real_tgt_device.type() == c10::DeviceType::XLA || real_tgt_device.type() == c10::DeviceType::Lazy;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// note I only need this because the to.dtype/to.dtype_layout overload calls this, so we skip the op above.
*da0073e9SAndroid Build Coastguard Worker// We should probably get rid of this though.
*da0073e9SAndroid Build Coastguard Workerstatic at::Tensor _to_copy_functionalize(
*da0073e9SAndroid Build Coastguard Worker        const at::Tensor & self,
*da0073e9SAndroid Build Coastguard Worker        std::optional<at::ScalarType> dtype,
*da0073e9SAndroid Build Coastguard Worker        std::optional<at::Layout> layout,
*da0073e9SAndroid Build Coastguard Worker        std::optional<at::Device> device,
*da0073e9SAndroid Build Coastguard Worker        std::optional<bool> pin_memory,
*da0073e9SAndroid Build Coastguard Worker        bool non_blocking,
*da0073e9SAndroid Build Coastguard Worker        std::optional<at::MemoryFormat> memory_format) {
*da0073e9SAndroid Build Coastguard Worker  at::Tensor self_;
*da0073e9SAndroid Build Coastguard Worker  if (at::functionalization::impl::isFunctionalTensor(self)) {
*da0073e9SAndroid Build Coastguard Worker    // sync any pending updates
*da0073e9SAndroid Build Coastguard Worker    at::functionalization::impl::sync(self);
*da0073e9SAndroid Build Coastguard Worker    // pass the unwrapped tensor to the backend
*da0073e9SAndroid Build Coastguard Worker    self_ = at::functionalization::impl::from_functional_tensor(self);
*da0073e9SAndroid Build Coastguard Worker  } else {
*da0073e9SAndroid Build Coastguard Worker    self_ = self;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  at::AutoDispatchSkipFunctionalize guard;
*da0073e9SAndroid Build Coastguard Worker  auto out = at::_to_copy(self_, dtype, layout, device, pin_memory, non_blocking, memory_format);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Special case: if the Functionalize key is not in TLS, we assume that we're running
*da0073e9SAndroid Build Coastguard Worker  // on a lazy backend (LTC).
*da0073e9SAndroid Build Coastguard Worker  // In that case, if we're copying to a non-functionalize-enabled device,
*da0073e9SAndroid Build Coastguard Worker  // then the functionalization pass should "end". We need to sync any updates on the input
*da0073e9SAndroid Build Coastguard Worker  // tensor, but we shouldn't wrap the output.
*da0073e9SAndroid Build Coastguard Worker  if (!c10::impl::tls_local_dispatch_key_set().included_.has(c10::DispatchKey::Functionalize)) {
*da0073e9SAndroid Build Coastguard Worker    if (!device_opted_into_functionalization(self.device(), device)) {
*da0073e9SAndroid Build Coastguard Worker      return out;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  return at::functionalization::impl::to_functional_tensor(out);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// Why is _unsafe_view special-cased here?
*da0073e9SAndroid Build Coastguard Worker// Basically just to satisfy autograd's debug asserts.
*da0073e9SAndroid Build Coastguard Worker// The situation:
*da0073e9SAndroid Build Coastguard Worker// - _unsafe_view's autograd kernel has debug asserts to confirm
*da0073e9SAndroid Build Coastguard Worker//   that the input and output alias storage.
*da0073e9SAndroid Build Coastguard Worker// - _unsafe_view's schema in native_functions.yaml
*da0073e9SAndroid Build Coastguard Worker//   does not contain alias annotations, so it advertises as non-aliasing.
*da0073e9SAndroid Build Coastguard Worker// - functionalization will then treat _unsafe_view like a non-aliasing op.
*da0073e9SAndroid Build Coastguard Worker//   Specifically, autograd will redispatch to functionalization's
*da0073e9SAndroid Build Coastguard Worker//   boxed fallback kernel, which creates a new FunctionalTensorWrapper output
*da0073e9SAndroid Build Coastguard Worker//   that does **not** alias storage with the input, tripping the assert.
*da0073e9SAndroid Build Coastguard Worker// The kernel written here just manually re-ifies the aliasing relationship.
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// Another way to handle this would be to fix unsafe_view's alias annotations
*da0073e9SAndroid Build Coastguard Worker// in native_functions.yaml, but I think this would be a pessimization.
*da0073e9SAndroid Build Coastguard Worker// The idea with _unsafe_view is that you're guaranteed that the input
*da0073e9SAndroid Build Coastguard Worker// is a temporary, and don't actually have to worry about propagating
*da0073e9SAndroid Build Coastguard Worker// mutations between the input and output.
*da0073e9SAndroid Build Coastguard Workerstatic at::Tensor _unsafe_view_functionalize(const at::Tensor & self, at::SymIntArrayRef size) {
*da0073e9SAndroid Build Coastguard Worker  if (!at::functionalization::impl::isFunctionalTensor(self)) {
*da0073e9SAndroid Build Coastguard Worker    at::AutoDispatchSkipFunctionalize guard;
*da0073e9SAndroid Build Coastguard Worker    return at::_unsafe_view_symint(self, size);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  auto self_ = at::functionalization::impl::from_functional_tensor(self);
*da0073e9SAndroid Build Coastguard Worker  at::Tensor tmp_output;
*da0073e9SAndroid Build Coastguard Worker  {
*da0073e9SAndroid Build Coastguard Worker    at::AutoDispatchSkipFunctionalize guard;
*da0073e9SAndroid Build Coastguard Worker    tmp_output = at::_unsafe_view_symint(self_, size);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  bool has_symbolic_inputs = std::any_of(size.begin(), size.end(), [=](auto& s) { return s.is_symbolic(); });
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  at::functionalization::ViewMeta view_meta = at::functionalization::ViewMeta(
*da0073e9SAndroid Build Coastguard Worker    [size = size.vec()](const at::Tensor & base, int64_t mutated_view_idx [[maybe_unused]]) -> at::Tensor {
*da0073e9SAndroid Build Coastguard Worker      return at::_unsafe_view_symint(base, size);
*da0073e9SAndroid Build Coastguard Worker    },
*da0073e9SAndroid Build Coastguard Worker    [size = size.vec()](const at::Tensor & base, const at::Tensor & mutated_view, int64_t mutated_view_idx [[maybe_unused]]) -> at::Tensor {
*da0073e9SAndroid Build Coastguard Worker      return at::_unsafe_view_symint(mutated_view, base.sym_sizes());
*da0073e9SAndroid Build Coastguard Worker    },
*da0073e9SAndroid Build Coastguard Worker    /*has_symbolic_inputs=*/has_symbolic_inputs
*da0073e9SAndroid Build Coastguard Worker  );
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  auto out = at::functionalization::impl::create_functional_tensor_with_view_meta(tmp_output, self, std::move(view_meta));
*da0073e9SAndroid Build Coastguard Worker  // See  Note [Propagating strides in the functionalization pass]
*da0073e9SAndroid Build Coastguard Worker  // (for _unsafe_view, I'm just manually doing the shape inference rule here instead of calling the meta function for unsafe_view)
*da0073e9SAndroid Build Coastguard Worker  auto inferred_size = at::infer_size_dv(size, self.sym_numel());
*da0073e9SAndroid Build Coastguard Worker  auto stride = at::detail::computeStride(self.sym_sizes(), self.sym_strides(), inferred_size);
*da0073e9SAndroid Build Coastguard Worker  TORCH_INTERNAL_ASSERT(stride.has_value());
*da0073e9SAndroid Build Coastguard Worker  out.unsafeGetTensorImpl()->set_sizes_and_strides(inferred_size, stride.value());
*da0073e9SAndroid Build Coastguard Worker  return out;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstatic at::Tensor& set__functionalize(at::Tensor& self, const at::Tensor& src) {
*da0073e9SAndroid Build Coastguard Worker  // error case
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(at::functionalization::impl::isFunctionalTensor(self) || !at::functionalization::impl::isFunctionalTensor(src),
*da0073e9SAndroid Build Coastguard Worker    "set__functionalize: Tried to mutate a non-functional tensor with a functional tensor, which is not allowed");
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // nop case
*da0073e9SAndroid Build Coastguard Worker  if (!at::functionalization::impl::isFunctionalTensor(self) && !at::functionalization::impl::isFunctionalTensor(src)) {
*da0073e9SAndroid Build Coastguard Worker    at::AutoDispatchSkipFunctionalize guard;
*da0073e9SAndroid Build Coastguard Worker    return self.set_(src);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(at::functionalization::impl::isFunctionalTensor(src),
*da0073e9SAndroid Build Coastguard Worker    "set__functionalize: We do not currently support x.set_(y) where y is not a FunctionalTensor. Please file an issue");
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  TORCH_INTERNAL_ASSERT(at::functionalization::impl::isFunctionalTensor(self));
*da0073e9SAndroid Build Coastguard Worker  TORCH_INTERNAL_ASSERT(at::functionalization::impl::isFunctionalTensor(src));
*da0073e9SAndroid Build Coastguard Worker  auto self_impl = at::functionalization::impl::unsafeGetFunctionalWrapper(self);
*da0073e9SAndroid Build Coastguard Worker  auto src_impl = at::functionalization::impl::unsafeGetFunctionalWrapper(src);
*da0073e9SAndroid Build Coastguard Worker  // See Note [Ordering of resize_() and set_()]
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(!self_impl->was_inductor_storage_resized(),
*da0073e9SAndroid Build Coastguard Worker    "storage_resize_() followed by set_() in torch.compile is not supported today");
*da0073e9SAndroid Build Coastguard Worker  self_impl->set__impl(src_impl);
*da0073e9SAndroid Build Coastguard Worker  return self;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTORCH_LIBRARY_IMPL(_, Functionalize, m) {
*da0073e9SAndroid Build Coastguard Worker  m.fallback(torch::CppFunction::makeFromBoxedFunction<&functionalizeFallback>());
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTORCH_LIBRARY_IMPL(aten, Functionalize, m) {
*da0073e9SAndroid Build Coastguard Worker  m.impl("resize_", TORCH_FN(resize__functionalization));
*da0073e9SAndroid Build Coastguard Worker  m.impl("lift", TORCH_FN(lift_functionalize));
*da0073e9SAndroid Build Coastguard Worker  m.impl("lift_fresh", TORCH_FN(lift_fresh_functionalize));
*da0073e9SAndroid Build Coastguard Worker  m.impl("lift_fresh_copy", TORCH_FN(lift_fresh_functionalize_copy));
*da0073e9SAndroid Build Coastguard Worker  m.impl("_to_copy", TORCH_FN(_to_copy_functionalize));
*da0073e9SAndroid Build Coastguard Worker  m.impl("_unsafe_view", TORCH_FN(_unsafe_view_functionalize));
*da0073e9SAndroid Build Coastguard Worker  // The overloads of set_() that take in a storage should never
*da0073e9SAndroid Build Coastguard Worker  // appear with torch.compile, because dynamo graph breaks
*da0073e9SAndroid Build Coastguard Worker  m.impl("set_.source_Tensor", TORCH_FN(set__functionalize));
*da0073e9SAndroid Build Coastguard Worker}