qualcomm/quantizer/quantizer.py

*523fa7a6SAndroid Build Coastguard Worker# Copyright (c) Qualcomm Innovation Center, Inc.
*523fa7a6SAndroid Build Coastguard Worker# All rights reserved
*523fa7a6SAndroid Build Coastguard Worker#
*523fa7a6SAndroid Build Coastguard Worker# This source code is licensed under the BSD-style license found in the
*523fa7a6SAndroid Build Coastguard Worker# LICENSE file in the root directory of this source tree.
*523fa7a6SAndroid Build Coastguard Workerfrom enum import IntEnum, unique
*523fa7a6SAndroid Build Coastguard Workerfrom typing import Callable, Optional, Sequence, Set
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerimport torch
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.decompose_einsum import DecomposeEinsum
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.decompose_silu import DecomposeSilu
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.recompose_pixel_unshuffle import (
*523fa7a6SAndroid Build Coastguard Worker    RecomposePixelUnshuffle,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.reduce_dynamic_range import ReduceDynamicRange
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.replace_inf_buffer import ReplaceInfBuffer
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.transforms.decompose_sdpa import (
*523fa7a6SAndroid Build Coastguard Worker    DecomposeScaledDotProductAttention,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerfrom torch._ops import OpOverload
*523fa7a6SAndroid Build Coastguard Workerfrom torch.ao.quantization.quantizer import Quantizer
*523fa7a6SAndroid Build Coastguard Workerfrom torch.fx import GraphModule
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerfrom .annotators import OP_ANNOTATOR
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerfrom .qconfig import (
*523fa7a6SAndroid Build Coastguard Worker    get_16a16w_qnn_ptq_config,
*523fa7a6SAndroid Build Coastguard Worker    get_16a4w_qnn_ptq_config,
*523fa7a6SAndroid Build Coastguard Worker    get_16a4w_qnn_qat_config,
*523fa7a6SAndroid Build Coastguard Worker    get_16a8w_qnn_ptq_config,
*523fa7a6SAndroid Build Coastguard Worker    get_8a8w_qnn_ptq_config,
*523fa7a6SAndroid Build Coastguard Worker    get_8a8w_qnn_qat_config,
*523fa7a6SAndroid Build Coastguard Worker    get_ptq_per_channel_quant_config,
*523fa7a6SAndroid Build Coastguard Worker    get_qat_per_channel_quant_config,
*523fa7a6SAndroid Build Coastguard Worker    QuantizationConfig,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker# To bypass the meta internal test error
*523fa7a6SAndroid Build Coastguard Workerget_default_16bit_qnn_ptq_config = get_16a16w_qnn_ptq_config
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker__all__ = [
*523fa7a6SAndroid Build Coastguard Worker    "QnnQuantizer",
*523fa7a6SAndroid Build Coastguard Worker    "QuantDtype",
*523fa7a6SAndroid Build Coastguard Worker    "get_16a4w_qnn_ptq_config",
*523fa7a6SAndroid Build Coastguard Worker    "get_16a8w_qnn_ptq_config",
*523fa7a6SAndroid Build Coastguard Worker    "get_16a16w_qnn_ptq_config",
*523fa7a6SAndroid Build Coastguard Worker    "get_8a8w_qnn_ptq_config",
*523fa7a6SAndroid Build Coastguard Worker    "get_8a8w_qnn_qat_config",
*523fa7a6SAndroid Build Coastguard Worker    "get_16a4w_qnn_qat_config",
*523fa7a6SAndroid Build Coastguard Worker]
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker@unique
*523fa7a6SAndroid Build Coastguard Workerclass QuantDtype(IntEnum):
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    bits of activation and bits of weight
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    use_16a16w = 0
*523fa7a6SAndroid Build Coastguard Worker    use_16a8w = 1
*523fa7a6SAndroid Build Coastguard Worker    use_16a4w = 2
*523fa7a6SAndroid Build Coastguard Worker    use_8a8w = 3
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerquant_config_dict = {
*523fa7a6SAndroid Build Coastguard Worker    # PTQ
*523fa7a6SAndroid Build Coastguard Worker    (QuantDtype.use_16a16w, False): (
*523fa7a6SAndroid Build Coastguard Worker        get_16a16w_qnn_ptq_config,
*523fa7a6SAndroid Build Coastguard Worker        get_ptq_per_channel_quant_config(torch.uint16, torch.int16),
*523fa7a6SAndroid Build Coastguard Worker    ),
*523fa7a6SAndroid Build Coastguard Worker    (QuantDtype.use_16a8w, False): (
*523fa7a6SAndroid Build Coastguard Worker        get_16a8w_qnn_ptq_config,
*523fa7a6SAndroid Build Coastguard Worker        get_ptq_per_channel_quant_config(torch.uint16, torch.int8),
*523fa7a6SAndroid Build Coastguard Worker    ),
*523fa7a6SAndroid Build Coastguard Worker    (QuantDtype.use_16a4w, False): (
*523fa7a6SAndroid Build Coastguard Worker        get_16a4w_qnn_ptq_config,
*523fa7a6SAndroid Build Coastguard Worker        get_ptq_per_channel_quant_config(torch.uint16, "int4"),
*523fa7a6SAndroid Build Coastguard Worker    ),
*523fa7a6SAndroid Build Coastguard Worker    (QuantDtype.use_8a8w, False): (
*523fa7a6SAndroid Build Coastguard Worker        get_8a8w_qnn_ptq_config,
*523fa7a6SAndroid Build Coastguard Worker        get_ptq_per_channel_quant_config(),
*523fa7a6SAndroid Build Coastguard Worker    ),
*523fa7a6SAndroid Build Coastguard Worker    # QAT,
*523fa7a6SAndroid Build Coastguard Worker    (QuantDtype.use_16a4w, True): (
*523fa7a6SAndroid Build Coastguard Worker        get_16a4w_qnn_qat_config,
*523fa7a6SAndroid Build Coastguard Worker        get_qat_per_channel_quant_config(torch.uint16, "int4"),
*523fa7a6SAndroid Build Coastguard Worker    ),
*523fa7a6SAndroid Build Coastguard Worker    (QuantDtype.use_8a8w, True): (
*523fa7a6SAndroid Build Coastguard Worker        get_8a8w_qnn_qat_config,
*523fa7a6SAndroid Build Coastguard Worker        get_qat_per_channel_quant_config(),
*523fa7a6SAndroid Build Coastguard Worker    ),
*523fa7a6SAndroid Build Coastguard Worker}
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerclass QnnQuantizer(Quantizer):
*523fa7a6SAndroid Build Coastguard Worker    SUPPORTED_OPS: Set = set(OP_ANNOTATOR.keys())
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def __init__(self):
*523fa7a6SAndroid Build Coastguard Worker        super().__init__()
*523fa7a6SAndroid Build Coastguard Worker        self.quant_ops: Set[OpOverload] = self.SUPPORTED_OPS.copy()
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        self.is_qat = False
*523fa7a6SAndroid Build Coastguard Worker        self.quant_dtype = QuantDtype.use_8a8w
*523fa7a6SAndroid Build Coastguard Worker        self.quant_config: QuantizationConfig = get_8a8w_qnn_ptq_config()
*523fa7a6SAndroid Build Coastguard Worker        self.per_channel_quant_config = get_ptq_per_channel_quant_config()
*523fa7a6SAndroid Build Coastguard Worker        self.use_per_channel_weight_quant_ops: Set[OpOverload] = set()
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        self.custom_quant_annotations: Sequence[Callable] = []
*523fa7a6SAndroid Build Coastguard Worker        self.discard_nodes: Set[str] = set()
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def _annotate(self, gm: GraphModule) -> None:
*523fa7a6SAndroid Build Coastguard Worker        for node in gm.graph.nodes:
*523fa7a6SAndroid Build Coastguard Worker            if node.name in self.discard_nodes:
*523fa7a6SAndroid Build Coastguard Worker                continue
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker            quant_config = self._get_quant_config(node.target)
*523fa7a6SAndroid Build Coastguard Worker            if quant_config:
*523fa7a6SAndroid Build Coastguard Worker                OP_ANNOTATOR[node.target](node, quant_config)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def _annotate_custom_annotation(self, gm: GraphModule) -> None:
*523fa7a6SAndroid Build Coastguard Worker        for annotation_func in self.custom_quant_annotations:
*523fa7a6SAndroid Build Coastguard Worker            annotation_func(gm)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def _get_quant_config(self, op: str | OpOverload) -> Optional[QuantizationConfig]:
*523fa7a6SAndroid Build Coastguard Worker        """
*523fa7a6SAndroid Build Coastguard Worker        Priority:
*523fa7a6SAndroid Build Coastguard Worker            1. is one of use_per_channel_weight_quant_ops
*523fa7a6SAndroid Build Coastguard Worker            2. quant config
*523fa7a6SAndroid Build Coastguard Worker        """
*523fa7a6SAndroid Build Coastguard Worker        if isinstance(op, str):
*523fa7a6SAndroid Build Coastguard Worker            return
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        if op in self.use_per_channel_weight_quant_ops:
*523fa7a6SAndroid Build Coastguard Worker            return self.per_channel_quant_config
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        if op in self.quant_ops:
*523fa7a6SAndroid Build Coastguard Worker            return self.quant_config
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        print(f"No quant config is implemented for op, {op}")
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def _update_per_channel_weight_quant_ops(self, ops: Set[OpOverload], enable: bool):
*523fa7a6SAndroid Build Coastguard Worker        if enable:
*523fa7a6SAndroid Build Coastguard Worker            self.use_per_channel_weight_quant_ops.update(ops)
*523fa7a6SAndroid Build Coastguard Worker        else:
*523fa7a6SAndroid Build Coastguard Worker            self.use_per_channel_weight_quant_ops.difference_update(ops)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def add_custom_quant_annotations(
*523fa7a6SAndroid Build Coastguard Worker        self, custom_quant_annotations: Sequence[Callable]
*523fa7a6SAndroid Build Coastguard Worker    ) -> None:
*523fa7a6SAndroid Build Coastguard Worker        self.custom_quant_annotations = custom_quant_annotations
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def add_discard_nodes(self, nodes: Sequence[str]) -> None:
*523fa7a6SAndroid Build Coastguard Worker        self.discard_nodes = set(nodes)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def add_discard_ops(self, ops: Sequence[OpOverload]) -> None:
*523fa7a6SAndroid Build Coastguard Worker        for op in ops:
*523fa7a6SAndroid Build Coastguard Worker            self.quant_ops.remove(op)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def annotate(self, model: GraphModule) -> GraphModule:
*523fa7a6SAndroid Build Coastguard Worker        self._annotate(model)
*523fa7a6SAndroid Build Coastguard Worker        self._annotate_custom_annotation(model)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        return model
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def get_supported_ops(self) -> Set[OpOverload]:
*523fa7a6SAndroid Build Coastguard Worker        return self.SUPPORTED_OPS
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def set_quant_config(
*523fa7a6SAndroid Build Coastguard Worker        self, quant_dtype: QuantDtype, is_qat=False, act_observer=None
*523fa7a6SAndroid Build Coastguard Worker    ) -> None:
*523fa7a6SAndroid Build Coastguard Worker        self.quant_dtype = quant_dtype
*523fa7a6SAndroid Build Coastguard Worker        self.is_qat = is_qat
*523fa7a6SAndroid Build Coastguard Worker        if (quant_dtype, is_qat) not in quant_config_dict:
*523fa7a6SAndroid Build Coastguard Worker            raise RuntimeError(
*523fa7a6SAndroid Build Coastguard Worker                f"the quant config, (quant_dtype: {quant_dtype}, is_qat: {is_qat}) is not support"
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        quant_config_fuc, self.per_channel_quant_config = quant_config_dict[
*523fa7a6SAndroid Build Coastguard Worker            (quant_dtype, is_qat)
*523fa7a6SAndroid Build Coastguard Worker        ]
*523fa7a6SAndroid Build Coastguard Worker        self.quant_config = (
*523fa7a6SAndroid Build Coastguard Worker            quant_config_fuc(act_observer) if act_observer else quant_config_fuc()
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def set_per_channel_conv_quant(self, enable: bool) -> None:
*523fa7a6SAndroid Build Coastguard Worker        conv_ops = {torch.ops.aten.conv1d.default, torch.ops.aten.conv2d.default}
*523fa7a6SAndroid Build Coastguard Worker        self._update_per_channel_weight_quant_ops(conv_ops, enable)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def set_per_channel_linear_quant(self, enable: bool) -> None:
*523fa7a6SAndroid Build Coastguard Worker        linear_ops = {
*523fa7a6SAndroid Build Coastguard Worker            torch.ops.aten.linear.default,
*523fa7a6SAndroid Build Coastguard Worker        }
*523fa7a6SAndroid Build Coastguard Worker        self._update_per_channel_weight_quant_ops(linear_ops, enable)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def transform_for_annotation(self, model: GraphModule) -> GraphModule:
*523fa7a6SAndroid Build Coastguard Worker        model = ReduceDynamicRange()(model).graph_module
*523fa7a6SAndroid Build Coastguard Worker        model = RecomposePixelUnshuffle(quantization_capture=True)(model).graph_module
*523fa7a6SAndroid Build Coastguard Worker        model = DecomposeScaledDotProductAttention()(model).graph_module
*523fa7a6SAndroid Build Coastguard Worker        model = DecomposeSilu()(model).graph_module
*523fa7a6SAndroid Build Coastguard Worker        model = DecomposeEinsum()(model).graph_module
*523fa7a6SAndroid Build Coastguard Worker        model = ReplaceInfBuffer()(model).graph_module
*523fa7a6SAndroid Build Coastguard Worker        return model
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def validate(self, model: GraphModule) -> None:
*523fa7a6SAndroid Build Coastguard Worker        pass