Disable quantization

With GPU, torch says: AssertionError: Embedding quantization is only supported with float_qparams_weight_only_qconfig.

Files changed (1) hide show

handler.py CHANGED Viewed

@@ -5,8 +5,7 @@ from torch.quantization import quantize_dynamic
 class EndpointHandler():
     def __init__(self, path=""):
-        slowmodel = SentenceTransformer('sentence-transformers/multi-qa-MiniLM-L6-cos-v1')
-        self.model = quantize_dynamic(slowmodel, {Linear, Embedding})
     def __call__(self, data: Dict[str, Any]) -> List[Dict[str, Any]]:
         """

 class EndpointHandler():
     def __init__(self, path=""):
+        self.model = SentenceTransformer('sentence-transformers/multi-qa-MiniLM-L6-cos-v1')
     def __call__(self, data: Dict[str, Any]) -> List[Dict[str, Any]]:
         """