Spaces:

xxmaranxx
/

clustering-test

Sleeping

App Files Files Community

xxmaranxx commited on Nov 2

Commit

deae03b

verified ·

1 Parent(s): 9fe5cef

Upload 2 files

Browse files

Files changed (2) hide show

app.py +86 -0
requirements.txt +6 -0

app.py CHANGED Viewed

	@@ -0,0 +1,86 @@

+# -*- coding: utf-8 -*-
+import os, json, pickle
+from typing import List, Dict, Any
+import numpy as np
+from fastapi import FastAPI, HTTPException
+from pydantic import BaseModel
+from sentence_transformers import SentenceTransformer
+from pydantic import BaseModel, ConfigDict
+# ---- load artifacts once ----
+DATA_DIR = os.path.join(os.path.dirname(__file__), "data")
+PRED_PATH = os.path.join(DATA_DIR, "predictor.pkl")
+if not os.path.exists(PRED_PATH):
+    raise FileNotFoundError("Put your predictor.pkl under data/")
+with open(PRED_PATH, "rb") as f:
+    lw = pickle.load(f)
+model_name: str = lw["model_name"]
+sbert = SentenceTransformer(model_name)
+centroides = {int(k): np.array(v, dtype=np.float32) for k, v in lw["centroides"].items()}
+# normalize centroid vectors (to match normalized embeddings)
+for k in list(centroides.keys()):
+    c = centroides[k]
+    n = float(np.linalg.norm(c) + 1e-12)
+    centroides[k] = c / n
+meta: Dict[int, Dict[str, Any]] = lw["meta"]
+cids = sorted(centroides.keys())
+class MailItem(BaseModel):
+    subject: str
+    body: str
+    # allow unknown fields
+    model_config = ConfigDict(extra="allow")
+class PredictRequest(BaseModel):
+    data: List[MailItem]
+class PredictResponseItem(BaseModel):
+    json: Dict[str, Any]
+class PredictResponse(BaseModel):
+    results: List[PredictResponseItem]
+# ---- core ----
+def _encode(texts: List[str]) -> np.ndarray:
+    # normalized embeddings
+    emb = sbert.encode(texts, convert_to_numpy=True, normalize_embeddings=True)
+    return emb.astype(np.float32)
+def _assign(vec: np.ndarray) -> int:
+    dists = [np.linalg.norm(vec - centroides[c]) for c in cids]
+    return cids[int(np.argmin(dists))]
+def _predict(records: List[Dict[str, Any]]) -> List[Dict[str, Any]]:
+    texts = [f"{r.get('subject','')} — {r.get('body','')}" for r in records]
+    emb = _encode(texts)
+    out = []
+    for r, v in zip(records, emb):
+        cid = _assign(v)
+        j = dict(r)
+        j["cluster"] = cid
+        j["cluster_nombre"] = meta.get(cid, {}).get("nombre", f"cluster_{cid}")
+        j["cluster_desc"] = meta.get(cid, {}).get("descripcion", "")
+        out.append({"json": j})
+    return out
+# ---- FastAPI app ----
+app = FastAPI(title="Mail Cluster Inference", version="1.0.0")
+@app.get("/healthz")
+def healthz():
+    return {"ok": True, "clusters": len(cids), "model": model_name}
+@app.post("/predict", response_model=PredictResponse)
+def predict(req: PredictRequest):
+    try:
+        records = [m.dict() for m in req.data]
+        results = _predict(records)
+        return {"results": results}
+    except Exception as e:
+        raise HTTPException(status_code=400, detail=f"prediction error: {e}")

requirements.txt CHANGED Viewed

	@@ -0,0 +1,6 @@

+fastapi>=0.115
+uvicorn>=0.30
+pydantic>=2.7
+numpy>=2.0.0
+sentence-transformers>=3.0.1
+torch>=2.3