Spaces:

xxmaranxx
/

clustering-test

Sleeping

App Files Files Community

xxmaranxx commited on Nov 6

Commit

b02461f

verified ·

1 Parent(s): 3d8f0ff

Update app.py

Browse files

Files changed (1) hide show

app.py +43 -20

app.py CHANGED Viewed

@@ -1,11 +1,15 @@
 import os, pickle, numpy as np
 from fastapi import FastAPI
 from sentence_transformers import SentenceTransformer
 from transformers import pipeline
 # ---- Performance flags ----
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
 try:
     import torch
     torch.set_num_threads(1)  # evita thrashing en CPU básica
@@ -13,12 +17,14 @@ except Exception:
     pass
 # ---- Carga artefactos una vez ----
-lw = pickle.load(open("predictor.pkl", "rb"))
 sbert = SentenceTransformer(lw["model_name"])
 centroides = {int(k): np.array(v, dtype=np.float32) for k, v in lw["centroides"].items()}
 for k, v in centroides.items():
-    centroides[k] = v / (np.linalg.norm(v) + 1e-12)
 cids = sorted(centroides.keys())
 meta = lw.get("meta", {})
@@ -30,38 +36,50 @@ sentiment = pipeline(
     device=-1
 )
-EMOTIONS = ["alegría","tristeza","ira","asco","miedo","sorpresa","neutral"]
 HYP = "El texto expresa {}."
-# Precompute embeddings de las emociones con tu mismo encoder (muy rápido)
 _emotion_texts = [HYP.format(e) for e in EMOTIONS]
-_emotion_embs = sbert.encode(_emotion_texts, convert_to_numpy=True, normalize_embeddings=True).astype(np.float32)
-app = FastAPI()
 def _encode(text: str) -> np.ndarray:
     emb = sbert.encode(text, convert_to_numpy=True, normalize_embeddings=True).astype(np.float32)
     return emb[None, :] if emb.ndim == 1 else emb
 def _assign(vec: np.ndarray) -> int:
     dists = [np.linalg.norm(vec - centroides[c]) for c in cids]
     return cids[int(np.argmin(dists))]
 def _truncate_for_classifier(text: str, max_chars: int = 1000) -> str:
-    # evita tokenizaciones eternas en CPU (≈256 tokens)
     return text if len(text) <= max_chars else text[:max_chars]
 def _fast_emotion(emb: np.ndarray) -> str:
-    # cos sim porque ya están normalizados
     sims = (_emotion_embs @ emb.reshape(-1, 1)).squeeze(-1)
     return EMOTIONS[int(np.argmax(sims))]
 @app.post("/predict")
-def predict(payload: dict):
-    item = payload.get("data", {})
-    subject = item.get("subject", "")
-    body = item.get("body", "")
-    text = f"{subject} — {body}"
     emb = _encode(text)[0]
     cid = _assign(emb)
@@ -72,13 +90,18 @@ def predict(payload: dict):
     # RÁPIDO: emoción por similitud con SBERT (sin segundo Transformer)
     e = _fast_emotion(emb)
-    m = meta.get(str(cid), meta.get(cid, {}))
     return {
-        "subject": subject,
-        "body": body,
         "cluster": cid,
-        "cluster_nombre": (m or {}).get("nombre"),
-        "cluster_desc": (m or {}).get("descripcion"),
         "sentimiento": s,
         "emocion": e
     }

+# app.py
+# -*- coding: utf-8 -*-
 import os, pickle, numpy as np
+from typing import Dict
 from fastapi import FastAPI
+from pydantic import BaseModel, Field
 from sentence_transformers import SentenceTransformer
 from transformers import pipeline
 # ---- Performance flags ----
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
 try:
     import torch
     torch.set_num_threads(1)  # evita thrashing en CPU básica
     pass
 # ---- Carga artefactos una vez ----
+lw: Dict = pickle.load(open("predictor.pkl", "rb"))
 sbert = SentenceTransformer(lw["model_name"])
+# centroides normalizados
 centroides = {int(k): np.array(v, dtype=np.float32) for k, v in lw["centroides"].items()}
 for k, v in centroides.items():
+    n = np.linalg.norm(v) + 1e-12
+    centroides[k] = (v / n).astype(np.float32)
 cids = sorted(centroides.keys())
 meta = lw.get("meta", {})
     device=-1
 )
+EMOTIONS = ["alegría", "tristeza", "ira", "asco", "miedo", "sorpresa", "neutral"]
 HYP = "El texto expresa {}."
+# Precompute embeddings de emociones con el mismo encoder (rápido)
 _emotion_texts = [HYP.format(e) for e in EMOTIONS]
+_emotion_embs = sbert.encode(
+    _emotion_texts, convert_to_numpy=True, normalize_embeddings=True
+).astype(np.float32)
+app = FastAPI(title="Predicción de clusters/sentimiento/emoción")
+# -------- Helpers --------
 def _encode(text: str) -> np.ndarray:
     emb = sbert.encode(text, convert_to_numpy=True, normalize_embeddings=True).astype(np.float32)
     return emb[None, :] if emb.ndim == 1 else emb
 def _assign(vec: np.ndarray) -> int:
+    # como están normalizados, L2 o cos son equivalentes (hasta constante)
     dists = [np.linalg.norm(vec - centroides[c]) for c in cids]
     return cids[int(np.argmin(dists))]
 def _truncate_for_classifier(text: str, max_chars: int = 1000) -> str:
     return text if len(text) <= max_chars else text[:max_chars]
 def _fast_emotion(emb: np.ndarray) -> str:
+    # cos sim (embs normalizados)
     sims = (_emotion_embs @ emb.reshape(-1, 1)).squeeze(-1)
     return EMOTIONS[int(np.argmax(sims))]
+# -------- Schema de entrada --------
+class Entrada(BaseModel):
+    # acepta "asunto" o "subject"
+    asunto: str = Field(default="", alias="subject")
+    # acepta "cuerpo" o "body"
+    cuerpo: str = Field(default="", alias="body")
+    class Config:
+        populate_by_name = True  # permite usar los nombres sin alias también
+# -------- Endpoint --------
 @app.post("/predict")
+def predict(item: Entrada):
+    subject = (item.asunto or "").strip()
+    body = (item.cuerpo or "").strip()
+    text = f"{subject} — {body}".strip(" —")
     emb = _encode(text)[0]
     cid = _assign(emb)
     # RÁPIDO: emoción por similitud con SBERT (sin segundo Transformer)
     e = _fast_emotion(emb)
+    m = meta.get(str(cid), meta.get(cid, {})) or {}
     return {
+        "asunto": subject,
+        "cuerpo": body,
         "cluster": cid,
+        "cluster_nombre": m.get("nombre"),
+        "cluster_desc": m.get("descripcion"),
         "sentimiento": s,
         "emocion": e
     }
+# -------- Entrypoint opcional --------
+if __name__ == "__main__":
+    import uvicorn
+    uvicorn.run("app:app", host="0.0.0.0", port=int(os.getenv("PORT", "8000")))