Spaces:

angelsg213
/

TESTING22

Sleeping

App Files Files Community

angelsg213 commited on 18 days ago

Commit

c142c28

verified ·

1 Parent(s): 4bbc0ce

Update app.py

Browse files

Files changed (1) hide show

app.py +118 -54

app.py CHANGED Viewed

@@ -1,79 +1,143 @@
-# ==========================================
-# 2. CONSULTA AL LLM (CORREGIDO)
-# ==========================================
-def consultar_llm(texto_factura):
-    # CORRECCIÓN 1: Asegúrate de que esto coincida con el nombre en tus Secrets
-    token = os.getenv("aa")
     if not token:
-        return {"error": "Falta configurar HF_TOKEN en Settings -> Secrets"}
-    texto_limpio = texto_factura[:6000]
-    # CORRECCIÓN 2: Usamos la URL estándar y la versión v0.2 que es más estable
-    API_URL = "https://api-inference.huggingface.co/models/mistralai/Mistral-7B-Instruct-v0.2"
     headers = {
         "Content-Type": "application/json",
         "Authorization": f"Bearer {token}"
     }
-    prompt = f"""
-    [INST] Eres un experto en extracción de datos. Tu tarea es convertir esta factura en JSON.
-    TEXTO DE LA FACTURA:
-    {texto_limpio}
-    INSTRUCCIONES:
-    1. Extrae: numero_factura, fecha, emisor, cliente, total.
-    2. Extrae la lista de items (descripcion, cantidad, precio).
-    3. Responde ÚNICAMENTE con el JSON válido. No saludes, no expliques.
-    FORMATO JSON ESPERADO:
-    {{
-        "numero_factura": "string",
-        "fecha": "DD/MM/YYYY",
-        "emisor": "string",
-        "cliente": "string",
-        "items": [
-            {{ "descripcion": "string", "cantidad": number, "total": number }}
-        ],
-        "total_factura": number
-    }}
-    [/INST]
-    """
     payload = {
         "inputs": prompt,
         "parameters": {
-            "max_new_tokens": 1500,
-            "temperature": 0.1,
             "return_full_text": False
         },
         "options": {
-            "wait_for_model": True  # Esperar si el modelo está cargando
         }
     }
     try:
-        response = requests.post(API_URL, headers=headers, json=payload)
         if response.status_code != 200:
-            return {"error": f"Error API ({response.status_code})", "detalle": response.text}
         resultado = response.json()
-        texto_generado = ""
         if isinstance(resultado, list) and len(resultado) > 0:
-            texto_generado = resultado[0].get('generated_text', '')
         elif isinstance(resultado, dict):
-            texto_generado = resultado.get('generated_text', '')
-        match = re.search(r'\{.*\}', texto_generado, re.DOTALL)
-        if match:
-            return json.loads(match.group(0))
-        else:
-            return {"error": "El modelo no generó un JSON válido", "respuesta_cruda": texto_generado}
-    except Exception as e:
-        return {"error": f"Error interno: {str(e)}"}

+import gradio as gr
+import PyPDF2
+import requests
+import os
+# ============= EXTRAER TEXTO DEL PDF =============
+def extraer_texto_pdf(pdf_file):
+    try:
+        pdf_reader = PyPDF2.PdfReader(pdf_file)
+        texto = ""
+        for pagina in pdf_reader.pages:
+            texto += pagina.extract_text() + "\n"
+        return texto
+    except Exception as e:
+        return f"Error: {str(e)}"
+# ============= ANALIZAR CON LLM =============
+def analizar_con_llm(texto):
+    """El LLM analiza la factura y devuelve un resumen en un párrafo"""
+    token = os.getenv("aa")
     if not token:
+        return "❌ Error: Falta configurar HF_TOKEN en Settings → Secrets"
+    # Limitar texto
+    texto_limpio = texto[:8000]
+    # Prompt simple
+    prompt = f"""Analiza esta factura y dame un resumen en UN SOLO PÁRRAFO con:
+- Número de factura
+- Fecha
+- Emisor y cliente
+- Productos/servicios
+- Total a pagar
+TEXTO DE LA FACTURA:
+{texto_limpio}
+Responde en un solo párrafo claro y conciso:"""
+    # Modelo LLM (el más potente gratis)
+    API_URL = "https://api-inference.huggingface.co/models/Qwen/Qwen2.5-72B-Instruct"
     headers = {
         "Content-Type": "application/json",
         "Authorization": f"Bearer {token}"
     }
     payload = {
         "inputs": prompt,
         "parameters": {
+            "max_new_tokens": 500,
+            "temperature": 0.3,
             "return_full_text": False
         },
         "options": {
+            "wait_for_model": True
         }
     }
     try:
+        response = requests.post(API_URL, headers=headers, json=payload, timeout=60)
+        if response.status_code == 503:
+            return "⏳ El modelo está cargando, intenta en 20 segundos..."
         if response.status_code != 200:
+            return f"❌ Error {response.status_code}: {response.text[:200]}"
         resultado = response.json()
+        # Extraer respuesta
         if isinstance(resultado, list) and len(resultado) > 0:
+            return resultado[0].get('generated_text', 'Sin respuesta')
         elif isinstance(resultado, dict):
+            return resultado.get('generated_text', 'Sin respuesta')
+        return "❌ No se pudo obtener respuesta del modelo"
+    except Exception as e:
+        return f"❌ Error: {str(e)}"
+# ============= FUNCIÓN PRINCIPAL =============
+def procesar_factura(pdf_file):
+    if pdf_file is None:
+        return "", "⚠️ Sube un PDF primero"
+    # Extraer texto
+    texto = extraer_texto_pdf(pdf_file)
+    if texto.startswith("Error"):
+        return "", f"❌ {texto}"
+    # Mostrar texto extraído
+    texto_preview = f"**Texto extraído ({len(texto)} caracteres):**\n\n{texto[:1000]}..."
+    # Analizar con LLM
+    analisis = analizar_con_llm(texto)
+    # Resultado final
+    resultado = f"""## 📄 Análisis de la Factura
+{analisis}
+---
+### 📝 Texto Original:
+{texto_preview}
+"""
+    return texto, resultado
+# ============= INTERFAZ GRADIO =============
+with gr.Blocks(title="Analizador de Facturas con IA") as demo:
+    gr.Markdown("""
+    # 🤖 Analizador de Facturas con IA
+    ### Sube un PDF y el LLM lo analizará en un párrafo
+    """)
+    with gr.Row():
+        with gr.Column():
+            pdf_input = gr.File(label="📎 Subir PDF de Factura", file_types=[".pdf"])
+            btn = gr.Button("🚀 Analizar", variant="primary", size="lg")
+        with gr.Column():
+            texto_salida = gr.Textbox(label="📝 Texto Extraído", lines=10, max_lines=15)
+            resultado = gr.Markdown(label="🤖 Análisis del LLM")
+    btn.click(
+        fn=procesar_factura,
+        inputs=[pdf_input],
+        outputs=[texto_salida, resultado]
+    )
+    gr.Markdown("""
+    ---
+    **Configuración necesaria:**
+    1. Ve a Settings → Secrets
+    2. Crea: `HF_TOKEN` = tu token de https://huggingface.co/settings/tokens
+    """)
+if __name__ == "__main__":
+    demo.launch()