Spaces:

beyoru
/

Simple-chatbot

Running

App Files Files Community

beyoru commited on Nov 9

Commit

85b6df3

verified ·

1 Parent(s): 3898b93

Create app.py

Browse files

Files changed (1) hide show

app.py +75 -0

app.py ADDED Viewed

	@@ -0,0 +1,75 @@

+import gradio as gr
+from transformers import AutoModelForCausalLM, AutoTokenizer
+import torch
+# --- Load model ---
+MODEL_NAME = "beyoru/Qwen3-0.9B-A0.6B"
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_NAME,
+    torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
+    device_map="auto"
+)
+# --- Chat function ---
+def chat_fn(message, history, num_ctx, temperature, repeat_penalty, min_p, top_k, top_p, presence_penalty):
+    if not message.strip():
+        return ""
+    # Tạo context chat từ lịch sử
+    conversation = ""
+    for turn in history:
+        role, content = turn["role"], turn["content"]
+        if role == "user":
+            conversation += f"User: {content}\n"
+        else:
+            conversation += f"Assistant: {content}\n"
+    conversation += f"User: {message}\nAssistant:"
+    inputs = tokenizer(conversation, return_tensors="pt", truncation=True, max_length=int(num_ctx)).to(model.device)
+    outputs = model.generate(
+        **inputs,
+        max_new_tokens=4096,
+        temperature=float(temperature),
+        top_p=float(top_p),
+        top_k=int(top_k),
+        repetition_penalty=float(repeat_penalty),
+        do_sample=True,
+        eos_token_id=tokenizer.eos_token_id
+    )
+    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    # Cắt phần trước "Assistant:" để chỉ lấy câu trả lời
+    if "Assistant:" in response:
+        response = response.split("Assistant:")[-1].strip()
+    return response
+# --- Giao diện Gradio ---
+with gr.Blocks(fill_height=True, fill_width=True) as app:
+    with gr.Sidebar():
+        gr.Markdown("## Qwen3 Playground (Transformers Edition)")
+        gr.Markdown("Model: **beyoru/Qwen3-0.9B-A0.6B** — chạy trực tiếp bằng Transformers")
+        num_ctx = gr.Slider(512, 8192, 8192, 128, label="Context Length (num_ctx)")
+        temperature = gr.Slider(0.1, 2.0, 0.6, 0.1, label="Temperature")
+        repeat_penalty = gr.Slider(0.1, 2.0, 1.0, 0.1, label="Repeat Penalty")
+        min_p = gr.Slider(0.0, 1.0, 0.0, 0.01, label="Min P")
+        top_k = gr.Slider(0, 100, 20, 1, label="Top K")
+        top_p = gr.Slider(0.0, 1.0, 0.95, 0.05, label="Top P")
+        presence_penalty = gr.Slider(0.0, 2.0, 1.5, 0.1, label="Presence Penalty")
+    gr.ChatInterface(
+        fn=chat_fn,
+        additional_inputs=[num_ctx, temperature, repeat_penalty, min_p, top_k, top_p, presence_penalty],
+        chatbot=gr.Chatbot(label="Transformers | Qwen3 (0.9B-A0.6B)", type="messages", show_copy_button=True),
+        examples=[
+            ["Introduce yourself."],
+            ["Explain quantum computers."],
+            ["Give a summary of World War II."]
+        ],
+        cache_examples=False,
+        show_api=False
+    )
+app.launch(server_name="0.0.0.0", pwa=True)