cycloneboy
/

SLM-SQL-Base-0.5B

@@ -1,18 +1,18 @@
 ---
-pipeline_tag: text-generation
 library_name: transformers
 license: cc-by-nc-4.0
 tags:
 - text-to-sql
 - reinforcement-learning
 ---
 # SLM-SQL: An Exploration of Small Language Models for Text-to-SQL
 ### Important Links
 📖[Arxiv Paper](https://arxiv.org/abs/2507.22478) |
 🤗[HuggingFace](https://huggingface.co/collections/cycloneboy/slm-sql-688b02f99f958d7a417658dc) |
 🤖[ModelScope](https://modelscope.cn/collections/SLM-SQL-624bb6a60e9643) |
@@ -59,25 +59,65 @@ Performance Comparison of different Text-to-SQL methods on BIRD dev and test dat
 | **Model**                                | Base Model                   | Train Method | Modelscope                                                                                        | HuggingFace                                                                                  |
 |------------------------------------------|------------------------------|--------------|---------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------|
-| SLM-SQL-Base-0.5B                        | Qwen2.5-Coder-0.5B-Instruct  | SFT          | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-0.5B)                        | [🤗 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-0.5B)                        |
-| SLM-SQL-0.5B                             | Qwen2.5-Coder-0.5B-Instruct  | SFT + GRPO   | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-0.5B)                             | [🤗 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-0.5B)                             |
-| CscSQL-Merge-Qwen2.5-Coder-0.5B-Instruct | Qwen2.5-Coder-0.5B-Instruct  | SFT + GRPO   | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/CscSQL-Merge-Qwen2.5-Coder-0.5B-Instruct) | [🤗 HuggingFace](https://huggingface.co/cycloneboy/CscSQL-Merge-Qwen2.5-Coder-0.5B-Instruct) |
-| SLM-SQL-Base-1.5B                        | Qwen2.5-Coder-1.5B-Instruct  | SFT          | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-1.5B)                        | [🤗 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-1.5B)                        |
-| SLM-SQL-1.5B                             | Qwen2.5-Coder-1.5B-Instruct  | SFT + GRPO   | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-1.5B)                             | [🤗 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-1.5B)                             |
-| CscSQL-Merge-Qwen2.5-Coder-1.5B-Instruct | Qwen2.5-Coder-1.5B-Instruct  | SFT + GRPO   | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/CscSQL-Merge-Qwen2.5-Coder-1.5B-Instruct) | [🤗 HuggingFace](https://huggingface.co/cycloneboy/CscSQL-Merge-Qwen2.5-Coder-1.5B-Instruct) |
-| SLM-SQL-Base-0.6B                        | Qwen3-0.6B                   | SFT          | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-0.6B)                        | [🤗 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-0.6B)                        |
-| SLM-SQL-0.6B                             | Qwen3-0.6B                   | SFT + GRPO   | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-0.6B)                             | [🤗 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-0.6B)                             |
-| SLM-SQL-Base-1.3B                        | deepseek-coder-1.3b-instruct | SFT          | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-1.3B )                       | [🤗 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-1.3B )                       |
-| SLM-SQL-1.3B                             | deepseek-coder-1.3b-instruct | SFT + GRPO   | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-1.3B )                            | [🤗 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-1.3B )                            |
-| SLM-SQL-Base-1B                          | Llama-3.2-1B-Instruct        | SFT          | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-1B )                         | [🤗 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-1B )                         |
 ## Dataset
 | **Dataset**                | Modelscope                                                                         | HuggingFace                                                                          |
 |----------------------------|------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------|
-| SynsQL-Think-916k          | [🤖 Modelscope](https://modelscope.cn/datasets/cycloneboy/SynsQL-Think-916k)       | [🤗 HuggingFace](https://huggingface.co/datasets/cycloneboy/SynsQL-Think-916k)       |
-| SynsQL-Merge-Think-310k    | [🤖 Modelscope](https://modelscope.cn/datasets/cycloneboy/SynsQL-Merge-Think-310k) | [🤗 HuggingFace](https://huggingface.co/datasets/cycloneboy/SynsQL-Merge-Think-310k) |
-| bird train and dev dataset | [🤖 Modelscope](https://modelscope.cn/datasets/cycloneboy/bird_train)              | [🤗 HuggingFace](https://huggingface.co/datasets/cycloneboy/bird_train)              |
 ## TODO

 ---
 library_name: transformers
 license: cc-by-nc-4.0
+pipeline_tag: text-generation
 tags:
 - text-to-sql
 - reinforcement-learning
 ---
 # SLM-SQL: An Exploration of Small Language Models for Text-to-SQL
 ### Important Links
 📖[Arxiv Paper](https://arxiv.org/abs/2507.22478) |
+\ud83d\udcbb[GitHub Repository](https://github.com/CycloneBoy/slm_sql) |
 🤗[HuggingFace](https://huggingface.co/collections/cycloneboy/slm-sql-688b02f99f958d7a417658dc) |
 🤖[ModelScope](https://modelscope.cn/collections/SLM-SQL-624bb6a60e9643) |
 | **Model**                                | Base Model                   | Train Method | Modelscope                                                                                        | HuggingFace                                                                                  |
 |------------------------------------------|------------------------------|--------------|---------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------|
+| SLM-SQL-Base-0.5B                        | Qwen2.5-Coder-0.5B-Instruct  | SFT          | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-0.5B)                        | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-0.5B)                        |
+| SLM-SQL-0.5B                             | Qwen2.5-Coder-0.5B-Instruct  | SFT + GRPO   | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-0.5B)                             | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-0.5B)                             |
+| CscSQL-Merge-Qwen2.5-Coder-0.5B-Instruct | Qwen2.5-Coder-0.5B-Instruct  | SFT + GRPO   | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/CscSQL-Merge-Qwen2.5-Coder-0.5B-Instruct) | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/CscSQL-Merge-Qwen2.5-Coder-0.5B-Instruct) |
+| SLM-SQL-Base-1.5B                        | Qwen2.5-Coder-1.5B-Instruct  | SFT          | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-1.5B)                        | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-1.5B)                        |
+| SLM-SQL-1.5B                             | Qwen2.5-Coder-1.5B-Instruct  | SFT + GRPO   | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-1.5B)                             | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-1.5B)                             |
+| CscSQL-Merge-Qwen2.5-Coder-1.5B-Instruct | Qwen2.5-Coder-1.5B-Instruct  | SFT + GRPO   | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/CscSQL-Merge-Qwen2.5-Coder-1.5B-Instruct) | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/CscSQL-Merge-Qwen2.5-Coder-1.5B-Instruct) |
+| SLM-SQL-Base-0.6B                        | Qwen3-0.6B                   | SFT          | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-0.6B)                        | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-0.6B)                        |
+| SLM-SQL-0.6B                             | Qwen3-0.6B                   | SFT + GRPO   | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-0.6B)                             | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-0.6B)                             |
+| SLM-SQL-Base-1.3B                        | deepseek-coder-1.3b-instruct | SFT          | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-1.3B )                       | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-1.3B )                       |
+| SLM-SQL-1.3B                             | deepseek-coder-1.3b-instruct | SFT + GRPO   | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-1.3B )                            | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-1.3B )                            |
+| SLM-SQL-Base-1B                          | Llama-3.2-1B-Instruct        | SFT          | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-1B )                         | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-1B )                         |
 ## Dataset
 | **Dataset**                | Modelscope                                                                         | HuggingFace                                                                          |
 |----------------------------|------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------|
+| SynsQL-Think-916k          | [\ud83e\udd16 Modelscope](https://modelscope.cn/datasets/cycloneboy/SynsQL-Think-916k)       | [\ud83e\udd17 HuggingFace](https://huggingface.co/datasets/cycloneboy/SynsQL-Think-916k)       |
+| SynsQL-Merge-Think-310k    | [\ud83e\udd16 Modelscope](https://modelscope.cn/datasets/cycloneboy/SynsQL-Merge-Think-310k) | [\ud83e\udd17 HuggingFace](https://huggingface.co/datasets/cycloneboy/SynsQL-Merge-Think-310k) |
+| bird train and dev dataset | [\ud83e\udd16 Modelscope](https://modelscope.cn/datasets/cycloneboy/bird_train)              | [\ud83e\udd17 HuggingFace](https://huggingface.co/datasets/cycloneboy/bird_train)              |
+## Sample Usage
+You can easily load the model and tokenizer using the Hugging Face `transformers` library to perform text-to-SQL generation.
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer
+import torch
+# Replace with the specific model you want to use, e.g., "cycloneboy/SLM-SQL-0.5B"
+model_id = "cycloneboy/SLM-SQL-0.5B"
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+model = AutoModelForCausalLM.from_pretrained(
+    model_id,
+    torch_dtype=torch.bfloat16, # Adjust as needed (e.g., torch.float16 or remove for auto)
+    device_map="auto"
+)
+# Example natural language query for SQL generation
+query = "Find the names of all employees who work in the 'Sales' department."
+# Prepare the prompt using the model's chat template
+chat_messages = [{"role": "user", "content": query}]
+prompt = tokenizer.apply_chat_template(chat_messages, tokenize=False, add_generation_prompt=True)
+# Generate the SQL query
+model_inputs = tokenizer([prompt], return_tensors="pt").to(model.device)
+generated_ids = model.generate(
+    model_inputs.input_ids,
+    max_new_tokens=256,
+    do_sample=True,
+    temperature=0.7,
+    top_p=0.9
+)
+# Decode and print the generated SQL
+generated_text = tokenizer.batch_decode(generated_ids[:, model_inputs.input_ids.shape[1]:], skip_special_tokens=True)[0]
+print(generated_text)
+```
 ## TODO