Spaces:

chenzihong
/

GraphGen

Running

App Files Files Community

github-actions[bot] commited on Sep 10

Commit

4b2a9c2

1 Parent(s): 2c0627c

Auto-sync from demo at Wed Sep 10 08:57:26 UTC 2025

Browse files

Files changed (8) hide show

app.py +76 -76
graphgen/configs/multi_hop_config.yaml +1 -1
graphgen/graphgen.py +5 -4
graphgen/operators/__init__.py +4 -4
graphgen/operators/traverse_graph.py +28 -18
webui/app.py +76 -76
webui/base.py +4 -1
webui/i18n.py +1 -0

app.py CHANGED Viewed

@@ -1,4 +1,3 @@
-# pylint: skip-file
 import json
 import os
 import sys
@@ -6,6 +5,7 @@ import tempfile
 import gradio as gr
 import pandas as pd
 from webui.base import GraphGenParams
 from webui.cache_utils import cleanup_workspace, setup_workspace
@@ -19,10 +19,12 @@ root_dir = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
 sys.path.append(root_dir)
 from graphgen.graphgen import GraphGen
-from graphgen.models import OpenAIModel, Tokenizer, TraverseStrategy
 from graphgen.models.llm.limitter import RPM, TPM
 from graphgen.utils import set_logger
 css = """
 .center-row {
     display: flex;
@@ -36,8 +38,8 @@ def init_graph_gen(config: dict, env: dict) -> GraphGen:
     # Set up working directory
     log_file, working_dir = setup_workspace(os.path.join(root_dir, "cache"))
-    set_logger(log_file, if_stream=False)
-    graph_gen = GraphGen(working_dir=working_dir)
     # Set up LLM clients
     graph_gen.synthesizer_llm_client = OpenAIModel(
@@ -60,19 +62,6 @@ def init_graph_gen(config: dict, env: dict) -> GraphGen:
     graph_gen.tokenizer_instance = Tokenizer(config.get("tokenizer", "cl100k_base"))
-    strategy_config = config.get("traverse_strategy", {})
-    graph_gen.traverse_strategy = TraverseStrategy(
-        qa_form=strategy_config.get("qa_form"),
-        expand_method=strategy_config.get("expand_method"),
-        bidirectional=strategy_config.get("bidirectional"),
-        max_extra_edges=strategy_config.get("max_extra_edges"),
-        max_tokens=strategy_config.get("max_tokens"),
-        max_depth=strategy_config.get("max_depth"),
-        edge_sampling=strategy_config.get("edge_sampling"),
-        isolated_node_strategy=strategy_config.get("isolated_node_strategy"),
-        loss_strategy=str(strategy_config.get("loss_strategy")),
-    )
     return graph_gen
@@ -84,10 +73,15 @@ def run_graphgen(params, progress=gr.Progress()):
     config = {
         "if_trainee_model": params.if_trainee_model,
         "input_file": params.input_file,
         "tokenizer": params.tokenizer,
-        "quiz_samples": params.quiz_samples,
         "traverse_strategy": {
-            "qa_form": params.qa_form,
             "bidirectional": params.bidirectional,
             "expand_method": params.expand_method,
             "max_extra_edges": params.max_extra_edges,
@@ -122,6 +116,35 @@ def run_graphgen(params, progress=gr.Progress()):
             env["TRAINEE_BASE_URL"], env["TRAINEE_API_KEY"], env["TRAINEE_MODEL"]
         )
     # Initialize GraphGen
     graph_gen = init_graph_gen(config, env)
     graph_gen.clear()
@@ -129,51 +152,20 @@ def run_graphgen(params, progress=gr.Progress()):
     graph_gen.progress_bar = progress
     try:
-        # Load input data
-        file = config["input_file"]
-        if isinstance(file, list):
-            file = file[0]
-        data = []
-        if file.endswith(".jsonl"):
-            data_type = "raw"
-            with open(file, "r", encoding="utf-8") as f:
-                data.extend(json.loads(line) for line in f)
-        elif file.endswith(".json"):
-            data_type = "chunked"
-            with open(file, "r", encoding="utf-8") as f:
-                data.extend(json.load(f))
-        elif file.endswith(".txt"):
-            # 读取文件后根据chunk_size转成raw格式的数据
-            data_type = "raw"
-            content = ""
-            with open(file, "r", encoding="utf-8") as f:
-                lines = f.readlines()
-                for line in lines:
-                    content += line.strip() + " "
-            size = int(config.get("chunk_size", 512))
-            chunks = [content[i : i + size] for i in range(0, len(content), size)]
-            data.extend([{"content": chunk} for chunk in chunks])
-        else:
-            raise ValueError(f"Unsupported file type: {file}")
         # Process the data
-        graph_gen.insert(data, data_type)
         if config["if_trainee_model"]:
             # Generate quiz
-            graph_gen.quiz(max_samples=config["quiz_samples"])
             # Judge statements
             graph_gen.judge()
         else:
             graph_gen.traverse_strategy.edge_sampling = "random"
-            # Skip judge statements
-            graph_gen.judge(skip=True)
         # Traverse graph
-        graph_gen.traverse(traverse_strategy=graph_gen.traverse_strategy)
         # Save output
         output_data = graph_gen.qa_storage.data
@@ -328,12 +320,18 @@ with gr.Blocks(title="GraphGen Demo", theme=gr.themes.Glass(), css=css) as demo:
             tokenizer = gr.Textbox(
                 label="Tokenizer", value="cl100k_base", interactive=True
             )
-            qa_form = gr.Radio(
                 choices=["atomic", "multi_hop", "aggregated"],
-                label="QA Form",
                 value="aggregated",
                 interactive=True,
             )
             quiz_samples = gr.Number(
                 label="Quiz Samples",
                 value=2,
@@ -533,33 +531,35 @@ with gr.Blocks(title="GraphGen Demo", theme=gr.themes.Glass(), css=css) as demo:
                     if_trainee_model=args[0],
                     input_file=args[1],
                     tokenizer=args[2],
-                    qa_form=args[3],
-                    bidirectional=args[4],
-                    expand_method=args[5],
-                    max_extra_edges=args[6],
-                    max_tokens=args[7],
-                    max_depth=args[8],
-                    edge_sampling=args[9],
-                    isolated_node_strategy=args[10],
-                    loss_strategy=args[11],
-                    synthesizer_url=args[12],
-                    synthesizer_model=args[13],
-                    trainee_model=args[14],
-                    api_key=args[15],
-                    chunk_size=args[16],
-                    rpm=args[17],
-                    tpm=args[18],
-                    quiz_samples=args[19],
-                    trainee_url=args[20],
-                    trainee_api_key=args[21],
-                    token_counter=args[22],
                 )
             ),
             inputs=[
                 if_trainee_model,
                 upload_file,
                 tokenizer,
-                qa_form,
                 bidirectional,
                 expand_method,
                 max_extra_edges,

 import json
 import os
 import sys
 import gradio as gr
 import pandas as pd
+from dotenv import load_dotenv
 from webui.base import GraphGenParams
 from webui.cache_utils import cleanup_workspace, setup_workspace
 sys.path.append(root_dir)
 from graphgen.graphgen import GraphGen
+from graphgen.models import OpenAIModel, Tokenizer
 from graphgen.models.llm.limitter import RPM, TPM
 from graphgen.utils import set_logger
+load_dotenv()
 css = """
 .center-row {
     display: flex;
     # Set up working directory
     log_file, working_dir = setup_workspace(os.path.join(root_dir, "cache"))
+    set_logger(log_file, if_stream=True)
+    graph_gen = GraphGen(working_dir=working_dir, config=config)
     # Set up LLM clients
     graph_gen.synthesizer_llm_client = OpenAIModel(
     graph_gen.tokenizer_instance = Tokenizer(config.get("tokenizer", "cl100k_base"))
     return graph_gen
     config = {
         "if_trainee_model": params.if_trainee_model,
         "input_file": params.input_file,
+        "output_data_type": params.output_data_type,
+        "output_data_format": params.output_data_format,
         "tokenizer": params.tokenizer,
+        "search": {"enabled": False},
+        "quiz_and_judge_strategy": {
+            "enabled": params.if_trainee_model,
+            "quiz_samples": params.quiz_samples,
+        },
         "traverse_strategy": {
             "bidirectional": params.bidirectional,
             "expand_method": params.expand_method,
             "max_extra_edges": params.max_extra_edges,
             env["TRAINEE_BASE_URL"], env["TRAINEE_API_KEY"], env["TRAINEE_MODEL"]
         )
+    # Load input data
+    file = config["input_file"]
+    if isinstance(file, list):
+        file = file[0]
+    data = []
+    if file.endswith(".jsonl"):
+        config["input_data_type"] = "raw"
+        with open(file, "r", encoding="utf-8") as f:
+            data.extend(json.loads(line) for line in f)
+    elif file.endswith(".json"):
+        config["input_data_type"] = "chunked"
+        with open(file, "r", encoding="utf-8") as f:
+            data.extend(json.load(f))
+    elif file.endswith(".txt"):
+        # 读取文件后根据chunk_size转成raw格式的数据
+        config["input_data_type"] = "raw"
+        content = ""
+        with open(file, "r", encoding="utf-8") as f:
+            lines = f.readlines()
+            for line in lines:
+                content += line.strip() + " "
+        size = int(config.get("chunk_size", 512))
+        chunks = [content[i : i + size] for i in range(0, len(content), size)]
+        data.extend([{"content": chunk} for chunk in chunks])
+    else:
+        raise ValueError(f"Unsupported file type: {file}")
     # Initialize GraphGen
     graph_gen = init_graph_gen(config, env)
     graph_gen.clear()
     graph_gen.progress_bar = progress
     try:
         # Process the data
+        graph_gen.insert()
         if config["if_trainee_model"]:
             # Generate quiz
+            graph_gen.quiz()
             # Judge statements
             graph_gen.judge()
         else:
             graph_gen.traverse_strategy.edge_sampling = "random"
         # Traverse graph
+        graph_gen.traverse()
         # Save output
         output_data = graph_gen.qa_storage.data
             tokenizer = gr.Textbox(
                 label="Tokenizer", value="cl100k_base", interactive=True
             )
+            output_data_type = gr.Radio(
                 choices=["atomic", "multi_hop", "aggregated"],
+                label="Output Data Type",
                 value="aggregated",
                 interactive=True,
             )
+            output_data_format = gr.Radio(
+                choices=["Alpaca", "Sharegpt", "ChatML"],
+                label="Output Data Format",
+                value="Alpaca",
+                interactive=True,
+            )
             quiz_samples = gr.Number(
                 label="Quiz Samples",
                 value=2,
                     if_trainee_model=args[0],
                     input_file=args[1],
                     tokenizer=args[2],
+                    output_data_type=args[3],
+                    output_data_format=args[4],
+                    bidirectional=args[5],
+                    expand_method=args[6],
+                    max_extra_edges=args[7],
+                    max_tokens=args[8],
+                    max_depth=args[9],
+                    edge_sampling=args[10],
+                    isolated_node_strategy=args[11],
+                    loss_strategy=args[12],
+                    synthesizer_url=args[13],
+                    synthesizer_model=args[14],
+                    trainee_model=args[15],
+                    api_key=args[16],
+                    chunk_size=args[17],
+                    rpm=args[18],
+                    tpm=args[19],
+                    quiz_samples=args[20],
+                    trainee_url=args[21],
+                    trainee_api_key=args[22],
+                    token_counter=args[23],
                 )
             ),
             inputs=[
                 if_trainee_model,
                 upload_file,
                 tokenizer,
+                output_data_type,
+                output_data_format,
                 bidirectional,
                 expand_method,
                 max_extra_edges,

graphgen/configs/multi_hop_config.yaml CHANGED Viewed

@@ -7,7 +7,7 @@ search: # web search configuration
   enabled: false # whether to enable web search
   search_types: ["google"] # search engine types, support: google, bing, uniprot, wikipedia
 quiz_and_judge_strategy: # quiz and test whether the LLM masters the knowledge points
-  enabled: true
   quiz_samples: 2 # number of quiz samples to generate
   re_judge: false # whether to re-judge the existing quiz samples
 traverse_strategy: # strategy for clustering sub-graphs using comprehension loss

   enabled: false # whether to enable web search
   search_types: ["google"] # search engine types, support: google, bing, uniprot, wikipedia
 quiz_and_judge_strategy: # quiz and test whether the LLM masters the knowledge points
+  enabled: false
   quiz_samples: 2 # number of quiz samples to generate
   re_judge: false # whether to re-judge the existing quiz samples
 traverse_strategy: # strategy for clustering sub-graphs using comprehension loss

graphgen/graphgen.py CHANGED Viewed

@@ -23,8 +23,8 @@ from .operators import (
     judge_statement,
     quiz,
     search_all,
-    traverse_graph_atomically,
-    traverse_graph_by_edge,
     traverse_graph_for_multi_hop,
 )
 from .utils import (
@@ -69,6 +69,7 @@ class GraphGen:
         self.tokenizer_instance: Tokenizer = Tokenizer(
             model_name=self.config["tokenizer"]
         )
         self.synthesizer_llm_client: OpenAIModel = OpenAIModel(
             model_name=os.getenv("SYNTHESIZER_MODEL"),
             api_key=os.getenv("SYNTHESIZER_API_KEY"),
@@ -326,7 +327,7 @@ class GraphGen:
         output_data_type = self.config["output_data_type"]
         if output_data_type == "atomic":
-            results = await traverse_graph_atomically(
                 self.synthesizer_llm_client,
                 self.tokenizer_instance,
                 self.graph_storage,
@@ -344,7 +345,7 @@ class GraphGen:
                 self.progress_bar,
             )
         elif output_data_type == "aggregated":
-            results = await traverse_graph_by_edge(
                 self.synthesizer_llm_client,
                 self.tokenizer_instance,
                 self.graph_storage,

     judge_statement,
     quiz,
     search_all,
+    traverse_graph_for_aggregated,
+    traverse_graph_for_atomic,
     traverse_graph_for_multi_hop,
 )
 from .utils import (
         self.tokenizer_instance: Tokenizer = Tokenizer(
             model_name=self.config["tokenizer"]
         )
+        print(os.getenv("SYNTHESIZER_MODEL"), os.getenv("SYNTHESIZER_API_KEY"))
         self.synthesizer_llm_client: OpenAIModel = OpenAIModel(
             model_name=os.getenv("SYNTHESIZER_MODEL"),
             api_key=os.getenv("SYNTHESIZER_API_KEY"),
         output_data_type = self.config["output_data_type"]
         if output_data_type == "atomic":
+            results = await traverse_graph_for_atomic(
                 self.synthesizer_llm_client,
                 self.tokenizer_instance,
                 self.graph_storage,
                 self.progress_bar,
             )
         elif output_data_type == "aggregated":
+            results = await traverse_graph_for_aggregated(
                 self.synthesizer_llm_client,
                 self.tokenizer_instance,
                 self.graph_storage,

graphgen/operators/__init__.py CHANGED Viewed

@@ -5,8 +5,8 @@ from graphgen.operators.search.search_all import search_all
 from .judge import judge_statement
 from .quiz import quiz
 from .traverse_graph import (
-    traverse_graph_atomically,
-    traverse_graph_by_edge,
     traverse_graph_for_multi_hop,
 )
@@ -15,8 +15,8 @@ __all__ = [
     "quiz",
     "judge_statement",
     "search_all",
-    "traverse_graph_by_edge",
-    "traverse_graph_atomically",
     "traverse_graph_for_multi_hop",
     "generate_cot",
 ]

 from .judge import judge_statement
 from .quiz import quiz
 from .traverse_graph import (
+    traverse_graph_for_aggregated,
+    traverse_graph_for_atomic,
     traverse_graph_for_multi_hop,
 )
     "quiz",
     "judge_statement",
     "search_all",
+    "traverse_graph_for_aggregated",
+    "traverse_graph_for_atomic",
     "traverse_graph_for_multi_hop",
     "generate_cot",
 ]

graphgen/operators/traverse_graph.py CHANGED Viewed

@@ -135,7 +135,9 @@ def get_average_loss(batch: tuple, loss_strategy: str) -> float:
             ) / (len(batch[0]) + len(batch[1]))
         raise ValueError("Invalid loss strategy")
     except Exception as e:  # pylint: disable=broad-except
-        logger.error("Error calculating average loss: %s", e)
         return -1.0
@@ -158,7 +160,7 @@ def _post_process_synthetic_data(data):
     return qas
-async def traverse_graph_by_edge(
     llm_client: OpenAIModel,
     tokenizer: Tokenizer,
     graph_storage: NetworkXStorage,
@@ -251,7 +253,6 @@ async def traverse_graph_by_edge(
             qas = _post_process_synthetic_data(content)
             if len(qas) == 0:
-                print(content)
                 logger.error(
                     "Error occurred while processing batch, question or answer is None"
                 )
@@ -307,7 +308,8 @@ async def traverse_graph_by_edge(
     return results
-async def traverse_graph_atomically(
     llm_client: OpenAIModel,
     tokenizer: Tokenizer,
     graph_storage: NetworkXStorage,
@@ -328,17 +330,28 @@ async def traverse_graph_atomically(
     :param max_concurrent
     :return: question and answer
     """
-    assert traverse_strategy.qa_form == "atomic"
     semaphore = asyncio.Semaphore(max_concurrent)
     async def _generate_question(node_or_edge: tuple):
         if len(node_or_edge) == 2:
             des = node_or_edge[0] + ": " + node_or_edge[1]["description"]
-            loss = node_or_edge[1]["loss"]
         else:
             des = node_or_edge[2]["description"]
-            loss = node_or_edge[2]["loss"]
         async with semaphore:
             try:
@@ -350,13 +363,8 @@ async def traverse_graph_atomically(
                     )
                 )
-                if "Question:" in qa and "Answer:" in qa:
-                    question = qa.split("Question:")[1].split("Answer:")[0].strip()
-                    answer = qa.split("Answer:")[1].strip()
-                elif "问题：" in qa and "答案：" in qa:
-                    question = qa.split("问题：")[1].split("答案：")[0].strip()
-                    answer = qa.split("答案：")[1].strip()
-                else:
                     return {}
                 question = question.strip('"')
@@ -386,16 +394,18 @@ async def traverse_graph_atomically(
         if "<SEP>" in node[1]["description"]:
             description_list = node[1]["description"].split("<SEP>")
             for item in description_list:
-                tasks.append((node[0], {"description": item, "loss": node[1]["loss"]}))
         else:
             tasks.append((node[0], node[1]))
     for edge in edges:
         if "<SEP>" in edge[2]["description"]:
             description_list = edge[2]["description"].split("<SEP>")
             for item in description_list:
-                tasks.append(
-                    (edge[0], edge[1], {"description": item, "loss": edge[2]["loss"]})
-                )
         else:
             tasks.append((edge[0], edge[1], edge[2]))

             ) / (len(batch[0]) + len(batch[1]))
         raise ValueError("Invalid loss strategy")
     except Exception as e:  # pylint: disable=broad-except
+        logger.warning(
+            "Loss not found in some nodes or edges, setting loss to -1.0: %s", e
+        )
         return -1.0
     return qas
+async def traverse_graph_for_aggregated(
     llm_client: OpenAIModel,
     tokenizer: Tokenizer,
     graph_storage: NetworkXStorage,
             qas = _post_process_synthetic_data(content)
             if len(qas) == 0:
                 logger.error(
                     "Error occurred while processing batch, question or answer is None"
                 )
     return results
+# pylint: disable=too-many-branches, too-many-statements
+async def traverse_graph_for_atomic(
     llm_client: OpenAIModel,
     tokenizer: Tokenizer,
     graph_storage: NetworkXStorage,
     :param max_concurrent
     :return: question and answer
     """
+    assert traverse_strategy.qa_form == "atomic"
     semaphore = asyncio.Semaphore(max_concurrent)
+    def _parse_qa(qa: str) -> tuple:
+        if "Question:" in qa and "Answer:" in qa:
+            question = qa.split("Question:")[1].split("Answer:")[0].strip()
+            answer = qa.split("Answer:")[1].strip()
+        elif "问题：" in qa and "答案：" in qa:
+            question = qa.split("问题：")[1].split("答案：")[0].strip()
+            answer = qa.split("答案：")[1].strip()
+        else:
+            return None, None
+        return question.strip('"'), answer.strip('"')
     async def _generate_question(node_or_edge: tuple):
         if len(node_or_edge) == 2:
             des = node_or_edge[0] + ": " + node_or_edge[1]["description"]
+            loss = node_or_edge[1]["loss"] if "loss" in node_or_edge[1] else -1.0
         else:
             des = node_or_edge[2]["description"]
+            loss = node_or_edge[2]["loss"] if "loss" in node_or_edge[2] else -1.0
         async with semaphore:
             try:
                     )
                 )
+                question, answer = _parse_qa(qa)
+                if question is None or answer is None:
                     return {}
                 question = question.strip('"')
         if "<SEP>" in node[1]["description"]:
             description_list = node[1]["description"].split("<SEP>")
             for item in description_list:
+                tasks.append((node[0], {"description": item}))
+                if "loss" in node[1]:
+                    tasks[-1][1]["loss"] = node[1]["loss"]
         else:
             tasks.append((node[0], node[1]))
     for edge in edges:
         if "<SEP>" in edge[2]["description"]:
             description_list = edge[2]["description"].split("<SEP>")
             for item in description_list:
+                tasks.append((edge[0], edge[1], {"description": item}))
+                if "loss" in edge[2]:
+                    tasks[-1][2]["loss"] = edge[2]["loss"]
         else:
             tasks.append((edge[0], edge[1], edge[2]))

webui/app.py CHANGED Viewed

@@ -1,4 +1,3 @@
-# pylint: skip-file
 import json
 import os
 import sys
@@ -6,6 +5,7 @@ import tempfile
 import gradio as gr
 import pandas as pd
 from webui.base import GraphGenParams
 from webui.cache_utils import cleanup_workspace, setup_workspace
@@ -19,10 +19,12 @@ root_dir = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
 sys.path.append(root_dir)
 from graphgen.graphgen import GraphGen
-from graphgen.models import OpenAIModel, Tokenizer, TraverseStrategy
 from graphgen.models.llm.limitter import RPM, TPM
 from graphgen.utils import set_logger
 css = """
 .center-row {
     display: flex;
@@ -36,8 +38,8 @@ def init_graph_gen(config: dict, env: dict) -> GraphGen:
     # Set up working directory
     log_file, working_dir = setup_workspace(os.path.join(root_dir, "cache"))
-    set_logger(log_file, if_stream=False)
-    graph_gen = GraphGen(working_dir=working_dir)
     # Set up LLM clients
     graph_gen.synthesizer_llm_client = OpenAIModel(
@@ -60,19 +62,6 @@ def init_graph_gen(config: dict, env: dict) -> GraphGen:
     graph_gen.tokenizer_instance = Tokenizer(config.get("tokenizer", "cl100k_base"))
-    strategy_config = config.get("traverse_strategy", {})
-    graph_gen.traverse_strategy = TraverseStrategy(
-        qa_form=strategy_config.get("qa_form"),
-        expand_method=strategy_config.get("expand_method"),
-        bidirectional=strategy_config.get("bidirectional"),
-        max_extra_edges=strategy_config.get("max_extra_edges"),
-        max_tokens=strategy_config.get("max_tokens"),
-        max_depth=strategy_config.get("max_depth"),
-        edge_sampling=strategy_config.get("edge_sampling"),
-        isolated_node_strategy=strategy_config.get("isolated_node_strategy"),
-        loss_strategy=str(strategy_config.get("loss_strategy")),
-    )
     return graph_gen
@@ -84,10 +73,15 @@ def run_graphgen(params, progress=gr.Progress()):
     config = {
         "if_trainee_model": params.if_trainee_model,
         "input_file": params.input_file,
         "tokenizer": params.tokenizer,
-        "quiz_samples": params.quiz_samples,
         "traverse_strategy": {
-            "qa_form": params.qa_form,
             "bidirectional": params.bidirectional,
             "expand_method": params.expand_method,
             "max_extra_edges": params.max_extra_edges,
@@ -122,6 +116,35 @@ def run_graphgen(params, progress=gr.Progress()):
             env["TRAINEE_BASE_URL"], env["TRAINEE_API_KEY"], env["TRAINEE_MODEL"]
         )
     # Initialize GraphGen
     graph_gen = init_graph_gen(config, env)
     graph_gen.clear()
@@ -129,51 +152,20 @@ def run_graphgen(params, progress=gr.Progress()):
     graph_gen.progress_bar = progress
     try:
-        # Load input data
-        file = config["input_file"]
-        if isinstance(file, list):
-            file = file[0]
-        data = []
-        if file.endswith(".jsonl"):
-            data_type = "raw"
-            with open(file, "r", encoding="utf-8") as f:
-                data.extend(json.loads(line) for line in f)
-        elif file.endswith(".json"):
-            data_type = "chunked"
-            with open(file, "r", encoding="utf-8") as f:
-                data.extend(json.load(f))
-        elif file.endswith(".txt"):
-            # 读取文件后根据chunk_size转成raw格式的数据
-            data_type = "raw"
-            content = ""
-            with open(file, "r", encoding="utf-8") as f:
-                lines = f.readlines()
-                for line in lines:
-                    content += line.strip() + " "
-            size = int(config.get("chunk_size", 512))
-            chunks = [content[i : i + size] for i in range(0, len(content), size)]
-            data.extend([{"content": chunk} for chunk in chunks])
-        else:
-            raise ValueError(f"Unsupported file type: {file}")
         # Process the data
-        graph_gen.insert(data, data_type)
         if config["if_trainee_model"]:
             # Generate quiz
-            graph_gen.quiz(max_samples=config["quiz_samples"])
             # Judge statements
             graph_gen.judge()
         else:
             graph_gen.traverse_strategy.edge_sampling = "random"
-            # Skip judge statements
-            graph_gen.judge(skip=True)
         # Traverse graph
-        graph_gen.traverse(traverse_strategy=graph_gen.traverse_strategy)
         # Save output
         output_data = graph_gen.qa_storage.data
@@ -328,12 +320,18 @@ with gr.Blocks(title="GraphGen Demo", theme=gr.themes.Glass(), css=css) as demo:
             tokenizer = gr.Textbox(
                 label="Tokenizer", value="cl100k_base", interactive=True
             )
-            qa_form = gr.Radio(
                 choices=["atomic", "multi_hop", "aggregated"],
-                label="QA Form",
                 value="aggregated",
                 interactive=True,
             )
             quiz_samples = gr.Number(
                 label="Quiz Samples",
                 value=2,
@@ -533,33 +531,35 @@ with gr.Blocks(title="GraphGen Demo", theme=gr.themes.Glass(), css=css) as demo:
                     if_trainee_model=args[0],
                     input_file=args[1],
                     tokenizer=args[2],
-                    qa_form=args[3],
-                    bidirectional=args[4],
-                    expand_method=args[5],
-                    max_extra_edges=args[6],
-                    max_tokens=args[7],
-                    max_depth=args[8],
-                    edge_sampling=args[9],
-                    isolated_node_strategy=args[10],
-                    loss_strategy=args[11],
-                    synthesizer_url=args[12],
-                    synthesizer_model=args[13],
-                    trainee_model=args[14],
-                    api_key=args[15],
-                    chunk_size=args[16],
-                    rpm=args[17],
-                    tpm=args[18],
-                    quiz_samples=args[19],
-                    trainee_url=args[20],
-                    trainee_api_key=args[21],
-                    token_counter=args[22],
                 )
             ),
             inputs=[
                 if_trainee_model,
                 upload_file,
                 tokenizer,
-                qa_form,
                 bidirectional,
                 expand_method,
                 max_extra_edges,

 import json
 import os
 import sys
 import gradio as gr
 import pandas as pd
+from dotenv import load_dotenv
 from webui.base import GraphGenParams
 from webui.cache_utils import cleanup_workspace, setup_workspace
 sys.path.append(root_dir)
 from graphgen.graphgen import GraphGen
+from graphgen.models import OpenAIModel, Tokenizer
 from graphgen.models.llm.limitter import RPM, TPM
 from graphgen.utils import set_logger
+load_dotenv()
 css = """
 .center-row {
     display: flex;
     # Set up working directory
     log_file, working_dir = setup_workspace(os.path.join(root_dir, "cache"))
+    set_logger(log_file, if_stream=True)
+    graph_gen = GraphGen(working_dir=working_dir, config=config)
     # Set up LLM clients
     graph_gen.synthesizer_llm_client = OpenAIModel(
     graph_gen.tokenizer_instance = Tokenizer(config.get("tokenizer", "cl100k_base"))
     return graph_gen
     config = {
         "if_trainee_model": params.if_trainee_model,
         "input_file": params.input_file,
+        "output_data_type": params.output_data_type,
+        "output_data_format": params.output_data_format,
         "tokenizer": params.tokenizer,
+        "search": {"enabled": False},
+        "quiz_and_judge_strategy": {
+            "enabled": params.if_trainee_model,
+            "quiz_samples": params.quiz_samples,
+        },
         "traverse_strategy": {
             "bidirectional": params.bidirectional,
             "expand_method": params.expand_method,
             "max_extra_edges": params.max_extra_edges,
             env["TRAINEE_BASE_URL"], env["TRAINEE_API_KEY"], env["TRAINEE_MODEL"]
         )
+    # Load input data
+    file = config["input_file"]
+    if isinstance(file, list):
+        file = file[0]
+    data = []
+    if file.endswith(".jsonl"):
+        config["input_data_type"] = "raw"
+        with open(file, "r", encoding="utf-8") as f:
+            data.extend(json.loads(line) for line in f)
+    elif file.endswith(".json"):
+        config["input_data_type"] = "chunked"
+        with open(file, "r", encoding="utf-8") as f:
+            data.extend(json.load(f))
+    elif file.endswith(".txt"):
+        # 读取文件后根据chunk_size转成raw格式的数据
+        config["input_data_type"] = "raw"
+        content = ""
+        with open(file, "r", encoding="utf-8") as f:
+            lines = f.readlines()
+            for line in lines:
+                content += line.strip() + " "
+        size = int(config.get("chunk_size", 512))
+        chunks = [content[i : i + size] for i in range(0, len(content), size)]
+        data.extend([{"content": chunk} for chunk in chunks])
+    else:
+        raise ValueError(f"Unsupported file type: {file}")
     # Initialize GraphGen
     graph_gen = init_graph_gen(config, env)
     graph_gen.clear()
     graph_gen.progress_bar = progress
     try:
         # Process the data
+        graph_gen.insert()
         if config["if_trainee_model"]:
             # Generate quiz
+            graph_gen.quiz()
             # Judge statements
             graph_gen.judge()
         else:
             graph_gen.traverse_strategy.edge_sampling = "random"
         # Traverse graph
+        graph_gen.traverse()
         # Save output
         output_data = graph_gen.qa_storage.data
             tokenizer = gr.Textbox(
                 label="Tokenizer", value="cl100k_base", interactive=True
             )
+            output_data_type = gr.Radio(
                 choices=["atomic", "multi_hop", "aggregated"],
+                label="Output Data Type",
                 value="aggregated",
                 interactive=True,
             )
+            output_data_format = gr.Radio(
+                choices=["Alpaca", "Sharegpt", "ChatML"],
+                label="Output Data Format",
+                value="Alpaca",
+                interactive=True,
+            )
             quiz_samples = gr.Number(
                 label="Quiz Samples",
                 value=2,
                     if_trainee_model=args[0],
                     input_file=args[1],
                     tokenizer=args[2],
+                    output_data_type=args[3],
+                    output_data_format=args[4],
+                    bidirectional=args[5],
+                    expand_method=args[6],
+                    max_extra_edges=args[7],
+                    max_tokens=args[8],
+                    max_depth=args[9],
+                    edge_sampling=args[10],
+                    isolated_node_strategy=args[11],
+                    loss_strategy=args[12],
+                    synthesizer_url=args[13],
+                    synthesizer_model=args[14],
+                    trainee_model=args[15],
+                    api_key=args[16],
+                    chunk_size=args[17],
+                    rpm=args[18],
+                    tpm=args[19],
+                    quiz_samples=args[20],
+                    trainee_url=args[21],
+                    trainee_api_key=args[22],
+                    token_counter=args[23],
                 )
             ),
             inputs=[
                 if_trainee_model,
                 upload_file,
                 tokenizer,
+                output_data_type,
+                output_data_format,
                 bidirectional,
                 expand_method,
                 max_extra_edges,

webui/base.py CHANGED Viewed

@@ -1,15 +1,18 @@
 from dataclasses import dataclass
 from typing import Any
 @dataclass
 class GraphGenParams:
     """
     GraphGen parameters
     """
     if_trainee_model: bool
     input_file: str
     tokenizer: str
-    qa_form: str
     bidirectional: bool
     expand_method: str
     max_extra_edges: int

 from dataclasses import dataclass
 from typing import Any
 @dataclass
 class GraphGenParams:
     """
     GraphGen parameters
     """
     if_trainee_model: bool
     input_file: str
     tokenizer: str
+    output_data_type: str
+    output_data_format: str
     bidirectional: bool
     expand_method: str
     max_extra_edges: int

webui/i18n.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import functools
 import inspect
 import json

+# pylint: skip-file
 import functools
 import inspect
 import json