Spaces:

algorithmicsuperintelligence
/

prompt-optimizer

Running

App Files Files Community

codelion commited on 30 days ago

Commit

2792008

verified ·

1 Parent(s): a6a987d

Upload app.py

Browse files

Files changed (1) hide show

app.py +12 -12

app.py CHANGED Viewed

@@ -494,7 +494,7 @@ def parse_evolution_history(output_dir: str) -> str:
 def create_evaluator_file(dataset_name: str, split: str, model: str,
                          input_field: str, target_field: str, work_dir: str):
-    """Create an evaluator.py file for OpenEvolve that uses fixed 200 samples."""
     evaluator_code = f'''
 import os
 import random
@@ -503,10 +503,10 @@ from openai import OpenAI
 def evaluate(prompt: str) -> dict:
     """
-    Evaluate a prompt using 50 fixed samples (same as initial/final eval).
-    This ensures evolution optimizes for the SAME test set we measure on.
-    No staging - always evaluates all 50 samples for consistency.
     """
     try:
         # IMPORTANT: Use fixed seed for consistent sampling across all evaluations
@@ -524,8 +524,8 @@ def evaluate(prompt: str) -> dict:
             else:
                 raise
-        # Sample 50 samples with seed 42 (SAME as initial/final eval)
-        num_samples = 50
         if len(dataset) > num_samples:
             # Use SAME sampling logic as initial/final eval
             indices = random.sample(range(len(dataset)), num_samples)
@@ -726,7 +726,7 @@ Your improved prompt here
         "llm": {
             "primary_model": model,
             "api_base": "https://openrouter.ai/api/v1",  # Use OpenRouter endpoint
-            "temperature": 0.7,
         },
         "max_iterations": 5,
         "checkpoint_interval": 1,  # Save checkpoints every iteration to preserve prompt history
@@ -738,11 +738,11 @@ Your improved prompt here
             "template_dir": templates_dir,  # Use our custom prompt engineering templates
         },
         "evolution": {
-            "population_size": 10,
             "num_islands": 1,  # Single island for simpler evolution
-            "elite_ratio": 0.1,
-            "explore_ratio": 0.3,
-            "exploit_ratio": 0.6,
         },
         "database": {
             "log_prompts": True,  # Save prompts used to generate each program
@@ -940,7 +940,7 @@ def optimize_prompt(initial_prompt: str, dataset_name: str, dataset_split: str,
 - **Model**: {model}
 - **Initial Eval**: 50 samples
 - **Final Eval**: 50 samples (same samples for fair comparison)
-- **Evolution**: 50 samples per variant (same samples as initial/final)
 - **Iterations**: 5
 ### Results

 def create_evaluator_file(dataset_name: str, split: str, model: str,
                          input_field: str, target_field: str, work_dir: str):
+    """Create an evaluator.py file for OpenEvolve that uses 150 samples for better signal."""
     evaluator_code = f'''
 import os
 import random
 def evaluate(prompt: str) -> dict:
     """
+    Evaluate a prompt using 150 fixed samples for stronger evolution signal.
+    Using more samples (150 vs 50) gives evolution better signal to distinguish
+    good prompts from bad ones. Final comparison still uses the same 50 samples.
     """
     try:
         # IMPORTANT: Use fixed seed for consistent sampling across all evaluations
             else:
                 raise
+        # Sample 150 samples with seed 42 for stronger signal during evolution
+        num_samples = 150
         if len(dataset) > num_samples:
             # Use SAME sampling logic as initial/final eval
             indices = random.sample(range(len(dataset)), num_samples)
         "llm": {
             "primary_model": model,
             "api_base": "https://openrouter.ai/api/v1",  # Use OpenRouter endpoint
+            "temperature": 1.0,  # Higher temperature for more diverse prompt variations
         },
         "max_iterations": 5,
         "checkpoint_interval": 1,  # Save checkpoints every iteration to preserve prompt history
             "template_dir": templates_dir,  # Use our custom prompt engineering templates
         },
         "evolution": {
+            "population_size": 15,  # Increased from 10 for more exploration
             "num_islands": 1,  # Single island for simpler evolution
+            "elite_ratio": 0.1,  # Keep top 10% (1-2 best prompts)
+            "explore_ratio": 0.4,  # Increased exploration (was 0.3)
+            "exploit_ratio": 0.5,  # Reduced exploitation (was 0.6)
         },
         "database": {
             "log_prompts": True,  # Save prompts used to generate each program
 - **Model**: {model}
 - **Initial Eval**: 50 samples
 - **Final Eval**: 50 samples (same samples for fair comparison)
+- **Evolution**: 150 samples per variant (more data for stronger signal)
 - **Iterations**: 5
 ### Results