Spaces:

AJ50
/

voice-cloning-backend

Sleeping

AJ50 commited on 15 days ago

Commit

1b05367

1 Parent(s): f152556

Add on-demand XTTS model download via setup_models.py

- setup_models.py runs at startup before gunicorn
- Downloads XTTS-v2 model to /app/backend/models/ (first deployment only)
- Uses TTS_HOME env var for caching
- Stdin suppression eliminates TOS prompts
- Subsequent deployments use cached model (instant startup)

This approach:
Eliminates TOS prompts entirely
Prevents repository bloat (no 1.8GB in git)
Maintains instant loading (after first deployment)
Works with HF Spaces persistent storage

Files changed (3) hide show

Dockerfile +7 -5
backend/app/multilingual_tts.py +6 -8
backend/setup_models.py +61 -0

Dockerfile CHANGED Viewed

@@ -17,13 +17,15 @@ COPY . .
 # Install Python dependencies
 RUN pip install --no-cache-dir -r backend/requirements.txt
-# Note: Models will be downloaded on first request
-# Skipping download_models.py to avoid build timeout on HF Spaces
-# - English models: Downloaded via hf_hub_download on first voice enrollment/synthesis
-# - Hindi XTTS: Downloaded via TTS library on first Hindi synthesis request
 # Expose port (HF Spaces uses 7860)
 EXPOSE 7860
 # Start the application
-CMD ["gunicorn", "--bind", "0.0.0.0:7860", "--workers", "1", "--timeout", "300", "backend.wsgi:app"]

 # Install Python dependencies
 RUN pip install --no-cache-dir -r backend/requirements.txt
+# Note: XTTS model downloads on first startup (via setup_models.py)
+# - English models: Local (already in repo)
+# - Hindi XTTS: Downloaded from HF Hub to /app/backend/models/ on first deployment
 # Expose port (HF Spaces uses 7860)
 EXPOSE 7860
+# Setup models and start app
+RUN echo "#!/bin/bash\nset -e\necho '[Startup] Ensuring models are available...'\npython /app/backend/setup_models.py\necho '[Startup] Models ready, starting gunicorn...'\nexec gunicorn --bind 0.0.0.0:7860 --workers 1 --timeout 300 backend.wsgi:app" > /app/start.sh && chmod +x /app/start.sh
 # Start the application
+CMD ["/app/start.sh"]

backend/app/multilingual_tts.py CHANGED Viewed

@@ -110,28 +110,26 @@ class MultilingualTTSService:
             print("[MultilingualTTSService] ✓ English vocoder loaded")
     def _load_hindi_models(self):
-        """Load Hindi XTTS model (lazy load with auto-download via TTS library)."""
         if self._xtts_model is None:
             print("[MultilingualTTSService] Loading Hindi XTTS model...")
             try:
                 from TTS.api import TTS
                 import io
-                print("[MultilingualTTSService] Loading XTTS-v2 model (may auto-download if needed)...")
-                # Suppress stdin to prevent interactive prompts
-                # This is the most reliable way that works in Docker/HF Spaces
                 old_stdin = sys.stdin
-                sys.stdin = io.StringIO("y\n")  # Auto-answer "y" if prompted
                 try:
                     self._xtts_model = TTS(
                         model_name="tts_models/multilingual/multi-dataset/xtts_v2",
-                        gpu=False  # Set to True if CUDA available and needed
                     )
                     print("[MultilingualTTSService] ✓ Hindi XTTS loaded successfully")
                 finally:
-                    sys.stdin = old_stdin  # Restore stdin
             except ImportError:
                 raise ImportError(

             print("[MultilingualTTSService] ✓ English vocoder loaded")
     def _load_hindi_models(self):
+        """Load Hindi XTTS model - uses local cached version or downloads on first run."""
         if self._xtts_model is None:
             print("[MultilingualTTSService] Loading Hindi XTTS model...")
             try:
                 from TTS.api import TTS
                 import io
+                # Model will be cached in /app/backend/models/tts/ after first download
+                # Suppress stdin to prevent interactive TOS prompts
                 old_stdin = sys.stdin
+                sys.stdin = io.StringIO("y\n")  # Auto-answer "y" to TOS
                 try:
                     self._xtts_model = TTS(
                         model_name="tts_models/multilingual/multi-dataset/xtts_v2",
+                        gpu=False
                     )
                     print("[MultilingualTTSService] ✓ Hindi XTTS loaded successfully")
                 finally:
+                    sys.stdin = old_stdin
             except ImportError:
                 raise ImportError(

backend/setup_models.py ADDED Viewed

	@@ -0,0 +1,61 @@

+#!/usr/bin/env python
+"""Download XTTS model on-demand (runs once on first deployment)."""
+import os
+import sys
+from pathlib import Path
+def setup_models():
+    """Ensure all required models are available."""
+    print("[Setup] Checking model requirements...")
+    # Ensure backend/models directory exists
+    models_dir = Path(__file__).parent.parent / "models"
+    models_dir.mkdir(parents=True, exist_ok=True)
+    tts_model_dir = models_dir / "tts" / "tts_models--multilingual--multi-dataset--xtts_v2"
+    if tts_model_dir.exists() and (tts_model_dir / "model.pth").exists():
+        print(f"[Setup] ✓ XTTS model already present: {tts_model_dir}")
+        return True
+    print("[Setup] Downloading XTTS-v2 model (1.8GB, first time only)...")
+    print("[Setup] This may take 5-10 minutes on first deployment...")
+    try:
+        from TTS.api import TTS
+        import io
+        os.environ['TTS_HOME'] = str(models_dir)
+        # Suppress interactive prompts
+        old_stdin = sys.stdin
+        sys.stdin = io.StringIO("y\n")
+        try:
+            tts = TTS(
+                model_name="tts_models/multilingual/multi-dataset/xtts_v2",
+                gpu=False
+            )
+            print("[Setup] ✓ XTTS model downloaded successfully")
+            # Verify model exists
+            if (tts_model_dir / "model.pth").exists():
+                print(f"[Setup] ✓ Model verified at: {tts_model_dir}")
+                return True
+            else:
+                print(f"[Setup] ✗ Model not found at expected location: {tts_model_dir}")
+                return False
+        finally:
+            sys.stdin = old_stdin
+    except Exception as e:
+        print(f"[Setup] ✗ Failed to download XTTS model: {e}")
+        print("[Setup] Hindi synthesis will not be available")
+        return False
+if __name__ == "__main__":
+    success = setup_models()
+    sys.exit(0 if success else 1)