Fetch-Content

Build error

App Files Files Community

KingNish commited on Sep 25, 2024

Commit

116c368

verified ·

1 Parent(s): fab1175

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -12

app.py CHANGED Viewed

@@ -7,15 +7,51 @@ import re
 import zipfile
 import xml.etree.ElementTree as ET
 import filetype
-import requests
 import os
 import mimetypes
 from bs4 import BeautifulSoup
-from urllib.parse import urljoin
 # Constants
 CHUNK_SIZE = 32000
 # --- Utility Functions ---
 def xml2text(xml):
@@ -213,7 +249,10 @@ def download_and_process_file(url, clean=True):
         url = "http://" + url  # Prepend "http://" if not present
     try:
-        response = requests.get(url, stream=True, timeout=10)
         original_filename = os.path.basename(url)
         safe_filename = re.sub(r'[^\w\-_\. ]', '_', original_filename)
         temp_filename = f"{safe_filename}"
@@ -224,8 +263,7 @@ def download_and_process_file(url, clean=True):
             temp_filename += ext
         with open(temp_filename, 'wb') as f:
-            for chunk in response.iter_content(chunk_size=8192000):
-                f.write(chunk)
         kind = filetype.guess(temp_filename)
         if kind and kind.mime.startswith('image/'):
@@ -233,13 +271,9 @@ def download_and_process_file(url, clean=True):
         else:
             return read_document(temp_filename, clean, url)  # Otherwise, process as a document
-    except requests.exceptions.MissingSchema:
-        return "Error: Invalid URL format. Even after adding 'http://', the URL is still invalid.", 0
-    except requests.exceptions.ConnectionError:
-        return "Error: Could not connect to the server. Please check your internet connection.", 0
-    except requests.exceptions.Timeout:
-        return "Error: Connection timed out while trying to fetch the URL.", 0
-    except requests.exceptions.RequestException as e:
         return f"Error downloading file: {e}", 0
 # --- Gradio Interface ---

 import zipfile
 import xml.etree.ElementTree as ET
 import filetype
 import os
 import mimetypes
 from bs4 import BeautifulSoup
+import urllib3
 # Constants
 CHUNK_SIZE = 32000
+# --- Custom HTTP Session and Response Classes ---
+class CustomSession:
+    def __init__(self):
+        self.pool_manager = urllib3.PoolManager()
+    def get(self, url):
+        response = self.pool_manager.request('GET', url)
+        return CustomResponse(response)
+class CustomResponse:
+    def __init__(self, response):
+        self.status_code = response.status
+        self.headers = response.headers
+        self.content = response.data
+    def json(self):
+        import json
+        return json.loads(self.content)
+    def text(self):
+        return self.content.decode('utf-8')
+    def soup(self):
+        return BeautifulSoup(self.content, 'lxml')
+    def clean_text(self):
+        soup = self.soup()
+        cleaned_text = soup.get_text().replace('\n', ' ').replace('\r', ' ').replace('  ', ' ')
+        while '  ' in cleaned_text:
+            cleaned_text = cleaned_text.replace('  ', ' ')
+        return cleaned_text.strip()
+def get(url):
+    session = CustomSession()
+    return session.get(url)
 # --- Utility Functions ---
 def xml2text(xml):
         url = "http://" + url  # Prepend "http://" if not present
     try:
+        response = get(url)
+        if response.status_code != 200:
+            return f"Error: Received status code {response.status_code} from the server.", 0
         original_filename = os.path.basename(url)
         safe_filename = re.sub(r'[^\w\-_\. ]', '_', original_filename)
         temp_filename = f"{safe_filename}"
             temp_filename += ext
         with open(temp_filename, 'wb') as f:
+            f.write(response.content)
         kind = filetype.guess(temp_filename)
         if kind and kind.mime.startswith('image/'):
         else:
             return read_document(temp_filename, clean, url)  # Otherwise, process as a document
+    except urllib3.exceptions.HTTPError as e:
+        return f"Error: {e}", 0
+    except Exception as e:
         return f"Error downloading file: {e}", 0
 # --- Gradio Interface ---