LightOnOCR

Paused

IFMedTechdemo commited on 19 days ago

Commit

a7d8613

verified ·

1 Parent(s): aff30bc

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,18 +18,11 @@ def preprocess_image_for_ocr(image):
     preprocessed_pil = Image.fromarray(adaptive_threshold)
     return preprocessed_pil
 def extract_medication_lines(text):
-    """
-    Flexible regex: Find lines with [form], [name], [dose] anywhere.
-    Handles free text/table/mixed layouts.
-    """
-    # Medicine forms
     form_pattern = r"(TAB(L?ET)?|CAP(SULE)?|SYRUP|SYP|DROP(S)?|INJ(CTION)?|OINTMENT|CREAM|GEL|PATCH|SOL(UTION)?|ORAL)"
-    # Name: up to 4 tokens (space/hyphen/slash), case/mixed
     name_pattern = r"([A-Z0-9\-/]+(?:\s+[A-Z0-9\-/]+){0,4})"
-    # Dose/concentration: 1-4 digits, optional space, units
     dose_pattern = r"(\d{1,4}\s*(mg|ml|mcg|g|kg|units|IU)|\d{1,2}\s*%(\s*w\/w|\s*w\/v|\s*v\/v)?)"
-    # Allow any order: form+name+dose/mid/suffix/prefix
     main_pattern = (
         r"(?<!\w)(" + form_pattern + r")[\s\-]+"
         r"" + name_pattern + r""  # name after form
@@ -42,11 +35,13 @@ def extract_medication_lines(text):
         line_stripped = line.strip()
         match = med_regex.search(line_stripped)
         if match:
-            # Compose: form + name + dose
-            cleaned = f"{match.group(1).upper()} {match.group(2).upper()} {match.group(5)}"
-            meds.append(cleaned.strip())
     return '\n'.join(meds)
 def clinical_ner_extract(text, use_gpu=False):
     """
     Uses ClinicalNER for medicine name, then finds form/dose in source sentence.

     preprocessed_pil = Image.fromarray(adaptive_threshold)
     return preprocessed_pil
 def extract_medication_lines(text):
     form_pattern = r"(TAB(L?ET)?|CAP(SULE)?|SYRUP|SYP|DROP(S)?|INJ(CTION)?|OINTMENT|CREAM|GEL|PATCH|SOL(UTION)?|ORAL)"
     name_pattern = r"([A-Z0-9\-/]+(?:\s+[A-Z0-9\-/]+){0,4})"
     dose_pattern = r"(\d{1,4}\s*(mg|ml|mcg|g|kg|units|IU)|\d{1,2}\s*%(\s*w\/w|\s*w\/v|\s*v\/v)?)"
     main_pattern = (
         r"(?<!\w)(" + form_pattern + r")[\s\-]+"
         r"" + name_pattern + r""  # name after form
         line_stripped = line.strip()
         match = med_regex.search(line_stripped)
         if match:
+            # Ignore group indices, instead join non-None groups or use match.group(0)
+            meds.append(match.group(0).strip())
     return '\n'.join(meds)
 def clinical_ner_extract(text, use_gpu=False):
     """
     Uses ClinicalNER for medicine name, then finds form/dose in source sentence.