Spaces:

llaa33219
/

train3

Paused

llaa33219 commited on Nov 9

Commit

8900cbf

verified ·

1 Parent(s): 6d15327

Upload 4 files

Files changed (1) hide show

app.py CHANGED Viewed

@@ -63,7 +63,10 @@ def preprocess_conversations(examples, tokenizer):
                 text += f"<|assistant|>\n{content}\n"
         texts.append(text)
-    return tokenizer(texts, truncation=True, max_length=2048, padding=False)
 # Persistent storage paths
 CHECKPOINT_DIR = Path("/data/checkpoints") if Path("/data").exists() else Path("./checkpoints")
@@ -171,10 +174,11 @@ def train_model(epochs, batch_size, learning_rate, resume=False, progress=gr.Pro
             greater_is_better=False,
         )
-        # Data collator
         data_collator = DataCollatorForLanguageModeling(
             tokenizer=tokenizer,
-            mlm=False
         )
         # Initialize trainer with custom loss

                 text += f"<|assistant|>\n{content}\n"
         texts.append(text)
+    # Return tokenized data with labels for language modeling
+    tokenized = tokenizer(texts, truncation=True, max_length=2048, padding=False)
+    tokenized["labels"] = tokenized["input_ids"].copy()
+    return tokenized
 # Persistent storage paths
 CHECKPOINT_DIR = Path("/data/checkpoints") if Path("/data").exists() else Path("./checkpoints")
             greater_is_better=False,
         )
+        # Data collator with padding
         data_collator = DataCollatorForLanguageModeling(
             tokenizer=tokenizer,
+            mlm=False,
+            pad_to_multiple_of=8  # Pad to multiple of 8 for efficiency
         )
         # Initialize trainer with custom loss