Spaces:

aauss
/

test_of_time_accuracy

Sleeping

aauss commited on 20 days ago

Commit

ddf1ba7

1 Parent(s): 29a0e42

Fix misconfiguration in feature types

Files changed (2) hide show

test_of_time_accuracy.py CHANGED Viewed

@@ -56,13 +56,12 @@ Examples:
 @evaluate.utils.file_utils.add_start_docstrings(_DESCRIPTION, _KWARGS_DESCRIPTION)
-class TestofTimeAccuracy(evaluate.Metric):
     """Accuracy metric for the Test of Time benchmark by Bahar et al. (2025)."""
     __test__ = False
     def _info(self):
-        # TODO: Specifies the evaluate.EvaluationModuleInfo object
         return evaluate.MetricInfo(
             module_type="metric",
             description=_DESCRIPTION,
@@ -73,8 +72,6 @@ class TestofTimeAccuracy(evaluate.Metric):
                 {
                     "predictions": datasets.Value("string"),
                     "references": datasets.Value("string"),
-                    "subset": datasets.Value("string"),
-                    "return_average": datasets.Value("bool"),
                 }
             ),
             # Homepage of the module for documentation

 @evaluate.utils.file_utils.add_start_docstrings(_DESCRIPTION, _KWARGS_DESCRIPTION)
+class TestOfTimeAccuracy(evaluate.Metric):
     """Accuracy metric for the Test of Time benchmark by Bahar et al. (2025)."""
     __test__ = False
     def _info(self):
         return evaluate.MetricInfo(
             module_type="metric",
             description=_DESCRIPTION,
                 {
                     "predictions": datasets.Value("string"),
                     "references": datasets.Value("string"),
                 }
             ),
             # Homepage of the module for documentation

tests.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import pytest
-from test_of_time_accuracy import TestofTimeAccuracy
 arithmetic_test_cases = {
     "predictions": [
@@ -30,7 +30,7 @@ semantic_test_cases = {
 def test_arithmetic_accuracy():
-    metric = TestofTimeAccuracy()
     results = metric.compute(
         predictions=arithmetic_test_cases["predictions"],
         references=arithmetic_test_cases["references"],
@@ -40,7 +40,7 @@ def test_arithmetic_accuracy():
 def test_semantic_accuracy():
-    metric = TestofTimeAccuracy()
     results = metric.compute(
         predictions=semantic_test_cases["predictions"],
         references=semantic_test_cases["references"],
@@ -50,7 +50,7 @@ def test_semantic_accuracy():
 def test_per_item_arithmetic_accuracy():
-    metric = TestofTimeAccuracy()
     results = metric.compute(
         predictions=arithmetic_test_cases["predictions"],
         references=arithmetic_test_cases["references"],
@@ -61,7 +61,7 @@ def test_per_item_arithmetic_accuracy():
 def test_per_item_semantic_accuracy():
-    metric = TestofTimeAccuracy()
     results = metric.compute(
         predictions=semantic_test_cases["predictions"],
         references=semantic_test_cases["references"],
@@ -72,7 +72,7 @@ def test_per_item_semantic_accuracy():
 def test_invalid_subset():
-    metric = TestofTimeAccuracy()
     with pytest.raises(ValueError):
         metric.compute(
             predictions=arithmetic_test_cases["predictions"],

 import pytest
+from test_of_time_accuracy import TestOfTimeAccuracy
 arithmetic_test_cases = {
     "predictions": [
 def test_arithmetic_accuracy():
+    metric = TestOfTimeAccuracy()
     results = metric.compute(
         predictions=arithmetic_test_cases["predictions"],
         references=arithmetic_test_cases["references"],
 def test_semantic_accuracy():
+    metric = TestOfTimeAccuracy()
     results = metric.compute(
         predictions=semantic_test_cases["predictions"],
         references=semantic_test_cases["references"],
 def test_per_item_arithmetic_accuracy():
+    metric = TestOfTimeAccuracy()
     results = metric.compute(
         predictions=arithmetic_test_cases["predictions"],
         references=arithmetic_test_cases["references"],
 def test_per_item_semantic_accuracy():
+    metric = TestOfTimeAccuracy()
     results = metric.compute(
         predictions=semantic_test_cases["predictions"],
         references=semantic_test_cases["references"],
 def test_invalid_subset():
+    metric = TestOfTimeAccuracy()
     with pytest.raises(ValueError):
         metric.compute(
             predictions=arithmetic_test_cases["predictions"],