Spaces:

turing-team
/

turing-space

Running

App Files Files Community

github-actions[bot] commited on Jan 11

Commit

5abc469

1 Parent(s): 8cd8047

Sync turing folder from GitHub

Browse files

Files changed (4) hide show

turing/CLI_runner/verify_drift_detection.py +27 -2
turing/config.py +18 -13
turing/monitoring/drift_detector.py +1 -0
turing/monitoring/synthetic_data_generator.py +1 -1

turing/CLI_runner/verify_drift_detection.py CHANGED Viewed

@@ -57,7 +57,7 @@ def load_training_data(dataset_name: str, language: str):
     return X_train, y_train
-def print_drift_report(drift_results: dict, drift_type: str, report_lines: list = None):
     """
     Format and display drift detection results for a specific drift type.
@@ -218,6 +218,8 @@ def verify(
     """
     Verify drift detection on best model's training dataset.
     """
     logger.info("Starting drift detection verification...")
     logger.info("Configuration:")
     logger.info(f"  Language: {language}")
@@ -225,7 +227,29 @@ def verify(
     logger.info(f"  Alert threshold: {config.DRIFT_ALERT_THRESHOLD}")
     logger.info(f"  Baseline cache: {config.BASELINE_CACHE_DIR}")
-    dagshub.init(repo_owner=repo_owner, repo_name=repo_name, mlflow=True)
     logger.info(f"\n[1/6] Searching for best model for {language}...")
     best_model_info = get_best_model_by_tag(language=language)
@@ -250,6 +274,7 @@ def verify(
     logger.info("\n[3/6] Loading training data...")
     try:
         X_train, y_train = load_training_data(dataset_name, language)
     except Exception as e:
         logger.error(f"Failed to load training data: {e}")
         return

     return X_train, y_train
+def print_drift_report(drift_results: dict, drift_type: str, report_lines: list | None = None):
     """
     Format and display drift detection results for a specific drift type.
     """
     Verify drift detection on best model's training dataset.
     """
+    import os
     logger.info("Starting drift detection verification...")
     logger.info("Configuration:")
     logger.info(f"  Language: {language}")
     logger.info(f"  Alert threshold: {config.DRIFT_ALERT_THRESHOLD}")
     logger.info(f"  Baseline cache: {config.BASELINE_CACHE_DIR}")
+    # Setup DagsHub credentials from environment variables
+    dagshub_username = os.getenv("DAGSHUB_USERNAME")
+    dagshub_token = os.getenv("DAGSHUB_TOKEN")
+    mlflow_uri = os.getenv("MLFLOW_TRACKING_URI")
+    is_ci_environment = os.getenv("CI") or os.getenv("GITHUB_ACTIONS")
+    if dagshub_username and dagshub_token and mlflow_uri:
+        # Use environment credentials for non-interactive mode (GitHub Actions)
+        logger.info("Using DagsHub credentials from environment variables")
+        os.environ["MLFLOW_TRACKING_USERNAME"] = dagshub_username
+        os.environ["MLFLOW_TRACKING_PASSWORD"] = dagshub_token
+        # Don't call dagshub.init() - credentials are already set via environment
+        logger.info("Skipping dagshub.init() - using environment credentials directly")
+    elif is_ci_environment:
+        # In CI without credentials, skip OAuth and log warning
+        logger.warning("CI environment detected but credentials not found. Proceeding without dagshub.init()")
+    else:
+        # Interactive mode - try to initialize with OAuth
+        logger.info("Initializing DagsHub interactively")
+        try:
+            dagshub.init(repo_owner=repo_owner, repo_name=repo_name, mlflow=True)
+        except Exception as e:
+            logger.warning(f"DagsHub initialization failed: {e}")
     logger.info(f"\n[1/6] Searching for best model for {language}...")
     best_model_info = get_best_model_by_tag(language=language)
     logger.info("\n[3/6] Loading training data...")
     try:
         X_train, y_train = load_training_data(dataset_name, language)
+        y_train = np.asarray(y_train)  # Ensure y_train is np.ndarray
     except Exception as e:
         logger.error(f"Failed to load training data: {e}")
         return

turing/config.py CHANGED Viewed

@@ -4,9 +4,13 @@ from pathlib import Path
 import sys
 from dotenv import load_dotenv
-from logtail import LogtailHandler
 from loguru import logger
 # Load environment variables from .env file if it exists
 load_dotenv()
@@ -120,23 +124,24 @@ except (ModuleNotFoundError, ValueError):
 # setup logging for Better Stack using LogtailHandler
 try:
-    better_stack_handler = LogtailHandler(
-        source_token=os.getenv("BETTER_STACK_TOKEN"),
-        host=os.getenv("BETTER_STACK_HOST"),
-    )
-    root_logger = logging.getLogger()
-    root_logger.setLevel(logging.INFO)
-    console_handler = logging.StreamHandler(sys.stdout)
-    console_handler.setLevel(logging.DEBUG)
-    better_stack_handler.setLevel(logging.WARNING)
-    root_logger.addHandler(console_handler)
-    root_logger.addHandler(better_stack_handler)
-    logging.info("LogtailHandler for Better Stack configured successfully.")
 except Exception as e:
     logging.error(f"Failed to configure LogtailHandler: {e}")

 import sys
 from dotenv import load_dotenv
 from loguru import logger
+try:
+    from logtail import LogtailHandler
+except ImportError:
+    LogtailHandler = None  # Logtail not available in this environment
 # Load environment variables from .env file if it exists
 load_dotenv()
 # setup logging for Better Stack using LogtailHandler
 try:
+    if LogtailHandler and os.getenv("BETTER_STACK_TOKEN") and os.getenv("BETTER_STACK_HOST"):
+        better_stack_handler = LogtailHandler(
+            source_token=os.getenv("BETTER_STACK_TOKEN", ""),
+            host=os.getenv("BETTER_STACK_HOST", ""),
+        )
+        root_logger = logging.getLogger()
+        root_logger.setLevel(logging.INFO)
+        console_handler = logging.StreamHandler(sys.stdout)
+        console_handler.setLevel(logging.DEBUG)
+        better_stack_handler.setLevel(logging.WARNING)
+        root_logger.addHandler(console_handler)
+        root_logger.addHandler(better_stack_handler)
+        logging.info("LogtailHandler for Better Stack configured successfully.")
 except Exception as e:
     logging.error(f"Failed to configure LogtailHandler: {e}")

turing/monitoring/drift_detector.py CHANGED Viewed

@@ -18,6 +18,7 @@ try:
     from deepchecks.nlp.checks import Drift, TextPropertyDrift
 except ImportError:
     logger.warning("Deepchecks not installed. Install with: pip install deepchecks[nlp]")
     Drift = None
     TextPropertyDrift = None

     from deepchecks.nlp.checks import Drift, TextPropertyDrift
 except ImportError:
     logger.warning("Deepchecks not installed. Install with: pip install deepchecks[nlp]")
+    SingleDataset = None
     Drift = None
     TextPropertyDrift = None

turing/monitoring/synthetic_data_generator.py CHANGED Viewed

@@ -75,7 +75,7 @@ class SyntheticDataGenerator:
     def generate_corrupted_vocabulary(
         self,
         reference_texts: List[str],
-        corruption_rate: float = 0.2,
         n_samples: int = 100,
     ) -> List[str]:
         """

     def generate_corrupted_vocabulary(
         self,
         reference_texts: List[str],
+        corruption_rate: float = 0.5,
         n_samples: int = 100,
     ) -> List[str]:
         """