tabular_learner: base_model_trainer.py comparison

comparison base_model_trainer.py @ 2:77c88226bfde draft

planemo upload for repository https://github.com/goeckslab/gleam commit 06c0da44ac93256dfb616a6b40276b5485a71e8e

author	goeckslab
date	Wed, 02 Jul 2025 18:59:39 +0000
parents	209b663a4f62
children	f6a65e05d6ec

comparison

equal deleted inserted replaced

-:f69ed50c9768
+:77c88226bfde
 import h5py
 import joblib
 import numpy as np
 import pandas as pd
+from feature_help_modal import get_feature_metrics_help_modal
 from feature_importance import FeatureImportanceAnalyzer
 from sklearn.metrics import average_precision_score
 from utils import get_html_closing, get_html_template
 logging.basicConfig(level=logging.DEBUG)
 LOG = logging.getLogger(__name__)
 class BaseModelTrainer:
 def __init__(
 self,
 input_file,
 target_col,
 output_dir,
 task_type,
 random_seed,
 test_file=None,
-**kwargs):
+**kwargs,
+):
 self.exp = None  # This will be set in the subclass
 self.input_file = input_file
 self.target_col = target_col
 self.output_dir = output_dir
 self.task_type = task_type
 setattr(self, key, value)
 self.setup_params = {}
 self.test_file = test_file
 self.test_data = None
+if not self.output_dir:
+raise ValueError("output_dir must be specified and not None")
 LOG.info(f"Model kwargs: {self.__dict__}")
 def load_data(self):
 LOG.info(f"Loading data from {self.input_file}")
-self.data = pd.read_csv(self.input_file, sep=None, engine='python')
+self.data = pd.read_csv(self.input_file, sep=None, engine="python")
-self.data.columns = self.data.columns.str.replace('.', '_')
+self.data.columns = self.data.columns.str.replace(".", "_")
-numeric_cols = self.data.select_dtypes(include=['number']).columns
+# Remove prediction_label if present
-non_numeric_cols = self.data.select_dtypes(exclude=['number']).columns
+if "prediction_label" in self.data.columns:
+self.data = self.data.drop(columns=["prediction_label"])
+numeric_cols = self.data.select_dtypes(include=["number"]).columns
+non_numeric_cols = self.data.select_dtypes(exclude=["number"]).columns
 self.data[numeric_cols] = self.data[numeric_cols].apply(
-pd.to_numeric, errors='coerce')
+pd.to_numeric, errors="coerce"
+)
 if len(non_numeric_cols) > 0:
 LOG.info(f"Non-numeric columns found: {non_numeric_cols.tolist()}")
 names = self.data.columns.to_list()
 target_index = int(self.target_col) - 1
 self.target = names[target_index]
-self.features_name = [name
+self.features_name = [name for i, name in enumerate(names) if i != target_index]
-for i, name in enumerate(names)
+if hasattr(self, "missing_value_strategy"):
-if i != target_index]
+if self.missing_value_strategy == "mean":
-if hasattr(self, 'missing_value_strategy'):
+self.data = self.data.fillna(self.data.mean(numeric_only=True))
-if self.missing_value_strategy == 'mean':
+elif self.missing_value_strategy == "median":
-self.data = self.data.fillna(
+self.data = self.data.fillna(self.data.median(numeric_only=True))
-self.data.mean(numeric_only=True))
+elif self.missing_value_strategy == "drop":
-elif self.missing_value_strategy == 'median':
-self.data = self.data.fillna(
-self.data.median(numeric_only=True))
-elif self.missing_value_strategy == 'drop':
 self.data = self.data.dropna()
 else:
 # Default strategy if not specified
 self.data = self.data.fillna(self.data.median(numeric_only=True))
 if self.test_file:
 LOG.info(f"Loading test data from {self.test_file}")
-self.test_data = pd.read_csv(
+self.test_data = pd.read_csv(self.test_file, sep=None, engine="python")
-self.test_file, sep=None, engine='python')
 self.test_data = self.test_data[numeric_cols].apply(
-pd.to_numeric, errors='coerce')
+pd.to_numeric, errors="coerce"
-self.test_data.columns = self.test_data.columns.str.replace(
+)
-'.', '_'
+self.test_data.columns = self.test_data.columns.str.replace(".", "_")
-)
 def setup_pycaret(self):
 LOG.info("Initializing PyCaret")
 self.setup_params = {
-'target': self.target,
+"target": self.target,
-'session_id': self.random_seed,
+"session_id": self.random_seed,
-'html': True,
+"html": True,
-'log_experiment': False,
+"log_experiment": False,
-'system_log': False,
+"system_log": False,
-'index': False,
+"index": False,
 }
 if self.test_data is not None:
-self.setup_params['test_data'] = self.test_data
+self.setup_params["test_data"] = self.test_data
-if hasattr(self, 'train_size') and self.train_size is not None \
+if (
-and self.test_data is None:
+hasattr(self, "train_size")
-self.setup_params['train_size'] = self.train_size
+and self.train_size is not None
+and self.test_data is None
-if hasattr(self, 'normalize') and self.normalize is not None:
+):
-self.setup_params['normalize'] = self.normalize
+self.setup_params["train_size"] = self.train_size
-if hasattr(self, 'feature_selection') and \
+if hasattr(self, "normalize") and self.normalize is not None:
-self.feature_selection is not None:
+self.setup_params["normalize"] = self.normalize
-self.setup_params['feature_selection'] = self.feature_selection
+if hasattr(self, "feature_selection") and self.feature_selection is not None:
-if hasattr(self, 'cross_validation') and \
+self.setup_params["feature_selection"] = self.feature_selection
-self.cross_validation is not None \
-and self.cross_validation is False:
+if (
-self.setup_params['cross_validation'] = self.cross_validation
+hasattr(self, "cross_validation")
+and self.cross_validation is not None
-if hasattr(self, 'cross_validation') and \
+and self.cross_validation is False
-self.cross_validation is not None:
+):
-if hasattr(self, 'cross_validation_folds'):
+self.setup_params["cross_validation"] = self.cross_validation
-self.setup_params['fold'] = self.cross_validation_folds
+if hasattr(self, "cross_validation") and self.cross_validation is not None:
-if hasattr(self, 'remove_outliers') and \
+if hasattr(self, "cross_validation_folds"):
-self.remove_outliers is not None:
+self.setup_params["fold"] = self.cross_validation_folds
-self.setup_params['remove_outliers'] = self.remove_outliers
+if hasattr(self, "remove_outliers") and self.remove_outliers is not None:
-if hasattr(self, 'remove_multicollinearity') and \
+self.setup_params["remove_outliers"] = self.remove_outliers
-self.remove_multicollinearity is not None:
-self.setup_params['remove_multicollinearity'] = \
+if (
+hasattr(self, "remove_multicollinearity")
+and self.remove_multicollinearity is not None
+):
+self.setup_params["remove_multicollinearity"] = (
 self.remove_multicollinearity
+)
-if hasattr(self, 'polynomial_features') and \
-self.polynomial_features is not None:
+if (
-self.setup_params['polynomial_features'] = self.polynomial_features
+hasattr(self, "polynomial_features")
+and self.polynomial_features is not None
-if hasattr(self, 'fix_imbalance') and \
+):
-self.fix_imbalance is not None:
+self.setup_params["polynomial_features"] = self.polynomial_features
-self.setup_params['fix_imbalance'] = self.fix_imbalance
+if hasattr(self, "fix_imbalance") and self.fix_imbalance is not None:
+self.setup_params["fix_imbalance"] = self.fix_imbalance
 LOG.info(self.setup_params)
+# Solution: instantiate the correct PyCaret experiment based on task_type
+if self.task_type == "classification":
+from pycaret.classification import ClassificationExperiment
+self.exp = ClassificationExperiment()
+elif self.task_type == "regression":
+from pycaret.regression import RegressionExperiment
+self.exp = RegressionExperiment()
+else:
+raise ValueError("task_type must be 'classification' or 'regression'")
 self.exp.setup(self.data, **self.setup_params)
 def train_model(self):
 LOG.info("Training and selecting the best model")
 if self.task_type == "classification":
 average_displayed = "Weighted"
-self.exp.add_metric(id=f'PR-AUC-{average_displayed}',
+self.exp.add_metric(
-name=f'PR-AUC-{average_displayed}',
+id=f"PR-AUC-{average_displayed}",
-target='pred_proba',
+name=f"PR-AUC-{average_displayed}",
-score_func=average_precision_score,
+target="pred_proba",
-average='weighted'
+score_func=average_precision_score,
-)
+average="weighted",
+)
-if hasattr(self, 'models') and self.models is not None:
-self.best_model = self.exp.compare_models(
+if hasattr(self, "models") and self.models is not None:
-include=self.models)
+self.best_model = self.exp.compare_models(include=self.models)
 else:
 self.best_model = self.exp.compare_models()
 self.results = self.exp.pull()
 if self.task_type == "classification":
-self.results.rename(columns={'AUC': 'ROC-AUC'}, inplace=True)
+self.results.rename(columns={"AUC": "ROC-AUC"}, inplace=True)
 _ = self.exp.predict_model(self.best_model)
 self.test_result_df = self.exp.pull()
 if self.task_type == "classification":
-self.test_result_df.rename(
+self.test_result_df.rename(columns={"AUC": "ROC-AUC"}, inplace=True)
-columns={'AUC': 'ROC-AUC'}, inplace=True)
 def save_model(self):
 hdf5_model_path = "pycaret_model.h5"
-with h5py.File(hdf5_model_path, 'w') as f:
+with h5py.File(hdf5_model_path, "w") as f:
 with tempfile.NamedTemporaryFile(delete=False) as temp_file:
 joblib.dump(self.best_model, temp_file.name)
 temp_file.seek(0)
 model_bytes = temp_file.read()
-f.create_dataset('model', data=np.void(model_bytes))
+f.create_dataset("model", data=np.void(model_bytes))
 def generate_plots(self):
 raise NotImplementedError("Subclasses should implement this method")
 def encode_image_to_base64(self, img_path):
-with open(img_path, 'rb') as img_file:
+with open(img_path, "rb") as img_file:
-return base64.b64encode(img_file.read()).decode('utf-8')
+return base64.b64encode(img_file.read()).decode("utf-8")
 def save_html_report(self):
 LOG.info("Saving HTML report")
+if not self.output_dir:
+raise ValueError("output_dir must be specified and not None")
 model_name = type(self.best_model).__name__
-excluded_params = ['html', 'log_experiment', 'system_log', 'test_data']
+excluded_params = ["html", "log_experiment", "system_log", "test_data"]
 filtered_setup_params = {
-k: v
+k: v for k, v in self.setup_params.items() if k not in excluded_params
-for k, v in self.setup_params.items() if k not in excluded_params
 }
 setup_params_table = pd.DataFrame(
-list(filtered_setup_params.items()), columns=['Parameter', 'Value']
+list(filtered_setup_params.items()), columns=["Parameter", "Value"]
 )
 best_model_params = pd.DataFrame(
-self.best_model.get_params().items(),
+self.best_model.get_params().items(), columns=["Parameter", "Value"]
-columns=['Parameter', 'Value']
 )
 best_model_params.to_csv(
 os.path.join(self.output_dir, "best_model.csv"), index=False
 )
-self.results.to_csv(
+self.results.to_csv(os.path.join(self.output_dir, "comparison_results.csv"))
-os.path.join(self.output_dir, "comparison_results.csv")
+self.test_result_df.to_csv(os.path.join(self.output_dir, "test_results.csv"))
-)
-self.test_result_df.to_csv(
-os.path.join(self.output_dir, "test_results.csv")
-)
 plots_html = ""
 length = len(self.plots)
 for i, (plot_name, plot_path) in enumerate(self.plots.items()):
 encoded_image = self.encode_image_to_base64(plot_path)
-plots_html += f"""
+plots_html += (
-<div class="plot">
+f'<div class="plot">'
-<h3>{plot_name.capitalize()}</h3>
+f"<h3>{plot_name.capitalize()}</h3>"
-<img src="data:image/png;base64,{encoded_image}"
+f'<img src="data:image/png;base64,{encoded_image}" alt="{plot_name}">'
-alt="{plot_name}">
+f"</div>"
-</div>
+)
-"""
 if i < length - 1:
 plots_html += "<hr>"
 tree_plots = ""
 for i, tree in enumerate(self.trees):
 if tree:
-tree_plots += f"""
+tree_plots += (
-<div class="plot">
+f'<div class="plot">'
-<h3>Tree {i+1}</h3>
+f"<h3>Tree {i + 1}</h3>"
-<img src="data:image/png;base64,
+f'<img src="data:image/png;base64,{tree}" alt="tree {i + 1}">'
-{tree}"
+f"</div>"
-alt="tree {i+1}">
+)
-</div>
-"""
 analyzer = FeatureImportanceAnalyzer(
 data=self.data,
 target_col=self.target_col,
 task_type=self.task_type,
 output_dir=self.output_dir,
+exp=self.exp,
+best_model=self.best_model,
 )
 feature_importance_html = analyzer.run()
-html_content = f"""
+# --- Feature Metrics Help Button ---
-{get_html_template()}
+feature_metrics_button_html = (
-<h1>PyCaret Model Training Report</h1>
+'<button class="help-modal-btn" id="openFeatureMetricsHelp" style="margin-bottom:12px;">'
-<div class="tabs">
+"Help: Metrics Guide"
-<div class="tab" onclick="openTab(event, 'summary')">
+"</button>"
-Setup & Best Model</div>
+"<style>"
-<div class="tab" onclick="openTab(event, 'plots')">
+".help-modal-btn {"
-Best Model Plots</div>
+"background-color: #17623b;"
-<div class="tab" onclick="openTab(event, 'feature')">
+"color: #fff;"
-Feature Importance</div>
+"border: none;"
-"""
+"border-radius: 24px;"
+"padding: 10px 28px;"
+"font-size: 1.1rem;"
+"font-weight: bold;"
+"letter-spacing: 0.03em;"
+"cursor: pointer;"
+"transition: background 0.2s, box-shadow 0.2s;"
+"box-shadow: 0 2px 8px rgba(23,98,59,0.07);"
+"}"
+".help-modal-btn:hover, .help-modal-btn:focus {"
+"background-color: #21895e;"
+"outline: none;"
+"box-shadow: 0 4px 16px rgba(23,98,59,0.14);"
+"}"
+"</style>"
+)
+html_content = (
+f"{get_html_template()}"
+"<h1>Tabular Learner Model Report</h1>"
+f"{feature_metrics_button_html}"
+'<div class="tabs">'
+'<div class="tab" onclick="openTab(event, \'summary\')">'
+"Validation Result Summary & Config</div>"
+'<div class="tab" onclick="openTab(event, \'plots\')">'
+"Test Results</div>"
+'<div class="tab" onclick="openTab(event, \'feature\')">'
+"Feature Importance</div>"
+)
 if self.plots_explainer_html:
-html_content += """
+html_content += (
-<div class="tab" onclick="openTab(event, 'explainer')">
+'<div class="tab" onclick="openTab(event, \'explainer\')">'
-Explainer Plots</div>
+"Explainer Plots</div>"
-"""
+)
-html_content += f"""
+html_content += (
-</div>
+"</div>"
-<div id="summary" class="tab-content">
+'<div id="summary" class="tab-content">'
-<h2>Setup Parameters</h2>
+"<h2>Model Metrics from Cross-Validation Set</h2>"
-{setup_params_table.to_html(
+f"<h2>Best Model: {model_name}</h2>"
-index=False,
+"<h5>The best model is selected by: Accuracy (Classification)"
-header=True,
+" or R2 (Regression).</h5>"
-classes='table sortable'
+f"{self.results.to_html(index=False, classes='table sortable')}"
-)}
+"<h2>Best Model's Hyperparameters</h2>"
-<h5>If you want to know all the experiment setup parameters,
+f"{best_model_params.to_html(index=False, header=True, classes='table sortable')}"
-please check the PyCaret documentation for
+"<h2>Setup Parameters</h2>"
-the classification/regression <code>exp</code> function.</h5>
+f"{setup_params_table.to_html(index=False, header=True, classes='table sortable')}"
-<h2>Best Model: {model_name}</h2>
+"<h5>If you want to know all the experiment setup parameters,"
-{best_model_params.to_html(
+" please check the PyCaret documentation for"
-index=False,
+" the classification/regression <code>exp</code> function.</h5>"
-header=True,
+"</div>"
-classes='table sortable'
+'<div id="plots" class="tab-content">'
-)}
+f"<h2>Best Model: {model_name}</h2>"
-<h2>Comparison Results on the Cross-Validation Set</h2>
+"<h5>The best model is selected by: Accuracy (Classification)"
-{self.results.to_html(index=False, classes='table sortable')}
+" or R2 (Regression).</h5>"
-<h2>Results on the Test Set for the best model</h2>
+"<h2>Test Metrics</h2>"
-{self.test_result_df.to_html(
+f"{self.test_result_df.to_html(index=False)}"
-index=False,
+"<h2>Test Results</h2>"
-classes='table sortable'
+f"{plots_html}"
-)}
+"</div>"
-</div>
+'<div id="feature" class="tab-content">'
-<div id="plots" class="tab-content">
+f"{feature_importance_html}"
-<h2>Best Model Plots on the testing set</h2>
+"</div>"
-{plots_html}
+)
-</div>
-<div id="feature" class="tab-content">
-{feature_importance_html}
-</div>
-"""
 if self.plots_explainer_html:
-html_content += f"""
+html_content += (
-<div id="explainer" class="tab-content">
+'<div id="explainer" class="tab-content">'
-{self.plots_explainer_html}
+f"{self.plots_explainer_html}"
-{tree_plots}
+f"{tree_plots}"
-</div>
+"</div>"
-"""
+)
-html_content += """
+html_content += (
-<script>
+"<script>"
-document.addEventListener("DOMContentLoaded", function() {
+"document.addEventListener(\"DOMContentLoaded\", function() {"
-var tables = document.querySelectorAll("table.sortable");
+"var tables = document.querySelectorAll(\"table.sortable\");"
-tables.forEach(function(table) {
+"tables.forEach(function(table) {"
-var headers = table.querySelectorAll("th");
+"var headers = table.querySelectorAll(\"th\");"
-headers.forEach(function(header, index) {
+"headers.forEach(function(header, index) {"
-header.style.cursor = "pointer";
+"header.style.cursor = \"pointer\";"
-// Add initial arrow (up) to indicate sortability
+"// Add initial arrow (up) to indicate sortability, use Unicode ↑ (U+2191)"
-header.innerHTML += '<span class="sort-arrow"> ↑</span>';
+"header.innerHTML += '<span class=\"sort-arrow\"> ↑</span>';"
-header.addEventListener("click", function() {
+"header.addEventListener(\"click\", function() {"
-var direction = this.getAttribute(
+"var direction = this.getAttribute("
-"data-sort-direction"
+"\"data-sort-direction\""
-) || "asc";
+") || \"asc\";"
-// Reset arrows in all headers of this table
+"// Reset arrows in all headers of this table"
-headers.forEach(function(h) {
+"headers.forEach(function(h) {"
-var arrow = h.querySelector(".sort-arrow");
+"var arrow = h.querySelector(\".sort-arrow\");"
-if (arrow) arrow.textContent = " ↑";
+"if (arrow) arrow.textContent = \" ↑\";"
-});
+"});"
-// Set arrow for clicked header
+"// Set arrow for clicked header"
-var arrow = this.querySelector(".sort-arrow");
+"var arrow = this.querySelector(\".sort-arrow\");"
-arrow.textContent = direction === "asc" ? " ↓" : " ↑";
+"arrow.textContent = direction === \"asc\" ? \" ↓\" : \" ↑\";"
-sortTable(table, index, direction);
+"sortTable(table, index, direction);"
-this.setAttribute("data-sort-direction",
+"this.setAttribute(\"data-sort-direction\","
-direction === "asc" ? "desc" : "asc");
+"direction === \"asc\" ? \"desc\" : \"asc\");"
-});
+"});"
-});
+"});"
-});
+"});"
-});
+"});"
+"function sortTable(table, colNum, direction) {"
-function sortTable(table, colNum, direction) {
+"var tb = table.tBodies[0];"
-var tb = table.tBodies[0];
+"var tr = Array.prototype.slice.call(tb.rows, 0);"
-var tr = Array.prototype.slice.call(tb.rows, 0);
+"var multiplier = direction === \"asc\" ? 1 : -1;"
-var multiplier = direction === "asc" ? 1 : -1;
+"tr = tr.sort(function(a, b) {"
-tr = tr.sort(function(a, b) {
+"var aText = a.cells[colNum].textContent.trim();"
-var aText = a.cells[colNum].textContent.trim();
+"var bText = b.cells[colNum].textContent.trim();"
-var bText = b.cells[colNum].textContent.trim();
+"// Remove arrow from text comparison"
-// Remove arrow from text comparison
+"aText = aText.replace(/[↑↓]/g, '').trim();"
-aText = aText.replace(/[↑↓]/g, '').trim();
+"bText = bText.replace(/[↑↓]/g, '').trim();"
-bText = bText.replace(/[↑↓]/g, '').trim();
+"if (!isNaN(aText) && !isNaN(bText)) {"
-if (!isNaN(aText) && !isNaN(bText)) {
+"return multiplier * ("
-return multiplier * (
+"parseFloat(aText) - parseFloat(bText)"
-parseFloat(aText) - parseFloat(bText)
+");"
-);
+"} else {"
-} else {
+"return multiplier * aText.localeCompare(bText);"
-return multiplier * aText.localeCompare(bText);
+"}"
-}
+"});"
-});
+"for (var i = 0; i < tr.length; ++i) tb.appendChild(tr[i]);"
-for (var i = 0; i < tr.length; ++i) tb.appendChild(tr[i]);
+"}"
-}
+"</script>"
-</script>
+)
-"""
+# --- Add the Feature Metrics Help Modal ---
-html_content += f"""
+html_content += get_feature_metrics_help_modal()
-{get_html_closing()}
+html_content += f"{get_html_closing()}"
-"""
 with open(
 os.path.join(self.output_dir, "comparison_result.html"),
-"w"
+"w",
+encoding="utf-8",
 ) as file:
 file.write(html_content)
 def save_dashboard(self):
 raise NotImplementedError("Subclasses should implement this method")
 def generate_plots_explainer(self):
 raise NotImplementedError("Subclasses should implement this method")
-# not working now
 def generate_tree_plots(self):
-from sklearn.ensemble import RandomForestClassifier, \
+from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
-RandomForestRegressor
 from xgboost import XGBClassifier, XGBRegressor
 from explainerdashboard.explainers import RandomForestExplainer
 LOG.info("Generating tree plots")
 X_test = self.exp.X_test_transformed.copy()
 y_test = self.exp.y_test_transformed
-is_rf = isinstance(self.best_model, RandomForestClassifier) or \
+is_rf = isinstance(
-isinstance(self.best_model, RandomForestRegressor)
+self.best_model, (RandomForestClassifier, RandomForestRegressor)
+)
-is_xgb = isinstance(self.best_model, XGBClassifier) or \
+is_xgb = isinstance(self.best_model, (XGBClassifier, XGBRegressor))
-isinstance(self.best_model, XGBRegressor)
+num_trees = None
+if is_rf:
+num_trees = self.best_model.n_estimators
+elif is_xgb:
+num_trees = len(self.best_model.get_booster().get_dump())
+else:
+LOG.warning("Tree plots not supported for this model type.")
+return
 try:
-if is_rf:
-num_trees = self.best_model.n_estimators
-if is_xgb:
-num_trees = len(self.best_model.get_booster().get_dump())
 explainer = RandomForestExplainer(self.best_model, X_test, y_test)
 for i in range(num_trees):
 fig = explainer.decisiontree_encoded(tree_idx=i, index=0)
-LOG.info(f"Tree {i+1}")
+LOG.info(f"Tree {i + 1}")
 LOG.info(fig)
 self.trees.append(fig)
 except Exception as e:
 LOG.error(f"Error generating tree plots: {e}")

Mercurial > repos > goeckslab > tabular_learner

comparison base_model_trainer.py @ 2:77c88226bfde draft