pycaret_predict: base_model_trainer.py comparison

comparison base_model_trainer.py @ 3:ccd798db5abb draft

planemo upload for repository https://github.com/goeckslab/Galaxy-Pycaret commit cf47efb521b91a9cb44ae5c5ade860627f9b9030

author	goeckslab
date	Tue, 03 Jun 2025 19:31:06 +0000
parents	0314dad38aaa
children	a32ff7201629

comparison

equal deleted inserted replaced

-:0314dad38aaa
+:ccd798db5abb
 import base64
 import logging
 import os
 import tempfile
+import h5py
+import joblib
+import numpy as np
+import pandas as pd
 from feature_importance import FeatureImportanceAnalyzer
-import h5py
-import joblib
-import numpy as np
-import pandas as pd
 from sklearn.metrics import average_precision_score
 from utils import get_html_closing, get_html_template
 logging.basicConfig(level=logging.DEBUG)
 LOG = logging.getLogger(__name__)
 target_col,
 output_dir,
 task_type,
 random_seed,
 test_file=None,
-**kwargs
+**kwargs):
-):
 self.exp = None  # This will be set in the subclass
 self.input_file = input_file
 self.target_col = target_col
 self.output_dir = output_dir
 self.task_type = task_type
 if len(non_numeric_cols) > 0:
 LOG.info(f"Non-numeric columns found: {non_numeric_cols.tolist()}")
 names = self.data.columns.to_list()
-target_index = int(self.target_col)-1
+target_index = int(self.target_col) - 1
 self.target = names[target_index]
 self.features_name = [name
 for i, name in enumerate(names)
 if i != target_index]
 if hasattr(self, 'missing_value_strategy'):
 self.test_file, sep=None, engine='python')
 self.test_data = self.test_data[numeric_cols].apply(
 pd.to_numeric, errors='coerce')
 self.test_data.columns = self.test_data.columns.str.replace(
 '.', '_'
 )
 def setup_pycaret(self):
 LOG.info("Initializing PyCaret")
 self.setup_params = {
 'target': self.target,
 filtered_setup_params = {
 k: v
 for k, v in self.setup_params.items() if k not in excluded_params
 }
 setup_params_table = pd.DataFrame(
-list(filtered_setup_params.items()),
+list(filtered_setup_params.items()), columns=['Parameter', 'Value']
-columns=['Parameter', 'Value'])
+)
 best_model_params = pd.DataFrame(
 self.best_model.get_params().items(),
-columns=['Parameter', 'Value'])
+columns=['Parameter', 'Value']
+)
 best_model_params.to_csv(
-os.path.join(self.output_dir, 'best_model.csv'),
+os.path.join(self.output_dir, "best_model.csv"), index=False
-index=False)
+)
-self.results.to_csv(os.path.join(
+self.results.to_csv(
-self.output_dir, "comparison_results.csv"))
+os.path.join(self.output_dir, "comparison_results.csv")
-self.test_result_df.to_csv(os.path.join(
+)
-self.output_dir, "test_results.csv"))
+self.test_result_df.to_csv(
+os.path.join(self.output_dir, "test_results.csv")
+)
 plots_html = ""
 length = len(self.plots)
 for i, (plot_name, plot_path) in enumerate(self.plots.items()):
 encoded_image = self.encode_image_to_base64(plot_path)
 analyzer = FeatureImportanceAnalyzer(
 data=self.data,
 target_col=self.target_col,
 task_type=self.task_type,
-output_dir=self.output_dir)
+output_dir=self.output_dir,
+)
 feature_importance_html = analyzer.run()
 html_content = f"""
 {get_html_template()}
 <h1>PyCaret Model Training Report</h1>
 Setup & Best Model</div>
 <div class="tab" onclick="openTab(event, 'plots')">
 Best Model Plots</div>
 <div class="tab" onclick="openTab(event, 'feature')">
 Feature Importance</div>
 """
 if self.plots_explainer_html:
 html_content += """
-"<div class="tab" onclick="openTab(event, 'explainer')">"
+<div class="tab" onclick="openTab(event, 'explainer')">
 Explainer Plots</div>
 """
 html_content += f"""
 </div>
 <div id="summary" class="tab-content">
 <h2>Setup Parameters</h2>
-<table>
+{setup_params_table.to_html(
-<tr><th>Parameter</th><th>Value</th></tr>
+index=False,
-{setup_params_table.to_html(
+header=True,
-index=False, header=False, classes='table')}
+classes='table sortable'
-</table>
+)}
 <h5>If you want to know all the experiment setup parameters,
 please check the PyCaret documentation for
 the classification/regression <code>exp</code> function.</h5>
 <h2>Best Model: {model_name}</h2>
-<table>
+{best_model_params.to_html(
-<tr><th>Parameter</th><th>Value</th></tr>
+index=False,
-{best_model_params.to_html(
+header=True,
-index=False, header=False, classes='table')}
+classes='table sortable'
-</table>
+)}
 <h2>Comparison Results on the Cross-Validation Set</h2>
-<table>
+{self.results.to_html(index=False, classes='table sortable')}
-{self.results.to_html(index=False, classes='table')}
-</table>
 <h2>Results on the Test Set for the best model</h2>
-<table>
+{self.test_result_df.to_html(
-{self.test_result_df.to_html(index=False, classes='table')}
+index=False,
-</table>
+classes='table sortable'
+)}
 </div>
 <div id="plots" class="tab-content">
 <h2>Best Model Plots on the testing set</h2>
 {plots_html}
 </div>
 html_content += f"""
 <div id="explainer" class="tab-content">
 {self.plots_explainer_html}
 {tree_plots}
 </div>
-{get_html_closing()}
 """
-else:
+html_content += """
-html_content += f"""
+<script>
-{get_html_closing()}
+document.addEventListener("DOMContentLoaded", function() {
-"""
+var tables = document.querySelectorAll("table.sortable");
-with open(os.path.join(
+tables.forEach(function(table) {
-self.output_dir, "comparison_result.html"), "w") as file:
+var headers = table.querySelectorAll("th");
+headers.forEach(function(header, index) {
+header.style.cursor = "pointer";
+// Add initial arrow (up) to indicate sortability
+header.innerHTML += '<span class="sort-arrow"> ↑</span>';
+header.addEventListener("click", function() {
+var direction = this.getAttribute(
+"data-sort-direction"
+) || "asc";
+// Reset arrows in all headers of this table
+headers.forEach(function(h) {
+var arrow = h.querySelector(".sort-arrow");
+if (arrow) arrow.textContent = " ↑";
+});
+// Set arrow for clicked header
+var arrow = this.querySelector(".sort-arrow");
+arrow.textContent = direction === "asc" ? " ↓" : " ↑";
+sortTable(table, index, direction);
+this.setAttribute("data-sort-direction",
+direction === "asc" ? "desc" : "asc");
+});
+});
+});
+});
+function sortTable(table, colNum, direction) {
+var tb = table.tBodies[0];
+var tr = Array.prototype.slice.call(tb.rows, 0);
+var multiplier = direction === "asc" ? 1 : -1;
+tr = tr.sort(function(a, b) {
+var aText = a.cells[colNum].textContent.trim();
+var bText = b.cells[colNum].textContent.trim();
+// Remove arrow from text comparison
+aText = aText.replace(/[↑↓]/g, '').trim();
+bText = bText.replace(/[↑↓]/g, '').trim();
+if (!isNaN(aText) && !isNaN(bText)) {
+return multiplier * (
+parseFloat(aText) - parseFloat(bText)
+);
+} else {
+return multiplier * aText.localeCompare(bText);
+}
+});
+for (var i = 0; i < tr.length; ++i) tb.appendChild(tr[i]);
+}
+</script>
+"""
+html_content += f"""
+{get_html_closing()}
+"""
+with open(
+os.path.join(self.output_dir, "comparison_result.html"),
+"w"
+) as file:
 file.write(html_content)
 def save_dashboard(self):
 raise NotImplementedError("Subclasses should implement this method")

Mercurial > repos > goeckslab > pycaret_predict

comparison base_model_trainer.py @ 3:ccd798db5abb draft