cobraxy: COBRAxy/src/utils/model

annotate COBRAxy/src/utils/model_utils.py @ 542:fcdbc81feb45 draft

Uploaded

author	francesco_lapi
date	Sun, 26 Oct 2025 19:27:41 +0000
parents	2fb97466e404
children

rev	line source
539 2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	2 Utilities for generating and manipulating COBRA models and related metadata.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	3
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	4 This module includes helpers to:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	5 - extract rules, reactions, bounds, objective coefficients, and compartments
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	6 - build a COBRA model from a tabular file
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	7 - set objective and medium from dataframes
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	8 - validate a model and convert gene identifiers
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	9 - translate model GPRs using mapping tables
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	10 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	11 import os
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	12 import cobra
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	13 import pandas as pd
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	14 import re
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	15 import logging
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	16 from typing import Optional, Tuple, Union, List, Dict, Set
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	17 from collections import defaultdict
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	18 from cobra import Model as cobraModel, Reaction, Metabolite
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	19 import sys
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	20
542 fcdbc81feb45 Uploaded francesco_lapi parents: 539 diff changeset	21 try:
fcdbc81feb45 Uploaded francesco_lapi parents: 539 diff changeset	22 from . import rule_parsing as rulesUtils
fcdbc81feb45 Uploaded francesco_lapi parents: 539 diff changeset	23 from . import reaction_parsing as reactionUtils
fcdbc81feb45 Uploaded francesco_lapi parents: 539 diff changeset	24 except:
fcdbc81feb45 Uploaded francesco_lapi parents: 539 diff changeset	25 import rule_parsing as rulesUtils
fcdbc81feb45 Uploaded francesco_lapi parents: 539 diff changeset	26 import reaction_parsing as reactionUtils
fcdbc81feb45 Uploaded francesco_lapi parents: 539 diff changeset	27
539 2fb97466e404 Uploaded francesco_lapi parents: diff changeset	28
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	29 ############################ check_methods ####################################
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	30 def gene_type(l :str, name :str) -> str:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	31 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	32 Determine the type of gene ID.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	33
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	34 Args:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	35 l (str): The gene identifier to check.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	36 name (str): The name of the dataset, used in error messages.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	37
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	38 Returns:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	39 str: The type of gene ID ('HGNC_ID', 'ENSG', 'HGNC_symbol', or 'entrez_id').
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	40
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	41 Raises:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	42 sys.exit: If the gene ID type is not supported, the execution is aborted.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	43 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	44 if check_hgnc(l):
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	45 return 'HGNC_ID'
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	46 elif check_ensembl(l):
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	47 return 'ENSG'
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	48 elif check_symbol(l):
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	49 return 'HGNC_symbol'
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	50 elif check_entrez(l):
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	51 return 'entrez_id'
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	52 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	53 sys.exit('Execution aborted:\n' +
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	54 'gene ID type in ' + name + ' not supported. Supported ID'+
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	55 'types are: HUGO ID, Ensemble ID, HUGO symbol, Entrez ID\n')
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	56
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	57 def check_hgnc(l :str) -> bool:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	58 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	59 Check if a gene identifier follows the HGNC format.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	60
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	61 Args:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	62 l (str): The gene identifier to check.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	63
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	64 Returns:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	65 bool: True if the gene identifier follows the HGNC format, False otherwise.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	66 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	67 if len(l) > 5:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	68 if (l.upper()).startswith('HGNC:'):
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	69 return l[5:].isdigit()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	70 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	71 return False
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	72 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	73 return False
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	74
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	75 def check_ensembl(l :str) -> bool:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	76 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	77 Check if a gene identifier follows the Ensembl format.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	78
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	79 Args:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	80 l (str): The gene identifier to check.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	81
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	82 Returns:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	83 bool: True if the gene identifier follows the Ensembl format, False otherwise.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	84 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	85 return l.upper().startswith('ENS')
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	86
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	87
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	88 def check_symbol(l :str) -> bool:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	89 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	90 Check if a gene identifier follows the symbol format.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	91
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	92 Args:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	93 l (str): The gene identifier to check.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	94
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	95 Returns:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	96 bool: True if the gene identifier follows the symbol format, False otherwise.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	97 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	98 if len(l) > 0:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	99 if l[0].isalpha() and l[1:].isalnum():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	100 return True
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	101 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	102 return False
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	103 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	104 return False
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	105
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	106 def check_entrez(l :str) -> bool:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	107 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	108 Check if a gene identifier follows the Entrez ID format.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	109
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	110 Args:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	111 l (str): The gene identifier to check.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	112
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	113 Returns:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	114 bool: True if the gene identifier follows the Entrez ID format, False otherwise.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	115 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	116 if len(l) > 0:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	117 return l.isdigit()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	118 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	119 return False
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	120
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	121 ################################- DATA GENERATION -################################
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	122 ReactionId = str
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	123 def generate_rules(model: cobraModel, *, asParsed = True) -> Union[Dict[ReactionId, rulesUtils.OpList], Dict[ReactionId, str]]:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	124 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	125 Generate a dictionary mapping reaction IDs to GPR rules from the model.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	126
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	127 Args:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	128 model: COBRA model to derive data from.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	129 asParsed: If True, parse rules into a nested list structure; otherwise keep raw strings.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	130
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	131 Returns:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	132 Dict[ReactionId, rulesUtils.OpList]: Parsed rules by reaction ID.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	133 Dict[ReactionId, str]: Raw rules by reaction ID.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	134 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	135 _ruleGetter = lambda reaction : reaction.gene_reaction_rule
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	136 ruleExtractor = (lambda reaction :
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	137 rulesUtils.parseRuleToNestedList(_ruleGetter(reaction))) if asParsed else _ruleGetter
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	138
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	139 return {
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	140 reaction.id : ruleExtractor(reaction)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	141 for reaction in model.reactions
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	142 if reaction.gene_reaction_rule }
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	143
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	144 def generate_reactions(model :cobraModel, *, asParsed = True) -> Dict[ReactionId, str]:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	145 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	146 Generate a dictionary mapping reaction IDs to reaction formulas from the model.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	147
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	148 Args:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	149 model: COBRA model to derive data from.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	150 asParsed: If True, convert formulas into a parsed representation; otherwise keep raw strings.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	151
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	152 Returns:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	153 Dict[ReactionId, str]: Reactions by reaction ID (parsed if requested).
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	154 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	155
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	156 unparsedReactions = {
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	157 reaction.id : reaction.reaction
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	158 for reaction in model.reactions
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	159 if reaction.reaction
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	160 }
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	161
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	162 if not asParsed: return unparsedReactions
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	163
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	164 return reactionUtils.create_reaction_dict(unparsedReactions)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	165
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	166 def get_medium(model:cobraModel) -> pd.DataFrame:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	167 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	168 Extract the uptake reactions representing the model medium.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	169
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	170 Returns a DataFrame with a single column 'reaction' listing exchange reactions
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	171 with negative lower bound and no positive stoichiometric coefficients (uptake only).
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	172 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	173 trueMedium=[]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	174 for r in model.reactions:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	175 positiveCoeff=0
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	176 for m in r.metabolites:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	177 if r.get_coefficient(m.id)>0:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	178 positiveCoeff=1;
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	179 if (positiveCoeff==0 and r.lower_bound<0):
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	180 trueMedium.append(r.id)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	181
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	182 df_medium = pd.DataFrame()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	183 df_medium["reaction"] = trueMedium
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	184 return df_medium
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	185
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	186 def extract_objective_coefficients(model: cobraModel) -> pd.DataFrame:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	187 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	188 Extract objective coefficients for each reaction.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	189
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	190 Args:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	191 model: COBRA model
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	192
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	193 Returns:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	194 pd.DataFrame with columns: ReactionID, ObjectiveCoefficient
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	195 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	196 coeffs = []
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	197 # model.objective.expression is a linear expression
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	198 objective_expr = model.objective.expression.as_coefficients_dict()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	199
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	200 for reaction in model.reactions:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	201 coeff = objective_expr.get(reaction.forward_variable, 0.0)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	202 coeffs.append({
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	203 "ReactionID": reaction.id,
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	204 "ObjectiveCoefficient": coeff
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	205 })
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	206
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	207 return pd.DataFrame(coeffs)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	208
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	209 def generate_bounds(model:cobraModel) -> pd.DataFrame:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	210 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	211 Build a DataFrame of lower/upper bounds for all reactions.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	212
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	213 Returns:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	214 pd.DataFrame indexed by reaction IDs with columns ['lower_bound', 'upper_bound'].
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	215 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	216
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	217 rxns = []
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	218 for reaction in model.reactions:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	219 rxns.append(reaction.id)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	220
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	221 bounds = pd.DataFrame(columns = ["lower_bound", "upper_bound"], index=rxns)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	222
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	223 for reaction in model.reactions:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	224 bounds.loc[reaction.id] = [reaction.lower_bound, reaction.upper_bound]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	225 return bounds
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	226
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	227
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	228
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	229 def generate_compartments(model: cobraModel) -> pd.DataFrame:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	230 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	231 Generates a DataFrame containing pathway information for each reaction.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	232 Creates columns for each pathway position (Pathway_1, Pathway_2, etc.) only if pathways exist.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	233
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	234 Args:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	235 model: the COBRA model to extract pathway data from.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	236
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	237 Returns:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	238 pd.DataFrame: DataFrame with ReactionID and pathway columns (if any pathways exist)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	239 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	240 pathway_data = []
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	241
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	242 # First pass: determine the maximum number of pathways any reaction has
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	243 max_pathways = 0
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	244 reaction_pathways = {}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	245 has_any_pathways = False
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	246
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	247 for reaction in model.reactions:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	248 # Get unique pathways from all metabolites in the reaction
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	249 if 'pathways' in reaction.annotation and reaction.annotation['pathways']:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	250 if type(reaction.annotation['pathways']) == list:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	251 # Filter out empty/None values
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	252 valid_pathways = [p for p in reaction.annotation['pathways'] if p]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	253 if valid_pathways:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	254 reaction_pathways[reaction.id] = valid_pathways
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	255 max_pathways = max(max_pathways, len(valid_pathways))
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	256 has_any_pathways = True
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	257 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	258 reaction_pathways[reaction.id] = []
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	259 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	260 # Single pathway value
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	261 if reaction.annotation['pathways']:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	262 reaction_pathways[reaction.id] = [reaction.annotation['pathways']]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	263 max_pathways = max(max_pathways, 1)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	264 has_any_pathways = True
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	265 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	266 reaction_pathways[reaction.id] = []
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	267 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	268 # No pathway annotation - use empty list
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	269 reaction_pathways[reaction.id] = []
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	270
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	271 # If no pathways exist in the model, return DataFrame with only ReactionID
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	272 if not has_any_pathways:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	273 return None
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	274
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	275 # Create column names for pathways only if they exist
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	276 pathway_columns = [f"Pathway_{i+1}" for i in range(max_pathways)]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	277
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	278 # Second pass: create the data with pathway columns
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	279 for reaction_id, pathways in reaction_pathways.items():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	280 row = {"ReactionID": reaction_id}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	281
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	282 # Fill pathway columns
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	283 for i in range(max_pathways):
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	284 col_name = pathway_columns[i]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	285 if i < len(pathways):
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	286 row[col_name] = pathways[i]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	287 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	288 row[col_name] = None
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	289
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	290 pathway_data.append(row)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	291
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	292 return pd.DataFrame(pathway_data)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	293
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	294 def set_annotation_pathways_from_data(model: cobraModel, df: pd.DataFrame):
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	295 """Set reaction pathways based on 'Pathway_1', 'Pathway_2', ... columns in the dataframe."""
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	296 pathway_cols = [col for col in df.columns if col.startswith('Pathway_')]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	297 if not pathway_cols:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	298 print("No 'Pathway_' columns found, skipping pathway annotation")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	299 return
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	300
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	301 pathway_data = defaultdict(list)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	302
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	303 for idx, row in df.iterrows():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	304 reaction_id = str(row['ReactionID']).strip()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	305 if reaction_id not in model.reactions:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	306 continue
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	307
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	308 pathways = []
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	309 for col in pathway_cols:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	310 if pd.notna(row[col]) and str(row[col]).strip():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	311 pathways.append(str(row[col]).strip())
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	312
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	313 if pathways:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	314
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	315 reaction = model.reactions.get_by_id(reaction_id)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	316 if len(pathways) == 1:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	317 reaction.annotation['pathways'] = pathways[0]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	318 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	319 reaction.annotation['pathways'] = pathways
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	320
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	321 pathway_data[reaction_id] = pathways
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	322
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	323 print(f"Annotated {len(pathway_data)} reactions with pathways.")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	324
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	325 def build_cobra_model_from_csv(csv_path: str, model_id: str = "new_model") -> cobraModel:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	326 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	327 Build a COBRApy model from a tabular file with reaction data.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	328
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	329 Args:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	330 csv_path: Path to the tab-separated file.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	331 model_id: ID for the newly created model.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	332
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	333 Returns:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	334 cobra.Model: The constructed COBRApy model.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	335 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	336
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	337 # Try to detect separator
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	338 with open(csv_path, 'r') as f:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	339 first_line = f.readline()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	340 sep = '\t' if '\t' in first_line else ','
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	341
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	342 df = pd.read_csv(csv_path, sep=sep)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	343
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	344 # Check required columns
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	345 required_cols = ['ReactionID', 'Formula']
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	346 missing_cols = [col for col in required_cols if col not in df.columns]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	347 if missing_cols:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	348 raise ValueError(f"Missing required columns: {missing_cols}. Available columns: {list(df.columns)}")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	349
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	350 model = cobraModel(model_id)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	351
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	352 metabolites_dict = {}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	353 compartments_dict = {}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	354
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	355 print(f"Building model from {len(df)} reactions...")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	356
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	357 for idx, row in df.iterrows():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	358 reaction_formula = str(row['Formula']).strip()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	359 if not reaction_formula or reaction_formula == 'nan':
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	360 continue
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	361
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	362 metabolites = extract_metabolites_from_reaction(reaction_formula)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	363
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	364 for met_id in metabolites:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	365 compartment = extract_compartment_from_metabolite(met_id)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	366
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	367 if compartment not in compartments_dict:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	368 compartments_dict[compartment] = compartment
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	369
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	370 if met_id not in metabolites_dict:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	371 metabolites_dict[met_id] = Metabolite(
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	372 id=met_id,
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	373 compartment=compartment,
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	374 name=met_id.replace(f"_{compartment}", "").replace("__", "_")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	375 )
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	376
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	377 model.compartments = compartments_dict
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	378
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	379 model.add_metabolites(list(metabolites_dict.values()))
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	380
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	381 print(f"Added {len(metabolites_dict)} metabolites and {len(compartments_dict)} compartments")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	382
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	383 reactions_added = 0
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	384 reactions_skipped = 0
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	385
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	386 for idx, row in df.iterrows():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	387
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	388 reaction_id = str(row['ReactionID']).strip()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	389 reaction_formula = str(row['Formula']).strip()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	390
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	391 if not reaction_formula or reaction_formula == 'nan':
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	392 raise ValueError(f"Missing reaction formula for {reaction_id}")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	393
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	394 reaction = Reaction(reaction_id)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	395 reaction.name = reaction_id
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	396
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	397 reaction.lower_bound = float(row['lower_bound']) if pd.notna(row['lower_bound']) else -1000.0
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	398 reaction.upper_bound = float(row['upper_bound']) if pd.notna(row['upper_bound']) else 1000.0
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	399
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	400 if pd.notna(row['GPR']) and str(row['GPR']).strip():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	401 reaction.gene_reaction_rule = str(row['GPR']).strip()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	402
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	403 try:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	404 parse_reaction_formula(reaction, reaction_formula, metabolites_dict)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	405 except Exception as e:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	406 print(f"Error parsing reaction {reaction_id}: {e}")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	407 reactions_skipped += 1
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	408 continue
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	409
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	410 model.add_reactions([reaction])
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	411 reactions_added += 1
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	412
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	413
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	414 print(f"Added {reactions_added} reactions, skipped {reactions_skipped} reactions")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	415
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	416 # set objective function
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	417 set_objective_from_csv(model, df, obj_col="ObjectiveCoefficient")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	418
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	419 set_medium_from_data(model, df)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	420
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	421 set_annotation_pathways_from_data(model, df)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	422
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	423 print(f"Model completed: {len(model.reactions)} reactions, {len(model.metabolites)} metabolites")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	424
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	425 return model
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	426
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	427
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	428 # Estrae tutti gli ID metaboliti nella formula (gestisce prefissi numerici + underscore)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	429 #def extract_metabolites_from_reaction(reaction_formula: str) -> Set[str]:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	430 # """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	431 # Extract metabolite IDs from a reaction formula.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	432 # Robust pattern: tokens ending with _<compartment> (e.g., _c, _m, _e),
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	433 # allowing leading digits/underscores.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	434 # """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	435 # metabolites = set()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	436 # # optional coefficient followed by a token ending with _<letters>
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	437 # if reaction_formula[-1] == ']' and reaction_formula[-3] == '[':
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	438 # pattern = r'(?:\d+(?:\.\d+)?\s+)?([A-Za-z0-9_]+[[A-Za-z0-9]]+)'
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	439 # else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	440 # pattern = r'(?:\d+(?:\.\d+)?\s+)?([A-Za-z0-9_]+_[A-Za-z0-9]+)'
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	441 # matches = re.findall(pattern, reaction_formula)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	442 # metabolites.update(matches)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	443 # return metabolites
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	444
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	445
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	446 def extract_metabolites_from_reaction(reaction_formula: str) -> Set[str]:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	447 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	448 Extract metabolite IDs from a reaction formula.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	449
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	450 Handles:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	451 - optional stoichiometric coefficients (integers or decimals)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	452 - compartment tags at the end of the metabolite, either [c] or _c
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	453
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	454 Returns the IDs including the compartment suffix exactly as written.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	455 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	456 pattern = re.compile(
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	457 r'(?:^\|(?<=\s)\|(?<=\+)\|(?<=,)\|(?<==)\|(?<=:))' # left boundary (start, space, +, comma, =, :)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	458 r'(?:\d+(?:\.\d+)?\s+)?' # optional coefficient (requires space after)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	459 r'([A-Za-z0-9][A-Za-z0-9_]*(?:\[[A-Za-z0-9]+\]\|_[A-Za-z0-9]+))' # metabolite + compartment (can start with number)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	460 )
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	461 return {m.group(1) for m in pattern.finditer(reaction_formula)}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	462
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	463
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	464
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	465 def extract_compartment_from_metabolite(metabolite_id: str) -> str:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	466 """Extract the compartment from a metabolite ID."""
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	467 if '_' == metabolite_id[-2]:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	468 return metabolite_id.split('_')[-1]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	469 if metabolite_id[-1] == ']' and metabolite_id[-3] == '[':
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	470 return metabolite_id[-2]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	471 return 'c' # default cytoplasm
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	472
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	473
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	474 def parse_reaction_formula(reaction: Reaction, formula: str, metabolites_dict: Dict[str, Metabolite]):
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	475 """Parse a reaction formula and set metabolites with their coefficients."""
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	476
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	477 if '<=>' in formula:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	478 parts = formula.split('<=>')
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	479 reversible = True
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	480 elif '<--' in formula:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	481 parts = formula.split('<--')
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	482 reversible = False
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	483 elif '-->' in formula:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	484 parts = formula.split('-->')
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	485 reversible = False
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	486 elif '<-' in formula:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	487 parts = formula.split('<-')
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	488 reversible = False
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	489 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	490 raise ValueError(f"Unrecognized reaction format: {formula}")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	491
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	492 # Handle cases where one side might be empty (exchange reactions)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	493 if len(parts) != 2:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	494 raise ValueError(f"Invalid reaction format, expected 2 parts: {formula}")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	495
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	496 left, right = parts[0].strip(), parts[1].strip()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	497
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	498 reactants = parse_metabolites_side(left) if left else {}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	499 products = parse_metabolites_side(right) if right else {}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	500
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	501 metabolites_to_add = {}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	502
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	503 for met_id, coeff in reactants.items():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	504 if met_id in metabolites_dict:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	505 metabolites_to_add[metabolites_dict[met_id]] = -coeff
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	506
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	507 for met_id, coeff in products.items():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	508 if met_id in metabolites_dict:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	509 metabolites_to_add[metabolites_dict[met_id]] = coeff
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	510
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	511 reaction.add_metabolites(metabolites_to_add)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	512
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	513
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	514 def parse_metabolites_side(side_str: str) -> Dict[str, float]:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	515 """Parse one side of a reaction and extract metabolites with coefficients."""
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	516 metabolites = {}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	517 if not side_str or side_str.strip() == '':
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	518 return metabolites
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	519
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	520 terms = side_str.split('+')
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	521 for term in terms:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	522 term = term.strip()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	523 if not term:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	524 continue
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	525
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	526 # First check if term has space-separated coefficient and metabolite
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	527 parts = term.split()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	528 if len(parts) == 2:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	529 # Two parts: potential coefficient + metabolite
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	530 try:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	531 coeff = float(parts[0])
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	532 met_id = parts[1]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	533 # Verify the second part looks like a metabolite with compartment
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	534 if re.match(r'[A-Za-z0-9_]+(?:\[[A-Za-z0-9]+\]\|_[A-Za-z0-9]+)', met_id):
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	535 metabolites[met_id] = coeff
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	536 continue
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	537 except ValueError:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	538 pass
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	539
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	540 # Single term - check if it's a metabolite (no coefficient)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	541 # Updated pattern to include metabolites starting with numbers
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	542 if re.match(r'[A-Za-z0-9][A-Za-z0-9_]*(?:\[[A-Za-z0-9]+\]\|_[A-Za-z0-9]+)', term):
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	543 metabolites[term] = 1.0
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	544 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	545 print(f"Warning: Could not parse metabolite term: '{term}'")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	546
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	547 return metabolites
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	548
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	549
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	550
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	551 def set_objective_from_csv(model: cobra.Model, df: pd.DataFrame, obj_col: str = "ObjectiveCoefficient"):
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	552 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	553 Sets the model's objective function based on a column of coefficients in the CSV.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	554 Can be any reaction(s), not necessarily biomass.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	555 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	556 obj_dict = {}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	557
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	558 for idx, row in df.iterrows():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	559 reaction_id = str(row['ReactionID']).strip()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	560 coeff = float(row[obj_col]) if pd.notna(row[obj_col]) else 0.0
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	561 if coeff != 0:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	562 if reaction_id in model.reactions:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	563 obj_dict[model.reactions.get_by_id(reaction_id)] = coeff
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	564 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	565 print(f"Warning: reaction {reaction_id} not found in model, skipping for objective.")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	566
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	567 if not obj_dict:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	568 raise ValueError("No reactions found with non-zero objective coefficient.")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	569
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	570 model.objective = obj_dict
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	571 print(f"Objective set with {len(obj_dict)} reactions.")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	572
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	573
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	574
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	575
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	576 def set_medium_from_data(model: cobraModel, df: pd.DataFrame):
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	577 """Set the medium based on the 'InMedium' column in the dataframe."""
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	578 if 'InMedium' not in df.columns:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	579 print("No 'InMedium' column found, skipping medium setup")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	580 return
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	581
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	582 medium_reactions = df[df['InMedium'] == True]['ReactionID'].tolist()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	583
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	584 medium_dict = {}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	585 for rxn_id in medium_reactions:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	586 if rxn_id in [r.id for r in model.reactions]:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	587 reaction = model.reactions.get_by_id(rxn_id)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	588 if reaction.lower_bound < 0:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	589 medium_dict[rxn_id] = abs(reaction.lower_bound)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	590
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	591 if medium_dict:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	592 model.medium = medium_dict
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	593 print(f"Medium set with {len(medium_dict)} components")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	594 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	595 print("No medium components found")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	596 def validate_model(model: cobraModel) -> Dict[str, any]:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	597 """Validate the model and return basic statistics."""
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	598 validation = {
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	599 'num_reactions': len(model.reactions),
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	600 'num_metabolites': len(model.metabolites),
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	601 'num_genes': len(model.genes),
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	602 'num_compartments': len(model.compartments),
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	603 'objective': str(model.objective),
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	604 'medium_size': len(model.medium),
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	605 'reversible_reactions': len([r for r in model.reactions if r.reversibility]),
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	606 'exchange_reactions': len([r for r in model.reactions if r.id.startswith('EX_')]),
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	607 }
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	608
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	609 try:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	610 # Growth test
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	611 solution = model.optimize()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	612 validation['growth_rate'] = solution.objective_value
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	613 validation['status'] = solution.status
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	614 except Exception as e:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	615 validation['growth_rate'] = None
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	616 validation['status'] = f"Error: {e}"
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	617
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	618 return validation
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	619
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	620 def convert_genes(model, annotation):
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	621 """Rename genes using a selected annotation key in gene.notes; returns a model copy."""
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	622 from cobra.manipulation import rename_genes
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	623 model2=model.copy()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	624 try:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	625 dict_genes={gene.id:gene.notes[annotation] for gene in model2.genes}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	626 except:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	627 print("No annotation in gene dict!")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	628 return -1
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	629 rename_genes(model2,dict_genes)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	630
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	631 return model2
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	632
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	633 # ---------- Utility helpers ----------
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	634 def _normalize_colname(col: str) -> str:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	635 return col.strip().lower().replace(' ', '_')
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	636
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	637 def _choose_columns(mapping_df: 'pd.DataFrame') -> Dict[str, str]:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	638 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	639 Find useful columns and return a dict {ensg: colname1, hgnc_id: colname2, ...}.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	640 Raise ValueError if no suitable mapping is found.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	641 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	642 cols = { _normalize_colname(c): c for c in mapping_df.columns }
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	643 chosen = {}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	644 # candidate names for each category
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	645 candidates = {
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	646 'ensg': ['ensg', 'ensembl_gene_id', 'ensembl'],
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	647 'hgnc_id': ['hgnc_id', 'hgnc', 'hgnc:'],
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	648 'hgnc_symbol': ['hgnc_symbol', 'hgnc symbol', 'symbol'],
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	649 'entrez_id': ['entrez', 'entrez_id', 'entrezgene'],
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	650 'gene_number': ['gene_number']
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	651 }
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	652 for key, names in candidates.items():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	653 for n in names:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	654 if n in cols:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	655 chosen[key] = cols[n]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	656 break
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	657 return chosen
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	658
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	659 def _validate_target_uniqueness(mapping_df: 'pd.DataFrame',
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	660 source_col: str,
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	661 target_col: str,
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	662 model_source_genes: Optional[Set[str]] = None,
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	663 logger: Optional[logging.Logger] = None) -> None:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	664 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	665 Check that, within the filtered mapping_df, each target maps to at most one source.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	666 Log examples if duplicates are found.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	667 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	668 if logger is None:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	669 logger = logging.getLogger(__name__)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	670
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	671 if mapping_df.empty:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	672 logger.warning("Mapping dataframe is empty for the requested source genes; skipping uniqueness validation.")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	673 return
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	674
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	675 # normalize temporary columns for grouping (without altering the original df)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	676 tmp = mapping_df[[source_col, target_col]].copy()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	677 tmp['_src_norm'] = tmp[source_col].astype(str).apply(_normalize_gene_id)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	678 tmp['_tgt_norm'] = tmp[target_col].astype(str).str.strip()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	679
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	680 # optionally filter to the set of model source genes
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	681 if model_source_genes is not None:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	682 tmp = tmp[tmp['_src_norm'].isin(model_source_genes)]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	683
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	684 if tmp.empty:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	685 logger.warning("After filtering to model source genes, mapping table is empty — nothing to validate.")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	686 return
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	687
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	688 # build reverse mapping: target -> set(sources)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	689 grouped = tmp.groupby('_tgt_norm')['_src_norm'].agg(lambda s: set(s.dropna()))
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	690 # find targets with more than one source
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	691 problematic = {t: sorted(list(s)) for t, s in grouped.items() if len(s) > 1}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	692
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	693 if problematic:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	694 # prepare warning message with examples (limited subset)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	695 sample_items = list(problematic.items())
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	696 msg_lines = ["Mapping validation failed: some target IDs are associated with multiple source IDs."]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	697 for tgt, sources in sample_items:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	698 msg_lines.append(f" - target '{tgt}' <- sources: {', '.join(sources)}")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	699 full_msg = "\n".join(msg_lines)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	700 # log warning
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	701 logger.warning(full_msg)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	702
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	703 # if everything is fine
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	704 logger.info("Mapping validation passed: no target ID is associated with multiple source IDs (within filtered set).")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	705
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	706
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	707 def _normalize_gene_id(g: str) -> str:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	708 """Normalize a gene ID for use as a key (removes prefixes like 'HGNC:' and strips)."""
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	709 if g is None:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	710 return ""
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	711 g = str(g).strip()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	712 # remove common prefixes
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	713 g = re.sub(r'^(HGNC:)', '', g, flags=re.IGNORECASE)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	714 g = re.sub(r'^(ENSG:)', '', g, flags=re.IGNORECASE)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	715 return g
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	716
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	717 def _is_or_only_expression(expr: str) -> bool:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	718 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	719 Check if a GPR expression contains only OR operators (no AND operators).
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	720
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	721 Args:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	722 expr: GPR expression string
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	723
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	724 Returns:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	725 bool: True if expression contains only OR (and parentheses) and has multiple genes, False otherwise
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	726 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	727 if not expr or not expr.strip():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	728 return False
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	729
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	730 # Normalize the expression
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	731 normalized = expr.replace(' AND ', ' and ').replace(' OR ', ' or ')
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	732
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	733 # Check if it contains any AND operators
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	734 has_and = ' and ' in normalized.lower()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	735
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	736 # Check if it contains OR operators
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	737 has_or = ' or ' in normalized.lower()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	738
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	739 # Must have OR operators and no AND operators
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	740 return has_or and not has_and
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	741
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	742
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	743 def _flatten_or_only_gpr(expr: str) -> str:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	744 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	745 Flatten a GPR expression that contains only OR operators by:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	746 1. Removing all parentheses
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	747 2. Extracting unique gene names
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	748 3. Joining them with ' or '
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	749
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	750 Args:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	751 expr: GPR expression string with only OR operators
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	752
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	753 Returns:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	754 str: Flattened GPR expression
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	755 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	756 if not expr or not expr.strip():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	757 return expr
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	758
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	759 # Extract all gene tokens (exclude logical operators and parentheses)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	760 gene_pattern = r'\b[A-Za-z0-9:_.-]+\b'
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	761 logical = {'and', 'or', 'AND', 'OR', '(', ')'}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	762
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	763 tokens = re.findall(gene_pattern, expr)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	764 genes = [t for t in tokens if t not in logical]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	765
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	766 # Create set to remove duplicates, then convert back to list to maintain some order
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	767 unique_genes = list(dict.fromkeys(genes)) # Preserves insertion order
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	768
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	769 if len(unique_genes) == 0:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	770 return expr
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	771 elif len(unique_genes) == 1:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	772 return unique_genes[0]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	773 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	774 return ' or '.join(unique_genes)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	775
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	776
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	777 def _simplify_boolean_expression(expr: str) -> str:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	778 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	779 Simplify a boolean expression by removing duplicates while strictly preserving semantics.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	780 This function handles simple duplicates within parentheses while being conservative about
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	781 complex expressions that could change semantics.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	782 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	783 if not expr or not expr.strip():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	784 return expr
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	785
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	786 # Normalize operators and whitespace
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	787 expr = expr.replace(' AND ', ' and ').replace(' OR ', ' or ')
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	788 expr = ' '.join(expr.split()) # Normalize whitespace
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	789
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	790 def simplify_parentheses_content(match_obj):
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	791 """Helper function to simplify content within parentheses."""
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	792 content = match_obj.group(1) # Content inside parentheses
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	793
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	794 # Only simplify if it's a pure OR or pure AND chain
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	795 if ' or ' in content and ' and ' not in content:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	796 # Pure OR chain - safe to deduplicate
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	797 parts = [p.strip() for p in content.split(' or ') if p.strip()]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	798 unique_parts = []
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	799 seen = set()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	800 for part in parts:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	801 if part not in seen:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	802 unique_parts.append(part)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	803 seen.add(part)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	804
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	805 if len(unique_parts) == 1:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	806 return unique_parts[0] # Remove unnecessary parentheses for single items
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	807 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	808 return '(' + ' or '.join(unique_parts) + ')'
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	809
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	810 elif ' and ' in content and ' or ' not in content:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	811 # Pure AND chain - safe to deduplicate
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	812 parts = [p.strip() for p in content.split(' and ') if p.strip()]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	813 unique_parts = []
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	814 seen = set()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	815 for part in parts:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	816 if part not in seen:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	817 unique_parts.append(part)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	818 seen.add(part)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	819
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	820 if len(unique_parts) == 1:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	821 return unique_parts[0] # Remove unnecessary parentheses for single items
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	822 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	823 return '(' + ' and '.join(unique_parts) + ')'
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	824 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	825 # Mixed operators or single item - return with parentheses as-is
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	826 return '(' + content + ')'
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	827
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	828 def remove_duplicates_simple(parts_str: str, separator: str) -> str:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	829 """Remove duplicates from a simple chain of operations."""
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	830 parts = [p.strip() for p in parts_str.split(separator) if p.strip()]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	831
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	832 # Remove duplicates while preserving order
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	833 unique_parts = []
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	834 seen = set()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	835 for part in parts:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	836 if part not in seen:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	837 unique_parts.append(part)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	838 seen.add(part)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	839
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	840 if len(unique_parts) == 1:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	841 return unique_parts[0]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	842 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	843 return f' {separator} '.join(unique_parts)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	844
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	845 try:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	846 import re
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	847
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	848 # First, simplify content within parentheses
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	849 # This handles cases like (A or A) -> A and (B and B) -> B
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	850 expr_simplified = re.sub(r'\(([^()]+)\)', simplify_parentheses_content, expr)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	851
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	852 # Check if the resulting expression has mixed operators
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	853 has_and = ' and ' in expr_simplified
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	854 has_or = ' or ' in expr_simplified
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	855
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	856 # Only simplify top-level if it's pure AND or pure OR
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	857 if has_and and not has_or and '(' not in expr_simplified:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	858 # Pure AND chain at top level - safe to deduplicate
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	859 return remove_duplicates_simple(expr_simplified, 'and')
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	860 elif has_or and not has_and and '(' not in expr_simplified:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	861 # Pure OR chain at top level - safe to deduplicate
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	862 return remove_duplicates_simple(expr_simplified, 'or')
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	863 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	864 # Mixed operators or has parentheses - return the simplified version (with parentheses content cleaned)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	865 return expr_simplified
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	866
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	867 except Exception:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	868 # If anything goes wrong, return the original expression
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	869 return expr
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	870
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	871
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	872 def translate_model_genes(model: 'cobra.Model',
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	873 mapping_df: 'pd.DataFrame',
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	874 target_nomenclature: str,
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	875 source_nomenclature: str = 'hgnc_id',
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	876 allow_many_to_one: bool = False,
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	877 logger: Optional[logging.Logger] = None) -> Tuple['cobra.Model', Dict[str, str]]:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	878 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	879 Translate model genes from source_nomenclature to target_nomenclature using a mapping table.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	880 mapping_df should contain columns enabling mapping (e.g., ensg, hgnc_id, hgnc_symbol, entrez).
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	881
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	882 Args:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	883 model: COBRA model to translate.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	884 mapping_df: DataFrame containing the mapping information.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	885 target_nomenclature: Desired target key (e.g., 'hgnc_symbol').
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	886 source_nomenclature: Current source key in the model (default 'hgnc_id').
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	887 allow_many_to_one: If True, allow many-to-one mappings and handle duplicates in GPRs.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	888 logger: Optional logger.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	889
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	890 Returns:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	891 Tuple containing:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	892 - Translated COBRA model
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	893 - Dictionary mapping reaction IDs to translation issue descriptions
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	894 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	895 if logger is None:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	896 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	897 logger = logging.getLogger(__name__)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	898
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	899 logger.info(f"Translating genes from '{source_nomenclature}' to '{target_nomenclature}'")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	900
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	901 # normalize column names and choose relevant columns
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	902 chosen = _choose_columns(mapping_df)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	903 if not chosen:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	904 raise ValueError("Could not detect useful columns in mapping_df. Expected at least one of: ensg, hgnc_id, hgnc_symbol, entrez.")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	905
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	906 # map source/target to actual dataframe column names (allow user-specified source/target keys)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	907 # normalize input args
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	908 src_key = source_nomenclature.strip().lower()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	909 tgt_key = target_nomenclature.strip().lower()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	910
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	911 # try to find the actual column names for requested keys
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	912 col_for_src = None
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	913 col_for_tgt = None
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	914 # first, try exact match
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	915 for k, actual in chosen.items():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	916 if k == src_key:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	917 col_for_src = actual
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	918 if k == tgt_key:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	919 col_for_tgt = actual
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	920
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	921 # if not found, try mapping common names
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	922 if col_for_src is None:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	923 possible_src_names = {k: v for k, v in chosen.items()}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	924 # try to match by contained substring
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	925 for k, actual in possible_src_names.items():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	926 if src_key in k:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	927 col_for_src = actual
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	928 break
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	929
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	930 if col_for_tgt is None:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	931 for k, actual in chosen.items():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	932 if tgt_key in k:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	933 col_for_tgt = actual
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	934 break
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	935
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	936 if col_for_src is None:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	937 raise ValueError(f"Source column for '{source_nomenclature}' not found in mapping dataframe.")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	938 if col_for_tgt is None:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	939 raise ValueError(f"Target column for '{target_nomenclature}' not found in mapping dataframe.")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	940
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	941 model_source_genes = { _normalize_gene_id(g.id) for g in model.genes }
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	942 logger.info(f"Filtering mapping to {len(model_source_genes)} source genes present in model (normalized).")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	943
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	944 tmp_map = mapping_df[[col_for_src, col_for_tgt]].dropna().copy()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	945 tmp_map[col_for_src + "_norm"] = tmp_map[col_for_src].astype(str).apply(_normalize_gene_id)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	946
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	947 filtered_map = tmp_map[tmp_map[col_for_src + "_norm"].isin(model_source_genes)].copy()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	948
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	949 if filtered_map.empty:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	950 logger.warning("No mapping rows correspond to source genes present in the model after filtering. Proceeding with empty mapping (no translation will occur).")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	951
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	952 if not allow_many_to_one:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	953 _validate_target_uniqueness(filtered_map, col_for_src, col_for_tgt, model_source_genes=model_source_genes, logger=logger)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	954
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	955 # Crea il mapping
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	956 gene_mapping = _create_gene_mapping(filtered_map, col_for_src, col_for_tgt, logger)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	957
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	958 # copy model
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	959 model_copy = model.copy()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	960
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	961 # statistics
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	962 stats = {'translated': 0, 'one_to_one': 0, 'one_to_many': 0, 'not_found': 0, 'simplified_gprs': 0, 'flattened_or_gprs': 0}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	963 unmapped = []
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	964 multi = []
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	965
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	966 # Dictionary to store translation issues per reaction
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	967 reaction_translation_issues = {}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	968
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	969 original_genes = {g.id for g in model_copy.genes}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	970 logger.info(f"Original genes count: {len(original_genes)}")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	971
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	972 # translate GPRs
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	973 for rxn in model_copy.reactions:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	974 gpr = rxn.gene_reaction_rule
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	975 if gpr and gpr.strip():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	976 new_gpr, rxn_issues = _translate_gpr(gpr, gene_mapping, stats, unmapped, multi, logger, track_issues=True)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	977 if rxn_issues:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	978 reaction_translation_issues[rxn.id] = rxn_issues
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	979
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	980 if new_gpr != gpr:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	981 # Check if this GPR has translation issues and contains only OR operators
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	982 if rxn_issues and _is_or_only_expression(new_gpr):
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	983 # Flatten the GPR: remove parentheses and create set of unique genes
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	984 flattened_gpr = _flatten_or_only_gpr(new_gpr)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	985 if flattened_gpr != new_gpr:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	986 stats['flattened_or_gprs'] += 1
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	987 logger.debug(f"Flattened OR-only GPR with issues for {rxn.id}: '{new_gpr}' -> '{flattened_gpr}'")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	988 new_gpr = flattened_gpr
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	989
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	990 simplified_gpr = _simplify_boolean_expression(new_gpr)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	991 if simplified_gpr != new_gpr:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	992 stats['simplified_gprs'] += 1
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	993 logger.debug(f"Simplified GPR for {rxn.id}: '{new_gpr}' -> '{simplified_gpr}'")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	994 rxn.gene_reaction_rule = simplified_gpr
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	995 logger.debug(f"Reaction {rxn.id}: '{gpr}' -> '{simplified_gpr}'")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	996
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	997 # update model genes based on new GPRs
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	998 _update_model_genes(model_copy, logger)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	999
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1000 # final logging
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1001 _log_translation_statistics(stats, unmapped, multi, original_genes, model_copy.genes, logger)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1002
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1003 logger.info("Translation finished")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1004 return model_copy, reaction_translation_issues
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1005
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1006
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1007 # ---------- helper functions ----------
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1008 def _create_gene_mapping(mapping_df, source_col: str, target_col: str, logger: logging.Logger) -> Dict[str, List[str]]:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1009 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1010 Build mapping dict: source_id -> list of target_ids
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1011 Normalizes IDs (removes prefixes like 'HGNC:' etc).
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1012 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1013 df = mapping_df[[source_col, target_col]].dropna().copy()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1014 # normalize to string
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1015 df[source_col] = df[source_col].astype(str).apply(_normalize_gene_id)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1016 df[target_col] = df[target_col].astype(str).str.strip()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1017
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1018 df = df.drop_duplicates()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1019
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1020 logger.info(f"Creating mapping from {len(df)} rows")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1021
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1022 mapping = defaultdict(list)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1023 for _, row in df.iterrows():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1024 s = row[source_col]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1025 t = row[target_col]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1026 if t not in mapping[s]:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1027 mapping[s].append(t)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1028
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1029 # stats
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1030 one_to_one = sum(1 for v in mapping.values() if len(v) == 1)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1031 one_to_many = sum(1 for v in mapping.values() if len(v) > 1)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1032 logger.info(f"Mapping: {len(mapping)} source keys, {one_to_one} 1:1, {one_to_many} 1:many")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1033 return dict(mapping)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1034
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1035
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1036 def _translate_gpr(gpr_string: str,
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1037 gene_mapping: Dict[str, List[str]],
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1038 stats: Dict[str, int],
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1039 unmapped_genes: List[str],
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1040 multi_mapping_genes: List[Tuple[str, List[str]]],
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1041 logger: logging.Logger,
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1042 track_issues: bool = False) -> Union[str, Tuple[str, str]]:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1043 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1044 Translate genes inside a GPR string using gene_mapping.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1045 Returns new GPR string, and optionally translation issues if track_issues=True.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1046 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1047 # Generic token pattern: letters, digits, :, _, -, ., (captures HGNC:1234, ENSG000..., symbols)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1048 token_pattern = r'\b[A-Za-z0-9:_.-]+\b'
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1049 tokens = re.findall(token_pattern, gpr_string)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1050
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1051 logical = {'and', 'or', 'AND', 'OR', '(', ')'}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1052 tokens = [t for t in tokens if t not in logical]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1053
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1054 new_gpr = gpr_string
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1055 issues = []
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1056
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1057 for token in sorted(set(tokens), key=lambda x: -len(x)): # longer tokens first to avoid partial replacement
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1058 norm = _normalize_gene_id(token)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1059 if norm in gene_mapping:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1060 targets = gene_mapping[norm]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1061 stats['translated'] += 1
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1062 if len(targets) == 1:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1063 stats['one_to_one'] += 1
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1064 replacement = targets[0]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1065 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1066 stats['one_to_many'] += 1
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1067 multi_mapping_genes.append((token, targets))
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1068 replacement = "(" + " or ".join(targets) + ")"
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1069 if track_issues:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1070 issues.append(f"{token} -> {' or '.join(targets)}")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1071
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1072 pattern = r'\b' + re.escape(token) + r'\b'
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1073 new_gpr = re.sub(pattern, replacement, new_gpr)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1074 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1075 stats['not_found'] += 1
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1076 if token not in unmapped_genes:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1077 unmapped_genes.append(token)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1078 logger.debug(f"Token not found in mapping (left as-is): {token}")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1079
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1080 # Check for many-to-one cases (multiple source genes mapping to same target)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1081 if track_issues:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1082 # Build reverse mapping to detect many-to-one cases from original tokens
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1083 original_to_target = {}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1084
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1085 for orig_token in tokens:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1086 norm = _normalize_gene_id(orig_token)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1087 if norm in gene_mapping:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1088 targets = gene_mapping[norm]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1089 for target in targets:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1090 if target not in original_to_target:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1091 original_to_target[target] = []
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1092 if orig_token not in original_to_target[target]:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1093 original_to_target[target].append(orig_token)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1094
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1095 # Identify many-to-one mappings in this specific GPR
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1096 for target, original_genes in original_to_target.items():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1097 if len(original_genes) > 1:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1098 issues.append(f"{' or '.join(original_genes)} -> {target}")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1099
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1100 issue_text = "; ".join(issues) if issues else ""
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1101
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1102 if track_issues:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1103 return new_gpr, issue_text
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1104 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1105 return new_gpr
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1106
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1107
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1108 def _update_model_genes(model: 'cobra.Model', logger: logging.Logger):
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1109 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1110 Rebuild model.genes from gene_reaction_rule content.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1111 Removes genes not referenced and adds missing ones.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1112 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1113 # collect genes in GPRs
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1114 gene_pattern = r'\b[A-Za-z0-9:_.-]+\b'
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1115 logical = {'and', 'or', 'AND', 'OR', '(', ')'}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1116 genes_in_gpr: Set[str] = set()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1117
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1118 for rxn in model.reactions:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1119 gpr = rxn.gene_reaction_rule
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1120 if gpr and gpr.strip():
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1121 toks = re.findall(gene_pattern, gpr)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1122 toks = [t for t in toks if t not in logical]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1123 # normalize IDs consistent with mapping normalization
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1124 toks = [_normalize_gene_id(t) for t in toks]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1125 genes_in_gpr.update(toks)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1126
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1127 # existing gene ids
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1128 existing = {g.id for g in model.genes}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1129
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1130 # remove obsolete genes
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1131 to_remove = [gid for gid in existing if gid not in genes_in_gpr]
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1132 removed = 0
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1133 for gid in to_remove:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1134 try:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1135 gene_obj = model.genes.get_by_id(gid)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1136 model.genes.remove(gene_obj)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1137 removed += 1
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1138 except Exception:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1139 # safe-ignore
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1140 pass
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1141
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1142 # add new genes
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1143 added = 0
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1144 for gid in genes_in_gpr:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1145 if gid not in existing:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1146 new_gene = cobra.Gene(gid)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1147 try:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1148 model.genes.add(new_gene)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1149 except Exception:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1150 # fallback: if model.genes doesn't support add, try append or model.add_genes
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1151 try:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1152 model.genes.append(new_gene)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1153 except Exception:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1154 try:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1155 model.add_genes([new_gene])
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1156 except Exception:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1157 logger.warning(f"Could not add gene object for {gid}")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1158 added += 1
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1159
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1160 logger.info(f"Model genes updated: removed {removed}, added {added}")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1161
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1162
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1163 def export_model_to_tabular(model: cobraModel,
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1164 output_path: str,
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1165 translation_issues: Dict = None,
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1166 include_objective: bool = True,
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1167 save_function = None) -> pd.DataFrame:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1168 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1169 Export a COBRA model to tabular format with optional components.
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1170
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1171 Args:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1172 model: COBRA model to export
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1173 output_path: Path where to save the tabular file
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1174 translation_issues: Optional dict of {reaction_id: issues} from gene translation
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1175 include_objective: Whether to include objective coefficient column
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1176 save_function: Optional custom save function, if None uses pd.DataFrame.to_csv
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1177
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1178 Returns:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1179 pd.DataFrame: The merged tabular data
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1180 """
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1181 # Generate model data
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1182 rules = generate_rules(model, asParsed=False)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1183
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1184 reactions = generate_reactions(model, asParsed=False)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1185 bounds = generate_bounds(model)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1186 medium = get_medium(model)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1187 compartments = generate_compartments(model)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1188
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1189 # Create base DataFrames
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1190 df_rules = pd.DataFrame(list(rules.items()), columns=["ReactionID", "GPR"])
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1191 df_reactions = pd.DataFrame(list(reactions.items()), columns=["ReactionID", "Formula"])
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1192 df_bounds = bounds.reset_index().rename(columns={"index": "ReactionID"})
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1193 df_medium = medium.rename(columns={"reaction": "ReactionID"})
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1194 df_medium["InMedium"] = True
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1195
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1196 # Start merging
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1197 merged = df_reactions.merge(df_rules, on="ReactionID", how="outer")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1198 merged = merged.merge(df_bounds, on="ReactionID", how="outer")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1199
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1200 # Add objective coefficients if requested
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1201 if include_objective:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1202 objective_function = extract_objective_coefficients(model)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1203 merged = merged.merge(objective_function, on="ReactionID", how="outer")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1204
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1205 # Add compartments/pathways if they exist
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1206 if compartments is not None:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1207 merged = merged.merge(compartments, on="ReactionID", how="outer")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1208
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1209 # Add medium information
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1210 merged = merged.merge(df_medium, on="ReactionID", how="left")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1211
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1212 # Add translation issues if provided
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1213 if translation_issues:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1214 df_translation_issues = pd.DataFrame([
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1215 {"ReactionID": rxn_id, "TranslationIssues": issues}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1216 for rxn_id, issues in translation_issues.items()
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1217 ])
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1218 if not df_translation_issues.empty:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1219 merged = merged.merge(df_translation_issues, on="ReactionID", how="left")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1220 merged["TranslationIssues"] = merged["TranslationIssues"].fillna("")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1221
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1222 # Final processing
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1223 merged["InMedium"] = merged["InMedium"].fillna(False)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1224 merged = merged.sort_values(by="InMedium", ascending=False)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1225
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1226 # Save the file
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1227 if save_function:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1228 save_function(merged, output_path)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1229 else:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1230 merged.to_csv(output_path, sep="\t", index=False)
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1231
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1232 return merged
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1233
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1234
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1235 def _log_translation_statistics(stats: Dict[str, int],
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1236 unmapped_genes: List[str],
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1237 multi_mapping_genes: List[Tuple[str, List[str]]],
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1238 original_genes: Set[str],
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1239 final_genes,
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1240 logger: logging.Logger):
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1241 logger.info("=== TRANSLATION STATISTICS ===")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1242 logger.info(f"Translated: {stats.get('translated', 0)} (1:1 = {stats.get('one_to_one', 0)}, 1:many = {stats.get('one_to_many', 0)})")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1243 logger.info(f"Not found tokens: {stats.get('not_found', 0)}")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1244 logger.info(f"Simplified GPRs: {stats.get('simplified_gprs', 0)}")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1245 logger.info(f"Flattened OR-only GPRs with issues: {stats.get('flattened_or_gprs', 0)}")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1246
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1247 final_ids = {g.id for g in final_genes}
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1248 logger.info(f"Genes in model: {len(original_genes)} -> {len(final_ids)}")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1249
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1250 if unmapped_genes:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1251 logger.warning(f"Unmapped tokens ({len(unmapped_genes)}): {', '.join(unmapped_genes[:20])}{(' ...' if len(unmapped_genes)>20 else '')}")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1252 if multi_mapping_genes:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1253 logger.info(f"Multi-mapping examples ({len(multi_mapping_genes)}):")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1254 for orig, targets in multi_mapping_genes[:10]:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1255 logger.info(f" {orig} -> {', '.join(targets)}")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1256
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1257 # Log summary of flattened GPRs if any
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1258 if stats.get('flattened_or_gprs', 0) > 0:
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1259 logger.info(f"Flattened {stats['flattened_or_gprs']} OR-only GPRs that had translation issues (removed parentheses, created unique gene sets)")
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1260
2fb97466e404 Uploaded francesco_lapi parents: diff changeset	1261

Mercurial > repos > bimib > cobraxy

annotate COBRAxy/src/utils/model_utils.py @ 542:fcdbc81feb45 draft