prims_metabolomics: rankfilter_GCMS/rankfilter.py annotate

annotate rankfilter_GCMS/rankfilter.py @ 23:85fd05d0d16c

New tool to Query multiple public repositories for elemental compositions from accurate mass values detected by high-resolution mass spectrometers

author	pieter.lukasse@wur.nl
date	Thu, 03 Apr 2014 16:44:11 +0200
parents	9d5f4f5f764b
children

rev	line source
0 9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	1 """
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	2 Copyright (C) 2011 by Velitchka Mihaleva, Wageningen University
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	3
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	4 Permission is hereby granted, free of charge, to any person obtaining a copy
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	5 of this software and associated documentation files (the "Software"), to deal
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	6 in the Software without restriction, including without limitation the rights
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	7 to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	8 copies of the Software, and to permit persons to whom the Software is
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	9 furnished to do so, subject to the following conditions:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	10
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	11 The above copyright notice and this permission notice shall be included in
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	12 all copies or substantial portions of the Software.
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	13
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	14 THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	15 IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	16 FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	17 AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	18 LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	19 OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	20 THE SOFTWARE.
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	21 """
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	22
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	23 #Library functions definition
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	24 #----------Begin-------------
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	25 from numpy import array, linalg, ones
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	26 from numpy.polynomial import polynomial
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	27 import math
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	28 import pdfread
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	29 import sys
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	30
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	31
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	32 def calibrate(standards):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	33 '''
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	34 Calculates the RT to RI conversion: RI = a + b*RT
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	35 @param standards: variable containing RI and RT data
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	36 '''
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	37 A = ones((len(standards['R.T.']), 2), dtype=float)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	38 A[:, 0] = array(map(float, standards['R.T.']))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	39 [coeff, res, r, s] = linalg.lstsq(A, array(map(float, standards['RI'])))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	40
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	41 return coeff
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	42
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	43
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	44 def calibrate_poly(standards):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	45 '''
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	46 Calculates the RT to RI conversion using a polynomial model
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	47 @param standards: variable containing RI and RT data
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	48 '''
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	49 retention_time = array(map(float, standards['R.T.']))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	50 retention_index = array(map(float, standards['RI']))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	51
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	52 # Fit a 3rd degree polynomial
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	53 fit = polynomial.polyfit(retention_time, retention_index, 3)[::-1]
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	54 return [fit[0], fit[1], fit[2], fit[3]]
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	55
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	56
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	57 def calculate_poly(retention_time, poly_cal):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	58 '''
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	59 Converts a given retention time to retention index using the calculated polynomial model
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	60 @param retention_time: retention_time to convert to retention index
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	61 @param poly_cal: result from calculating regression
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	62 '''
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	63 # Calculates RI based on given retention_time using polynomial function
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	64 retention_time = array(map(float, retention_time))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	65 if len(retention_time) > 1:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	66 ri_exp = []
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	67 for i in retention_time:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	68 ri_exp.append(poly_cal[0] * (i ** 3) + poly_cal[1] * (i ** 2) + (i * poly_cal[2]) + poly_cal[3])
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	69 return ri_exp
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	70 else:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	71 return poly_cal[0] * (retention_time ** 3) + poly_cal[1] * (retention_time ** 2) + (retention_time * poly_cal[2]) + poly_cal[3]
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	72
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	73
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	74 def convert_rt(hit_list, coeff):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	75 '''
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	76 Converts a given retention time to retention index using the linear model
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	77 @param hit_list: list holding the retention time
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	78 @param coeff: calculated coefficient (slope and intercept) using the linear model
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	79 '''
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	80 #Convert RT to RI
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	81 hit_list['RIexp'] = array(map(float, hit_list['R.T.'])) * coeff[0] + coeff[1]
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	82 return hit_list
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	83
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	84
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	85 def convert_rt_poly(hit_list, poly_cal):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	86 '''
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	87 Calls the actual RT to RI converter and returns the updated list with added RIexp value
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	88 @param hit_list: result list containing the retention time
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	89 '''
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	90 hit_list['RIexp'] = array(map(float, calculate_poly(hit_list['R.T.'], poly_cal)))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	91 return hit_list
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	92
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	93
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	94 def get_data(libdata, LabelCol):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	95 '''
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	96 Retrieves datacolumns indicated by LabelCol from libdata (generic function)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	97 Returns a dict with the requested column names as keys
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	98 @param libdata: file from which data is loaded
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	99 @param LabelCol: columns to retrieve
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	100 '''
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	101 from numpy import take
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	102 LibData = open(libdata, 'r').read().split('\n')
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	103
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	104 #Get the labels of the columns in the file
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	105 FirstLine = LibData.pop(0).split('\t')
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	106
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	107 FirstLine[-1] = FirstLine[-1].replace('\r', '')
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	108
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	109 # Create a temporate variable containing the all data
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	110 tmp_data = []
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	111 for ll in LibData:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	112 if ll != '':
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	113 tmp_data.append(ll.split('\t'))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	114
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	115 # Find the indices of the desired data
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	116 ind = []
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	117 try:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	118 for key in LabelCol:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	119 ind.append(FirstLine.index(key))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	120 except:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	121 print str(key) + " not found in first line of library (" + str(libdata) + ")"
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	122 print"the folowing items are found in the first line of the library:\n" + str(FirstLine)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	123 sys.exit(1)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	124 # Extract the desired data
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	125 data = []
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	126 for x in tmp_data:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	127 data.append(take(array(x), ind))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	128
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	129 # library_data = dict(zip(LabelCol,transpose(data)))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	130 library_data = dict(zip(LabelCol, map(lambda x: list(x), data)))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	131 return library_data
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	132
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	133
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	134 def rank_hit(hit_list, library_data, window):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	135 '''
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	136 Computes the Rank and % relative error
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	137 @param hit_list: input data
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	138 @param library_data: library used for reading the RIsvr data
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	139 @param window: error window
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	140 '''
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	141 hit_match_ripred = []
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	142 hit_match_syn = []
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	143 # Convert 'Name' data to list in order to be indexed
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	144 # library_data['Name']=list(library_data['Name'])
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	145
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	146 for hit_cas, hit_name in zip(hit_list['CAS'], hit_list['Name']):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	147 index = 0
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	148 if hit_cas != 'undef':
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	149 try:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	150 index = library_data['CAS'].index(hit_cas.replace(' ', '').replace('-', ''))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	151 except:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	152 try:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	153 index = library_data['Name'].index(hit_name.replace(' ', ''))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	154 except:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	155 # If for any reason the hit is not present
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	156 # in the mainlib library indicate this with -999
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	157 index = 0
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	158 else:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	159 try:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	160 index = library_data['Name'].index(hit_name.replace(' ', ''))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	161 except:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	162 # If for any reason the hit is not present
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	163 # in the mainlib library indicate this with -999
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	164 index = 0
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	165 if index != 0:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	166 hit_match_ripred.append(float(library_data['RIsvr'][index]))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	167 hit_match_syn.append(library_data['Synonyms'][index])
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	168 else:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	169 hit_match_ripred.append(-999)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	170 hit_match_syn.append('None')
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	171 hit_list['RIsvr'] = hit_match_ripred
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	172 hit_list['Synonyms'] = hit_match_syn
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	173
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	174 # Determine the relative difference between the experimental
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	175 # and the predicted RI
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	176 ri_err = []
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	177
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	178 for ri_exp, ri_qsar in zip(hit_list['RIexp'], hit_list['RIsvr']):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	179 if int(ri_qsar) != -999:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	180 ri_err.append(float(int(float(ri_qsar)) - int(float(ri_exp))) / int(float(ri_exp)) * 100)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	181 else:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	182 ri_err.append(-999)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	183
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	184 # Define the rank of the hits
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	185 hit_rank = []
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	186
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	187 for tt in ri_err:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	188 if tt == -999:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	189 # The name of the hit generated with AMDIS did not match a name
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	190 # in the mainlib library
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	191 hit_rank.append(4)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	192 else:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	193 # Rank 1 - ri_err is within +/- window/2
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	194 if abs(tt) <= float(window) / 2:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	195 hit_rank.append(1)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	196 # Rank 2 - window/2 < ri_err <= window
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	197 if abs(tt) > float(window) / 2 and abs(tt) <= float(window):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	198 hit_rank.append(2)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	199 # Rank 3 - ri_err > window
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	200 if abs(tt) > float(window):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	201 hit_rank.append(3)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	202 hit_list['Rank'] = hit_rank
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	203 hit_list['%rel.err'] = ri_err
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	204 return hit_list
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	205
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	206 def print_to_file(hit_list, filename, keys_to_print, print_subsets=True):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	207 '''
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	208 Writes output data to files (four output files are generated):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	209 filename_ranked - the hits are ranked
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	210 filename_filter_in - only hits with rank 1 and 2 are retained
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	211 filename_filter_out - hits with rank 3 are filtered out
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	212 filename_filter_missed - hits with rank 4 - there was no match with the
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	213 library data
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	214 @param hit_list: a dictionary with the ranked hits
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	215 @param filename: the core of the output file names
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	216 @param keys_to_print: determines the order in which the data are printed
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	217 @param print_subsets:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	218 '''
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	219 from numpy import take
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	220
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	221 out_ranked = open(filename["ranked"], 'w')
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	222 if (print_subsets):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	223 out_in = open(filename["filter_in"], 'w')
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	224 out_out = open(filename["filter_out"], 'w')
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	225 out_missed = open(filename["missed"], 'w')
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	226
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	227 #Convert RIexp and RIsvr into integer for printing
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	228 hit_list['RIexp'] = map(int, map(math.ceil, hit_list['RIexp']))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	229 hit_list['RIsvr'] = map(int, map(math.ceil, hit_list['RIsvr']))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	230
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	231 #Establish the right order of the data to be printed
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	232 tmp_items = hit_list.items()
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	233 tmp_keys = hit_list.keys()
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	234 ind = []
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	235
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	236 for key in keys_to_print:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	237 ind.append(tmp_keys.index(key))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	238
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	239 #Print the labels of the columns
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	240 line = '\t'.join(take(array(tmp_keys), ind))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	241 out_ranked.write('%s\n' % line)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	242 if (print_subsets):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	243 out_in.write('%s\n' % line)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	244 out_out.write('%s\n' % line)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	245 out_missed.write('%s\n' % line)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	246
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	247 #Collect the data for each hit in the right order and print them
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	248 #in the output file
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	249 i = 0
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	250 for name in hit_list['Name']:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	251 tt = []
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	252 for x in iter(tmp_items):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	253 # trim the value if it is a string:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	254 if isinstance(x[1][i], basestring):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	255 tt.append(x[1][i].strip())
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	256 else:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	257 tt.append(x[1][i])
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	258 tmp1 = take(array(tt), ind)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	259 line = '\t'.join(tmp1.tolist())
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	260
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	261 out_ranked.write('%s\n' % line)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	262 if(print_subsets):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	263 if hit_list['Rank'][i] == 4:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	264 out_missed.write('%s\n' % line)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	265 if hit_list['Rank'][i] == 3:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	266 out_out.write('%s\n' % line)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	267 if hit_list['Rank'][i] == 1 or hit_list['Rank'][i] == 2:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	268 out_in.write('%s\n' % line)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	269
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	270 i = i + 1
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	271
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	272 #---------End--------------
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	273 def main():
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	274 #Ranking and filtering procedure
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	275 if len(sys.argv) < 2:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	276 print "Usage:"
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	277 print "python RankFilter_GC-MS.py input \n"
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	278 print "input is a text file that specifies the names and the location"
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	279 print "of the files with the sample, compounds for calibration, library"
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	280 print "data, the core of the name ot the outputs, and the value of the"
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	281 print "window used for the filtering \n"
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	282
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	283 sys.exit(1)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	284
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	285 #------Read the input file------
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	286 try:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	287 ifile = open(sys.argv[1], 'r').read().split('\n')
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	288 except:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	289 print sys.argv[1], " file can not be found"
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	290 sys.exit()
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	291
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	292 #Get the file names for the data
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	293 #labels - the type of input files
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	294 #filenames - the names of the input files
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	295 labels = []
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	296 filenames = []
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	297
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	298 for l in ifile:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	299 l = l.strip()
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	300 if l != '':
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	301 labels.append(l.split('=')[0].replace(' ', '').replace('\r', ''))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	302 filenames.append(l.split('=')[1].replace(' ', '').replace('\r', ''))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	303
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	304 InputData = dict(zip(labels, filenames))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	305
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	306 #this part checkes if the ouput option is set. The output files are saved as the output variable as prefix for the output files
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	307 #if the output is not found , each output file has to be selected by forehand. This comes in handy for pipeline tools as galaxy
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	308 print_subsets = True
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	309 NDIS_is_tabular = False
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	310
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	311 if 'output' in InputData:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	312 output_files = {"ranked":InputData['output'] + "_ranked", \
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	313 "filter_in":InputData['output'] + "_filter_in", \
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	314 "filter_out":InputData['output'] + "filter_out", \
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	315 "missed":InputData['output'] + "_missed", \
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	316 "missed_parse_pdf":InputData['output'] + "_missed_parse_pdf"}
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	317 elif 'tabular' in InputData:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	318 NDIS_is_tabular = True
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	319 if(not "onefile" in InputData):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	320 output_files = {"ranked":InputData['ranked'], \
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	321 "filter_in":InputData['filter_in'], \
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	322 "filter_out":InputData['filter_out'], \
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	323 "missed":InputData['missed']}
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	324 else:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	325 print_subsets = False
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	326 output_files = {"ranked":InputData['onefile']}
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	327 else:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	328 output_files = {"ranked":InputData['ranked'], \
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	329 "filter_in":InputData['filter_in'], \
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	330 "filter_out":InputData['filter_out'], \
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	331 "missed":InputData['missed'], \
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	332 "missed_parse_pdf":InputData['missed_parse_pdf']}
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	333
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	334 #------Start with calibration------
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	335 #Check whether a file with data for the calibration is specified
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	336 #Specify which data to be read from the file with standard compounds
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	337 LabelColStand = ['Name', 'R.T.', 'RI']
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	338
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	339 if InputData['calibration'] != 'none':
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	340 #get the coeffiecients for the RT to RI convertion
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	341
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	342 try:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	343 ifile = open(InputData['calibration'], 'r')
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	344 except:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	345 print "file", InputData['calibration'], "can not be found"
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	346 sys.exit(1)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	347
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	348 standards = get_data(InputData['calibration'], LabelColStand)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	349 if InputData['model'] == 'linear':
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	350 coeff = calibrate(standards)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	351 elif InputData['model'] == 'poly':
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	352 poly_cal = calibrate_poly(standards)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	353 else:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	354 print "error: model ", InputData['model'], " can not be found. Use 'linear' or 'poly' "
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	355 sys.exit(1)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	356 else:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	357 #No file has been specified for the calibration
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	358 #Use the default coefficients
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	359 print 'No file has been specified for the calibration'
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	360 print 'WARNING: the default coefficients will be used'
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	361 coeff = array([29.4327, 454.5260])
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	362
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	363 if InputData['analysis_type'] == 'AMDIS':
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	364 try:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	365 AmdisOut = open(InputData['sample'], 'r')
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	366 print("open ok")
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	367 #Specify which data to be extracted from the AMDIS output table
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	368 #Weighted and Reverse are measure of matching between the experimental
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	369 #and the library spectra. The experimental spectrum is used as template
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	370 #for the calculation of Weighted, whereas for Reverse the template is the
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	371 #library spectrum
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	372 LabelCol = ['CAS', 'Name', 'R.T.', 'Weighted', 'Reverse', 'Purity']
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	373
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	374 #Get the data from the AMDIS output file
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	375 HitList = get_data(InputData['sample'], LabelCol)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	376 #Remove '>' from the names
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	377 HitList['Name'] = [s.replace('>', '') for s in HitList['Name']]
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	378 except:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	379 print "the file", InputData['sample'], "can not be found"
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	380 sys.exit(1)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	381 if InputData['analysis_type'] == 'NIST':
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	382 #HitList_missed - a variable of type dictionary containing the hits with the symbol ";"
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	383 #in the name
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	384 if not NDIS_is_tabular:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	385 print "Warning; NDIS is not tabular format, reading PDF..\n"
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	386 [HitList, HitList_missed] = pdfread.getPDF(InputData['sample'])
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	387 else:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	388 HitList = pdfread.read_tabular(InputData['sample'])
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	389
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	390 #Convert RT to RI
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	391 if InputData['model'] == 'linear':
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	392 HitList = convert_rt(HitList, coeff)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	393 if InputData['model'] == 'poly':
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	394 print "Executing convert_rt_poly().."
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	395 HitList = convert_rt_poly(HitList, poly_cal)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	396
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	397 #------Read the library data with the predicted RI------
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	398 try:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	399 LibData = open(InputData['lib_data'], 'r')
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	400 except:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	401 print "the file", InputData['lib_data'], "can not be found"
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	402 sys.exit(1)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	403
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	404 #Specify which data to be extracted from the library data file
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	405 LabelColLib = ['CAS', 'Name', 'RIsvr', 'Synonyms']
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	406 LibraryData = get_data(InputData['lib_data'], LabelColLib)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	407
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	408 #------Match the hits with the library data and rank them------
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	409 if InputData['window'] != '':
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	410 HitList = rank_hit(HitList, LibraryData, InputData['window'])
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	411 else:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	412 print "No value for the window used for the filtering is specified \n"
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	413 sys.exit(1)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	414
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	415 #------Print the ranked and filtered hits------
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	416 #Specify which data to be printed
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	417 if InputData['analysis_type'] == 'AMDIS':
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	418 keys_to_print = ['R.T.', 'CAS', 'Name', 'Rank', 'RIexp', 'RIsvr', '%rel.err', 'Weighted', 'Reverse', 'Synonyms']
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	419 else:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	420 keys_to_print = ['ID', 'R.T.', 'Name', 'CAS', 'Rank', 'RIexp', 'RIsvr', '%rel.err', 'Forward', 'Reverse', 'Synonyms', 'Library']
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	421
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	422 #skip this error output from reading a pdftotext file when file is tabular
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	423 if InputData['analysis_type'] == 'NIST' and not NDIS_is_tabular:
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	424 out_missed_pdf = open(output_files['missed_parse_pdf'], 'w')
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	425 for x, y in zip(HitList_missed['Missed Compounds'], HitList_missed['RT missed Compounds']):
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	426 out_missed_pdf.write('%s\n' % '\t'.join([y, x]))
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	427 out_missed_pdf.close()
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	428
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	429 print_to_file(HitList, output_files, keys_to_print, print_subsets)
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	430
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	431 if __name__ == '__main__':
9d5f4f5f764b Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	432 main()

Mercurial > repos > pieterlukasse > prims_metabolomics

annotate rankfilter_GCMS/rankfilter.py @ 23:85fd05d0d16c