Repository 'dia_umpire'
hg clone https://toolshed.g2.bx.psu.edu/repos/galaxyp/dia_umpire

Changeset 1:2b785516abfc (2019-03-04)
Previous changeset 0:22a1fa7d9d6a (2019-03-04)
Commit message:
planemo upload for repository https://github.com/galaxyproject/tools-iuc/tree/master/tools/dia_umpire commit 2379480213ba2e084a93bf82052fac858ffd074f
modified:
dia_umpire_se.xml
removed:
datatypes_conf.xml
dia_umpire_quant.xml
test-data/LongSwath_UPS1_1ug_rep1_xs_Q2.mgf
b
diff -r 22a1fa7d9d6a -r 2b785516abfc datatypes_conf.xml
--- a/datatypes_conf.xml Mon Mar 04 11:50:10 2019 -0500
+++ /dev/null Thu Jan 01 00:00:00 1970 +0000
b
@@ -1,7 +0,0 @@
-<?xml version="1.0"?>
-  <datatypes>
-   <registration>
-        <datatype extension="dia_umpire.ser" type="galaxy.datatypes.data:Text" subclass="True"/>
-   </registration>
-</datatypes>
-
b
diff -r 22a1fa7d9d6a -r 2b785516abfc dia_umpire_quant.xml
--- a/dia_umpire_quant.xml Mon Mar 04 11:50:10 2019 -0500
+++ /dev/null Thu Jan 01 00:00:00 1970 +0000
[
b'@@ -1,443 +0,0 @@\n-<tool id="dia_umpire_quant" name="DIA_Umpire_Quant" version="@VERSION@.0">\n-    <description>DIA quantitation and targeted re-extraction</description>\n-    <macros>\n-        <import>dia_umpire_macros.xml</import>\n-    </macros>\n-    <expand macro="requirements" />\n-    <expand macro="stdio" />\n-    <command>\n-<![CDATA[\n-#import shutil\n-###  $shutil.copytree($se_input.extra_files_path.__str__,$work_path.__str__)\n-## want to save all outputs in a directory output.extra_files_path to be used by \n-## Is file naming going to be a problem? May need to have a name param\n-cat $quant_params > $dia_umpire_quant && echo "Thread = \\$GALAXY_SLOTS" >> $dia_umpire_quant \n-&& cp -rp $se_input.extra_files_path.__str__ $work_path.__str__\n-&& ln -s $protxml_input ${work_path}/$interact_prot_xml\n-&& ln -s $searchdb_input ${work_path}/$searchdb_fa\n-#for $input in $mzxml_inputs:\n-&& ln -s $input ${work_path}/${input.name}\n-#end for\n-#for $input in $pepxml_inputs:\n-&& ln -s $input ${work_path}/${input.name}\n-#end for\n-## Make sure pep.xml and prot.xml start with "interact-"\n-## && echo "# $quant_params" >> $dia_umpire_quant \n-&& java -jar \\$DIA_UMPIRE_QUANT_JAR $quant_params \n-&& cp $work_path/ProtSummary*.xls "$ProtSummary"\n-&& cp $work_path/PeptideSummary*.xls "$PeptideSummary"\n-&& cp $work_path/FragSummary*.xls "$FragSummary"\n-&& cp $work_path/IDNoSummary*.xls "$IDNoSummary"\n-&& cat $work_path/*.log "$logfile"\n-]]>\n-    </command>\n-\n-  <configfiles>\n-    <configfile name="user_mods"><![CDATA[\n-<?xml version="1.0"?>\n-<MSModSpecSet\n-    xmlns="http://www.ncbi.nlm.nih.gov"\n-    xmlns:xs="http://www.w3.org/2001/XMLSchema-instance"\n-    xs:schemaLocation="http://www.ncbi.nlm.nih.gov OMSSA.xsd"\n->\n-  <MSModSpec>\n-        <MSModSpec_mod>\n-            <MSMod value="modificationwithneutrallosses">1</MSMod>\n-        </MSModSpec_mod>\n-        <MSModSpec_type>\n-            <MSModType value="modaa">0</MSModType>\n-        </MSModSpec_type>\n-        <MSModSpec_name>test modification with neutral losses</MSModSpec_name>\n-        <MSModSpec_monomass>123.456789</MSModSpec_monomass>\n-        <MSModSpec_averagemass>0</MSModSpec_averagemass>\n-        <MSModSpec_n15mass>0</MSModSpec_n15mass>\n-        <MSModSpec_residues>\n-            <MSModSpec_residues_E>B</MSModSpec_residues_E>\n-            <MSModSpec_residues_E>O</MSModSpec_residues_E>\n-        </MSModSpec_residues>\n-        <MSModSpec_neutralloss>\n-            <MSMassSet>\n-                <MSMassSet_monomass>456.789123</MSMassSet_monomass>\n-                <MSMassSet_averagemass>0</MSMassSet_averagemass>\n-                <MSMassSet_n15mass>0</MSMassSet_n15mass>\n-            </MSMassSet>\n-            <MSMassSet>\n-                <MSMassSet_monomass>789.123456</MSMassSet_monomass>\n-                <MSMassSet_averagemass>0</MSMassSet_averagemass>\n-                <MSMassSet_n15mass>0</MSMassSet_n15mass>\n-            </MSMassSet>\n-        </MSModSpec_neutralloss>\n-        <MSModSpec_unimod>00</MSModSpec_unimod>\n-        <MSModSpec_psi-ms>testMod</MSModSpec_psi-ms>\n-    </MSModSpec>\n-<MSModSpecSet\n-]]>\n-    </configfile>\n-    <configfile name="quant_params"><![CDATA[\n-#DIA-Umpire (version @VERSION@)\n-#Data Independent Acquisition data processing and analysis package (Quantitation and targeted re-extraction module)\n-\n-#Working folder path: the program will process all mzXML files in the working folder (please make sure the corresponding pepXML files are in the same folder with mzXML file)\n-#Internal spectral library file, output csv files will be stored in the working folder\n-Path = ${work_path}/\n-\n-#Or you can specify all DIA mzXML files you want to analyze here (the working folder is still required for storing output files)\n-#  ==File list begin\n-#  ==File list end\n-\n-#No of threads\n-Thread = 6\n-\n-InternalLibID = #if $InternalLibID then $InternalLibID else \'LibID\'#\n-\n-#InternalLibSearch / TargetedExtraction both will work\n-InternalLibSearch = $TargetedExtraction\n-ExternalLibSearch = $external_setti'..b' from the previous option) threshold of peptides to be considered for protein quantitation. Higher weight (closer to 1) of a peptide for a protein is more likely to be a unique peptide for the protein. (default: 0.9)\n-        Recommended value: 0.9\n-\n-        *TopNFrag*: Top N fragments in terms of fragment score (Pearson correlation x fragment intensity) used for determining peptide ion intensity (default:6).\n-        Recommended value: 3~6\n-\n-        *TopNPep*: Top N peptide ions in terms of peptide ion intensity (determined by top\n-        fragments) used for determining protein intensity (default:6)\n-        Recommended value: 3~6\n-\n-        *Freq*: Minimum frequency of a peptide ion or fragment across all samples/replicates to\n-        be considered for Top N ranking. (default:0.5) Recommended value: 0.5 or more\n-\n-**Output** (DIA-Umpire quantitation and targeted re-extraction module):\n-=======================================================================\n-\n-  Binary files which include identification and quantitation information, and possibly the internal spectral library.\n-\n-  Three summary tables for protein, peptide ion, and fragment level reports (<filename> denotes the name of the raw file in which a peptide was identified)\n-\n-     1. Columns printed in protein summary table (ProtSummary.xls)\n-\n-        1. Protein Key: Protein accession number\n-        2. <filename>_Prob: Protein identification probability\n-        3. <filename>_Peptides: Number of identified peptide ions assigned to a protein\n-        4. <filename>_PSMs: Number of identified pseudo MS/MS spectra assigned to a protein\n-        5. <filename>_MS1_iBAQ: Protein abundance estimated by MS1 peptide intensities (See manuscript for details) (iBAQ: sum of all identified peptide intensities divided by the number of theoretical tryptic peptides)\n-        6. <filename>_TopNpep/TopNfra, Freq>freq: Protein abundance estimated by top scored peptide ions and fragments (See manuscript for details).\n-\n-     2. Columns printed in peptide ion summary table (PeptideSummary.xls)\n-\n-        1. Peptide Key: Peptide ion identifier\n-        2. Sequence: Peptide sequence\n-        3. ModSeq: Peptide sequence with modification information\n-        4. Proteins: Parent proteins\n-        5. mz: Precursor m/z of peptide ion\n-        6. Charge: Charge state of peptide ion\n-        7. MaxProb: Maximum identification probability of peptide ion across the whole data- set from untargeted MS/MS database search\n-        8. <filename>_Spec_Centric_Prob: Identification probability of a peptide ion from untargeted MS/MS database search\n-        9. <filename>_Pep_Centric_Prob: Identification probability of a peptide ion from targeted re-extraction matching\n-        10. <filename>_PSMs: The number of identified pseudo MS/MS spectra assigned to a peptide ion\n-        11. <filename>_RT: Retention time of a peptide ion\n-        12. <filename>_MS1: Peptide abundance estimated by MS1 precursor intensity 2.13. <filename>_TopNfra: Peptide abundance estimated by top N fragment ions\n-\n-     3. Columns printed in fragment summary table (FragSummary.xls)\n-\n-        1. Fragment Key: Fragment ion identifier\n-        2. Protein: Parent protein accession number\n-        3. Peptide: Parent peptide ion identifier\n-        4. Fragment: Fragment ion type\n-        5. FragMz: m/z of fragment ion\n-        6. <filename>_RT: Retention time of parent peptide ion \n-        7. <filename>_Spec_Centric_Prob: Identification probability of peptide ion from untargeted MS/MS database search\n-        8. <filename>_Pep_Centric_Prob: Identification probability of peptide ion from targeted re-extraction matching\n-        9. <filename>_Intensity: fragment intensity\n-        10. <filename>_Corr: Elution profile Pearson correlation between fragment ion and precursor peptide ion\n-        11. <filename>_PPM: Mass error of an observed fragment m/z to the theoretical one\n-\n-]]>\n-    </help>\n-    <expand macro="citations" />\n-</tool>\n'
b
diff -r 22a1fa7d9d6a -r 2b785516abfc dia_umpire_se.xml
--- a/dia_umpire_se.xml Mon Mar 04 11:50:10 2019 -0500
+++ b/dia_umpire_se.xml Mon Mar 04 11:50:31 2019 -0500
[
@@ -7,27 +7,16 @@
     <expand macro="stdio" />
     <command>
 <![CDATA[
+#set $output_dir = 'gx_path'
 #import re
-## want to save all outputs in a directory output.extra_files_path to be used by dia_umpire_quant
-## Is file naming going to be a problem? May need to have a name param
-#if $se_extraction_data:
-#set se_params = $se_ser
-#set $ser_dir = $se_ser.extra_files_path
-mkdir $ser_dir
-&& ln -s '$ser_dir' '$output_dir'
-&& cat $se_config > $se_ser 
-#else:
-#set se_params = $params
 mkdir '$output_dir'
 && cat $se_config > $se_params 
-#end if
-##
 && echo " " >> $se_params 
 && echo "Thread = \$GALAXY_SLOTS" >> $se_params
 #if $input_prefix and len($input_prefix.strip()) > 0:
 #set $input_path = str($output_dir) + '/' + $input_prefix.__str__ + '_rep' + str($i + 1) + '.mzXML' 
 #else:
-#set $input_path = str($output_dir) + '/' + $re.sub('\.[mM]\w+$','',$re.sub('[^-a-zA-Z0-9_.]','_',$input.name)) + '.mzXML'
+#set $input_path = str($output_dir) + '/' + $re.sub('\.[mM]\w+$','',$re.sub('[^-a-zA-Z0-9_.]','_',$input.element_identifier)) + '.mzXML'
 #end if
 && ln -s '${input}' '$input_path'
 &&  dia_umpire_se '$input_path' '$se_params'
@@ -201,8 +190,6 @@
         <param name="input_prefix" type="text" value="" optional="true" label="File name prefix" help="Names inputs: prefix_rep#.mzXML Leave blank to use History names of input">
           <validator type="regex" message="">[a-zA-Z][a-zA-Z0-9_-]*</validator>
         </param>
-        <param name="output_dir" type="hidden" value="gx_path"/>
-
         <conditional name="instrument">
           <param name="model" type="select" label="instrument used" help="Sets default parameters">
             <option value="Thermo_Orbitrap">Thermo Orbitrap</option>
@@ -210,7 +197,6 @@
             <option value="other">other</option>
           </param>
           <when value="Thermo_Orbitrap">
-       
             <param name="SE_MS1PPM" type="float" value="5" min="1" max="20" optional="true" label="Maximum mass error for two MS1 peaks">
                 <help>
 SE.MS1PPM: (Unit: ppm) Maximum mass error for two MS1 peaks in consecutive spectra to be considered signal of the same ion. Used in MS1 signal detection and precursor alignment between samples/runs.
@@ -224,7 +210,6 @@
                 </help>
             </param>
             <expand macro="common_se_params" />
-
           </when>
           <when value="AB_SCIEX_Triple_TOF_5600">
             <param name="SE_MS1PPM" type="float" value="30" min="1" max="50" optional="true" label="Maximum mass error for two MS1 peaks">
@@ -287,7 +272,6 @@
 RTOverlap: Retention time overlap. (Default: 0.3)
               </help>
             </param>
-
             <param name="DeltaApex" type="float" value=".6" min="0" optional="true" label="DeltaApex" >
               <help>
 DeltaApex: (Unit: minute) Maximum retention time difference of LC profile apexes between precursor and fragment (the lower, the more stringent). (Default: 0.6)
@@ -313,7 +297,6 @@
           </param>
           <when value="no"/>
           <when value="yes">
-
             <param name="SE_MinMSIntensity" type="float" value="" optional="true" label="MinMSIntensity" >
               <help>
 SE.MinMSIntensity: Minimum signal intensity for a peak in an MS1 spectrum to be considered as a valid signal. Any MS1 peak having intensity lower than this threshold will be ignored. It is the main parameter controlling how many peaks and isotopic envelopes will be detected.
@@ -378,7 +361,6 @@
 
             <param name="SE_MinRTRange" type="float" value="" optional="true" label="MinRTRange" >
               <help>
-
               </help>
             </param>
             <param name="SE_MaxNoPeakCluster" type="integer" value="" optional="true" label="MaxNoPeakCluster" >
@@ -394,7 +376,6 @@
             <param name="SE_MinMS2NoPeakCluster" type="integer" value="" optional="true" label="MinMS2NoPeakCluster" >
               <help>
 SE.MinMS2NoPeakCluster (new parameter in v1.4): Minimum number of isotope peaks for a MS2 feature. When it is set as 1, the algorithm will group fragments even for peaks without any isotope signal being found. For these cases, the assumed charged states will be from the parameter SE.StartCharge to SE.EndCharge.
-
               </help>
             </param>
             <param name="SE_RTtol" type="float" value="" optional="true" label="RTtol" >
@@ -437,8 +418,6 @@
         <param name="ExportFragmentPeak" type="boolean" truevalue="true" falsevalue="false" checked="false" 
                label="ExportFragmentPeak"
                help="Output detailed information about detected MS2 signals"/>
-        <param name="se_extraction_data" type="boolean" truevalue="Signal Extraction data" falsevalue="diaumpire_se.params" checked="false" 
-               label="Output Signal Extraction data for DIA_Umpire_Quant" />
         <param name="mgfs_as_collection" type="boolean" truevalue="true" falsevalue="false" checked="false" 
                label="Output MGFs as a collection" />
 
@@ -446,12 +425,7 @@
 
     <outputs>
         <data format="txt" name="logfile" label="${tool.name} ${on_string} log"/>
-        <data format="dia_umpire.ser" name="se_ser" label="${tool.name} ${input.name} ${se_extraction_data}">
-            <filter>se_extraction_data</filter>
-        </data>
-        <data format="txt" name="params" label="${tool.name} ${input.name} ${se_extraction_data}">
-            <filter>not se_extraction_data</filter>
-        </data>
+        <data format="txt" name="se_params" label="${tool.name} ${input.name} diaumpire_se.params"/>
         <data format="csv" name="PrecursorPeak" label="${tool.name} ${input.name} PeakCluster.csv" from_work_dir="gx_path/swath_PeakCurve.csv">
             <filter>ExportPrecursorPeak</filter>
         </data>
@@ -489,7 +463,7 @@
             <output name="q2_mgf">
                 <assert_contents>
                     <has_text text="BEGIN IONS" />
-                    <has_text_matching expression="^PEPMASS=740.\d+$" />
+                    <has_text text="PEPMASS=740" />
                 </assert_contents>
             </output>
         </test>
@@ -561,9 +535,7 @@
 
     Note: Each file corresponds to a different "quality level" of precursor ions (Q1= More than two isotopic peaks detected in MS1, Q2 = only two isotopic peak detected, Q3 = detected unfragmented precursor in MS2). These spectra are written to separate files, because they must be searched separately against a protein database as a consequence of differences in FDR estimates for these varying quality data.
 
-  2. *DIA_Umpire_SE Signal Extraction data* - includes the binary files (.ser) containing contain all necessary information for quantitation procedures (parameter settings, all detected precursor and fragment peaks, precursor-fragment grouping information).  
-
-  3. If ExportPrecursorPeak and/or ExportFragmentPeak options were set to true, text files with detailed information about detected MS1 and/or MS2 features will be generated.
+  2. If ExportPrecursorPeak and/or ExportFragmentPeak options were set to true, text files with detailed information about detected MS1 and/or MS2 features will be generated.
 
 
 ]]>
b
diff -r 22a1fa7d9d6a -r 2b785516abfc test-data/LongSwath_UPS1_1ug_rep1_xs_Q2.mgf
--- a/test-data/LongSwath_UPS1_1ug_rep1_xs_Q2.mgf Mon Mar 04 11:50:10 2019 -0500
+++ /dev/null Thu Jan 01 00:00:00 1970 +0000
b
@@ -1,25 +0,0 @@
-BEGIN IONS
-PEPMASS=740.93756
-CHARGE=4+
-RTINSECONDS=23.515736
-TITLE=LongSwath_UPS1_1ug_rep1_xs_Q2.1.1.4
-289.0418 0.13421604
-462.80182 0.34596336
-476.83914 0.076175064
-495.8407 0.28123242
-505.83884 0.40484485
-510.82834 0.26279047
-512.8057 0.08942752
-516.8521 0.09888018
-528.8025 0.17339894
-539.8589 0.034855265
-548.77325 0.2268137
-561.8681 0.36307892
-563.7804 0.02051069
-566.7381 0.3546458
-581.84204 0.34910008
-588.8908 0.33360612
-600.7914 0.04130452
-647.8723 0.42873022
-END IONS
-