Repository 'infernal'
hg clone https://toolshed.g2.bx.psu.edu/repos/bgruening/infernal

Changeset 3:2c2c5e5e495b (2016-03-04)
Previous changeset 2:fac157e22e1b (2015-02-13) Next changeset 4:c47a7c52ac4f (2016-12-19)
Commit message:
planemo upload for repository https://github.com/bgruening/galaxytools/tree/master/tools/infernal commit 9eeedfaf35c069d75014c5fb2e42046106bf813c-dirty
modified:
cmbuild.xml
cmsearch.xml
cmstat.xml
infernal.py
tool_dependencies.xml
added:
cmalign._x_m_l_todo
infernal.tar.gz
removed:
cmalign.xml
b
diff -r fac157e22e1b -r 2c2c5e5e495b cmalign._x_m_l_todo
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/cmalign._x_m_l_todo Fri Mar 04 07:24:53 2016 -0500
[
b'@@ -0,0 +1,256 @@\n+<tool id="infernal_cmalign" name="Align sequences to a covariance model" version="1.1.0.2">\n+    <description>against a sequence database (cmsearch)</description>\n+    <parallelism method="multi" split_inputs="seqdb" split_mode="to_size" split_size="100" shared_inputs="" merge_outputs="outfile,multiple_alignment_output"></parallelism>\n+    <requirements>\n+        <requirement type="package">infernal</requirement>\n+        <requirement type="package" version="1.1">infernal</requirement>\n+        <requirement type="package" version="8.22">gnu_coreutils</requirement>\n+    </requirements>\n+    <command>\n+<![CDATA[\n+        ## a temp file is needed, because the standard tabular output from infernal is not usefull in Galaxy\n+        ## it will be converted to a tab delimited file and piped to Galaxy\n+        temp_tabular_output=\\$(mktemp);\n+\n+        cmsearch\n+            ## Infernal Options\n+            --cpu "\\${GALAXY_SLOTS:-12}"\n+            -o /dev/null\n+            --tformat $seqdb.ext ##target format: fasta, embl, genbank, ddbj, stockholm, pfam, a2m, afa, clustal, and phylip\n+            $bottomonly\n+            $toponly\n+            $cyk\n+            $notrunc\n+            $max\n+            $nohmm\n+            $mid\n+            ##$bitscore_thresholds\n+            --tblout \\$temp_tabular_output\n+            $g\n+            #if $A:\n+                $A $multiple_alignment_output\n+            #end if\n+\n+            #if $inclusion_thresholds_opts.inclusion_thresholds_selector == "--incE":\n+                --incE $inclusion_thresholds_opts.incE\n+            #elif $inclusion_thresholds_opts.inclusion_thresholds_selector == "--incT":\n+                --incT $inclusion_thresholds_opts.incT\n+            #end if\n+\n+            #if $reporting_thresholds_opts.reporting_thresholds_selector == "-E":\n+                -E $reporting_thresholds_opts.E\n+            #elif $reporting_thresholds_opts.reporting_thresholds_selector == "-T":\n+                -T $reporting_thresholds_opts.T\n+            #end if\n+\n+            ## CM file from the history or stored as database on disc\n+\n+            #if $cm_opts.cm_opts_selector == "db":\n+                $cm_opts.database.fields.path\n+            #else:\n+                $cm_opts.cmfile\n+            #end if\n+\n+            ## sequence file\n+            $seqdb\n+            2>&1\n+            ;\n+\n+            ## 1. replace all lines starting # (comment lines)\n+            ## 2. replace the first 18 spaces with tabs, 18th field is a free text field (can contain spaces)\n+            sed -e \'s/#.*$//\' -e \'/^$/d\' -e \'s/ /\\t/g\' -e \'s/\\t/ /18g\' \\$temp_tabular_output > $outfile\n+\n+]]>\n+    </command>\n+        <inputs>\n+\n+            <param name="seqdb" type="data" format="fasta" label="Sequence database"/>\n+            <conditional name="cm_opts">\n+                <param name="cm_opts_selector" type="select" label="Subject covariance models">\n+                  <option value="db" selected="True">Locally installed covariance models</option>\n+                  <option value="histdb">Covariance model from your history</option>\n+                </param>\n+                <when value="db">\n+                    <param name="database" type="select" label="Covariance models">\n+                        <options from_file="infernal.loc">\n+                          <column name="value" index="0"/>\n+                          <column name="name" index="1"/>\n+                          <column name="path" index="2"/>\n+                        </options>\n+                    </param>\n+                </when>\n+                <when value="histdb">\n+                    <param name="cmfile" type="data" format="txt" label="Covariance models file from the history."/>\n+                </when>\n+            </conditional>\n+\n+            <param name="g" truevalue="-g" falsevalue="" checked="False" type="boolean"\n+                label="Turn on the glocal alignment algorithm" help="... global with respect to the query model '..b'r a sequence of L residues.\n+(9) seq to (ali coord): The end of the alignment of this hit with respect to the sequence, numbered 1..L for a sequence of L residues.\n+(10) strand: The strand on which the hit occurs on the sequence. \xe2\x80\x99+\xe2\x80\x99 if the hit is on the top (Watson) strand, \xe2\x80\x99-\xe2\x80\x99 if the hit is on the bottom (Crick) strand. If on the top strand, the \xe2\x80\x9cseq from\xe2\x80\x9d value will be less than or equal to the \xe2\x80\x9cseq to\xe2\x80\x9d value, else it will be greater than or equal to it.\n+(11) trunc: Indicates if this is predicted to be a truncated CM hit or not. This will be \xe2\x80\x9cno\xe2\x80\x9d if it is a CM hit that is not predicted to be truncated by the end of the sequence, \xe2\x80\x9c5\xe2\x80\x99 \xe2\x80\x9d or \xe2\x80\x9c3\xe2\x80\x99 \xe2\x80\x9d if the hit is predicted to have one or more 5\xe2\x80\x99 or 3\xe2\x80\x99 residues missing due to a artificial truncation of the sequence, or \xe2\x80\x9c5\xe2\x80\x99&3\xe2\x80\x9d\xe2\x80\x99 if the hit is predicted to have one or more 5\xe2\x80\x99 residues missing and one or more 3\xe2\x80\x99 residues missing. If the hit is an HMM hit, this will always be \xe2\x80\x99-\xe2\x80\x99.\n+(12) pass: Indicates what \xe2\x80\x9cpass\xe2\x80\x9d of the pipeline the hit was detected on. This is probably only useful for testing and debugging. Non-truncated hits are found on the first pass, truncated hits are found on successive passes.\n+(13) gc: Fraction of G and C nucleotides in the hit.\n+(14) bias: The biased-composition correction: the bit score difference contributed by the null3 model for CM hits, or the null2 model for HMM hits. High bias scores may be a red flag for a false positive. It is difficult to correct for all possible ways in which a nonrandom but nonhomologous biological sequences can appear to be similar, such as short-period tandem repeats, so there are cases where the bias correction is not strong enough (creating false positives).\n+(15) score: The score (in bits) for this target/query comparison. It includes the biased-composition cor-rection (the \xe2\x80\x9cnull3\xe2\x80\x9d model for CM hits, or the \xe2\x80\x9cnull2\xe2\x80\x9d model for HMM hits).\n+(16) E-value: The expectation value (statistical significance) of the target. This is a per query E-value; i.e. calculated as the expected number of false positives achieving this comparison\xe2\x80\x99s score for a single query against the search space Z. For cmsearch Z is defined as the total number of nucleotides in the target dataset multiplied by 2 because both strands are searched. For cmscan Z is the total number of nucleotides in the query sequence multiplied by 2 because both strands are searched and multiplied by the number of models in the target database. If you search with multiple queries and if you want to control the overall false positive rate of that search rather than the false positive rate per query, you will want to multiply this per-query E-value by how many queries you\xe2\x80\x99re doing.\n+(17) inc: Indicates whether or not this hit achieves the inclusion threshold: \xe2\x80\x99!\xe2\x80\x99 if it does, \xe2\x80\x99?\xe2\x80\x99 if it does not (and rather only achieves the reporting threshold). By default, the inclusion threshold is an E-value of 0.01 and the reporting threshold is an E-value of 10.0, but these can be changed with command line options as described in the manual pages.\n+(18) description of target: The remainder of the line is the target\xe2\x80\x99s description line, as free text.\n+\n+\n+For further questions please refere to the Infernal `Userguide <http://selab.janelia.org/software/infernal/Userguide.pdf>`_.\n+\n+\n+]]>\n+    </help>\n+    \n+    <citations>\n+        <citation type="doi">10.1093/bioinformatics/btt509</citation>\n+        <citation type="bibtex">\n+            @ARTICLE{bgruening_galaxytools,\n+                Author = {Bj\xc3\xb6rn Gr\xc3\xbcning, Cameron Smith, Torsten Houwaart, Nicola Soranzo, Eric Rasche},\n+                keywords = {bioinformatics, ngs, galaxy, cheminformatics, rna},\n+                title = {{Galaxy Tools - A collection of bioinformatics and cheminformatics tools for the Galaxy environment}},\n+                url = {https://github.com/bgruening/galaxytools}\n+            }\n+        </citation>\n+    </citations>\n+    \n+    \n+</tool>\n'
b
diff -r fac157e22e1b -r 2c2c5e5e495b cmalign.xml
--- a/cmalign.xml Fri Feb 13 03:10:51 2015 -0500
+++ /dev/null Thu Jan 01 00:00:00 1970 +0000
[
b'@@ -1,378 +0,0 @@\n-<tool id="infernal_cmsearch" name="Search covariance model(s)" version="1.1.0.2">\n-    <description>against a sequence database (cmsearch)</description>\n-    <parallelism method="multi" split_inputs="seqdb" split_mode="to_size" split_size="100" shared_inputs="" merge_outputs="outfile,multiple_alignment_output"></parallelism>\n-    <requirements>\n-        <requirement type="package">infernal</requirement>\n-        <requirement type="package" version="1.1">infernal</requirement>\n-        <requirement type="package" version="8.22">gnu_coreutils</requirement>\n-    </requirements>\n-    <command>\n-<![CDATA[\n-        ## a temp file is needed, because the standard tabular output from infernal is not usefull in Galaxy\n-        ## it will be converted to a tab delimited file and piped to Galaxy\n-        temp_tabular_output=\\$(mktemp);\n-\n-        cmsearch\n-            ## Infernal Options\n-            --cpu "\\${GALAXY_SLOTS:-12}"\n-            -o /dev/null\n-            --tformat $seqdb.ext ##target format: fasta, embl, genbank, ddbj, stockholm, pfam, a2m, afa, clustal, and phylip\n-            $bottomonly\n-            $toponly\n-            $cyk\n-            $notrunc\n-            $max\n-            $nohmm\n-            $mid\n-            ##$bitscore_thresholds\n-            --tblout \\$temp_tabular_output\n-            $g\n-            #if $A:\n-                $A $multiple_alignment_output\n-            #end if\n-\n-            #if $inclusion_thresholds_opts.inclusion_thresholds_selector == "--incE":\n-                --incE $inclusion_thresholds_opts.incE\n-            #elif $inclusion_thresholds_opts.inclusion_thresholds_selector == "--incT":\n-                --incT $inclusion_thresholds_opts.incT\n-            #end if\n-\n-            #if $reporting_thresholds_opts.reporting_thresholds_selector == "-E":\n-                -E $reporting_thresholds_opts.E\n-            #elif $reporting_thresholds_opts.reporting_thresholds_selector == "-T":\n-                -T $reporting_thresholds_opts.T\n-            #end if\n-\n-            ## CM file from the history or stored as database on disc\n-\n-            #if $cm_opts.cm_opts_selector == "db":\n-                $cm_opts.database.fields.path\n-            #else:\n-                $cm_opts.cmfile\n-            #end if\n-\n-            ## sequence file\n-            $seqdb\n-            2>&1\n-            ;\n-\n-            ## 1. replace all lines starting # (comment lines)\n-            ## 2. replace the first 18 spaces with tabs, 18th field is a free text field (can contain spaces)\n-            sed -e \'s/#.*$//\' -e \'/^$/d\' -e \'s/ /\\t/g\' -e \'s/\\t/ /18g\' \\$temp_tabular_output > $outfile\n-\n-]]>\n-    </command>\n-        <inputs>\n-\n-            <param name="seqdb" type="data" format="fasta" label="Sequence database"/>\n-            <conditional name="cm_opts">\n-                <param name="cm_opts_selector" type="select" label="Subject covariance models">\n-                  <option value="db" selected="True">Locally installed covariance models</option>\n-                  <option value="histdb">Covariance model from your history</option>\n-                </param>\n-                <when value="db">\n-                    <param name="database" type="select" label="Covariance models">\n-                        <options from_file="infernal.loc">\n-                          <column name="value" index="0"/>\n-                          <column name="name" index="1"/>\n-                          <column name="path" index="2"/>\n-                        </options>\n-                    </param>\n-                </when>\n-                <when value="histdb">\n-                    <param name="cmfile" type="data" format="txt" label="Covariance models file from the history."/>\n-                </when>\n-            </conditional>\n-\n-            <param name="g" truevalue="-g" falsevalue="" checked="False" type="boolean"\n-                label="Turn on the glocal alignment algorithm" help="... global with respect to the query model and local '..b'le of N consensus positions.\n-(7) mdl to (model coord): The end of the alignment of this hit with respect to the profile (CM or HMM), numbered 1..N for a profile of N consensus positions.\n-(8) seq from (ali coord): The start of the alignment of this hit with respect to the sequence, numbered 1..L for a sequence of L residues.\n-(9) seq to (ali coord): The end of the alignment of this hit with respect to the sequence, numbered 1..L for a sequence of L residues.\n-(10) strand: The strand on which the hit occurs on the sequence. \xe2\x80\x99+\xe2\x80\x99 if the hit is on the top (Watson) strand, \xe2\x80\x99-\xe2\x80\x99 if the hit is on the bottom (Crick) strand. If on the top strand, the \xe2\x80\x9cseq from\xe2\x80\x9d value will be less than or equal to the \xe2\x80\x9cseq to\xe2\x80\x9d value, else it will be greater than or equal to it.\n-(11) trunc: Indicates if this is predicted to be a truncated CM hit or not. This will be \xe2\x80\x9cno\xe2\x80\x9d if it is a CM hit that is not predicted to be truncated by the end of the sequence, \xe2\x80\x9c5\xe2\x80\x99 \xe2\x80\x9d or \xe2\x80\x9c3\xe2\x80\x99 \xe2\x80\x9d if the hit is predicted to have one or more 5\xe2\x80\x99 or 3\xe2\x80\x99 residues missing due to a artificial truncation of the sequence, or \xe2\x80\x9c5\xe2\x80\x99&3\xe2\x80\x9d\xe2\x80\x99 if the hit is predicted to have one or more 5\xe2\x80\x99 residues missing and one or more 3\xe2\x80\x99 residues missing. If the hit is an HMM hit, this will always be \xe2\x80\x99-\xe2\x80\x99.\n-(12) pass: Indicates what \xe2\x80\x9cpass\xe2\x80\x9d of the pipeline the hit was detected on. This is probably only useful for testing and debugging. Non-truncated hits are found on the first pass, truncated hits are found on successive passes.\n-(13) gc: Fraction of G and C nucleotides in the hit.\n-(14) bias: The biased-composition correction: the bit score difference contributed by the null3 model for CM hits, or the null2 model for HMM hits. High bias scores may be a red flag for a false positive. It is difficult to correct for all possible ways in which a nonrandom but nonhomologous biological sequences can appear to be similar, such as short-period tandem repeats, so there are cases where the bias correction is not strong enough (creating false positives).\n-(15) score: The score (in bits) for this target/query comparison. It includes the biased-composition cor-rection (the \xe2\x80\x9cnull3\xe2\x80\x9d model for CM hits, or the \xe2\x80\x9cnull2\xe2\x80\x9d model for HMM hits).\n-(16) E-value: The expectation value (statistical significance) of the target. This is a per query E-value; i.e. calculated as the expected number of false positives achieving this comparison\xe2\x80\x99s score for a single query against the search space Z. For cmsearch Z is defined as the total number of nucleotides in the target dataset multiplied by 2 because both strands are searched. For cmscan Z is the total number of nucleotides in the query sequence multiplied by 2 because both strands are searched and multiplied by the number of models in the target database. If you search with multiple queries and if you want to control the overall false positive rate of that search rather than the false positive rate per query, you will want to multiply this per-query E-value by how many queries you\xe2\x80\x99re doing.\n-(17) inc: Indicates whether or not this hit achieves the inclusion threshold: \xe2\x80\x99!\xe2\x80\x99 if it does, \xe2\x80\x99?\xe2\x80\x99 if it does not (and rather only achieves the reporting threshold). By default, the inclusion threshold is an E-value of 0.01 and the reporting threshold is an E-value of 10.0, but these can be changed with command line options as described in the manual pages.\n-(18) description of target: The remainder of the line is the target\xe2\x80\x99s description line, as free text.\n-\n-\n-For further questions please refere to the Infernal Userguide_.\n-\n-.. _Userguide: http://selab.janelia.org/software/infernal/Userguide.pdf\n-\n-\n-How do I cite Infernal?\n------------------------\n-\n-The recommended citation for using Infernal 1.1 is E. P. Nawrocki and S. R. Eddy, Infernal 1.1: 100-fold faster RNA homology searches , Bioinformatics 29:2933-2935 (2013).\n-\n-**Galaxy Wrapper Author**::\n-\n-    *  Bjoern Gruening, University of Freiburg\n-\n-]]>\n-    </help>\n-</tool>\n'
b
diff -r fac157e22e1b -r 2c2c5e5e495b cmbuild.xml
--- a/cmbuild.xml Fri Feb 13 03:10:51 2015 -0500
+++ b/cmbuild.xml Fri Mar 04 07:24:53 2016 -0500
b
b'@@ -71,7 +71,7 @@\n                     <option value="--hand">user defined (--hand)</option>\n                 </param>\n                 <when value="--fast">\n-                    <param name="symfrac" type="float" value="0.5" size="5"\n+                    <param name="symfrac" type="float" value="0.5"\n                         label="Define the residue fraction threshold necessary to define a consensus (--symfrac)" help=""/>\n                 </when>\n                 <when value="--hand"/>\n@@ -93,7 +93,7 @@\n                 <when value="--wnone"/>\n                 <when value="--wgiven"/>\n                 <when value="--wblosum">\n-                    <param name="wid" type="float" value="0.5" size="5"\n+                    <param name="wid" type="float" value="0.5"\n                         label="Percent identity for clustering the alignment (--wid)" help=""/>\n                 </when>\n             </conditional>\n@@ -106,16 +106,16 @@\n                 </param>\n                 <when value="--enone"/>\n                 <when value="--eent">\n-                    <param name="ere" type="float" value="0.59" size="5"\n+                    <param name="ere" type="float" value="0.59"\n                         label="Set the target mean match state relative entropy (--ere)" help=""/>\n \n-                    <param name="eminseq" type="integer" value="" size="5"\n+                    <param name="eminseq" type="integer" value=""\n                         label="Define the minimum allowed effective sequence number (--eminseq)" help=""/>\n \n-                    <param name="ehmmre" type="float" value="" size="5"\n+                    <param name="ehmmre" type="float" value=""\n                         label="Set the target HMM mean match state relative entropy (--ehmmre)" help=""/>\n \n-                    <param name="eset" type="integer" value="" size="5"\n+                    <param name="eset" type="integer" value=""\n                         label="Set the effective sequence number for entropy weighting (--eset)" help=""/>\n                 </when>\n             </conditional>\n@@ -186,90 +186,114 @@\n \n **What it does**\n \n-For each multiple sequence alignment build a covariance model.\n-The alignment file must be in Stockholm or SELEX format, and must contain consensus secondary structure annotation.\n+cmbuild belongs to the INFERNAL software package that allows you to make consensus RNA secondary structure profiles, and use them to search nucleic acid sequence databases for homologous RNAs, or to create new structure-based multiple sequence alignments.\n+\n+cm build builds a covariance model of an RNA multiple alignment. cmbuild uses the consensus structure to determine the architecture of the CM.\n+\n+\n+**Input**\n+\n+Input file is a multiple sequence alignment file in Stockholm or SELEX format, and must contain consensus secondary structure annotation.\n cmbuild uses the consensus structure to determine the architecture of the CM.\n \n-In addition to writing CM(s) to CMFILE_OUT, cmbuild also outputs a single line for each model created to stdout. Each\n-line has the following fields: \xe2\x80\x9daln\xe2\x80\x9d: the index of the alignment used to build the CM; \xe2\x80\x9didx\xe2\x80\x9d: the index of the CM in the\n-CMFILE_OUT; \xe2\x80\x9dname\xe2\x80\x9d: the name of the CM; \xe2\x80\x9dnseq\xe2\x80\x9d: the number of sequences in the alignment used to build the CM;\n-\xe2\x80\x9deff nseq\xe2\x80\x9d: the effective number of sequences used to build the model; \xe2\x80\x9dalen\xe2\x80\x9d: the length of the alignment used to build\n-the CM; \xe2\x80\x9dclen\xe2\x80\x9d: the number of columns from the alignment defined as consensus (match) columns; \xe2\x80\x9dbps\xe2\x80\x9d: the number\n-of basepairs in the CM; \xe2\x80\x9dbifs\xe2\x80\x9d: the number of bifurcations in the CM; \xe2\x80\x9drel entropy: CM\xe2\x80\x9d: the total relative entropy of the\n-model divided by the number of consensus columns; \xe2\x80\x9drel entropy: HMM\xe2\x80\x9d: the total relative entropy of the model ignoring\n-secondary structure divided by the number of consensus columns. \xe2\x80\x9ddescription\xe2\x80\x9d: description of the model/alignment.\n+Example: simple example of a multiple RNA sequ'..b'ted alignment algorithm. There is more information on this in the cmalign manual page.\n-\n+  - *--refine*: Attempt to refine the alignment before building the CM using expectation-maximization (EM). A CM is first built from the initial alignment as usual. Then, the sequences in the alignment are realigned optimally (with the HMM banded CYK algorithm, optimal means optimal given the bands) to the CM, and a new CM is built from the resulting alignment. The sequences are then realigned to the new CM, and a new CM is built from that alignment. This is continued until convergence, specifically when the alignments for two successive iterations are not significantly different (the summed bit scores of all the sequences in the alignment changes less than 1% between two successive iterations).\n+  - *Turn on the local alignment algorithm*: allows the alignment to span two or more subsequences if necessary (e.g. if the structures of the query model and target sequence are only partially shared), allowing certain large insertions and deletions in the structure to be penalized differently than normal indels. The default is to globally align the query model to the target sequences.\n+  - *--gibbs sampling*: Modifies the behavior of --refine so Gibbs sampling is used instead of EM. The difference is that during the alignment stage the alignment is not necessarily optimal, instead an alignment (parsetree) for each sequences is sampled from the posterior distribution of alignments as determined by the Inside algorithm. Due to this sampling step --gibbs is non- deterministic, so different runs with the same alignment may yield different results. This is not true when --refine is used without the --gibbs option, in which case the final alignment and CM will always be the same. When --gibbs is enabled, the --seed "number" option can be used to seed the random number generator predictably, making the results reproducible. The goal of the --gibbs option is to help expert RNA alignment curators refine structural alignments by allowing them to observe alternative high scoring alignments.\n+  - *--Random seed*: Seed the random number generator with an integer >= 0. This option can only be used in combination with --gibbs. If the given number is nonzero, stochastic sampling of alignments will be reproducible; the same command will give the same results. If the given number is 0, the random number generator is seeded arbitrarily, and stochastic samplings may vary from run to run of the same command. The default seed is 0.\n+   - *--Turn off the truncated alignment algorithm*: With --refine, turn off the truncated alignment algorithm. There is more information on this in the cmalign manual page.\n+  - *--cyk algorithm*: With --refine, align with the CYK algorithm. By default the optimal accuracy algorithm is used. There is more information on this in the cmalign manual page.\n+  \n+ \n \n For further questions please refere to the Infernal Userguide_.\n \n .. _Userguide: http://selab.janelia.org/software/infernal/Userguide.pdf\n \n \n-How do I cite Infernal?\n------------------------\n-\n-The recommended citation for using Infernal 1.1 is E. P. Nawrocki and S. R. Eddy, Infernal 1.1: 100-fold faster RNA homology searches , Bioinformatics 29:2933-2935 (2013).\n-\n-**Galaxy Wrapper Author**::\n-\n-    *  Bjoern Gruening, University of Freiburg\n-\n ]]>\n     </help>\n+    \n+    <citations>\n+        <citation type="doi">10.1093/bioinformatics/btt509</citation>\n+        <citation type="bibtex">\n+            @ARTICLE{bgruening_galaxytools,\n+                Author = {Bj\xc3\xb6rn Gr\xc3\xbcning, Cameron Smith, Torsten Houwaart, Nicola Soranzo, Eric Rasche},\n+                keywords = {bioinformatics, ngs, galaxy, cheminformatics, rna},\n+                title = {{Galaxy Tools - A collection of bioinformatics and cheminformatics tools for the Galaxy environment}},\n+                url = {https://github.com/bgruening/galaxytools}\n+            }\n+        </citation>\n+    </citations>\n+    \n </tool>\n'
b
diff -r fac157e22e1b -r 2c2c5e5e495b cmsearch.xml
--- a/cmsearch.xml Fri Feb 13 03:10:51 2015 -0500
+++ b/cmsearch.xml Fri Mar 04 07:24:53 2016 -0500
b
b'@@ -135,7 +135,7 @@\n                 </param>\n                 <when value=""/>\n                 <when value="--incE">\n-                    <param name="incE" type="float" value="0.01" size="5" label="Use E-value" help="of &lt;= X as the hit inclusion threshold.">\n+                    <param name="incE" type="float" value="0.01" label="Use E-value" help="of &lt;= X as the hit inclusion threshold.">\n                         <sanitizer>\n                             <valid initial="string.printable">\n                                 <remove value="&apos;"/>\n@@ -144,7 +144,7 @@\n                     </param>\n                 </when>\n                 <when value="--incT">\n-                    <param name="incT" type="integer" size="5" value="0" label="Use bit score" help="of >= X as the hit inclusion threshold.">\n+                    <param name="incT" type="integer" value="0" label="Use bit score" help="of >= X as the hit inclusion threshold.">\n                         <sanitizer>\n                             <valid initial="string.printable">\n                                 <remove value="&apos;"/>\n@@ -165,7 +165,7 @@\n                 </param>\n                 <when value=""/>\n                 <when value="-E">\n-                    <param name="E" type="float" value="10.0" size="5" label="Use E-value" help="of &lt;= X as the hit reporting threshold. The default is 10.0, meaning that on average, about 10 false positives will be reported per query, so you can see the top of the noise and decide for yourself if it\xe2\x80\x99s really noise.">\n+                    <param name="E" type="float" value="10.0" label="Use E-value" help="of &lt;= X as the hit reporting threshold. The default is 10.0, meaning that on average, about 10 false positives will be reported per query, so you can see the top of the noise and decide for yourself if it\xe2\x80\x99s really noise.">\n                         <sanitizer>\n                             <valid initial="string.printable">\n                                 <remove value="&apos;"/>\n@@ -174,7 +174,7 @@\n                     </param>\n                 </when>\n                 <when value="-T">\n-                    <param name="T" type="integer" size="5" value="0" label="Use bit score" help="of >= X as the hit reporting threshold.">\n+                    <param name="T" type="integer" value="0" label="Use bit score" help="of >= X as the hit reporting threshold.">\n                         <sanitizer>\n                             <valid initial="string.printable">\n                                 <remove value="&apos;"/>\n@@ -202,57 +202,88 @@\n \n **What it does**\n \n-Infernal is used to search sequence databases for homologs of structural RNA sequences, and to make\n-sequence- and structure-based RNA sequence alignments. Infernal needs a profile from a structurally\n-annotated multiple sequence alignment of an RNA family with a position-specific scoring system for substitutions,\n-insertions, and deletions. Positions in the profile that are basepaired in the consensus secondary\n-structure of the alignment are modeled as dependent on one another, allowing Infernal\xe2\x80\x99s scoring system to\n-consider the secondary structure, in addition to the primary sequence, of the family being modeled. Infernal\n-profiles are probabilistic models called \xe2\x80\x9ccovariance models\xe2\x80\x9d, a specialized type of stochastic context-free\n-grammar (SCFG) (Lari and Young, 1990).\n+cmsearch belongs to the INFERNAL software package that allows you to make consensus RNA secondary structure profiles, and use them to search nucleic acid sequence databases for homologous RNAs, or to create new structure-based multiple sequence alignments.\n+You can use your model to search for new homologues of your RNA family. cmsearch is used to search one or more covariance models (CMs) against a sequence database. cmsearch searches both strands of each sequence in the target database, and returns alignments for high scoring hits.\n+\n+To build CMs from multiple alignments, see cmbuild'..b'o align hits*: By default, the Durbin/Holmes optimal accuracy algo-\n+rithm is used, which finds the alignment that maximizes the expected accuracy of all aligned\n+residues.\n+\n+- *Turn off truncated hit detection*: Turns off truncated hit detection and will reduce the running time most significantly for target files that include many short sequences.\n+\n+- *Turn off all filters, and run non-banded Inside on every full-length target sequence*: This\n+increases sensitivity somewhat, at an extremely large cost in speed.\n+\n+- *Turn off all HMM filter stages*: The CYK filter, using QDBs, will be run on every full-length target sequence and will enforce a P-value threshold of 0.0001. Each subsequence that survives CYK will be passed to Inside, which will also use QDBs (but a looser set). This increases sensitivity somewhat, at a very large cost in speed.\n+\n+-*Turn off the HMM SSV and Viterbi filter stages*:Sets remaining HMM filter\n+thresholds to 0.02 by default. This may increase sensitivity, at a significant cost in speed.\n+\n+- *Inclusion thresholds*: *Use E-value* - Use an E-value as the hit inclusion threshold. The default is 0.01, meaning that on average, about 1 false positive would be expected in every 100 searches with different\n+query sequences. *Use Bit Score* - Instead of using E-values for setting the inclusion threshold, instead use a bit score as the hit inclusion threshold. By default this option is unset.\n \n \n-For further questions please refere to the Infernal Userguide_.\n+**Output Options**\n \n-.. _Userguide: http://selab.janelia.org/software/infernal/Userguide.pdf\n+- *reporting thresholds*: Hits are ranked by statistical significance (E-value). By *default*, all hits with an E-value <= 10 are reported. The following options allow you to change the default *E-value* reporting thresholds, or to use *bit score* thresholds instead. \n+\n+\n+Output Example:\n \n \n-How do I cite Infernal?\n------------------------\n+# cmsearch :: search CM(s) against a sequence database\n+# INFERNAL 1.1.1 (July 2014)\n+# Copyright (C) 2014 Howard Hughes Medical Institute.\n+# Freely distributed under the GNU General Public License (GPLv3).\n+# - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -\n+# query CM file:                         tRNA5.cm\n+# target sequence database:              tutorial/mrum-genome.fa\n+# number of worker threads:              8\n+# - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -\n+\n \n-The recommended citation for using Infernal 1.1 is E. P. Nawrocki and S. R. Eddy, Infernal 1.1: 100-fold faster RNA homology searches , Bioinformatics 29:2933-2935 (2013).\n+The second section is a list of ranked top hits (sorted by E-value, most significant hit first):\n \n-**Galaxy Wrapper Author**::\n+rank     E-value  score  bias  sequence      start     end   mdl trunc   gc  description\n+----   --------- ------ -----  ----------- ------- -------   --- ----- ----  -----------\n+(1) !   1.3e-18   71.5   0.0  NC_013790.1  362026  361955 -  cm    no 0.50  Methanobrevibacter ruminantium M1 \n+(2) !   3.3e-18   70.2   0.0  NC_013790.1 2585265 2585193 -  cm    no 0.60  Methanobrevibacter ruminantium M1 \n \n-    *  Bjoern Gruening, University of Freiburg\n+\n+\n+For further questions please refere to the Infernal `Userguide <http://selab.janelia.org/software/infernal/Userguide.pdf>`_.\n \n ]]>\n     </help>\n+    <citations>\n+        <citation type="doi">10.1093/bioinformatics/btt509</citation>\n+        <citation type="bibtex">\n+            @ARTICLE{bgruening_galaxytools,\n+                Author = {Bj\xc3\xb6rn Gr\xc3\xbcning, Cameron Smith, Torsten Houwaart, Nicola Soranzo, Eric Rasche},\n+                keywords = {bioinformatics, ngs, galaxy, cheminformatics, rna},\n+                title = {{Galaxy Tools - A collection of bioinformatics and cheminformatics tools for the Galaxy environment}},\n+                url = {https://github.com/bgruening/galaxytools}\n+            }\n+        </citation>\n+    </citations>\n+   \n+    \n </tool>\n'
b
diff -r fac157e22e1b -r 2c2c5e5e495b cmstat.xml
--- a/cmstat.xml Fri Feb 13 03:10:51 2015 -0500
+++ b/cmstat.xml Fri Mar 04 07:24:53 2016 -0500
b
@@ -60,8 +60,8 @@
 The cmstat utility prints out a tabular file of summary statistics for each given covariance model.
 
 
-Output format
--------------
+**Output format**
+
 
 By default, cmstat prints general statistics of the model and the alignment it was built from, one line per model in a
 tabular format.
@@ -86,20 +86,21 @@
      relative entropy, the more the model will rely on structural conservation relative sequence conservation when identifying homologs.
 
 
-For further questions please refere to the Infernal Userguide_.
-
-.. _Userguide: http://selab.janelia.org/software/infernal/Userguide.pdf
-
-
-How do I cite Infernal?
------------------------
-
-The recommended citation for using Infernal 1.1 is E. P. Nawrocki and S. R. Eddy, Infernal 1.1: 100-fold faster RNA homology searches , Bioinformatics 29:2933-2935 (2013).
-
-**Galaxy Wrapper Author**::
-
-    *  Bjoern Gruening, University of Freiburg
+For further questions please refere to the Infernal `Userguide <http://selab.janelia.org/software/infernal/Userguide.pdf>`_.
 
 ]]>
     </help>
+    <citations>
+        <citation type="doi">10.1093/bioinformatics/btt509</citation>
+        <citation type="bibtex">
+            @ARTICLE{bgruening_galaxytools,
+                Author = {Björn Grüning, Cameron Smith, Torsten Houwaart, Nicola Soranzo, Eric Rasche},
+                keywords = {bioinformatics, ngs, galaxy, cheminformatics, rna},
+                title = {{Galaxy Tools - A collection of bioinformatics and cheminformatics tools for the Galaxy environment}},
+                url = {https://github.com/bgruening/galaxytools}
+            }
+        </citation>
+    </citations>
+  
+    
 </tool>
b
diff -r fac157e22e1b -r 2c2c5e5e495b infernal.py
--- a/infernal.py Fri Feb 13 03:10:51 2015 -0500
+++ b/infernal.py Fri Mar 04 07:24:53 2016 -0500
b
@@ -53,7 +53,7 @@
                 dataset.blurb = "1 model"
             else:
                 dataset.blurb = "%s models" % dataset.metadata.number_of_models
-            dataset.peek = data.get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
+            dataset.peek = get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
         else:
             dataset.peek = 'file does not exist'
             dataset.blurb = 'file purged from disc'
b
diff -r fac157e22e1b -r 2c2c5e5e495b infernal.tar.gz
b
Binary file infernal.tar.gz has changed
b
diff -r fac157e22e1b -r 2c2c5e5e495b tool_dependencies.xml
--- a/tool_dependencies.xml Fri Feb 13 03:10:51 2015 -0500
+++ b/tool_dependencies.xml Fri Mar 04 07:24:53 2016 -0500
b
@@ -1,7 +1,7 @@
 <?xml version="1.0"?>
 <tool_dependency>
     <package name="infernal" version="1.1">
-        <repository changeset_revision="b5c01b683dc9" name="package_infernal_1_1" owner="iuc" toolshed="https://toolshed.g2.bx.psu.edu" />
+        <repository changeset_revision="2bac556aa73f" name="package_infernal_1_1" owner="iuc" toolshed="https://toolshed.g2.bx.psu.edu" />
     </package>
     <package name="gnu_coreutils" version="8.22">
         <repository changeset_revision="ac64dfe4b1fb" name="package_gnu_coreutils_8_22" owner="iuc" toolshed="https://toolshed.g2.bx.psu.edu" />