Galaxy |

Changeset 6:64be1ac21109 (2018-09-27)

Previous changeset 5:3c6b132b154a (2017-08-08) Next changeset 7:62c9df8382c2 (2019-12-03)

Commit message:
planemo upload for repository https://github.com/bgruening/galaxytools/tree/master/tools/diamond commit 2f6d48e1d2161d03411d9fbb4fc3d16f0fa3d2e1

modified:
diamond.xml
diamond_makedb.xml
macros.xml
test-data/db.dmnd
test-data/db.fasta
test-data/diamond_results.tabular
test-data/protein.fasta

added:
diamond_view.xml
test-data/db-wtax.dmnd
test-data/diamond_results.daa
test-data/diamond_results.pairwise
test-data/diamond_results.sam
test-data/diamond_results.wtax.tabular
test-data/diamond_results.xml
test-data/nodes.dmp
test-data/nucleotide.fasta
test-data/prot.accession2taxid

diff -r 3c6b132b154a -r 64be1ac21109 diamond.xml
--- a/diamond.xml Tue Aug 08 16:33:49 2017 -0400
+++ b/diamond.xml Thu Sep 27 06:30:30 2018 -0400

[

b'@@ -1,4 +1,4 @@\n-<tool id="bg_diamond" name="Diamond" version="@VERSION@.1">\n+<tool id="bg_diamond" name="Diamond" version="@VERSION@.0">\n <description>alignment tool for short sequences against a protein database</description>\n <macros>\n <import>macros.xml</import>\n@@ -18,26 +18,21 @@\n &&\n \n diamond\n- $method_select.method_select\n+ $method_cond.method_select\n --threads "\\${GALAXY_SLOTS:-12}"\n --db ./database\n --query \'$query\'\n- #if $method_select.method_select == "blastx"\n- --query-gencode \'$query_gencode\'\n+ #if $method_cond.method_select == "blastx"\n+ --query-gencode \'$method_cond.query_gencode\'\n+ --strand \'$method_cond.query_strand\'\n+\t --min-orf $method_cond.min_orf\n+\t #if $method_cond.frameshift_cond.frameshift_select == \'yes\'\n+\t --frameshift $method_cond.frameshift_cond.frameshift\n+\t\t $method_cond.frameshift_cond.range_culling\n+ #end if\n #end if\n \n- #if $output.outfmt == "5"\n- --outfmt \'5\'\n- --out \'$blast_xml\'\n- $output.salltitles\n- #else if $output.outfmt == "6"\n- --outfmt \'6\' #echo \' \'.join(str($output.fields).split(\',\'))\n- --out \'$blast_tabular\'\n- #else if $output.outfmt == "101"\n- --outfmt \'101\'\n- --out \'$sam_output\'\n- $output.salltitles\n- #end if\n+ @OUTPUT_ARGS@\n \n --compress \'0\'\n #if $sensitivity == "1"\n@@ -46,16 +41,17 @@\n --more-sensitive\n #end if\n \n- --gapopen \'$gapopen\'\n- --gapextend \'$gapextend\'\n+ #if str($gapopen) != "":\n+ --gapopen \'$gapopen\'\n+ #end if\n+ #if str($gapextend) != "":\n+ --gapextend \'$gapextend\'\n+ #end if\n --matrix \'$matrix\'\n- --seg \'$seg\'\n+ --comp-based-stats \'$comp_based_stats\'\n+ --masking \'$masking\'\n \n- #if str($hit_filter.hit_filter_select) == \'max\':\n- --max-target-seqs \'$hit_filter.max_target_seqs\'\n- #else:\n- --top \'$hit_filter.top\'\n- #end if\n+ @HITFILTER_ARGS@\n \n #if str($filter_score.filter_score_select) == \'evalue\':\n --evalue \'$filter_score.evalue\'\n@@ -65,131 +61,120 @@\n \n --id \'$id\'\n --query-cover \'$query_cover\'\n+ --subject-cover \'$subject_cover\'\n --block-size \'$block_size\'\n+ #if str($unal) == \'1\':\n+ --unal 1 --un \'$unalqueries\' \n+ #end if\n+ $no_self_hits\n+ #if $tax_cond.tax_select == \'file\':\n+ --taxonlist `cat \'$tax_cond.taxonlistfile\' | grep -v "^#" | grep -v "^$" | tr "\\n" "," | sed \'s/,$//\'`\n+ #else if $tax_cond.tax_select == \'list\':\n+ --taxonlist \'$tax_cond.taxonlist\'\n+ #end if\n ]]>\n </command>\n-\n <inputs>\n- <conditional name="method_select">\n- <param name="method_select" type="select" label="What do you want to align?" help="(--blastp/--blastx)">\n- <option value="blastp">Align amino acid query sequences (blastp)</option>\n- <option value="blastx">Align DNA query sequences (blastx)</option>\n- </param>\n- <when value="blastx">\n- <param name="query_gencode" argument="--query-gencode" type="select" label="Genetic code used for translation of query in BLASTX mode" help="">\n- <option value="1">The Standard Code</option>\n- <option value="2">The Vertebrate Mitochondrial Code</option>\n- <option value="3">The Yeast Mitochondrial Code</option>\n- <option value="4">The Mold, Protozoan, and Coelenterate Mitochondrial Code and the Mycoplasma/Spiroplasma Code</option>\n- <option value="5">The Invertebrate Mitochondrial Code</option>\n- <option value="6">The Ciliate, Dasycladacean and Hexamita Nuclear Code</option>\n- <option value="9">The Echinoderm and Flatworm Mitochondrial C'..b'="blast_tabular" file="diamond_results.tabular"/>\n </test>\n+ <test>\n+ <conditional name="method_cond">\n+ <param name="method_select" value="blastp" />\n+ </conditional>\n+ <param name="query" value="protein.fasta" ftype="fasta"/>\n+ <conditional name="ref_db_source">\n+ <param name="db_source" value="history"/>\n+ <param name="reference_database" value="db-wtax.dmnd"/>\n+ </conditional>\n+ <conditional name="tax_cond">\n+\t\t <param name="tax_select" value="list"/>\n+ <param name="taxonlist" value="2" />\n+ </conditional>\n+ <conditional name="output">\n+ <param name="outfmt" value="6"/>\n+ <param name="fields" value="qseqid,sseqid,pident,length,mismatch,gapopen,qstart,qend,sstart,send,evalue,bitscore"/>\n+ </conditional>\n+ <param name="sensitivity" value="0"/>\n+ <param name="matrix" value="BLOSUM62"/>\n+ <param name="comp-based-stat" value="1"/>\n+ <param name="masking" value="1"/>\n+ <conditional name="hit_filter">\n+ <param name="hit_filter_select" value="max"/>\n+ <param name="max_target_seqs" value="25" />\n+ </conditional>\n+ <conditional name="filter_score">\n+ <param name="filter_score_select" value="evalue"/>\n+ <param name="evalue" value="0.001" />\n+ </conditional>\n+ <param name="id" value="0"/>\n+ <param name="query_cover" value="0"/>\n+ <param name="block_size" value="2"/>\n+ <output name="blast_tabular" file="diamond_results.wtax.tabular"/>\n+ </test>\n+ <test>\n+ <conditional name="method_cond">\n+ <param name="method_select" value="blastx" />\n+ <conditional name="frameshift_cond">\n+ <param name="frameshift_select" value="yes"/>\n+ </conditional>\n+ </conditional>\n+ <param name="query" value="nucleotide.fasta" ftype="fasta"/>\n+ <conditional name="ref_db_source">\n+ <param name="db_source" value="history"/>\n+ <param name="reference_database" value="db.dmnd"/>\n+ </conditional>\n+ <conditional name="output">\n+ <param name="outfmt" value="0"/>\n+ </conditional>\n+ <param name="sensitivity" value="0"/>\n+ <param name="matrix" value="BLOSUM62"/>\n+ <param name="comp-based-stat" value="1"/>\n+ <param name="masking" value="1"/>\n+ <conditional name="hit_filter">\n+ <param name="hit_filter_select" value="top"/>\n+ <param name="top" value="10" />\n+ </conditional>\n+ <conditional name="filter_score">\n+ <param name="filter_score_select" value="score"/>\n+ <param name="evalue" value="1" />\n+ </conditional>\n+ <param name="id" value="0"/>\n+ <param name="query_cover" value="0"/>\n+ <param name="block_size" value="2"/>\n+ <output name="blast_tabular" file="diamond_results.pairwise"/>\n+ </test>\n+ <test>\n+ <conditional name="method_cond">\n+ <param name="method_select" value="blastp" />\n+ </conditional>\n+ <param name="query" value="protein.fasta" ftype="fasta"/>\n+ <conditional name="ref_db_source">\n+ <param name="db_source" value="history"/>\n+ <param name="reference_database" value="db-wtax.dmnd"/>\n+ </conditional>\n+ <conditional name="output">\n+ <param name="outfmt" value="100"/>\n+ </conditional>\n+ <output name="daa_output" file="diamond_results.daa" compare="sim_size" delta="10"/>\n+ </test>\n </tests>\n-\n <help>\n <![CDATA[\n \n'

diff -r 3c6b132b154a -r 64be1ac21109 diamond_makedb.xml
--- a/diamond_makedb.xml Tue Aug 08 16:33:49 2017 -0400
+++ b/diamond_makedb.xml Thu Sep 27 06:30:30 2018 -0400

[

@@ -10,16 +10,32 @@

     <command>
     
-<![CDATA[
+    <![CDATA[
     diamond makedb
         --threads "\${GALAXY_SLOTS:-12}"
         --in '$infile'
         --db ./database
-]]>
+
+      #if str($tax_cond.tax_select) == 'yes':
+        --taxonmap '$tax_cond.taxonmap'
+        --taxonnodes '$tax_cond.taxonnodes'
+      #end if
+    ]]>
     </command>

     <inputs>
-        <param name="infile" type="data" format="fasta" label="Input reference file in FASTA format" />
+      <param name="infile" type="data" format="fasta" label="Input reference file in FASTA format" />
+      <conditional name="tax_cond">
+        <param name="tax_select" type="select" label="Add taxonomic data?" help="Needs to be supplied in order to provide taxonomy features of the aligner">
+          <option value="yes">Yes</option>
+          <option value="no" selected="true">No</option>
+        </param>
+        <when value="yes">
+          <param argument="--taxonmap" type="data" format="tabular" label="protein accession to taxid mapping file" help="" />
+          <param argument="--taxonnodes" type="data" format="tabular" label="taxonomy nodes.dmp from NCBI" help="" />
+        </when>
+        <when value="no"/>
+      </conditional>
     </inputs>

     <outputs>
@@ -29,7 +45,16 @@
     <tests>
         <test>
             <param name="infile" value="db.fasta" ftype="fasta"/>
-            <output name="outfile" value="db.dmnd"/>
+            <output name="outfile" value="db.dmnd" compare="sim_size" delta="2"/>
+        </test>
+        <test>
+            <param name="infile" value="db.fasta" ftype="fasta"/>
+            <conditional name="tax_cond">
+                <param name="tax_select" value="yes"/>
+                <param name="taxonmap" ftype="tabular" value="prot.accession2taxid" />
+                <param name="taxonnodes" ftype="tabular" value="nodes.dmp" />
+            </conditional>
+            <output name="outfile" value="db-wtax.dmnd" compare="sim_size" delta="2"/>
         </test>
     </tests>

@@ -48,6 +73,9 @@
.. _DIAMOND: http://ab.inf.uni-tuebingen.de/software/diamond/

+- taxonmap: Path to mapping file that maps NCBI protein accession numbers to taxon ids (gzip compressed). This parameter is optional and needs to be supplied in order to provide taxonomy features. The file can be downloaded from NCBI: ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.gz
+
+- taxonnodes: Path to the nodes.dmp file from the NCBI taxonomy. This parameter is optional and needs to be supplied in order to provide taxonomy features. The file is contained within this archive downloadable at NCBI: ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdmp.zip
]]>
     </help>

diff -r 3c6b132b154a -r 64be1ac21109 diamond_view.xml
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/diamond_view.xml Thu Sep 27 06:30:30 2018 -0400

[

@@ -0,0 +1,98 @@
+<tool id="bg_diamond_view" name="Diamond" version="@VERSION@">
+    <description>generate formatted output from DAA files</description>
+    <macros>
+        <import>macros.xml</import>
+    </macros>
+    <expand macro="requirements" />
+    <expand macro="stdio" />
+    <expand macro="version_command" />
+    <command><![CDATA[
+    ## need to link because diamont tries to open dataset_xxx.dat.daa
+    ln -s '$daa' input.daa &&
+    diamond
+        view
+        --daa input.daa
+        @OUTPUT_ARGS@
+        @HITFILTER_ARGS@
+        $forwardonly
+        --compress '0'
+    ]]>
+    </command>
+    <inputs>
+        <param argument="--daa" type="data" format="daa" label="input file in DAA format" />
+        <expand macro="output_type_macro" />
+        <expand macro="hit_filter_macro" />
+        <param argument="--forwardonly" type="boolean" truevalue="--forwardonly" falsevalue="" checked="false" label="only show alignments of forward strand" help=""/>
+    </inputs>
+    <outputs>
+        <expand macro="output_macro" />
+    </outputs>
+    <tests>
+        <test>
+            <param name="daa" ftype="daa" value="diamond_results.daa" />
+            <conditional name="output">
+                <param name="outfmt" value="5"/>
+            </conditional>
+            <conditional name="hit_filter">
+                <param name="hit_filter_select" value="max"/>
+                <param name="max_target_seqs" value="1" />
+            </conditional>
+            <output name="blast_tabular" file="diamond_results.xml"/>
+        </test>
+        <test>
+            <param name="daa" ftype="daa" value="diamond_results.daa" />
+            <conditional name="output">
+                <param name="outfmt" value="6"/>
+                <param name="fields" value="qseqid,sseqid,pident,length,mismatch,gapopen,qstart,qend,sstart,send,evalue,bitscore"/>
+            </conditional>
+            <output name="blast_tabular" file="diamond_results.tabular"/>
+        </test>
+        <test>
+            <param name="daa" ftype="daa" value="diamond_results.daa" />
+            <conditional name="output">
+                <param name="outfmt" value="101"/>
+            </conditional>
+            <conditional name="hit_filter">
+                <param name="hit_filter_select" value="top"/>
+                <param name="max_target_seqs" value="1" />
+            </conditional>
+            <param name="forwardonly" value="--forwardonly" />
+            <output name="blast_tabular" file="diamond_results.sam"/>
+        </test>
+    </tests>
+
+    <help>
+<![CDATA[
+
+**What it does**
+
+Converts diamond daa files to multiple other formats.
+
+**Input**
+
+Input data is a daa file.
+
+
+**Output**
+
+Alignment results in BLAST format (pairwise/tabular), xml, sam, taxonomic (Note the latter does not work with the current diamond version. )
+
+BLAST tables contain the following columns.
+
+Column Description
+1     Query Seq-id (ID of your sequence)
+2     Subject Seq-id (ID of the database hit)
+3     Percentage of identical matches
+4     Alignment length
+5     Number of mismatches
+6     Number of gap openings
+7     Start of alignment in query
+8     End of alignment in query
+9     Start of alignment in subject (database hit)
+10     End of alignment in subject (database hit)
+11     Expectation value (E-value)
+12     Bit score
+]]>
+    </help>
+    <expand macro="citations" />
+</tool>

diff -r 3c6b132b154a -r 64be1ac21109 macros.xml
--- a/macros.xml Tue Aug 08 16:33:49 2017 -0400
+++ b/macros.xml Thu Sep 27 06:30:30 2018 -0400

[

b'@@ -1,5 +1,5 @@\n <macros>\n- <token name="@VERSION@">0.8.24</token>\n+ <token name="@VERSION@">0.9.21</token>\n \n <xml name="requirements">\n <requirements>\n@@ -9,6 +9,12 @@\n \n <xml name="stdio">\n <stdio>\n+ \n+ <regex match="Failed to allocate sufficient memory." source="stderr" level="fatal_oom" />\n+ <regex match=".+" source="stderr" level="fatal" description=""/>\n </stdio>\n </xml>\n \n@@ -16,9 +22,135 @@\n <version_command>diamond version</version_command>\n </xml>\n \n+ <xml name="output_type_macro">\n+ <conditional name="output">\n+ <param argument="--outfmt" type="select" label="Format of output file " help="">\n+ <option value="0">BLAST pairwise</option>\n+ <option value="5">BLAST XML</option>\n+ <option value="6">BLAST tabular</option>\n+ <option value="100">DAA</option>\n+ <option value="101">SAM</option>\n+ <option value="102">Taxonomic classification</option>\n+ </param>\n+ <when value="0"/>\n+\t <when value="5"/>\n+ <when value="6">\n+ <param name="fields" type="select" label="Tabular fields" help="" multiple="true">\n+ <option value="qseqid" selected="true">Query Seq - id</option>\n+ <option value="sseqid" selected="true">Subject Seq - id</option>\n+ <option value="sallseqid">All subject Seq - id(s)</option>\n+ <option value="qlen">Query sequence length</option>\n+ <option value="slen">Subject sequence length</option>\n+ <option value="pident" selected="true">Percentage of identical matches</option>\n+ <option value="length" selected="true">Alignment length</option>\n+ <option value="nident">Number of identical matches</option>\n+ <option value="mismatch" selected="true">Number of mismatches</option>\n+ <option value="positive">Number of positive - scoring matches</option>\n+ <option value="gapopen" selected="true">Number of gap openings</option>\n+ <option value="gaps">Total number of gaps</option>\n+ <option value="ppos">Percentage of positive - scoring matches</option>\n+ <option value="qstart" selected="true">Start of alignment in query</option>\n+ <option value="qend" selected="true">End of alignment in query</option>\n+ <option value="sstart" selected="true">Start of alignment in subject</option>\n+ <option value="send" selected="true">End of alignment in subject</option>\n+ <option value="qseq">Aligned part of query sequence</option>\n+ <option value="sseq">Aligned part of subject sequence</option>\n+ <option value="evalue" selected="true">Expect value</option>\n+ <option value="bitscore" selected="true">Bit score</option>\n+ <option value="score">Raw score</option>\n+ <option value="qframe">Query frame</option>\n+ <option value="btop">Blast traceback operations(BTOP)</option>\n+ <option value="staxids">unique Subject Taxonomy ID(s), separated by a \';\' (in numerical order)</option>\n+ <option value="stitle">Subject Title</option>\n+ <option value="salltitles">All Subject Title(s)</option>\n+ '..b'e" label="Include full subject titles in DAA file?" help=""/>\n+ <param argument="--sallseqid" type="boolean" truevalue="--sallseqid" falsevalue="" checked="true" label="Include all subject ids in DAA file?" help=""/>\n+ </when>\n+\t <when value="101">\n+ <param argument="--salltitles" type="boolean" truevalue="--salltitles" falsevalue="" checked="true" label="Include full subject titles in DAA file?" help=""/>\n+ <param argument="--sallseqid" type="boolean" truevalue="--sallseqid" falsevalue="" checked="true" label="Include all subject ids in DAA file?" help=""/>\n+ </when>\n+ <when value="102"/>\n+ </conditional>\n+ </xml>\n+\n+ <xml name="hit_filter_macro">\n+ <conditional name="hit_filter">\n+ <param name="hit_filter_select" type="select" label="Method to restrict the number of hits?">\n+ <option value="max">Maximum number of target sequences</option>\n+ <option value="top">Percentage of top alignment score</option>\n+ </param>\n+ <when value="max">\n+ <param name="max_target_seqs" argument="--max-target-seqs" type="integer" value="25" label="The maximum number of target sequences per query to report alignments for" help="Setting this to 0 will report all alignments that were found." />\n+ </when>\n+ <when value="top">\n+ <param argument="--top" type="integer" value="0" label="Keep alignments within the given percentage range of the top alignment score for a query" help="For example, setting this to 10 will report all align-\n+ments whose score is at most 10% lower than the best alignment score for a query." />\n+ </when>\n+ </conditional>\n+ </xml>\n+\n <xml name="citations">\n <citations>\n <citation type="doi">10.1038/nmeth.3176</citation>\n </citations>\n </xml>\n+\n+\n+ <xml name="output_macro">\n+ <data format="txt" name="blast_pairw" label="${tool.name} on ${on_string}">\n+ <filter>output["outfmt"] == "0"</filter>\n+ </data>\n+ <data format="xml" name="blast_xml" label="${tool.name} on ${on_string}">\n+ <filter>output["outfmt"] == "5"</filter>\n+ </data>\n+ <data format="tabular" name="blast_tabular" label="${tool.name} on ${on_string}">\n+ <filter>output["outfmt"] == "6"</filter>\n+ </data>\n+ \n+\t<data format="daa" name="daa_output" label="${tool.name} on ${on_string}" from_work_dir="output.daa">\n+ <filter>output["outfmt"] == "100"</filter>\n+ </data>\n+ <data format="sam" name="sam_output" label="${tool.name} on ${on_string}">\n+ <filter>output["outfmt"] == "101"</filter>\n+ </data>\n+ <data format="tabular" name="tax_output" label="${tool.name} on ${on_string}">\n+ <filter>output["outfmt"] == "102"</filter>\n+ </data>\n+ </xml>\n+\n+ <token name="@OUTPUT_ARGS@">\n+ #if $output.outfmt == "0"\n+ --outfmt \'0\'\n+ --out \'$blast_pairw\'\n+ #else if $output.outfmt == "5"\n+ --outfmt \'5\'\n+ --out \'$blast_xml\'\n+ #else if $output.outfmt == "6"\n+ --outfmt \'6\' #echo \' \'.join(str($output.fields).split(\',\'))\n+ --out \'$blast_tabular\'\n+ #else if $output.outfmt == "100"\n+ --outfmt \'100\'\n+ --out output.daa\n+ #else if $output.outfmt == "101"\n+ --outfmt \'101\'\n+ --out \'$sam_output\'\n+ #else if $output.outfmt == "102"\n+ --outfmt \'102\'\n+ --out \'$tax_output\'\n+ #end if\n+ </token>\n+\n+ <token name="@HITFILTER_ARGS@">\n+ #if str($hit_filter.hit_filter_select) == \'max\':\n+ --max-target-seqs \'$hit_filter.max_target_seqs\'\n+ #else:\n+ --top \'$hit_filter.top\'\n+\t#end if\n+ </token>\n </macros>\n'

diff -r 3c6b132b154a -r 64be1ac21109 test-data/db-wtax.dmnd

Binary file test-data/db-wtax.dmnd has changed

diff -r 3c6b132b154a -r 64be1ac21109 test-data/db.dmnd

Binary file test-data/db.dmnd has changed

diff -r 3c6b132b154a -r 64be1ac21109 test-data/db.fasta
--- a/test-data/db.fasta Tue Aug 08 16:33:49 2017 -0400
+++ b/test-data/db.fasta Thu Sep 27 06:30:30 2018 -0400

[

@@ -4,3 +4,9 @@
LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL
GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX
IENY
+>gi|5524212|gb|AAD44167.1| cytochrome c [Elephas minimus minimus]
+LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAGGGGGGGWGQMSFWGATVITNLFSAIPYIGTNLV
+EWIWGGFSVDKAAAAAAAAAAAAAAAAAAAAAAAAATFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
+LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL
+GLMPFLHTSKHRSMMLRPLSQALAAAAAAAAAAAAAAAAAAAAAAATIIGQMASILYFSIILAFLPIAGX
+IENY

diff -r 3c6b132b154a -r 64be1ac21109 test-data/diamond_results.daa

Binary file test-data/diamond_results.daa has changed

diff -r 3c6b132b154a -r 64be1ac21109 test-data/diamond_results.pairwise
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/diamond_results.pairwise Thu Sep 27 06:30:30 2018 -0400

[

@@ -0,0 +1,34 @@
+BLASTP 2.3.0+
+
+
+Query= sequence more text
+
+Length=849
+
+>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]
+Length=284
+
+ Score = 541.2 bits (1393),  Expect = 2.0e-158
+ Identities = 283/284 (99%), Positives = 283/284 (99%), Gaps = 1/284 (0%)
+ Frame = 1
+
+Query    1  LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFS 180
+            LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFS
+Sbjct    1  LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFS 60
+
+Query  181  AIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFIL-FTMVALAGVHLTFLHETGSNNPLGL 357
+            AIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFIL FTMVALAGVHLTFLHETGSNNPLGL
+Sbjct   61  AIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGL 120
+
+Query  358  TSDSDKIPFHPYYTIKDFLGLXXXXXXXXXXXXXSPDMLGDPDNHMPADPLNTPLHIKPE 537
+            TSDSDKIPFHPYYTIKDFLGLXXXXXXXXXXXXXSPDMLGDPDNHMPADPLNTPLHIKPE
+Sbjct  121  TSDSDKIPFHPYYTIKDFLGLXXXXXXXXXXXXXSPDMLGDPDNHMPADPLNTPLHIKPE 180
+
+Query  538  WYFLFAYAILRSVPNKLGGVLALFLSIVILGLMPFLHTSKHRSMMLRPLSQALFWTLTMD 717
+            WYFLFAYAILRSVPNKLGGVLALFLSIVILGLMPFLHTSKHRSMMLRPLSQALFWTLTMD
+Sbjct  181  WYFLFAYAILRSVPNKLGGVLALFLSIVILGLMPFLHTSKHRSMMLRPLSQALFWTLTMD 240
+
+Query  718  LLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXIENY 849
+            LLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXIENY
+Sbjct  241  LLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXIENY 284
+

diff -r 3c6b132b154a -r 64be1ac21109 test-data/diamond_results.sam
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/diamond_results.sam Thu Sep 27 06:30:30 2018 -0400

@@ -0,0 +1,6 @@
+@HD VN:1.5 SO:query
+@PG PN:DIAMOND
+@mm BlastP
+@CO BlastP-like alignments
+@CO Reporting AS: bitScore, ZR: rawScore, ZE: expected, ZI: percent identity, ZL: reference length, ZF: frame, ZS: query start DNA coordinate
+sequence 0 gi|5524211|gb|AAD44166.1| 1 255 94M1D189M * 0 0 LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFILFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGLXXXXXXXXXXXXXSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVILGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXIENY * AS:i:541 NM:i:1 ZL:i:284 ZR:i:1393 ZE:f:2.0e-158 ZI:i:99 ZF:i:1 ZS:i:1 MD:Z:94^P189

diff -r 3c6b132b154a -r 64be1ac21109 test-data/diamond_results.tabular
--- a/test-data/diamond_results.tabular Tue Aug 08 16:33:49 2017 -0400
+++ b/test-data/diamond_results.tabular Thu Sep 27 06:30:30 2018 -0400

@@ -1,1 +1,2 @@
-sequence gi|5524211|gb|AAD44166.1| 90.5 284 26 1 1 283 1 284 1.0e-152 521.2
+sequence gi|5524211|gb|AAD44166.1| 99.6 284 0 1 1 283 1 284 2.0e-158 541.2
+sequence gi|5524212|gb|AAD44167.1| 74.6 284 71 1 1 283 1 284 1.3e-106 369.0

diff -r 3c6b132b154a -r 64be1ac21109 test-data/diamond_results.wtax.tabular
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/diamond_results.wtax.tabular Thu Sep 27 06:30:30 2018 -0400

@@ -0,0 +1,1 @@
+sequence gi|5524211|gb|AAD44166.1| 99.6 284 0 1 1 283 1 284 2.0e-158 541.2

diff -r 3c6b132b154a -r 64be1ac21109 test-data/diamond_results.xml
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/diamond_results.xml Thu Sep 27 06:30:30 2018 -0400

@@ -0,0 +1,69 @@
+<?xml version="1.0"?>
+<!DOCTYPE BlastOutput PUBLIC "-//NCBI//NCBI BlastOutput/EN" "http://www.ncbi.nlm.nih.gov/dtd/NCBI_BlastOutput.dtd">
+<BlastOutput>
+  <BlastOutput_program>blastp</BlastOutput_program>
+  <BlastOutput_version>diamond 0.9.21</BlastOutput_version>
+  <BlastOutput_reference>Benjamin Buchfink, Xie Chao, and Daniel Huson (2015), "Fast and sensitive protein alignment using DIAMOND", Nature Methods 12:59-60.</BlastOutput_reference>
+  <BlastOutput_db>.dmnd</BlastOutput_db>
+  <BlastOutput_query-ID>Query_1</BlastOutput_query-ID>
+  <BlastOutput_query-def>sequence</BlastOutput_query-def>
+  <BlastOutput_query-len>283</BlastOutput_query-len>
+  <BlastOutput_param>
+    <Parameters>
+      <Parameters_matrix>blosum62</Parameters_matrix>
+      <Parameters_expect>0.001</Parameters_expect>
+      <Parameters_gap-open>11</Parameters_gap-open>
+      <Parameters_gap-extend>1</Parameters_gap-extend>
+      <Parameters_filter>F</Parameters_filter>
+    </Parameters>
+  </BlastOutput_param>
+<BlastOutput_iterations>
+<Iteration>
+  <Iteration_iter-num>1</Iteration_iter-num>
+  <Iteration_query-ID>Query_1</Iteration_query-ID>
+  <Iteration_query-def>sequence</Iteration_query-def>
+  <Iteration_query-len>283</Iteration_query-len>
+<Iteration_hits>
+<Hit>
+  <Hit_num>1</Hit_num>
+  <Hit_id>gi|5524211|gb|AAD44166.1|</Hit_id>
+  <Hit_def></Hit_def>
+  <Hit_accession>AAD44166.1</Hit_accession>
+  <Hit_len>284</Hit_len>
+  <Hit_hsps>
+    <Hsp>
+      <Hsp_num>1</Hsp_num>
+      <Hsp_bit-score>541.2</Hsp_bit-score>
+      <Hsp_score>1393</Hsp_score>
+      <Hsp_evalue>2.0e-158</Hsp_evalue>
+      <Hsp_query-from>1</Hsp_query-from>
+      <Hsp_query-to>284</Hsp_query-to>
+      <Hsp_hit-from>1</Hsp_hit-from>
+      <Hsp_hit-to>284</Hsp_hit-to>
+      <Hsp_query-frame>0</Hsp_query-frame>
+      <Hsp_hit-frame>0</Hsp_hit-frame>
+      <Hsp_identity>283</Hsp_identity>
+      <Hsp_positive>283</Hsp_positive>
+      <Hsp_gaps>1</Hsp_gaps>
+      <Hsp_align-len>284</Hsp_align-len>
+         <Hsp_qseq>LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFIL-FTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGLXXXXXXXXXXXXXSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVILGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXIENY</Hsp_qseq>
+         <Hsp_hseq>LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGLXXXXXXXXXXXXXSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVILGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXIENY</Hsp_hseq>
+      <Hsp_midline>LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFIL FTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGLXXXXXXXXXXXXXSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVILGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXIENY</Hsp_midline>
+    </Hsp>
+  </Hit_hsps>
+</Hit>
+</Iteration_hits>
+  <Iteration_stat>
+    <Statistics>
+      <Statistics_db-num>2</Statistics_db-num>
+      <Statistics_db-len>568</Statistics_db-len>
+      <Statistics_hsp-len>0</Statistics_hsp-len>
+      <Statistics_eff-space>0</Statistics_eff-space>
+      <Statistics_kappa>0.041000</Statistics_kappa>
+      <Statistics_lambda>0.267000</Statistics_lambda>
+      <Statistics_entropy>0</Statistics_entropy>
+    </Statistics>
+  </Iteration_stat>
+</Iteration>
+</BlastOutput_iterations>
+</BlastOutput>
\ No newline at end of file

diff -r 3c6b132b154a -r 64be1ac21109 test-data/nodes.dmp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/nodes.dmp Thu Sep 27 06:30:30 2018 -0400

@@ -0,0 +1,3 @@
+1 | 1 | no rank | | 8 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | |
+2 | 1 | species | AC | 0 | 1 | 11 | 1 | 0 | 1 | 1 | 0 | |
+3 | 1 | species | AC | 0 | 1 | 11 | 1 | 0 | 1 | 1 | 0 | |

diff -r 3c6b132b154a -r 64be1ac21109 test-data/nucleotide.fasta
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/nucleotide.fasta Thu Sep 27 06:30:30 2018 -0400

@@ -0,0 +1,17 @@
+>sequence more text
+CTGTGCCTGTACACCCACATCGGCAGAAACATCTACTACGGCAGCTACCTGTACAGCGAG
+ACCTGGAACACCGGCATCATGCTGCTGCTGATCACCATGGCCACCGCCTTCATGGGCTAC
+GTGCTGCCCTGGGGCCAGATGAGCTTCTGGGGCGCCACCGTGATCACCAACCTGTTCAGC
+GCCATCCCCTACATCGGCACCAACCTGGTGGAGTGGATCTGGGGCGGCTTCAGCGTGGAC
+AAGGCCACCCTGAACAGATTCTTCGCCTTCCACTTCATCCTGTTCACCATGGTGGCCCTG
+GCCGGCGTGCACCTGACCTTCCTGCACGAGACCGGCAGCAACAACCCCCTGGGCCTGACC
+AGCGACAGCGACAAGATCCCCTTCCACCCCTACTACACCATCAAGGACTTCCTGGGCCTG
+CTGATCCTGATCCTGCTGCTGCTGCTGCTGGCCCTGCTGAGCCCCGACATGCTGGGCGAC
+CCCGACAACCACATGCCCGCCGACCCCCTGAACACCCCCCTGCACATCAAGCCCGAGTGG
+TACTTCCTGTTCGCCTACGCCATCCTGAGAAGCGTGCCCAACAAGCTGGGCGGCGTGCTG
+GCCCTGTTCCTGAGCATCGTGATCCTGGGCCTGATGCCCTTCCTGCACACCAGCAAGCAC
+AGAAGCATGATGCTGAGACCCCTGAGCCAGGCCCTGTTCTGGACCCTGACCATGGACCTG
+CTGACCCTGACCTGGATCGGCAGCCAGCCCGTGGAGTACCCCTACACCATCATCGGCCAG
+ATGGCCAGCATCCTGTACTTCAGCATCATCCTGGCCTTCCTGCCCATCGCCGGCNNNATC
+GAGAACTAC
+

diff -r 3c6b132b154a -r 64be1ac21109 test-data/prot.accession2taxid
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/prot.accession2taxid Thu Sep 27 06:30:30 2018 -0400

@@ -0,0 +1,4 @@
+accession accession.version taxid gi
+AAD44166 AAD44166.1 2 5524211
+AAD44167 AAD44167.1 3 5524212
+

diff -r 3c6b132b154a -r 64be1ac21109 test-data/protein.fasta
--- a/test-data/protein.fasta Tue Aug 08 16:33:49 2017 -0400
+++ b/test-data/protein.fasta Thu Sep 27 06:30:30 2018 -0400

@@ -1,4 +1,4 @@
->sequence
+>sequence more text
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV
EWIWGGFSVDKATLNRFFAFHFILFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL