Repository 'checkm_tree'
hg clone https://toolshed.g2.bx.psu.edu/repos/iuc/checkm_tree

Changeset 0:9b2790bca5b5 (2022-07-29)
Next changeset 1:6d1c282e2ce2 (2022-08-08)
Commit message:
planemo upload for repository https://github.com/galaxyproject/tools-iuc/tree/master/tools/checkm commit 2a3b068a98bf0e913dc03e0d5c2182cfd102cf27
added:
format_taxon_list.py
macros.xml
test-data/637000110.faa
test-data/637000110.fna
test-data/637000110.gff
test-data/bin_stats.analyze.tsv
test-data/bin_stats.tree.tsv
test-data/bin_stats_ext.tsv
test-data/checkm_hmm_info.pkl.gz
test-data/concatenated.fasta
test-data/concatenated.tre
test-data/hmmer.analyze.txt
test-data/hmmer.tree.txt
test-data/life.loc
test-data/lineage_marker_set
test-data/marker_gene_stats.tsv
test-data/markers_to_exclude
test-data/phylo_hmm_info.pkl.gz
test-data/tetra
tool-data/class.loc.sample
tool-data/domain.loc.sample
tool-data/family.loc.sample
tool-data/genus.loc.sample
tool-data/life.loc.sample
tool-data/order.loc.sample
tool-data/phylum.loc.sample
tool-data/species.loc.sample
tool_data_table_conf.xml.sample
tool_data_table_conf.xml.test
tree.xml
b
diff -r 000000000000 -r 9b2790bca5b5 format_taxon_list.py
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/format_taxon_list.py Fri Jul 29 20:29:27 2022 +0000
[
@@ -0,0 +1,22 @@
+from pathlib import Path
+
+from checkm.taxonParser import TaxonParser
+from checkm.util.taxonomyUtils import taxonomicRanks
+
+if __name__ == '__main__':
+    tool_data_dp = Path('tool-data')
+
+    # get all available marker sets
+    taxonParser = TaxonParser()
+    taxonMarkerSets = taxonParser.readMarkerSets()
+
+    # create a table per rank
+    for rank in taxonomicRanks:
+        rank_fp = tool_data_dp / Path("%s.loc.sample" % rank)
+        with rank_fp.open('w') as rank_f:
+            rank_f.write('# File generated by format_taxon_list.py script\n')
+            rank_f.write('# taxon\tdescription\n')
+            for taxon in sorted(taxonMarkerSets[rank]):
+                markerSet = taxonMarkerSets[rank][taxon]
+                numMarkers, numMarkerSets = markerSet.size()
+                rank_f.write('{taxon}\t{taxon} ({markerSet.numGenomes} genomes, {numMarkers} marker genes, {numMarkerSets} marker sets)\n')
b
diff -r 000000000000 -r 9b2790bca5b5 macros.xml
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/macros.xml Fri Jul 29 20:29:27 2022 +0000
[
b'@@ -0,0 +1,234 @@\n+<?xml version="1.0"?>\n+<macros>\n+    <token name="@TOOL_VERSION@">1.2.0</token>\n+    <token name="@VERSION_SUFFIX@">0</token>\n+    <token name="@PROFILE@">21.01</token>\n+    <xml name="biotools">\n+        <xrefs>\n+            <xref type="bio.tools">checkm</xref>\n+        </xrefs>\n+    </xml>\n+    <xml name="requirements">\n+        <requirements>\n+            <requirement type="package" version="@TOOL_VERSION@">checkm-genome</requirement>\n+            <yield/>\n+        </requirements>\n+    </xml>\n+    <xml name="bin_inputs">\n+        <conditional name="bins">\n+            <param name="select" type="select" label="Data structure for bins">\n+                <option value="collection">In collection</option>\n+                <option value="individual">In individual datasets</option>\n+            </param>\n+            <when value="collection">\n+                <param name="bins_coll" type="data_collection" collection_type="list" format="fasta" label="Bins"/>\n+            </when>\n+            <when value="individual">\n+                <param name="bins_ind" type="data" format="fasta" multiple="true" label="Bins"/>\n+            </when>\n+        </conditional>\n+    </xml>\n+    <token name="@BIN_INPUTS@"><![CDATA[\n+#import re\n+mkdir \'bins\' &&\n+#if $bins.select == \'collection\'\n+    #for $b in $bins.bins_coll\n+        #set $identifier = re.sub(\'[^\\s\\w\\-\\\\.]\', \'_\', str($b.element_identifier))\n+ln -s \'$b.file_name\' \'bins/${identifier}.fasta\' &&\n+    #end for\n+#else\n+    #for $b in $bins.bins_ind\n+        #set $identifier = re.sub(\'[^\\s\\w\\-\\\\.]\', \'_\', str($b.element_identifier))\n+ln -s \'$b.file_name\' \'bins/${identifier}.fasta\' &&\n+    #end for\n+#end if\n+]]></token>\n+    <xml name="ali">\n+        <param argument="--ali" type="boolean" truevalue="--ali" falsevalue="" checked="false" label="Generate HMMER alignment file for each bin?" />\n+    </xml>\n+    <xml name="nt">\n+        <param argument="--nt" type="boolean" truevalue="--nt" falsevalue="" checked="false" label="Generate nucleotide gene sequences for each bin?" />\n+    </xml>\n+    <xml name="genes">\n+        <param argument="--genes" type="boolean" truevalue="--genes" falsevalue="" checked="false" label="Bins contain genes as amino acids instead of nucleotide contigs?" />\n+    </xml>\n+    <xml name="tree_params">\n+        <param argument="--reduced_tree" type="boolean" truevalue="--reduced_tree" falsevalue="" checked="false" label="Use reduced tree for determining lineage of each bin?" help="This option requires less than 16GB of memory"/>\n+        <expand macro="ali" />\n+        <expand macro="nt" />\n+        <expand macro="genes" />\n+    </xml>\n+    <xml name="tree_extra_output_options">\n+        <option value="hmmer_tree_ali">Phylogenetic HMMER alignment file for each bin</option>\n+        <option value="concatenate_pplacer_json">Concatenated pplacer JSON</option>\n+        <option value="genes_fna">Nucleotide gene sequences for each bin (if generate nucleotide gene sequences)</option>\n+        <option value="genes_faa">Protein gene sequences for each bin</option>\n+        <option value="genes_gff">Gene feature files for each bin (if bins do not contain genes as amino acids instead of nucleotide contigs)</option>\n+    </xml>\n+    <xml name="analyze_params">\n+        <expand macro="ali" />\n+        <expand macro="nt" />\n+        <expand macro="genes" />\n+    </xml>\n+    <xml name="analyze_extra_output_options">\n+        <option value="hmmer_analyze_ali">Marker HMMER alignment file for each bin</option>\n+    </xml>\n+    <xml name="hmm_marker_stats_inputs">\n+        <param name="phylo_hmm_info" type="data" format="zip" label="Phylogenetic HMM model info for each bin" help="Output of the CheckM tree tool"/>\n+        <param name="bin_stats_tree" type="data" format="tabular" label="Phylogenetic bin stats" help="Output of the CheckM tree tool" />\n+        <param name="hmmer_tree" type="data_collection" collection_type="list" format="txt" label="Phylogenetic HMM hits to eac'..b'+                <param name="taxon" type="select" label="Taxon of interest" >\n+                    <options from_data_table="genus_taxons">\n+                        <validator message="No taxon database is available" type="no_options" />\n+                    </options>\n+                </param>\n+            </when>\n+            <when value="species">\n+                <param name="taxon" type="select" label="Taxon of interest" >\n+                    <options from_data_table="species_taxons">\n+                        <validator message="No taxon database is available" type="no_options" />\n+                    </options>\n+                </param>\n+            </when>\n+        </conditional>\n+    </xml>\n+    <xml name="version">\n+        <version_command>checkm</version_command>\n+    </xml>\n+    <token name="@HELP_HEADER@"><![CDATA[\n+What it does\n+============\n+\n+CheckM provides a set of tools for assessing the quality of genomes recovered from isolates, single cells, or metagenomes. It provides robust estimates of genome completeness and contamination by using collocated sets of genes that are ubiquitous and single-copy within a phylogenetic lineage. Assessment of genome quality can also be examined using plots depicting key genomic characteristics (e.g., GC, coding density) which highlight sequences outside the expected distributions of a typical genome. CheckM also provides tools for identifying genome bins that are likely candidates for merging based on marker set compatibility, similarity in genomic characteristics, and proximity within a reference genome tree.\n+]]></token>\n+    <token name="@HELP_BINS@"><![CDATA[\n+- Bins\n+]]></token>\n+    <token name="@HELP_TREE_DEFAULT_OUTPUTS@"><![CDATA[\n+- Phylogenetic HMM model info for each bin\n+- Phylogenetic bin stats\n+- Phylogenetic HMM hits to each bin\n+- Concatenated masked sequences\n+- Concatenated tree\n+]]></token>\n+    <token name="@HELP_TREE_EXTRA_OUTPUTS@"><![CDATA[\n+\n+        \n+        <collection name="hmmer_tree_ali" type="list" label="${tool.name} on ${on_string}: Phylogenetic HMMER alignment file for each bin">\n+            <filter>ali and \'hmmer_tree_ali\' in extra_outputs</filter>\n+            <discover_datasets pattern="(?P&lt;designation&gt;.*)/hmmer\\.tree\\.ali\\.txt" format="txt" directory="output/bins/" recurse="true" match_relative_path="true"/>\n+        </collection>\n+        <data name="concatenated_pplacer_json" format="json" from_work_dir="output/storage/tree/concatenated.pplacer.json" label="${tool.name} on ${on_string}: Concatenated pplacer JSON">\n+            <filter>\'concatenate_pplacer_json\' in extra_outputs</filter>\n+        </data>\n+        <collection name="genes_fna" type="list" label="${tool.name} on ${on_string}: Protein gene sequences for each bin">\n+            <filter>not genes and nt and \'genes_fna\' in extra_outputs</filter>\n+            <discover_datasets pattern="(?P&lt;designation&gt;.*)/genes\\.fna" format="fasta" directory="output/bins/" recurse="true" match_relative_path="true"/>\n+        </collection>\n+        <collection name="genes_faa" type="list" label="${tool.name} on ${on_string}: Nucleotide gene sequences for each bin">\n+            <filter>\'genes_faa\' in extra_outputs</filter>\n+            <discover_datasets pattern="(?P&lt;designation&gt;.*)/genes\\.faa" format="fasta" directory="output/bins/" recurse="true" match_relative_path="true"/>\n+        </collection>\n+        <collection name="genes_gff" type="list" label="${tool.name} on ${on_string}: Gene feature files for each bin">\n+            <filter>not genes and \'genes_gff\' in extra_outputs</filter>\n+            <discover_datasets pattern="(?P&lt;designation&gt;.*)/genes\\.gff" format="gff" directory="output/bins/" recurse="true" match_relative_path="true"/>\n+        </collection>\n+    ]]></token>\n+    <xml name="citations">\n+        <citations>\n+            <citation type="doi">10.1101/gr.186072.114</citation>\n+        </citations>\n+    </xml>\n+</macros>\n\\ No newline at end of file\n'
b
diff -r 000000000000 -r 9b2790bca5b5 test-data/637000110.faa
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/637000110.faa Fri Jul 29 20:29:27 2022 +0000
b
b'@@ -0,0 +1,6695 @@\n+>AC_000091_1 # 3 # 98 # 1 # ID=1_1;partial=10;start_type=Edge;rbs_motif=None;rbs_spacer=None;gc_cont=0.427\n+LFILTATGNMSLCGLKKECLIAASELVTCRE*\n+>AC_000091_2 # 337 # 2799 # 1 # ID=1_2;partial=00;start_type=ATG;rbs_motif=GGAG/GAGG;rbs_spacer=5-10bp;gc_cont=0.531\n+MRVLKFGGTSVANAERFLRVADILESNARQGQVATVLSAPAKITNHLVAMIEKTISGQDA\n+LPNISDAERIFAELLTGLAAAQPGFPLAQLKTFVDQEFAQIKHVLHGISLLGQCPDSINA\n+ALICRGEKMSIAIMAGVLEARGHNVTVIDPVEKLLAVGHYLESTVDIAESTRRIAASRIP\n+ADHMVLMAGFTAGNEKGELVVLGRNGSDYSAAVLAACLRADCCEIWTDVDGVYTCDPRQV\n+PDARLLKSMSYQEAMELSYFGAKVLHPRTITPIAQFQIPCLIKNTGNPQAPGTLIGASRD\n+EDELPVKGISNLNNMAMFSVSGPGMKGMVGMAARVFAAMSRARISVVLITQSSSEYSISF\n+CVPQSDCVRAERAMQEEFYLELKEGLLEPLAVTERLAIISVVGDGMRTLRGISAKFFAAL\n+ARANINIVAIAQGSSERSISVVVNNDDATTGVRVTHQMLFNTDQVIEVFVIGVGGVGGAL\n+LEQLKRQQSWLKNKHIDLRVCGVANSKALLTNVHGLNLENWQEELAQAKEPFNLGRLIRL\n+VKEYHLLNPVIVDCTSSQAVADQYADFLREGFHVVTPNKKANTSSMDYYHQLRYAAEKSR\n+RKFLYDTNVGAGLPVIENLQNLLNAGDELMKFSGILSGSLSYIFGKLDEGMSFSEATTLA\n+REMGYTEPDPRDDLSGMDVARKLLILARETGRELELADIEIEPVLPAEFNAEGDVAAFMA\n+NLSQLDDLFAARVAKARDEGKVLRYVGNIDEDGVCRVKIAEVDGNDPLFKVKNGENALAF\n+YSHYYQPLPLVLRGYGAGNDVTAAGVFADLLRTLSWKLGV*\n+>AC_000091_3 # 2801 # 3733 # 1 # ID=1_3;partial=00;start_type=ATG;rbs_motif=AGGAG;rbs_spacer=5-10bp;gc_cont=0.563\n+MVKVYAPASSANMSVGFDVLGAAVTPVDGALLGDVVTVEAAETFSLNNLGRFADKLPSEP\n+RENIVYQCWERFCQELGKQIPVAMTLEKNMPIGSGLGSSACSVVAALMAMNEHCGKPLND\n+TRLLALMGELEGRISGSIHYDNVAPCFLGGMQLMIEENDIISQQVPGFDEWLWVLAYPGI\n+KVSTAEARAILPAQYRRQDCIAHGRHLAGFIHACYSRQPELAAKLMKDVIAEPYRERLLP\n+GFRQARQAVAEIGAVASGISGSGPTLFALCDKPETAQRVADWLGKNYLQNQEGFVHICRL\n+DTAGARVLEN*\n+>AC_000091_4 # 3734 # 5020 # 1 # ID=1_4;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.528\n+MKLYNLKDHNEQVSFAQAVTQGLGKNQGLFFPHDLPEFSLTEIDEMLKLDFVTRSAKILS\n+AFIGDEIPQEILEERVRAAFAFPAPVANVESDVGCLELFHGPTLAFKDFGGRFMAQMLTH\n+IAGDKPVTILTATSGDTGAAVAHAFYGLPNVKVVILYPRGKISPLQEKLFCTLGGNIETV\n+AIDGDFDACQALVKQAFDDEELKVALGLNSANSINISRLLAQICYYFEAVAQLPQETRNQ\n+LVVSVPSGNFGDLTAGLLAKSLGLPVKRFIAATNVNDTVPRFLHDGQWSPKATQATLSNA\n+MDVSQPNNWPRVEELFRRKIWQLKELGYAAVDDETTQQTMRELKELGYTSEPHAAVAYRA\n+LRDQLNPGEYGLFLGTAHPAKFKESVEAILGETLDLPKELAERADLPLLSHNLPADFAAL\n+RKLMMNHQ*\n+>AC_000091_5 # 5234 # 5530 # 1 # ID=1_5;partial=00;start_type=GTG;rbs_motif=AGGAG;rbs_spacer=5-10bp;gc_cont=0.539\n+MKKMQSIVLALSLVLVAPMAAQAAEITLVPSVKLQIGDRDNRGYYWDGGHWRDHGWWKQH\n+YEWRGNRWHLHGPPPPPRHHKKAPHDHHGGHGPGKHHR*\n+>AC_000091_6 # 5683 # 6459 # -1 # ID=1_6;partial=00;start_type=ATG;rbs_motif=AGGA;rbs_spacer=5-10bp;gc_cont=0.495\n+MLILISPAKTLDYQSPLTTTRYTLPELLDNSQQLIHEARKLTPPQISTLMRISDKLAGIN\n+AARFHDWQPDFTPANARQAILAFKGDVYTGLQAETFSEDDFDFAQQHLRMLSGLYGVLRP\n+LDLMQPYRLEMGIRLENARGKDLYQFWGDIITNKLNEALAAQGDNVVINLASDEYFKSVK\n+PKKLNAEIIKPVFLDEKNGKFKIISFYAKKARGLMSRFIIENRLTKPEQLTGFNSEGYFF\n+DEDSSSNGELVFKRYEQR*\n+>AC_000091_7 # 6529 # 7959 # -1 # ID=1_7;partial=00;start_type=ATG;rbs_motif=GGAG/GAGG;rbs_spacer=5-10bp;gc_cont=0.534\n+MPDFFSFINSVLWGSVMIYLLFGAGCWFTFRTGFVQFRYIRQFGKSLKNSIHPQPGGLTS\n+FQSLCTSLAARVGSGNLAGVALAITAGGPGAVFWMWVAAFIGMATSFAECSLAQLYKERD\n+VNGQFRGGPAWYMARGLGMRWMGVLFAVFLLIAYGIIFSGVQANAVARALSFSFDFPPLV\n+TGIILAVFTLLAITRGLHGVARLMQGFVPLMAIIWVLTSLVICVMNIGQLPHVIWSIFES\n+AFGWQEAAGGAAGYTLSQAITNGFQRSMFSNEAGMGSTPNAAAAAASWPPHPAAQGIVQM\n+IGIFIDTLVICTASAMLILLAGNGTTYMPLEGIQLIQKAMRVLMGSWGAEFVTLVVILFA\n+FSSIVANYIYAENNLFFLRLNNPKAIWCLRICTFATVIGGTLLSLPLMWQLADIIMACMA\n+ITNLTAILLLSPVVHTIASDYLRQRKLGVRPVFDPLRYPDIGRQLSPDAWDDVSQE*\n+>AC_000091_8 # 8238 # 9191 # 1 # ID=1_8;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.520\n+MTDKLTSLRQYTTVVADTGDIAAMKLYQPQDATTNPSLILNAAQIPEYRKLIDDAVAWAK\n+QQSNDRAQQIVDATDKLAVNIGLEILKLVPGRISTEVDARLSYDTEASIAKAKRLIKLYN\n+DAGISNDRILIKLASTWQGIRAAEQLEKEGINCNLTLLFSFAQARACAEAGVFLISPFVG\n+RILDWYKANTDKKEYAPAEDPGVVSVSEIYQYYKEHGYETVVMGASFRNIGEILELAGCD\n+RLTIAPALLKELAESEGAIERKLSYTGEVKARPARITESEFLWQHNQDPMAVDKLAEGIR\n+KFAIDQEKLEKMIGDLL*\n+>AC_000091_9 # 9306 # 9893 # 1 # ID=1_9;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.544\n+MNTLRIGLVSISDRASSGVYQDKGIPALEEWLTSALTTPFELETRLIPDEQAIIEQTLCE\n+LVDEMSCHLVLTTGGTG'..b'TRSVAALEAWLHKKDLNAI*\n+>AC_000091_965 # 1056683 # 1057711 # 1 # ID=1_965;partial=00;start_type=ATG;rbs_motif=GGAG/GAGG;rbs_spacer=5-10bp;gc_cont=0.534\n+MRVLLFLLLSLFMLPAFSADNLLRWHDAQHFTVQASTPLKAKRAWKLCALYPSLKDSYWL\n+SLNYGMQEAARRYGVDLKVLEAGGYSQLATQQAQIDQCKQWGAEAILLGSSTTSFPDLQK\n+QVASLPVIELVNAIDAPQVKSRVGVPWFQMGYQPGRYLVQWAHGKPLNVLLMPGPDNAGG\n+SKEMVEGFRAAIAGSPVRIVDIALGDNDIEIQRNLLQEMLERHPEIDVVAGTAIAAEAAM\n+GEGRNLKTPLTVVSFYLSHQVYRGLKRGRVIMAASDQMVWQGELAVEQAIRQLQGQSVSD\n+NVSPPILVLTPKNADREHIRRSLSPGGFRPVYFYQHTSAAKK*\n+>AC_000091_966 # 1057684 # 1058376 # -1 # ID=1_966;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=11-12bp;gc_cont=0.522\n+MPHHIVIVEDEPVTQARLQSYFTQEGYTVSVTASGAGLREIMQNQSVDLILLDINLPDEN\n+GLMLTRALRERSTVGIILVTGRSDRIDRIVGLEMGADDYVTKPLELRELVVRVKNLLWRI\n+DLARQAQPHTQDNCYRFAGYCLNVSRHTLERDGEPIKLTRAEYEMLVAFVTNPGEILSRE\n+RLLRMLSARRVENPDLRTVDVLIRRLRHKLSADLLVTQHGEGYFLAADVC*\n+>AC_000091_967 # 1058506 # 1059678 # 1 # ID=1_967;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.512\n+MRKLWNALRRPSARWSVLALVAIGIVIGIALIVLPHVGIKVTSTTEFCVSCHSMQPVYEE\n+YKQSVHFQNASGVRAECHDCHIPPDIPGMVKRKLEASNDIYQTFIAHSIDTPEKFEAKRA\n+ELAEREWARMKENNSATCRSCHNYDAMDHAKQHPEAARQMKVAAKDNQSCIDCHKGIAHQ\n+LPDMSSGFRKQFDELRASANDSGDTLYSIDIKPIYAAKGDKEASGSLLPASEVKVLKRDG\n+DWLQIEITGWTESAGRQRVLTQFPGKRIFVASIRGDVQQQVKTLEKTTVADTNTEWSKLQ\n+ATAWMKKGDMVNDIKPIWAYADSLYNGTCNQCHGAPEIAHFDANGWIGTLNGMIGFTSLD\n+KREERTLLKYLQMNASDTAGKAHGDKKEEK*\n+>AC_000091_968 # 1059678 # 1062224 # 1 # ID=1_968;partial=00;start_type=ATG;rbs_motif=AGGA;rbs_spacer=5-10bp;gc_cont=0.553\n+MNNNDLFQASRRRFLAQLGGLTVAGMLGPSLLTPRRATAAQAATDAVISKEGILTGSHWG\n+AIRATVKDGRFVAAKPFELDKYPSKMIAGLPDHVHNAARIRYPMVRVDWLRKRHLSDTSQ\n+RGDNRFVRVSWDEALDMFYEELERVQKTHGPSALLTASGWQSTGMFHNASGMLAKAIALH\n+GNSVGTGGDYSTGAAQVILPRVVGSMEVYEQQTSWPLVLQNSKTIVLWGSDLLKNQQANW\n+WCPDHDVYEYYAQLKAKVAAGEIEVISIDPVVTSTHEYLGREHVKHIAVNPQTDVPLQLA\n+LAHTLYSENLYDKNFLANYCVGFEQFLPYLLGEKDGQPKDAAWAEKLTGIDAETIRGLAR\n+QMAANRTQIIAGWCVQRMQHGEQWAWMIVVLAAMLGQIGLPGGGFGFGWHYNGAGTPGRK\n+GVILSGFSGSTSIPPVHDNSDYKGYSSTIPIARFIDAILEPGKVINWNGKSVKLPPLKMC\n+IFAGTNPFHRHQQINRIIEGLRKLETVIAIDNQWTSTCRFADIVLPATTQFERNDLDQYG\n+NHSNRGIIAMKQVVPPQFEARNDFDIFRELCRRFNREEAFTEGLDEMGWLKRIWQEGVQQ\n+GKGRGVHLPAFDDFWNNKEYVEFDHPQMFVRHQAFREDPDLEPLGTPSGLIEIYSKTIAD\n+MNYDDCQGHPMWFEKIERSHGGPGSQKYPLHLQSVHPDFRLHSQLCESETLRQQYTVAGK\n+EPVFINPQDASARGIRNGDVVRVFNARGQVLAGAVVSDRYAPGVARIHEGAWYDPDKGGE\n+PGALCKYGNPNVLTIDIGTSQLAQATSAHTTLVEIEKYNGTVEQVTAFNGPVEMVAQCEY\n+VPASQVKS*\n+>AC_000091_969 # 1062221 # 1062820 # 1 # ID=1_969;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.533\n+MTTLTAQQIACVYAWLAQLFSRELDDEQLTQIASAQMAEWFSLLKSEPPLTAAVNELENR\n+IATLTVRDDARLELAADFCGLFLMTDKQAALPYASAYKQDEQEIKRLLVEAGMETSGNFN\n+EPADHLAIYLELLSHLHFSLGEGTVPARRIDSLRQKTLTALWQWLPEFVARCRQYDSFGF\n+YAALSQLLLVLVECDHQNR*\n+>AC_000091_970 # 1062972 # 1063277 # -1 # ID=1_970;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.536\n+MANVTVTFTITEFCLHTGISEEELNEIVGLGVVEPREIQETTWVFDDHAAIVVQRAVRLR\n+HELALDWPGIAVALTLMDDIAHLKQENRLLRQRLSRFVAHP*\n+>AC_000091_971 # 1063277 # 1064197 # -1 # ID=1_971;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.529\n+MELKDYYAIMGVKPTDDLKTIKTAYRRLARKYHPDVSKEPDAEARFKEVAEAWEVLSDEQ\n+RRAEYDQMWQHRNDPQFNRQFHHGDGQSFNAEDFDDIFSSIFGQHARQSRQRPATRGHDI\n+EIEVAVFLEETLTEHKRTISYNLPVYNAFGMIEQEIPKTLNVKIPAGVGNGQRIRLKGQG\n+TPGENGGPNGDLWLVIHIAPHPLFDIVGQDLEIVVPVSPWEAALGAKVTVPTLKESILLT\n+IPPGSQAGQRLRVKGKGLVSKKQTGDLYAVLKIVMPPKPDENTAALWQQLADAQSSFDPR\n+KDWGKA*\n+>AC_000091_972 # 1064458 # 1065714 # 1 # ID=1_972;partial=00;start_type=ATG;rbs_motif=None;rbs_spacer=None;gc_cont=0.341\n+MGSNIHGISCTANNYLKQAWNDIKNEYEKNQTYSITLFENTLVCFMRLYNELRRKVNEED\n+TPCLECESLEKEFEEMQNDNDLSLFMRILRTNDTQIYSGVSGGITYTIQYVRDIDIVRVS\n+LPGRASESITDFKGYYWYNFMEYIENINACDDVFSEYCFDDENISVQPERINTPGISDLD\n+SDIDLSGISFIQRETNQALGLKYAPVDGDGYCLLRAILVLKQHDYSWALVSYKMQKEVYN\n+EFIKMVDKKTIEALVDTAFYNLREDVKTLFGVDLQSDNQIQGQSSLMSWSFLFFKKQFID\n+SCLNNEKCILHLPEFIFNDNKNLLALDTDTSDRIKAVKNFLVVLSDSICSLFIVNSNVAS\n+ISLGNESFSTDEDLEYGYLMNTGNHYDVYLPPELFAQAYKLNNKEMNAQLDYLNRYAI*\n'
b
diff -r 000000000000 -r 9b2790bca5b5 test-data/637000110.fna
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/637000110.fna Fri Jul 29 20:29:27 2022 +0000
b
b'@@ -0,0 +1,16150 @@\n+>AC_000091\n+GCGTTTCTGGATTATTTCGCTGATGCTGGTTCTGATTGGTCTGGCAACGCTGAAGGTACG\n+TTAATCATGGCTGATTATCAGGGTAAAAATGTCGTCATTATCGGCCTGGGCCTCACCGGG\n+CTTTCCTGCGTGGACTTTTTCCTCGCTCGCGGTGTGACGCCGCGCGTTATGGATACGCGT\n+ATGACACCGCCTGGCCTGGATAAATTACCCGAAGCCGTAGAACGCCACACGGGCAGTCTG\n+AATGATGAATGGCTGATGGCGGCAGATCTGATTGTCGCCAGTCCCGGTATTGCACTGGCG\n+CATCCATCCTTAAGCGCTGCCGCTGATGCCGGAATCGAAATCGTTGGCGATATCGAGCTG\n+TTCTGTCGCGAAGCACAAGCACCGATTGTGGCGATTACCGGTTCTAACGGCAAAAGCACG\n+GTCACCACGCTAGTGGGTGAAATGGCGAAAGCGGCGGGGGTTAACGTTGGTGTGGGTGGC\n+AATATTGGCCTGCCTGCGTTGATGCTACTGGATGATGAGTGTGAACTGTACGTGCTGGAA\n+CTGTCGAGCTTCCAGCTGGAAACCACCTCCAGCTTACAGGCGGTAGCAGCGACCATTCTG\n+AACGTGACTGAAGATCATATGGATCGCTATCCGTTTGGTTTACAACAGTATCGTGCAGCA\n+AAACTGCGCATTTACGAAAACGCGAAAGTTTGCGTGGTTAATGCTGATGATGCCTTAACA\n+ATGCCGATTCGCGGTGCGGATGAACGCTGCGTCAGCTTTGGCGTCAACATGGGTGACTAT\n+CACCTGAATCATCAGCAGGGCGAAACCTGGCTGCGGGTTAAAGGCGAGAAAGTGCTGAAT\n+GTGAAAGAGATGAAACTTTCCGGGCAGCATAACTACACCAATGCGCTGGCGGCGCTGGCG\n+CTGGCAGATGCTGCAGGGTTACCGCGTGCCAGCAGCCTGAAAGCGTTAACCACATTCACT\n+GGTCTGCCGCATCGCTTTGAAGTTGTGCTGGAGCATAACGGCGTACGTTGGATTAACGAT\n+TCGAAAGCGACCAACGTCGGCAGTACGGAAGCGGCGCTGAATGGCCTGCACGTAGACGGC\n+ACACTGCATTTGTTGCTGGGTGGCGATGGTAAATCGGCGGACTTTAGCCCACTGGCGCGT\n+TACCTGAATGGCGATAACGTACGTCTGTATTGTTTCGGTCGTGACGGCGCGCAGCTGGCG\n+GCGCTACGCCCGGAAGTGGCAGAACAAACCGAAACTATGGAACAGGCGATGCGCTTGCTG\n+GCTCCGCGTGTTCAGCCGGGCGATATGGTTCTGCTCTCCCCAGCCTGTGCCAGCCTTGAT\n+CAGTTCAAGAACTTTGAACAACGAGGCAATGAGTTTGCCCGTCTGGCGAAGGAGTTAGGT\n+TGATGCGTTTATCTCTCCCTCGCCTGAAAATGCCGCGCCTGCCAGGATTCAGTATCCTGG\n+TCTGGATCTCCACGGCGCTAAAGGGCTGGGTGATGGGCTCGCGGGAAAAAGATACCGACA\n+GCCTGATCATGTACGATCGCACCTTACTGTGGCTGACCTTCGGCCTCGCGGCGATTGGCT\n+TTATCATGGTGACCTCGGCGTCAATGCCCATAGGGCAACGCTTAACCAACGATCCGTTCT\n+TCTTCGCGAAGCGTGATGGTGTCTATCTGATTTTGGCGTTTATTCTGGCGATCATTACGC\n+TGCGTCTGCCGATGGAGTTCTGGCAACGCTACAGTGCCACGATGCTGCTCGGATCTATCA\n+TCCTGCTGATGATCGTCCTGGTAGTGGGTAGCTCGGTTAAAGGGGCATCGCGTTGGATCG\n+ATCTCGGTTTGCTGCGTATCCAGCCTGCGGAGCTGACAAAACTGTCGCTGTTTTGCTATA\n+TCGCCAACTATCTGGTGCGTAAAGGCGACGAAGTACGTAATAACCTGCGCGGCTTCCTGA\n+AACCGATGGGCGTGATTCTGGTGTTGGCAGTGTTACTGCTGGCACAGCCAGACCTTGGTA\n+CGGTGGTGGTGTTGTTTGTGACTACGCTGGCGATGTTGTTCCTGGCGGGAGCGAAATTGT\n+GGCAGTTCATTGCCATTATCGGTATGGGCATTTCAGCGGTTGTGTTGCTGATACTCGCCG\n+AACCGTACCGTATCCGCCGTGTTACCGCATTCTGGAACCCGTGGGAAGATCCCTTTGGCA\n+GCGGCTATCAGTTAACGCAATCGCTGATGGCGTTTGGTCGCGGCGAACTTTGGGGGCAAG\n+GTTTAGGTAACTCGGTACAAAAACTGGAGTATCTGCCGGAAGCGCACACTGACTTTATTT\n+TCGCCATTATCGGCGAAGAACTGGGGTATGTCGGTGTGGTGCTGGCACTTTTAATGGTAT\n+TCTTCGTCGCTTTTCGCGCGATGTCGATTGGCCGTAAAGCATTAGAAATTGACCACCGTT\n+TTTCCGGTTTTCTCGCCTGTTCTATTGGCATCTGGTTTAGCTTCCAGGCGCTGGTTAACG\n+TAGGCGCGGCGGCGGGGATGTTACCGACCAAAGGTCTGACATTGCCGCTGATCAGTTACG\n+GTGGTTCGAGCTTACTGATTATGTCGACAGCCATCATGATGCTGTTGCGTATTGATTATG\n+AAACGCGTCTGGAGAAAGCGCAGGCGTTTGTACGAGGTTCACGATGAGTGGTCAAGGAAA\n+GCGATTAATGGTGATGGCAGGCGGAACCGGTGGACATGTATTCCCGGGACTGGCGGTTGC\n+GCACCATCTAATGGCTCAGGGTTGGCAAGTTCGCTGGCTGGGGACTGCCGACCGTATGGA\n+AGCGGACTTAGTGCCAAAACATGGCATCGAAATTGATTTCATTCGTATCTCTGGTCTGCG\n+TGGAAAAGGTATAAAAGCACTGATAGCTGCCCCGCTGCGTATCTTCAACGCCTGGCGTCA\n+GGCGCGGGCGATTATGAAAGCGTACAAACCTGACGTGGTGCTCGGTATGGGAGGCTACGT\n+GTCAGGTCCAGGTGGTCTGGCCGCGTGGTCGTTAGGCATTCCGGTTGTACTTCATGAACA\n+AAACGGTATTGCGGGCTTAACCAATAAATGGCTGGCGAAGATTGCCACCAAAGTGATGCA\n+GGCGTTTCCAGGTGCTTTCCCTAATGCGGAAGTAGTGGGTAACCCGGTGCGTACCGATGT\n+GTTGGCGCTGCCGTTGCCGCAGCAACGTTTGGCTGGACGTGAAGGTCCGGTTCGTGTGCT\n+GGTAGTGGGTGGTTCTCAGGGCGCACGCATTCTTAACCAGACAATGCCGCAGGTTGCTGC\n+GAAACTGGGTGATTCAGTCACTATCTGGCATCAGAGCGGCAAAGGTTCGCAACAATCCGT\n+TGAACAGGCGTATGCCGAAGCGGGGCAACCGCAGCATAAAGTGACGGAATTTATTGATGA\n+TATGGCGGCGGCGTATGCGTGGGCGGATGTCGTCGTTTGCCGCTCCGGTGCGTTAACGGT\n+GAGTGAAATCGCCGCGGCAGGACTACCGGCGTTGTTTGTGCCGTTTCAACATAAAGACCG\n+CCAGCAATACTGGAATGCGCTACCGCTGGAAAAAGCGGGCGCAGCCAAAATTATCGAGCA\n+GCCACAGCTTAGCGTGGATGCTGTCGCCAACACCCTGGCCGGGTGGTCGCGAGAAACCTT\n+ATTAACCATGGCAGAACGCGCCCGCGCTGCATCCATTCCGGATGCCACCGAGCGAGTGGC\n+AAATGAAGTGAGCCGGGTTGCCCGGGCGTAATTGTAGCGATGCCTTTTGCATCGTATGAA\n+TTTAAGAAGTTAATGGCGTAAAGAATGAATACACAACAATTGGCAAAACTGCGTTCCATC\n+GTGCCCGAAATGCGTCGCGTTCGGCACATACATTTTGTCGGCATTGGTGGTGCCGGTATG'..b'CGACCAGTGCGCACACTACGCTGGTGGAAA\n+TTGAGAAGTACAACGGAACAGTGGAGCAGGTGACGGCGTTTAACGGCCCCGTGGAGATGG\n+TGGCGCAGTGCGAATATGTTCCCGCGTCGCAGGTGAAATCATGACCACGCTGACAGCACA\n+ACAGATTGCCTGTGTTTACGCCTGGCTAGCGCAGTTGTTCTCCCGTGAGCTGGACGATGA\n+ACAACTGACGCAAATCGCCAGTGCGCAGATGGCTGAATGGTTTTCGTTGCTGAAAAGCGA\n+ACCGCCGCTCACTGCGGCGGTGAACGAGCTGGAAAACCGTATTGCCACGCTGACAGTACG\n+TGACGATGCCCGTCTGGAACTGGCCGCGGACTTTTGCGGCCTGTTTCTGATGACCGACAA\n+ACAAGCGGCGCTGCCGTATGCATCGGCCTACAAACAGGACGAGCAAGAGATTAAACGCTT\n+GTTAGTTGAGGCAGGGATGGAAACCAGCGGCAATTTCAACGAACCGGCAGATCATCTGGC\n+GATCTATCTCGAATTGCTCAGCCATCTGCATTTTTCGCTGGGAGAGGGGACCGTTCCTGC\n+GCGAAGAATCGACAGTTTGCGGCAAAAAACACTGACGGCGCTGTGGCAATGGTTACCAGA\n+GTTTGTTGCGCGTTGTCGTCAGTATGACAGCTTTGGTTTTTACGCGGCACTAAGCCAGTT\n+ATTGCTGGTGTTAGTGGAGTGCGACCACCAAAACAGATAACGTCGTTTGTGCGCCTGAAA\n+AGACGCGTTTAGCGTCGCATCAGGCATTATGGCGCAGTTGCCGGATGCGGCGTGAACGTC\n+TTATCCGGCCCACAGGAACTGTAATCTTTGTAGACCGGTTAAGATGCGTCATCGCATCCG\n+GCAAACACACATCACGGATGAGCTACAAACCGGGAAAGCCGCTGGCGCAGCAGGCGGTTT\n+TCCTGCTTCAGGTGCGCAATATCATCCATTAACGTCAGCGCCACCGCGATCCCCGGCCAG\n+TCCAGAGCCAGTTCATGACGCAGGCGTACCGCGCGTTGCACCACAATGGCGGCATGGTCG\n+TCAAATACCCAGGTTGTTTCCTGGATCTCACGCGGTTCAACCACCCCCAAACCGACAATT\n+TCATTCAACTCCTCTTCAGAGATGCCGGTATGCAGGCAAAATTCGGTAATAGTAAAAGTC\n+ACCGTAACATTAGCCATTATGCTTTCCCCCAATCTTTACGTGGATCAAAAGACGACTGGG\n+CGTCTGCCAGTTGCTGCCACAGCGCGGCAGTGTTTTCATCCGGTTTCGGCGGCATCACGA\n+TTTTCAGTACCGCATACAGATCGCCGGTCTGTTTTTTGCTCACCAGACCTTTGCCTTTAA\n+CGCGCAATCGTTGCCCGGCCTGGCTGCCTGGCGGGATAGTCAGCAAAATGCTTTCTTTCA\n+GTGTTGGAACGGTGACTTTAGCACCCAGCGCCGCTTCCCACGGGCTAACCGGCACCACAA\n+TTTCCAGATCCTGGCCGACAATATCAAACAGCGGATGTGGCGCAATATGAATCACCAGCC\n+ACAAATCGCCATTTGGACCGCCGTTTTCGCCCGGCGTCCCCTGGCCTTTCAGACGGATGC\n+GTTGACCATTGCCGACGCCCGCCGGGATCTTCACATTCAGCGTTTTCGGAATTTCCTGTT\n+CGATCATGCCAAAGGCGTTATAAACCGGCAGGTTATAGCTGATGGTACGCTTATGCTCAG\n+TAAGCGTTTCTTCGAGGAATACCGCCACTTCGATTTCAATATCGTGGCCGCGTGTGGCGG\n+GGCGTTGACGGCTCTGGCGGGCATGCTGACCGAAAATTGACGAGAAGATATCGTCAAAAT\n+CTTCGGCGTTAAAACTCTGACCGTCGCCATGGTGGAACTGACGGTTAAATTGCGGATCGT\n+TGCGATGTTGCCACATCTGATCATACTCAGCGCGACGTTGTTCATCACTTAACACTTCCC\n+AGGCTTCAGCGACCTCTTTGAAGCGGGCTTCGGCATCCGGTTCTTTGCTGACATCAGGAT\n+GGTATTTGCGGGCAAGTCGACGATAGGCGGTCTTGATTGTCTTGAGATCGTCCGTCGGTT\n+TCACGCCCATGATGGCGTAATAATCCTTTAATTCCATAGCGTTATCTCGCGTAAATCAAC\n+ACAAATTGAAGGAACCCCTGTAAGGTAACTCCTATAAGTGTAGGGTAATCCTCAAAATTT\n+CATATGCCAACACAGAATATGTTATTGAAATCATCGCGGAGAGGAGGTCGCCATCAAGAT\n+GGGTTGCTGAACATATTTTAAACAGGTGAAAAAGGGTGAGCGATTTTTGATAGTTGAACC\n+AGGCACTTTAAGTTTAACTAGGGCGTCATTATTTATTAAATTTTATAGACGCTATATATG\n+GGTAGTAATATACATGGAATTAGTTGCACTGCAAATAATTATTTGAAACAGGCCTGGAAC\n+GATATAAAAAATGAGTACGAAAAAAATCAAACATATTCAATCACGCTTTTTGAAAACACA\n+CTGGTGTGTTTTATGCGGTTATACAATGAACTCAGACGTAAAGTAAATGAAGAGGATACT\n+CCATGTCTGGAATGTGAATCACTAGAAAAAGAATTTGAGGAAATGCAGAATGATAATGAT\n+CTATCATTATTTATGAGAATATTGCGTACTAATGATACACAAATTTATTCAGGGGTTTCA\n+GGAGGTATTACATATACTATACAATATGTTCGAGATATTGATATTGTTAGAGTGTCCTTG\n+CCGGGCAGAGCTTCAGAGTCTATCACAGATTTTAAAGGTTATTATTGGTATAACTTTATG\n+GAGTATATTGAAAACATTAATGCGTGTGATGATGTTTTTTCTGAGTATTGTTTTGATGAT\n+GAAAATATAAGTGTCCAGCCAGAGCGGATAAATACGCCGGGAATATCTGATTTGGATTCT\n+GACATTGATTTGTCTGGTATATCTTTTATTCAGCGTGAAACTAACCAGGCATTAGGATTA\n+AAATATGCTCCTGTAGATGGCGATGGATATTGTCTGTTAAGAGCTATACTGGTTTTAAAA\n+CAACATGATTATTCATGGGCGCTGGTCAGTTATAAGATGCAAAAGGAAGTTTACAACGAA\n+TTCATTAAAATGGTTGATAAAAAAACGATCGAGGCTCTTGTTGATACGGCATTCTATAAT\n+CTCAGGGAAGATGTAAAGACGTTATTTGGCGTTGATCTACAATCTGACAACCAAATTCAG\n+GGGCAGAGTAGTCTTATGTCATGGAGCTTTCTGTTTTTTAAAAAACAATTCATTGATAGT\n+TGCTTGAATAACGAAAAATGTATCCTGCATTTACCCGAGTTTATATTTAATGATAACAAG\n+AACTTGCTTGCTTTAGATACCGACACGTCGGATAGGATTAAAGCGGTGAAGAATTTTCTT\n+GTTGTTCTTTCAGATAGCATTTGCTCATTATTTATTGTTAATAGTAATGTGGCATCAATC\n+TCCTTGGGGAATGAATCCTTTTCAACAGATGAAGATCTTGAGTATGGTTATTTAATGAAC\n+ACTGGCAATCATTATGACGTTTACCTCCCTCCTGAACTTTTTGCTCAGGCTTACAAGTTA\n+AACAATAAGGAAATGAATGCGCAACTCGACTATTTAAATCGTTATGCAATTTAATGGCAA\n+AGGCATATGCTAAAAACCATTGTTATTAGTCTCACACTTTTTTATTGGTAAATATTGTCT\n+CTGTATTGGTAACGCCGCAGATATTCTGTTTAGCCACAGGTGCAATTATCAGCGGCGTAC\n+GCGAGGCAGGGGCTAATCAGGCATAGTTTGCGTCAAACCTTGCCTGTTTTTGAAGATGTA\n+TATAGAAAAACAGGCGTTCAACAAGCCATTTTGCGAACCTGTTCCCGGAAAAAAGTCATA\n'
b
diff -r 000000000000 -r 9b2790bca5b5 test-data/637000110.gff
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/637000110.gff Fri Jul 29 20:29:27 2022 +0000
b
b'@@ -0,0 +1,975 @@\n+##gff-version  3\n+# Sequence Data: seqnum=1;seqlen=1065960;seqhdr="AC_000091"\n+# Model Data: version=Prodigal.v2.6.3;run_type=Single;model="Ab initio";gc_cont=51.41;transl_table=11;uses_sd=1\n+AC_000091\tProdigal_v2.6.3\tCDS\t3\t98\t1.0\t+\t0\tID=1_1;partial=10;start_type=Edge;rbs_motif=None;rbs_spacer=None;gc_cont=0.427;conf=55.55;score=0.97;cscore=-1.75;sscore=2.72;rscore=0.00;uscore=0.00;tscore=3.22;\n+AC_000091\tProdigal_v2.6.3\tCDS\t337\t2799\t339.2\t+\t0\tID=1_2;partial=00;start_type=ATG;rbs_motif=GGAG/GAGG;rbs_spacer=5-10bp;gc_cont=0.531;conf=99.99;score=339.17;cscore=322.54;sscore=16.63;rscore=10.85;uscore=2.51;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t2801\t3733\t120.2\t+\t0\tID=1_3;partial=00;start_type=ATG;rbs_motif=AGGAG;rbs_spacer=5-10bp;gc_cont=0.563;conf=100.00;score=120.17;cscore=99.87;sscore=20.30;rscore=14.86;uscore=0.27;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t3734\t5020\t197.3\t+\t0\tID=1_4;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.528;conf=99.99;score=197.29;cscore=192.17;sscore=5.12;rscore=3.24;uscore=-3.31;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t5234\t5530\t5.8\t+\t0\tID=1_5;partial=00;start_type=GTG;rbs_motif=AGGAG;rbs_spacer=5-10bp;gc_cont=0.539;conf=79.20;score=5.82;cscore=-1.83;sscore=7.65;rscore=14.86;uscore=-0.46;tscore=-5.59;\n+AC_000091\tProdigal_v2.6.3\tCDS\t5683\t6459\t117.8\t-\t0\tID=1_6;partial=00;start_type=ATG;rbs_motif=AGGA;rbs_spacer=5-10bp;gc_cont=0.495;conf=100.00;score=117.84;cscore=101.91;sscore=15.93;rscore=11.08;uscore=0.93;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t6529\t7959\t136.0\t-\t0\tID=1_7;partial=00;start_type=ATG;rbs_motif=GGAG/GAGG;rbs_spacer=5-10bp;gc_cont=0.534;conf=100.00;score=135.98;cscore=122.59;sscore=13.39;rscore=10.85;uscore=-0.73;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t8238\t9191\t171.2\t+\t0\tID=1_8;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.520;conf=100.00;score=171.20;cscore=161.78;sscore=9.42;rscore=3.24;uscore=2.26;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t9306\t9893\t75.9\t+\t0\tID=1_9;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.544;conf=100.00;score=75.85;cscore=65.82;sscore=10.04;rscore=3.24;uscore=2.87;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t9928\t10494\t101.8\t-\t0\tID=1_10;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.529;conf=100.00;score=101.84;cscore=91.64;sscore=10.20;rscore=3.24;uscore=3.03;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t10643\t11356\t76.8\t-\t0\tID=1_11;partial=00;start_type=ATG;rbs_motif=AGxAG;rbs_spacer=5-10bp;gc_cont=0.507;conf=100.00;score=76.81;cscore=75.74;sscore=1.07;rscore=-4.32;uscore=0.46;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t11382\t11786\t41.5\t-\t0\tID=1_12;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.486;conf=99.99;score=41.46;cscore=33.36;sscore=8.09;rscore=3.24;uscore=1.59;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t12163\t14079\t349.7\t+\t0\tID=1_13;partial=00;start_type=ATG;rbs_motif=GGAG/GAGG;rbs_spacer=5-10bp;gc_cont=0.511;conf=99.99;score=349.69;cscore=332.89;sscore=16.80;rscore=10.85;uscore=2.03;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t14168\t15298\t149.9\t+\t0\tID=1_14;partial=00;start_type=ATG;rbs_motif=3Base/5BMM;rbs_spacer=13-15bp;gc_cont=0.552;conf=100.00;score=149.91;cscore=151.52;sscore=-1.62;rscore=-3.75;uscore=-1.78;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t15445\t16557\t33.4\t+\t0\tID=1_15;partial=00;start_type=ATG;rbs_motif=None;rbs_spacer=None;gc_cont=0.519;conf=99.95;score=33.38;cscore=38.31;sscore=-4.93;rscore=-8.11;uscore=-0.73;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t16580\t16720\t4.5\t+\t0\tID=1_16;partial=00;start_type=ATG;rbs_motif=GGAG/GAGG;rbs_spacer=5-10bp;gc_cont=0.511;conf=73.88;score=4.52;cscore=-4.18;sscore=8.70;rscore=5.99;uscore=0.02;tscore=2.16;\n+AC_000091\tProdigal_v2.6.3\tCDS\t16751\t16903\t11.8\t-\t0\tID=1_17;partial=00;start_type=ATG;rbs_motif=AGGAG;rbs_spacer=5-10bp;gc_cont=0.529;conf=93.75;score=11.78;cscore=1.31;sscore=10.47;rscore=8.91;uscore=-0.14;tscore=2.35;\n+A'..b'ne;gc_cont=0.520;conf=99.99;score=248.06;cscore=240.82;sscore=7.24;rscore=-8.11;uscore=2.04;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t1048367\t1049113\t70.4\t-\t0\tID=1_956;partial=00;start_type=ATG;rbs_motif=None;rbs_spacer=None;gc_cont=0.525;conf=100.00;score=70.44;cscore=64.83;sscore=5.62;rscore=-8.11;uscore=0.41;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t1049110\t1049754\t50.4\t-\t0\tID=1_957;partial=00;start_type=GTG;rbs_motif=AGGA;rbs_spacer=5-10bp;gc_cont=0.476;conf=100.00;score=50.41;cscore=41.52;sscore=8.89;rscore=11.08;uscore=3.40;tscore=-5.59;\n+AC_000091\tProdigal_v2.6.3\tCDS\t1049861\t1050166\t8.8\t-\t0\tID=1_958;partial=00;start_type=ATG;rbs_motif=AGGA;rbs_spacer=5-10bp;gc_cont=0.569;conf=88.40;score=8.83;cscore=-5.77;sscore=14.60;rscore=11.08;uscore=0.10;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t1050288\t1050503\t5.5\t-\t0\tID=1_959;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.532;conf=77.90;score=5.48;cscore=2.21;sscore=3.27;rscore=2.76;uscore=-2.18;tscore=3.34;\n+AC_000091\tProdigal_v2.6.3\tCDS\t1050575\t1050952\t0.8\t+\t0\tID=1_960;partial=00;start_type=ATG;rbs_motif=None;rbs_spacer=None;gc_cont=0.537;conf=54.49;score=0.78;cscore=7.93;sscore=-7.15;rscore=-8.11;uscore=-2.95;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t1051883\t1052095\t27.8\t+\t0\tID=1_961;partial=00;start_type=ATG;rbs_motif=AGGA;rbs_spacer=5-10bp;gc_cont=0.441;conf=99.83;score=27.75;cscore=15.35;sscore=12.40;rscore=9.31;uscore=0.46;tscore=3.29;\n+AC_000091\tProdigal_v2.6.3\tCDS\t1052489\t1052662\t17.6\t+\t0\tID=1_962;partial=00;start_type=GTG;rbs_motif=GGAG/GAGG;rbs_spacer=5-10bp;gc_cont=0.397;conf=98.27;score=17.58;cscore=18.78;sscore=-1.20;rscore=7.42;uscore=0.20;tscore=-8.18;\n+AC_000091\tProdigal_v2.6.3\tCDS\t1052711\t1053784\t71.3\t-\t0\tID=1_963;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=11-12bp;gc_cont=0.492;conf=100.00;score=71.26;cscore=65.88;sscore=5.38;rscore=-1.67;uscore=3.13;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t1053856\t1056555\t349.3\t-\t0\tID=1_964;partial=00;start_type=ATG;rbs_motif=3Base/5BMM;rbs_spacer=13-15bp;gc_cont=0.538;conf=99.99;score=349.34;cscore=349.01;sscore=0.33;rscore=-3.75;uscore=0.17;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t1056683\t1057711\t117.3\t+\t0\tID=1_965;partial=00;start_type=ATG;rbs_motif=GGAG/GAGG;rbs_spacer=5-10bp;gc_cont=0.534;conf=100.00;score=117.34;cscore=100.03;sscore=17.31;rscore=10.85;uscore=2.54;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t1057684\t1058376\t87.1\t-\t0\tID=1_966;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=11-12bp;gc_cont=0.522;conf=100.00;score=87.13;cscore=84.65;sscore=2.48;rscore=-1.67;uscore=0.88;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t1058506\t1059678\t145.8\t+\t0\tID=1_967;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.512;conf=100.00;score=145.84;cscore=135.16;sscore=10.68;rscore=3.24;uscore=3.52;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t1059678\t1062224\t365.4\t+\t0\tID=1_968;partial=00;start_type=ATG;rbs_motif=AGGA;rbs_spacer=5-10bp;gc_cont=0.553;conf=99.99;score=365.40;cscore=349.12;sscore=16.28;rscore=11.08;uscore=-0.97;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t1062221\t1062820\t78.2\t+\t0\tID=1_969;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.533;conf=100.00;score=78.21;cscore=69.75;sscore=8.46;rscore=3.24;uscore=-1.00;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t1062972\t1063277\t48.5\t-\t0\tID=1_970;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.536;conf=100.00;score=48.45;cscore=37.50;sscore=10.95;rscore=3.24;uscore=2.51;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t1063277\t1064197\t146.8\t-\t0\tID=1_971;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.529;conf=100.00;score=146.79;cscore=137.57;sscore=9.22;rscore=3.24;uscore=2.71;tscore=3.92;\n+AC_000091\tProdigal_v2.6.3\tCDS\t1064458\t1065714\t62.4\t+\t0\tID=1_972;partial=00;start_type=ATG;rbs_motif=None;rbs_spacer=None;gc_cont=0.341;conf=100.00;score=62.42;cscore=62.18;sscore=0.24;rscore=-8.11;uscore=4.43;tscore=3.92;\n'
b
diff -r 000000000000 -r 9b2790bca5b5 test-data/bin_stats.analyze.tsv
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/bin_stats.analyze.tsv Fri Jul 29 20:29:27 2022 +0000
b
@@ -0,0 +1,1 @@
+637000110 {'GC': 0.5140727607039663, 'GC std': 0.0, 'Genome size': 1065960, '# ambiguous bases': 0, '# scaffolds': 1, '# contigs': 1, 'Longest scaffold': 1065960, 'Longest contig': 1065960, 'N50 (scaffolds)': 1065960, 'N50 (contigs)': 1065960, 'Mean scaffold length': 1065960.0, 'Mean contig length': 1065960.0, 'Coding density': 0.8805077113587751, 'Translation table': 11, '# predicted genes': 972}
b
diff -r 000000000000 -r 9b2790bca5b5 test-data/bin_stats.tree.tsv
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/bin_stats.tree.tsv Fri Jul 29 20:29:27 2022 +0000
b
@@ -0,0 +1,1 @@
+637000110 {'GC': 0.5140727607039663, 'GC std': 0.0, 'Genome size': 1065960, '# ambiguous bases': 0, '# scaffolds': 1, '# contigs': 1, 'Longest scaffold': 1065960, 'Longest contig': 1065960, 'N50 (scaffolds)': 1065960, 'N50 (contigs)': 1065960, 'Mean scaffold length': 1065960.0, 'Mean contig length': 1065960.0, 'Coding density': 0.8805077113587751, 'Translation table': 11, '# predicted genes': 972}
b
diff -r 000000000000 -r 9b2790bca5b5 test-data/bin_stats_ext.tsv
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/bin_stats_ext.tsv Fri Jul 29 20:29:27 2022 +0000
[
@@ -0,0 +1,1 @@
+637000110 {'marker lineage': 'k__Bacteria', '# genomes': 5449, '# markers': 104, '# marker sets': 58, '0': 89, '1': 15, '2': 0, '3': 0, '4': 0, '5+': 0, 'Completeness': 24.137931034482758, 'Contamination': 0.0, 'GC': 0.5140727607039663, 'GC std': 0.0, 'Genome size': 1065960, '# ambiguous bases': 0, '# scaffolds': 1, '# contigs': 1, 'Longest scaffold': 1065960, 'Longest contig': 1065960, 'N50 (scaffolds)': 1065960, 'N50 (contigs)': 1065960, 'Mean scaffold length': 1065960.0, 'Mean contig length': 1065960.0, 'Coding density': 0.8805077113587751, 'Translation table': 11, '# predicted genes': 972, 'GCN0': ['PF04983', 'PF00623', 'PF01509', 'TIGR03263', 'PF00861', 'PF01632', 'PF00281', 'PF04561', 'PF00238', 'PF06421', 'PF03484', 'PF04997', 'PF01196', 'PF02367', 'PF01195', 'PF01000', 'PF11987', 'PF00687', 'PF01245', 'PF00831', 'PF04998', 'TIGR00019', 'PF00380', 'PF04563', 'PF00189', 'TIGR00922', 'PF01409', 'PF01193', 'PF05000', 'TIGR00855', 'PF05491', 'PF00673', 'TIGR00810', 'TIGR00329', 'TIGR03723', 'TIGR00250', 'PF08529', 'PF00203', 'PF01668', 'TIGR01079', 'PF01250', 'PF10385', 'PF00410', 'PF00466', 'PF00366', 'PF06071', 'PF00181', 'PF02033', 'TIGR03594', 'PF00338', 'TIGR00084', 'PF04560', 'PF00297', 'PF00333', 'PF01281', 'PF02912', 'PF00252', 'PF00416', 'PF00828', 'PF03948', 'PF03947', 'PF08459', 'PF00573', 'PF00886', 'PF03946', 'PF01746', 'PF00276', 'PF00347', 'PF01016', 'PF00177', 'PF00312', 'PF00411', 'TIGR00460', 'PF00237', 'PF00562', 'TIGR00344', 'TIGR00459', 'PF00164', 'PF00298', 'PF00162', 'PF00453', 'PF01018', 'PF02978', 'TIGR00967', 'PF03719', 'PF00572', 'PF13184', 'PF04565', 'PF00829'], 'GCN1': ['TIGR02432', 'TIGR02075', 'PF00318', 'PF13603', 'TIGR00755', 'PF01765', 'PF01795', 'PF12344', 'PF01649', 'PF01121', 'PF02130', 'TIGR00392', 'TIGR00615', 'PF00889', 'PF05697'], 'GCN2': [], 'GCN3': [], 'GCN4': [], 'GCN5+': []}
b
diff -r 000000000000 -r 9b2790bca5b5 test-data/checkm_hmm_info.pkl.gz
b
Binary file test-data/checkm_hmm_info.pkl.gz has changed
b
diff -r 000000000000 -r 9b2790bca5b5 test-data/concatenated.fasta
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/concatenated.fasta Fri Jul 29 20:29:27 2022 +0000
b
@@ -0,0 +1,2 @@
+>637000110
+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------MLKAGVHFGHQTRYWNPKMKPFIFGARNKVHIINLEKTVPMFNEALAELNKIASRKGKILFVGTKRAASEAVKDAALSCDQFFVNHRWLGGMLTNWKTVRQSIKRLKDLETQSQLTKKEALMRTRELEKLENSLGGIKDMGGLPDALFVIDADHEHIAIKEANNLGIPVFAIVDTNSDPDGVDFVIPGNDDAIRAVTLYLGAVAATVREGR-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
b
diff -r 000000000000 -r 9b2790bca5b5 test-data/concatenated.tre
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/concatenated.tre Fri Jul 29 20:29:27 2022 +0000
b
b"@@ -0,0 +1,1 @@\n+(((((((IMG_646564547:0.13697,(IMG_646311944:0.03413,(IMG_638154505:0.00607,(IMG_644736385:0.02744,IMG_646564548:0.01047)UID10||0.806:0.00682)UID9||0.970:0.00965)UID8||1.000:0.03886)'UID7|f__Methanocaldococcaceae;g__Methanocaldococcus|1.000':0.08068,((IMG_2506520039:0.02739,IMG_650716056:0.01876)'UID12|f__Methanocaldococcaceae;g__Methanotorris|1.000':0.04195,((IMG_640753034:0.13657,IMG_650716055:0.05371)UID14||1.000:0.05304,(IMG_2519103186:0.0627,(IMG_646564549:0.13498,(IMG_640753036:0.07197,(IMG_2511231109:0.0139,(IMG_640069316:0.01188,(IMG_641228496:0.00794,IMG_640753035:0.00685)UID20||1.000:0.00681)UID19||0.840:0.00636)UID18|s__Methanococcus_maripaludis|1.000:0.04679)UID17||1.000:0.04659)UID16|g__Methanococcus|1.000:0.07257)UID15||0.999:0.02758)UID13|f__Methanococcaceae|1.000:0.08994)UID11||1.000:0.06357)'UID6|c__Methanococci;o__Methanococcales|1.000':0.23766,(((((IMG_643348580:0.02686,(IMG_650716097:0.03213,IMG_2518645553:0.02085)UID26||1.000:0.01205)UID25||0.999:0.01452,(IMG_638154520:0.02808,(IMG_2511231053:0.00749,IMG_644736411:0.00875)UID28||1.000:0.02538)UID27||1.000:0.01383)UID24||1.000:0.02806,IMG_2501025505:0.10697)UID23||1.000:0.02791,(IMG_650716096:0.04476,(IMG_644736412:0.0741,IMG_2510065005:0.02436)UID30||1.000:0.05121)UID29||0.989:0.02095)UID22|g__Thermococcus|0.991:0.02177,(IMG_650716080:0.04254,((IMG_2517093039:0.00055,IMG_638154515:0.00055)UID33|s__Pyrococcus_furiosus|1.000:0.03215,(IMG_2521172719:0.02879,(IMG_638154514:0.02486,IMG_650716079:0.03388)UID35||1.000:0.01674)UID34||0.861:0.00794)UID32||1.000:0.0211)UID31|g__Pyrococcus|1.000:0.03261)'UID21|c__Thermococci;o__Thermococcales;f__Thermococcaceae|1.000':0.32006)UID5||0.910:0.05052,((IMG_649633067:0.17904,((IMG_638154510:0.09239,IMG_648028041:0.01876)UID39|g__Methanothermobacter|1.000:0.11317,((IMG_646311943:0.12543,(IMG_2558860120:0.12916,(IMG_640427121:0.00055,(IMG_643886215:0.00055,IMG_643886144:0.00055)UID44||0.693:0.00055)UID43|s__Methanobrevibacter_smithii|1.000:0.11263)UID42||0.992:0.03476)UID41|g__Methanobrevibacter|1.000:0.11165,(IMG_637000163:0.24504,(IMG_2519899733:0.12501,(IMG_650716053:0.08307,IMG_650716052:0.1093)UID47||1.000:0.03861)UID46|g__Methanobacterium|1.000:0.04704)UID45||0.999:0.05053)UID40||1.000:0.049)UID38|f__Methanobacteriaceae|1.000:0.11978)UID37|o__Methanobacteriales|1.000:0.16345,IMG_638154507:0.42813)UID36|c__Methanobacteria|0.997:0.04959)UID4||0.886:0.03464,((((IMG_2528311132:0.00055,IMG_638154502:0.00112)UID51|s__Archaeoglobus_fulgidus|1.000:0.13371,(IMG_646311906:0.12624,(IMG_646564534:0.13127,IMG_2504136002:0.11719)UID53||0.568:0.02974)UID52||0.227:0.0266)'UID50|c__Archaeoglobi;o__Archaeoglobales;f__Archaeoglobaceae;g__Archaeoglobus|1.000':0.24387,(((IMG_2516653088:0.34031,((IMG_2511231210:0.17511,(IMG_650716054:0.18411,IMG_639633038:0.14448)UID59||0.998:0.05108)'UID58|f__Methanosaetaceae;g__Methanosaeta|1.000':0.14367,(IMG_2515154041:0.26825,((IMG_637000162:0.03969,(IMG_638154509:0.03247,IMG_638154508:0.02201)UID63||1.000:0.02199)UID62|g__Methanosarcina|1.000:0.1616,(IMG_648028039:0.21039,(IMG_2502790017:0.15581,((IMG_2509601008:0.1365,(IMG_2519103099:0.09921,IMG_2515075008:0.07954)UID68|g__Methanolobus|1.000:0.03967)UID67||1.000:0.04684,(IMG_646564550:0.15901,IMG_637000161:0.11951)UID69||1.000:0.03264)UID66||1.000:0.03567)UID65||0.822:0.0311)UID64||0.999:0.03595)UID61|f__Methanosarcinaceae|1.000:0.10826)UID60||0.945:0.04088)UID57|o__Methanosarcinales|0.983:0.0386)UID56||1.000:0.04935,((IMG_2505679073:0.10545,(IMG_2512564055:0.05248,IMG_2505679075:0.06724)UID72||1.000:0.07472)UID71|g__Methanocella|1.000:0.33746,IMG_2518645542:0.38921)'UID70|o__Methanocellales;f__Methanocellaceae|0.934':0.04914)UID55|c__Methanomicrobia|0.993:0.03852,(((IMG_640069317:0.01415,IMG_2524614668:0.01582)'UID75|f__Methanocorpusculaceae;g__Methanocorpusculum|1.000':0.25953,((((IMG_2507262043:0.16093,(IMG_643348525:0.16303,(IMG_2508501105:0.07981,IMG_640753014:0.08069)UID81||1.000:0.08234)UID80||0.719:0.02503)UID79|f__Methanoreg"..b"ica|1.000:0.00374)UID5168|g__Salmonella|0.999:0.00411,((IMG_640753015:0.00573,IMG_646311913:0.00791)UID5186||0.696:0.00217,((IMG_2513237361:0.00215,IMG_641736163:0.00159)UID5188||0.084:0.00055,(IMG_643348548:0.00055,(IMG_2511231198:0.00055,(IMG_646206259:0.00055,((IMG_650377933:0.00055,(IMG_646862322:0.00055,((IMG_646862323:0.00055,(IMG_644736359:0.00055,IMG_646862324:0.00055)UID5197||0.000:0.00055)UID5196||0.966:0.00071,(IMG_646862325:0.00055,(IMG_641522623:0.00055,IMG_646311926:0.00055)UID5199||0.467:0.00055)UID5198||0.860:0.00055)UID5195||0.090:0.00055)UID5194||0.916:0.00055)UID5193||0.439:0.00055,((IMG_2534681604:0.00055,IMG_643692022:0.00055)'UID5201|g__Escherichia;s__Escherichia_fergusonii|0.876':0.00055,(IMG_651053022:0.00101,(((IMG_646311923:0.00055,(IMG_643348551:0.00055,IMG_2513237200:0.00055)UID5206||0.000:0.00055)UID5205||0.731:0.00055,IMG_2503538007:0.00055)UID5204||0.722:0.00055,((IMG_640427143:0.00055,(IMG_2526164617:0.00055,(IMG_2531839193:0.00055,(IMG_2529292716:0.00055,IMG_2529293265:0.00055)UID5211||0.723:0.00055)UID5210||0.471:0.00055)UID5209||0.909:0.00055)UID5208|s__Shigella_sonnei|0.961:0.00077,(((IMG_2526164619:0.00107,((IMG_2526164609:0.00055,IMG_2529292985:0.00055)UID5216||0.939:0.00055,(IMG_641522650:0.00055,(IMG_637000261:0.00055,(IMG_2531839374:0.00055,((IMG_2529293239:8.28125e-06,637000110:6.11352e-06):0.000521719,IMG_2529292714:0.00055)UID5220||0.000:0.00055)UID5219||0.000:0.00055)UID5218||0.956:0.00055)UID5217||0.000:0.00055)UID5215||0.845:0.00055)UID5214||0.802:0.00055,((IMG_2529292715:0.00055,((IMG_2526164651:0.00055,IMG_2526164652:0.00055)UID5224||0.917:0.00055,(IMG_2529293240:0.00055,IMG_2526164649:0.00055)UID5225||0.517:0.00055)UID5223||0.844:0.00055)UID5222||0.819:0.00055,(IMG_2531839195:0.00055,(((((IMG_637000265:0.00054,(IMG_2526164650:0.00055,IMG_2526164618:0.00055)UID5232||0.997:0.00055)UID5231||0.000:0.00055,(IMG_2526164646:0.00055,IMG_2526164647:0.00055)UID5233||0.799:0.00055)UID5230||0.000:0.00055,IMG_2526164621:0.00055)UID5229||1.000:0.00055,IMG_637000264:0.00106)UID5228||0.000:0.00055,IMG_646862341:0.00055)UID5227||0.857:0.00055)UID5226||0.708:0.00055)UID5221|s__Shigella_flexneri|0.977:0.00077)UID5213||0.000:0.00055,((IMG_640427142:0.00055,IMG_649989998:0.00055)UID5235|s__Shigella_dysenteriae|1.000:0.00176,(IMG_646564533:0.00055,((IMG_644736363:0.00055,(IMG_637000107:0.00055,IMG_2513237251:0.00055)UID5239||0.000:0.00055)UID5238||0.752:0.00055,(IMG_2531839178:0.00055,(IMG_2529293223:0.00055,IMG_2534681697:0.00055)UID5241||0.769:0.00055)UID5240|s__Shigella_boydii|0.912:0.00055)UID5237||0.000:0.00055)UID5236||0.620:0.00055)UID5234||0.851:0.00055)UID5212||:0.00055)UID5207|g__Shigella|0.000:0.00055)UID5203||0.737:0.00055)UID5202||0.394:0.00055)UID5200||0.888:0.00055)UID5192||0.478:0.00055)UID5191||0.823:0.00055)UID5190||0.000:0.00055)UID5189||0.889:0.00056)UID5187||0.871:0.00976)UID5185||1.000:0.00132)UID5167||0.829:0.00367)UID5162||0.916:0.00712)UID5139||1.000:0.00283)UID5130||0.407:0.00534)UID5124||0.996:0.00446)UID5123||0.884:0.00572)UID5121||0.954:0.01077)UID5103||1.000:0.01703)UID5065||1.000:0.00494)UID5054||0.367:0.00519)UID5035||0.754:0.01047)UID5016||0.997:0.0111)UID5014|f__Enterobacteriaceae|0.867:0.0275)UID5013|o__Enterobacteriales|1.000:0.02786)UID4931||1.000:0.04786)UID4864||1.000:0.03101)UID4836||1.000:0.01553)UID4819||0.220:0.01411)UID4811||0.790:0.01684)UID4760||0.924:0.02998)UID4754||0.918:0.06212)UID4752||1.000:0.03318)UID4442||0.934:0.03242)UID4387||1.000:0.02274)UID4374||0.997:0.01833)UID4266||0.976:0.02133)UID4201|c__Gammaproteobacteria|0.980:0.04419)UID3887||1.000:0.04033)UID3882||0.995:0.13537)UID3880||1.000:0.04143)UID3302||0.716:0.08878)UID3298||1.000:0.03202)UID3214|p__Proteobacteria|0.772:0.03881)UID3193||1.000:0.02044)UID3187||0.360:0.03047)UID3059||0.999:0.04193)UID2565||1.000:0.02001)UID2495||0.825:0.03374)UID2328||1.000:0.02073)UID237||0.572:0.04559)UID223||1.000:0.0486)UID209||0.976:0.03926)UID206||0.850:0.05058)UID203|k__Bacteria|0.993:0.897545)UID1||;\n"
b
diff -r 000000000000 -r 9b2790bca5b5 test-data/hmmer.analyze.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/hmmer.analyze.txt Fri Jul 29 20:29:27 2022 +0000
[
b'@@ -0,0 +1,2109 @@\n+#                                                                            --- full sequence --- -------------- this domain -------------   hmm coord   ali coord   env coord\n+# target name        accession   tlen query name           accession   qlen   E-value  score  bias   #  of  c-Evalue  i-Evalue  score  bias  from    to  from    to  from    to  acc description of target\n+#------------------- ---------- ----- -------------------- ---------- ----- --------- ------ ----- --- --- --------- --------- ------ ----- ----- ----- ----- ----- ----- ----- ---- ---------------------\n+AC_000091_954        -            380 SLBB                 PF10531.4     59   4.4e-18   61.1   1.0   1   2     4e-11   1.9e-08   30.2   0.1     3    47   174   219   172   225 0.93 # 1045086 # 1046225 # -1 # ID=1_954;partial=00;start_type=ATG;rbs_motif=None;rbs_spacer=None;gc_cont=0.510\n+AC_000091_954        -            380 SLBB                 PF10531.4     59   4.4e-18   61.1   1.0   2   2   8.6e-11   4.2e-08   29.1   0.1     1    53   256   307   256   313 0.92 # 1045086 # 1046225 # -1 # ID=1_954;partial=00;start_type=ATG;rbs_motif=None;rbs_spacer=None;gc_cont=0.510\n+AC_000091_775        -             89 SLBB                 PF10531.4     59     0.011   11.8   0.0   1   2   0.00017     0.083    9.0   0.0    17    37    14    34    10    41 0.87 # 838612 # 838878 # -1 # ID=1_775;partial=00;start_type=ATG;rbs_motif=GGAGG;rbs_spacer=5-10bp;gc_cont=0.517\n+AC_000091_775        -             89 SLBB                 PF10531.4     59     0.011   11.8   0.0   2   2     0.033        16    1.6   0.0    27    45    40    58    29    65 0.74 # 838612 # 838878 # -1 # ID=1_775;partial=00;start_type=ATG;rbs_motif=GGAGG;rbs_spacer=5-10bp;gc_cont=0.517\n+AC_000091_57         -            969 Flavi_DEAD           PF07652.9    148    0.0073   12.2   0.0   1   1   1.6e-05     0.016   11.1   0.0    70   137   248   317   180   327 0.76 # 60358 # 63264 # -1 # ID=1_57;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.549\n+AC_000091_275        -            319 XdhC_C               PF13478.1    136     2e-20   69.6   0.0   1   1   6.9e-21   2.2e-18   63.0   0.0    36   136   197   301   180   301 0.81 # 296994 # 297950 # -1 # ID=1_275;partial=00;start_type=ATG;rbs_motif=AGGAG;rbs_spacer=5-10bp;gc_cont=0.599\n+AC_000091_294        -            442 XdhC_C               PF13478.1    136   1.8e-05   21.1   0.2   1   2    0.0001     0.034   10.6   0.0     2    47     7    53     6    81 0.75 # 317900 # 319225 # -1 # ID=1_294;partial=00;start_type=ATG;rbs_motif=AGGA;rbs_spacer=5-10bp;gc_cont=0.456\n+AC_000091_294        -            442 XdhC_C               PF13478.1    136   1.8e-05   21.1   0.2   2   2   0.00057      0.19    8.2   0.0     1    68   161   241   161   259 0.59 # 317900 # 319225 # -1 # ID=1_294;partial=00;start_type=ATG;rbs_motif=AGGA;rbs_spacer=5-10bp;gc_cont=0.456\n+AC_000091_651        -            392 XdhC_C               PF13478.1    136    0.0056   13.1   0.1   1   1     3e-05    0.0099   12.3   0.1     2    32     9    39     8    99 0.82 # 695523 # 696698 # 1 # ID=1_651;partial=00;start_type=ATG;rbs_motif=AGGA;rbs_spacer=5-10bp;gc_cont=0.571\n+AC_000091_318        -            529 Sigma54_activat      PF00158.21   168   1.9e-66  218.8   0.1   1   1   1.9e-68   2.6e-66  218.3   0.1     2   167   219   393   218   394 0.96 # 346081 # 347667 # -1 # ID=1_318;partial=00;start_type=ATG;rbs_motif=None;rbs_spacer=None;gc_cont=0.551\n+AC_000091_854        -            759 Sigma54_activat      PF00158.21   168     1e-13   47.2   0.2   1   2   4.5e-08   6.2e-06   21.9   0.0     2   105   189   290   188   328 0.85 # 923686 # 925962 # 1 # ID=1_854;partial=00;start_type=ATG;rbs_motif=GGAGG;rbs_spacer=5-10bp;gc_cont=0.526\n+AC_000091_854        -            759 Sigma54_activat      PF00158.21   168     1e-13   47.2   0.2   2   2   1.9e-08   2.7e-06   23.1   0.0    22   148   484   612   460   618 0.77 # 923686 # 925962 # 1 # ID=1_8'..b' 0.00037   15.3   0.0   2   2      0.08        26   -0.7   0.0   247   281  1118  1158  1108  1162 0.77 # 933646 # 937635 # 1 # ID=1_861;partial=00;start_type=TTG;rbs_motif=GGAG/GAGG;rbs_spacer=5-10bp;gc_cont=0.540\n+AC_000091_801        -            624 TrwB_AAD_bind        PF10412.4    386    0.0011   13.7   0.4   1   2    0.0016      0.51    5.0   0.0    18    43    45    70    31    76 0.86 # 867942 # 869813 # 1 # ID=1_801;partial=00;start_type=TTG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.540\n+AC_000091_801        -            624 TrwB_AAD_bind        PF10412.4    386    0.0011   13.7   0.4   2   2   0.00065      0.21    6.2   0.1    18    47   353   382   349   386 0.90 # 867942 # 869813 # 1 # ID=1_801;partial=00;start_type=TTG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.540\n+AC_000091_857        -            574 TrwB_AAD_bind        PF10412.4    386    0.0047   11.6   0.0   1   1   2.3e-05    0.0074   11.0   0.0    15    48   366   399   353   404 0.78 # 927896 # 929617 # -1 # ID=1_857;partial=00;start_type=ATG;rbs_motif=AGGAG;rbs_spacer=5-10bp;gc_cont=0.537\n+AC_000091_421        -            433 Trigger_N            PF05697.8    145   4.9e-47  155.5   0.2   1   2     5e-50   4.9e-47  155.5   0.2     1   145     1   145     1   145 0.99 # 454357 # 455655 # 1 # ID=1_421;partial=00;start_type=ATG;rbs_motif=GGAG/GAGG;rbs_spacer=5-10bp;gc_cont=0.512\n+AC_000091_421        -            433 Trigger_N            PF05697.8    145   4.9e-47  155.5   0.2   2   2    0.0079       7.7    2.4   0.1    54    88   270   305   261   322 0.61 # 454357 # 455655 # 1 # ID=1_421;partial=00;start_type=ATG;rbs_motif=GGAG/GAGG;rbs_spacer=5-10bp;gc_cont=0.512\n+AC_000091_2          -            821 NAD_binding_3        PF03447.11   117   1.8e-33  111.5   0.0   1   1   1.2e-35   5.7e-33  109.9   0.0     1   116   472   605   472   606 0.97 # 337 # 2799 # 1 # ID=1_2;partial=00;start_type=ATG;rbs_motif=GGAG/GAGG;rbs_spacer=5-10bp;gc_cont=0.531\n+AC_000091_339        -            317 NAD_binding_3        PF03447.11   117    0.0091   12.5   1.0   1   1   0.00021       0.1    9.2   0.0     1    71    10    82    10    97 0.72 # 372145 # 373095 # 1 # ID=1_339;partial=00;start_type=ATG;rbs_motif=AGGA;rbs_spacer=5-10bp;gc_cont=0.545\n+AC_000091_424        -            785 Lon_C                PF05362.8    205  1.5e-100  330.8   0.1   1   1  5.2e-103  2.5e-100  330.0   0.1     2   204   570   772   569   773 0.99 # 458112 # 460466 # 1 # ID=1_424;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.523\n+AC_000091_926        -            587 Lon_C                PF05362.8    205   1.5e-11   40.1   0.0   1   1     5e-14   2.4e-11   39.4   0.0   108   203   435   541   431   543 0.81 # 1016961 # 1018721 # -1 # ID=1_926;partial=00;start_type=TTG;rbs_motif=None;rbs_spacer=None;gc_cont=0.518\n+AC_000091_477        -            257 Eno-Rase_NADH_b      PF12242.3     78   0.00016   17.6   0.0   1   1   7.7e-07   0.00037   16.4   0.0    40    60     3    23     2    31 0.85 # 517564 # 518334 # -1 # ID=1_477;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.547\n+AC_000091_582        -            249 Eno-Rase_NADH_b      PF12242.3     78    0.0015   14.5   0.3   1   1   7.1e-06    0.0034   13.3   0.3    38    69     5    34     1    40 0.84 # 627774 # 628520 # 1 # ID=1_582;partial=00;start_type=ATG;rbs_motif=GGAG/GAGG;rbs_spacer=5-10bp;gc_cont=0.580\n+#\n+# Program:         hmmsearch\n+# Version:         3.3.2 (Nov 2020)\n+# Pipeline mode:   SEARCH\n+# Query file:      /tmp/tmpt_fl9whh/tmp/75f60340-a2a9-4c89-9c0f-65cbaf5e3bdb\n+# Target file:     output/bins/637000110/genes.faa\n+# Option settings: hmmsearch --domtblout output/bins/637000110/hmmer.analyze.txt --noali --notextw -E 0.1 --domE 0.1 --cpu 1 /tmp/tmpt_fl9whh/tmp/75f60340-a2a9-4c89-9c0f-65cbaf5e3bdb output/bins/637000110/genes.faa \n+# Current dir:     /tmp/tmpt_fl9whh/job_working_directory/000/11/working\n+# Date:            Thu Jul 28 12:37:35 2022\n+# [ok]\n'
b
diff -r 000000000000 -r 9b2790bca5b5 test-data/hmmer.tree.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/hmmer.tree.txt Fri Jul 29 20:29:27 2022 +0000
[
@@ -0,0 +1,24 @@
+#                                                                            --- full sequence --- -------------- this domain -------------   hmm coord   ali coord   env coord
+# target name        accession   tlen query name           accession   qlen   E-value  score  bias   #  of  c-Evalue  i-Evalue  score  bias  from    to  from    to  from    to  acc description of target
+#------------------- ---------- ----- -------------------- ---------- ----- --------- ------ ----- --- --- --------- --------- ------ ----- ----- ----- ----- ----- ----- ----- ---- ---------------------
+AC_000091_163        -            242 Ribosomal_S2         PF00318.15   211     1e-86  285.6   0.0   1   1   1.2e-89   1.1e-86  285.5   0.0     1   211     9   225     9   225 0.99 # 189874 # 190599 # 1 # ID=1_163;partial=00;start_type=ATG;rbs_motif=GGAG/GAGG;rbs_spacer=5-10bp;gc_cont=0.514
+AC_000091_24         -            939 TIGR00422            TIGR00422    863  1.4e-115  382.9   0.0   1   2   6.2e-40     2e-37  124.4   0.0     9   233    23   258    16   277 0.89 # 22391 # 25207 # 1 # ID=1_24;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.558
+AC_000091_24         -            939 TIGR00422            TIGR00422    863  1.4e-115  382.9   0.0   2   2   7.4e-80   2.4e-77  256.5   0.0   245   713   306   793   299   854 0.89 # 22391 # 25207 # 1 # ID=1_24;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.558
+AC_000091_631        -            861 TIGR00422            TIGR00422    863   1.7e-89  296.7  15.5   1   6   3.2e-43   1.1e-40  135.3   0.5     1   187     1   171     1   173 0.93 # 672623 # 675205 # -1 # ID=1_631;partial=00;start_type=ATG;rbs_motif=AGGA/GGAG/GAGG;rbs_spacer=11-12bp;gc_cont=0.533
+AC_000091_631        -            861 TIGR00422            TIGR00422    863   1.7e-89  296.7  15.5   2   6   1.3e-07   4.1e-05   17.5   0.3   342   396   174   225   173   228 0.94 # 672623 # 675205 # -1 # ID=1_631;partial=00;start_type=ATG;rbs_motif=AGGA/GGAG/GAGG;rbs_spacer=11-12bp;gc_cont=0.533
+AC_000091_631        -            861 TIGR00422            TIGR00422    863   1.7e-89  296.7  15.5   3   6   4.7e-05     0.015    9.0   0.1   199   230   232   261   227   270 0.86 # 672623 # 675205 # -1 # ID=1_631;partial=00;start_type=ATG;rbs_motif=AGGA/GGAG/GAGG;rbs_spacer=11-12bp;gc_cont=0.533
+AC_000091_631        -            861 TIGR00422            TIGR00422    863   1.7e-89  296.7  15.5   4   6   5.6e-16   1.8e-13   45.1   0.0   244   330   308   408   305   416 0.88 # 672623 # 675205 # -1 # ID=1_631;partial=00;start_type=ATG;rbs_motif=AGGA/GGAG/GAGG;rbs_spacer=11-12bp;gc_cont=0.533
+AC_000091_631        -            861 TIGR00422            TIGR00422    863   1.7e-89  296.7  15.5   5   6   9.5e-08   3.1e-05   17.9   0.1   397   520   416   570   410   593 0.63 # 672623 # 675205 # -1 # ID=1_631;partial=00;start_type=ATG;rbs_motif=AGGA/GGAG/GAGG;rbs_spacer=11-12bp;gc_cont=0.533
+AC_000091_631        -            861 TIGR00422            TIGR00422    863   1.7e-89  296.7  15.5   6   6   4.2e-25   1.4e-22   75.3   0.0   525   737   618   810   605   832 0.78 # 672623 # 675205 # -1 # ID=1_631;partial=00;start_type=ATG;rbs_motif=AGGA/GGAG/GAGG;rbs_spacer=11-12bp;gc_cont=0.533
+AC_000091_509        -            462 TIGR00422            TIGR00422    863   9.9e-10   32.8   0.2   1   2   0.00017     0.055    7.2   0.1    48    76    36    64    27    71 0.92 # 553834 # 555219 # 1 # ID=1_509;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.545
+AC_000091_509        -            462 TIGR00422            TIGR00422    863   9.9e-10   32.8   0.2   2   2   2.4e-09   7.7e-07   23.2   0.0   522   585   262   324   247   339 0.90 # 553834 # 555219 # 1 # ID=1_509;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.545
+#
+# Program:         hmmsearch
+# Version:         3.3.2 (Nov 2020)
+# Pipeline mode:   SEARCH
+# Query file:      /tmp/tmpt_fl9whh/tmp/554e04fc-1374-442a-bd21-6a654ce3ad08
+# Target file:     output/bins/637000110/genes.faa
+# Option settings: hmmsearch --domtblout output/bins/637000110/hmmer.tree.txt --noali --notextw -E 0.1 --domE 0.1 --cpu 1 /tmp/tmpt_fl9whh/tmp/554e04fc-1374-442a-bd21-6a654ce3ad08 output/bins/637000110/genes.faa 
+# Current dir:     /tmp/tmpt_fl9whh/job_working_directory/000/11/working
+# Date:            Thu Jul 28 12:37:11 2022
+# [ok]
b
diff -r 000000000000 -r 9b2790bca5b5 test-data/life.loc
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/life.loc Fri Jul 29 20:29:27 2022 +0000
b
@@ -0,0 +1,3 @@
+# File generated by format_taxon_list.py script
+# taxon description
+Prokaryote Prokaryote (5656 genomes, 56 marker genes, 24 marker sets)
b
diff -r 000000000000 -r 9b2790bca5b5 test-data/lineage_marker_set
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/lineage_marker_set Fri Jul 29 20:29:27 2022 +0000
[
b"@@ -0,0 +1,2 @@\n+# [Lineage Marker File]\n+637000110\t40\tUID5139\tf__Enterobacteriaceae\t119\t[{'TIGR02006', 'PF12404.3', 'TIGR01999', 'PF07179.7', 'TIGR02011', 'PF04384.8', 'TIGR02007', 'TIGR01991', 'TIGR02010', 'PF07743.8'}, {'TIGR00565', 'TIGR00263', 'PF00697.17', 'TIGR01245', 'PF00218.16', 'PF00290.15'}, {'PF10689.4', 'PF12168.3', 'PF02575.11', 'PF07445.7', 'PF02132.10', 'TIGR01090', 'PF00762.14', 'PF05191.9', 'PF12170.3', 'PF12169.3', 'PF00406.17'}, {'PF06480.10', 'PF08364.6', 'PF04760.10', 'PF08529.6', 'TIGR03002', 'PF02033.13', 'PF06835.8', 'PF01434.13', 'PF01016.14', 'PF13466.1', 'PF02405.11', 'PF04963.8', 'PF01509.13', 'TIGR01072', 'PF11987.3', 'PF01018.17', 'TIGR00438', 'TIGR01670', 'PF02576.12', 'TIGR01419', 'PF01985.16', 'PF02113.10', 'PF03668.10', 'TIGR01455', 'PF03840.9', 'PF00764.14', 'PF09157.6', 'PF05494.7', 'PF00312.17', 'PF13184.1', 'PF00309.15', 'TIGR00367', 'PF04552.8'}, {'TIGR00539', 'PF02622.10', 'PF02325.12', 'PF02773.11', 'TIGR01420', 'TIGR00044', 'PF04452.9', 'PF02594.11', 'PF02951.9', 'PF01725.11', 'PF02955.11', 'PF03652.10', 'PF00438.15', 'PF02772.11', 'TIGR01273', 'PF04231.8'}, {'PF02781.11', 'TIGR01142', 'PF00479.17', 'TIGR01196', 'PF04391.7'}, {'PF00181.18', 'PF00297.17', 'PF00238.14', 'PF00828.14', 'PF00163.14', 'PF00276.15', 'PF01000.21', 'PF00338.17', 'PF00410.14', 'PF00333.15', 'PF01196.14', 'PF00573.17', 'PF01193.19', 'PF00253.16', 'PF03947.13', 'PF00831.18', 'PF03118.10', 'TIGR01079', 'PF00344.15', 'PF00347.18', 'PF00861.17', 'PF00237.14', 'PF03719.10', 'PF00366.15', 'PF00673.16', 'PF00252.13', 'PF00327.15', 'PF00416.17', 'PF00281.14', 'PF00189.15', 'PF00203.16'}, {'PF00707.17', 'PF00453.13', 'PF02912.13', 'PF03147.9', 'PF01409.15', 'TIGR00987', 'PF03484.10', 'TIGR00418'}, {'PF01142.13', 'PF12084.3', 'PF04977.10', 'PF01135.14', 'TIGR02039', 'PF01128.14', 'PF02542.11', 'PF01583.15', 'TIGR02034'}, {'PF02617.12', 'TIGR02381', 'TIGR02639'}, {'PF01423.17', 'TIGR01932', 'PF12221.3', 'PF01256.12', 'PF02367.12', 'TIGR01933', 'PF08676.6', 'PF13167.1', 'PF01119.14', 'PF03853.10', 'PF13484.1', 'PF08331.5'}, {'TIGR03594', 'TIGR03300', 'PF00334.14', 'PF13464.1', 'PF13393.1', 'PF09976.4', 'TIGR00048', 'PF13413.1', 'PF04551.9'}, {'PF01513.16', 'PF03658.9', 'PF00886.14', 'TIGR00634', 'PF02978.14', 'PF01245.15', 'PF05239.11', 'PF01782.13', 'PF01025.14', 'PF01746.16', 'PF01668.13'}, {'PF04546.8', 'TIGR00329', 'PF01807.15', 'PF03979.9', 'PF08278.6', 'TIGR03723', 'PF08275.6', 'PF10410.4', 'PF01165.15', 'TIGR02393'}, {'TIGR01362', 'TIGR03534', 'PF13793.1', 'TIGR00154', 'PF13369.1', 'PF03550.9', 'PF05201.10', 'TIGR00019', 'PF04247.7', 'PF00745.15'}, {'PF04354.8', 'PF03119.11', 'PF13593.1', 'PF12843.2', 'PF07264.6', 'PF12826.2'}, {'PF00584.15', 'PF04998.12', 'PF00298.14', 'PF10385.4', 'PF00542.14', 'PF04565.11', 'PF04997.7', 'PF00562.23', 'TIGR00922', 'PF04563.10', 'PF00623.15', 'PF03946.9', 'PF00466.15', 'PF04560.15', 'PF04561.9', 'PF04983.13', 'PF00687.16', 'PF05000.12'}, {'TIGR01962', 'PF01257.14', 'TIGR01957', 'PF04217.8', 'TIGR01974', 'PF13023.1', 'PF10588.4', 'TIGR01971', 'PF00499.15', 'TIGR01972', 'PF00507.14', 'PF10589.4', 'PF03887.9', 'TIGR01770', 'PF07085.7', 'TIGR01961'}, {'PF01208.12', 'PF13667.1', 'PF07356.7', 'PF04493.9', 'PF02581.12', 'PF04353.8', 'PF01964.13', 'PF09297.6', 'PF01808.13', 'PF01071.14', 'PF04222.7', 'PF02843.11', 'PF02844.10', 'PF13801.1', 'PF05690.9', 'TIGR02351'}, {'PF01895.14', 'TIGR00974', 'TIGR00975', 'TIGR02138', 'TIGR00972'}, {'PF08918.5', 'PF03054.11', 'PF08328.6', 'PF04356.7', 'TIGR00183'}, {'PF01264.16', 'PF03411.8', 'PF05430.6', 'TIGR03197', 'PF04315.7', 'PF08891.6'}, {'TIGR01277', 'TIGR01254', 'TIGR01253', 'TIGR01276'}, {'PF01928.16', 'TIGR02199', 'PF03710.10', 'PF02673.13', 'TIGR02198'}, {'PF10458.4', 'PF04364.8', 'TIGR00422', 'PF02789.12'}, {'PF00476.15', 'TIGR01818', 'PF03951.14', 'PF04220.7', 'TIGR01394', 'TIGR00538', 'TIGR03598'}, {'TIGR01082', 'TIGR01085', 'PF08478.5', 'TIGR00445', 'PF02491.15', 'PF10555.4', 'PF01043.15', 'PF03331.8', 'TIGR01143', 'PF07516.8', 'PF12327."..b"59.6'}, {'TIGR00344'}]\tUID206\tk__Bacteria\t5446\t[{'PF01196.14', 'PF01193.19', 'PF00416.17', 'PF00411.14', 'PF01000.21'}, {'PF00333.15', 'PF00347.18', 'TIGR00967', 'PF00238.14', 'PF00281.14', 'PF00828.14', 'PF03719.10', 'PF00861.17', 'PF00673.16', 'PF00410.14', 'TIGR01079'}, {'PF00181.18', 'PF00573.17', 'PF00297.17', 'PF03947.13', 'PF00237.14', 'PF00276.15', 'PF00831.18', 'PF00252.13', 'PF00366.15', 'PF00189.15', 'PF00203.16'}, {'PF04998.12', 'PF04997.7', 'PF10385.4', 'PF04565.11', 'PF04563.10', 'PF00562.23', 'PF00623.15', 'PF04560.15', 'PF04561.9', 'PF04983.13', 'PF05000.12'}, {'PF00380.14', 'PF00572.13'}, {'PF00687.16', 'PF00298.14', 'PF03946.9'}, {'PF01281.14', 'PF03948.9'}, {'PF08529.6', 'PF13184.1'}, {'PF00453.13', 'PF01632.14'}, {'PF00177.16', 'PF00164.20'}, {'PF00466.15', 'TIGR00855'}, {'PF01409.15', 'PF02912.13'}, {'PF00318.15', 'PF00889.14'}, {'PF01016.14', 'PF00829.16'}, {'TIGR03723', 'TIGR00329'}, {'PF01668.13'}, {'PF01250.12'}, {'PF02224.13'}, {'PF00312.17'}, {'PF01121.15'}, {'TIGR00459'}, {'PF01245.15'}, {'TIGR00755'}, {'PF02130.12'}, {'PF02367.12'}, {'TIGR03594'}, {'PF02033.13'}, {'TIGR00615'}, {'TIGR00084'}, {'PF01018.17'}, {'PF01195.14'}, {'TIGR00019'}, {'PF01649.13'}, {'PF01795.14'}, {'TIGR00250'}, {'PF00886.14'}, {'PF06421.7'}, {'PF11987.3'}, {'PF00338.17'}, {'TIGR00392'}, {'PF01509.13'}, {'PF01746.16'}, {'PF06071.8'}, {'PF05697.8'}, {'TIGR00922'}, {'PF02978.14'}, {'PF03484.10'}, {'TIGR02075'}, {'TIGR00810'}, {'PF13603.1'}, {'PF01765.14'}, {'PF00162.14'}, {'PF12344.3'}, {'TIGR02432'}, {'TIGR00460'}, {'PF05491.8'}, {'TIGR03263'}, {'PF08459.6'}, {'TIGR00344'}]\tUID203\tk__Bacteria\t5449\t[{'PF01196.14', 'PF01193.19', 'PF00416.17', 'PF00411.14', 'PF01000.21'}, {'PF00333.15', 'PF00347.18', 'TIGR00967', 'PF00238.14', 'PF00281.14', 'PF00828.14', 'PF03719.10', 'PF00861.17', 'PF00673.16', 'PF00410.14', 'TIGR01079'}, {'PF00181.18', 'PF00573.17', 'PF00297.17', 'PF03947.13', 'PF00237.14', 'PF00276.15', 'PF00831.18', 'PF00252.13', 'PF00366.15', 'PF00189.15', 'PF00203.16'}, {'PF04998.12', 'PF04997.7', 'PF10385.4', 'PF04565.11', 'PF04563.10', 'PF00562.23', 'PF00623.15', 'PF04560.15', 'PF04561.9', 'PF04983.13', 'PF05000.12'}, {'PF00380.14', 'PF00572.13'}, {'PF00687.16', 'PF00298.14', 'PF03946.9'}, {'PF01281.14', 'PF03948.9'}, {'PF08529.6', 'PF13184.1'}, {'PF00453.13', 'PF01632.14'}, {'PF00177.16', 'PF00164.20'}, {'PF00466.15', 'TIGR00855'}, {'PF01409.15', 'PF02912.13'}, {'PF00318.15', 'PF00889.14'}, {'PF01016.14', 'PF00829.16'}, {'TIGR03723', 'TIGR00329'}, {'PF01668.13'}, {'PF01250.12'}, {'PF00312.17'}, {'PF01121.15'}, {'TIGR00459'}, {'PF01245.15'}, {'TIGR00755'}, {'PF02130.12'}, {'PF02367.12'}, {'TIGR03594'}, {'PF02033.13'}, {'TIGR00615'}, {'TIGR00084'}, {'PF01018.17'}, {'PF01195.14'}, {'TIGR00019'}, {'PF01649.13'}, {'PF01795.14'}, {'TIGR00250'}, {'PF00886.14'}, {'PF06421.7'}, {'PF11987.3'}, {'PF00338.17'}, {'TIGR00392'}, {'PF01509.13'}, {'PF01746.16'}, {'PF06071.8'}, {'PF05697.8'}, {'TIGR00922'}, {'PF02978.14'}, {'PF03484.10'}, {'TIGR02075'}, {'TIGR00810'}, {'PF13603.1'}, {'PF01765.14'}, {'PF00162.14'}, {'PF12344.3'}, {'TIGR02432'}, {'TIGR00460'}, {'PF05491.8'}, {'TIGR03263'}, {'PF08459.6'}, {'TIGR00344'}]\tUID1\troot\t5656\t[{'PF00416.17', 'PF01000.21', 'PF00411.14', 'PF01193.19'}, {'PF00181.18', 'PF00573.17', 'PF00297.17', 'PF03947.13', 'PF00237.14', 'PF00276.15', 'PF00831.18', 'PF00252.13', 'PF00366.15', 'PF00189.15', 'PF00203.16'}, {'PF04997.7', 'PF04565.11', 'PF04563.10', 'PF00562.23', 'PF00623.15', 'PF04560.15', 'PF04561.9', 'PF04983.13', 'PF05000.12'}, {'PF00333.15', 'PF00347.18', 'PF00238.14', 'PF00281.14', 'PF00861.17', 'PF03719.10', 'PF00673.16', 'PF00410.14'}, {'PF00177.16', 'PF00164.20'}, {'PF00687.16', 'PF00298.14', 'PF03946.9'}, {'PF00380.14', 'PF00572.13'}, {'TIGR00392'}, {'PF01509.13'}, {'PF00162.14'}, {'PF00466.15'}, {'TIGR00468'}, {'PF13184.1'}, {'PF02978.14'}, {'PF11987.3'}, {'TIGR00967'}, {'PF00338.17'}, {'PF00318.15'}, {'PF03484.10'}, {'TIGR00755'}, {'TIGR00344'}, {'PF08459.6'}, {'TIGR00329'}, {'PF00312.17'}]\n"
b
diff -r 000000000000 -r 9b2790bca5b5 test-data/marker_gene_stats.tsv
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/marker_gene_stats.tsv Fri Jul 29 20:29:27 2022 +0000
[
@@ -0,0 +1,1 @@
+637000110 {'AC_000091_99': {'TIGR02432': [[14, 196]]}, 'AC_000091_81': {'TIGR02075': [[9, 240]]}, 'AC_000091_375': {'TIGR00615': [[2, 197]]}, 'AC_000091_551': {'PF13603.1': [[221, 403]]}, 'AC_000091_79': {'PF00318.15': [[9, 225]]}, 'AC_000091_340': {'PF05697.8': [[1, 145]]}, 'AC_000091_672': {'PF12344.3': [[552, 594]]}, 'AC_000091_568': {'PF02130.12': [[22, 144]]}, 'AC_000091_15': {'PF01121.15': [[3, 177]]}, 'AC_000091_80': {'PF00889.14': [[57, 263]]}, 'AC_000091_82': {'PF01765.14': [[19, 183]]}}
b
diff -r 000000000000 -r 9b2790bca5b5 test-data/markers_to_exclude
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/markers_to_exclude Fri Jul 29 20:29:27 2022 +0000
b
@@ -0,0 +1,3 @@
+TIGR02006
+PF01895.14
+TIGR01276
\ No newline at end of file
b
diff -r 000000000000 -r 9b2790bca5b5 test-data/phylo_hmm_info.pkl.gz
b
Binary file test-data/phylo_hmm_info.pkl.gz has changed
b
diff -r 000000000000 -r 9b2790bca5b5 test-data/tetra
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/tetra Fri Jul 29 20:29:27 2022 +0000
b
@@ -0,0 +1,2 @@
+Sequence Id AAAA AAAC AAAG AAAT AACA AACC AACG AACT AAGA AAGC AAGG AAGT AATA AATC AATG AATT ACAA ACAC ACAG ACAT ACCA ACCC ACCG ACCT ACGA ACGC ACGG ACGT ACTA ACTC ACTG AGAA AGAC AGAG AGAT AGCA AGCC AGCG AGCT AGGA AGGC AGGG AGTA AGTC AGTG ATAA ATAC ATAG ATAT ATCA ATCC ATCG ATGA ATGC ATGG ATTA ATTC ATTG CAAA CAAC CAAG CACA CACC CACG CAGA CAGC CAGG CATA CATC CATG CCAA CCAC CCAG CCCA CCCC CCCG CCGA CCGC CCGG CCTA CCTC CGAA CGAC CGAG CGCA CGCC CGCG CGGA CGGC CGTA CGTC CTAA CTAC CTAG CTCA CTCC CTGA CTGC CTTA CTTC GAAA GAAC GACA GACC GAGA GAGC GATA GATC GCAA GCAC GCCA GCCC GCGA GCGC GCTA GGAA GGAC GGCA GGCC GGGA GGTA GTAA GTAC GTCA GTGA GTTA TAAA TACA TAGA TATA TCAA TCCA TCGA TGAA TGCA TTAA
+AC_000091 0.015223631387273695 0.010867288993095409 0.00989663022140705 0.011106402495389371 0.009410009493516279 0.008802002613245855 0.010471277432140514 0.006902438462708947 0.00736237145497015 0.008542012414531988 0.005866997365016554 0.005611526863465759 0.009010554353770472 0.00898903198632727 0.009364166850862261 0.004229575649937833 0.007180722673749534 0.004694889234059836 0.0071828749104938545 0.006156042759778741 0.010328584135992093 0.0052656624186535215 0.010754511787693037 0.005807595630873319 0.00622125553313164 0.011236182371071872 0.007816278184347256 0.003131934910334589 0.0028564486070616177 0.004186961362400295 0.008823309757014624 0.007943044928587708 0.004523786412886388 0.0046320439211256885 0.007084732914952858 0.009893832313639434 0.007601269733589679 0.011506933753507339 0.0028730208299928826 0.0048005640582059516 0.007248518131195617 0.0039215905718256285 0.004569844279214838 0.004086021459091683 0.005919942388926828 0.009496314186963515 0.0057073013985880034 0.004011123620389344 0.00406320774960189 0.011889170999298586 0.007848561735512056 0.010482038615862114 0.009003451972514216 0.009374067139886134 0.008542012414531988 0.008209061390185672 0.007473642094651498 0.009033798510609129 0.010451046406743904 0.009420985900912312 0.004177921968074151 0.0055618101946719655 0.010072467963418002 0.007078276204719898 0.009349316417326453 0.015962924708947644 0.010652495766012265 0.0057277476476590445 0.011377584325173702 0.0033030377315080356 0.005853438273527338 0.00795165387556499 0.014665341175797065 0.005817065472548328 0.003788367117352215 0.00700983507625052 0.006892322950010642 0.012297665533370538 0.005242203038140433 0.0017738735246686148 0.003484901736403083 0.008327649634797709 0.007434040938556008 0.004509366426699444 0.010951871897147188 0.015016155765121239 0.00607662522391333 0.007325568206642276 0.01240075767342347 0.00612053085349746 0.007867501418862074 0.003237179287131841 0.003997994976248992 0.0001906881755467596 0.005107473017945996 0.004140473048722981 0.010562747493774118 0.012377083069235949 0.004275633516266282 0.009032722392236969 0.011809538239758742 0.007752356753040949 0.00565758472979421 0.005882923916924522 0.005039247113151049 0.005678246202539683 0.00869654301277417 0.004120672470675236 0.011700419836821714 0.0077792597123449506 0.013584272659125086 0.006694317169533195 0.010975331277660278 0.00755951634074987 0.00456467891102847 0.008647472015003673 0.00356066046980315 0.01187345967106505 0.0027184902317507003 0.004788511532437759 0.007398959479623591 0.007783133738484727 0.0025930148295568393 0.007975543703426942 0.008206693929766919 0.007545096354562924 0.009609737063389183 0.004585125160099511 0.002432673192104993 0.001953154845470478 0.008349172002240909 0.007282523471755875 0.003332092927556357 0.011149877677624636 0.004255832938218538 0.00456145055591199
b
diff -r 000000000000 -r 9b2790bca5b5 tool-data/class.loc.sample
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tool-data/class.loc.sample Fri Jul 29 20:29:27 2022 +0000
b
@@ -0,0 +1,57 @@
+# File generated by format_taxon_list.py script
+# taxon description
+Acidobacteriia Acidobacteriia (10 genomes, 572 marker genes, 395 marker sets)
+Aciduliprofundum Aciduliprofundum (2 genomes, 763 marker genes, 130 marker sets)
+Actinobacteria Actinobacteria (729 genomes, 205 marker genes, 119 marker sets)
+Alphaproteobacteria Alphaproteobacteria (648 genomes, 225 marker genes, 148 marker sets)
+Aquificae Aquificae (18 genomes, 486 marker genes, 369 marker sets)
+Archaeoglobi Archaeoglobi (5 genomes, 619 marker genes, 392 marker sets)
+Bacilli Bacilli (821 genomes, 250 marker genes, 136 marker sets)
+Bacteroidetes Order II. Incertae sedis Bacteroidetes Order II. Incertae sedis (5 genomes, 801 marker genes, 466 marker sets)
+Bacteroidia Bacteroidia (211 genomes, 401 marker genes, 266 marker sets)
+Betaproteobacteria Betaproteobacteria (322 genomes, 387 marker genes, 234 marker sets)
+Chlamydiia Chlamydiia (64 genomes, 455 marker genes, 185 marker sets)
+Chlorobia Chlorobia (12 genomes, 612 marker genes, 333 marker sets)
+Chloroflexi Chloroflexi (9 genomes, 452 marker genes, 315 marker sets)
+Chroococcales Chroococcales (55 genomes, 490 marker genes, 378 marker sets)
+Clostridia Clostridia (446 genomes, 196 marker genes, 110 marker sets)
+Cytophagia Cytophagia (48 genomes, 438 marker genes, 328 marker sets)
+Deferribacteres Deferribacteres (6 genomes, 564 marker genes, 339 marker sets)
+Dehalococcoidetes Dehalococcoidetes (5 genomes, 755 marker genes, 54 marker sets)
+Deinococci Deinococci (40 genomes, 528 marker genes, 359 marker sets)
+Deltaproteobacteria Deltaproteobacteria (93 genomes, 197 marker genes, 125 marker sets)
+Dictyoglomia Dictyoglomia (2 genomes, 1060 marker genes, 103 marker sets)
+Epsilonproteobacteria Epsilonproteobacteria (111 genomes, 445 marker genes, 271 marker sets)
+Erysipelotrichi Erysipelotrichi (18 genomes, 301 marker genes, 159 marker sets)
+Flavobacteriia Flavobacteriia (126 genomes, 321 marker genes, 202 marker sets)
+Fusobacteriia Fusobacteriia (32 genomes, 289 marker genes, 159 marker sets)
+Gammaproteobacteria Gammaproteobacteria (1167 genomes, 280 marker genes, 178 marker sets)
+Halobacteria Halobacteria (59 genomes, 367 marker genes, 241 marker sets)
+Holophagae Holophagae (2 genomes, 883 marker genes, 459 marker sets)
+Ignavibacteria Ignavibacteria (2 genomes, 1003 marker genes, 383 marker sets)
+Methanobacteria Methanobacteria (12 genomes, 513 marker genes, 264 marker sets)
+Methanococci Methanococci (16 genomes, 610 marker genes, 439 marker sets)
+Methanomicrobia Methanomicrobia (29 genomes, 248 marker genes, 165 marker sets)
+Mollicutes Mollicutes (119 genomes, 177 marker genes, 105 marker sets)
+Negativicutes Negativicutes (64 genomes, 334 marker genes, 167 marker sets)
+Nitrosopumilales Nitrosopumilales (2 genomes, 714 marker genes, 109 marker sets)
+Nitrospira Nitrospira (4 genomes, 676 marker genes, 379 marker sets)
+Nostocales Nostocales (18 genomes, 732 marker genes, 508 marker sets)
+Opitutae Opitutae (4 genomes, 676 marker genes, 427 marker sets)
+Oscillatoriales Oscillatoriales (25 genomes, 545 marker genes, 415 marker sets)
+Planctomycetia Planctomycetia (11 genomes, 360 marker genes, 256 marker sets)
+Pleurocapsales Pleurocapsales (6 genomes, 840 marker genes, 624 marker sets)
+Prochlorales Prochlorales (18 genomes, 806 marker genes, 240 marker sets)
+Solirubrobacterales Solirubrobacterales (2 genomes, 995 marker genes, 398 marker sets)
+Sphingobacteriia Sphingobacteriia (27 genomes, 334 marker genes, 233 marker sets)
+Spirochaetia Spirochaetia (71 genomes, 218 marker genes, 127 marker sets)
+Stigonematales Stigonematales (5 genomes, 1007 marker genes, 576 marker sets)
+Synergistia Synergistia (13 genomes, 452 marker genes, 160 marker sets)
+Thermococci Thermococci (16 genomes, 500 marker genes, 315 marker sets)
+Thermodesulfobacteria Thermodesulfobacteria (5 genomes, 813 marker genes, 440 marker sets)
+Thermomicrobia Thermomicrobia (2 genomes, 933 marker genes, 336 marker sets)
+Thermoplasmata Thermoplasmata (4 genomes, 563 marker genes, 310 marker sets)
+Thermoprotei Thermoprotei (54 genomes, 217 marker genes, 168 marker sets)
+Thermotogae Thermotogae (14 genomes, 460 marker genes, 267 marker sets)
+Verrucomicrobiae Verrucomicrobiae (7 genomes, 403 marker genes, 284 marker sets)
+Zetaproteobacteria Zetaproteobacteria (2 genomes, 1329 marker genes, 184 marker sets)
b
diff -r 000000000000 -r 9b2790bca5b5 tool-data/domain.loc.sample
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tool-data/domain.loc.sample Fri Jul 29 20:29:27 2022 +0000
b
@@ -0,0 +1,4 @@
+# File generated by format_taxon_list.py script
+# taxon description
+Archaea Archaea (207 genomes, 149 marker genes, 107 marker sets)
+Bacteria Bacteria (5449 genomes, 104 marker genes, 58 marker sets)
b
diff -r 000000000000 -r 9b2790bca5b5 tool-data/family.loc.sample
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tool-data/family.loc.sample Fri Jul 29 20:29:27 2022 +0000
b
b'@@ -0,0 +1,233 @@\n+# File generated by format_taxon_list.py script\n+# taxon\tdescription\n+Acetobacteraceae\tAcetobacteraceae (30 genomes, 473 marker genes, 264 marker sets)\n+Acholeplasmataceae\tAcholeplasmataceae (12 genomes, 176 marker genes, 88 marker sets)\n+Acidaminococcaceae\tAcidaminococcaceae (7 genomes, 677 marker genes, 256 marker sets)\n+Acidilobaceae\tAcidilobaceae (2 genomes, 645 marker genes, 144 marker sets)\n+Acidithiobacillaceae\tAcidithiobacillaceae (5 genomes, 907 marker genes, 200 marker sets)\n+Acidobacteriaceae\tAcidobacteriaceae (9 genomes, 575 marker genes, 396 marker sets)\n+Aciduliprofundum\tAciduliprofundum (2 genomes, 763 marker genes, 130 marker sets)\n+Actinomycetaceae\tActinomycetaceae (42 genomes, 420 marker genes, 211 marker sets)\n+Actinopolysporaceae\tActinopolysporaceae (3 genomes, 872 marker genes, 433 marker sets)\n+Aerococcaceae\tAerococcaceae (10 genomes, 424 marker genes, 195 marker sets)\n+Aeromonadaceae\tAeromonadaceae (17 genomes, 841 marker genes, 368 marker sets)\n+Alcaligenaceae\tAlcaligenaceae (27 genomes, 486 marker genes, 218 marker sets)\n+Alcanivoracaceae\tAlcanivoracaceae (8 genomes, 877 marker genes, 350 marker sets)\n+Alicyclobacillaceae\tAlicyclobacillaceae (9 genomes, 608 marker genes, 229 marker sets)\n+Alteromonadaceae\tAlteromonadaceae (38 genomes, 590 marker genes, 296 marker sets)\n+Anaplasmataceae\tAnaplasmataceae (18 genomes, 319 marker genes, 212 marker sets)\n+Aquificaceae\tAquificaceae (10 genomes, 656 marker genes, 475 marker sets)\n+Archaeoglobaceae\tArchaeoglobaceae (5 genomes, 619 marker genes, 392 marker sets)\n+Arthrospira\tArthrospira (2 genomes, 1432 marker genes, 419 marker sets)\n+Aurantimonadaceae\tAurantimonadaceae (4 genomes, 883 marker genes, 434 marker sets)\n+Bacillaceae\tBacillaceae (162 genomes, 418 marker genes, 155 marker sets)\n+Bacteroidaceae\tBacteroidaceae (96 genomes, 524 marker genes, 282 marker sets)\n+Bankia\tBankia (2 genomes, 1388 marker genes, 332 marker sets)\n+Bartonellaceae\tBartonellaceae (29 genomes, 708 marker genes, 188 marker sets)\n+Bdellovibrionaceae\tBdellovibrionaceae (4 genomes, 561 marker genes, 331 marker sets)\n+Beijerinckiaceae\tBeijerinckiaceae (4 genomes, 1024 marker genes, 488 marker sets)\n+Bifidobacteriaceae\tBifidobacteriaceae (77 genomes, 464 marker genes, 220 marker sets)\n+Blattabacteriaceae\tBlattabacteriaceae (6 genomes, 547 marker genes, 16 marker sets)\n+Brachyspiraceae\tBrachyspiraceae (10 genomes, 783 marker genes, 458 marker sets)\n+Bradyrhizobiaceae\tBradyrhizobiaceae (52 genomes, 619 marker genes, 276 marker sets)\n+Brevibacteriaceae\tBrevibacteriaceae (3 genomes, 833 marker genes, 259 marker sets)\n+Brucellaceae\tBrucellaceae (94 genomes, 1206 marker genes, 241 marker sets)\n+Burkholderiaceae\tBurkholderiaceae (94 genomes, 568 marker genes, 224 marker sets)\n+Campylobacteraceae\tCampylobacteraceae (66 genomes, 505 marker genes, 274 marker sets)\n+Cardiobacteriaceae\tCardiobacteriaceae (3 genomes, 807 marker genes, 349 marker sets)\n+Carnobacteriaceae\tCarnobacteriaceae (7 genomes, 469 marker genes, 197 marker sets)\n+Caulobacteraceae\tCaulobacteraceae (15 genomes, 644 marker genes, 366 marker sets)\n+Cellulomonadaceae\tCellulomonadaceae (7 genomes, 766 marker genes, 260 marker sets)\n+Chitinophagaceae\tChitinophagaceae (8 genomes, 634 marker genes, 396 marker sets)\n+Chlamydiaceae\tChlamydiaceae (59 genomes, 590 marker genes, 92 marker sets)\n+Chlorobiaceae\tChlorobiaceae (12 genomes, 612 marker genes, 333 marker sets)\n+Chloroflexaceae\tChloroflexaceae (7 genomes, 570 marker genes, 386 marker sets)\n+Chromatiaceae\tChromatiaceae (14 genomes, 545 marker genes, 300 marker sets)\n+Chroococcidiopsis\tChroococcidiopsis (2 genomes, 1159 marker genes, 811 marker sets)\n+Clostridiaceae\tClostridiaceae (10 genomes, 387 marker genes, 178 marker sets)\n+Clostridiales Family XI. Incertae Sedis\tClostridiales Family XI. Incertae Sedis (20 genomes, 345 marker genes, 186 marker sets)\n+Clostridiales Family XVII. Incertae Sedis\tClostridiales Family XVII. Incertae Sedis (5 genomes, 682 marker genes, 2'..b'2 genomes, 1121 marker genes, 424 marker sets)\n+Rhodocyclaceae\tRhodocyclaceae (25 genomes, 641 marker genes, 269 marker sets)\n+Rhodospirillaceae\tRhodospirillaceae (26 genomes, 300 marker genes, 163 marker sets)\n+Rhodothermaceae\tRhodothermaceae (5 genomes, 801 marker genes, 466 marker sets)\n+Rickettsiaceae\tRickettsiaceae (46 genomes, 528 marker genes, 196 marker sets)\n+Rikenellaceae\tRikenellaceae (6 genomes, 648 marker genes, 386 marker sets)\n+Rivulariaceae\tRivulariaceae (3 genomes, 1070 marker genes, 642 marker sets)\n+Rubrivivax\tRubrivivax (3 genomes, 1586 marker genes, 343 marker sets)\n+Rubrobacteraceae\tRubrobacteraceae (2 genomes, 991 marker genes, 269 marker sets)\n+Ruminococcaceae\tRuminococcaceae (20 genomes, 284 marker genes, 161 marker sets)\n+Saprospiraceae\tSaprospiraceae (5 genomes, 671 marker genes, 479 marker sets)\n+Shewanellaceae\tShewanellaceae (26 genomes, 989 marker genes, 339 marker sets)\n+Sinobacteraceae\tSinobacteraceae (4 genomes, 1083 marker genes, 398 marker sets)\n+Solirubrobacteraceae\tSolirubrobacteraceae (2 genomes, 995 marker genes, 398 marker sets)\n+Sphingobacteriaceae\tSphingobacteriaceae (11 genomes, 575 marker genes, 344 marker sets)\n+Sphingomonadaceae\tSphingomonadaceae (27 genomes, 501 marker genes, 275 marker sets)\n+Spirochaetaceae\tSpirochaetaceae (56 genomes, 235 marker genes, 124 marker sets)\n+Sporolactobacillaceae\tSporolactobacillaceae (2 genomes, 1066 marker genes, 320 marker sets)\n+Staphylococcaceae\tStaphylococcaceae (64 genomes, 642 marker genes, 181 marker sets)\n+Streptococcaceae\tStreptococcaceae (240 genomes, 524 marker genes, 282 marker sets)\n+Streptomycetaceae\tStreptomycetaceae (58 genomes, 506 marker genes, 264 marker sets)\n+Streptosporangiaceae\tStreptosporangiaceae (2 genomes, 1116 marker genes, 473 marker sets)\n+Succinivibrionaceae\tSuccinivibrionaceae (6 genomes, 637 marker genes, 317 marker sets)\n+Sulfolobaceae\tSulfolobaceae (19 genomes, 526 marker genes, 149 marker sets)\n+Sutterellaceae\tSutterellaceae (4 genomes, 792 marker genes, 261 marker sets)\n+Synechococcus\tSynechococcus (25 genomes, 554 marker genes, 425 marker sets)\n+Synechocystis\tSynechocystis (5 genomes, 1099 marker genes, 794 marker sets)\n+Synergistaceae\tSynergistaceae (13 genomes, 452 marker genes, 160 marker sets)\n+Syntrophomonadaceae\tSyntrophomonadaceae (3 genomes, 744 marker genes, 271 marker sets)\n+Teredinibacter\tTeredinibacter (10 genomes, 1162 marker genes, 360 marker sets)\n+Thermaceae\tThermaceae (23 genomes, 585 marker genes, 331 marker sets)\n+Thermoactinomycetaceae\tThermoactinomycetaceae (2 genomes, 1027 marker genes, 387 marker sets)\n+Thermoanaerobacteraceae\tThermoanaerobacteraceae (24 genomes, 438 marker genes, 193 marker sets)\n+Thermoanaerobacterales Family III. Incertae Sedis\tThermoanaerobacterales Family III. Incertae Sedis (16 genomes, 599 marker genes, 251 marker sets)\n+Thermococcaceae\tThermococcaceae (16 genomes, 500 marker genes, 315 marker sets)\n+Thermodesulfobacteriaceae\tThermodesulfobacteriaceae (5 genomes, 813 marker genes, 440 marker sets)\n+Thermodesulfobiaceae\tThermodesulfobiaceae (3 genomes, 538 marker genes, 284 marker sets)\n+Thermomonosporaceae\tThermomonosporaceae (4 genomes, 839 marker genes, 346 marker sets)\n+Thermoplasmataceae\tThermoplasmataceae (2 genomes, 733 marker genes, 167 marker sets)\n+Thermoproteaceae\tThermoproteaceae (12 genomes, 410 marker genes, 333 marker sets)\n+Thermotogaceae\tThermotogaceae (14 genomes, 460 marker genes, 267 marker sets)\n+Thiomonas\tThiomonas (3 genomes, 1202 marker genes, 366 marker sets)\n+Thiotrichaceae\tThiotrichaceae (6 genomes, 764 marker genes, 473 marker sets)\n+Veillonellaceae\tVeillonellaceae (57 genomes, 345 marker genes, 171 marker sets)\n+Verrucomicrobiaceae\tVerrucomicrobiaceae (5 genomes, 505 marker genes, 342 marker sets)\n+Vibrionaceae\tVibrionaceae (80 genomes, 922 marker genes, 367 marker sets)\n+Xanthobacteraceae\tXanthobacteraceae (9 genomes, 824 marker genes, 433 marker sets)\n+Xanthomonadaceae\tXanthomonadaceae (58 genomes, 540 marker genes, 311 marker sets)\n'
b
diff -r 000000000000 -r 9b2790bca5b5 tool-data/genus.loc.sample
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tool-data/genus.loc.sample Fri Jul 29 20:29:27 2022 +0000
b
b'@@ -0,0 +1,508 @@\n+# File generated by format_taxon_list.py script\n+# taxon\tdescription\n+Acetobacter\tAcetobacter (11 genomes, 1037 marker genes, 392 marker sets)\n+Acholeplasma\tAcholeplasma (7 genomes, 309 marker genes, 151 marker sets)\n+Achromobacter\tAchromobacter (5 genomes, 1298 marker genes, 427 marker sets)\n+Acidaminococcus\tAcidaminococcus (5 genomes, 910 marker genes, 256 marker sets)\n+Acidilobus\tAcidilobus (2 genomes, 645 marker genes, 144 marker sets)\n+Acidiphilium\tAcidiphilium (3 genomes, 1244 marker genes, 339 marker sets)\n+Acidithiobacillus\tAcidithiobacillus (5 genomes, 907 marker genes, 200 marker sets)\n+Acidobacterium\tAcidobacterium (2 genomes, 1151 marker genes, 582 marker sets)\n+Acidovorax\tAcidovorax (9 genomes, 931 marker genes, 335 marker sets)\n+Aciduliprofundum\tAciduliprofundum (2 genomes, 763 marker genes, 130 marker sets)\n+Acinetobacter\tAcinetobacter (66 genomes, 883 marker genes, 281 marker sets)\n+Actinobacillus\tActinobacillus (18 genomes, 1004 marker genes, 589 marker sets)\n+Actinobaculum\tActinobaculum (5 genomes, 606 marker genes, 222 marker sets)\n+Actinomadura\tActinomadura (3 genomes, 940 marker genes, 376 marker sets)\n+Actinomyces\tActinomyces (27 genomes, 432 marker genes, 214 marker sets)\n+Actinoplanes\tActinoplanes (3 genomes, 1041 marker genes, 394 marker sets)\n+Actinopolyspora\tActinopolyspora (3 genomes, 872 marker genes, 433 marker sets)\n+Aequorivita\tAequorivita (2 genomes, 1087 marker genes, 283 marker sets)\n+Aerococcus\tAerococcus (2 genomes, 719 marker genes, 247 marker sets)\n+Aeromonas\tAeromonas (12 genomes, 1380 marker genes, 463 marker sets)\n+Aggregatibacter\tAggregatibacter (13 genomes, 991 marker genes, 357 marker sets)\n+Agrobacterium\tAgrobacterium (12 genomes, 994 marker genes, 379 marker sets)\n+Agromyces\tAgromyces (2 genomes, 1096 marker genes, 287 marker sets)\n+Ahrensia\tAhrensia (2 genomes, 1213 marker genes, 422 marker sets)\n+Alcaligenes\tAlcaligenes (2 genomes, 1577 marker genes, 235 marker sets)\n+Alcanivorax\tAlcanivorax (6 genomes, 1175 marker genes, 317 marker sets)\n+Algoriphagus\tAlgoriphagus (5 genomes, 947 marker genes, 361 marker sets)\n+Aliagarivorans\tAliagarivorans (2 genomes, 1740 marker genes, 251 marker sets)\n+Alicycliphilus\tAlicycliphilus (2 genomes, 1650 marker genes, 258 marker sets)\n+Alicyclobacillus\tAlicyclobacillus (8 genomes, 664 marker genes, 240 marker sets)\n+Alishewanella\tAlishewanella (2 genomes, 1677 marker genes, 232 marker sets)\n+Alistipes\tAlistipes (5 genomes, 703 marker genes, 335 marker sets)\n+Alkaliphilus\tAlkaliphilus (2 genomes, 970 marker genes, 326 marker sets)\n+Alloscardovia\tAlloscardovia (2 genomes, 950 marker genes, 116 marker sets)\n+Alteromonas\tAlteromonas (6 genomes, 1419 marker genes, 314 marker sets)\n+Aminobacterium\tAminobacterium (2 genomes, 950 marker genes, 145 marker sets)\n+Amycolatopsis\tAmycolatopsis (12 genomes, 644 marker genes, 302 marker sets)\n+Anabaena\tAnabaena (5 genomes, 992 marker genes, 584 marker sets)\n+Anaerococcus\tAnaerococcus (6 genomes, 665 marker genes, 181 marker sets)\n+Anaeromyxobacter\tAnaeromyxobacter (4 genomes, 1162 marker genes, 375 marker sets)\n+Anaplasma\tAnaplasma (2 genomes, 688 marker genes, 127 marker sets)\n+Anoxybacillus\tAnoxybacillus (5 genomes, 1141 marker genes, 212 marker sets)\n+Aquimarina\tAquimarina (2 genomes, 1084 marker genes, 373 marker sets)\n+Archaeoglobus\tArchaeoglobus (4 genomes, 662 marker genes, 415 marker sets)\n+Arcobacter\tArcobacter (8 genomes, 804 marker genes, 234 marker sets)\n+Arenibacter\tArenibacter (2 genomes, 1200 marker genes, 269 marker sets)\n+Arsenophonus\tArsenophonus (4 genomes, 640 marker genes, 164 marker sets)\n+Arthrobacter\tArthrobacter (25 genomes, 473 marker genes, 190 marker sets)\n+Arthrospira\tArthrospira (2 genomes, 1432 marker genes, 419 marker sets)\n+Asticcacaulis\tAsticcacaulis (3 genomes, 1116 marker genes, 409 marker sets)\n+Atopobium\tAtopobium (8 genomes, 486 marker genes, 194 marker sets)\n+Aurantimonas\tAurantimonas (2 genomes, 1288 marker genes, 356 marker sets)\n+Azoarcus\tAzoarcus (2'..b'erella\tSutterella (3 genomes, 935 marker genes, 232 marker sets)\n+Synechococcus\tSynechococcus (25 genomes, 554 marker genes, 425 marker sets)\n+Synechocystis\tSynechocystis (5 genomes, 1099 marker genes, 794 marker sets)\n+Tannerella\tTannerella (2 genomes, 822 marker genes, 441 marker sets)\n+Taylorella\tTaylorella (4 genomes, 1069 marker genes, 71 marker sets)\n+Tenacibaculum\tTenacibaculum (2 genomes, 1057 marker genes, 272 marker sets)\n+Teredinibacter\tTeredinibacter (10 genomes, 1162 marker genes, 360 marker sets)\n+Tetragenococcus\tTetragenococcus (2 genomes, 953 marker genes, 183 marker sets)\n+Thalassospira\tThalassospira (3 genomes, 1406 marker genes, 326 marker sets)\n+Thauera\tThauera (6 genomes, 1175 marker genes, 334 marker sets)\n+Thermacetogenium\tThermacetogenium (2 genomes, 1344 marker genes, 157 marker sets)\n+Thermaerobacter\tThermaerobacter (2 genomes, 1204 marker genes, 181 marker sets)\n+Thermanaerovibrio\tThermanaerovibrio (2 genomes, 1136 marker genes, 117 marker sets)\n+Thermoanaerobacter\tThermoanaerobacter (13 genomes, 976 marker genes, 195 marker sets)\n+Thermoanaerobacterium\tThermoanaerobacterium (4 genomes, 1117 marker genes, 147 marker sets)\n+Thermobifida\tThermobifida (2 genomes, 1421 marker genes, 225 marker sets)\n+Thermococcus\tThermococcus (9 genomes, 552 marker genes, 286 marker sets)\n+Thermocrinis\tThermocrinis (2 genomes, 941 marker genes, 515 marker sets)\n+Thermocrispum\tThermocrispum (2 genomes, 1264 marker genes, 288 marker sets)\n+Thermodesulfatator\tThermodesulfatator (2 genomes, 1149 marker genes, 333 marker sets)\n+Thermodesulfobacterium\tThermodesulfobacterium (3 genomes, 960 marker genes, 243 marker sets)\n+Thermodesulfovibrio\tThermodesulfovibrio (3 genomes, 999 marker genes, 215 marker sets)\n+Thermogladius\tThermogladius (2 genomes, 711 marker genes, 60 marker sets)\n+Thermoplasma\tThermoplasma (2 genomes, 733 marker genes, 167 marker sets)\n+Thermoproteus\tThermoproteus (3 genomes, 600 marker genes, 281 marker sets)\n+Thermosipho\tThermosipho (2 genomes, 1009 marker genes, 148 marker sets)\n+Thermotoga\tThermotoga (8 genomes, 768 marker genes, 325 marker sets)\n+Thermus\tThermus (14 genomes, 841 marker genes, 311 marker sets)\n+Thioalkalimicrobium\tThioalkalimicrobium (2 genomes, 1175 marker genes, 103 marker sets)\n+Thioalkalivibrio\tThioalkalivibrio (70 genomes, 1059 marker genes, 270 marker sets)\n+Thiobacillus\tThiobacillus (3 genomes, 1205 marker genes, 209 marker sets)\n+Thiomicrospira\tThiomicrospira (8 genomes, 954 marker genes, 243 marker sets)\n+Thiomonas\tThiomonas (3 genomes, 1202 marker genes, 366 marker sets)\n+Thiothrix\tThiothrix (4 genomes, 1003 marker genes, 417 marker sets)\n+Tolumonas\tTolumonas (2 genomes, 1431 marker genes, 200 marker sets)\n+Treponema\tTreponema (28 genomes, 326 marker genes, 173 marker sets)\n+Turicibacter\tTuricibacter (2 genomes, 1183 marker genes, 236 marker sets)\n+Ureaplasma\tUreaplasma (15 genomes, 372 marker genes, 51 marker sets)\n+Variovorax\tVariovorax (7 genomes, 1114 marker genes, 351 marker sets)\n+Veillonella\tVeillonella (13 genomes, 757 marker genes, 219 marker sets)\n+Verrucomicrobium\tVerrucomicrobium (3 genomes, 697 marker genes, 466 marker sets)\n+Vibrio\tVibrio (70 genomes, 1084 marker genes, 381 marker sets)\n+Vulcanisaeta\tVulcanisaeta (2 genomes, 713 marker genes, 173 marker sets)\n+Weissella\tWeissella (6 genomes, 534 marker genes, 171 marker sets)\n+Wigglesworthia\tWigglesworthia (2 genomes, 679 marker genes, 9 marker sets)\n+Wohlfahrtiimonas\tWohlfahrtiimonas (2 genomes, 1335 marker genes, 78 marker sets)\n+Wolbachia\tWolbachia (8 genomes, 427 marker genes, 275 marker sets)\n+Xanthobacter\tXanthobacter (3 genomes, 1394 marker genes, 374 marker sets)\n+Xanthomonas\tXanthomonas (16 genomes, 1163 marker genes, 401 marker sets)\n+Xenorhabdus\tXenorhabdus (2 genomes, 1608 marker genes, 267 marker sets)\n+Xylella\tXylella (10 genomes, 1207 marker genes, 178 marker sets)\n+Yersinia\tYersinia (35 genomes, 1383 marker genes, 341 marker sets)\n+Zymomonas\tZymomonas (3 genomes, 1142 marker genes, 133 marker sets)\n'
b
diff -r 000000000000 -r 9b2790bca5b5 tool-data/life.loc.sample
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tool-data/life.loc.sample Fri Jul 29 20:29:27 2022 +0000
b
@@ -0,0 +1,3 @@
+# File generated by format_taxon_list.py script
+# taxon description
+Prokaryote Prokaryote (5656 genomes, 56 marker genes, 24 marker sets)
b
diff -r 000000000000 -r 9b2790bca5b5 tool-data/order.loc.sample
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tool-data/order.loc.sample Fri Jul 29 20:29:27 2022 +0000
b
b'@@ -0,0 +1,100 @@\n+# File generated by format_taxon_list.py script\n+# taxon\tdescription\n+Acholeplasmatales\tAcholeplasmatales (12 genomes, 176 marker genes, 88 marker sets)\n+Acidilobales\tAcidilobales (3 genomes, 558 marker genes, 236 marker sets)\n+Acidithiobacillales\tAcidithiobacillales (6 genomes, 795 marker genes, 254 marker sets)\n+Acidobacteriales\tAcidobacteriales (10 genomes, 572 marker genes, 395 marker sets)\n+Aciduliprofundum\tAciduliprofundum (2 genomes, 763 marker genes, 130 marker sets)\n+Actinomycetales\tActinomycetales (620 genomes, 256 marker genes, 152 marker sets)\n+Aeromonadales\tAeromonadales (23 genomes, 456 marker genes, 237 marker sets)\n+Alteromonadales\tAlteromonadales (116 genomes, 519 marker genes, 267 marker sets)\n+Aquificales\tAquificales (18 genomes, 486 marker genes, 369 marker sets)\n+Archaeoglobales\tArchaeoglobales (5 genomes, 619 marker genes, 392 marker sets)\n+Bacillales\tBacillales (331 genomes, 319 marker genes, 134 marker sets)\n+Bacteroidales\tBacteroidales (210 genomes, 402 marker genes, 267 marker sets)\n+Bacteroidetes Order II. Incertae sedis\tBacteroidetes Order II. Incertae sedis (5 genomes, 801 marker genes, 466 marker sets)\n+Bankia\tBankia (2 genomes, 1388 marker genes, 332 marker sets)\n+Bdellovibrionales\tBdellovibrionales (5 genomes, 466 marker genes, 290 marker sets)\n+Bifidobacteriales\tBifidobacteriales (77 genomes, 464 marker genes, 220 marker sets)\n+Burkholderiales\tBurkholderiales (194 genomes, 427 marker genes, 216 marker sets)\n+Campylobacterales\tCampylobacterales (107 genomes, 458 marker genes, 273 marker sets)\n+Cardiobacteriales\tCardiobacteriales (3 genomes, 807 marker genes, 349 marker sets)\n+Caulobacterales\tCaulobacterales (15 genomes, 644 marker genes, 366 marker sets)\n+Chlamydiales\tChlamydiales (64 genomes, 455 marker genes, 185 marker sets)\n+Chlorobiales\tChlorobiales (12 genomes, 612 marker genes, 333 marker sets)\n+Chloroflexales\tChloroflexales (8 genomes, 501 marker genes, 342 marker sets)\n+Chromatiales\tChromatiales (92 genomes, 595 marker genes, 283 marker sets)\n+Chroococcales\tChroococcales (55 genomes, 490 marker genes, 378 marker sets)\n+Clostridiales\tClostridiales (395 genomes, 202 marker genes, 114 marker sets)\n+Coriobacteriales\tCoriobacteriales (23 genomes, 304 marker genes, 155 marker sets)\n+Cytophagales\tCytophagales (48 genomes, 438 marker genes, 328 marker sets)\n+Deferribacterales\tDeferribacterales (6 genomes, 564 marker genes, 339 marker sets)\n+Dehalococcoidales\tDehalococcoidales (5 genomes, 755 marker genes, 54 marker sets)\n+Deinococcales\tDeinococcales (17 genomes, 563 marker genes, 388 marker sets)\n+Desulfobacterales\tDesulfobacterales (20 genomes, 320 marker genes, 189 marker sets)\n+Desulfovibrionales\tDesulfovibrionales (40 genomes, 454 marker genes, 252 marker sets)\n+Desulfurellales\tDesulfurellales (4 genomes, 817 marker genes, 252 marker sets)\n+Desulfurococcales\tDesulfurococcales (14 genomes, 287 marker genes, 213 marker sets)\n+Desulfuromonadales\tDesulfuromonadales (13 genomes, 550 marker genes, 283 marker sets)\n+Dictyoglomales\tDictyoglomales (2 genomes, 1060 marker genes, 103 marker sets)\n+Enterobacteriales\tEnterobacteriales (262 genomes, 297 marker genes, 121 marker sets)\n+Entomoplasmatales\tEntomoplasmatales (9 genomes, 362 marker genes, 151 marker sets)\n+Erysipelotrichales\tErysipelotrichales (18 genomes, 301 marker genes, 159 marker sets)\n+Flavobacteriales\tFlavobacteriales (126 genomes, 321 marker genes, 202 marker sets)\n+Fusobacteriales\tFusobacteriales (32 genomes, 289 marker genes, 159 marker sets)\n+Halanaerobiales\tHalanaerobiales (7 genomes, 504 marker genes, 189 marker sets)\n+Halobacteriales\tHalobacteriales (59 genomes, 367 marker genes, 241 marker sets)\n+Holophagales\tHolophagales (2 genomes, 883 marker genes, 459 marker sets)\n+Hydrogenophilales\tHydrogenophilales (3 genomes, 1205 marker genes, 209 marker sets)\n+Ignavibacteriales\tIgnavibacteriales (2 genomes, 1003 marker genes, 383 marker sets)\n+Lactobacillales\tLactobacillales (490 genomes, 335 marker genes, 183 marker'..b'lales\tLegionellales (23 genomes, 545 marker genes, 269 marker sets)\n+Mariprofundales\tMariprofundales (2 genomes, 1329 marker genes, 184 marker sets)\n+Methanobacteriales\tMethanobacteriales (12 genomes, 513 marker genes, 264 marker sets)\n+Methanocellales\tMethanocellales (3 genomes, 712 marker genes, 317 marker sets)\n+Methanococcales\tMethanococcales (16 genomes, 610 marker genes, 439 marker sets)\n+Methanomicrobiales\tMethanomicrobiales (11 genomes, 465 marker genes, 230 marker sets)\n+Methanosarcinales\tMethanosarcinales (14 genomes, 438 marker genes, 270 marker sets)\n+Methylococcales\tMethylococcales (15 genomes, 684 marker genes, 348 marker sets)\n+Methylophilales\tMethylophilales (16 genomes, 685 marker genes, 234 marker sets)\n+Mycoplasmatales\tMycoplasmatales (98 genomes, 217 marker genes, 127 marker sets)\n+Myxococcales\tMyxococcales (8 genomes, 534 marker genes, 348 marker sets)\n+Nautiliales\tNautiliales (4 genomes, 712 marker genes, 351 marker sets)\n+Neisseriales\tNeisseriales (69 genomes, 658 marker genes, 446 marker sets)\n+Nitrosomonadales\tNitrosomonadales (7 genomes, 851 marker genes, 314 marker sets)\n+Nitrosopumilales\tNitrosopumilales (2 genomes, 714 marker genes, 109 marker sets)\n+Nitrospirales\tNitrospirales (4 genomes, 676 marker genes, 379 marker sets)\n+Nostocales\tNostocales (18 genomes, 732 marker genes, 508 marker sets)\n+Oceanospirillales\tOceanospirillales (41 genomes, 497 marker genes, 229 marker sets)\n+Opitutales\tOpitutales (3 genomes, 859 marker genes, 521 marker sets)\n+Oscillatoriales\tOscillatoriales (25 genomes, 545 marker genes, 415 marker sets)\n+Pasteurellales\tPasteurellales (83 genomes, 767 marker genes, 440 marker sets)\n+Planctomycetales\tPlanctomycetales (10 genomes, 370 marker genes, 265 marker sets)\n+Pleurocapsales\tPleurocapsales (6 genomes, 840 marker genes, 624 marker sets)\n+Prochlorales\tProchlorales (18 genomes, 806 marker genes, 240 marker sets)\n+Pseudomonadales\tPseudomonadales (274 genomes, 549 marker genes, 326 marker sets)\n+Rhizobiales\tRhizobiales (349 genomes, 407 marker genes, 244 marker sets)\n+Rhodobacterales\tRhodobacterales (104 genomes, 504 marker genes, 327 marker sets)\n+Rhodocyclales\tRhodocyclales (26 genomes, 625 marker genes, 264 marker sets)\n+Rhodospirillales\tRhodospirillales (57 genomes, 367 marker genes, 228 marker sets)\n+Rickettsiales\tRickettsiales (81 genomes, 325 marker genes, 210 marker sets)\n+Rubrobacterales\tRubrobacterales (2 genomes, 991 marker genes, 269 marker sets)\n+Selenomonadales\tSelenomonadales (64 genomes, 334 marker genes, 167 marker sets)\n+Solirubrobacterales\tSolirubrobacterales (4 genomes, 721 marker genes, 307 marker sets)\n+Sphingobacteriales\tSphingobacteriales (27 genomes, 334 marker genes, 233 marker sets)\n+Sphingomonadales\tSphingomonadales (31 genomes, 490 marker genes, 270 marker sets)\n+Spirochaetales\tSpirochaetales (71 genomes, 218 marker genes, 127 marker sets)\n+Stigonematales\tStigonematales (5 genomes, 1007 marker genes, 576 marker sets)\n+Sulfolobales\tSulfolobales (20 genomes, 499 marker genes, 141 marker sets)\n+Synergistales\tSynergistales (13 genomes, 452 marker genes, 160 marker sets)\n+Thermales\tThermales (23 genomes, 585 marker genes, 331 marker sets)\n+Thermoanaerobacterales\tThermoanaerobacterales (44 genomes, 308 marker genes, 158 marker sets)\n+Thermococcales\tThermococcales (16 genomes, 500 marker genes, 315 marker sets)\n+Thermodesulfobacteriales\tThermodesulfobacteriales (5 genomes, 813 marker genes, 440 marker sets)\n+Thermoplasmatales\tThermoplasmatales (4 genomes, 563 marker genes, 310 marker sets)\n+Thermoproteales\tThermoproteales (13 genomes, 315 marker genes, 257 marker sets)\n+Thermotogales\tThermotogales (14 genomes, 460 marker genes, 267 marker sets)\n+Thiotrichales\tThiotrichales (64 genomes, 406 marker genes, 251 marker sets)\n+Verrucomicrobiales\tVerrucomicrobiales (7 genomes, 403 marker genes, 284 marker sets)\n+Vibrionales\tVibrionales (80 genomes, 922 marker genes, 367 marker sets)\n+Xanthomonadales\tXanthomonadales (63 genomes, 499 marker genes, 264 marker sets)\n'
b
diff -r 000000000000 -r 9b2790bca5b5 tool-data/phylum.loc.sample
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tool-data/phylum.loc.sample Fri Jul 29 20:29:27 2022 +0000
b
@@ -0,0 +1,28 @@
+# File generated by format_taxon_list.py script
+# taxon description
+Acidobacteria Acidobacteria (15 genomes, 399 marker genes, 276 marker sets)
+Actinobacteria Actinobacteria (731 genomes, 204 marker genes, 119 marker sets)
+Aquificae Aquificae (18 genomes, 486 marker genes, 369 marker sets)
+Bacteroidetes Bacteroidetes (419 genomes, 286 marker genes, 195 marker sets)
+Chlamydiae Chlamydiae (64 genomes, 455 marker genes, 185 marker sets)
+Chlorobi Chlorobi (12 genomes, 612 marker genes, 333 marker sets)
+Chloroflexi Chloroflexi (20 genomes, 225 marker genes, 149 marker sets)
+Crenarchaeota Crenarchaeota (54 genomes, 217 marker genes, 168 marker sets)
+Cyanobacteria Cyanobacteria (129 genomes, 472 marker genes, 368 marker sets)
+Deferribacteres Deferribacteres (6 genomes, 564 marker genes, 339 marker sets)
+Deinococcus-Thermus Deinococcus-Thermus (40 genomes, 528 marker genes, 359 marker sets)
+Dictyoglomi Dictyoglomi (2 genomes, 1060 marker genes, 103 marker sets)
+Euryarchaeota Euryarchaeota (146 genomes, 188 marker genes, 125 marker sets)
+Firmicutes Firmicutes (1349 genomes, 172 marker genes, 99 marker sets)
+Fusobacteria Fusobacteria (32 genomes, 289 marker genes, 159 marker sets)
+Ignavibacteriae Ignavibacteriae (2 genomes, 1003 marker genes, 383 marker sets)
+Nitrospirae Nitrospirae (4 genomes, 676 marker genes, 379 marker sets)
+Planctomycetes Planctomycetes (11 genomes, 360 marker genes, 256 marker sets)
+Proteobacteria Proteobacteria (2343 genomes, 182 marker genes, 119 marker sets)
+Spirochaetes Spirochaetes (71 genomes, 218 marker genes, 127 marker sets)
+Synergistetes Synergistetes (13 genomes, 452 marker genes, 160 marker sets)
+Tenericutes Tenericutes (119 genomes, 177 marker genes, 105 marker sets)
+Thaumarchaeota Thaumarchaeota (4 genomes, 548 marker genes, 265 marker sets)
+Thermodesulfobacteria Thermodesulfobacteria (5 genomes, 813 marker genes, 440 marker sets)
+Thermotogae Thermotogae (14 genomes, 460 marker genes, 267 marker sets)
+Verrucomicrobia Verrucomicrobia (12 genomes, 346 marker genes, 245 marker sets)
b
diff -r 000000000000 -r 9b2790bca5b5 tool-data/species.loc.sample
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tool-data/species.loc.sample Fri Jul 29 20:29:27 2022 +0000
b
b'@@ -0,0 +1,510 @@\n+# File generated by format_taxon_list.py script\n+# taxon\tdescription\n+Acetobacter pasteurianus\tAcetobacter pasteurianus (9 genomes, 1384 marker genes, 160 marker sets)\n+Achromobacter piechaudii\tAchromobacter piechaudii (2 genomes, 1606 marker genes, 428 marker sets)\n+Achromobacter xylosoxidans\tAchromobacter xylosoxidans (2 genomes, 1503 marker genes, 445 marker sets)\n+Acidaminococcus intestini\tAcidaminococcus intestini (2 genomes, 1109 marker genes, 140 marker sets)\n+Acidithiobacillus caldus\tAcidithiobacillus caldus (2 genomes, 1196 marker genes, 153 marker sets)\n+Acidithiobacillus ferrooxidans\tAcidithiobacillus ferrooxidans (2 genomes, 1293 marker genes, 128 marker sets)\n+Acidovorax avenae\tAcidovorax avenae (2 genomes, 1633 marker genes, 327 marker sets)\n+Acinetobacter baumanni\tAcinetobacter baumanni (5 genomes, 1413 marker genes, 231 marker sets)\n+Acinetobacter baumannii\tAcinetobacter baumannii (20 genomes, 1018 marker genes, 298 marker sets)\n+Acinetobacter baylyi\tAcinetobacter baylyi (2 genomes, 1608 marker genes, 195 marker sets)\n+Acinetobacter calcoaceticus\tAcinetobacter calcoaceticus (5 genomes, 1444 marker genes, 252 marker sets)\n+Acinetobacter johnsonii\tAcinetobacter johnsonii (2 genomes, 1439 marker genes, 204 marker sets)\n+Acinetobacter junii\tAcinetobacter junii (4 genomes, 1336 marker genes, 222 marker sets)\n+Acinetobacter lwoffii\tAcinetobacter lwoffii (3 genomes, 1363 marker genes, 221 marker sets)\n+Acinetobacter nosocomialis\tAcinetobacter nosocomialis (2 genomes, 1542 marker genes, 214 marker sets)\n+Acinetobacter radioresistens\tAcinetobacter radioresistens (5 genomes, 1354 marker genes, 199 marker sets)\n+Actinobacillus pleuropneumoniae\tActinobacillus pleuropneumoniae (13 genomes, 1332 marker genes, 210 marker sets)\n+Actinobaculum schaalii\tActinobaculum schaalii (2 genomes, 951 marker genes, 128 marker sets)\n+Actinomyces graevenitzii\tActinomyces graevenitzii (2 genomes, 1014 marker genes, 144 marker sets)\n+Actinomyces naeslundii\tActinomyces naeslundii (2 genomes, 1068 marker genes, 299 marker sets)\n+Actinomyces neuii\tActinomyces neuii (2 genomes, 1053 marker genes, 132 marker sets)\n+Actinomyces odontolyticus\tActinomyces odontolyticus (2 genomes, 1061 marker genes, 179 marker sets)\n+Aeromonas hydrophila\tAeromonas hydrophila (3 genomes, 1847 marker genes, 312 marker sets)\n+Aeromonas veronii\tAeromonas veronii (6 genomes, 1752 marker genes, 329 marker sets)\n+Aggregatibacter actinomycetemcomitans\tAggregatibacter actinomycetemcomitans (10 genomes, 1164 marker genes, 217 marker sets)\n+Agrobacterium tumefaciens\tAgrobacterium tumefaciens (2 genomes, 1574 marker genes, 278 marker sets)\n+Alicycliphilus denitrificans\tAlicycliphilus denitrificans (2 genomes, 1650 marker genes, 258 marker sets)\n+Alicyclobacillus acidocaldarius\tAlicyclobacillus acidocaldarius (2 genomes, 1329 marker genes, 157 marker sets)\n+Alloscardovia omnicolens\tAlloscardovia omnicolens (2 genomes, 950 marker genes, 116 marker sets)\n+Alteromonas macleodii\tAlteromonas macleodii (4 genomes, 1539 marker genes, 274 marker sets)\n+Amycolatopsis mediterranei\tAmycolatopsis mediterranei (3 genomes, 1557 marker genes, 526 marker sets)\n+Anabaena circinalis\tAnabaena circinalis (2 genomes, 1357 marker genes, 362 marker sets)\n+Anaerococcus prevotii\tAnaerococcus prevotii (2 genomes, 900 marker genes, 143 marker sets)\n+Anaeromyxobacter dehalogenans\tAnaeromyxobacter dehalogenans (2 genomes, 1441 marker genes, 335 marker sets)\n+Anoxybacillus flavithermus\tAnoxybacillus flavithermus (2 genomes, 1366 marker genes, 163 marker sets)\n+Archaeoglobus fulgidus\tArchaeoglobus fulgidus (2 genomes, 975 marker genes, 111 marker sets)\n+Arcobacter butzleri\tArcobacter butzleri (4 genomes, 1067 marker genes, 144 marker sets)\n+Arthrobacter nicotinovorans\tArthrobacter nicotinovorans (2 genomes, 1382 marker genes, 287 marker sets)\n+Arthrospira platensis\tArthrospira platensis (2 genomes, 1432 marker genes, 419 marker sets)\n+Atopobium vaginae\tAtopobium vaginae (2 genomes, 714 mark'..b'es, 778 marker genes, 149 marker sets)\n+Sulfolobus solfataricus\tSulfolobus solfataricus (2 genomes, 822 marker genes, 116 marker sets)\n+Sutterella wadsworthensis\tSutterella wadsworthensis (3 genomes, 935 marker genes, 232 marker sets)\n+Synechococcus elongatus\tSynechococcus elongatus (2 genomes, 1468 marker genes, 121 marker sets)\n+Taylorella asinigenitalis\tTaylorella asinigenitalis (2 genomes, 1125 marker genes, 58 marker sets)\n+Taylorella equigenitalis\tTaylorella equigenitalis (2 genomes, 1154 marker genes, 53 marker sets)\n+Teredinibacter turnerae\tTeredinibacter turnerae (8 genomes, 1640 marker genes, 312 marker sets)\n+Thauera linaloolentis\tThauera linaloolentis (2 genomes, 1773 marker genes, 294 marker sets)\n+Thermacetogenium phaeum\tThermacetogenium phaeum (2 genomes, 1344 marker genes, 157 marker sets)\n+Thermoanaerobacterium thermosaccharolyticum\tThermoanaerobacterium thermosaccharolyticum (2 genomes, 1317 marker genes, 136 marker sets)\n+Thermobifida fusca\tThermobifida fusca (2 genomes, 1421 marker genes, 225 marker sets)\n+Thermus oshimai\tThermus oshimai (2 genomes, 1196 marker genes, 112 marker sets)\n+Thermus scotoductus\tThermus scotoductus (2 genomes, 1098 marker genes, 162 marker sets)\n+Thermus thermophilus\tThermus thermophilus (4 genomes, 1100 marker genes, 123 marker sets)\n+Thioalkalivibrio thiocyanoxidans\tThioalkalivibrio thiocyanoxidans (2 genomes, 1159 marker genes, 330 marker sets)\n+Thiobacillus denitrificans\tThiobacillus denitrificans (2 genomes, 1290 marker genes, 203 marker sets)\n+Treponema denticola\tTreponema denticola (9 genomes, 954 marker genes, 221 marker sets)\n+Treponema pallidum\tTreponema pallidum (3 genomes, 717 marker genes, 44 marker sets)\n+Treponema vincentii\tTreponema vincentii (2 genomes, 946 marker genes, 178 marker sets)\n+Ureaplasma parvum\tUreaplasma parvum (5 genomes, 420 marker genes, 35 marker sets)\n+Ureaplasma urealyticum\tUreaplasma urealyticum (10 genomes, 386 marker genes, 50 marker sets)\n+Variovorax paradoxus\tVariovorax paradoxus (5 genomes, 1314 marker genes, 368 marker sets)\n+Veillonella atypica\tVeillonella atypica (3 genomes, 1145 marker genes, 136 marker sets)\n+Veillonella parvula\tVeillonella parvula (2 genomes, 1174 marker genes, 97 marker sets)\n+Vibrio alginolyticus\tVibrio alginolyticus (5 genomes, 1283 marker genes, 392 marker sets)\n+Vibrio cholerae\tVibrio cholerae (20 genomes, 1729 marker genes, 348 marker sets)\n+Vibrio fischeri\tVibrio fischeri (2 genomes, 1814 marker genes, 227 marker sets)\n+Vibrio harveyi\tVibrio harveyi (3 genomes, 1674 marker genes, 373 marker sets)\n+Vibrio mimicus\tVibrio mimicus (2 genomes, 1752 marker genes, 276 marker sets)\n+Vibrio parahaemolyticus\tVibrio parahaemolyticus (12 genomes, 1733 marker genes, 363 marker sets)\n+Vibrio splendidus\tVibrio splendidus (2 genomes, 1757 marker genes, 310 marker sets)\n+Vibrio vulnificus\tVibrio vulnificus (5 genomes, 1802 marker genes, 386 marker sets)\n+Wigglesworthia glossinidia\tWigglesworthia glossinidia (2 genomes, 679 marker genes, 9 marker sets)\n+Wohlfahrtiimonas chitiniclastica\tWohlfahrtiimonas chitiniclastica (2 genomes, 1335 marker genes, 78 marker sets)\n+Wolbachia endosymbiont of Culex quinquefasciatus\tWolbachia endosymbiont of Culex quinquefasciatus (2 genomes, 747 marker genes, 56 marker sets)\n+Xanthomonas axonopodis\tXanthomonas axonopodis (5 genomes, 1627 marker genes, 365 marker sets)\n+Xanthomonas campestris\tXanthomonas campestris (5 genomes, 1623 marker genes, 336 marker sets)\n+Xanthomonas oryzae\tXanthomonas oryzae (3 genomes, 1627 marker genes, 339 marker sets)\n+Xylella fastidiosa\tXylella fastidiosa (10 genomes, 1207 marker genes, 178 marker sets)\n+Yersinia enterocolitica\tYersinia enterocolitica (5 genomes, 1868 marker genes, 316 marker sets)\n+Yersinia pestis\tYersinia pestis (20 genomes, 1683 marker genes, 330 marker sets)\n+Yersinia pseudotuberculosis\tYersinia pseudotuberculosis (4 genomes, 1975 marker genes, 263 marker sets)\n+Zymomonas mobilis\tZymomonas mobilis (3 genomes, 1142 marker genes, 133 marker sets)\n'
b
diff -r 000000000000 -r 9b2790bca5b5 tool_data_table_conf.xml.sample
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tool_data_table_conf.xml.sample Fri Jul 29 20:29:27 2022 +0000
b
@@ -0,0 +1,30 @@
+<tables>
+    <table name="life_taxons" comment_char="#">
+        <columns>value, name</columns>
+        <file path="tool-data/life.loc" />
+    </table>
+    <table name="domain_taxons" comment_char="#">
+        <columns>value, name</columns>
+        <file path="tool-data/domain.loc" />
+    </table>
+    <table name="phylum_taxons" comment_char="#">
+        <columns>value, name</columns>
+        <file path="tool-data/phylum.loc" />
+    </table>
+    <table name="order_taxons" comment_char="#">
+        <columns>value, name</columns>
+        <file path="tool-data/order.loc" />
+    </table>
+    <table name="family_taxons" comment_char="#">
+        <columns>value, name</columns>
+        <file path="tool-data/family.loc" />
+    </table>
+    <table name="genus_taxons" comment_char="#">
+        <columns>value, name</columns>
+        <file path="tool-data/genus.loc" />
+    </table>
+    <table name="species_taxons" comment_char="#">
+        <columns>value, name</columns>
+        <file path="tool-data/species.loc" />
+    </table>
+</tables>
\ No newline at end of file
b
diff -r 000000000000 -r 9b2790bca5b5 tool_data_table_conf.xml.test
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tool_data_table_conf.xml.test Fri Jul 29 20:29:27 2022 +0000
b
@@ -0,0 +1,6 @@
+<tables>
+    <table name="life_taxons" comment_char="#">
+        <columns>value, name</columns>
+        <file path="${__HERE__}/test-data/life.loc" />
+    </table>
+</tables>
\ No newline at end of file
b
diff -r 000000000000 -r 9b2790bca5b5 tree.xml
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tree.xml Fri Jul 29 20:29:27 2022 +0000
[
b'@@ -0,0 +1,301 @@\n+<tool id="checkm_tree" name="CheckM tree" version="@TOOL_VERSION@+galaxy@VERSION_SUFFIX@" profile="@PROFILE@">\n+    <description>\n+        Place bins in the genome tree\n+    </description>\n+    <macros>\n+        <import>macros.xml</import>\n+    </macros>\n+    <expand macro="biotools"/>\n+    <expand macro="requirements"/>\n+    <expand macro="version"/>\n+    <command detect_errors="exit_code"><![CDATA[\n+@BIN_INPUTS@\n+\n+checkm tree\n+    \'bins\'\n+    \'output\'\n+    $reduced_tree\n+    $ali\n+    $nt\n+    $genes\n+    --extension \'fasta\'\n+    --threads \\${GALAXY_SLOTS:-1}\n+    --pplacer_threads \\${GALAXY_SLOTS:-1}\n+    ]]></command>\n+    <inputs>\n+        <expand macro="bin_inputs" />\n+        <expand macro="tree_params" />\n+        <param name="extra_outputs" type="select" multiple="true" optional="true" label="Extra outputs">\n+            <expand macro="tree_extra_output_options" />\n+        </param>\n+    </inputs>\n+    <outputs>\n+        <data name="phylo_hmm_info" format="zip" from_work_dir="output/storage/phylo_hmm_info.pkl.gz" label="${tool.name} on ${on_string}: Phylogenetic HMM model info for each bin" />\n+        <data name="bin_stats_tree" format="tabular" from_work_dir="output/storage/bin_stats.tree.tsv" label="${tool.name} on ${on_string}: Phylogenetic bin stats" />\n+        <collection name="hmmer_tree" type="list" label="${tool.name} on ${on_string}: Phylogenetic HMM hits to each bin">\n+            <discover_datasets pattern="(?P&lt;designation&gt;.*)/hmmer\\.tree\\.txt" format="txt" directory="output/bins/" recurse="true" match_relative_path="true"/>\n+        </collection>\n+        <data name="concatenated_fasta" format="fasta" from_work_dir="output/storage/tree/concatenated.fasta" label="${tool.name} on ${on_string}: Concatenated masked sequences"/>\n+        <data name="concatenated_tre" format="phyloxml" from_work_dir="output/storage/tree/concatenated.tre" label="${tool.name} on ${on_string}: Concatenated tree"/>\n+        <collection name="hmmer_tree_ali" type="list" label="${tool.name} on ${on_string}: Phylogenetic HMMER alignment file for each bin">\n+            <filter>ali and \'hmmer_tree_ali\' in extra_outputs</filter>\n+            <discover_datasets pattern="(?P&lt;designation&gt;.*)/hmmer\\.tree\\.ali\\.txt" format="txt" directory="output/bins/" recurse="true" match_relative_path="true"/>\n+        </collection>\n+        <data name="concatenated_pplacer_json" format="json" from_work_dir="output/storage/tree/concatenated.pplacer.json" label="${tool.name} on ${on_string}: Concatenated pplacer JSON">\n+            <filter>\'concatenate_pplacer_json\' in extra_outputs</filter>\n+        </data>\n+        <collection name="genes_fna" type="list" label="${tool.name} on ${on_string}: Protein gene sequences for each bin">\n+            <filter>not genes and nt and \'genes_fna\' in extra_outputs</filter>\n+            <discover_datasets pattern="(?P&lt;designation&gt;.*)/genes\\.fna" format="fasta" directory="output/bins/" recurse="true" match_relative_path="true"/>\n+        </collection>\n+        <collection name="genes_faa" type="list" label="${tool.name} on ${on_string}: Nucleotide gene sequences for each bin">\n+            <filter>\'genes_faa\' in extra_outputs</filter>\n+            <discover_datasets pattern="(?P&lt;designation&gt;.*)/genes\\.faa" format="fasta" directory="output/bins/" recurse="true" match_relative_path="true"/>\n+        </collection>\n+        <collection name="genes_gff" type="list" label="${tool.name} on ${on_string}: Gene feature files for each bin">\n+            <filter>not genes and \'genes_gff\' in extra_outputs</filter>\n+            <discover_datasets pattern="(?P&lt;designation&gt;.*)/genes\\.gff" format="gff" directory="output/bins/" recurse="true" match_relative_path="true"/>\n+        </collection>\n+    </outputs>\n+    <tests>\n+        <test expect_num_outputs="6">\n+            <conditional name="bins">\n+                <param name="select" value="collection"/>\n+                <param name="bi'..b'             <element name="637000110" ftype="txt">\n+                    <assert_contents>\n+                        <has_text text="target name"/>\n+                        <has_text text="AC_000091_551"/>\n+                    </assert_contents>\n+                </element>\n+            </output_collection>\n+            <output name="concatenated_fasta" ftype="fasta">\n+                <assert_contents>\n+                    <has_text text="637000110"/>\n+                    <has_text text="MLKAGVHFGHQTRYW"/>\n+                </assert_contents>\n+            </output>\n+            <output name="concatenated_tre" ftype="phyloxml">\n+                <assert_contents>\n+                    <has_text text="IMG_646564547"/>\n+                    <has_text text="g__Methanocaldococcus"/>\n+                </assert_contents>\n+            </output>\n+            <output_collection name="genes_fna" count="1">\n+                <element name="637000110" ftype="fasta">\n+                    <assert_contents>\n+                        <has_text text=">AC_000091_1"/>\n+                        <has_text text="GCGTTTCTGGATT"/>\n+                    </assert_contents>\n+                </element>\n+            </output_collection>\n+        </test>\n+        <test expect_num_outputs="5">\n+            <conditional name="bins">\n+                <param name="select" value="collection"/>\n+                <param name="bins_coll">\n+                    <collection type="list">\n+                        <element name="637000110" ftype="fasta" value="637000110.faa"/>\n+                    </collection>\n+                </param>\n+            </conditional>\n+            <param name="reduced_tree" value="true"/>\n+            <param name="ali" value="false"/>\n+            <param name="nt" value="false"/>\n+            <param name="genes" value="true"/>\n+            <param name="extra_outputs" value=""/>\n+            <output name="phylo_hmm_info" ftype="zip">\n+                <assert_contents>\n+                    <has_size value="1579" delta="10"/>\n+                </assert_contents>\n+            </output>\n+            <output name="bin_stats_tree" ftype="tabular">\n+                <assert_contents>\n+                    <has_text text="637000110"/>\n+                    <has_text text="Coding density"/>\n+                    <has_text text="# predicted genes"/>\n+                </assert_contents>\n+            </output>\n+            <output_collection name="hmmer_tree" count="1">\n+                <element name="637000110" ftype="txt">\n+                    <assert_contents>\n+                        <has_text text="target name"/>\n+                        <has_text text="AC_000091_163"/>\n+                    </assert_contents>\n+                </element>\n+            </output_collection>\n+            <output name="concatenated_fasta" ftype="fasta">\n+                <assert_contents>\n+                    <has_text text="637000110"/>\n+                    <has_text text="MLKAGVHFGHQTRYW"/>\n+                </assert_contents>\n+            </output>\n+            <output name="concatenated_tre" ftype="phyloxml">\n+                <assert_contents>\n+                    <has_text text="IMG_646564547"/>\n+                    <has_text text="g__Methanocaldococcus"/>\n+                </assert_contents>\n+            </output>\n+        </test>\n+    </tests>\n+    <help><![CDATA[\n+@HELP_HEADER@\n+\n+This command places bins in the genome tree.\n+\n+The following heuristic is used to establish the translation table used by Prodigal: use table 11 unless the coding density using table 4 is 5% higher than when using table 11 and the coding density under table 4 is >70%. Distinguishing between tables 4 and 25 is challenging so CheckM does not attempt to distinguish between these two tables. If you know the correct translation table for your genomes, it is recommended that you call genes outside of CheckM and provide CheckM with the protein sequences\n+\n+    ]]></help>\n+    <expand macro="citations"/>\n+</tool>\n'