Galaxy |

Changeset 0:955e33326e20 (2024-06-18)

Next changeset 1:edb671f0661e (2024-10-07)

Commit message:
planemo upload for repository https://github.com/Helmholtz-UFZ/ufz-galaxy-tools/blob/main/tools/longorf/ commit 483ade5362574a59ddc87e3788334bcbff253805

added:
genomad_end_to_end.xml
test-data.sh
test-data/GCF_009025895.1_ASM902589v1_genomic.fna
test-data/README.test_db
test-data/genomad.loc
tool-data/genomad.loc.sample
tool_data_table_conf.xml.sample
tool_data_table_conf.xml.test

diff -r 000000000000 -r 955e33326e20 genomad_end_to_end.xml
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/genomad_end_to_end.xml Tue Jun 18 14:28:44 2024 +0000

[

b'@@ -0,0 +1,237 @@\n+<tool id="genomad_end_to_end" name="geNomad" version="@TOOL_VERSION@+galaxy@VERSION_SUFFIX@" profile="23.0" license="MIT">\n+ <description>identify virus and plasmid genomes from nucleotide sequences</description>\n+ <macros>\n+ <token name="@TOOL_VERSION@">1.8.0</token>\n+ <token name="@VERSION_SUFFIX@">0</token>\n+ <token name="@MIN_DB_VERSION@">1.2</token> \n+ <xml name="summary_output_macro" tokens="type">\n+ <data name="summary_@TYPE@_fna" format="fasta" from_work_dir="output/sequence_summary/sequence_@TYPE@.fna" label="${tool.name} on ${on_string}: @TYPE@ fasta"/>\n+ <data name="summary_@TYPE@_genes" format="tabular" from_work_dir="output/sequence_summary/sequence_@TYPE@_genes.tsv" label="${tool.name} on ${on_string}: @TYPE@ genes">\n+ <actions>\n+ <action name="column_names" type="metadata" default="gene,start,end,length,strand,gc_content,genetic_code,rbs_motif,marker,evalue,bitscore,uscg,plasmid_hallmark,virus_hallmark,taxid,taxname,annotation_conjscan,annotation_amr,annotation_accessions,annotation_description"/>\n+ </actions>\n+ </data>\n+ <data name="summary_@TYPE@_proteins" format="fasta" from_work_dir="output/sequence_summary/sequence_@TYPE@_proteins.faa" label="${tool.name} on ${on_string}: @TYPE@ proteins fasta"/>\n+ <data name="summary_@TYPE@_summary" format="tabular" from_work_dir="output/sequence_summary/sequence_@TYPE@_summary.tsv" label="${tool.name} on ${on_string}: @TYPE@ summary">\n+ <actions>\n+ <action name="column_names" type="metadata" default="seq_name,length,topology,coordinates,n_genes,genetic_code,virus_score,fdr,n_hallmarks,marker_enrichment,taxonomy" />\n+ </actions>\n+ </data>\n+ </xml>\n+ </macros>\n+ <xrefs>\n+ <xref type="bio.tools">genomad</xref>\n+ </xrefs>\n+ <requirements>\n+ <requirement type="package" version="@TOOL_VERSION@">genomad</requirement>\n+ </requirements>\n+ <version_command><![CDATA[genomad end-to-end --version | cut -f 3 -d " "]]></version_command>\n+ <command detect_errors="exit_code"><![CDATA[\n+ ## symlink sequence (to make output directory names predictable)\n+ ln -s \'$INPUT\' sequence.fa &&\n+ mkdir output/ &&\n+ genomad end-to-end\n+ $filter_cond.filtering_preset\n+ #if $filter_cond.filtering_preset == \'\'\n+ --min-score $filter_cond.min_score\n+ --max-fdr $filter_cond.max_fdr\n+ --min-plasmid-marker-enrichment $filter_cond.min_plasmid_marker_enrichment\n+ --min-virus-marker-enrichment $filter_cond.min_virus_marker_enrichment\n+ --min-plasmid-hallmarks $filter_cond.min_plasmid_hallmarks\n+ --min-plasmid-hallmarks-short-seqs $filter_cond.min_plasmid_hallmarks_short_seqs\n+ --min-virus-hallmarks $filter_cond.min_virus_hallmarks\n+ --min-virus-hallmarks-short-seqs $filter_cond.min_virus_hallmarks_short_seqs\n+ --max-uscg $filter_cond.max_uscg\n+ #end if\n+ --threads \\${GALAXY_SLOTS:-4}\n+ $basic.disable_find_proviruses\n+ $basic.disable_nn_classification\n+ $basic.enable_score_calibration\n+ $annotation.conservative_taxonomy\n+ --sensitivity $annotation.sensitivity\n+ --splits $annotation.splits\n+ $provirus.skip_integrase_identification\n+ $provirus.skip_trna_identification\n+ --composition $score.composition\n+ $score.force_auto\n+ sequence.fa\n+ output/\n+ \'$DATABASE.fields.path\'\n+ ]]></command>\n+ <inputs>\n+ <param argument="INPUT" type="data" format="fasta" label="Input sequences" help="geNomad will work for isolate genomes, metagenomes, and metatran'..b'er 19. Viruses can be taxonomically assigned up to the family level, but not to specific genera or species within that family. The taxonomy is presented with a fixed number of fields (corresponding to taxonomic ranks) separated by semicolons, with empty fields left blank.\n+\n+The virus specific summary misses the coordinates and taxonomy columns and there are wto additional columns:\n+\n+* conjugation_genes genes that might be involved in conjugation. It\'s important to note that the presence of such genes is not sufficient to tell whether a given plasmid is conjugative or mobilizible. If you are interested in identifying conjugative plasmids, we recommend you to analyze the plasmids you identified using geNomad with CONJscan.\n+* amr_genes genes annotated with antimicrobial resistance function. You can check the specific functions associated with each accession in AMRFinderPlus website.\n+\n+\n+plasmid/virus genes: During its execution, geNomad annotates the genes encoded by the input sequences using a database of chromosome, plasmid, and virus-specific markers. The <prefix>_virus_genes.tsv file summarizes the annotation of the genes encoded by the identified viruses.\n+\n+* gene: Identifier of the gene (<sequence_name>_<gene_number>). Usually, gene numbers start with 1 (first gene in the sequence). However, genes encoded by prophages integrated in the middle of the host chromosome may start with a different number, depending on it\'s position within the chromosome.\n+* start: 1-indexed start coordinate of the gene.\n+* end: 1-indexed end coordinate of the gene.\n+* length: Length of the gene locus (in base pairs).\n+* strand: Strand that encodes the gene. Can be 1 (direct strand) or -1 (reverse strand).\n+* gc_content: GC content of the gene locus.\n+* genetic_code: Predicted genetic code (see details in the explanation of the summary file).\n+* rbs_motif: Detected motif of the ribosome-binding site.\n+* marker: Best matching geNomad marker. If this gene doesn\'t match any markers, the value will be NA.\n+* evalue: E-value of the alignment between the protein encoded by the gene and the best matching geNomad marker.\n+* bitscore: Bitscore of the alignment between the protein encoded by the gene and the best matching geNomad marker.\n+* uscg: Whether the marker assigned to this gene corresponds to a universal single-copy gene (UCSG, as defined in BUSCO v5). These genes are expected to be found in chromosomes and are rare in plasmids and viruses. Can be 1 (gene is USCG) or 0 (gene is not USCG).\n+* plasmid_hallmark: Whether the marker assigned to this gene represents a plasmid hallmark.\n+* virus_hallmark: Whether the marker assigned to this gene represents a virus hallmark.\n+* taxid: Taxonomic identifier of the marker assigned to this gene (you can ignore this as it is meant to be used internally by geNomad).\n+* taxname: Name of the taxon associated with the assigned geNomad marker. In this example, we can see that the annotated proteins are all characteristic of Caudoviricetes (which is why the provirus was assigned to this class).\n+* annotation_conjscan: If the marker that matched the gene is a conjugation-related gene (as defined in CONJscan) this field will show which CONJscan acession was assigned to the marker.\n+* annotation_amr: If the marker that matched the gene was annotated with an antimicrobial resistance (AMR) function (as defined in NCBIfam-AMRFinder), this field will show which NCBIfam acession was assigned to the marker.\n+* annotation_accessions: Some of the geNomad markers are functionally annotated. This column tells you which entries in Pfam, TIGRFAM, COG, and KEGG were assigned to the marker.\n+* annotation_description: A text describing the function assigned to the marker.\n+\n+\n+plasmid/virus genes/proteins: gives the nucleotide and aminoaced sequences of the annotated genes\n+\n+ ]]></help>\n+ <citations>\n+ <citation type="doi">10.1038/s41587-023-01953-y</citation>\n+ </citations>\n+</tool>\n\\ No newline at end of file\n'

diff -r 000000000000 -r 955e33326e20 test-data.sh
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data.sh Tue Jun 18 14:28:44 2024 +0000

@@ -0,0 +1,4 @@
+#!/bin/bash
+
+cd test-data/
+wget -O - https://zenodo.org/records/11945948/files/genomad_microdb.tar.gz?download=1 | tar -xz
\ No newline at end of file

diff -r 000000000000 -r 955e33326e20 test-data/GCF_009025895.1_ASM902589v1_genomic.fna
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/GCF_009025895.1_ASM902589v1_genomic.fna Tue Jun 18 14:28:44 2024 +0000

b'@@ -0,0 +1,11571 @@\n+>NZ_CP045015.1 Klebsiella pneumoniae subsp. pneumoniae strain BK13048 chromosome, complete genome\n+GTGTCACTTTCGCTTTGGCAGCAGTGTCTTGCCCGATTGCAGGATGAGTTACCAGCCACAGAATTCAGCATGTGGATCCG\n+CCCATTGCAGGCGGAACTGAGCGATAACACGCTGGCACTGTATGCGCCAAACCGTTTTGTGCTCGACTGGGTAAGGGACA\n+AATACCTCAATAATATCAATGGACTCCTCAATGATTTTTGCGGTGCGGACGCCCCGCAGCTGCGTTTTGAGGTGGGCGCT\n+AAGCCCGCCAGCTCGCTGCAGAAAGGGGCGGTAAGCCCGGCTGCAGCGGCCATTCCGGCGGCGCAGGTGCAGACCGCGCG\n+CGCGGCGCCGACGATCGTGCGCCCTGGCTGGGATAATGTCCCGGCGCCGGCGGAGCCGACCTACCGCTCTAACGTTAACG\n+TGAAACACACGTTTGATAACTTCGTCGAAGGTAAATCTAACCAGCTGGCCCGCGCGGCGGCGCGTCAGGTGGCGGATAAC\n+CCGGGCGGCGCCTACAACCCCCTGTTCCTCTATGGCGGGACGGGTCTGGGTAAAACTCACCTGCTGCACGCGGTGGGGAA\n+CGGCATTGTGGCGCGTAAGCCGAACGCGAAAGTGGTCTATATGCACTCCGAGCGTTTCGTTCAGGACATGGTTAAAGCGC\n+TGCAGAACAACGCCATCGAAGAGTTTAAGCGTTACTACCGCTCCGTTGACGCCCTGCTGATCGATGACATTCAGTTCTTT\n+GCCAATAAAGAACGATCCCAGGAAGAGTTTTTCCACACCTTCAATGCGCTGCTGGAAGGTAATCAGCAGATCATCCTGAC\n+GTCGGATCGTTATCCAAAAGAGATCAACGGCGTTGAGGATCGTCTAAAATCCCGCTTCGGCTGGGGGCTGACGGTGGCGA\n+TCGAGCCGCCGGAGCTGGAAACCCGCGTCGCGATCCTGATGAAAAAAGCTGACGAGAACGACATCCGCCTGCCGGGCGAA\n+GTGGCGTTCTTTATTGCCAAGCGTCTGCGCTCGAACGTGCGTGAGCTGGAGGGGGCGCTGAACCGCGTTATCGCCAACGC\n+CAACTTCACCGGCCGGGCGATCACCATCGATTTCGTGCGCGAAGCGCTGCGCGATCTGCTGGCGCTGCAGGAAAAACTGG\n+TCACCATCGACAATATTCAAAAGACGGTGGCGGAGTACTACAAGATTAAGGTAGCGGACCTGCTGTCCAAACGCCGCTCC\n+CGTTCGGTGGCGCGTCCTCGCCAGATGGCGATGGCGCTGGCCAAAGAGCTGACCAACCACAGCCTGCCGGAAATCGGCGA\n+TGCGTTTGGCGGCCGAGACCATACCACCGTGCTGCACGCCTGCCGCAAGATTGAGCAGCTGCGTGAAGAAAGCCACGACA\n+TTAAAGAAGATTTTTCCAATTTAATCAGAACATTATCCTCGTGACGCTATGAAATTTACCGTAGAACGTGAACATTTATT\n+AAAACCGCTGCAACAGGTGAGCGGTCCGTTAGGTGGTCGTCCGACGCTGCCCATTCTCGGTAACCTGCTGCTTCAGGTCG\n+CGGACGGCGCGCTGTCGCTGACCGGTACCGATCTTGAAATGGAGATGGTGGCGCGCGTGGCGCTGGTTCAGCCGCACGAA\n+GCGGGCGCAACGACCGTTCCGGCACGGAAGTTCTTTGATATCTGCCGCGGCCTGCCGGAAGGCGCGGAGATCGCGGTTCA\n+GTTGGAAGGCGATCGCATGCTGGTGCGTTCCGGCCGCAGCCGCTTCTCGCTGTCGACCCTGCCCGCCGCCGATTTCCCGA\n+ATCTGGATGACTGGCAGAGTGAAGTGGAGTTTACCCTGCCGCAGGCGACCATGAAGCGTCTGATCGAAGCCACCCAGTTC\n+TCGATGGCGCACCAGGATGTTCGTTACTACTTAAACGGCATGCTGTTTGAAACCGAAGGCAGCGAACTGCGCACGGTGGC\n+CACCGATGGTCACCGCCTGGCGGTCTGTTCGATGCCGCTGGAAGCGTCGCTGCCGAACCATTCGGTGATCGTGCCGCGTA\n+AAGGGGTGATTGAGCTGATGCGGATGCTCGACGGCGGCGATACCCCGCTGCGCGTGCAGATTGGCAGCAACAATATCCGC\n+GCCCACGTTGGCGATTTTATCTTCACCTCTAAGCTGGTTGATGGCCGTTTCCCGGATTATCGCCGCGTATTGCCGAAAAA\n+TCCGGATAAACACCTCGAAGCGGGCTGCGATATTCTGAAGCAGGCTTTTGCGCGCGCGGCGATTCTCTCCAACGAGAAAT\n+TCCGCGGCGTGCGGCTGTACGTTAGCGAAAACCAGCTGAAAATCACCGCCAATAACCCGGAACAGGAAGAAGCGGAAGAG\n+ATTCTGGATGTGACCTACGCCGGAACGGAGATGGAGATTGGCTTCAACGTTAGCTATGTGCTGGATGTGCTGAATGCGCT\n+GAAGTGCGAGAATGTACGCATTCTGCTGACGGATTCGGTGTCGAGCGTGCAGATTGAGGATGCGGCCTCTCAATCCGCAG\n+CCTACGTTGTCATGCCTATGCGATTGTAGAATCTGCAAAGGGGCTGGTTTACTTGCCATTTCGCCTTCCGGCAGTGCTCG\n+ACAAAACGCTATGCGTTTTGGACGTCTGTAAGACGGTCCGAAGGACGAGCGGAGCGAGCAAATGCTCACGTACTTCGTGT\n+ACGCTCCGCTTTCTGCGCGCTGGCGGTAGACGAACTGGCTGCGACACCCACGCCCCTTGAATGATGACGAGCTGATATGT\n+CGCTATCCCGACTCTTGATCAAAGACTTCCGCAATATTGAACATGCGGATCTCGCTTTATCTCCCGGCTTTAACTTCCTG\n+GTTGGCGCGAACGGCAGCGGCAAAACCAGCGTGCTGGAAGCTATCTACACGCTTGGCCACGGCCGGGCATTTCGCAGTTT\n+GCAAATTGGCCGAGTGATCCGCCACGAGCAGGATGCGTTTGTTCTGCATGGCCGTCTGCAGGGCGAAGAGCGGGAAACCG\n+CCATCGGCCTGACCAAAGACAAACAGGGCGACAGCAAGGTGCGTATCGACGGCACCGACGGCCACAAAGTGGCGGAGCTG\n+GCGCACCTGATGCCAATGCAGCTGATTACGCCGGAGGGGTTTACTTTACTCAACGGCGGCCCCAAATACAGAAGAGCATT\n+CCTTGACTGGGGATGCTTTCATAACGAAGCCGGATTCTTCACCGCCTGGAGCAATCTGAAGCGCCTGGTCAAGCAGCGCA\n+ACGCCGCGCTGCGTCAGGTCAGCCGCTATGCCCAGCTGCGGCCTTGGGATCTGGAATTAATCCCGCTGGCGGAGCAGATC\n+AGCCGCTGGCGTGCCGAATACAGCGCCGCTATCGTCGAAGACATGGCGGATACCTGTCAGCAATTTTTACCGGAATTCAC\n+GCTCACCTTCTCTTTCCAGCGCGGCTGGGAAAAAGAGACCGACTACGCGGAGGTGCTGGAGCGGAATTTCGAGCGCGACA\n+GAATGTTAACCTACACCGCCCACGGCCCGCATAAAGCGGATTTTCGCATTCGCGCCGACGGGGCGCCGGTGGAAGATACC\n+TTGTCGCGCGGGCAGCTTAAGCTGCTGATGTGCGCCCTGCGTCTGGCGCAAGGAGAGTTCCTCACCCGCGTCAGCGGGCG\n+GCGCTGCCTGTACCTGATAGATGATTTTGCCTCGGAACTTGATGATGCCCGCCGCGGTCTGTTATCCAGCCGCCTGAAAG\n+CGACGCAGTCGCAGGTTTTCGTCAGCGCGATCAGCGCTGAACACGTTATGGACATGTCGGACAAAAATTCGAAGATGTTC\n+CGCGTGGAAAAAGGTAAAATAACGG'..b'TTAATTATCGTACAATGGGGCGTTAAAGTCAATACAAGTACGGATTATATTTACCTAATTTTATGCC\n+CGTCAGAGCATGGAAGGCGACCTCGCCGGACTCCACCGGACACCGGGGGCAAATCGCCGGAAACTGCGGGACTGACCGGA\n+GCGACAGGCCACCCCCCTCCCTGCTAGCCCGCCGCCACGCGGCCGGTTACAGGGGACACTGAGAAAGCAGAAAGCCAACA\n+AACACTATATATAGCGTTCGTTGGCAGCTGAAGCAGCACTACATATAGTAGAGTACCTGTAAAACTTGCCAACCTGACCA\n+TAACAGCGATACTGTATAAGTAAACAGTGATTTGGAAGATCGCTATGAAGGTCGATATTTTTGAAAGCTCCGGCGCCAGC\n+CGGGTACACAGCATCCCTTTTTATCTGCAAAGAATTTCTGCGGGGTTCCCCAGCCCGGCCCAGGGCTATGAAAAGCAGGA\n+GTTAAACCTGCATGAGTATTGTGTTCGTCACCCTTCAGCAACTTACTTCCTGCGGGTTTCTGGCTCGTCAATGGAAGATG\n+GCCGCATCCATGATGGTGACGTACTGGTTGTGGATCGCTCGCTGACGGCCAGCCACGGCTCAATCGTAGTCGCCTGCATC\n+CATAATGAATTTACCGTGAAGCGGCTACTGCTGAGGCCCAGACCCTGCCTGATGCCGATGAACAAAGATTTTCCTGTGTA\n+CTACATTGACCCGGATAATGAGAGCGTTGAAATCTGGGGAGTGGTTACGCATTCCCTTATCGAGCATCCGGTATGTTTGC\n+GCTGATTGATGTCAATGGCATGTACGCCAGCTGTGAGCAGGCATTTAGGCCAGATCTGGCAAACCGAGCAGTGGCCGTTT\n+TATCCAACAATGACGGCAACATTGTGGCCCGTAATTACCTGGCGAAGAAAGCGGGCCTGAAAATGGGCGATCCGTACTTC\n+AAAGTCAGACCCATAATCGAGCGTCATAACATCGCTATTTTTAGCTCTAATTACACTCTCTATGCCTCCATGTCGGCCCG\n+GTTCGCGGCCGTAGTTGAGTCCCTTGCAAGCCACGTCGAACAGTATTCAATCGACGAGCTTTTTGTTGACTGCAAAGGGA\n+TAACGGCCGCCATGAGCCTTGACGCTTTCGGGCGCCAACTGCGCGAGGAAGTCAGGCGACACACAACGCTGGTATGCGGG\n+GTCGGTATTGCCCGTACTAAGACGCTGGCGAAGCTGTGTAACCACGCTGCAAAAACATGGCCCGCTACTGGCGGGGTGGT\n+TGCTCTGGACGATGGCGCCAGACTGAAGAAATTAATGAGCATCCTGCCGGTTGCGGAAGTCTGGGGCGTCGGCCATCGTA\n+CAGAGAAAGCACTCGCCACAATGGGGATCAAAACGGTGCTGGATTTAGCCAGGGCAGATACGCGCCTAATCCGTAAGACG\n+TTTGGTGTTGTGCTTGAAAGAACGGTACGGGAGCTACGCGGCGAGGCTTGCTTCAGCCTGGAAGAAAACCCTCCGGCGAA\n+GCAGCAGATTGTTGTATCGCGCTCATTCGGCCAACGCGTAGTAGCCCTGGCGGATATGCAGCAGGCGATCACCGGATTTG\n+CAGCGCGCGCAGCTGAAAAACTGCGTAATGAGCGGCAATACTGCCGCGTCATAAGCGTCTTTATCCGCACCAGTCCTTAT\n+TCAGTGCGTGATACACAGTATGCCAATCAGGCAACCGAAAAACTGACGGTGGCAACCCAGGACAGCCGCACGATAATTCA\n+GGCGGCACAAGCCGCGCTGGCGCGGATCTGGCGGGAAGATATTGCGTATGCAAAAGCAGGGATCATGCTGGCCGATTTCA\n+GCGGAAAGGAGGCCCAGCTGGATTTATTCGACTCTGCTACGCCTTCAGCTGGCAGCGAGGCGTTAATGGCTGTTCTCGAT\n+GGCATAAACCGGCGTGGCAAGAGCCAGCTGTTTTTTGCAGGCCAGGGCATCGATAACTCCTTTGCCATGCGCCGTCAGAT\n+GTTGTCACCTGATTACACGACAGACTGGCGCTCGATACCAACAGCAACCATCAAATAATTACCGGCGCCGCACGCGGGCC\n+GGTCAACCCCTCAACCGGCCGAAACGAGTTTCGGCGCGGTTTCGCGGTTTTCGGTAAAAGGCGTTTCATCTGTATAAAAG\n+ATCAGCTAAATTATGTGTATTGCACAATACATATATGTGAGGTTAACAGTGAATTTGCCTACGCCCGAAACCTACGATGA\n+ACTTCAGAGAGCCTACGATTTTTTTAATGAGAAGCTATTCAGCAACGAGCTGCCGCCATGCCTGATAACGTTGCAGCGTG\n+AGAAGCGAACGTATGGCTATTGTTCCTTTAAGCGTTTCGTCGGCCGTGAGAGTGGGTACACGGTAGACGAGATCGCTATG\n+AATCCGGTGTATTTCTCGATCAGAACCATAAAGGCCACGCTTTCAACACTGGTGCATGAGATGGTTCATCAGTGGCAATT\n+CCATTTTGGCGAGCCTGGCCGCCGTGGCTATCACAACAAACAGTGGGCGGCCCGGATGGAACGGGTAGGACTAATGCCTT\n+CTGATACCGGCGAACCGGGAGGCAGGAAAGTGGGCCAGAGCATGACCCATTATATTATTGCCGGTGGCCCTTTCGATATG\n+GCCTGTGATGAACTGCTGACAGGCCATTTCCGGCTTTCCTGGATGGACAGGTTTCCGCCTTACCAGCCTAAGCCTGGCGC\n+TGTGCTAAGCCCTACAGGAAAAGGCTATATTGACGACGAGGAAGATGATAGCGAACACGAACAGGAGGTGGAGGAAGGGC\n+GCGACCCGGTTGAACTCGACGACGAGATCATAGAGGCCATGCGATTTGTAACCCCGCCGCCTGAAGCGCCGGTGAACAAA\n+ACAAACCGGGAAAAGTACAGCTGCCCGGTGTGTCATATCAATCTCTGGGGTAAACCGGGGATAGTGGTTTACTGTGGTGG\n+CGAGCACTGTAATAAAGCCGCGTTAGTAGTCTTAAAATAAAGTCCTTTCGGACTTTATTTTTTTTCCATTTCCGAGGTCG\n+TGATGTTATTAATGCTGTACTTCGCGGCTTCTTTTAAAACAGTTTCAGCAAGGCTTGCTGGTATCCAGACCTGAACTAAT\n+TTTAATGGTTCGCCGTTCTCGGCTTTAAGAGTGGTGTTCTGGTACAAATCCCAGATTCGCTTAACGGTGCTGGAAATGTT\n+TTGCTTGGAACGGCCTACTCGCGTGGCTACGTCTGATGATTTCTCACCTTTGACAAGCACGGAATAGCCAATATCTGTTG\n+TGATGTGTGCAAAGGAAGCCATTTGCGGCAGCAGCTGTTTCCATTCTGTTTCTGAAATTCTGTTTTTCTGAGCCATCTGT\n+GGCGCCTCCGTAGTTTTGGTTACAGAAAGGATATACTCAGAATAAACTGGGGTCAATACAAGTACGATTTTTATAAACTT\n+TATTTTATTTGAGGGTGAGGCCCGGTGCGGCAGCAGCGCGGGCCTCGATGGTGCCGCGAAGGTGCTGGCGCCATGCTTGG\n+ATTAAAACATGAACCGTGAAGAACTGCGAAACTTGTTTTCGCGGTTCTGAGGGGTTGACCGAGCCGCGAAGCGGCGCTGG\n+TAAGCGATGATATGCACATATCCACAGGCATATTTTTAAAAGGTATTTTATAGATTTTTTATCTTTTTAAAGTCTTTTAG\n+AGCTATATAACTCATTGATTTAAAATCATAAATAAGTGTTATCTCTGGGAATCCGCCCACCTTGTTATGGGAATTGGCCC\n+ACCTATCTATGGGAAACACCCCACCTTACTATGGGAATTAGCCCACCTTGTTATGGGAATTGGCCCACCTTAGACGAAAC\n+TGTAAAAAATGTATTTACTTGTTTGAACTTTGTGGTAGTGTGGAGAGTAATTTTTAACCCACAAAGGCAAGGCTC\n'

diff -r 000000000000 -r 955e33326e20 test-data/README.test_db
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/README.test_db Tue Jun 18 14:28:44 2024 +0000

@@ -0,0 +1,13 @@
+creating of a smaller reference database: https://github.com/apcamargo/genomad/issues/104#issuecomment-2170949010
+
+- Download reference db v1.7
+- store in dir genomad_db in test-data
+- run test and get ids with `awk -v FS="\t" 'NR>1 && $9!="NA" {print $9}' output/sequence_annotate/sequence_genes.tsv | sort -u > markers
+- join -1 2 -2 1 genomad_db/genomad_db.lookup markers | cut -d" " -f 2 | sort -u -n > sorted_markers
+- cd genomad_db
+- `mmseqs createsubdb ~/projects/tools-iuc/tools/genomad/test-data/sorted_markers genomad_db genomad_microdb`
+- mv genomad_microdb.index genomad_db.index
+- mv genomad_microdb.dbtype genomad_db.dbtype
+- mv genomad_microdb genomad_db
+- genomad_microdb*
+

diff -r 000000000000 -r 955e33326e20 test-data/genomad.loc
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/genomad.loc Tue Jun 18 14:28:44 2024 +0000

@@ -0,0 +1,1 @@
+1.2 version 1.2 ${__HERE__}/genomad_microdb/

diff -r 000000000000 -r 955e33326e20 tool-data/genomad.loc.sample
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tool-data/genomad.loc.sample Tue Jun 18 14:28:44 2024 +0000

@@ -0,0 +1,3 @@
+# Format:
+# value name path
+# value must be the version of the database, e.g. 1.7, needs to be a number
\ No newline at end of file

diff -r 000000000000 -r 955e33326e20 tool_data_table_conf.xml.sample
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tool_data_table_conf.xml.sample Tue Jun 18 14:28:44 2024 +0000

@@ -0,0 +1,7 @@
+<tables>
+    
+    <table name="genomad" comment_char="#">
+        <columns>value, name, path</columns>
+        <file path="tool-data/genomad.loc" />
+    </table>
+</tables>

diff -r 000000000000 -r 955e33326e20 tool_data_table_conf.xml.test
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tool_data_table_conf.xml.test Tue Jun 18 14:28:44 2024 +0000

@@ -0,0 +1,6 @@
+<tables>
+    <table name="genomad" comment_char="#">
+        <columns>value, name, path</columns>
+        <file path="${__HERE__}/test-data/genomad.loc" />
+    </table>
+</tables>