Galaxy |

Changeset 1:2ed5c0795f99 (2019-08-05)

Previous changeset 0:fdaf2375d405 (2018-09-21) Next changeset 2:694b0f55b744 (2020-08-04)

Commit message:
planemo upload for repository https://github.com/galaxyproject/tools-iuc/tree/master/tools/idba_ud commit 61e1699e65d6fd9f4f73650ed8463b37cd701344

modified:
idba_ud.xml
macros.xml

added:
test-data/all_fasta.loc
test-data/reference.fa
tool-data/all_fasta.loc.sample
tool_data_table_conf.xml.sample
tool_data_table_conf.xml.test

diff -r fdaf2375d405 -r 2ed5c0795f99 idba_ud.xml
--- a/idba_ud.xml Fri Sep 21 15:25:56 2018 -0400
+++ b/idba_ud.xml Mon Aug 05 15:59:42 2019 -0400

[

b'@@ -1,107 +1,137 @@\n-<tool id="idba_ud" name="IDBA-UD" version="1.1.3">\n+<tool id="idba_ud" name="IDBA-UD" version="@IDBA_VERSION@+galaxy1">\n <description>\n- Iterative de Bruijn Graph Assembler \n+ Iterative de Bruijn Graph Assembler for data with highly uneven depth\n </description>\n <macros>\n <import>macros.xml</import>\n </macros>\n <expand macro="requirements"/>\n- <command><![CDATA[\n-\n+ <command detect_errors="aggressive"><![CDATA[\n idba_ud\n \n- --read \'$read\'\n- #if $read_level_2:\n- --read_level_2 \'$read_level_2\'\n- #end if\n- #if $read_level_3:\n- --read_level_3 \'$read_level_3\'\n- #end if\n- #if $read_level_4:\n- --read_level_4 \'$read_level_4\'\n- #end if\n- #if $read_level_5:\n- --read_level_5 \'$read_level_5\'\n- #end if\n- #if $long_read:\n- --long_read \'$long_read\'\n- #end if\n- --mink $mink\n- --maxk $maxk\n- --step $step\n- --inner_mink $inner_mink\n- --inner_step $inner_step\n- --prefix $prefix\n- --min_count $min_count\n- --min_support $min_support\n- --num_threads \\${GALAXY_SLOTS:-1}\n- --seed_kmer $seed_kmer\n- --min_contig $min_contig\n- --similar $similar\n- --max_mismatch $max_mismatch\n- --min_pairs $min_pairs\n- #if $other:\n- ${" ".join(str($other).split(","))}\n- #end if\n+ @MAIN_INPUT@\n+ @LEVELS_INPUT@\n+ @KMER_OPTIONS@\n+ @FILTER_OPTIONS@\n+\t--min_pairs $min_pairs\n+\t@OTHER_OPTIONS@\n+\t@THREADS@\n ]]></command>\n \n <inputs>\n- <param argument="--read" type="data" format="fasta" label="Fasta read file. Lower or equal to 600b"/>\n- <param argument="--long_read" type="data" format="fasta" optional="true" label="Fasta long read file. More than 600b"/>\n-\n- <param argument="--read_level_2" type="data" format="fasta" optional="true" label="Fasta Paired-end reads for second level scaffolds"/>\n- <param argument="--read_level_3" type="data" format="fasta" optional="true" label="Fasta Paired-end reads for third level scaffolds"/>\n- <param argument="--read_level_4" type="data" format="fasta" optional="true" label="Fasta Paired-end reads for fourth level scaffolds"/>\n- <param argument="--read_level_5" type="data" format="fasta" optional="true" label="Fasta Paired-end reads for fifth level scaffolds"/>\n-\n- <param argument="--mink" type="integer" value="20" max="312" label="Minimum k value. Lower or equal to 312"/>\n- <param argument="--maxk" type="integer" value="100" max="312" label="Maximum k value. Lower or equal to 312"/>\n- <param argument="--step" type="integer" value="20" label="Increment of k-mer of each iteration"/>\n- <param argument="--inner_mink" type="integer" value="10" label="Inner minimum k value"/>\n- <param argument="--inner_step" type="integer" value="5" label="Inner increment of k-mer"/>\n- <param argument="--prefix" type="integer" value="3" label="Prefix length used to build sub k-mer table"/>\n- <param argument="--min_count" type="integer" value="2" label="Minimum multiplicity for filtering k-mer when building the graph"/>\n- <param argument="--min_support" type="integer" value="1" label="Minimum supoort in each iteration"/>\n- <param argument="--seed_kmer" type="integer" value="30" label="Seed kmer size for alignment"/>\n- <param argument="--min_contig" type="integer" value="200" label="Minimum size of contig"/>\n- <param argument="--similar" type="float" value="0.95" label="Similarity for alignment"/>\n- <param argument="--max_mismatch" type="integer" value="3" label="Max mismatch of error correction"/>\n- <param argument="--min_pairs" type="integer" value="3" label="Minimum number of pairs"/>\n-\n- <param name="other" type="select" display="checkboxes" multiple="true" label="Other options">\n+ <expand macro="main_input"/>\n+ <expand macro="levels_input"/>\n+ '..b' <has_text text="--inner_step 4" />\n+ <has_text text="--prefix 2" />\n+ <has_text text="--min_count 1" />\n+ <has_text text="--min_support 2" />\n+ <has_text text="--seed_kmer 29" />\n+ </assert_command>\n+ <output name="output" file="out/scaffold.fa" compare="sim_size"/>\n+ </test>\n+ \n+ <test>\n+ <param name="read" value="merged.fa" ftype="fasta"/>\n+ <param name="min_contig" value="199"/>\n+ <param name="similar" value="0.96"/>\n+ <param name="max_mismatch" value="2"/>\n+ <assert_command>\n+ <has_text text="--min_contig 199" />\n+ <has_text text="--similar 0.96" />\n+ <has_text text="--max_mismatch 2" />\n+ </assert_command>\n+ <output name="output" file="out/scaffold.fa" compare="sim_size"/>\n+ </test>\n+ \n+ <test>\n+ <param name="read" value="merged.fa" ftype="fasta"/>\n+ <param name="min_pairs" value="2"/>\n+ <param name="other" value="--no_bubble,--no_local,--no_coverage,--no_correct,--pre_correction"/>\n+ <assert_command>\n+ <has_text text="--min_pairs 2" />\n+ <has_text text="--no_bubble" />\n+ <has_text text="--no_local" />\n+ <has_text text="--no_coverage" />\n+ <has_text text="--no_correct" />\n+ <has_text text="--pre_correction" />\n+ </assert_command>\n+ <output name="output" file="out/scaffold.fa" compare="sim_size"/>\n </test>\n </tests>\n- <help><![CDATA[\n- IDBA-UD is a iterative De Bruijn Graph De Novo Assembler for Short Reads Sequencing data with Highly Uneven Sequencing Depth. It is an extension of IDBA algorithm. IDBA-UD also iterates from small k to a large k. In each iteration, short and low-depth contigs are removed iteratively with cutoff threshold from low to high to reduce the errors in low-depth and high-depth regions. Paired-end reads are aligned to contigs and assembled locally to generate some missing k-mers in low-depth regions. With these technologies, IDBA-UD can iterate k value of de Bruijn graph to a very large value with less gaps and less branches to form long contigs in both low-depth and high-depth regions.\n-\n-\n-Input: IDBA-UD takes interleaved paired end data in the FASTA format as input, \n-i.e. paired-end reads need to be stored in the same FASTA file suc h that a pair \n-of reads should be in two consecutive lines. \n-In Galaxy paired reads in separate FASTQ files can be converted into interleaved \n-FASTA using the tools: \n-\n-* `FASTQ interlacer on paired end read <https://toolshed.g2.bx.psu.edu/view/devteam/fastq_paired_end_interlacer>`_\n-* `Samtools extract FASTA or FASTQ from a SAM file <https://toolshed.g2.bx.psu.edu/view/devteam/fastq_to_fasta>`_\n-\n-Note that, IDBA-UD assumes that the paired-end reads are in order (->,<-). \n-If your data is in reverse order (<-,->), please convert it by yourself.\n- ]]></help>\n- <citations>\n+ <expand macro="help" more_help="IDBA-UD is an extension of IDBA algorithm for Short Reads Sequencing data with Highly Uneven Sequencing Depth. IDBA-UD also iterates from small k to a large k. In each iteration, short and low-depth contigs are removed iteratively with cutoff threshold from low to high to reduce the errors in low-depth and high-depth regions. Paired-end reads are aligned to contigs and assembled locally to generate some missing k-mers in low-depth regions. With these technologies, IDBA-UD can iterate k value of de Bruijn graph to a very large value with less gaps and less branches to form long contigs in both low-depth and high-depth regions."/>\n+ <expand macro="citations">\n <citation type="doi">10.1093/bioinformatics/bts174</citation>\n- </citations>\n+ </expand>\n </tool>\n'

diff -r fdaf2375d405 -r 2ed5c0795f99 macros.xml
--- a/macros.xml Fri Sep 21 15:25:56 2018 -0400
+++ b/macros.xml Mon Aug 05 15:59:42 2019 -0400

[

@@ -1,8 +1,128 @@
<macros>
+    <token name="@IDBA_VERSION@">1.1.3</token>
     <xml name="requirements">
         <requirements>
-            <requirement type="package" version="1.1.3">idba</requirement>
+            <requirement type="package" version="@IDBA_VERSION@">idba</requirement>
             <yield/>
         </requirements>
     </xml>
+
+    <xml name="main_input">
+        <param argument="--read" type="data" format="fasta" label="Fasta read file. Lower or equal to 600b"/>
+        <param argument="--long_read" type="data" format="fasta" optional="true" label="Fasta long read file. More than 600b"/>
+    </xml>
+
+    <token name="@MAIN_INPUT@">
+        --read '$read'
+        #if $long_read:
+           --long_read '$long_read'
+        #end if
+    </token>
+
+    <xml name="levels_input">
+        <param argument="--read_level_2" type="data" format="fasta" optional="true" label="Fasta Paired-end reads for second level scaffolds"/>
+        <param argument="--read_level_3" type="data" format="fasta" optional="true" label="Fasta Paired-end reads for third level scaffolds"/>
+        <param argument="--read_level_4" type="data" format="fasta" optional="true" label="Fasta Paired-end reads for fourth level scaffolds"/>
+        <param argument="--read_level_5" type="data" format="fasta" optional="true" label="Fasta Paired-end reads for fifth level scaffolds"/>
+    </xml>
+    <token name="@LEVELS_INPUT@">
+    #if $read_level_2:
+        --read_level_2 '$read_level_2'
+    #end if
+    #if $read_level_3:
+        --read_level_3 '$read_level_3'
+    #end if
+    #if $read_level_4:
+        --read_level_4 '$read_level_4'
+    #end if
+    #if $read_level_5:
+        --read_level_5 '$read_level_5'
+    #end if
+    </token>
+
+    <xml name="kmer_options" token_maxk_default="" token_step_default="">
+        <param argument="--mink" type="integer" value="20" max="312" label="Minimum k value. Lower or equal to 312"/>
+        <param argument="--maxk" type="integer" value="@MAXK_DEFAULT@" max="312" label="Maximum k value. Lower or equal to 312"/>
+        <param argument="--step" type="integer" value="@STEP_DEFAULT@" label="Increment of k-mer of each iteration"/>
+        <param argument="--inner_mink" type="integer" value="10" label="Inner minimum k value"/>
+        <param argument="--inner_step" type="integer" value="5" label="Inner increment of k-mer"/>
+        <param argument="--prefix" type="integer" value="3" label="Prefix length used to build sub k-mer table"/>
+        <param argument="--min_count" type="integer" value="2" label="Minimum multiplicity for filtering k-mer when building the graph"/>
+        <param argument="--min_support" type="integer" value="1" label="Minimum supoort in each iteration"/>
+        <param argument="--seed_kmer" type="integer" value="30" label="Seed kmer size for alignment"/>
+    </xml>
+    <token name="@KMER_OPTIONS@">
+        --mink $mink
+        --maxk $maxk
+        --step $step
+        --inner_mink $inner_mink
+        --inner_step $inner_step
+        --prefix $prefix
+        --min_count $min_count
+        --min_support $min_support
+        --seed_kmer $seed_kmer
+    </token>
+
+    <xml name="filter_options">
+        <param argument="--min_contig" type="integer" value="200" label="Minimum size of contig"/>
+        <param argument="--similar" type="float" value="0.95" label="Similarity for alignment"/>
+        <param argument="--max_mismatch" type="integer" value="3" label="Max mismatch of error correction"/>
+    </xml>
+    <token name="@FILTER_OPTIONS@">
+        --min_contig $min_contig
+        --similar $similar
+        --max_mismatch $max_mismatch
+    </token>
+
+    <xml name="min_pairs_filter">
+        <param argument="--min_pairs" type="integer" value="3" label="Minimum number of pairs"/>
+    </xml>
+    <token name="@MIN_PAIRS_FILTER@">
+        --min_pairs $min_pairs
+    </token>
+    <xml name="other_options">
+       <param name="other" type="select" display="checkboxes" multiple="true" label="Other options">
+            <yield/>
+            <option value="--no_local">Do not use local assembly (--no_local)</option>
+            <option value="--no_coverage">Do not iterate on coverage (--no_coverage)</option>
+            <option value="--no_correct">Do not do correction (--no_correct)</option>
+            <option value="--pre_correction">Perform pre-correction before assembly (--pre_correction)</option>
+        </param>
+    </xml>
+    <token name="@OTHER_OPTIONS@">
+        #if $other:
+            ${" ".join(str($other).split(","))}
+        #end if
+    </token>
+
+    <token name="@THREADS@">
+        --num_threads \${GALAXY_SLOTS:-1}
+    </token>
+
+    <xml name="help" token_more_help="">
+        <help><![CDATA[
+IDBA is an iterative De Bruijn Graph De Novo Assembler for sequence assembly. Most assemblers based on de Bruijn graph build a de Bruijn graph with a specific k-mer size to perform the assembling task. For all of them, it is very crucial to find a specific value of k. If k is too large, there will be a lot of gap problems in the graph. If k is too small, there will a lot of branch problems. IDBA uses not only one specific k but a range of k values to build the iterative de Bruijn graph. It can keep all the information in graphs with different k values.
+
+@MORE_HELP@
+
+Input: IDBA-* take interleaved paired end data in the FASTA format as input,
+i.e. paired-end reads need to be stored in the same FASTA file such that a pair
+of reads should be in two consecutive lines.
+In Galaxy paired reads in separate FASTQ files can be converted into interleaved
+FASTA using the tools:
+
+* `FASTQ interlacer on paired end read <https://toolshed.g2.bx.psu.edu/view/devteam/fastq_paired_end_interlacer>`_
+* `Samtools extract FASTA or FASTQ from a SAM file <https://toolshed.g2.bx.psu.edu/view/devteam/fastq_to_fasta>`_
+
+Note that, IDBA-* assumes that the paired-end reads are in order (->,<-).
+If your data is in reverse order (<-,->), please convert it by yourself.
+        ]]></help>
+    </xml>
+    <xml name="citations">
+        <citations>
+            <citation type="doi">10.1007/978-3-642-12683-3_28</citation>
+            <yield/>
+        </citations>
+    </xml>
+
</macros>

diff -r fdaf2375d405 -r 2ed5c0795f99 test-data/all_fasta.loc
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/all_fasta.loc Mon Aug 05 15:59:42 2019 -0400

@@ -0,0 +1,20 @@
+#This file lists the locations and dbkeys of all the fasta files
+#under the "genome" directory (a directory that contains a directory
+#for each build). The script extract_fasta.py will generate the file
+#all_fasta.loc. This file has the format (white space characters are
+#TAB characters):
+#
+#<unique_build_id> <dbkey> <display_name> <file_path>
+#
+#So, all_fasta.loc could look something like this:
+#
+#apiMel3 apiMel3 Honeybee (Apis mellifera): apiMel3 /path/to/genome/apiMel3/apiMel3.fa
+#hg19canon hg19 Human (Homo sapiens): hg19 Canonical /path/to/genome/hg19/hg19canon.fa
+#hg19full hg19 Human (Homo sapiens): hg19 Full /path/to/genome/hg19/hg19full.fa
+#
+#Your all_fasta.loc file should contain an entry for each individual
+#fasta file. So there will be multiple fasta files for each build,
+#such as with hg19 above.
+#
+test_id test_dbkey test display name ${__HERE__}/merged.fa
+

diff -r fdaf2375d405 -r 2ed5c0795f99 test-data/reference.fa
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/reference.fa Mon Aug 05 15:59:42 2019 -0400

b'@@ -0,0 +1,303 @@\n+>reference\n+GAAAAACGCGCTTGCAGATGGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTT\n+GCCAATTTCCAGCAAAGCTTTATCCTGTACCCGAATAACCCCGGCAAACCCCAGAGGGAATTCTCCGCTGATTGTC\n+AAAAACGCGCTTGCAGATGGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTA\n+TTAGCGTAGCGCCACTGCCAATTTCCAGCAAAGCTTTATCCTGTACCCGAATAACCCCGGCAAACCCCAGAGGGAA\n+AAAACGCGCTTGCAGATGGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAG\n+ATGTCTGGAAATATAGGGGCAAATCCAGGGTTCTTGTCCCATGATGTTCAAAACTGTCAATATCCTGCATTGTTAG\n+AAACGCGCTTGCAGATGGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGT\n+CAATATCCTGCATTGTTAGCGTAGCGCCACTGCCAATTTCCAGCAAAGCTTTATCCTGTACCCGAATAACCCCGGC\n+AACGCGCTTGCAGATGGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTG\n+CCTGCATTGTTAGCGTAGCGCCACTGCCAATTTCCAGCAAAGCTTTATCCTGTACCCGAATAACCCCGGCAAACCC\n+ACGCGCTTGCAGATGGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGG\n+CCCGAATAACCCCGGCAAACCCCAGAGGGAATTCTCCGCTGATTGTCGTATCTCCATTCAGATATACCGACGACTC\n+CGCGCTTGCAGATGGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGT\n+AAATATAGGGGCAAATCCAGGGTTCTTGTCCCATGATGTTCAAAACTGTCAATATCCTGCATTGTTAGCGTAGCGC\n+GCGCTTGCAGATGGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGTG\n+TGCCAATTTCCAGCAAAGCTTTATCCTGTACCCGAATAACCCCGGCAAACCCCAGAGGGAATTCTCCGCTGATTGT\n+CGCTTGCAGATGGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGTGA\n+GCCAATTTCCAGCAAAGCTTTATCCTGTACCCGAATAACCCCGGCAAACCCCAGAGGGAATTCTCCGCTGATTGTC\n+GCTTGCAGATGGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGTGAG\n+GGGAATATCTGCGGCAGCGGGCTTGTAATGGGTTAAGTGATAACAGATGTCTGGAAATATAGGGGCAAATCCAGGG\n+CTTGCAGATGGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGTGAGT\n+TTGTTAGCGTAGCGCCACTGCCAATTTCCAGCAAAGCTTTATCCTGTACCCGAATAACCCCGGCAAACCCCAGAGG\n+TTGCAGATGGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGTGAGTC\n+CTTTATCCTGTACCCGAATAACCCCGGCAAACCCCAGAGGGAATTCTCCGCTGATTGTCGTATCTCCATTCAGATA\n+TGCAGATGGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGTGAGTCG\n+CAGGGTTCTTGTCCCATGATGTTCAAAACTGTCAATATCCTGCATTGTTAGCGTAGCGCCACTGCCAATTTCCAGC\n+GCAGATGGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGTGAGTCGT\n+CCACTGCCAATTTCCAGCAAAGCTTTATCCTGTACCCGAATAACCCCGGCAAACCCCAGAGGGAATTCTCCGCTGA\n+CAGATGGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGTGAGTCGTC\n+CTGGAAATATAGGGGCAAATCCAGGGTTCTTGTCCCATGATGTTCAAAACTGTCAATATCCTGCATTGTTAGCGTA\n+AGATGGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGTGAGTCGTCG\n+GTCTGGAAATATAGGGGCAAATCCAGGGTTCTTGTCCCATGATGTTCAAAACTGTCAATATCCTGCATTGTTAGCG\n+GATGGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGTGAGTCGTCGG\n+CATTGTTAGCGTAGCGCCACTGCCAATTTCCAGCAAAGCTTTATCCTGTACCCGAATAACCCCGGCAAACCCCAGA\n+ATGGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGTGAGTCGTCGGT\n+AGGGGCAAATCCAGGGTTCTTGTCCCATGATGTTCAAAACTGTCAATATCCTGCATTGTTAGCGTAGCGCCACTGC\n+TGGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGTGAGTCGTCGGTA\n+CAGCGGGCTTGTAATGGGTTAAGTGATAACAGATGTCTGGAAATATAGGGGCAAATCCAGGGTTCTTGTCCCATGA\n+GGGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGTGAGTCGTCGGTAT\n+AGCTTTATCCTGTACCCGAATAACCCCGGCAAACCCCAGAGGGAATTCTCCGCTGATTGTCGTATCTCCATTCAGA\n+GGTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGTGAGTCGTCGGTATA\n+TGTCAATATCCTGCATTGTTAGCGTAGCGCCACTGCCAATTTCCAGCAAAGCTTTATCCTGTACCCGAATAACCCC\n+GTCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGTGAGTCGTCGGTATAT\n+GTTCAAAACTGTCAATATCCTGCATTGTTAGCGTAGCGCCACTGCCAATTTCCAGCAAAGCTTTATCCTGTACCCG\n+TCGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGTGAGTCGTCGGTATATC\n+CAAAGCTTTATCCTGTACCCGAATAACCCCGGCAAACCCCAGAGGGAATTCTCCGCTGATTGTCGTATCTCCATTC\n+CGCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGTGAGTCGTCGGTATATCT\n+CATAGTGCGCTGGGTTATCGCTCGCCACGGGAATATCTGCGGCAGCGGGCTTGTAATGGGTTAAGTGATAACAGAT\n+GCAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGTGAGTCGTCGGTATATCTG\n+AGCAAAGCTTTATCCTGTACCCGAATAACCCCGGCAAACCCCAGAGGGAATTCTCCGCTGATTGTCGTATCTCCAT\n+CAGGTTACTTCCTTGCGCACAGGATATAGTTATACCAGCGTTATTGTCGTTAGTGGTGAGTCGTCGGT'..b'AGTCCCAACATCCGGGCGAA\n+CGGTGGAACGCCGCTTCGGCAACGATCTTCCGTCGTCTCCAGTGGAGTGGCTGACGGATAATGGTTCATGCTACCG\n+AGCTCTCTGCTATTCCGTTACTCTCCGGACTCCGCACCGCCGTGTTCTTCGGTTCAAGTCCCAACATCCGGGCGAA\n+ACTGCACTGGGCGGTCACTACCGGCGGCTTCAACAGTGAAACAGTACAGGACGTCATGCTGGGAGCGGTGGAACGC\n+CTCTCTGCTATTCCGTTACTCTCCGGACTCCGCACCGCCGTGTTCTTCGGTTCAAGTCCCAACATCCGGGCGAACT\n+CGGCAACGATCTTCCGTCGTCTCCAGTGGAGTGGCTGACGGATAATGGTTCATGCTACCGGGCTAATGAAACACGC\n+TCTCTGCTATTCCGTTACTCTCCGGACTCCGCACCGCCGTGTTCTTCGGTTCAAGTCCCAACATCCGGGCGAACTG\n+TCGGCAACGATCTTCCGTCGTCTCCAGTGGAGTGGCTGACGGATAATGGTTCATGCTACCGGGCTAATGAAACACG\n+CTCTGCTATTCCGTTACTCTCCGGACTCCGCACCGCCGTGTTCTTCGGTTCAAGTCCCAACATCCGGGCGAACTGG\n+CCGGCGGCTTCAACAGTGAAACAGTACAGGACGTCATGCTGGGAGCGGTGGAACGCCGCTTCGGCAACGATCTTCC\n+TCTGCTATTCCGTTACTCTCCGGACTCCGCACCGCCGTGTTCTTCGGTTCAAGTCCCAACATCCGGGCGAACTGGC\n+GTACAGGACGTCATGCTGGGAGCGGTGGAACGCCGCTTCGGCAACGATCTTCCGTCGTCTCCAGTGGAGTGGCTGA\n+CTGCTATTCCGTTACTCTCCGGACTCCGCACCGCCGTGTTCTTCGGTTCAAGTCCCAACATCCGGGCGAACTGGCG\n+AACAGTGAAACAGTACAGGACGTCATGCTGGGAGCGGTGGAACGCCGCTTCGGCAACGATCTTCCGTCGTCTCCAG\n+GGACTCCGCACCGCCGTGTTCTTCGGTTCAAGTCCCAACATCCGGGCGAACTGGCGTGTTTCATTAGCCCGGTAGC\n+CGGCGGCTTCAACAGTGAAACAGTACAGGACGTCATGCTGGGAGCGGTGGAACGCCGCTTCGGCAACGATCTTCCG\n+GGACTCCGCACCGCCGTGTTCTTCGGTTCAAGTCCCAACATCCGGGCGAACTGGCGTGTTTCATTAGCCCGGTAGC\n+AACAGTGAAACAGTACAGGACGTCATGCTGGGAGCGGTGGAACGCCGCTTCGGCAACGATCTTCCGTCGTCTCCAG\n+GACTCCGCACCGCCGTGTTCTTCGGTTCAAGTCCCAACATCCGGGCGAACTGGCGTGTTTCATTAGCCCGGTAGCA\n+ACTGCTGTGATCGTGAGGCACTGCACTGGGCGGTCACTACCGGCGGCTTCAACAGTGAAACAGTACAGGACGTCAT\n+CCGTGTTCTTCGGTTCAAGTCCCAACATCCGGGCGAACTGGCGTGTTTCATTAGCCCGGTAGCATGAACCATTATC\n+TTCGCGCTGGACTGCTGTGATCGTGAGGCACTGCACTGGGCGGTCACTACCGGCGGCTTCAACAGTGAAACAGTAC\n+GTGTTCTTCGGTTCAAGTCCCAACATCCGGGCGAACTGGCGTGTTTCATTAGCCCGGTAGCATGAACCATTATCCG\n+GTGAAACAGTACAGGACGTCATGCTGGGAGCGGTGGAACGCCGCTTCGGCAACGATCTTCCGTCGTCTCCAGTGGA\n+TTCTTCGGTTCAAGTCCCAACATCCGGGCGAACTGGCGTGTTTCATTAGCCCGGTAGCATGAACCATTATCCGTCA\n+CTACCGGCGGCTTCAACAGTGAAACAGTACAGGACGTCATGCTGGGAGCGGTGGAACGCCGCTTCGGCAACGATCT\n+GGTTCAAGTCCCAACATCCGGGCGAACTGGCGTGTTTCATTAGCCCGGTAGCATGAACCATTATCCGTCAGCCACT\n+GCTGTGATCGTGAGGCACTGCACTGGGCGGTCACTACCGGCGGCTTCAACAGTGAAACAGTACAGGACGTCATGCT\n+TTCAAGTCCCAACATCCGGGCGAACTGGCGTGTTTCATTAGCCCGGTAGCATGAACCATTATCCGTCAGCCACTCC\n+CGTGAGGCACTGCACTGGGCGGTCACTACCGGCGGCTTCAACAGTGAAACAGTACAGGACGTCATGCTGGGAGCGG\n+CCGGGCGAACTGGCGTGTTTCATTAGCCCGGTAGCATGAACCATTATCCGTCAGCCACTCCACTGGAGACGACGGA\n+GAGACTGCGTGTCACGTTCGCGCTGGACTGCTGTGATCGTGAGGCACTGCACTGGGCGGTCACTACCGGCGGCTTC\n+CGGGCGAACTGGCGTGTTTCATTAGCCCGGTAGCATGAACCATTATCCGTCAGCCACTCCACTGGAGACGACGGAA\n+TGAGGCACTGCACTGGGCGGTCACTACCGGCGGCTTCAACAGTGAAACAGTACAGGACGTCATGCTGGGAGCGGTG\n+AACTGGCGTGTTTCATTAGCCCGGTAGCATGAACCATTATCCGTCAGCCACTCCACTGGAGACGACGGAAGATCGT\n+GATCGTGAGGCACTGCACTGGGCGGTCACTACCGGCGGCTTCAACAGTGAAACAGTACAGGACGTCATGCTGGGAG\n+ACTGGCGTGTTTCATTAGCCCGGTAGCATGAACCATTATCCGTCAGCCACTCCACTGGAGACGACGGAAGATCGTT\n+AGAGAGACTGCGTGTCACGTTCGCGCTGGACTGCTGTGATCGTGAGGCACTGCACTGGGCGGTCACTACCGGCGGC\n+CTGGCGTGTTTCATTAGCCCGGTAGCATGAACCATTATCCGTCAGCCACTCCACTGGAGACGACGGAAGATCGTTG\n+TGGGCGGTCACTACCGGCGGCTTCAACAGTGAAACAGTACAGGACGTCATGCTGGGAGCGGTGGAACGCCGCTTCG\n+CTGGCGTGTTTCATTAGCCCGGTAGCATGAACCATTATCCGTCAGCCACTCCACTGGAGACGACGGAAGATCGTTG\n+TGTCACGTTCGCGCTGGACTGCTGTGATCGTGAGGCACTGCACTGGGCGGTCACTACCGGCGGCTTCAACAGTGAA\n+TGGCGTGTTTCATTAGCCCGGTAGCATGAACCATTATCCGTCAGCCACTCCACTGGAGACGACGGAAGATCGTTGC\n+CTGCACTGGGCGGTCACTACCGGCGGCTTCAACAGTGAAACAGTACAGGACGTCATGCTGGGAGCGGTGGAACGCC\n+CCGGTAGCATGAACCATTATCCGTCAGCCACTCCACTGGAGACGACGGAAGATCGTTGCCGAAGCGGCGTTCCACC\n+GATCGTGAGGCACTGCACTGGGCGGTCACTACCGGCGGCTTCAACAGTGAAACAGTACAGGACGTCATGCTGGGAG\n+CATGAACCATTATCCGTCAGCCACTCCACTGGAGACGACGGAAGATCGTTGCCGAAGCGGCGTTCCACCGCTCCCA\n+CTGCTGTGATCGTGAGGCACTGCACTGGGCGGTCACTACCGGCGGCTTCAACAGTGAAACAGTACAGGACGTCATG\n+ATGAACCATTATCCGTCAGCCACTCCACTGGAGACGACGGAAGATCGTTGCCGAAGCGGCGTTCCACCGCTCCCAG\n+TAACGGAGAGAGACTGCGTGTCACGTTCGCGCTGGACTGCTGTGATCGTGAGGCACTGCACTGGGCGGTCACTACC\n+TGAACCATTATCCGTCAGCCACTCCACTGGAGACGACGGAAGATCGTTGCCGAAGCGGCGTTCCACCGCTCCCAGC\n+AACGGAGAGAGACTGCGTGTCACGTTCGCGCTGGACTGCTGTGATCGTGAGGCACTGCACTGGGCGGTCACTACCG\n'

diff -r fdaf2375d405 -r 2ed5c0795f99 tool-data/all_fasta.loc.sample
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tool-data/all_fasta.loc.sample Mon Aug 05 15:59:42 2019 -0400

@@ -0,0 +1,18 @@
+#This file lists the locations and dbkeys of all the fasta files
+#under the "genome" directory (a directory that contains a directory
+#for each build). The script extract_fasta.py will generate the file
+#all_fasta.loc. This file has the format (white space characters are
+#TAB characters):
+#
+#<unique_build_id> <dbkey> <display_name> <file_path>
+#
+#So, all_fasta.loc could look something like this:
+#
+#apiMel3 apiMel3 Honeybee (Apis mellifera): apiMel3 /path/to/genome/apiMel3/apiMel3.fa
+#hg19canon hg19 Human (Homo sapiens): hg19 Canonical /path/to/genome/hg19/hg19canon.fa
+#hg19full hg19 Human (Homo sapiens): hg19 Full /path/to/genome/hg19/hg19full.fa
+#
+#Your all_fasta.loc file should contain an entry for each individual
+#fasta file. So there will be multiple fasta files for each build,
+#such as with hg19 above.
+#

diff -r fdaf2375d405 -r 2ed5c0795f99 tool_data_table_conf.xml.sample
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tool_data_table_conf.xml.sample Mon Aug 05 15:59:42 2019 -0400

@@ -0,0 +1,8 @@
+
+<tables>
+    
+    <table name="all_fasta" comment_char="#" allow_duplicate_entries="False">
+        <columns>value, dbkey, name, path</columns>
+        <file path="tool-data/all_fasta.loc" />
+    </table>
+</tables>

diff -r fdaf2375d405 -r 2ed5c0795f99 tool_data_table_conf.xml.test
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tool_data_table_conf.xml.test Mon Aug 05 15:59:42 2019 -0400

@@ -0,0 +1,8 @@
+
+<tables>
+    
+    <table name="all_fasta" comment_char="#" allow_duplicate_entries="False">
+        <columns>value, dbkey, name, path</columns>
+        <file path="${__HERE__}/test-data/all_fasta.loc" />
+    </table>
+</tables>