Mercurial > repos > artbio > repenrich

--- a/RepEnrich_setup.py	Sat Apr 20 12:13:52 2024 +0000
+++ b/RepEnrich_setup.py	Sun Apr 21 09:44:51 2024 +0000
@@ -71,7 +71,7 @@
 genome = defaultdict(dict)

 for chr in g.keys():
-    genome[chr]['sequence'] = g[chr].seq
+    genome[chr]['sequence'] = str(g[chr].seq)
     genome[chr]['length'] = len(g[chr].seq)

 # Build a bedfile of repeatcoordinates to use by RepEnrich region_sorter
@@ -100,7 +100,7 @@

 # generate metagenomes and save them to FASTA files for bowtie build
 for repname in rep_coords:
-    metagenome = ''
+    genomes_list = []
     # iterating coordinate list by block of 3 (chr, start, end)
     block = 3
     for i in range(0, len(rep_coords[repname]) - block + 1, block):
@@ -109,11 +109,8 @@
         start = max(int(batch[1]) - flankingl, 0)
         end = min(int(batch[2]) + flankingl,
                   int(genome[chromosome]['length'])-1) + 1
-        metagenome = (
-            f"{metagenome}{spacer}"
-            f"{genome[chromosome]['sequence'][start:end]}"
-            )
-
+        genomes_list.append(genome[chromosome]['sequence'][start:end])
+    metagenome = spacer.join(genomes_list)
     # Create Fasta of repeat pseudogenome
     fastafilename = f"{repname}.fa"
     record = SeqRecord(Seq(metagenome), id=repname, name='', description='')
--- a/macros.xml	Sat Apr 20 12:13:52 2024 +0000
+++ b/macros.xml	Sun Apr 21 09:44:51 2024 +0000
@@ -1,6 +1,6 @@
 <macros>
     <token name="@TOOL_VERSION@">2.31.1</token>
-    <token name="@VERSION_SUFFIX@">1</token>
+    <token name="@VERSION_SUFFIX@">2</token>
     <token name="@PROFILE@">23.0</token>

     <xml name="repenrich_requirements">
--- a/repenrich.xml	Sat Apr 20 12:13:52 2024 +0000
+++ b/repenrich.xml	Sun Apr 21 09:44:51 2024 +0000
@@ -34,7 +34,7 @@
             #end if
         #end if
         ln -f -s '$genome' 'genome.fa' &&
-        bowtie-build '$genome' genome &&
+        bowtie-build --threads \${GALAXY_SLOTS:-1} '$genome' genome &&
         python $__tool_directory__/RepEnrich_setup.py
             --annotation_file '$repeatmasker'
             --genomefasta 'genome.fa'
--- a/test-data/chrM.fa	Sat Apr 20 12:13:52 2024 +0000
+++ /dev/null	Thu Jan 01 00:00:00 1970 +0000
@@ -1,392 +0,0 @@
->chrM
-AATGAATTGCCTGATAAAAAGGATTACCTTGATAGGGTAAATCATGCAGT
-TTTCTGCATTCATTGACTGATTTATATATTATTTATAAAGATGATTTTAT
-ATTTAATAGAATTAAACTATTTCTAAAAGTATCAAAAACTTTTGTGCATC
-ATACACCAAAATATATTTACAAAAAGATAAGCTAATTAAGCTACTGGGTT
-CATACCCCATTTATAAAGGTTATAATCCTTTTCTTTTTAATTTTTAATAA
-TTCGTCAAAAATTTTATTTATTACAATTATAATTATTGGGACATTAATTA
-CAGTTACATCTAATTCTTGGTTAGGAGCTTGAATAGGTTTAGAAATTAAT
-TTATTATCTTTTATCCCCCTATTAAGAGATAATAATAATTTAATATCTAC
-AGAAGCTTCTTTAAAATATTTTTTAACCCAAGTTTTAGCTTCAACTGTTT
-TATTATTTTCTTCAATTTTATTAATATTAAAAAATAATATAAATAATGAA
-ATTAATGAATCTTTTACATCCATAATTATTATATCAGCTTTATTATTAAA
-AAGTGGAGCCGCTCCTTTCCATTTTTGATTTCCTAATATAATAGAAGGTT
-TAACATGAATAAATGCTTTAATATTAATAACTTGACAAAAAATTGCACCT
-TTAATATTAATTTCTTATCTTAATATTAAATATTTATTATTAATTAGAGT
-AATTTTATCAGTTATTATTGGAGCTATTGGAGGATTAAATCAAACTTCTT
-TACGAAAATTAATAGCATTTTCTTCAATTAATCATTTAGGGTGAATATTA
-AGATCTTTAATAATTAGAGAATCAATTTGATTAATTTATTTTTTTTTTTA
-TTCATTTTTATCATTTGTATTAACATTTATATTTAATATTTTTAAATTAT
-TTCATTTAAATCAATTATTTTCTTGATTTGTTAATAGAAAAATTTTGAAA
-TTTACATTATTTATAAATTTTTTATCATTAGGAGGATTACCTCCATTTTT
-AGGATTTTTACCAAAATGACTTGTAATTCAACAATTAACATTATGTAATC
-AATATTTTATATTAACACTTATAATAATATCAACTTTAATTACATTATTT
-TTTTATTTACGAATTTGTTATTCCGCTTTTATAATAAATTATTTTGAAAA
-TAACTGAATCATAAAGATAAATATAAATAGTATTAATTATAATATATATA
-TAATTATAACttttttttcaatttttggattatttttaatttctttattt
-tattttatattTTAAGGCTTTAAGTTAATAAAACTAATAACCTTCAAAGC
-TATAAATAAAGAAATTTCTTTAAGCCTTAGTAAAACTTACTCCTTCAAAA
-TTGCAGTTTGATATCATTATTGACTATAAGACCTAATTAATTTGTCCTTA
-TTTGATTAAGAAGAATAAATCTTATATATAGATTTACAATCTATCGCCTA
-AACTTCAGCCACTTAATCAATAATCGCGACAATGATTATTTTCTACAAAT
-CATAAAGATATCGGAACTTTATATTTTATTTTTGGAGCTTGAGCTGGAAT
-AGTTGGAACATCTTTAAGAATTTTAATTCGAGCTGAATTAGGACATCCTG
-GAGCATTAATTGGAGATGATCAAATTTATAATGTAATTGTAACTGCACAT
-GCTTTTATTATAATTTTTTTTATAGTTATACCTATTATAATTGGTGGATT
-TGGAAATTGATTAGTGCCTTTAATATTAGGTGCTCCTGATATAGCATTCC
-CACGAATAAATAATATAAGATTTTGACTTCTACCTCCTGCTCTTTCTTTA
-CTATTAGTAAGTAGAATAGTTGAAAATGGAGCTGGGACAGGATGAACTGT
-TTATCCACCTCTATCCGCTGGAATTGCTCATGGTGGAGCTTCAGTTGATT
-TAGCTATTTTTTCTCTACATTTAGCAGGAATTTCTTCAATTTTAGGAGCT
-GTAAATTTTATTACAACTGTAATTAATATACGATCAACAGGAATTTCATT
-AGATCGTATACCTttatttgtttgatcagtagttattactgctttattat
-tattattatCACTTCCAGTACTAGCAGGAGCTATTACTATATTATTAACA
-GATCGAAATTTAAATACATCATTTTTTGACCCAGCGGGAGGAGGAGATCC
-TATTTTATACCAACATTTATTTTGATTTTTTGGTCATCCTGAAGTTTATA
-TTTTAATTTTACCTGGATTTGGAATAATTTCTCATATTATTAGACAAGAA
-TCAGGAAAAAAGGAAACTTTTGGTTCTCTAGGAATAATTTATGCTATATT
-AGCTATTGGATTATTAGGATTTATTGTATGAGCTCATCATATATTTACCG
-TTGGAATAGATGTAGATACTCGAGCTTATTTTACCTCAGCTACTATAATT
-ATTGCAGTTCCTACTGGAATTAAAATTTTTAGTTGATTAGCTACTTTACA
-TGGAACTCAACTTTCTTATTCTCCAGCTATTTTATGAGCTTTAGGATTTG
-TTTTTTTATTTACAGTAGGAGGATTAACAGGAGTTGTTTTAGCTAATTCA
-TCAGTAGATATTATTTTACATGATACTTATTATGTAGTAGCTCATTTTCA
-TTATGTTTTATCTATAGGAGCTGTATTTGCTATTATAGCAGGTTTTATTC
-ACTGATACCCCTTATTTACTGGATTAACGTTAAATAATAAATGATTAAAA
-AGTCATTTCATTATTATATTTATTGGAGTTAATTTAACATTTTTTCCTCA
-ACATTTTTTAGGATTGGCTGGAATACCTCGACGTTATTCAGATTACCCAG
-ATGCTTACACAACATGAAATATTGTATCAACTATTGGATCAACTATTTCA
-TTATTAGGAATTTTATTCTTTTTTTTTATTATTTGAGAAAGTTTAGTATC
-ACAACGACAAGTAATTTACCCAATTCAACTAAATTCATCAATTGAATGAT
-ACCAAAATACTCCACCAGCTGAACATAGATATTCTGAATTACCACTTTTA
-ACAAATTAATTTCTAATATGGCAGATTAGTGCAATAGATTTAAGCTCTAT
-ATATAAAGTATTTTACTTTTATTAGAAAATAAATGTCTACATGAGCTAAT
-TTAGGTTTACAAGATAGAGCTTCTCCTTTAATAGAACAATTAATTTTTTT
-TCATGATCATGCATTATTAATTTTAGTAATAATTACAGTATTGGTGGGAT
-ATTTAATATTTATATTATTTTTTAATAATTATGTAAATCGATTTCTTTTA
-CATGGACAACTTATTGAAATAATTTGAACTATTTTACCAGCAATTATTTT
-ACTATTTATTGCTCTTCCTTCTTTACGTTTACTTTATTTATTAGATGAAA
-TTAATGAACCATCTGTAACTTTAAAAAGAATCGGCCATCAATGATATTGA
-AGTTACGAATATTCAGATTTTAATAATATTGAATTTGATTCATATATAAT
-TCCAACAAATGAATTAATAACTGATGGATTTCGATTATTAGATGTTGATA
-ACCGAGTAGTTTTACCCATAAACTCACAAATTCGAATTTTAGTAACAGCT
-GCTGATGTTATTCATTCTTGAACAGTACCTGCTTTAGGAGTAAAAGTTGA
-CGGTACACCTGGACGATTAAATCAAACTAATTTTTTTATTAATCGACCGG
-GTTTATTTTATGGTCAATGTTCAGAAATCTGTGGAGCTAATCATAGATTT
-ATACCGATTGTAATTGAAAGTGTTCCTGTAAATTACTTTATTAAATGAAT
-TTCTAGAAATAACTCTTCATTAGATGACTGAAAGCAAGTACTGGTCTCTT
-AAACCATTTAATAGTAAATTAGCACTTACTTCTAATGATAAAAAATTAGT
-TAAAATCATAACATTAGTATGTCAAACTAAAATTATTAAATAATTAATAT
-TTTTTAATTCCACAAATAGCACCtattagatgattattattatttattat
-tttttctattacatttattttattttgttctattaactattattcttatA
-TACCAAATTCACCTAAATCTAATGAATTAAAAAATATCAACTTAAATTCA
-ATAAATTGAAAATGATAACAAATTTATTTTCTGTATTCGACCCCTCAGCT
-ATTTTTAATTTTTCACTTAATTGATTAAGAACATTTTTAGGACTTTTAAT
-AATTCCGTCAATTTATTGATTAATACCTTCTCGTTACAATATTATATGAA
-ATTCAATTTTATTAACTCTTCATAAAGAATTTAAAACTTTATTAGGCCCA
-TCAGGTCATAATGGATCTACTTTTATTTTTATTTCTTTATTTTCATTAAT
-TTTATTTAATAATTTCATAGGATTATTTCCATATATTTTTACAAGAACAA
-GACATTTAACTTTAACTTTATCTTTAGCTTTACCTTTATGATTATGTTTT
-ATATTATATGGATGAATTAATCATACACAACATATATTTGCTCATTTAGT
-TCCTCAAGGAACACCCGCTATTCTTATACCTTTTATAGTATGTATTGAAA
-CTATTAGAAATATTATTCGACCTGGAACATTAGCTGTTCGATTAACTGCT
-AATATAATTGCTGGACATTTATTATTAACTCTTTTAGGAAATACAGGACC
-TTCTATATCTTATATTTTAGTAACATTTTTATTAATAGCTCAAATTGCTT
-TATTAGTATTAGAATCAGCTGTAGCTATAATTCAATCTTATGTGTTTGCT
-GTATTAAGAACTTTATATTCTAGAGAAGTAAATTAATGTCTACACACTCA
-AATCACCCTTTTCATTTAGTGGATTATAGTCCATGACCATTAACAGGAGC
-TATCGGAGCTATAACAACTGTATCAGGTATAGTAAAATGATTTCATCAAT
-ATGATATTTCATTATTTGTATTAGGTAATATTATTACTATTTTAACTGTA
-TATCAATGATGACGAGATGTATCACGAGAAGGAACATACCAAGGATTACA
-TACTTATGCAGTAACTATTGGTTTACGATGAGGAATAATTTTATTTATTT
-TATCAGAAGTTTTATTTTTTGTGAGATTTTTTTGAGCTTTTTTTCACAGA
-AGTTTATCACCCGCTATTGAATTAGGAGCATCATGACCTCCTATAGGAAT
-TATCTCATTTAATCCATTTCAAATTCCTTTATTAAATACAGCTATTTTAT
-TAGCTTCAGGAGTTACTGTAACTTGAGCCCACCATAGACTTATAGAAAAT
-AATCATTCACAGACTACTCAAGGATTATTTTTTACAGTTTTACTAGGAAT
-CTATTTTACAATTCTTCAAGCTTATGAATATATTGAAGCTCCATTTACTA
-TTGCAGACTCAATTTATGGATCAACATTTTTTATAGCAACAGGATTTCAC
-GGAATTCATGTATTAATCGGAACAACTTTTTTATTAGTATGTTTACTACG
-ACATTTAAATAATCACTTCTCAAAAAATCATCATTTTGGTTTTGAAGCAG
-CTGCATGATATTGACATTTTGTCGATGTAGTTTGATTATTTTTATATATC
-ACAATTTACTGATGAGGAGGATAATTATATTATTAATTAAATATCTATAT
-AGTATAAAAGTATATTTGACTTCCAATCATAAGGTCTATTAATTAATAGT
-ATAGATAATTTTTTCTATTATTTTTATTGCTTTATTAATTTTACTAATTA
-CAACTATTGTTATATTTTTAGCTTCAATTTTATCAAAAAAAGCTTTAATC
-GACCGAGAAAAAAGATCCCCATTTGAATGTGGATTTGATCCAAAATCTTC
-ATCTCGATTACCATTTTCTTTACGTTTTTTTTTAATTACTATTATTTTTT
-TAATTTTTGATGTAGAGATTGCATTAATTCTACCTATAATTATTATTATA
-AAATATTCTAATATTATAATTTGAACAATTACTTCAATTATTTTTATTTT
-AATTTTATTAATTGGATTATACCATGAATGAAATCAAGGAATGTTAAATT
-GATCAAACTAatatatttatatatatatatataGGGTTGTAGTTAAATAT
-AACATTTGATTTGCATTCAAAAAGTATTGAATATTCAATCTACCTTATTA
-ATTTAATAACTGAATATGAAGCGATTGATTGCAATTAGTTTCGACCTAAT
-CTTAGGTAATTATACCCTTATTCTTTAATTGAAGCCAAAAAGAGGCATAT
-CACTGTTAATGATATAATTGAATTTTAAATTCCAATTAAGGAAATATGAT
-GATCAAGTAAAAGCTGCTAACTTTTTTCTTTTAATGGTTAAATTCCattt
-atatttctatttatatagtttaaataaaaccttacattttcattgtaata
-ataaaatcttatatttttatAAATTACTAAAATTAATTCACTATATCCAA
-AGATTTAATAATCTCCATAACATCTTCAATGTCAAACTCTAGTATAAGCT
-ATTTGGATATAAAAATAATAAAATTAATAAAATTAAAATTCAAAATACAA
-ATAATAATAAATAAATTTTCAAAGAATTATTATGTATTAAAAATAAAGTT
-TTAGAATATATAGATAATTTTTGATATAAATGTTGACCTCCAAAATATTC
-TGATCAACCTTGATCAAAACTTTTTACAACTAATTGACCATAATTTAAAG
-GATAAAAAATTATACCATAAGTTCTAATATAAGGTATAAATCATATAGAC
-CCTAAAAAAGTTCTTAAATTATATATAAATAAAGATTTATTTAAAAAAAA
-TAAATTTCTTAAAGAAATTAAATATCCAAATAAACCCCCTACAATACATA
-CAAATAATGTTAACAATTTTATATAAATAGGTAAACAAATTATATAAGGA
-AAAGGAAAAATCAATCAATTTAATATTCTACCTCCAATAATTCTTATAAT
-TAATAATCCTATTATACCACGGAGTATAATTCAACTTTCATCATTTAATA
-TATTCAATCTACCGCAATTTAAATCACCGGTTATTGAATAATAAACTAAT
-CGAAATGAATAACTAACAGTTAAACCCGTAGAAAAATAGTATAAAAAAAA
-TGAAAACATATTAACATTTCTAATTCTAACAATTTCTAAAATTATATCCT
-TAGAATAGAATCCAGCTAAAAAAGGTATTCCACATAAAGCTAAATTAGAT
-ACGTTAAAACAAGCTGAAGTTAAAGGTATATGAATTCTTAACCCCCCTAT
-TAAACGAATATCTTGAGAATTATTTATATTATGAATAATAGCCCCAGCAC
-ATATAAACAATAATGCTTTAAATAAAGCATGAGTTAATAAATGAAATATA
-GCTAATTTTAAAAATCCTATAGACAAAATTCTTATTATTAAACCTAATTG
-ACTTAAAGTAGATAAAGCAATAATTTTTTTTAAATCAAATTCAAAATTAG
-CTCCTAATCCAGCTATAAATATTGTTAATCCAGATAATAATAATATTAAT
-TGTCCTAACCAAGAAGTTCTTAAGATAATATTAAATCGAATTAATAAATA
-TACACCAGCTGTAACTAATGTAGAAGAATGAACTAAAGCAGAAACAGGTG
-TAGGAGCAGCTATAGCTGCAGGTAACCAAGAAGAAAAAGGAATCTGAGCT
-CTTTTAGTTATAGCAGCTAATATTACTAATCTTCCAATTATTAACATTTC
-AAATTCATTTTGTATAATTTCTAAATAAAAAATATAATTTCATCTTCCAT
-AATTTAATATTCAAGCAATAGAAAGAAGTAAAGCTACATCCCCAATTCGA
-TTAGATAACGCAGTTAATATACCAGCATTATAAGATTTAATATTTTGAAA
-ATAAATTACTAAACAATAAGAAACAAGTCCTAAACCATCTCACCCTAATA
-AAATTCTAATTAAATTTGGTCTAATAATTAACAATATTATTGATAAAACA
-AATATTAATACTAATATAATGAATCGATTAATATGATTATCATTTATTAT
-GTATTCTTTTCTATAAAAAATCACTAAAGAAGAAATTATAAGAACAAAAG
-ATATAAATAATAAACTTATTCAATCAAAAAGAAAAGTTATAACAATTCTT
-ATAGAATTTAAAGAAACTAATTCTCACTCAATAAAATAAATCATATCATT
-TAACAAAAAATATAAACTTAATAAAAAACATGATAAACTTATAGAAATTA
-AATTAACAAATCTAATTCTACAAATAGATAAATATTTCATGATTTAAAAT
-GAATATTTTCATATCACTAACACCACAAATTAGTATTTTTTTTAAACTAT
-TTAAATATAATCATAATATAAATGATTCTCTTTTTAAAATTAATAAATTT
-AAAGGCAATCAATGTAACAATATTAATAAATATTCTCGAATTTTACCTCT
-TCTAAATGAATATACTCCAGAAAATAATTTACCATGCTGACTAAAAGAAT
-ATAAATATAAAGTATAAGCAGCTCTAAAAAAAGATAAAAAAGATAATAAA
-ATTATAGAAATTCAAGATCAAGAAACAATTCTATTTAATAAATAAATTTC
-TCCTAATAAATTTAATGTTGGAGGAGCTGCTATATTAGCTGATCTTAATA
-AAAATCATCATAAAGTTATCGAAGGTATAAAATTTAATAAACCTTTATTA
-ATTAATATTCTTCGACTTCCAAGACGTTCATAAGATACATTAGCTAAACA
-AAATAACCCAGAAGAACATAAACCATGAGCAATTATTAATGTATAAGAAC
-CACATAAACCTCAATAAGTTATAGTTAAAAGTCCTGATAGAACAATTCCT
-ATATGAGCAACAGATGAATAAGCAATTAAAGCCTTTAAATCAGTTTGACG
-TAAACAAACTAATCTAACTAATACACCTCCTActaatctaattctaattc
-aaacaaatctatacttcaaattTATTAACTGTAAAAAACTAATAACTCGT
-AATATTCCATAACCTCCTAATTTTAATATAATACCTGCTAAAATTATAGA
-CCCAGAAACTGGAGCTTCAACATGAGCTTTAGGTAATCATAAATGAACTA
-AAAATATTGGTATTTTTACTAAAAAGGCACACAATAAACAAAAATATAAT
-AAATCGTAATTAAACATAAAATTATTTATTAAATAAAAATTTATAGAACC
-AATTTTATTTATTaaataaaaaataccaattaatataggtaaagaaacta
-ataaagtataaaataataaatataaaCCAGCTTGTAAACGTTCTGGCTGA
-TAACCTCAACCTAAAATTAAAAATAATGTAGGAATTAGTCTTCTTTCAAA
-AAATAAATAAAATATAAATAATCTTATTCTTGAAAAAGTTAAAATCAACA
-ATAATAATAAAATAATAATATTTAATAAAAATAAATTTTTATAATTATTA
-TGTTTATTAATTATTTCTCTAGCTAATAATATTAATGAACAAATTCATAA
-ACTTAATAAAATTAATCCATAAGATAATATATCACAACCTAAAAAATAAG
-AAATTTCTGATCAATAATTTATAAAATTATTTATTAATAAAAAAATAAAT
-CTAATAAAAAATATTATAATTTGTACCATTCAATATATATTATTAATAAA
-ACAAAAAGGAATTAAAAATAATAAAAAAAAAATAATTTTTAACATTATAT
-AATTCTAAAAGATTGAAAATAATCATTACCATGAGTACGAATTATAGAAA
-CTAAAATTGATAAACCTAAGGCCCCTTCACATACTCTAAATGTCAAAAAT
-ATTATTCTAAAATAACTTTCATAATTTAATATATTTAAATAAATAAATAA
-TATAAAAAATAATATTAAAACAATAAATTCTAAACTTAAAAGTATTGAAA
-GTAAATGTTTCCGATTAGAAACAAAACAAAATAACCCTAAAATAAATAAA
-ATTATAGGTAAACTTCAATATAAAATTATAATCATTAGTTTTAATAGTTT
-AATAAAAACATTGGTCTTGTAAATCAAAAATAAGATTATTTCTTTTAAAA
-CTTCAAGAGAAAAGAAATTTCTTTTTCATTAATCCCCAAAATTAATATTT
-TAAATAAACTACCTCTTGAAATTATTCAATTAATATTATATTCATTAATT
-ATTACTACTTCCATTATTTTTCTAAATATAATTCATCCATTAGCTTTAGG
-ATTAACTTTATTAATTCAAACAATTTTTGTATGTTTACTAACTGGATTAA
-TAACTAAAAGTTTTTGATATTCATATATTTTATTTTTAATTTTTTTAGGA
-GGAATACTTGTATTATTTATTTACGTAACATCTTTAGCCTCTAATGAAAT
-ATTTAATTTATCAATAAAATTAACTCTATTTTCTTCATTAATTTTAATTT
-TTATATTAATTTTATCATTTATTATAGATAAAACTTCTTCTTCTTTATTT
-TTAATAAATAATGATATACAATCTATTATTAATATAAATTCTTATTTTAT
-AGAAAATTCTTTATCTTTAAATAAATTATATAATTTTCCTACAAATTTTA
-TTACAATTTTATTAATAAATTATTTATTAATTACTTTAATTGTTATTGTA
-AAAATTACAAAATTATTTAAAGGACCTATTCGAATAATATCTTAATTAAT
-GAATAAACCTTTACGAAATTCCCATCCTCTATTTAAAATTGCCAATAATG
-CTTTAGTAGATTTACCAGCTCCAATTAATATTTCAAGATGATGAAATTTT
-GGATCATTACTTGGATTATGTTTAATTATTCAAATTTTAACCGGATTATT
-TTTAGCTATACATTACACAGCTGATATTAATCTAGCTTTCTATAGTGTTA
-ATCATATTTGTCGAGACGTTAATTATGGTTGATTATTACGAACTTTACAT
-GCTAACGGTGCATCATTTTTTTTTATTTGTATTTACTTACATGTAGGACG
-AGGAATTTATTACGGTTCATATAAATTTACTCCAACTTGATTAATTGGAG
-TAATTATTTTATTTTTAGTAATAGGAACAGCTTTTATAGGATACGTATTA
-CCTTGAGGACAAATATCATTTTGAGGAGCTACTGTAATTACTAATTTATT
-ATCAGCTATCCCTTACTTAGGTATAGATTTAGTTCAATGATTATGAGGTG
-GATTTGCTGTTGATAATGCCACTTTAACTCGATTTTTTACATTCCATTTT
-ATTTTACCTTTTATTGTTCTTGCTATAACTATAATTCATTTATTATTCCT
-TCATCAAACAGGATCTAATAATCCTATCGGATTAAATTCTAATATTGATA
-AAATTCCTTTTCATCCTTATTTTACATTTAAAGATATTGTAGGATTTATT
-GTAATAATTTTTATTTTAATTTCATTAGTATTAATTAGACCAAATTTATT
-GGGAGACCCTGATAATTTTATTCCAGCAAATCCTTTAGTAACACCTGCCC
-ATATTCAACCAGAATGATATTTTTTATTTGCTTATGCTATTTTACGATCT
-ATTCCAAATAAATTAGGAGGAGTTATTGCATTAGTTTTATCAATTGCAAT
-TTTAATAATCCTTCCTTTTTATAATTTAAGAAAATTCCGAGGGATTCAAT
-TTTATCCTATTAATCAAGTAATATTCTGATCTATATTAGTAACAGTAATT
-TTATTAACTTGAATTGGAGCTCGACCAGTTGAAGAACCTTATGTATTAAT
-TGGACAAATTCTAACTGTTGTATATTTCTTATATTATTTAGTAAACCCAT
-TAATTACAAAATGATGAGATAATTTATTAAATTAAATAGTTAATGAGCTT
-GAATAAGCATATGTTTTGAAAACATAAGATAGAATTTAATTTTCTATTAA
-CTTTTACTAAAAAAAATTCACTataataaagaaaataataaaattttaaa
-cccaataaaaaataataaataatTTAAAGAAAAAGATAAAAAACATTTTC
-AAGCTAAATATATTAATTTATCATAACGAAATCGAGGTAAAGTTCCTCGA
-ACTCAAATAAAAACAAAAGAAATAAAAGTTAATTTTATATAAAATAATAA
-ATTAAACACATCACAACCTAAAAAAATAACGCAAAATAATATTCTTATAA
-ATAAAATTCTCGCATATTCAGCTATAAAAATTAAAGCAAAACCCCCTCTT
-CTATATTCTACATTAAATCCTGAAACTAATTCTGATTCTCCTTCAGCAAA
-ATCAAAAGGAGTCCGATTAGTTTCAGCTAATGAAATAGATATTCAAACTA
-AAGCTATAGGAAATAAAATAATTAAAAATCACATATAAACTTGATAAAAA
-AAAAAATAAATTATATTATAACTTCCAATTAAAAAAATAAAAGATAATAA
-AATTAAAGCTAAACTAACTTCATAAGAAATAGTCTGAGCCACAGCTCGCA
-AACCTCCTAATAAAGCATAATTAGAATTAGACGACCAACCAGCTACTATA
-ACAGTATAAACCCCCAATCTAGTACAACATAAAAAAAATAAACCCCCCAA
-ATTAAAAGAATATAATTTTACAAAAAAAGGTATACATATTCAAACAAATA
-ATGATAAAAATAAAGAAAAAATTGGAGAAATATAATATCTTAAATAATTA
-GATAATAAAGGATAAGTTTGTTCTTTTGTAAATAATTTAATCGCATCACA
-AAAAGGTTGAGGAATTCCTATTAAACCAACTTTATTAGGACCTTTACGAA
-TTTGAATATATCCTAAAACTTTTCGTTCTAATAAAGTTAAAAAAGCTACA
-CTTACTAATACACAAATAATTAATAACAAACTACCAATTAATGACAAAAT
-AAATTCTATATAAAACAAGTACTATTTGTAATAAAAATCACATATATAAA
-TTCTAAATTTATTGCACTAATCTGCCAAAATAGTTTTATATTAATAATAT
-TCTTATAAAAAATATAATTATTTTGATATTTGGTCCTTTCGTACTAAAAT
-ATCATAATTTTTTAAAGATAGAAACCAACCTGGCTTACACCGGTTTGAAC
-TCAGATCATGTAAGAATTTAAAAGTCGAACAGACTTAAAATTTGAACGGC
-TACACCCAAAATTATATCTTAATCCAACATCGAGGTCGCAATCTTTTTTA
-TCGATATGAACTCTCCAAAAAAATTACGCTGTTATCCCTAAAGTAACTTA
-ATTTTTTAATCATTATTAATGGATCAAATATTCATAAATTTATGTTTTTA
-AAAAATTAAAAGTTTTTTAAATTTTAATATCACCCCAATAAAATATTTTT
-ATTTATTAAAATTTAATTAATCTATATAATTAAAATAAAAAAAAATATAA
-AGATTTATAGGGTCTTCTCGTCTTTTAAATAAATTTTAGCTTTTTGACTA
-AAAAATAAAATTCTATAAAAATTTTAAATGAAACAGTTAATATTTCGTCC
-AACCATTCATTCCAGCCTTCAATTAAAAGACTAATGATTATGCTACCTTT
-GCACAGTCAAAATACTGCGGCCATTTAAAATTTTCAGTGGGCAGGTTAGA
-CTTTATATATAATTCAAAAAGACATGTTTTTGTTAAACAGGCGAATATTA
-TTTTTGCCGAATTCTTTATTTAAACTTTTCATATAAATTAATTTTAACAT
-TATTATATACTAATTTTATCATTATTACTTAATTTTAATAATTAAAACTA
-ACATTTTAATAAATAATTAAAATTTAATAAATAATTTAATTTATAAAATA
-AATTATAACATATTTTTTAATAATTGCTAATTCTAAGCATATATTTATTA
-AATCTATTTAATATTTTTAAAAATTTATTTTATAGCTTATCCCATAAAAC
-ATTAAAATTATAAATTAATTAATTAAATAAATAATTAAGTAAATTTATAA
-TTTCTAAATTAAATTTATTTCTTAAAAAACTAGATACCTTTAAAAACGAA
-TAACATTTCATTTCTAATATAATATTATAAATAATTTTATCACATTAACT
-TAAATATTATATTAACTCTTTTAAAATCGAGAAAAATAAATATTTATTTT
-TTATTTAATAAACACTGATACACAAGGTACAATAAATTAAATTTTCTTTT
-AAAATAAAATTTTTTCAAATTATTTCAATTTTCTTTTACAATACTAATAA
-ACTATTATTAAAATTATTTTTTCTTTAAACAATACTAAAACTTTAAATTT
-TATAGTTATTTCTAATAATTTTTTAAAAAATAATAAAAATTAATAAATAA
-AAACTAACTCAATTTATATTGATTTGCACAAAAATCTTTTCAATGTAAAT
-GAAATACTTTACTTAATAAGCTTTAAATTGTCATTCTAGATACACTTTCC
-AGTACATCTACTATGTTACGACTTATCTTACCTTAATAATAAGAGCGACG
-GGCGATGTGTACATATTTTAGAGCTAAAATCAAATTATTAATCTTTATAA
-TTTTACTACTAAATCCACTTTCAAAAATTTTTTCATAATTTTATTCATAT
-AAATAAATTTATTGTAACCCATTATTACTTAAATATAAGCTACACCTTGA
-TCTGATATAAatttttattaaaattattgaatattattattcttatAAAA
-TATTCTGATAACGACGGTATATAAACTGATTACAAATTTAAGTAAGGTCC
-ATCGTGGATTATCGATTAAAAAACAGGTTCCTCTAGATAGACTAAAATAC
-CGCCAAATTTTTTAAGTTTCAAGAACATAACTATTACTACTTTAGCAATT
-TATTTACATTTTAAATAATAGGGTATCTAATCCTAGTTTTTTATTAAAAT
-TTTTTAACCTCAATTACATTTTTATATAATAATTTAAATATAAAATTTCA
-CTTAATATATTTAATTTTATTATTATTAATAAATTTAATTTAATTAATAC
-TAAAAAAATTTATTTGTATTAATGGTATAACCGCGACTGCTGGCACCAAT
-TTAGTCAATACTTTTTTATATTGCTATTTCTAAATTTCTTTAATTAATAA
-TATTAATTACTGCGAATAAATTTTCATATTTATTTTTTAAATAAATATAA
-AATCACACAAAAATTTACATATAAATCAAATTAATAACAAATTTTTAAGC
-CAAAATAAAACTTTAAATTTTTATTTTTGATTTTTTATTATTAATTAAAT
-ATTAATAATTTTTATTAAAATAATTTTTTAAAGAAAAATTAAAATTAATT
-TTAATTAAATATTAAAATAATTTAATTTTATAATAAAATTTTTATCATAT
-TATAATAATATAAAAATTTTATAAATTTATTTTTTAAATTTTACAAAATT
-TTTAAAATTTTTATTTTTTTTAAAAAAAATAATTTTTAACAAAAAAAATT
-TTTATCAAAAATTAATATAAAATAAATTTTAATTTAAAAATTAAAAATTT
-TAATTTTACACTTTTTTAAAAATATTTTTTTTTAAAAAAAAAATTTTTTT
-TTAAAAAAATTTTTTTTTAAAAAAAATTTAAAAAATTATAGATTAATTTC
-TTTTAAATGACTAAAAAAAATTTTTTTTTTTAAGTATTTTAAAACTTTTT
-TTTTACAATTTTTAAAAAAATATATAAATATAAATTTTAAAAAAAATTTT
-TTTTTTAAAAAAAATGAAAATTATATTATAAAAATATTTTTTTTACAAAA
-ATGAAAATTTAATCTATTAAAAAAAATTATTAAAATTTTTATAAATAAAT
-AAAAAAAGTAATAAATTTATTAAAAATCAATATATATATAATAATAAATA
-ATTTGATTATTAATTAAATTATACGAATAATAAATATAATAAATAATTTA
-TTTTAATCAATAAATCTGAAATAATTAATTATATACATATATATATATAT
-GTAAATAAATAAAAATAAATTTATTCCCCCTATTTATAAATTTATTATAT
-AATTAAAACTTAAAAAATATTTTTTTTAAAAAAATAGTTTATTAAATTAT
-ACTTAATAAACTATTTTTATAATAAATTATTTTATAAATAAAATTATTTA
-AAATAATTAATAAAAATATTTTTATTGTAATAAAAATTAAAAATAATTTT
-AAAAAAATTAAATTTATATATTTATATATATATATATATAATTTTTAATT
-TTCAATTAAATTATATAAATATAATAAAATAATTTTATTTAATCACTAAA
-TCTGAAATAATTAATtataaatatatatatatatatatatatatatatat
-atatataAATGAAAATAAATTTATTCCCCCTATTCATAAATTTATTGTAT
-AATTAAAACTTAAAAAATATTTTTTTTTAAAAAAAAATTATTTATTAAAT
-TATACTTAATAAACTATTTTTATAATAAATTATTTTATAAATAAAATTAT
-TTTAAATAATTAATAAAAATATTTTTAATATAATAAAAATTTAAAATGAT
-TTTTTATAAAAATTAAATTCATATTTATATATATATATATATAATTTAAT
-TTTCAATTAAATTATATAAGTATAATAAAATAATTTATTTTAATCACTAA
-ATCTGAATTAATTAATTGTATATATATATATATATATAAAAAAAATGAAA
-ATAAATTTATTCCCCCTATTCATAAATTTATTATATAATTAAATCTTAAA
-AAGTATTTTTTTTTTAAAAAAAAATTATTTATTAAATTATACTTAATAAA
-CTATTTTTATAATAAATTATTTTATGAATAAAATTATTTAAAATAATTTA
-TAAAAATATTTTTAATATAATGAAAATTTAAAATGATTTTTTATTATTAA
-TTAAATTCatatatttacatatatatatatatatatatatatatataGAT
-AATTTAATTTTCAATTAAATTATATAAGTATAATAAAATAATTTATTTTA
-ATCACTAAATCTGAATTAATTAATTGTATGTATATATATATATATATATA
-TAAAAAAATGAAAATAAATTTATTCCCCCTATTCATAAATTTATTATATA
-ATTAAATCTTAAAAAGTATTTTTTTTTAAAAAAAAAATTATTTATTAAAT
-TATACTTAATAAACTATTTTTATAATAAATTATTTTATGAATAAAATTAT
-TTAAAATAATTAATAAAAATATTTTTAATATAATGAAAATTTAAAATGAT
-TTTTTATTATTAATTAAATTCatatatttatatatatatatatatatata
-tatataGATAATTTAATTTTCAATTAAATTATATAAGTATAATAAAATAA
-TTTATTTTAATCACTAAATCTGAATTAATTAATTGTATGtatatatatat
-atatatatatatatatatataAAAAATGAAAATAAATTTATTCCCCCTAT
-TCATAAATTTATTATATAATTAAATCTTAAAAAGTATTTTTTTTTAAAAA
-AAAATTATTTATTAAATTATACTTAATAAACTATTTTTATAATAAATTAT
-TTTATGAATAAAATTATTTAAAATAATTAATAAAAATTATATATATATAT
-AAATGAAAATAATTTTTAAATTTTAATAATAAATAAATTTAATAATTAAT
-AATTAAATAAAATCTATTCATTATTAATATTTAATTAATAATAAATAAAT
-TTAATAACTAATAATTAAATAAAATTTATTTATTATTAATATTTAATTAA
-TAATAAAAAATCATCAttttttttttttttttttttatttAATTAATTAT
-tatatatttataaatttatatattattcaatatttataatatatatatat
-atatatatatataAAAATTAAATTATTTAAATAATTTAATATAAATTTTT
-AAAAAATTTCTTAAATGTATTATTTTTATAAAAAATATTTATATAATAAA
-ATTATTTTTTTTTAAAAATAAACAAAAAATTTTTAATAAATAAATTTTAT
-AATGAAATATAATTTATTTATTTTTTATTTTTTTAAAAAAAATTTAAAAA
-AAAATAATTTTTTTTTAAAAAAAAACTATATACTAATTATAAATTAATAG
-ATATTTATATATATATAAATATTTAATATATTATTATATATCTAATAATT
-TAAATAAAAAATTTTAAAATTTAAAAATGTAGATATAATTTATAAAAATT
-TATATTCTCATATTTATTTATTATTAATTTAATTTATATAAATAATATAA
-TAATTTAATTAATTATTATATATTTATAAATTTATATATTATTGAATATT
-TATATAATATATATATATATATAGAAAAATTAAATTATTTAAATAATTTA
-ATATAAATTTTTAAAAAATTTCTTAAATGTATTATTTTTATAAAAAATAT
-TTATATAATAAAATCATTTTTTTTTAAAAATAAACAAAAAATTTTTAATA
-AATAAATTTTATAATGAAATATAATTTATTTATTTTTTATTTTTTTAAAA
-AAAAATTTTTTAAAAAAAAATAATTTTTTTTTTAAAAAAACTATATACTA
-ATTATAAATTAATAGATATTTATATATATATAAATATTTAATATATTATT
-ATATATCTAATAATTTAAATAAAAAATTTTAAAATTTAAAAATGTAGATA
-TAATTTATAAAAATTTATATTCTCATATTTATTTATTATTAATTTAATTT
-ATATAAATAATATAATAATTTAATTAATTATTATATATTTATAAATTTAT
-ATATTATTGAATATTTATATAATATATATATATATATAGAAAAATTAAAT
-TATTTAAATAATTTAATATAAATTTTTAAAAAATTTCTTAAATGTATTAT
-TTTTATAAAAAATATTTATATAATAAAATCATTTTTTTTAAAAATAAACA
-AAAAATTTTTAATAAATAAATTTTATAATGAAATATAATTTATTTATTTT
-TTATTTTTTTAAAAAAAATTTTTTAAAAAAAAATAATTTTTTTTTAAAAA
-AACTATATACTAAATATAAATTAATAGATATTTATATATATATAAATATT
-TAATATATTATTATATATCTAATAATTTAAATAAAAAATTTTAAAATTTA
-AAAATGTAGATATAATTTATAAAAATTTATATTCTCATATTTATTTATTA
-TTAATTTAATTTATATAAATAATATAATAATTTAATTAATTATTATATAT
-TTATAAATTTATATATTATTGAATATTTATATAATATATATATATATATA
-GAAAAATTAAATTATTTAAATAATTTAATATAAATTTTTAAAAAATTTCT
-TAAATGTATTATTTTTATAAAAAATATTTATATAATAAAATCATTTTTTT
-TTAAAAATAAACAAAAAATTTTTAATAAATAAATTTTATAATGAAATATA
-ATTTATTTATTTTTTATTTTTTTTAAAAAAAATTTTTTAAAAAAAATAAT
-TTTTTTTTAAAAAAACTATATACTAAATATAAATTAATAGATATTTATAT
-ATATATAAATATTTAATATATTATTATATATCTAATAATTTAAATAAAAA
-ATTTTAAAATTTAAAAATGTAGATATAATTTATAAAAATTTATATTCTCA
-TATTTATTTATTATTAATTTAATTTATATAAATAATATAATAATTTAATT
-AATTATTATATATTTATAAATTTATATATTATTGAATATTTATATATAAT
-ATATATATATATAGAAAAATAAAATTATTTAAATAATTTTACATAAAATT
-TTAAAAAATTTCTTAAATGTATTATTTAATAAAAAATTACTTTTTAAAAA
-AAATAATTTTAATTTTTTaaaaaaaatagtaaataataaaaaaaaaaaaa
-aaaaaaaatgaaaaTTATATTATT
--- a/test-data/chrM_repeatmasker.txt	Sat Apr 20 12:13:52 2024 +0000
+++ /dev/null	Thu Jan 01 00:00:00 1970 +0000
@@ -1,21 +0,0 @@
-   SW  perc perc perc  query      position in query           matching       repeat              position in  repeat
-score  div. del. ins.  sequence    begin     end    (left)    repeat         class/family         begin  end (left)   ID
-
-   16  20.2  5.9  0.0  chrM         1211    1261   (18263) +  (TTTTA)n       Simple_repeat            1   54    (0)  84486
-   13  23.9  2.2  2.2  chrM         2014    2059   (17465) +  (TTA)n         Simple_repeat            1   46    (0)  84487
-   24  18.8  5.3  2.6  chrM         3924    3999   (15525) +  (TAT)n         Simple_repeat            1   78    (0)  84488
-   18   4.5  0.0  0.0  chrM         5961    5983   (13541) +  (AT)n          Simple_repeat            1   23    (0)  84489
-   13  25.9  4.0  4.0  chrM         6247    6320   (13204) +  (ATTTAT)n      Simple_repeat            1   74    (0)  84490
-   11  14.6  7.5  2.4  chrM         8783    8822   (10702) +  (CTAATT)n      Simple_repeat            1   42    (0)  84491
-   17  19.0  0.0  8.6  chrM         9064    9126   (10398) +  A-rich         Low_complexity           1   58    (0)  84492
-   13  21.0  5.9  1.9  chrM        11723   11773    (7751) +  (ATA)n         Simple_repeat            1   53    (0)  84493
-   66  20.4 12.3 12.3  chrM        12823   13001    (6523) C  LSU-rRNA_Cel   rRNA                   (1) 2431   2253  84494
-   16  16.6  0.0  2.9  chrM        14361   14396    (5128) +  (ATT)n         Simple_repeat            1   35    (0)  84495
-   44   2.4  0.0  0.0  chrM        15966   16007    (3517) +  (TA)n          Simple_repeat            1   42    (0)  84496
-   35   5.3  0.0  0.0  chrM        16559   16597    (2927) +  (AT)n          Simple_repeat            1   39    (0)  84497
-   36   2.9  0.0  0.0  chrM        16922   16956    (2568) +  (AT)n          Simple_repeat            1   35    (0)  84498
-   37   0.0  0.0  0.0  chrM        17040   17071    (2453) +  (TA)n          Simple_repeat            1   32    (0)  84499
-   20   4.3  0.0  0.0  chrM        17417   17440    (2084) +  (T)n           Simple_repeat            1   24    (0)  84500
-   31   6.9  6.3  1.5  chrM        17451   17513    (2011) +  (TA)n          Simple_repeat            1   66    (0)  84501
-   26  17.0  0.0  0.0  chrM        19469   19514      (10) +  A-rich         Low_complexity           1   46    (0)  84502
-