Mercurial > repos > artbio > repenrich
changeset 15:2e3d976e7d5d draft default tip
planemo upload for repository https://github.com/ARTbio/tools-artbio/tree/main/tools/repenrich commit 03183e29f807ec33548016a7c4144f52720b7b9e
author | artbio |
---|---|
date | Sun, 21 Apr 2024 09:44:51 +0000 |
parents | bf866bedd4b4 |
children | |
files | RepEnrich_setup.py macros.xml repenrich.xml test-data/chrM.fa test-data/chrM_repeatmasker.txt |
diffstat | 5 files changed, 6 insertions(+), 422 deletions(-) [+] |
line wrap: on
line diff
--- a/RepEnrich_setup.py Sat Apr 20 12:13:52 2024 +0000 +++ b/RepEnrich_setup.py Sun Apr 21 09:44:51 2024 +0000 @@ -71,7 +71,7 @@ genome = defaultdict(dict) for chr in g.keys(): - genome[chr]['sequence'] = g[chr].seq + genome[chr]['sequence'] = str(g[chr].seq) genome[chr]['length'] = len(g[chr].seq) # Build a bedfile of repeatcoordinates to use by RepEnrich region_sorter @@ -100,7 +100,7 @@ # generate metagenomes and save them to FASTA files for bowtie build for repname in rep_coords: - metagenome = '' + genomes_list = [] # iterating coordinate list by block of 3 (chr, start, end) block = 3 for i in range(0, len(rep_coords[repname]) - block + 1, block): @@ -109,11 +109,8 @@ start = max(int(batch[1]) - flankingl, 0) end = min(int(batch[2]) + flankingl, int(genome[chromosome]['length'])-1) + 1 - metagenome = ( - f"{metagenome}{spacer}" - f"{genome[chromosome]['sequence'][start:end]}" - ) - + genomes_list.append(genome[chromosome]['sequence'][start:end]) + metagenome = spacer.join(genomes_list) # Create Fasta of repeat pseudogenome fastafilename = f"{repname}.fa" record = SeqRecord(Seq(metagenome), id=repname, name='', description='')
--- a/macros.xml Sat Apr 20 12:13:52 2024 +0000 +++ b/macros.xml Sun Apr 21 09:44:51 2024 +0000 @@ -1,6 +1,6 @@ <macros> <token name="@TOOL_VERSION@">2.31.1</token> - <token name="@VERSION_SUFFIX@">1</token> + <token name="@VERSION_SUFFIX@">2</token> <token name="@PROFILE@">23.0</token> <xml name="repenrich_requirements">
--- a/repenrich.xml Sat Apr 20 12:13:52 2024 +0000 +++ b/repenrich.xml Sun Apr 21 09:44:51 2024 +0000 @@ -34,7 +34,7 @@ #end if #end if ln -f -s '$genome' 'genome.fa' && - bowtie-build '$genome' genome && + bowtie-build --threads \${GALAXY_SLOTS:-1} '$genome' genome && python $__tool_directory__/RepEnrich_setup.py --annotation_file '$repeatmasker' --genomefasta 'genome.fa'
--- a/test-data/chrM.fa Sat Apr 20 12:13:52 2024 +0000 +++ /dev/null Thu Jan 01 00:00:00 1970 +0000 @@ -1,392 +0,0 @@ ->chrM -AATGAATTGCCTGATAAAAAGGATTACCTTGATAGGGTAAATCATGCAGT -TTTCTGCATTCATTGACTGATTTATATATTATTTATAAAGATGATTTTAT -ATTTAATAGAATTAAACTATTTCTAAAAGTATCAAAAACTTTTGTGCATC -ATACACCAAAATATATTTACAAAAAGATAAGCTAATTAAGCTACTGGGTT -CATACCCCATTTATAAAGGTTATAATCCTTTTCTTTTTAATTTTTAATAA -TTCGTCAAAAATTTTATTTATTACAATTATAATTATTGGGACATTAATTA -CAGTTACATCTAATTCTTGGTTAGGAGCTTGAATAGGTTTAGAAATTAAT -TTATTATCTTTTATCCCCCTATTAAGAGATAATAATAATTTAATATCTAC -AGAAGCTTCTTTAAAATATTTTTTAACCCAAGTTTTAGCTTCAACTGTTT -TATTATTTTCTTCAATTTTATTAATATTAAAAAATAATATAAATAATGAA -ATTAATGAATCTTTTACATCCATAATTATTATATCAGCTTTATTATTAAA -AAGTGGAGCCGCTCCTTTCCATTTTTGATTTCCTAATATAATAGAAGGTT -TAACATGAATAAATGCTTTAATATTAATAACTTGACAAAAAATTGCACCT -TTAATATTAATTTCTTATCTTAATATTAAATATTTATTATTAATTAGAGT -AATTTTATCAGTTATTATTGGAGCTATTGGAGGATTAAATCAAACTTCTT -TACGAAAATTAATAGCATTTTCTTCAATTAATCATTTAGGGTGAATATTA -AGATCTTTAATAATTAGAGAATCAATTTGATTAATTTATTTTTTTTTTTA -TTCATTTTTATCATTTGTATTAACATTTATATTTAATATTTTTAAATTAT -TTCATTTAAATCAATTATTTTCTTGATTTGTTAATAGAAAAATTTTGAAA -TTTACATTATTTATAAATTTTTTATCATTAGGAGGATTACCTCCATTTTT -AGGATTTTTACCAAAATGACTTGTAATTCAACAATTAACATTATGTAATC -AATATTTTATATTAACACTTATAATAATATCAACTTTAATTACATTATTT -TTTTATTTACGAATTTGTTATTCCGCTTTTATAATAAATTATTTTGAAAA -TAACTGAATCATAAAGATAAATATAAATAGTATTAATTATAATATATATA -TAATTATAACttttttttcaatttttggattatttttaatttctttattt -tattttatattTTAAGGCTTTAAGTTAATAAAACTAATAACCTTCAAAGC -TATAAATAAAGAAATTTCTTTAAGCCTTAGTAAAACTTACTCCTTCAAAA -TTGCAGTTTGATATCATTATTGACTATAAGACCTAATTAATTTGTCCTTA -TTTGATTAAGAAGAATAAATCTTATATATAGATTTACAATCTATCGCCTA -AACTTCAGCCACTTAATCAATAATCGCGACAATGATTATTTTCTACAAAT -CATAAAGATATCGGAACTTTATATTTTATTTTTGGAGCTTGAGCTGGAAT -AGTTGGAACATCTTTAAGAATTTTAATTCGAGCTGAATTAGGACATCCTG -GAGCATTAATTGGAGATGATCAAATTTATAATGTAATTGTAACTGCACAT -GCTTTTATTATAATTTTTTTTATAGTTATACCTATTATAATTGGTGGATT -TGGAAATTGATTAGTGCCTTTAATATTAGGTGCTCCTGATATAGCATTCC -CACGAATAAATAATATAAGATTTTGACTTCTACCTCCTGCTCTTTCTTTA -CTATTAGTAAGTAGAATAGTTGAAAATGGAGCTGGGACAGGATGAACTGT -TTATCCACCTCTATCCGCTGGAATTGCTCATGGTGGAGCTTCAGTTGATT -TAGCTATTTTTTCTCTACATTTAGCAGGAATTTCTTCAATTTTAGGAGCT -GTAAATTTTATTACAACTGTAATTAATATACGATCAACAGGAATTTCATT -AGATCGTATACCTttatttgtttgatcagtagttattactgctttattat -tattattatCACTTCCAGTACTAGCAGGAGCTATTACTATATTATTAACA -GATCGAAATTTAAATACATCATTTTTTGACCCAGCGGGAGGAGGAGATCC -TATTTTATACCAACATTTATTTTGATTTTTTGGTCATCCTGAAGTTTATA -TTTTAATTTTACCTGGATTTGGAATAATTTCTCATATTATTAGACAAGAA -TCAGGAAAAAAGGAAACTTTTGGTTCTCTAGGAATAATTTATGCTATATT -AGCTATTGGATTATTAGGATTTATTGTATGAGCTCATCATATATTTACCG -TTGGAATAGATGTAGATACTCGAGCTTATTTTACCTCAGCTACTATAATT -ATTGCAGTTCCTACTGGAATTAAAATTTTTAGTTGATTAGCTACTTTACA -TGGAACTCAACTTTCTTATTCTCCAGCTATTTTATGAGCTTTAGGATTTG -TTTTTTTATTTACAGTAGGAGGATTAACAGGAGTTGTTTTAGCTAATTCA -TCAGTAGATATTATTTTACATGATACTTATTATGTAGTAGCTCATTTTCA -TTATGTTTTATCTATAGGAGCTGTATTTGCTATTATAGCAGGTTTTATTC -ACTGATACCCCTTATTTACTGGATTAACGTTAAATAATAAATGATTAAAA -AGTCATTTCATTATTATATTTATTGGAGTTAATTTAACATTTTTTCCTCA -ACATTTTTTAGGATTGGCTGGAATACCTCGACGTTATTCAGATTACCCAG -ATGCTTACACAACATGAAATATTGTATCAACTATTGGATCAACTATTTCA -TTATTAGGAATTTTATTCTTTTTTTTTATTATTTGAGAAAGTTTAGTATC -ACAACGACAAGTAATTTACCCAATTCAACTAAATTCATCAATTGAATGAT -ACCAAAATACTCCACCAGCTGAACATAGATATTCTGAATTACCACTTTTA -ACAAATTAATTTCTAATATGGCAGATTAGTGCAATAGATTTAAGCTCTAT -ATATAAAGTATTTTACTTTTATTAGAAAATAAATGTCTACATGAGCTAAT -TTAGGTTTACAAGATAGAGCTTCTCCTTTAATAGAACAATTAATTTTTTT -TCATGATCATGCATTATTAATTTTAGTAATAATTACAGTATTGGTGGGAT -ATTTAATATTTATATTATTTTTTAATAATTATGTAAATCGATTTCTTTTA -CATGGACAACTTATTGAAATAATTTGAACTATTTTACCAGCAATTATTTT -ACTATTTATTGCTCTTCCTTCTTTACGTTTACTTTATTTATTAGATGAAA -TTAATGAACCATCTGTAACTTTAAAAAGAATCGGCCATCAATGATATTGA -AGTTACGAATATTCAGATTTTAATAATATTGAATTTGATTCATATATAAT -TCCAACAAATGAATTAATAACTGATGGATTTCGATTATTAGATGTTGATA -ACCGAGTAGTTTTACCCATAAACTCACAAATTCGAATTTTAGTAACAGCT -GCTGATGTTATTCATTCTTGAACAGTACCTGCTTTAGGAGTAAAAGTTGA -CGGTACACCTGGACGATTAAATCAAACTAATTTTTTTATTAATCGACCGG -GTTTATTTTATGGTCAATGTTCAGAAATCTGTGGAGCTAATCATAGATTT -ATACCGATTGTAATTGAAAGTGTTCCTGTAAATTACTTTATTAAATGAAT -TTCTAGAAATAACTCTTCATTAGATGACTGAAAGCAAGTACTGGTCTCTT -AAACCATTTAATAGTAAATTAGCACTTACTTCTAATGATAAAAAATTAGT -TAAAATCATAACATTAGTATGTCAAACTAAAATTATTAAATAATTAATAT -TTTTTAATTCCACAAATAGCACCtattagatgattattattatttattat -tttttctattacatttattttattttgttctattaactattattcttatA -TACCAAATTCACCTAAATCTAATGAATTAAAAAATATCAACTTAAATTCA -ATAAATTGAAAATGATAACAAATTTATTTTCTGTATTCGACCCCTCAGCT -ATTTTTAATTTTTCACTTAATTGATTAAGAACATTTTTAGGACTTTTAAT -AATTCCGTCAATTTATTGATTAATACCTTCTCGTTACAATATTATATGAA -ATTCAATTTTATTAACTCTTCATAAAGAATTTAAAACTTTATTAGGCCCA -TCAGGTCATAATGGATCTACTTTTATTTTTATTTCTTTATTTTCATTAAT -TTTATTTAATAATTTCATAGGATTATTTCCATATATTTTTACAAGAACAA -GACATTTAACTTTAACTTTATCTTTAGCTTTACCTTTATGATTATGTTTT -ATATTATATGGATGAATTAATCATACACAACATATATTTGCTCATTTAGT -TCCTCAAGGAACACCCGCTATTCTTATACCTTTTATAGTATGTATTGAAA -CTATTAGAAATATTATTCGACCTGGAACATTAGCTGTTCGATTAACTGCT -AATATAATTGCTGGACATTTATTATTAACTCTTTTAGGAAATACAGGACC -TTCTATATCTTATATTTTAGTAACATTTTTATTAATAGCTCAAATTGCTT -TATTAGTATTAGAATCAGCTGTAGCTATAATTCAATCTTATGTGTTTGCT -GTATTAAGAACTTTATATTCTAGAGAAGTAAATTAATGTCTACACACTCA -AATCACCCTTTTCATTTAGTGGATTATAGTCCATGACCATTAACAGGAGC -TATCGGAGCTATAACAACTGTATCAGGTATAGTAAAATGATTTCATCAAT -ATGATATTTCATTATTTGTATTAGGTAATATTATTACTATTTTAACTGTA -TATCAATGATGACGAGATGTATCACGAGAAGGAACATACCAAGGATTACA -TACTTATGCAGTAACTATTGGTTTACGATGAGGAATAATTTTATTTATTT -TATCAGAAGTTTTATTTTTTGTGAGATTTTTTTGAGCTTTTTTTCACAGA -AGTTTATCACCCGCTATTGAATTAGGAGCATCATGACCTCCTATAGGAAT -TATCTCATTTAATCCATTTCAAATTCCTTTATTAAATACAGCTATTTTAT -TAGCTTCAGGAGTTACTGTAACTTGAGCCCACCATAGACTTATAGAAAAT -AATCATTCACAGACTACTCAAGGATTATTTTTTACAGTTTTACTAGGAAT -CTATTTTACAATTCTTCAAGCTTATGAATATATTGAAGCTCCATTTACTA -TTGCAGACTCAATTTATGGATCAACATTTTTTATAGCAACAGGATTTCAC -GGAATTCATGTATTAATCGGAACAACTTTTTTATTAGTATGTTTACTACG -ACATTTAAATAATCACTTCTCAAAAAATCATCATTTTGGTTTTGAAGCAG -CTGCATGATATTGACATTTTGTCGATGTAGTTTGATTATTTTTATATATC -ACAATTTACTGATGAGGAGGATAATTATATTATTAATTAAATATCTATAT -AGTATAAAAGTATATTTGACTTCCAATCATAAGGTCTATTAATTAATAGT -ATAGATAATTTTTTCTATTATTTTTATTGCTTTATTAATTTTACTAATTA -CAACTATTGTTATATTTTTAGCTTCAATTTTATCAAAAAAAGCTTTAATC -GACCGAGAAAAAAGATCCCCATTTGAATGTGGATTTGATCCAAAATCTTC -ATCTCGATTACCATTTTCTTTACGTTTTTTTTTAATTACTATTATTTTTT -TAATTTTTGATGTAGAGATTGCATTAATTCTACCTATAATTATTATTATA -AAATATTCTAATATTATAATTTGAACAATTACTTCAATTATTTTTATTTT -AATTTTATTAATTGGATTATACCATGAATGAAATCAAGGAATGTTAAATT -GATCAAACTAatatatttatatatatatatataGGGTTGTAGTTAAATAT -AACATTTGATTTGCATTCAAAAAGTATTGAATATTCAATCTACCTTATTA -ATTTAATAACTGAATATGAAGCGATTGATTGCAATTAGTTTCGACCTAAT -CTTAGGTAATTATACCCTTATTCTTTAATTGAAGCCAAAAAGAGGCATAT -CACTGTTAATGATATAATTGAATTTTAAATTCCAATTAAGGAAATATGAT -GATCAAGTAAAAGCTGCTAACTTTTTTCTTTTAATGGTTAAATTCCattt -atatttctatttatatagtttaaataaaaccttacattttcattgtaata -ataaaatcttatatttttatAAATTACTAAAATTAATTCACTATATCCAA -AGATTTAATAATCTCCATAACATCTTCAATGTCAAACTCTAGTATAAGCT -ATTTGGATATAAAAATAATAAAATTAATAAAATTAAAATTCAAAATACAA -ATAATAATAAATAAATTTTCAAAGAATTATTATGTATTAAAAATAAAGTT -TTAGAATATATAGATAATTTTTGATATAAATGTTGACCTCCAAAATATTC -TGATCAACCTTGATCAAAACTTTTTACAACTAATTGACCATAATTTAAAG -GATAAAAAATTATACCATAAGTTCTAATATAAGGTATAAATCATATAGAC -CCTAAAAAAGTTCTTAAATTATATATAAATAAAGATTTATTTAAAAAAAA -TAAATTTCTTAAAGAAATTAAATATCCAAATAAACCCCCTACAATACATA -CAAATAATGTTAACAATTTTATATAAATAGGTAAACAAATTATATAAGGA -AAAGGAAAAATCAATCAATTTAATATTCTACCTCCAATAATTCTTATAAT -TAATAATCCTATTATACCACGGAGTATAATTCAACTTTCATCATTTAATA -TATTCAATCTACCGCAATTTAAATCACCGGTTATTGAATAATAAACTAAT -CGAAATGAATAACTAACAGTTAAACCCGTAGAAAAATAGTATAAAAAAAA -TGAAAACATATTAACATTTCTAATTCTAACAATTTCTAAAATTATATCCT -TAGAATAGAATCCAGCTAAAAAAGGTATTCCACATAAAGCTAAATTAGAT -ACGTTAAAACAAGCTGAAGTTAAAGGTATATGAATTCTTAACCCCCCTAT -TAAACGAATATCTTGAGAATTATTTATATTATGAATAATAGCCCCAGCAC -ATATAAACAATAATGCTTTAAATAAAGCATGAGTTAATAAATGAAATATA -GCTAATTTTAAAAATCCTATAGACAAAATTCTTATTATTAAACCTAATTG -ACTTAAAGTAGATAAAGCAATAATTTTTTTTAAATCAAATTCAAAATTAG -CTCCTAATCCAGCTATAAATATTGTTAATCCAGATAATAATAATATTAAT -TGTCCTAACCAAGAAGTTCTTAAGATAATATTAAATCGAATTAATAAATA -TACACCAGCTGTAACTAATGTAGAAGAATGAACTAAAGCAGAAACAGGTG -TAGGAGCAGCTATAGCTGCAGGTAACCAAGAAGAAAAAGGAATCTGAGCT -CTTTTAGTTATAGCAGCTAATATTACTAATCTTCCAATTATTAACATTTC -AAATTCATTTTGTATAATTTCTAAATAAAAAATATAATTTCATCTTCCAT -AATTTAATATTCAAGCAATAGAAAGAAGTAAAGCTACATCCCCAATTCGA -TTAGATAACGCAGTTAATATACCAGCATTATAAGATTTAATATTTTGAAA -ATAAATTACTAAACAATAAGAAACAAGTCCTAAACCATCTCACCCTAATA -AAATTCTAATTAAATTTGGTCTAATAATTAACAATATTATTGATAAAACA -AATATTAATACTAATATAATGAATCGATTAATATGATTATCATTTATTAT -GTATTCTTTTCTATAAAAAATCACTAAAGAAGAAATTATAAGAACAAAAG -ATATAAATAATAAACTTATTCAATCAAAAAGAAAAGTTATAACAATTCTT -ATAGAATTTAAAGAAACTAATTCTCACTCAATAAAATAAATCATATCATT -TAACAAAAAATATAAACTTAATAAAAAACATGATAAACTTATAGAAATTA -AATTAACAAATCTAATTCTACAAATAGATAAATATTTCATGATTTAAAAT -GAATATTTTCATATCACTAACACCACAAATTAGTATTTTTTTTAAACTAT -TTAAATATAATCATAATATAAATGATTCTCTTTTTAAAATTAATAAATTT -AAAGGCAATCAATGTAACAATATTAATAAATATTCTCGAATTTTACCTCT -TCTAAATGAATATACTCCAGAAAATAATTTACCATGCTGACTAAAAGAAT -ATAAATATAAAGTATAAGCAGCTCTAAAAAAAGATAAAAAAGATAATAAA -ATTATAGAAATTCAAGATCAAGAAACAATTCTATTTAATAAATAAATTTC -TCCTAATAAATTTAATGTTGGAGGAGCTGCTATATTAGCTGATCTTAATA -AAAATCATCATAAAGTTATCGAAGGTATAAAATTTAATAAACCTTTATTA -ATTAATATTCTTCGACTTCCAAGACGTTCATAAGATACATTAGCTAAACA -AAATAACCCAGAAGAACATAAACCATGAGCAATTATTAATGTATAAGAAC -CACATAAACCTCAATAAGTTATAGTTAAAAGTCCTGATAGAACAATTCCT -ATATGAGCAACAGATGAATAAGCAATTAAAGCCTTTAAATCAGTTTGACG -TAAACAAACTAATCTAACTAATACACCTCCTActaatctaattctaattc -aaacaaatctatacttcaaattTATTAACTGTAAAAAACTAATAACTCGT -AATATTCCATAACCTCCTAATTTTAATATAATACCTGCTAAAATTATAGA -CCCAGAAACTGGAGCTTCAACATGAGCTTTAGGTAATCATAAATGAACTA -AAAATATTGGTATTTTTACTAAAAAGGCACACAATAAACAAAAATATAAT -AAATCGTAATTAAACATAAAATTATTTATTAAATAAAAATTTATAGAACC -AATTTTATTTATTaaataaaaaataccaattaatataggtaaagaaacta -ataaagtataaaataataaatataaaCCAGCTTGTAAACGTTCTGGCTGA -TAACCTCAACCTAAAATTAAAAATAATGTAGGAATTAGTCTTCTTTCAAA -AAATAAATAAAATATAAATAATCTTATTCTTGAAAAAGTTAAAATCAACA -ATAATAATAAAATAATAATATTTAATAAAAATAAATTTTTATAATTATTA -TGTTTATTAATTATTTCTCTAGCTAATAATATTAATGAACAAATTCATAA -ACTTAATAAAATTAATCCATAAGATAATATATCACAACCTAAAAAATAAG -AAATTTCTGATCAATAATTTATAAAATTATTTATTAATAAAAAAATAAAT -CTAATAAAAAATATTATAATTTGTACCATTCAATATATATTATTAATAAA -ACAAAAAGGAATTAAAAATAATAAAAAAAAAATAATTTTTAACATTATAT -AATTCTAAAAGATTGAAAATAATCATTACCATGAGTACGAATTATAGAAA -CTAAAATTGATAAACCTAAGGCCCCTTCACATACTCTAAATGTCAAAAAT -ATTATTCTAAAATAACTTTCATAATTTAATATATTTAAATAAATAAATAA -TATAAAAAATAATATTAAAACAATAAATTCTAAACTTAAAAGTATTGAAA -GTAAATGTTTCCGATTAGAAACAAAACAAAATAACCCTAAAATAAATAAA -ATTATAGGTAAACTTCAATATAAAATTATAATCATTAGTTTTAATAGTTT -AATAAAAACATTGGTCTTGTAAATCAAAAATAAGATTATTTCTTTTAAAA -CTTCAAGAGAAAAGAAATTTCTTTTTCATTAATCCCCAAAATTAATATTT -TAAATAAACTACCTCTTGAAATTATTCAATTAATATTATATTCATTAATT -ATTACTACTTCCATTATTTTTCTAAATATAATTCATCCATTAGCTTTAGG -ATTAACTTTATTAATTCAAACAATTTTTGTATGTTTACTAACTGGATTAA -TAACTAAAAGTTTTTGATATTCATATATTTTATTTTTAATTTTTTTAGGA -GGAATACTTGTATTATTTATTTACGTAACATCTTTAGCCTCTAATGAAAT -ATTTAATTTATCAATAAAATTAACTCTATTTTCTTCATTAATTTTAATTT -TTATATTAATTTTATCATTTATTATAGATAAAACTTCTTCTTCTTTATTT -TTAATAAATAATGATATACAATCTATTATTAATATAAATTCTTATTTTAT -AGAAAATTCTTTATCTTTAAATAAATTATATAATTTTCCTACAAATTTTA -TTACAATTTTATTAATAAATTATTTATTAATTACTTTAATTGTTATTGTA -AAAATTACAAAATTATTTAAAGGACCTATTCGAATAATATCTTAATTAAT -GAATAAACCTTTACGAAATTCCCATCCTCTATTTAAAATTGCCAATAATG -CTTTAGTAGATTTACCAGCTCCAATTAATATTTCAAGATGATGAAATTTT -GGATCATTACTTGGATTATGTTTAATTATTCAAATTTTAACCGGATTATT -TTTAGCTATACATTACACAGCTGATATTAATCTAGCTTTCTATAGTGTTA -ATCATATTTGTCGAGACGTTAATTATGGTTGATTATTACGAACTTTACAT -GCTAACGGTGCATCATTTTTTTTTATTTGTATTTACTTACATGTAGGACG -AGGAATTTATTACGGTTCATATAAATTTACTCCAACTTGATTAATTGGAG -TAATTATTTTATTTTTAGTAATAGGAACAGCTTTTATAGGATACGTATTA -CCTTGAGGACAAATATCATTTTGAGGAGCTACTGTAATTACTAATTTATT -ATCAGCTATCCCTTACTTAGGTATAGATTTAGTTCAATGATTATGAGGTG -GATTTGCTGTTGATAATGCCACTTTAACTCGATTTTTTACATTCCATTTT -ATTTTACCTTTTATTGTTCTTGCTATAACTATAATTCATTTATTATTCCT -TCATCAAACAGGATCTAATAATCCTATCGGATTAAATTCTAATATTGATA -AAATTCCTTTTCATCCTTATTTTACATTTAAAGATATTGTAGGATTTATT -GTAATAATTTTTATTTTAATTTCATTAGTATTAATTAGACCAAATTTATT -GGGAGACCCTGATAATTTTATTCCAGCAAATCCTTTAGTAACACCTGCCC -ATATTCAACCAGAATGATATTTTTTATTTGCTTATGCTATTTTACGATCT -ATTCCAAATAAATTAGGAGGAGTTATTGCATTAGTTTTATCAATTGCAAT -TTTAATAATCCTTCCTTTTTATAATTTAAGAAAATTCCGAGGGATTCAAT -TTTATCCTATTAATCAAGTAATATTCTGATCTATATTAGTAACAGTAATT -TTATTAACTTGAATTGGAGCTCGACCAGTTGAAGAACCTTATGTATTAAT -TGGACAAATTCTAACTGTTGTATATTTCTTATATTATTTAGTAAACCCAT -TAATTACAAAATGATGAGATAATTTATTAAATTAAATAGTTAATGAGCTT -GAATAAGCATATGTTTTGAAAACATAAGATAGAATTTAATTTTCTATTAA -CTTTTACTAAAAAAAATTCACTataataaagaaaataataaaattttaaa -cccaataaaaaataataaataatTTAAAGAAAAAGATAAAAAACATTTTC -AAGCTAAATATATTAATTTATCATAACGAAATCGAGGTAAAGTTCCTCGA -ACTCAAATAAAAACAAAAGAAATAAAAGTTAATTTTATATAAAATAATAA -ATTAAACACATCACAACCTAAAAAAATAACGCAAAATAATATTCTTATAA -ATAAAATTCTCGCATATTCAGCTATAAAAATTAAAGCAAAACCCCCTCTT -CTATATTCTACATTAAATCCTGAAACTAATTCTGATTCTCCTTCAGCAAA -ATCAAAAGGAGTCCGATTAGTTTCAGCTAATGAAATAGATATTCAAACTA -AAGCTATAGGAAATAAAATAATTAAAAATCACATATAAACTTGATAAAAA -AAAAAATAAATTATATTATAACTTCCAATTAAAAAAATAAAAGATAATAA -AATTAAAGCTAAACTAACTTCATAAGAAATAGTCTGAGCCACAGCTCGCA -AACCTCCTAATAAAGCATAATTAGAATTAGACGACCAACCAGCTACTATA -ACAGTATAAACCCCCAATCTAGTACAACATAAAAAAAATAAACCCCCCAA -ATTAAAAGAATATAATTTTACAAAAAAAGGTATACATATTCAAACAAATA -ATGATAAAAATAAAGAAAAAATTGGAGAAATATAATATCTTAAATAATTA -GATAATAAAGGATAAGTTTGTTCTTTTGTAAATAATTTAATCGCATCACA -AAAAGGTTGAGGAATTCCTATTAAACCAACTTTATTAGGACCTTTACGAA -TTTGAATATATCCTAAAACTTTTCGTTCTAATAAAGTTAAAAAAGCTACA -CTTACTAATACACAAATAATTAATAACAAACTACCAATTAATGACAAAAT -AAATTCTATATAAAACAAGTACTATTTGTAATAAAAATCACATATATAAA -TTCTAAATTTATTGCACTAATCTGCCAAAATAGTTTTATATTAATAATAT -TCTTATAAAAAATATAATTATTTTGATATTTGGTCCTTTCGTACTAAAAT -ATCATAATTTTTTAAAGATAGAAACCAACCTGGCTTACACCGGTTTGAAC -TCAGATCATGTAAGAATTTAAAAGTCGAACAGACTTAAAATTTGAACGGC -TACACCCAAAATTATATCTTAATCCAACATCGAGGTCGCAATCTTTTTTA -TCGATATGAACTCTCCAAAAAAATTACGCTGTTATCCCTAAAGTAACTTA -ATTTTTTAATCATTATTAATGGATCAAATATTCATAAATTTATGTTTTTA -AAAAATTAAAAGTTTTTTAAATTTTAATATCACCCCAATAAAATATTTTT -ATTTATTAAAATTTAATTAATCTATATAATTAAAATAAAAAAAAATATAA -AGATTTATAGGGTCTTCTCGTCTTTTAAATAAATTTTAGCTTTTTGACTA -AAAAATAAAATTCTATAAAAATTTTAAATGAAACAGTTAATATTTCGTCC -AACCATTCATTCCAGCCTTCAATTAAAAGACTAATGATTATGCTACCTTT -GCACAGTCAAAATACTGCGGCCATTTAAAATTTTCAGTGGGCAGGTTAGA -CTTTATATATAATTCAAAAAGACATGTTTTTGTTAAACAGGCGAATATTA -TTTTTGCCGAATTCTTTATTTAAACTTTTCATATAAATTAATTTTAACAT -TATTATATACTAATTTTATCATTATTACTTAATTTTAATAATTAAAACTA -ACATTTTAATAAATAATTAAAATTTAATAAATAATTTAATTTATAAAATA -AATTATAACATATTTTTTAATAATTGCTAATTCTAAGCATATATTTATTA -AATCTATTTAATATTTTTAAAAATTTATTTTATAGCTTATCCCATAAAAC -ATTAAAATTATAAATTAATTAATTAAATAAATAATTAAGTAAATTTATAA -TTTCTAAATTAAATTTATTTCTTAAAAAACTAGATACCTTTAAAAACGAA -TAACATTTCATTTCTAATATAATATTATAAATAATTTTATCACATTAACT -TAAATATTATATTAACTCTTTTAAAATCGAGAAAAATAAATATTTATTTT -TTATTTAATAAACACTGATACACAAGGTACAATAAATTAAATTTTCTTTT -AAAATAAAATTTTTTCAAATTATTTCAATTTTCTTTTACAATACTAATAA -ACTATTATTAAAATTATTTTTTCTTTAAACAATACTAAAACTTTAAATTT -TATAGTTATTTCTAATAATTTTTTAAAAAATAATAAAAATTAATAAATAA -AAACTAACTCAATTTATATTGATTTGCACAAAAATCTTTTCAATGTAAAT -GAAATACTTTACTTAATAAGCTTTAAATTGTCATTCTAGATACACTTTCC -AGTACATCTACTATGTTACGACTTATCTTACCTTAATAATAAGAGCGACG -GGCGATGTGTACATATTTTAGAGCTAAAATCAAATTATTAATCTTTATAA -TTTTACTACTAAATCCACTTTCAAAAATTTTTTCATAATTTTATTCATAT -AAATAAATTTATTGTAACCCATTATTACTTAAATATAAGCTACACCTTGA -TCTGATATAAatttttattaaaattattgaatattattattcttatAAAA -TATTCTGATAACGACGGTATATAAACTGATTACAAATTTAAGTAAGGTCC -ATCGTGGATTATCGATTAAAAAACAGGTTCCTCTAGATAGACTAAAATAC -CGCCAAATTTTTTAAGTTTCAAGAACATAACTATTACTACTTTAGCAATT -TATTTACATTTTAAATAATAGGGTATCTAATCCTAGTTTTTTATTAAAAT -TTTTTAACCTCAATTACATTTTTATATAATAATTTAAATATAAAATTTCA -CTTAATATATTTAATTTTATTATTATTAATAAATTTAATTTAATTAATAC -TAAAAAAATTTATTTGTATTAATGGTATAACCGCGACTGCTGGCACCAAT -TTAGTCAATACTTTTTTATATTGCTATTTCTAAATTTCTTTAATTAATAA -TATTAATTACTGCGAATAAATTTTCATATTTATTTTTTAAATAAATATAA -AATCACACAAAAATTTACATATAAATCAAATTAATAACAAATTTTTAAGC -CAAAATAAAACTTTAAATTTTTATTTTTGATTTTTTATTATTAATTAAAT -ATTAATAATTTTTATTAAAATAATTTTTTAAAGAAAAATTAAAATTAATT -TTAATTAAATATTAAAATAATTTAATTTTATAATAAAATTTTTATCATAT -TATAATAATATAAAAATTTTATAAATTTATTTTTTAAATTTTACAAAATT -TTTAAAATTTTTATTTTTTTTAAAAAAAATAATTTTTAACAAAAAAAATT -TTTATCAAAAATTAATATAAAATAAATTTTAATTTAAAAATTAAAAATTT -TAATTTTACACTTTTTTAAAAATATTTTTTTTTAAAAAAAAAATTTTTTT -TTAAAAAAATTTTTTTTTAAAAAAAATTTAAAAAATTATAGATTAATTTC -TTTTAAATGACTAAAAAAAATTTTTTTTTTTAAGTATTTTAAAACTTTTT -TTTTACAATTTTTAAAAAAATATATAAATATAAATTTTAAAAAAAATTTT -TTTTTTAAAAAAAATGAAAATTATATTATAAAAATATTTTTTTTACAAAA -ATGAAAATTTAATCTATTAAAAAAAATTATTAAAATTTTTATAAATAAAT -AAAAAAAGTAATAAATTTATTAAAAATCAATATATATATAATAATAAATA -ATTTGATTATTAATTAAATTATACGAATAATAAATATAATAAATAATTTA -TTTTAATCAATAAATCTGAAATAATTAATTATATACATATATATATATAT -GTAAATAAATAAAAATAAATTTATTCCCCCTATTTATAAATTTATTATAT -AATTAAAACTTAAAAAATATTTTTTTTAAAAAAATAGTTTATTAAATTAT -ACTTAATAAACTATTTTTATAATAAATTATTTTATAAATAAAATTATTTA -AAATAATTAATAAAAATATTTTTATTGTAATAAAAATTAAAAATAATTTT -AAAAAAATTAAATTTATATATTTATATATATATATATATAATTTTTAATT -TTCAATTAAATTATATAAATATAATAAAATAATTTTATTTAATCACTAAA -TCTGAAATAATTAATtataaatatatatatatatatatatatatatatat -atatataAATGAAAATAAATTTATTCCCCCTATTCATAAATTTATTGTAT -AATTAAAACTTAAAAAATATTTTTTTTTAAAAAAAAATTATTTATTAAAT -TATACTTAATAAACTATTTTTATAATAAATTATTTTATAAATAAAATTAT -TTTAAATAATTAATAAAAATATTTTTAATATAATAAAAATTTAAAATGAT -TTTTTATAAAAATTAAATTCATATTTATATATATATATATATAATTTAAT -TTTCAATTAAATTATATAAGTATAATAAAATAATTTATTTTAATCACTAA -ATCTGAATTAATTAATTGTATATATATATATATATATAAAAAAAATGAAA -ATAAATTTATTCCCCCTATTCATAAATTTATTATATAATTAAATCTTAAA -AAGTATTTTTTTTTTAAAAAAAAATTATTTATTAAATTATACTTAATAAA -CTATTTTTATAATAAATTATTTTATGAATAAAATTATTTAAAATAATTTA -TAAAAATATTTTTAATATAATGAAAATTTAAAATGATTTTTTATTATTAA -TTAAATTCatatatttacatatatatatatatatatatatatatataGAT -AATTTAATTTTCAATTAAATTATATAAGTATAATAAAATAATTTATTTTA -ATCACTAAATCTGAATTAATTAATTGTATGTATATATATATATATATATA -TAAAAAAATGAAAATAAATTTATTCCCCCTATTCATAAATTTATTATATA -ATTAAATCTTAAAAAGTATTTTTTTTTAAAAAAAAAATTATTTATTAAAT -TATACTTAATAAACTATTTTTATAATAAATTATTTTATGAATAAAATTAT -TTAAAATAATTAATAAAAATATTTTTAATATAATGAAAATTTAAAATGAT -TTTTTATTATTAATTAAATTCatatatttatatatatatatatatatata -tatataGATAATTTAATTTTCAATTAAATTATATAAGTATAATAAAATAA -TTTATTTTAATCACTAAATCTGAATTAATTAATTGTATGtatatatatat -atatatatatatatatatataAAAAATGAAAATAAATTTATTCCCCCTAT -TCATAAATTTATTATATAATTAAATCTTAAAAAGTATTTTTTTTTAAAAA -AAAATTATTTATTAAATTATACTTAATAAACTATTTTTATAATAAATTAT -TTTATGAATAAAATTATTTAAAATAATTAATAAAAATTATATATATATAT -AAATGAAAATAATTTTTAAATTTTAATAATAAATAAATTTAATAATTAAT -AATTAAATAAAATCTATTCATTATTAATATTTAATTAATAATAAATAAAT -TTAATAACTAATAATTAAATAAAATTTATTTATTATTAATATTTAATTAA -TAATAAAAAATCATCAttttttttttttttttttttatttAATTAATTAT -tatatatttataaatttatatattattcaatatttataatatatatatat -atatatatatataAAAATTAAATTATTTAAATAATTTAATATAAATTTTT -AAAAAATTTCTTAAATGTATTATTTTTATAAAAAATATTTATATAATAAA -ATTATTTTTTTTTAAAAATAAACAAAAAATTTTTAATAAATAAATTTTAT -AATGAAATATAATTTATTTATTTTTTATTTTTTTAAAAAAAATTTAAAAA -AAAATAATTTTTTTTTAAAAAAAAACTATATACTAATTATAAATTAATAG -ATATTTATATATATATAAATATTTAATATATTATTATATATCTAATAATT -TAAATAAAAAATTTTAAAATTTAAAAATGTAGATATAATTTATAAAAATT -TATATTCTCATATTTATTTATTATTAATTTAATTTATATAAATAATATAA -TAATTTAATTAATTATTATATATTTATAAATTTATATATTATTGAATATT -TATATAATATATATATATATATAGAAAAATTAAATTATTTAAATAATTTA -ATATAAATTTTTAAAAAATTTCTTAAATGTATTATTTTTATAAAAAATAT -TTATATAATAAAATCATTTTTTTTTAAAAATAAACAAAAAATTTTTAATA -AATAAATTTTATAATGAAATATAATTTATTTATTTTTTATTTTTTTAAAA -AAAAATTTTTTAAAAAAAAATAATTTTTTTTTTAAAAAAACTATATACTA -ATTATAAATTAATAGATATTTATATATATATAAATATTTAATATATTATT -ATATATCTAATAATTTAAATAAAAAATTTTAAAATTTAAAAATGTAGATA -TAATTTATAAAAATTTATATTCTCATATTTATTTATTATTAATTTAATTT -ATATAAATAATATAATAATTTAATTAATTATTATATATTTATAAATTTAT -ATATTATTGAATATTTATATAATATATATATATATATAGAAAAATTAAAT -TATTTAAATAATTTAATATAAATTTTTAAAAAATTTCTTAAATGTATTAT -TTTTATAAAAAATATTTATATAATAAAATCATTTTTTTTAAAAATAAACA -AAAAATTTTTAATAAATAAATTTTATAATGAAATATAATTTATTTATTTT -TTATTTTTTTAAAAAAAATTTTTTAAAAAAAAATAATTTTTTTTTAAAAA -AACTATATACTAAATATAAATTAATAGATATTTATATATATATAAATATT -TAATATATTATTATATATCTAATAATTTAAATAAAAAATTTTAAAATTTA -AAAATGTAGATATAATTTATAAAAATTTATATTCTCATATTTATTTATTA -TTAATTTAATTTATATAAATAATATAATAATTTAATTAATTATTATATAT -TTATAAATTTATATATTATTGAATATTTATATAATATATATATATATATA -GAAAAATTAAATTATTTAAATAATTTAATATAAATTTTTAAAAAATTTCT -TAAATGTATTATTTTTATAAAAAATATTTATATAATAAAATCATTTTTTT -TTAAAAATAAACAAAAAATTTTTAATAAATAAATTTTATAATGAAATATA -ATTTATTTATTTTTTATTTTTTTTAAAAAAAATTTTTTAAAAAAAATAAT -TTTTTTTTAAAAAAACTATATACTAAATATAAATTAATAGATATTTATAT -ATATATAAATATTTAATATATTATTATATATCTAATAATTTAAATAAAAA -ATTTTAAAATTTAAAAATGTAGATATAATTTATAAAAATTTATATTCTCA -TATTTATTTATTATTAATTTAATTTATATAAATAATATAATAATTTAATT -AATTATTATATATTTATAAATTTATATATTATTGAATATTTATATATAAT -ATATATATATATAGAAAAATAAAATTATTTAAATAATTTTACATAAAATT -TTAAAAAATTTCTTAAATGTATTATTTAATAAAAAATTACTTTTTAAAAA -AAATAATTTTAATTTTTTaaaaaaaatagtaaataataaaaaaaaaaaaa -aaaaaaaatgaaaaTTATATTATT
--- a/test-data/chrM_repeatmasker.txt Sat Apr 20 12:13:52 2024 +0000 +++ /dev/null Thu Jan 01 00:00:00 1970 +0000 @@ -1,21 +0,0 @@ - SW perc perc perc query position in query matching repeat position in repeat -score div. del. ins. sequence begin end (left) repeat class/family begin end (left) ID - - 16 20.2 5.9 0.0 chrM 1211 1261 (18263) + (TTTTA)n Simple_repeat 1 54 (0) 84486 - 13 23.9 2.2 2.2 chrM 2014 2059 (17465) + (TTA)n Simple_repeat 1 46 (0) 84487 - 24 18.8 5.3 2.6 chrM 3924 3999 (15525) + (TAT)n Simple_repeat 1 78 (0) 84488 - 18 4.5 0.0 0.0 chrM 5961 5983 (13541) + (AT)n Simple_repeat 1 23 (0) 84489 - 13 25.9 4.0 4.0 chrM 6247 6320 (13204) + (ATTTAT)n Simple_repeat 1 74 (0) 84490 - 11 14.6 7.5 2.4 chrM 8783 8822 (10702) + (CTAATT)n Simple_repeat 1 42 (0) 84491 - 17 19.0 0.0 8.6 chrM 9064 9126 (10398) + A-rich Low_complexity 1 58 (0) 84492 - 13 21.0 5.9 1.9 chrM 11723 11773 (7751) + (ATA)n Simple_repeat 1 53 (0) 84493 - 66 20.4 12.3 12.3 chrM 12823 13001 (6523) C LSU-rRNA_Cel rRNA (1) 2431 2253 84494 - 16 16.6 0.0 2.9 chrM 14361 14396 (5128) + (ATT)n Simple_repeat 1 35 (0) 84495 - 44 2.4 0.0 0.0 chrM 15966 16007 (3517) + (TA)n Simple_repeat 1 42 (0) 84496 - 35 5.3 0.0 0.0 chrM 16559 16597 (2927) + (AT)n Simple_repeat 1 39 (0) 84497 - 36 2.9 0.0 0.0 chrM 16922 16956 (2568) + (AT)n Simple_repeat 1 35 (0) 84498 - 37 0.0 0.0 0.0 chrM 17040 17071 (2453) + (TA)n Simple_repeat 1 32 (0) 84499 - 20 4.3 0.0 0.0 chrM 17417 17440 (2084) + (T)n Simple_repeat 1 24 (0) 84500 - 31 6.9 6.3 1.5 chrM 17451 17513 (2011) + (TA)n Simple_repeat 1 66 (0) 84501 - 26 17.0 0.0 0.0 chrM 19469 19514 (10) + A-rich Low_complexity 1 46 (0) 84502 -