Previous changeset 14:bf866bedd4b4 (2024-04-20) |
Commit message:
planemo upload for repository https://github.com/ARTbio/tools-artbio/tree/main/tools/repenrich commit 03183e29f807ec33548016a7c4144f52720b7b9e |
modified:
RepEnrich_setup.py macros.xml repenrich.xml |
removed:
test-data/chrM.fa test-data/chrM_repeatmasker.txt |
b |
diff -r bf866bedd4b4 -r 2e3d976e7d5d RepEnrich_setup.py --- a/RepEnrich_setup.py Sat Apr 20 12:13:52 2024 +0000 +++ b/RepEnrich_setup.py Sun Apr 21 09:44:51 2024 +0000 |
[ |
@@ -71,7 +71,7 @@ genome = defaultdict(dict) for chr in g.keys(): - genome[chr]['sequence'] = g[chr].seq + genome[chr]['sequence'] = str(g[chr].seq) genome[chr]['length'] = len(g[chr].seq) # Build a bedfile of repeatcoordinates to use by RepEnrich region_sorter @@ -100,7 +100,7 @@ # generate metagenomes and save them to FASTA files for bowtie build for repname in rep_coords: - metagenome = '' + genomes_list = [] # iterating coordinate list by block of 3 (chr, start, end) block = 3 for i in range(0, len(rep_coords[repname]) - block + 1, block): @@ -109,11 +109,8 @@ start = max(int(batch[1]) - flankingl, 0) end = min(int(batch[2]) + flankingl, int(genome[chromosome]['length'])-1) + 1 - metagenome = ( - f"{metagenome}{spacer}" - f"{genome[chromosome]['sequence'][start:end]}" - ) - + genomes_list.append(genome[chromosome]['sequence'][start:end]) + metagenome = spacer.join(genomes_list) # Create Fasta of repeat pseudogenome fastafilename = f"{repname}.fa" record = SeqRecord(Seq(metagenome), id=repname, name='', description='') |
b |
diff -r bf866bedd4b4 -r 2e3d976e7d5d macros.xml --- a/macros.xml Sat Apr 20 12:13:52 2024 +0000 +++ b/macros.xml Sun Apr 21 09:44:51 2024 +0000 |
b |
@@ -1,6 +1,6 @@ <macros> <token name="@TOOL_VERSION@">2.31.1</token> - <token name="@VERSION_SUFFIX@">1</token> + <token name="@VERSION_SUFFIX@">2</token> <token name="@PROFILE@">23.0</token> <xml name="repenrich_requirements"> |
b |
diff -r bf866bedd4b4 -r 2e3d976e7d5d repenrich.xml --- a/repenrich.xml Sat Apr 20 12:13:52 2024 +0000 +++ b/repenrich.xml Sun Apr 21 09:44:51 2024 +0000 |
b |
@@ -34,7 +34,7 @@ #end if #end if ln -f -s '$genome' 'genome.fa' && - bowtie-build '$genome' genome && + bowtie-build --threads \${GALAXY_SLOTS:-1} '$genome' genome && python $__tool_directory__/RepEnrich_setup.py --annotation_file '$repeatmasker' --genomefasta 'genome.fa' |
b |
diff -r bf866bedd4b4 -r 2e3d976e7d5d test-data/chrM.fa --- a/test-data/chrM.fa Sat Apr 20 12:13:52 2024 +0000 +++ /dev/null Thu Jan 01 00:00:00 1970 +0000 |
b |
b'@@ -1,392 +0,0 @@\n->chrM\n-AATGAATTGCCTGATAAAAAGGATTACCTTGATAGGGTAAATCATGCAGT\n-TTTCTGCATTCATTGACTGATTTATATATTATTTATAAAGATGATTTTAT\n-ATTTAATAGAATTAAACTATTTCTAAAAGTATCAAAAACTTTTGTGCATC\n-ATACACCAAAATATATTTACAAAAAGATAAGCTAATTAAGCTACTGGGTT\n-CATACCCCATTTATAAAGGTTATAATCCTTTTCTTTTTAATTTTTAATAA\n-TTCGTCAAAAATTTTATTTATTACAATTATAATTATTGGGACATTAATTA\n-CAGTTACATCTAATTCTTGGTTAGGAGCTTGAATAGGTTTAGAAATTAAT\n-TTATTATCTTTTATCCCCCTATTAAGAGATAATAATAATTTAATATCTAC\n-AGAAGCTTCTTTAAAATATTTTTTAACCCAAGTTTTAGCTTCAACTGTTT\n-TATTATTTTCTTCAATTTTATTAATATTAAAAAATAATATAAATAATGAA\n-ATTAATGAATCTTTTACATCCATAATTATTATATCAGCTTTATTATTAAA\n-AAGTGGAGCCGCTCCTTTCCATTTTTGATTTCCTAATATAATAGAAGGTT\n-TAACATGAATAAATGCTTTAATATTAATAACTTGACAAAAAATTGCACCT\n-TTAATATTAATTTCTTATCTTAATATTAAATATTTATTATTAATTAGAGT\n-AATTTTATCAGTTATTATTGGAGCTATTGGAGGATTAAATCAAACTTCTT\n-TACGAAAATTAATAGCATTTTCTTCAATTAATCATTTAGGGTGAATATTA\n-AGATCTTTAATAATTAGAGAATCAATTTGATTAATTTATTTTTTTTTTTA\n-TTCATTTTTATCATTTGTATTAACATTTATATTTAATATTTTTAAATTAT\n-TTCATTTAAATCAATTATTTTCTTGATTTGTTAATAGAAAAATTTTGAAA\n-TTTACATTATTTATAAATTTTTTATCATTAGGAGGATTACCTCCATTTTT\n-AGGATTTTTACCAAAATGACTTGTAATTCAACAATTAACATTATGTAATC\n-AATATTTTATATTAACACTTATAATAATATCAACTTTAATTACATTATTT\n-TTTTATTTACGAATTTGTTATTCCGCTTTTATAATAAATTATTTTGAAAA\n-TAACTGAATCATAAAGATAAATATAAATAGTATTAATTATAATATATATA\n-TAATTATAACttttttttcaatttttggattatttttaatttctttattt\n-tattttatattTTAAGGCTTTAAGTTAATAAAACTAATAACCTTCAAAGC\n-TATAAATAAAGAAATTTCTTTAAGCCTTAGTAAAACTTACTCCTTCAAAA\n-TTGCAGTTTGATATCATTATTGACTATAAGACCTAATTAATTTGTCCTTA\n-TTTGATTAAGAAGAATAAATCTTATATATAGATTTACAATCTATCGCCTA\n-AACTTCAGCCACTTAATCAATAATCGCGACAATGATTATTTTCTACAAAT\n-CATAAAGATATCGGAACTTTATATTTTATTTTTGGAGCTTGAGCTGGAAT\n-AGTTGGAACATCTTTAAGAATTTTAATTCGAGCTGAATTAGGACATCCTG\n-GAGCATTAATTGGAGATGATCAAATTTATAATGTAATTGTAACTGCACAT\n-GCTTTTATTATAATTTTTTTTATAGTTATACCTATTATAATTGGTGGATT\n-TGGAAATTGATTAGTGCCTTTAATATTAGGTGCTCCTGATATAGCATTCC\n-CACGAATAAATAATATAAGATTTTGACTTCTACCTCCTGCTCTTTCTTTA\n-CTATTAGTAAGTAGAATAGTTGAAAATGGAGCTGGGACAGGATGAACTGT\n-TTATCCACCTCTATCCGCTGGAATTGCTCATGGTGGAGCTTCAGTTGATT\n-TAGCTATTTTTTCTCTACATTTAGCAGGAATTTCTTCAATTTTAGGAGCT\n-GTAAATTTTATTACAACTGTAATTAATATACGATCAACAGGAATTTCATT\n-AGATCGTATACCTttatttgtttgatcagtagttattactgctttattat\n-tattattatCACTTCCAGTACTAGCAGGAGCTATTACTATATTATTAACA\n-GATCGAAATTTAAATACATCATTTTTTGACCCAGCGGGAGGAGGAGATCC\n-TATTTTATACCAACATTTATTTTGATTTTTTGGTCATCCTGAAGTTTATA\n-TTTTAATTTTACCTGGATTTGGAATAATTTCTCATATTATTAGACAAGAA\n-TCAGGAAAAAAGGAAACTTTTGGTTCTCTAGGAATAATTTATGCTATATT\n-AGCTATTGGATTATTAGGATTTATTGTATGAGCTCATCATATATTTACCG\n-TTGGAATAGATGTAGATACTCGAGCTTATTTTACCTCAGCTACTATAATT\n-ATTGCAGTTCCTACTGGAATTAAAATTTTTAGTTGATTAGCTACTTTACA\n-TGGAACTCAACTTTCTTATTCTCCAGCTATTTTATGAGCTTTAGGATTTG\n-TTTTTTTATTTACAGTAGGAGGATTAACAGGAGTTGTTTTAGCTAATTCA\n-TCAGTAGATATTATTTTACATGATACTTATTATGTAGTAGCTCATTTTCA\n-TTATGTTTTATCTATAGGAGCTGTATTTGCTATTATAGCAGGTTTTATTC\n-ACTGATACCCCTTATTTACTGGATTAACGTTAAATAATAAATGATTAAAA\n-AGTCATTTCATTATTATATTTATTGGAGTTAATTTAACATTTTTTCCTCA\n-ACATTTTTTAGGATTGGCTGGAATACCTCGACGTTATTCAGATTACCCAG\n-ATGCTTACACAACATGAAATATTGTATCAACTATTGGATCAACTATTTCA\n-TTATTAGGAATTTTATTCTTTTTTTTTATTATTTGAGAAAGTTTAGTATC\n-ACAACGACAAGTAATTTACCCAATTCAACTAAATTCATCAATTGAATGAT\n-ACCAAAATACTCCACCAGCTGAACATAGATATTCTGAATTACCACTTTTA\n-ACAAATTAATTTCTAATATGGCAGATTAGTGCAATAGATTTAAGCTCTAT\n-ATATAAAGTATTTTACTTTTATTAGAAAATAAATGTCTACATGAGCTAAT\n-TTAGGTTTACAAGATAGAGCTTCTCCTTTAATAGAACAATTAATTTTTTT\n-TCATGATCATGCATTATTAATTTTAGTAATAATTACAGTATTGGTGGGAT\n-ATTTAATATTTATATTATTTTTTAATAATTATGTAAATCGATTTCTTTTA\n-CATGGACAACTTATTGAAATAATTTGAACTATTTTACCAGCAATTATTTT\n-ACTATTTATTGCTCTTCCTTCTTTACGTTTACTTTATTTATTAGATGAAA\n-TTAATGAACCATCTGTAACTTTAAAAAGAATCGGCCATCAATGATATTGA\n-AGTTACGAATATTCAGATTTTAATAATATTGAATTTGATTCATATATAAT\n-TCCAACAAATGAATTAATAACTGATGGATTTCGATTATTAGATGTTGATA\n-ACCGAGTAGTTTTACCCATAAACTCACAAATTCGAATTTTAGTAACAGCT\n-GCTGATGTTATTCATTCTTGAACAGTACCTGCTTTAGGAGTAAAAGTTGA\n-CGGTACACCTGGACGATTAAATCAAACTAATTTTTTTATTAATCGACCGG\n-GTTTATTTTATGGTCAATGTTCAGAAATCTGTGGAGCTAATCATAGATTT\n-ATACCGATTGTAATTGAAAGTGTTCCTGTAAATTACTTTATTAAATGAAT\n-TTCTAGAAATAACTCTTCATTAGATGACTGAAAGCAAGTACTGGTCTCTT\n-AAACCATTTAATAGTAAATTA'..b'TATTTATAAATTTATTATAT\n-AATTAAAACTTAAAAAATATTTTTTTTAAAAAAATAGTTTATTAAATTAT\n-ACTTAATAAACTATTTTTATAATAAATTATTTTATAAATAAAATTATTTA\n-AAATAATTAATAAAAATATTTTTATTGTAATAAAAATTAAAAATAATTTT\n-AAAAAAATTAAATTTATATATTTATATATATATATATATAATTTTTAATT\n-TTCAATTAAATTATATAAATATAATAAAATAATTTTATTTAATCACTAAA\n-TCTGAAATAATTAATtataaatatatatatatatatatatatatatatat\n-atatataAATGAAAATAAATTTATTCCCCCTATTCATAAATTTATTGTAT\n-AATTAAAACTTAAAAAATATTTTTTTTTAAAAAAAAATTATTTATTAAAT\n-TATACTTAATAAACTATTTTTATAATAAATTATTTTATAAATAAAATTAT\n-TTTAAATAATTAATAAAAATATTTTTAATATAATAAAAATTTAAAATGAT\n-TTTTTATAAAAATTAAATTCATATTTATATATATATATATATAATTTAAT\n-TTTCAATTAAATTATATAAGTATAATAAAATAATTTATTTTAATCACTAA\n-ATCTGAATTAATTAATTGTATATATATATATATATATAAAAAAAATGAAA\n-ATAAATTTATTCCCCCTATTCATAAATTTATTATATAATTAAATCTTAAA\n-AAGTATTTTTTTTTTAAAAAAAAATTATTTATTAAATTATACTTAATAAA\n-CTATTTTTATAATAAATTATTTTATGAATAAAATTATTTAAAATAATTTA\n-TAAAAATATTTTTAATATAATGAAAATTTAAAATGATTTTTTATTATTAA\n-TTAAATTCatatatttacatatatatatatatatatatatatatataGAT\n-AATTTAATTTTCAATTAAATTATATAAGTATAATAAAATAATTTATTTTA\n-ATCACTAAATCTGAATTAATTAATTGTATGTATATATATATATATATATA\n-TAAAAAAATGAAAATAAATTTATTCCCCCTATTCATAAATTTATTATATA\n-ATTAAATCTTAAAAAGTATTTTTTTTTAAAAAAAAAATTATTTATTAAAT\n-TATACTTAATAAACTATTTTTATAATAAATTATTTTATGAATAAAATTAT\n-TTAAAATAATTAATAAAAATATTTTTAATATAATGAAAATTTAAAATGAT\n-TTTTTATTATTAATTAAATTCatatatttatatatatatatatatatata\n-tatataGATAATTTAATTTTCAATTAAATTATATAAGTATAATAAAATAA\n-TTTATTTTAATCACTAAATCTGAATTAATTAATTGTATGtatatatatat\n-atatatatatatatatatataAAAAATGAAAATAAATTTATTCCCCCTAT\n-TCATAAATTTATTATATAATTAAATCTTAAAAAGTATTTTTTTTTAAAAA\n-AAAATTATTTATTAAATTATACTTAATAAACTATTTTTATAATAAATTAT\n-TTTATGAATAAAATTATTTAAAATAATTAATAAAAATTATATATATATAT\n-AAATGAAAATAATTTTTAAATTTTAATAATAAATAAATTTAATAATTAAT\n-AATTAAATAAAATCTATTCATTATTAATATTTAATTAATAATAAATAAAT\n-TTAATAACTAATAATTAAATAAAATTTATTTATTATTAATATTTAATTAA\n-TAATAAAAAATCATCAttttttttttttttttttttatttAATTAATTAT\n-tatatatttataaatttatatattattcaatatttataatatatatatat\n-atatatatatataAAAATTAAATTATTTAAATAATTTAATATAAATTTTT\n-AAAAAATTTCTTAAATGTATTATTTTTATAAAAAATATTTATATAATAAA\n-ATTATTTTTTTTTAAAAATAAACAAAAAATTTTTAATAAATAAATTTTAT\n-AATGAAATATAATTTATTTATTTTTTATTTTTTTAAAAAAAATTTAAAAA\n-AAAATAATTTTTTTTTAAAAAAAAACTATATACTAATTATAAATTAATAG\n-ATATTTATATATATATAAATATTTAATATATTATTATATATCTAATAATT\n-TAAATAAAAAATTTTAAAATTTAAAAATGTAGATATAATTTATAAAAATT\n-TATATTCTCATATTTATTTATTATTAATTTAATTTATATAAATAATATAA\n-TAATTTAATTAATTATTATATATTTATAAATTTATATATTATTGAATATT\n-TATATAATATATATATATATATAGAAAAATTAAATTATTTAAATAATTTA\n-ATATAAATTTTTAAAAAATTTCTTAAATGTATTATTTTTATAAAAAATAT\n-TTATATAATAAAATCATTTTTTTTTAAAAATAAACAAAAAATTTTTAATA\n-AATAAATTTTATAATGAAATATAATTTATTTATTTTTTATTTTTTTAAAA\n-AAAAATTTTTTAAAAAAAAATAATTTTTTTTTTAAAAAAACTATATACTA\n-ATTATAAATTAATAGATATTTATATATATATAAATATTTAATATATTATT\n-ATATATCTAATAATTTAAATAAAAAATTTTAAAATTTAAAAATGTAGATA\n-TAATTTATAAAAATTTATATTCTCATATTTATTTATTATTAATTTAATTT\n-ATATAAATAATATAATAATTTAATTAATTATTATATATTTATAAATTTAT\n-ATATTATTGAATATTTATATAATATATATATATATATAGAAAAATTAAAT\n-TATTTAAATAATTTAATATAAATTTTTAAAAAATTTCTTAAATGTATTAT\n-TTTTATAAAAAATATTTATATAATAAAATCATTTTTTTTAAAAATAAACA\n-AAAAATTTTTAATAAATAAATTTTATAATGAAATATAATTTATTTATTTT\n-TTATTTTTTTAAAAAAAATTTTTTAAAAAAAAATAATTTTTTTTTAAAAA\n-AACTATATACTAAATATAAATTAATAGATATTTATATATATATAAATATT\n-TAATATATTATTATATATCTAATAATTTAAATAAAAAATTTTAAAATTTA\n-AAAATGTAGATATAATTTATAAAAATTTATATTCTCATATTTATTTATTA\n-TTAATTTAATTTATATAAATAATATAATAATTTAATTAATTATTATATAT\n-TTATAAATTTATATATTATTGAATATTTATATAATATATATATATATATA\n-GAAAAATTAAATTATTTAAATAATTTAATATAAATTTTTAAAAAATTTCT\n-TAAATGTATTATTTTTATAAAAAATATTTATATAATAAAATCATTTTTTT\n-TTAAAAATAAACAAAAAATTTTTAATAAATAAATTTTATAATGAAATATA\n-ATTTATTTATTTTTTATTTTTTTTAAAAAAAATTTTTTAAAAAAAATAAT\n-TTTTTTTTAAAAAAACTATATACTAAATATAAATTAATAGATATTTATAT\n-ATATATAAATATTTAATATATTATTATATATCTAATAATTTAAATAAAAA\n-ATTTTAAAATTTAAAAATGTAGATATAATTTATAAAAATTTATATTCTCA\n-TATTTATTTATTATTAATTTAATTTATATAAATAATATAATAATTTAATT\n-AATTATTATATATTTATAAATTTATATATTATTGAATATTTATATATAAT\n-ATATATATATATAGAAAAATAAAATTATTTAAATAATTTTACATAAAATT\n-TTAAAAAATTTCTTAAATGTATTATTTAATAAAAAATTACTTTTTAAAAA\n-AAATAATTTTAATTTTTTaaaaaaaatagtaaataataaaaaaaaaaaaa\n-aaaaaaaatgaaaaTTATATTATT\n' |
b |
diff -r bf866bedd4b4 -r 2e3d976e7d5d test-data/chrM_repeatmasker.txt --- a/test-data/chrM_repeatmasker.txt Sat Apr 20 12:13:52 2024 +0000 +++ /dev/null Thu Jan 01 00:00:00 1970 +0000 |
b |
@@ -1,21 +0,0 @@ - SW perc perc perc query position in query matching repeat position in repeat -score div. del. ins. sequence begin end (left) repeat class/family begin end (left) ID - - 16 20.2 5.9 0.0 chrM 1211 1261 (18263) + (TTTTA)n Simple_repeat 1 54 (0) 84486 - 13 23.9 2.2 2.2 chrM 2014 2059 (17465) + (TTA)n Simple_repeat 1 46 (0) 84487 - 24 18.8 5.3 2.6 chrM 3924 3999 (15525) + (TAT)n Simple_repeat 1 78 (0) 84488 - 18 4.5 0.0 0.0 chrM 5961 5983 (13541) + (AT)n Simple_repeat 1 23 (0) 84489 - 13 25.9 4.0 4.0 chrM 6247 6320 (13204) + (ATTTAT)n Simple_repeat 1 74 (0) 84490 - 11 14.6 7.5 2.4 chrM 8783 8822 (10702) + (CTAATT)n Simple_repeat 1 42 (0) 84491 - 17 19.0 0.0 8.6 chrM 9064 9126 (10398) + A-rich Low_complexity 1 58 (0) 84492 - 13 21.0 5.9 1.9 chrM 11723 11773 (7751) + (ATA)n Simple_repeat 1 53 (0) 84493 - 66 20.4 12.3 12.3 chrM 12823 13001 (6523) C LSU-rRNA_Cel rRNA (1) 2431 2253 84494 - 16 16.6 0.0 2.9 chrM 14361 14396 (5128) + (ATT)n Simple_repeat 1 35 (0) 84495 - 44 2.4 0.0 0.0 chrM 15966 16007 (3517) + (TA)n Simple_repeat 1 42 (0) 84496 - 35 5.3 0.0 0.0 chrM 16559 16597 (2927) + (AT)n Simple_repeat 1 39 (0) 84497 - 36 2.9 0.0 0.0 chrM 16922 16956 (2568) + (AT)n Simple_repeat 1 35 (0) 84498 - 37 0.0 0.0 0.0 chrM 17040 17071 (2453) + (TA)n Simple_repeat 1 32 (0) 84499 - 20 4.3 0.0 0.0 chrM 17417 17440 (2084) + (T)n Simple_repeat 1 24 (0) 84500 - 31 6.9 6.3 1.5 chrM 17451 17513 (2011) + (TA)n Simple_repeat 1 66 (0) 84501 - 26 17.0 0.0 0.0 chrM 19469 19514 (10) + A-rich Low_complexity 1 46 (0) 84502 - |