Repository 'repenrich'
hg clone https://toolshed.g2.bx.psu.edu/repos/artbio/repenrich

Changeset 15:2e3d976e7d5d (2024-04-21)
Previous changeset 14:bf866bedd4b4 (2024-04-20)
Commit message:
planemo upload for repository https://github.com/ARTbio/tools-artbio/tree/main/tools/repenrich commit 03183e29f807ec33548016a7c4144f52720b7b9e
modified:
RepEnrich_setup.py
macros.xml
repenrich.xml
removed:
test-data/chrM.fa
test-data/chrM_repeatmasker.txt
b
diff -r bf866bedd4b4 -r 2e3d976e7d5d RepEnrich_setup.py
--- a/RepEnrich_setup.py Sat Apr 20 12:13:52 2024 +0000
+++ b/RepEnrich_setup.py Sun Apr 21 09:44:51 2024 +0000
[
@@ -71,7 +71,7 @@
 genome = defaultdict(dict)
 
 for chr in g.keys():
-    genome[chr]['sequence'] = g[chr].seq
+    genome[chr]['sequence'] = str(g[chr].seq)
     genome[chr]['length'] = len(g[chr].seq)
 
 # Build a bedfile of repeatcoordinates to use by RepEnrich region_sorter
@@ -100,7 +100,7 @@
 
 # generate metagenomes and save them to FASTA files for bowtie build
 for repname in rep_coords:
-    metagenome = ''
+    genomes_list = []
     # iterating coordinate list by block of 3 (chr, start, end)
     block = 3
     for i in range(0, len(rep_coords[repname]) - block + 1, block):
@@ -109,11 +109,8 @@
         start = max(int(batch[1]) - flankingl, 0)
         end = min(int(batch[2]) + flankingl,
                   int(genome[chromosome]['length'])-1) + 1
-        metagenome = (
-            f"{metagenome}{spacer}"
-            f"{genome[chromosome]['sequence'][start:end]}"
-            )
-
+        genomes_list.append(genome[chromosome]['sequence'][start:end])
+    metagenome = spacer.join(genomes_list)
     # Create Fasta of repeat pseudogenome
     fastafilename = f"{repname}.fa"
     record = SeqRecord(Seq(metagenome), id=repname, name='', description='')
b
diff -r bf866bedd4b4 -r 2e3d976e7d5d macros.xml
--- a/macros.xml Sat Apr 20 12:13:52 2024 +0000
+++ b/macros.xml Sun Apr 21 09:44:51 2024 +0000
b
@@ -1,6 +1,6 @@
 <macros>
     <token name="@TOOL_VERSION@">2.31.1</token>
-    <token name="@VERSION_SUFFIX@">1</token>
+    <token name="@VERSION_SUFFIX@">2</token>
     <token name="@PROFILE@">23.0</token>
 
     <xml name="repenrich_requirements">
b
diff -r bf866bedd4b4 -r 2e3d976e7d5d repenrich.xml
--- a/repenrich.xml Sat Apr 20 12:13:52 2024 +0000
+++ b/repenrich.xml Sun Apr 21 09:44:51 2024 +0000
b
@@ -34,7 +34,7 @@
             #end if
         #end if
         ln -f -s '$genome' 'genome.fa' &&
-        bowtie-build '$genome' genome &&
+        bowtie-build --threads \${GALAXY_SLOTS:-1} '$genome' genome &&
         python $__tool_directory__/RepEnrich_setup.py
             --annotation_file '$repeatmasker'
             --genomefasta 'genome.fa'
b
diff -r bf866bedd4b4 -r 2e3d976e7d5d test-data/chrM.fa
--- a/test-data/chrM.fa Sat Apr 20 12:13:52 2024 +0000
+++ /dev/null Thu Jan 01 00:00:00 1970 +0000
b
b'@@ -1,392 +0,0 @@\n->chrM\n-AATGAATTGCCTGATAAAAAGGATTACCTTGATAGGGTAAATCATGCAGT\n-TTTCTGCATTCATTGACTGATTTATATATTATTTATAAAGATGATTTTAT\n-ATTTAATAGAATTAAACTATTTCTAAAAGTATCAAAAACTTTTGTGCATC\n-ATACACCAAAATATATTTACAAAAAGATAAGCTAATTAAGCTACTGGGTT\n-CATACCCCATTTATAAAGGTTATAATCCTTTTCTTTTTAATTTTTAATAA\n-TTCGTCAAAAATTTTATTTATTACAATTATAATTATTGGGACATTAATTA\n-CAGTTACATCTAATTCTTGGTTAGGAGCTTGAATAGGTTTAGAAATTAAT\n-TTATTATCTTTTATCCCCCTATTAAGAGATAATAATAATTTAATATCTAC\n-AGAAGCTTCTTTAAAATATTTTTTAACCCAAGTTTTAGCTTCAACTGTTT\n-TATTATTTTCTTCAATTTTATTAATATTAAAAAATAATATAAATAATGAA\n-ATTAATGAATCTTTTACATCCATAATTATTATATCAGCTTTATTATTAAA\n-AAGTGGAGCCGCTCCTTTCCATTTTTGATTTCCTAATATAATAGAAGGTT\n-TAACATGAATAAATGCTTTAATATTAATAACTTGACAAAAAATTGCACCT\n-TTAATATTAATTTCTTATCTTAATATTAAATATTTATTATTAATTAGAGT\n-AATTTTATCAGTTATTATTGGAGCTATTGGAGGATTAAATCAAACTTCTT\n-TACGAAAATTAATAGCATTTTCTTCAATTAATCATTTAGGGTGAATATTA\n-AGATCTTTAATAATTAGAGAATCAATTTGATTAATTTATTTTTTTTTTTA\n-TTCATTTTTATCATTTGTATTAACATTTATATTTAATATTTTTAAATTAT\n-TTCATTTAAATCAATTATTTTCTTGATTTGTTAATAGAAAAATTTTGAAA\n-TTTACATTATTTATAAATTTTTTATCATTAGGAGGATTACCTCCATTTTT\n-AGGATTTTTACCAAAATGACTTGTAATTCAACAATTAACATTATGTAATC\n-AATATTTTATATTAACACTTATAATAATATCAACTTTAATTACATTATTT\n-TTTTATTTACGAATTTGTTATTCCGCTTTTATAATAAATTATTTTGAAAA\n-TAACTGAATCATAAAGATAAATATAAATAGTATTAATTATAATATATATA\n-TAATTATAACttttttttcaatttttggattatttttaatttctttattt\n-tattttatattTTAAGGCTTTAAGTTAATAAAACTAATAACCTTCAAAGC\n-TATAAATAAAGAAATTTCTTTAAGCCTTAGTAAAACTTACTCCTTCAAAA\n-TTGCAGTTTGATATCATTATTGACTATAAGACCTAATTAATTTGTCCTTA\n-TTTGATTAAGAAGAATAAATCTTATATATAGATTTACAATCTATCGCCTA\n-AACTTCAGCCACTTAATCAATAATCGCGACAATGATTATTTTCTACAAAT\n-CATAAAGATATCGGAACTTTATATTTTATTTTTGGAGCTTGAGCTGGAAT\n-AGTTGGAACATCTTTAAGAATTTTAATTCGAGCTGAATTAGGACATCCTG\n-GAGCATTAATTGGAGATGATCAAATTTATAATGTAATTGTAACTGCACAT\n-GCTTTTATTATAATTTTTTTTATAGTTATACCTATTATAATTGGTGGATT\n-TGGAAATTGATTAGTGCCTTTAATATTAGGTGCTCCTGATATAGCATTCC\n-CACGAATAAATAATATAAGATTTTGACTTCTACCTCCTGCTCTTTCTTTA\n-CTATTAGTAAGTAGAATAGTTGAAAATGGAGCTGGGACAGGATGAACTGT\n-TTATCCACCTCTATCCGCTGGAATTGCTCATGGTGGAGCTTCAGTTGATT\n-TAGCTATTTTTTCTCTACATTTAGCAGGAATTTCTTCAATTTTAGGAGCT\n-GTAAATTTTATTACAACTGTAATTAATATACGATCAACAGGAATTTCATT\n-AGATCGTATACCTttatttgtttgatcagtagttattactgctttattat\n-tattattatCACTTCCAGTACTAGCAGGAGCTATTACTATATTATTAACA\n-GATCGAAATTTAAATACATCATTTTTTGACCCAGCGGGAGGAGGAGATCC\n-TATTTTATACCAACATTTATTTTGATTTTTTGGTCATCCTGAAGTTTATA\n-TTTTAATTTTACCTGGATTTGGAATAATTTCTCATATTATTAGACAAGAA\n-TCAGGAAAAAAGGAAACTTTTGGTTCTCTAGGAATAATTTATGCTATATT\n-AGCTATTGGATTATTAGGATTTATTGTATGAGCTCATCATATATTTACCG\n-TTGGAATAGATGTAGATACTCGAGCTTATTTTACCTCAGCTACTATAATT\n-ATTGCAGTTCCTACTGGAATTAAAATTTTTAGTTGATTAGCTACTTTACA\n-TGGAACTCAACTTTCTTATTCTCCAGCTATTTTATGAGCTTTAGGATTTG\n-TTTTTTTATTTACAGTAGGAGGATTAACAGGAGTTGTTTTAGCTAATTCA\n-TCAGTAGATATTATTTTACATGATACTTATTATGTAGTAGCTCATTTTCA\n-TTATGTTTTATCTATAGGAGCTGTATTTGCTATTATAGCAGGTTTTATTC\n-ACTGATACCCCTTATTTACTGGATTAACGTTAAATAATAAATGATTAAAA\n-AGTCATTTCATTATTATATTTATTGGAGTTAATTTAACATTTTTTCCTCA\n-ACATTTTTTAGGATTGGCTGGAATACCTCGACGTTATTCAGATTACCCAG\n-ATGCTTACACAACATGAAATATTGTATCAACTATTGGATCAACTATTTCA\n-TTATTAGGAATTTTATTCTTTTTTTTTATTATTTGAGAAAGTTTAGTATC\n-ACAACGACAAGTAATTTACCCAATTCAACTAAATTCATCAATTGAATGAT\n-ACCAAAATACTCCACCAGCTGAACATAGATATTCTGAATTACCACTTTTA\n-ACAAATTAATTTCTAATATGGCAGATTAGTGCAATAGATTTAAGCTCTAT\n-ATATAAAGTATTTTACTTTTATTAGAAAATAAATGTCTACATGAGCTAAT\n-TTAGGTTTACAAGATAGAGCTTCTCCTTTAATAGAACAATTAATTTTTTT\n-TCATGATCATGCATTATTAATTTTAGTAATAATTACAGTATTGGTGGGAT\n-ATTTAATATTTATATTATTTTTTAATAATTATGTAAATCGATTTCTTTTA\n-CATGGACAACTTATTGAAATAATTTGAACTATTTTACCAGCAATTATTTT\n-ACTATTTATTGCTCTTCCTTCTTTACGTTTACTTTATTTATTAGATGAAA\n-TTAATGAACCATCTGTAACTTTAAAAAGAATCGGCCATCAATGATATTGA\n-AGTTACGAATATTCAGATTTTAATAATATTGAATTTGATTCATATATAAT\n-TCCAACAAATGAATTAATAACTGATGGATTTCGATTATTAGATGTTGATA\n-ACCGAGTAGTTTTACCCATAAACTCACAAATTCGAATTTTAGTAACAGCT\n-GCTGATGTTATTCATTCTTGAACAGTACCTGCTTTAGGAGTAAAAGTTGA\n-CGGTACACCTGGACGATTAAATCAAACTAATTTTTTTATTAATCGACCGG\n-GTTTATTTTATGGTCAATGTTCAGAAATCTGTGGAGCTAATCATAGATTT\n-ATACCGATTGTAATTGAAAGTGTTCCTGTAAATTACTTTATTAAATGAAT\n-TTCTAGAAATAACTCTTCATTAGATGACTGAAAGCAAGTACTGGTCTCTT\n-AAACCATTTAATAGTAAATTA'..b'TATTTATAAATTTATTATAT\n-AATTAAAACTTAAAAAATATTTTTTTTAAAAAAATAGTTTATTAAATTAT\n-ACTTAATAAACTATTTTTATAATAAATTATTTTATAAATAAAATTATTTA\n-AAATAATTAATAAAAATATTTTTATTGTAATAAAAATTAAAAATAATTTT\n-AAAAAAATTAAATTTATATATTTATATATATATATATATAATTTTTAATT\n-TTCAATTAAATTATATAAATATAATAAAATAATTTTATTTAATCACTAAA\n-TCTGAAATAATTAATtataaatatatatatatatatatatatatatatat\n-atatataAATGAAAATAAATTTATTCCCCCTATTCATAAATTTATTGTAT\n-AATTAAAACTTAAAAAATATTTTTTTTTAAAAAAAAATTATTTATTAAAT\n-TATACTTAATAAACTATTTTTATAATAAATTATTTTATAAATAAAATTAT\n-TTTAAATAATTAATAAAAATATTTTTAATATAATAAAAATTTAAAATGAT\n-TTTTTATAAAAATTAAATTCATATTTATATATATATATATATAATTTAAT\n-TTTCAATTAAATTATATAAGTATAATAAAATAATTTATTTTAATCACTAA\n-ATCTGAATTAATTAATTGTATATATATATATATATATAAAAAAAATGAAA\n-ATAAATTTATTCCCCCTATTCATAAATTTATTATATAATTAAATCTTAAA\n-AAGTATTTTTTTTTTAAAAAAAAATTATTTATTAAATTATACTTAATAAA\n-CTATTTTTATAATAAATTATTTTATGAATAAAATTATTTAAAATAATTTA\n-TAAAAATATTTTTAATATAATGAAAATTTAAAATGATTTTTTATTATTAA\n-TTAAATTCatatatttacatatatatatatatatatatatatatataGAT\n-AATTTAATTTTCAATTAAATTATATAAGTATAATAAAATAATTTATTTTA\n-ATCACTAAATCTGAATTAATTAATTGTATGTATATATATATATATATATA\n-TAAAAAAATGAAAATAAATTTATTCCCCCTATTCATAAATTTATTATATA\n-ATTAAATCTTAAAAAGTATTTTTTTTTAAAAAAAAAATTATTTATTAAAT\n-TATACTTAATAAACTATTTTTATAATAAATTATTTTATGAATAAAATTAT\n-TTAAAATAATTAATAAAAATATTTTTAATATAATGAAAATTTAAAATGAT\n-TTTTTATTATTAATTAAATTCatatatttatatatatatatatatatata\n-tatataGATAATTTAATTTTCAATTAAATTATATAAGTATAATAAAATAA\n-TTTATTTTAATCACTAAATCTGAATTAATTAATTGTATGtatatatatat\n-atatatatatatatatatataAAAAATGAAAATAAATTTATTCCCCCTAT\n-TCATAAATTTATTATATAATTAAATCTTAAAAAGTATTTTTTTTTAAAAA\n-AAAATTATTTATTAAATTATACTTAATAAACTATTTTTATAATAAATTAT\n-TTTATGAATAAAATTATTTAAAATAATTAATAAAAATTATATATATATAT\n-AAATGAAAATAATTTTTAAATTTTAATAATAAATAAATTTAATAATTAAT\n-AATTAAATAAAATCTATTCATTATTAATATTTAATTAATAATAAATAAAT\n-TTAATAACTAATAATTAAATAAAATTTATTTATTATTAATATTTAATTAA\n-TAATAAAAAATCATCAttttttttttttttttttttatttAATTAATTAT\n-tatatatttataaatttatatattattcaatatttataatatatatatat\n-atatatatatataAAAATTAAATTATTTAAATAATTTAATATAAATTTTT\n-AAAAAATTTCTTAAATGTATTATTTTTATAAAAAATATTTATATAATAAA\n-ATTATTTTTTTTTAAAAATAAACAAAAAATTTTTAATAAATAAATTTTAT\n-AATGAAATATAATTTATTTATTTTTTATTTTTTTAAAAAAAATTTAAAAA\n-AAAATAATTTTTTTTTAAAAAAAAACTATATACTAATTATAAATTAATAG\n-ATATTTATATATATATAAATATTTAATATATTATTATATATCTAATAATT\n-TAAATAAAAAATTTTAAAATTTAAAAATGTAGATATAATTTATAAAAATT\n-TATATTCTCATATTTATTTATTATTAATTTAATTTATATAAATAATATAA\n-TAATTTAATTAATTATTATATATTTATAAATTTATATATTATTGAATATT\n-TATATAATATATATATATATATAGAAAAATTAAATTATTTAAATAATTTA\n-ATATAAATTTTTAAAAAATTTCTTAAATGTATTATTTTTATAAAAAATAT\n-TTATATAATAAAATCATTTTTTTTTAAAAATAAACAAAAAATTTTTAATA\n-AATAAATTTTATAATGAAATATAATTTATTTATTTTTTATTTTTTTAAAA\n-AAAAATTTTTTAAAAAAAAATAATTTTTTTTTTAAAAAAACTATATACTA\n-ATTATAAATTAATAGATATTTATATATATATAAATATTTAATATATTATT\n-ATATATCTAATAATTTAAATAAAAAATTTTAAAATTTAAAAATGTAGATA\n-TAATTTATAAAAATTTATATTCTCATATTTATTTATTATTAATTTAATTT\n-ATATAAATAATATAATAATTTAATTAATTATTATATATTTATAAATTTAT\n-ATATTATTGAATATTTATATAATATATATATATATATAGAAAAATTAAAT\n-TATTTAAATAATTTAATATAAATTTTTAAAAAATTTCTTAAATGTATTAT\n-TTTTATAAAAAATATTTATATAATAAAATCATTTTTTTTAAAAATAAACA\n-AAAAATTTTTAATAAATAAATTTTATAATGAAATATAATTTATTTATTTT\n-TTATTTTTTTAAAAAAAATTTTTTAAAAAAAAATAATTTTTTTTTAAAAA\n-AACTATATACTAAATATAAATTAATAGATATTTATATATATATAAATATT\n-TAATATATTATTATATATCTAATAATTTAAATAAAAAATTTTAAAATTTA\n-AAAATGTAGATATAATTTATAAAAATTTATATTCTCATATTTATTTATTA\n-TTAATTTAATTTATATAAATAATATAATAATTTAATTAATTATTATATAT\n-TTATAAATTTATATATTATTGAATATTTATATAATATATATATATATATA\n-GAAAAATTAAATTATTTAAATAATTTAATATAAATTTTTAAAAAATTTCT\n-TAAATGTATTATTTTTATAAAAAATATTTATATAATAAAATCATTTTTTT\n-TTAAAAATAAACAAAAAATTTTTAATAAATAAATTTTATAATGAAATATA\n-ATTTATTTATTTTTTATTTTTTTTAAAAAAAATTTTTTAAAAAAAATAAT\n-TTTTTTTTAAAAAAACTATATACTAAATATAAATTAATAGATATTTATAT\n-ATATATAAATATTTAATATATTATTATATATCTAATAATTTAAATAAAAA\n-ATTTTAAAATTTAAAAATGTAGATATAATTTATAAAAATTTATATTCTCA\n-TATTTATTTATTATTAATTTAATTTATATAAATAATATAATAATTTAATT\n-AATTATTATATATTTATAAATTTATATATTATTGAATATTTATATATAAT\n-ATATATATATATAGAAAAATAAAATTATTTAAATAATTTTACATAAAATT\n-TTAAAAAATTTCTTAAATGTATTATTTAATAAAAAATTACTTTTTAAAAA\n-AAATAATTTTAATTTTTTaaaaaaaatagtaaataataaaaaaaaaaaaa\n-aaaaaaaatgaaaaTTATATTATT\n'
b
diff -r bf866bedd4b4 -r 2e3d976e7d5d test-data/chrM_repeatmasker.txt
--- a/test-data/chrM_repeatmasker.txt Sat Apr 20 12:13:52 2024 +0000
+++ /dev/null Thu Jan 01 00:00:00 1970 +0000
b
@@ -1,21 +0,0 @@
-   SW  perc perc perc  query      position in query           matching       repeat              position in  repeat
-score  div. del. ins.  sequence    begin     end    (left)    repeat         class/family         begin  end (left)   ID
-
-   16  20.2  5.9  0.0  chrM         1211    1261   (18263) +  (TTTTA)n       Simple_repeat            1   54    (0)  84486
-   13  23.9  2.2  2.2  chrM         2014    2059   (17465) +  (TTA)n         Simple_repeat            1   46    (0)  84487
-   24  18.8  5.3  2.6  chrM         3924    3999   (15525) +  (TAT)n         Simple_repeat            1   78    (0)  84488
-   18   4.5  0.0  0.0  chrM         5961    5983   (13541) +  (AT)n          Simple_repeat            1   23    (0)  84489
-   13  25.9  4.0  4.0  chrM         6247    6320   (13204) +  (ATTTAT)n      Simple_repeat            1   74    (0)  84490
-   11  14.6  7.5  2.4  chrM         8783    8822   (10702) +  (CTAATT)n      Simple_repeat            1   42    (0)  84491
-   17  19.0  0.0  8.6  chrM         9064    9126   (10398) +  A-rich         Low_complexity           1   58    (0)  84492
-   13  21.0  5.9  1.9  chrM        11723   11773    (7751) +  (ATA)n         Simple_repeat            1   53    (0)  84493
-   66  20.4 12.3 12.3  chrM        12823   13001    (6523) C  LSU-rRNA_Cel   rRNA                   (1) 2431   2253  84494
-   16  16.6  0.0  2.9  chrM        14361   14396    (5128) +  (ATT)n         Simple_repeat            1   35    (0)  84495
-   44   2.4  0.0  0.0  chrM        15966   16007    (3517) +  (TA)n          Simple_repeat            1   42    (0)  84496
-   35   5.3  0.0  0.0  chrM        16559   16597    (2927) +  (AT)n          Simple_repeat            1   39    (0)  84497
-   36   2.9  0.0  0.0  chrM        16922   16956    (2568) +  (AT)n          Simple_repeat            1   35    (0)  84498
-   37   0.0  0.0  0.0  chrM        17040   17071    (2453) +  (TA)n          Simple_repeat            1   32    (0)  84499
-   20   4.3  0.0  0.0  chrM        17417   17440    (2084) +  (T)n           Simple_repeat            1   24    (0)  84500
-   31   6.9  6.3  1.5  chrM        17451   17513    (2011) +  (TA)n          Simple_repeat            1   66    (0)  84501
-   26  17.0  0.0  0.0  chrM        19469   19514      (10) +  A-rich         Low_complexity           1   46    (0)  84502
-