repeatexplorer2: repex_full_clustering.xml annotate

author	petr-novak
date	Wed, 08 Jan 2020 06:44:56 -0500
parents
children	2f52966cbaf1

rev	line source
0 15b422443267 Uploaded petr-novak parents: diff changeset	1 <tool id="repeatexplorer2" name="RepeatExplorer2 clustering: " version="2.3.7" >
15b422443267 Uploaded petr-novak parents: diff changeset	2 <stdio>
15b422443267 Uploaded petr-novak parents: diff changeset	3 <regex match="lastdb: can't open file: NEAR" source="stderr" level="fatal" description="Version of last is too old, use ver 956 or higher\n" />
15b422443267 Uploaded petr-novak parents: diff changeset	4 <regex match="Traceback" source="stderr" level="fatal" description="Unknown error" />
15b422443267 Uploaded petr-novak parents: diff changeset	5 <regex match="error" source="stderr" level="fatal" description="Unknown error" />
15b422443267 Uploaded petr-novak parents: diff changeset	6 <regex match="Warning" source="stderr" level="warning" description="Unknown error" />
15b422443267 Uploaded petr-novak parents: diff changeset	7 <exit_code range="1:" level="fatal" description="Error" />
15b422443267 Uploaded petr-novak parents: diff changeset	8 </stdio>
15b422443267 Uploaded petr-novak parents: diff changeset	9 <description>Improved version or repeat discovery and characterization using graph based sequence clustering</description>
15b422443267 Uploaded petr-novak parents: diff changeset	10 <requirements>
15b422443267 Uploaded petr-novak parents: diff changeset	11 <requirement type="package">last</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	12 <requirement type="package">imagemagick</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	13 <requirement type="package">mafft</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	14 <requirement type="package">blast</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	15 <requirement type="package">diamond</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	16 <requirement type="package">blast-legacy</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	17 <requirement type="package">r-igraph</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	18 <requirement type="package">r-data.tree</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	19 <requirement type="package">r-stringr</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	20 <requirement type="package">r-r2html</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	21 <requirement type="package">r-hwriter</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	22 <requirement type="package">r-dt</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	23 <requirement type="package">r-scales</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	24 <requirement type="package">r-plotrix</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	25 <requirement type="package">r-png</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	26 <requirement type="package">r-plyr</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	27 <requirement type="package">r-dplyr</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	28 <requirement type="package">r-optparse</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	29 <requirement type="package">r-dbi</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	30 <requirement type="package">r-rsqlite</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	31 <requirement type="package">r-rserve</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	32 <requirement type="package">bioconductor-biostrings</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	33 <requirement type="package" version="2.3.7">repex_tarean</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	34 <requirement type="set_environment">REPEX</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	35 <requirement type="set_environment">REPEX_VERSION</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	36 <requirement type="package" version="0.9.1" >pyrserve</requirement>
15b422443267 Uploaded petr-novak parents: diff changeset	37 </requirements>
15b422443267 Uploaded petr-novak parents: diff changeset	38 <command >
15b422443267 Uploaded petr-novak parents: diff changeset	39 export PYTHONHASHSEED=0;
15b422443267 Uploaded petr-novak parents: diff changeset	40 \${REPEX}/seqclust --sample ${sample} --output_dir=tarean_output --logfile=${log} --cleanup $paired --taxon $taxon
15b422443267 Uploaded petr-novak parents: diff changeset	41
15b422443267 Uploaded petr-novak parents: diff changeset	42 #if $advanced_options.advanced:
15b422443267 Uploaded petr-novak parents: diff changeset	43 --mincl $advanced_options.size_threshold $advanced_options.keep_names $advanced_options.automatic_filtering -D $advanced_options.blastx.options_blastx
15b422443267 Uploaded petr-novak parents: diff changeset	44 --assembly_min $advanced_options.assembly_min_cluster_size
15b422443267 Uploaded petr-novak parents: diff changeset	45
15b422443267 Uploaded petr-novak parents: diff changeset	46 #if $advanced_options.comparative.options_comparative:
15b422443267 Uploaded petr-novak parents: diff changeset	47 --prefix_length $advanced_options.comparative.prefix_length
15b422443267 Uploaded petr-novak parents: diff changeset	48 #end if
15b422443267 Uploaded petr-novak parents: diff changeset	49
15b422443267 Uploaded petr-novak parents: diff changeset	50 #if $advanced_options.custom_library.options_custom_library:
15b422443267 Uploaded petr-novak parents: diff changeset	51 -d $advanced_options.custom_library.library extra_database
15b422443267 Uploaded petr-novak parents: diff changeset	52 #end if
15b422443267 Uploaded petr-novak parents: diff changeset	53
15b422443267 Uploaded petr-novak parents: diff changeset	54 #if $advanced_options.options.options:
15b422443267 Uploaded petr-novak parents: diff changeset	55 -opt $advanced_options.options.options
15b422443267 Uploaded petr-novak parents: diff changeset	56 #end if
15b422443267 Uploaded petr-novak parents: diff changeset	57 #end if
15b422443267 Uploaded petr-novak parents: diff changeset	58 ${FastaFile} >stdout.log 2> stderr.log ;
15b422443267 Uploaded petr-novak parents: diff changeset	59 echo "STDOUT CONTENT:" >> ${log} ;
15b422443267 Uploaded petr-novak parents: diff changeset	60 cat stdout.log >> ${log} ;
15b422443267 Uploaded petr-novak parents: diff changeset	61 echo "STDERR CONTENT:" >> ${log};
15b422443267 Uploaded petr-novak parents: diff changeset	62 cat stderr.log >> ${log} &&
15b422443267 Uploaded petr-novak parents: diff changeset	63 \${REPEX}/stderr_filter.py stderr.log &&
15b422443267 Uploaded petr-novak parents: diff changeset	64 cd tarean_output &&
15b422443267 Uploaded petr-novak parents: diff changeset	65 zip -r ${ReportArchive}.zip * &&
15b422443267 Uploaded petr-novak parents: diff changeset	66 mv ${ReportArchive}.zip ${ReportArchive} &&
15b422443267 Uploaded petr-novak parents: diff changeset	67 cp index.html ${ReportFile} &&
15b422443267 Uploaded petr-novak parents: diff changeset	68 mkdir ${ReportFile.files_path} &&
15b422443267 Uploaded petr-novak parents: diff changeset	69 cp -r --parents libdir ${ReportFile.files_path} &&
15b422443267 Uploaded petr-novak parents: diff changeset	70 cp -r --parents seqclust/clustering/superclusters ${ReportFile.files_path} &&
15b422443267 Uploaded petr-novak parents: diff changeset	71 cp -r --parents seqclust/clustering/clusters ${ReportFile.files_path} &&
15b422443267 Uploaded petr-novak parents: diff changeset	72 cp seqclust/clustering/hitsort.cls ${ReportFile.files_path}/seqclust/clustering/hitsort.cls &&
15b422443267 Uploaded petr-novak parents: diff changeset	73 cp *.png ${ReportFile.files_path}/ &&
15b422443267 Uploaded petr-novak parents: diff changeset	74 cp *.csv ${ReportFile.files_path}/ &&
15b422443267 Uploaded petr-novak parents: diff changeset	75 cp *.html ${ReportFile.files_path}/ &&
15b422443267 Uploaded petr-novak parents: diff changeset	76 cp *.css ${ReportFile.files_path}/ &&
15b422443267 Uploaded petr-novak parents: diff changeset	77 cp *.fasta ${ReportFile.files_path}/ 2>>$log && rm -r ../tarean_output \|\| :
15b422443267 Uploaded petr-novak parents: diff changeset	78
15b422443267 Uploaded petr-novak parents: diff changeset	79 </command>
15b422443267 Uploaded petr-novak parents: diff changeset	80 <inputs>
15b422443267 Uploaded petr-novak parents: diff changeset	81 <param name="FastaFile" label="NGS reads" type="data" format="fasta"
15b422443267 Uploaded petr-novak parents: diff changeset	82 help="Input file must contain fasta-formatted NGS reads. If paired end reads are used, reads must be interlaced and all pairs must be complete. Example of input data format is provided in the help below. "/>
15b422443267 Uploaded petr-novak parents: diff changeset	83 <param name="paired" type="boolean" truevalue="--paired" falsevalue="" checked="True" label="Paired-end reads" help="Check if you are using pair reads and input sequences contain both read mates and left mates alternate with their right mates" />
15b422443267 Uploaded petr-novak parents: diff changeset	84
15b422443267 Uploaded petr-novak parents: diff changeset	85 <param name="sample" label="Sample size" type="integer" value="500000" min="10000"/>
15b422443267 Uploaded petr-novak parents: diff changeset	86 <param name="taxon" label="Select taxon and protein domain database version (REXdb)" type="select" help="Reference database of transposable element protein domains - REXdb - is used for annotation of repeats">
15b422443267 Uploaded petr-novak parents: diff changeset	87 <option value="VIRIDIPLANTAE3.0" selected="true">Viridiplantae version 3.0 </option>
15b422443267 Uploaded petr-novak parents: diff changeset	88 <option value="VIRIDIPLANTAE2.2" selected="true">Viridiplantae version 2.2</option>
15b422443267 Uploaded petr-novak parents: diff changeset	89 <option value="METAZOA3.0" >Metazoa version 3.0</option>
15b422443267 Uploaded petr-novak parents: diff changeset	90 <option value="METAZOA2.0" >Metazoa version 2.0</option>
15b422443267 Uploaded petr-novak parents: diff changeset	91 <!-- Modify setting in config.py accordingly -->
15b422443267 Uploaded petr-novak parents: diff changeset	92 </param>
15b422443267 Uploaded petr-novak parents: diff changeset	93
15b422443267 Uploaded petr-novak parents: diff changeset	94 <conditional name="advanced_options">
15b422443267 Uploaded petr-novak parents: diff changeset	95 <param name="advanced" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Advanced options" />
15b422443267 Uploaded petr-novak parents: diff changeset	96 <when value="false">
15b422443267 Uploaded petr-novak parents: diff changeset	97 <!-- pass -->
15b422443267 Uploaded petr-novak parents: diff changeset	98 </when>
15b422443267 Uploaded petr-novak parents: diff changeset	99 <when value="true">
15b422443267 Uploaded petr-novak parents: diff changeset	100 <conditional name="comparative">
15b422443267 Uploaded petr-novak parents: diff changeset	101 <param name="options_comparative" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Perform comparative analysis" help="Use this options when you want to compare sequences multiple groups"/>
15b422443267 Uploaded petr-novak parents: diff changeset	102 <when value="false">
15b422443267 Uploaded petr-novak parents: diff changeset	103 <!-- do nothing here -->
15b422443267 Uploaded petr-novak parents: diff changeset	104 </when>
15b422443267 Uploaded petr-novak parents: diff changeset	105 <when value="true">
15b422443267 Uploaded petr-novak parents: diff changeset	106 <param name="prefix_length" label="Group code length" type="integer" value="3" min="1" max="10" help="For comparative analysis, sequences are from individial groups distinguished by sample code which must be used as prefix for sequence name. See example below."/>
15b422443267 Uploaded petr-novak parents: diff changeset	107 </when>
15b422443267 Uploaded petr-novak parents: diff changeset	108 </conditional>
15b422443267 Uploaded petr-novak parents: diff changeset	109
15b422443267 Uploaded petr-novak parents: diff changeset	110 <conditional name="blastx">
15b422443267 Uploaded petr-novak parents: diff changeset	111 <param name="options_blastx" type="select" label="Select parameters for protein domain search">
15b422443267 Uploaded petr-novak parents: diff changeset	112 <option value="BLASTX_W2" selected="false">blastx with word size 2 (the most sensitive, slowest)</option>
15b422443267 Uploaded petr-novak parents: diff changeset	113 <option value="BLASTX_W3" selected="true">blastx with word size 3 (default)</option>
15b422443267 Uploaded petr-novak parents: diff changeset	114 <option value="DIAMOND" selected="false">diamond program (the least sensitive, fastest)</option>
15b422443267 Uploaded petr-novak parents: diff changeset	115 </param>
15b422443267 Uploaded petr-novak parents: diff changeset	116 </conditional>
15b422443267 Uploaded petr-novak parents: diff changeset	117
15b422443267 Uploaded petr-novak parents: diff changeset	118 <conditional name="options">
15b422443267 Uploaded petr-novak parents: diff changeset	119 <param name="options" type="select" label="Similarity search options" help="Different similarity search parameters are used depending on the used input data to adjust search to differences in length and error rate">
15b422443267 Uploaded petr-novak parents: diff changeset	120 <option value="ILLUMINA" selected="true">Illumina reads, read length 100nt or more </option>
15b422443267 Uploaded petr-novak parents: diff changeset	121 <option value="ILLUMINA_SHORT" selected="false">Illumina reads, shorter than 100nt (Do not use reads shorter than 50nt!) </option>
15b422443267 Uploaded petr-novak parents: diff changeset	122 <option value="ILLUMINA_DUST_OFF" selected="false">Illumina reads, no masking of low complexity repeats </option>
15b422443267 Uploaded petr-novak parents: diff changeset	123 <option value="OXFORD_NANOPORE" selected="false">
15b422443267 Uploaded petr-novak parents: diff changeset	124 Pseudo short reads simulated from Oxford Nanopore data (experimental feature)
15b422443267 Uploaded petr-novak parents: diff changeset	125 </option>
15b422443267 Uploaded petr-novak parents: diff changeset	126 </param>
15b422443267 Uploaded petr-novak parents: diff changeset	127 </conditional>
15b422443267 Uploaded petr-novak parents: diff changeset	128
15b422443267 Uploaded petr-novak parents: diff changeset	129 <conditional name="custom_library">
15b422443267 Uploaded petr-novak parents: diff changeset	130 <param name="options_custom_library" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Use custom repeat database"/>
15b422443267 Uploaded petr-novak parents: diff changeset	131 <when value="false">
15b422443267 Uploaded petr-novak parents: diff changeset	132 <!-- do nothing here -->
15b422443267 Uploaded petr-novak parents: diff changeset	133 </when>
15b422443267 Uploaded petr-novak parents: diff changeset	134 <when value="true">
15b422443267 Uploaded petr-novak parents: diff changeset	135 <param name="library" format="fasta" type="data" label="Custom library of repeats" help="Library of repeats as DNA sequences in fasta format. The required format for IDs in a custom library is : '>reapeatname#class/subclass'"/>
15b422443267 Uploaded petr-novak parents: diff changeset	136 </when>
15b422443267 Uploaded petr-novak parents: diff changeset	137 </conditional>
15b422443267 Uploaded petr-novak parents: diff changeset	138 <param name="size_threshold" label="Cluster size threshold for detailed analysis" type="float" value="0.01" min="0.0001" max="100" help ="Minimal size (as percentage of input reads) of the smallest cluster which is analyzed, cluster with less than 20 reads are not considered at all."/>
15b422443267 Uploaded petr-novak parents: diff changeset	139 <param name="automatic_filtering" label="Perform automatic filtering of abundant satellite repeats" help="Automatic filtering tries to identify the most abundant tandem repeats and remove such sequences partially from analysis. Removal of abundant tandem repeat can enable to analyze higher proportion of other less abundant repeats." type="boolean" truevalue="--automatic_filtering" falsevalue="" checked="false"/>
15b422443267 Uploaded petr-novak parents: diff changeset	140 <param name="keep_names" label="Keep original sequences names" type="boolean" truevalue="--keep_names" falsevalue="" checked="false" help="By default sequence are relabeled using integers. If you want to keep original names, use this option."/>
15b422443267 Uploaded petr-novak parents: diff changeset	141 <param name="assembly_min_cluster_size" type="integer" label="min cluster size for assembly" value="5" min="2" max="100"/>
15b422443267 Uploaded petr-novak parents: diff changeset	142 </when>
15b422443267 Uploaded petr-novak parents: diff changeset	143 </conditional>
15b422443267 Uploaded petr-novak parents: diff changeset	144
15b422443267 Uploaded petr-novak parents: diff changeset	145
15b422443267 Uploaded petr-novak parents: diff changeset	146
15b422443267 Uploaded petr-novak parents: diff changeset	147 </inputs>
15b422443267 Uploaded petr-novak parents: diff changeset	148 <outputs>
15b422443267 Uploaded petr-novak parents: diff changeset	149 <data name="log" format="txt" label="RepeatExplorer2 - log file"/>
15b422443267 Uploaded petr-novak parents: diff changeset	150 <data name="ReportArchive" format="zip" label="RepeatExplorer2 - Archive with HTML report from data ${FastaFile.hid}"/>
15b422443267 Uploaded petr-novak parents: diff changeset	151 <data name="ReportFile" format="html" label="RepeatExplorer2 - HTML report from data ${FastaFile.hid}"/>
15b422443267 Uploaded petr-novak parents: diff changeset	152 </outputs>
15b422443267 Uploaded petr-novak parents: diff changeset	153
15b422443267 Uploaded petr-novak parents: diff changeset	154 <help>
15b422443267 Uploaded petr-novak parents: diff changeset	155 HELP
15b422443267 Uploaded petr-novak parents: diff changeset	156
15b422443267 Uploaded petr-novak parents: diff changeset	157 RepeatExplorer2 clustering is a computational pipeline for unsupervised
15b422443267 Uploaded petr-novak parents: diff changeset	158 identification of repeats from unassembled sequence reads. The
15b422443267 Uploaded petr-novak parents: diff changeset	159 pipeline uses low-pass whole genome sequence reads and performs graph-based
15b422443267 Uploaded petr-novak parents: diff changeset	160 clustering. Resulting clusters, representing all types of repeats, are then
15b422443267 Uploaded petr-novak parents: diff changeset	161 examined to identify and classify into repeats groups.
15b422443267 Uploaded petr-novak parents: diff changeset	162
15b422443267 Uploaded petr-novak parents: diff changeset	163 Input data
15b422443267 Uploaded petr-novak parents: diff changeset	164
15b422443267 Uploaded petr-novak parents: diff changeset	165 The analysis requires either single or paired-end reads generated
15b422443267 Uploaded petr-novak parents: diff changeset	166 by whole genome shotgun sequencing provided as a single fasta-formatted file.
15b422443267 Uploaded petr-novak parents: diff changeset	167 Generally, paired-end reads provide significantly better results than single
15b422443267 Uploaded petr-novak parents: diff changeset	168 reads. Reads should be of uniform length (optimal size range is 100-200 nt) and
15b422443267 Uploaded petr-novak parents: diff changeset	169 the number of analyzed reads should represent less than 1x genome equivalent
15b422443267 Uploaded petr-novak parents: diff changeset	170 (genome coverage of 0.01 - 0.50 x is recommended). Reads should be
15b422443267 Uploaded petr-novak parents: diff changeset	171 quality-filtered (recommended filtering : quality score >=10 over 95% of bases
15b422443267 Uploaded petr-novak parents: diff changeset	172 and no Ns allowed) and only complete read pairs should be submitted for
15b422443267 Uploaded petr-novak parents: diff changeset	173 analysis. When paired reads are used, input data must be interlaced format
15b422443267 Uploaded petr-novak parents: diff changeset	174 as fasta file:
15b422443267 Uploaded petr-novak parents: diff changeset	175
15b422443267 Uploaded petr-novak parents: diff changeset	176 example of interlaced input format::
15b422443267 Uploaded petr-novak parents: diff changeset	177
15b422443267 Uploaded petr-novak parents: diff changeset	178 >0001_f
15b422443267 Uploaded petr-novak parents: diff changeset	179 CGTAATATACATACTTGCTAGCTAGTTGGATGCATCCAACTTGCAAGCTAGTTTGATG
15b422443267 Uploaded petr-novak parents: diff changeset	180 >0001_r
15b422443267 Uploaded petr-novak parents: diff changeset	181 GATTTGACGGACACACTAACTAGCTAGTTGCATCTAAGCGGGCACACTAACTAACTAT
15b422443267 Uploaded petr-novak parents: diff changeset	182 >0002_f
15b422443267 Uploaded petr-novak parents: diff changeset	183 ACTCATTTGGACTTAACTTTGATAATAAAAACTTAAAAAGGTTTCTGCACATGAATCG
15b422443267 Uploaded petr-novak parents: diff changeset	184 >0002_r
15b422443267 Uploaded petr-novak parents: diff changeset	185 TATGTTGAAAAATTGAATTTCGGGACGAAACAGCGTCTATCGTCACGACATAGTGCTC
15b422443267 Uploaded petr-novak parents: diff changeset	186 >0003_f
15b422443267 Uploaded petr-novak parents: diff changeset	187 TGACATTTGTGAACGTTAATGTTCAACAAATCTTTCCAATGTCTTTTTATCTTATCAT
15b422443267 Uploaded petr-novak parents: diff changeset	188 >0003_r
15b422443267 Uploaded petr-novak parents: diff changeset	189 TATTGAAATACTGGACACAAATTGGAAATGAAACCTTGTGAGTTATTCAATTTATGTT
15b422443267 Uploaded petr-novak parents: diff changeset	190 ...
15b422443267 Uploaded petr-novak parents: diff changeset	191
15b422443267 Uploaded petr-novak parents: diff changeset	192
15b422443267 Uploaded petr-novak parents: diff changeset	193 Comparative analysis
15b422443267 Uploaded petr-novak parents: diff changeset	194
15b422443267 Uploaded petr-novak parents: diff changeset	195 For comparative analysis sequence names must contain code (prefix) for each group.
15b422443267 Uploaded petr-novak parents: diff changeset	196 Prefix in sequences names must be of fixed length.
15b422443267 Uploaded petr-novak parents: diff changeset	197
15b422443267 Uploaded petr-novak parents: diff changeset	198 Example of labeling two groups with where group code length is 2 and is used to distinguish groups - AA and BB ::
15b422443267 Uploaded petr-novak parents: diff changeset	199
15b422443267 Uploaded petr-novak parents: diff changeset	200 >AA0001_f
15b422443267 Uploaded petr-novak parents: diff changeset	201 CGTAATATACATACTTGCTAGCTAGTTGGATGCATCCAACTTGCAAGCTAGTTTGATG
15b422443267 Uploaded petr-novak parents: diff changeset	202 >AA0001_r
15b422443267 Uploaded petr-novak parents: diff changeset	203 GATTTGACGGACACACTAACTAGCTAGTTGCATCTAAGCGGGCACACTAACTAACTAT
15b422443267 Uploaded petr-novak parents: diff changeset	204 >AA0002_f
15b422443267 Uploaded petr-novak parents: diff changeset	205 ACTCATTTGGACTTAACTTTGATAATAAAAACTTAAAAAGGTTTCTGCACATGAATCG
15b422443267 Uploaded petr-novak parents: diff changeset	206 >AA0002_r
15b422443267 Uploaded petr-novak parents: diff changeset	207 TATGTTGAAAAATTGAATTTCGGGACGAAACAGCGTCTATCGTCACGACATAGTGCTC
15b422443267 Uploaded petr-novak parents: diff changeset	208 >BB0001_f
15b422443267 Uploaded petr-novak parents: diff changeset	209 TGACATTTGTGAACGTTAATGTTCAACAAATCTTTCCAATGTCTTTTTATCTTATCAT
15b422443267 Uploaded petr-novak parents: diff changeset	210 >BB0001_r
15b422443267 Uploaded petr-novak parents: diff changeset	211 TATTGAAATACTGGACACAAATTGGAAATGAAACCTTGTGAGTTATTCAATTTATGTT
15b422443267 Uploaded petr-novak parents: diff changeset	212 >BB0002_f
15b422443267 Uploaded petr-novak parents: diff changeset	213 TGACATTTGTGAACGTTAATGTTCAACAAATCTTTCCAATGTCTTTTTATCTTATCAT
15b422443267 Uploaded petr-novak parents: diff changeset	214 >BB0002_r
15b422443267 Uploaded petr-novak parents: diff changeset	215 TATTGAAATACTGGACACAAATTGGAAATGAAACCTTGTGAGTTATTCAATTTATGTT
15b422443267 Uploaded petr-novak parents: diff changeset	216
15b422443267 Uploaded petr-novak parents: diff changeset	217
15b422443267 Uploaded petr-novak parents: diff changeset	218 To prepare quality filtered and interlaced input fasta file from fastq
15b422443267 Uploaded petr-novak parents: diff changeset	219 files, use `Preprocessing of paired-reads`__ tool.
15b422443267 Uploaded petr-novak parents: diff changeset	220
15b422443267 Uploaded petr-novak parents: diff changeset	221 .. __: tool_runner?tool_id=paired_fastq_filtering
15b422443267 Uploaded petr-novak parents: diff changeset	222
15b422443267 Uploaded petr-novak parents: diff changeset	223
15b422443267 Uploaded petr-novak parents: diff changeset	224 Additional parameters
15b422443267 Uploaded petr-novak parents: diff changeset	225
15b422443267 Uploaded petr-novak parents: diff changeset	226 Sample size defines how many reads should be used in calculation.
15b422443267 Uploaded petr-novak parents: diff changeset	227 Default setting with 500,000 reads will enable detection of high copy
15b422443267 Uploaded petr-novak parents: diff changeset	228 repeats within several hours of computation time. For higher
15b422443267 Uploaded petr-novak parents: diff changeset	229 sensitivity the sample size can be set higher. Since sample size affects
15b422443267 Uploaded petr-novak parents: diff changeset	230 the memory usage, this parameter may be automatically adjusted to lower
15b422443267 Uploaded petr-novak parents: diff changeset	231 value during the run. Maximum sample size which can be processed depends on
15b422443267 Uploaded petr-novak parents: diff changeset	232 the repetitiveness of analyzed genome.
15b422443267 Uploaded petr-novak parents: diff changeset	233
15b422443267 Uploaded petr-novak parents: diff changeset	234
15b422443267 Uploaded petr-novak parents: diff changeset	235 Select taxon and protein domain database version (REXdb). Classification
15b422443267 Uploaded petr-novak parents: diff changeset	236 of transposable elements is based on the similarity to our reference database
15b422443267 Uploaded petr-novak parents: diff changeset	237 of transposable element protein domains (REXdb). Standalone database for Viridiplantae species
15b422443267 Uploaded petr-novak parents: diff changeset	238 can be obtained on `repeatexplorer.org`__. Classification
15b422443267 Uploaded petr-novak parents: diff changeset	239 system used in REXdb is described in article `Systematic survey of plant
15b422443267 Uploaded petr-novak parents: diff changeset	240 LTR-retrotransposons elucidates phylogenetic relationships of their
15b422443267 Uploaded petr-novak parents: diff changeset	241 polyprotein domains and provides a reference for element classification`__
15b422443267 Uploaded petr-novak parents: diff changeset	242 Database for Metazoa species is still under development so use it with caution.
15b422443267 Uploaded petr-novak parents: diff changeset	243
15b422443267 Uploaded petr-novak parents: diff changeset	244 .. __: http://repeatexplorer.org
15b422443267 Uploaded petr-novak parents: diff changeset	245 .. __: https://doi.org/10.1186/s13100-018-0144-1
15b422443267 Uploaded petr-novak parents: diff changeset	246
15b422443267 Uploaded petr-novak parents: diff changeset	247 Select parameters for protein domain search REXdb is compared with s
15b422443267 Uploaded petr-novak parents: diff changeset	248 equence clusters either using blastx or diamond aligner. Diamond program
15b422443267 Uploaded petr-novak parents: diff changeset	249 is about three time faster than blastx with word size 3.
15b422443267 Uploaded petr-novak parents: diff changeset	250
15b422443267 Uploaded petr-novak parents: diff changeset	251 Similarity search options By default sequence reads are compared using
15b422443267 Uploaded petr-novak parents: diff changeset	252 mgblast program. Default threshold is explicitly set to 90% sequence
15b422443267 Uploaded petr-novak parents: diff changeset	253 similarity spanning at least 55% of the read length (in the case of reads
15b422443267 Uploaded petr-novak parents: diff changeset	254 differing in length it applies to the longer one). Additionally, sequence
15b422443267 Uploaded petr-novak parents: diff changeset	255 overlap must be at least 55 nt. If you select option for shorter reads
15b422443267 Uploaded petr-novak parents: diff changeset	256 than 100 nt, minimum overlap 55 nt is not required.
15b422443267 Uploaded petr-novak parents: diff changeset	257
15b422443267 Uploaded petr-novak parents: diff changeset	258 By default,
15b422443267 Uploaded petr-novak parents: diff changeset	259 mgblast search use DUST program to filter out
15b422443267 Uploaded petr-novak parents: diff changeset	260 low-complexity sequences. If you want
15b422443267 Uploaded petr-novak parents: diff changeset	261 to increase sensitivity of detection of satellites with shorter monomer
15b422443267 Uploaded petr-novak parents: diff changeset	262 use option with 'no masking of low complexity repeats'. Note that omitting
15b422443267 Uploaded petr-novak parents: diff changeset	263 DUST filtering will significantly increase running times
15b422443267 Uploaded petr-novak parents: diff changeset	264
15b422443267 Uploaded petr-novak parents: diff changeset	265
15b422443267 Uploaded petr-novak parents: diff changeset	266 Automatic filtering of abundant satellite repeats perform clustering on
15b422443267 Uploaded petr-novak parents: diff changeset	267 smaller dataset of sequence reads to detect abundant high confidence
15b422443267 Uploaded petr-novak parents: diff changeset	268 satellite repeats. If such satellites are detected, sequence reads derived
15b422443267 Uploaded petr-novak parents: diff changeset	269 from these satellites are depleted from input dataset. This step enable more
15b422443267 Uploaded petr-novak parents: diff changeset	270 sensitive detection of less abundant repeats as more reads can be used
15b422443267 Uploaded petr-novak parents: diff changeset	271 in clustering step.
15b422443267 Uploaded petr-novak parents: diff changeset	272
15b422443267 Uploaded petr-novak parents: diff changeset	273 Use custom repeat database. This option allows users to perform similarity
15b422443267 Uploaded petr-novak parents: diff changeset	274 comparison of identified repeats to their custom databases. The repeat class must
15b422443267 Uploaded petr-novak parents: diff changeset	275 be encoded in FASTA headers of database entries in order to allow correct
15b422443267 Uploaded petr-novak parents: diff changeset	276 parsing of similarity hits. Required format for custom database sequence name is: ::
15b422443267 Uploaded petr-novak parents: diff changeset	277
15b422443267 Uploaded petr-novak parents: diff changeset	278 >reapeatname#class/subclass
15b422443267 Uploaded petr-novak parents: diff changeset	279
15b422443267 Uploaded petr-novak parents: diff changeset	280
15b422443267 Uploaded petr-novak parents: diff changeset	281 Output
15b422443267 Uploaded petr-novak parents: diff changeset	282
15b422443267 Uploaded petr-novak parents: diff changeset	283 List of clusters identified as putative satellite repeats, their genomic
15b422443267 Uploaded petr-novak parents: diff changeset	284 abundance and various cluster characteristics.
15b422443267 Uploaded petr-novak parents: diff changeset	285
15b422443267 Uploaded petr-novak parents: diff changeset	286 Output includes a HTML summary with table listing of all analyzed
15b422443267 Uploaded petr-novak parents: diff changeset	287 clusters. More detailed information about clusters is provided in
15b422443267 Uploaded petr-novak parents: diff changeset	288 additional files and directories. All results are also provided as
15b422443267 Uploaded petr-novak parents: diff changeset	289 downloadable zip archive. Additionally a log file reporting
15b422443267 Uploaded petr-novak parents: diff changeset	290 the progress of the computational pipeline is provided.
15b422443267 Uploaded petr-novak parents: diff changeset	291
15b422443267 Uploaded petr-novak parents: diff changeset	292 </help>
15b422443267 Uploaded petr-novak parents: diff changeset	293
15b422443267 Uploaded petr-novak parents: diff changeset	294 </tool>

0

15b422443267 Uploaded

petr-novak

parents:

diff changeset

1 <tool id="repeatexplorer2" name="RepeatExplorer2 clustering: " version="2.3.7" >

15b422443267 Uploaded

petr-novak

parents:

diff changeset

2 <stdio>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

3 <regex match="lastdb: can't open file: NEAR" source="stderr" level="fatal" description="Version of last is too old, use ver 956 or higher\n" />

15b422443267 Uploaded

petr-novak

parents:

diff changeset

4 <regex match="Traceback" source="stderr" level="fatal" description="Unknown error" />

15b422443267 Uploaded

petr-novak

parents:

diff changeset

5 <regex match="error" source="stderr" level="fatal" description="Unknown error" />

15b422443267 Uploaded

petr-novak

parents:

diff changeset

6 <regex match="Warning" source="stderr" level="warning" description="Unknown error" />

15b422443267 Uploaded

petr-novak

parents:

diff changeset

7 <exit_code range="1:" level="fatal" description="Error" />

15b422443267 Uploaded

petr-novak

parents:

diff changeset

8 </stdio>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

9 <description>Improved version or repeat discovery and characterization using graph based sequence clustering</description>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

10 <requirements>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

11 <requirement type="package">last</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

12 <requirement type="package">imagemagick</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

13 <requirement type="package">mafft</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

14 <requirement type="package">blast</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

15 <requirement type="package">diamond</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

16 <requirement type="package">blast-legacy</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

17 <requirement type="package">r-igraph</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

18 <requirement type="package">r-data.tree</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

19 <requirement type="package">r-stringr</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

20 <requirement type="package">r-r2html</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

21 <requirement type="package">r-hwriter</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

22 <requirement type="package">r-dt</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

23 <requirement type="package">r-scales</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

24 <requirement type="package">r-plotrix</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

25 <requirement type="package">r-png</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

26 <requirement type="package">r-plyr</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

27 <requirement type="package">r-dplyr</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

28 <requirement type="package">r-optparse</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

29 <requirement type="package">r-dbi</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

30 <requirement type="package">r-rsqlite</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

31 <requirement type="package">r-rserve</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

32 <requirement type="package">bioconductor-biostrings</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

33 <requirement type="package" version="2.3.7">repex_tarean</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

34 <requirement type="set_environment">REPEX</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

35 <requirement type="set_environment">REPEX_VERSION</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

36 <requirement type="package" version="0.9.1" >pyrserve</requirement>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

37 </requirements>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

38 <command >

15b422443267 Uploaded

petr-novak

parents:

diff changeset

39 export PYTHONHASHSEED=0;

15b422443267 Uploaded

petr-novak

parents:

diff changeset

40 \${REPEX}/seqclust --sample ${sample} --output_dir=tarean_output --logfile=${log} --cleanup $paired --taxon $taxon

15b422443267 Uploaded

petr-novak

parents:

diff changeset

41

15b422443267 Uploaded

petr-novak

parents:

diff changeset

42 #if $advanced_options.advanced:

15b422443267 Uploaded

petr-novak

parents:

diff changeset

43 --mincl $advanced_options.size_threshold $advanced_options.keep_names $advanced_options.automatic_filtering -D $advanced_options.blastx.options_blastx

15b422443267 Uploaded

petr-novak

parents:

diff changeset

44 --assembly_min $advanced_options.assembly_min_cluster_size

15b422443267 Uploaded

petr-novak

parents:

diff changeset

45

15b422443267 Uploaded

petr-novak

parents:

diff changeset

46 #if $advanced_options.comparative.options_comparative:

15b422443267 Uploaded

petr-novak

parents:

diff changeset

47 --prefix_length $advanced_options.comparative.prefix_length

15b422443267 Uploaded

petr-novak

parents:

diff changeset

48 #end if

15b422443267 Uploaded

petr-novak

parents:

diff changeset

49

15b422443267 Uploaded

petr-novak

parents:

diff changeset

50 #if $advanced_options.custom_library.options_custom_library:

15b422443267 Uploaded

petr-novak

parents:

diff changeset

51 -d $advanced_options.custom_library.library extra_database

15b422443267 Uploaded

petr-novak

parents:

diff changeset

52 #end if

15b422443267 Uploaded

petr-novak

parents:

diff changeset

53

15b422443267 Uploaded

petr-novak

parents:

diff changeset

54 #if $advanced_options.options.options:

15b422443267 Uploaded

petr-novak

parents:

diff changeset

55 -opt $advanced_options.options.options

15b422443267 Uploaded

petr-novak

parents:

diff changeset

56 #end if

15b422443267 Uploaded

petr-novak

parents:

diff changeset

57 #end if

15b422443267 Uploaded

petr-novak

parents:

diff changeset

58 ${FastaFile} >stdout.log 2> stderr.log ;

15b422443267 Uploaded

petr-novak

parents:

diff changeset

59 echo "STDOUT CONTENT:" >> ${log} ;

15b422443267 Uploaded

petr-novak

parents:

diff changeset

60 cat stdout.log >> ${log} ;

15b422443267 Uploaded

petr-novak

parents:

diff changeset

61 echo "STDERR CONTENT:" >> ${log};

15b422443267 Uploaded

petr-novak

parents:

diff changeset

62 cat stderr.log >> ${log} &&

15b422443267 Uploaded

petr-novak

parents:

diff changeset

63 \${REPEX}/stderr_filter.py stderr.log &&

15b422443267 Uploaded

petr-novak

parents:

diff changeset

64 cd tarean_output &&

15b422443267 Uploaded

petr-novak

parents:

diff changeset

65 zip -r ${ReportArchive}.zip * &&

15b422443267 Uploaded

petr-novak

parents:

diff changeset

66 mv ${ReportArchive}.zip ${ReportArchive} &&

15b422443267 Uploaded

petr-novak

parents:

diff changeset

67 cp index.html ${ReportFile} &&

15b422443267 Uploaded

petr-novak

parents:

diff changeset

68 mkdir ${ReportFile.files_path} &&

15b422443267 Uploaded

petr-novak

parents:

diff changeset

69 cp -r --parents libdir ${ReportFile.files_path} &&

15b422443267 Uploaded

petr-novak

parents:

diff changeset

70 cp -r --parents seqclust/clustering/superclusters ${ReportFile.files_path} &&

15b422443267 Uploaded

petr-novak

parents:

diff changeset

71 cp -r --parents seqclust/clustering/clusters ${ReportFile.files_path} &&

15b422443267 Uploaded

petr-novak

parents:

diff changeset

72 cp seqclust/clustering/hitsort.cls ${ReportFile.files_path}/seqclust/clustering/hitsort.cls &&

15b422443267 Uploaded

petr-novak

parents:

diff changeset

73 cp *.png ${ReportFile.files_path}/ &&

15b422443267 Uploaded

petr-novak

parents:

diff changeset

74 cp *.csv ${ReportFile.files_path}/ &&

15b422443267 Uploaded

petr-novak

parents:

diff changeset

75 cp *.html ${ReportFile.files_path}/ &&

15b422443267 Uploaded

petr-novak

parents:

diff changeset

76 cp *.css ${ReportFile.files_path}/ &&

15b422443267 Uploaded

petr-novak

parents:

diff changeset

77 cp *.fasta ${ReportFile.files_path}/ 2>>$log && rm -r ../tarean_output || :

15b422443267 Uploaded

petr-novak

parents:

diff changeset

78

15b422443267 Uploaded

petr-novak

parents:

diff changeset

79 </command>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

80 <inputs>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

81 <param name="FastaFile" label="NGS reads" type="data" format="fasta"

15b422443267 Uploaded

petr-novak

parents:

diff changeset

82 help="Input file must contain fasta-formatted NGS reads. If paired end reads are used, reads must be interlaced and all pairs must be complete. Example of input data format is provided in the help below. "/>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

83 <param name="paired" type="boolean" truevalue="--paired" falsevalue="" checked="True" label="Paired-end reads" help="Check if you are using pair reads and input sequences contain both read mates and left mates alternate with their right mates" />

15b422443267 Uploaded

petr-novak

parents:

diff changeset

84

15b422443267 Uploaded

petr-novak

parents:

diff changeset

85 <param name="sample" label="Sample size" type="integer" value="500000" min="10000"/>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

86 <param name="taxon" label="Select taxon and protein domain database version (REXdb)" type="select" help="Reference database of transposable element protein domains - REXdb - is used for annotation of repeats">

15b422443267 Uploaded

petr-novak

parents:

diff changeset

87 <option value="VIRIDIPLANTAE3.0" selected="true">Viridiplantae version 3.0 </option>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

88 <option value="VIRIDIPLANTAE2.2" selected="true">Viridiplantae version 2.2</option>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

89 <option value="METAZOA3.0" >Metazoa version 3.0</option>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

90 <option value="METAZOA2.0" >Metazoa version 2.0</option>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

91

15b422443267 Uploaded

petr-novak

parents:

diff changeset

92 </param>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

93

15b422443267 Uploaded

petr-novak

parents:

diff changeset

94 <conditional name="advanced_options">

15b422443267 Uploaded

petr-novak

parents:

diff changeset

95 <param name="advanced" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Advanced options" />

15b422443267 Uploaded

petr-novak

parents:

diff changeset

96 <when value="false">

15b422443267 Uploaded

petr-novak

parents:

diff changeset

97

15b422443267 Uploaded

petr-novak

parents:

diff changeset

98 </when>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

99 <when value="true">

15b422443267 Uploaded

petr-novak

parents:

diff changeset

100 <conditional name="comparative">

15b422443267 Uploaded

petr-novak

parents:

diff changeset

101 <param name="options_comparative" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Perform comparative analysis" help="Use this options when you want to compare sequences multiple groups"/>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

102 <when value="false">

15b422443267 Uploaded

petr-novak

parents:

diff changeset

103

15b422443267 Uploaded

petr-novak

parents:

diff changeset

104 </when>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

105 <when value="true">

15b422443267 Uploaded

petr-novak

parents:

diff changeset

106 <param name="prefix_length" label="Group code length" type="integer" value="3" min="1" max="10" help="For comparative analysis, sequences are from individial groups distinguished by sample code which must be used as prefix for sequence name. See example below."/>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

107 </when>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

108 </conditional>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

109

15b422443267 Uploaded

petr-novak

parents:

diff changeset

110 <conditional name="blastx">

15b422443267 Uploaded

petr-novak

parents:

diff changeset

111 <param name="options_blastx" type="select" label="Select parameters for protein domain search">

15b422443267 Uploaded

petr-novak

parents:

diff changeset

112 <option value="BLASTX_W2" selected="false">blastx with word size 2 (the most sensitive, slowest)</option>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

113 <option value="BLASTX_W3" selected="true">blastx with word size 3 (default)</option>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

114 <option value="DIAMOND" selected="false">diamond program (the least sensitive, fastest)</option>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

115 </param>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

116 </conditional>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

117

15b422443267 Uploaded

petr-novak

parents:

diff changeset

118 <conditional name="options">

15b422443267 Uploaded

petr-novak

parents:

diff changeset

119 <param name="options" type="select" label="Similarity search options" help="Different similarity search parameters are used depending on the used input data to adjust search to differences in length and error rate">

15b422443267 Uploaded

petr-novak

parents:

diff changeset

120 <option value="ILLUMINA" selected="true">Illumina reads, read length 100nt or more </option>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

121 <option value="ILLUMINA_SHORT" selected="false">Illumina reads, shorter than 100nt (Do not use reads shorter than 50nt!) </option>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

122 <option value="ILLUMINA_DUST_OFF" selected="false">Illumina reads, no masking of low complexity repeats </option>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

123 <option value="OXFORD_NANOPORE" selected="false">

15b422443267 Uploaded

petr-novak

parents:

diff changeset

124 Pseudo short reads simulated from Oxford Nanopore data (experimental feature)

15b422443267 Uploaded

petr-novak

parents:

diff changeset

125 </option>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

126 </param>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

127 </conditional>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

128

15b422443267 Uploaded

petr-novak

parents:

diff changeset

129 <conditional name="custom_library">

15b422443267 Uploaded

petr-novak

parents:

diff changeset

130 <param name="options_custom_library" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Use custom repeat database"/>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

131 <when value="false">

15b422443267 Uploaded

petr-novak

parents:

diff changeset

132

15b422443267 Uploaded

petr-novak

parents:

diff changeset

133 </when>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

134 <when value="true">

15b422443267 Uploaded

petr-novak

parents:

diff changeset

135 <param name="library" format="fasta" type="data" label="Custom library of repeats" help="Library of repeats as DNA sequences in fasta format. The required format for IDs in a custom library is : '>reapeatname#class/subclass'"/>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

136 </when>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

137 </conditional>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

138 <param name="size_threshold" label="Cluster size threshold for detailed analysis" type="float" value="0.01" min="0.0001" max="100" help ="Minimal size (as percentage of input reads) of the smallest cluster which is analyzed, cluster with less than 20 reads are not considered at all."/>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

139 <param name="automatic_filtering" label="Perform automatic filtering of abundant satellite repeats" help="Automatic filtering tries to identify the most abundant tandem repeats and remove such sequences partially from analysis. Removal of abundant tandem repeat can enable to analyze higher proportion of other less abundant repeats." type="boolean" truevalue="--automatic_filtering" falsevalue="" checked="false"/>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

140 <param name="keep_names" label="Keep original sequences names" type="boolean" truevalue="--keep_names" falsevalue="" checked="false" help="By default sequence are relabeled using integers. If you want to keep original names, use this option."/>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

141 <param name="assembly_min_cluster_size" type="integer" label="min cluster size for assembly" value="5" min="2" max="100"/>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

142 </when>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

143 </conditional>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

144

15b422443267 Uploaded

petr-novak

parents:

diff changeset

145

15b422443267 Uploaded

petr-novak

parents:

diff changeset

146

15b422443267 Uploaded

petr-novak

parents:

diff changeset

147 </inputs>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

148 <outputs>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

149 <data name="log" format="txt" label="RepeatExplorer2 - log file"/>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

150 <data name="ReportArchive" format="zip" label="RepeatExplorer2 - Archive with HTML report from data ${FastaFile.hid}"/>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

151 <data name="ReportFile" format="html" label="RepeatExplorer2 - HTML report from data ${FastaFile.hid}"/>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

152 </outputs>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

153

15b422443267 Uploaded

petr-novak

parents:

diff changeset

154 <help>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

155 **HELP**

15b422443267 Uploaded

petr-novak

parents:

diff changeset

156

15b422443267 Uploaded

petr-novak

parents:

diff changeset

157 RepeatExplorer2 clustering is a computational pipeline for unsupervised

15b422443267 Uploaded

petr-novak

parents:

diff changeset

158 identification of repeats from unassembled sequence reads. The

15b422443267 Uploaded

petr-novak

parents:

diff changeset

159 pipeline uses low-pass whole genome sequence reads and performs graph-based

15b422443267 Uploaded

petr-novak

parents:

diff changeset

160 clustering. Resulting clusters, representing all types of repeats, are then

15b422443267 Uploaded

petr-novak

parents:

diff changeset

161 examined to identify and classify into repeats groups.

15b422443267 Uploaded

petr-novak

parents:

diff changeset

162

15b422443267 Uploaded

petr-novak

parents:

diff changeset

163 **Input data**

15b422443267 Uploaded

petr-novak

parents:

diff changeset

164

15b422443267 Uploaded

petr-novak

parents:

diff changeset

165 The analysis requires either **single** or **paired-end reads** generated

15b422443267 Uploaded

petr-novak

parents:

diff changeset

166 by whole genome shotgun sequencing provided as a single fasta-formatted file.

15b422443267 Uploaded

petr-novak

parents:

diff changeset

167 Generally, paired-end reads provide significantly better results than single

15b422443267 Uploaded

petr-novak

parents:

diff changeset

168 reads. Reads should be of uniform length (optimal size range is 100-200 nt) and

15b422443267 Uploaded

petr-novak

parents:

diff changeset

169 the number of analyzed reads should represent less than 1x genome equivalent

15b422443267 Uploaded

petr-novak

parents:

diff changeset

170 (genome coverage of 0.01 - 0.50 x is recommended). Reads should be

15b422443267 Uploaded

petr-novak

parents:

diff changeset

171 quality-filtered (recommended filtering : quality score >=10 over 95% of bases

15b422443267 Uploaded

petr-novak

parents:

diff changeset

172 and no Ns allowed) and only **complete read pairs** should be submitted for

15b422443267 Uploaded

petr-novak

parents:

diff changeset

173 analysis. When paired reads are used, input data must be **interlaced** format

15b422443267 Uploaded

petr-novak

parents:

diff changeset

174 as fasta file:

15b422443267 Uploaded

petr-novak

parents:

diff changeset

175

15b422443267 Uploaded

petr-novak

parents:

diff changeset

176 example of interlaced input format::

15b422443267 Uploaded

petr-novak

parents:

diff changeset

177

15b422443267 Uploaded

petr-novak

parents:

diff changeset

178 >0001_f

15b422443267 Uploaded

petr-novak

parents:

diff changeset

179 CGTAATATACATACTTGCTAGCTAGTTGGATGCATCCAACTTGCAAGCTAGTTTGATG

15b422443267 Uploaded

petr-novak

parents:

diff changeset

180 >0001_r

15b422443267 Uploaded

petr-novak

parents:

diff changeset

181 GATTTGACGGACACACTAACTAGCTAGTTGCATCTAAGCGGGCACACTAACTAACTAT

15b422443267 Uploaded

petr-novak

parents:

diff changeset

182 >0002_f

15b422443267 Uploaded

petr-novak

parents:

diff changeset

183 ACTCATTTGGACTTAACTTTGATAATAAAAACTTAAAAAGGTTTCTGCACATGAATCG

15b422443267 Uploaded

petr-novak

parents:

diff changeset

184 >0002_r

15b422443267 Uploaded

petr-novak

parents:

diff changeset

185 TATGTTGAAAAATTGAATTTCGGGACGAAACAGCGTCTATCGTCACGACATAGTGCTC

15b422443267 Uploaded

petr-novak

parents:

diff changeset

186 >0003_f

15b422443267 Uploaded

petr-novak

parents:

diff changeset

187 TGACATTTGTGAACGTTAATGTTCAACAAATCTTTCCAATGTCTTTTTATCTTATCAT

15b422443267 Uploaded

petr-novak

parents:

diff changeset

188 >0003_r

15b422443267 Uploaded

petr-novak

parents:

diff changeset

189 TATTGAAATACTGGACACAAATTGGAAATGAAACCTTGTGAGTTATTCAATTTATGTT

15b422443267 Uploaded

petr-novak

parents:

diff changeset

190 ...

15b422443267 Uploaded

petr-novak

parents:

diff changeset

191

15b422443267 Uploaded

petr-novak

parents:

diff changeset

192

15b422443267 Uploaded

petr-novak

parents:

diff changeset

193 **Comparative analysis**

15b422443267 Uploaded

petr-novak

parents:

diff changeset

194

15b422443267 Uploaded

petr-novak

parents:

diff changeset

195 For comparative analysis sequence names must contain code (prefix) for each group.

15b422443267 Uploaded

petr-novak

parents:

diff changeset

196 Prefix in sequences names must be of fixed length.

15b422443267 Uploaded

petr-novak

parents:

diff changeset

197

15b422443267 Uploaded

petr-novak

parents:

diff changeset

198 Example of labeling two groups with where **group code length** is 2 and is used to distinguish groups - AA and BB ::

15b422443267 Uploaded

petr-novak

parents:

diff changeset

199

15b422443267 Uploaded

petr-novak

parents:

diff changeset

200 >AA0001_f

15b422443267 Uploaded

petr-novak

parents:

diff changeset

201 CGTAATATACATACTTGCTAGCTAGTTGGATGCATCCAACTTGCAAGCTAGTTTGATG

15b422443267 Uploaded

petr-novak

parents:

diff changeset

202 >AA0001_r

15b422443267 Uploaded

petr-novak

parents:

diff changeset

203 GATTTGACGGACACACTAACTAGCTAGTTGCATCTAAGCGGGCACACTAACTAACTAT

15b422443267 Uploaded

petr-novak

parents:

diff changeset

204 >AA0002_f

15b422443267 Uploaded

petr-novak

parents:

diff changeset

205 ACTCATTTGGACTTAACTTTGATAATAAAAACTTAAAAAGGTTTCTGCACATGAATCG

15b422443267 Uploaded

petr-novak

parents:

diff changeset

206 >AA0002_r

15b422443267 Uploaded

petr-novak

parents:

diff changeset

207 TATGTTGAAAAATTGAATTTCGGGACGAAACAGCGTCTATCGTCACGACATAGTGCTC

15b422443267 Uploaded

petr-novak

parents:

diff changeset

208 >BB0001_f

15b422443267 Uploaded

petr-novak

parents:

diff changeset

209 TGACATTTGTGAACGTTAATGTTCAACAAATCTTTCCAATGTCTTTTTATCTTATCAT

15b422443267 Uploaded

petr-novak

parents:

diff changeset

210 >BB0001_r

15b422443267 Uploaded

petr-novak

parents:

diff changeset

211 TATTGAAATACTGGACACAAATTGGAAATGAAACCTTGTGAGTTATTCAATTTATGTT

15b422443267 Uploaded

petr-novak

parents:

diff changeset

212 >BB0002_f

15b422443267 Uploaded

petr-novak

parents:

diff changeset

213 TGACATTTGTGAACGTTAATGTTCAACAAATCTTTCCAATGTCTTTTTATCTTATCAT

15b422443267 Uploaded

petr-novak

parents:

diff changeset

214 >BB0002_r

15b422443267 Uploaded

petr-novak

parents:

diff changeset

215 TATTGAAATACTGGACACAAATTGGAAATGAAACCTTGTGAGTTATTCAATTTATGTT

15b422443267 Uploaded

petr-novak

parents:

diff changeset

216

15b422443267 Uploaded

petr-novak

parents:

diff changeset

217

15b422443267 Uploaded

petr-novak

parents:

diff changeset

218 To prepare quality filtered and interlaced input fasta file from fastq

15b422443267 Uploaded

petr-novak

parents:

diff changeset

219 files, use `Preprocessing of paired-reads`__ tool.

15b422443267 Uploaded

petr-novak

parents:

diff changeset

220

15b422443267 Uploaded

petr-novak

parents:

diff changeset

221 .. __: tool_runner?tool_id=paired_fastq_filtering

15b422443267 Uploaded

petr-novak

parents:

diff changeset

222

15b422443267 Uploaded

petr-novak

parents:

diff changeset

223

15b422443267 Uploaded

petr-novak

parents:

diff changeset

224 **Additional parameters**

15b422443267 Uploaded

petr-novak

parents:

diff changeset

225

15b422443267 Uploaded

petr-novak

parents:

diff changeset

226 **Sample size** defines how many reads should be used in calculation.

15b422443267 Uploaded

petr-novak

parents:

diff changeset

227 Default setting with 500,000 reads will enable detection of high copy

15b422443267 Uploaded

petr-novak

parents:

diff changeset

228 repeats within several hours of computation time. For higher

15b422443267 Uploaded

petr-novak

parents:

diff changeset

229 sensitivity the sample size can be set higher. Since sample size affects

15b422443267 Uploaded

petr-novak

parents:

diff changeset

230 the memory usage, this parameter may be automatically adjusted to lower

15b422443267 Uploaded

petr-novak

parents:

diff changeset

231 value during the run. Maximum sample size which can be processed depends on

15b422443267 Uploaded

petr-novak

parents:

diff changeset

232 the repetitiveness of analyzed genome.

15b422443267 Uploaded

petr-novak

parents:

diff changeset

233

15b422443267 Uploaded

petr-novak

parents:

diff changeset

234

15b422443267 Uploaded

petr-novak

parents:

diff changeset

235 **Select taxon and protein domain database version (REXdb)**. Classification

15b422443267 Uploaded

petr-novak

parents:

diff changeset

236 of transposable elements is based on the similarity to our reference database

15b422443267 Uploaded

petr-novak

parents:

diff changeset

237 of transposable element protein domains (**REXdb**). Standalone database for Viridiplantae species

15b422443267 Uploaded

petr-novak

parents:

diff changeset

238 can be obtained on `repeatexplorer.org`__. Classification

15b422443267 Uploaded

petr-novak

parents:

diff changeset

239 system used in REXdb is described in article `Systematic survey of plant

15b422443267 Uploaded

petr-novak

parents:

diff changeset

240 LTR-retrotransposons elucidates phylogenetic relationships of their

15b422443267 Uploaded

petr-novak

parents:

diff changeset

241 polyprotein domains and provides a reference for element classification`__

15b422443267 Uploaded

petr-novak

parents:

diff changeset

242 Database for Metazoa species is still under development so use it with caution.

15b422443267 Uploaded

petr-novak

parents:

diff changeset

243

15b422443267 Uploaded

petr-novak

parents:

diff changeset

244 .. __: http://repeatexplorer.org

15b422443267 Uploaded

petr-novak

parents:

diff changeset

245 .. __: https://doi.org/10.1186/s13100-018-0144-1

15b422443267 Uploaded

petr-novak

parents:

diff changeset

246

15b422443267 Uploaded

petr-novak

parents:

diff changeset

247 **Select parameters for protein domain search** REXdb is compared with s

15b422443267 Uploaded

petr-novak

parents:

diff changeset

248 equence clusters either using blastx or diamond aligner. Diamond program

15b422443267 Uploaded

petr-novak

parents:

diff changeset

249 is about three time faster than blastx with word size 3.

15b422443267 Uploaded

petr-novak

parents:

diff changeset

250

15b422443267 Uploaded

petr-novak

parents:

diff changeset

251 **Similarity search options** By default sequence reads are compared using

15b422443267 Uploaded

petr-novak

parents:

diff changeset

252 mgblast program. Default threshold is explicitly set to 90% sequence

15b422443267 Uploaded

petr-novak

parents:

diff changeset

253 similarity spanning at least 55% of the read length (in the case of reads

15b422443267 Uploaded

petr-novak

parents:

diff changeset

254 differing in length it applies to the longer one). Additionally, sequence

15b422443267 Uploaded

petr-novak

parents:

diff changeset

255 overlap must be at least 55 nt. If you select option for shorter reads

15b422443267 Uploaded

petr-novak

parents:

diff changeset

256 than 100 nt, minimum overlap 55 nt is not required.

15b422443267 Uploaded

petr-novak

parents:

diff changeset

257

15b422443267 Uploaded

petr-novak

parents:

diff changeset

258 By default,

15b422443267 Uploaded

petr-novak

parents:

diff changeset

259 mgblast search use DUST program to filter out

15b422443267 Uploaded

petr-novak

parents:

diff changeset

260 low-complexity sequences. If you want

15b422443267 Uploaded

petr-novak

parents:

diff changeset

261 to increase sensitivity of detection of satellites with shorter monomer

15b422443267 Uploaded

petr-novak

parents:

diff changeset

262 use option with '*no masking of low complexity repeats*'. Note that omitting

15b422443267 Uploaded

petr-novak

parents:

diff changeset

263 DUST filtering will significantly increase running times

15b422443267 Uploaded

petr-novak

parents:

diff changeset

264

15b422443267 Uploaded

petr-novak

parents:

diff changeset

265

15b422443267 Uploaded

petr-novak

parents:

diff changeset

266 **Automatic filtering of abundant satellite repeats** perform clustering on

15b422443267 Uploaded

petr-novak

parents:

diff changeset

267 smaller dataset of sequence reads to detect abundant high confidence

15b422443267 Uploaded

petr-novak

parents:

diff changeset

268 satellite repeats. If such satellites are detected, sequence reads derived

15b422443267 Uploaded

petr-novak

parents:

diff changeset

269 from these satellites are depleted from input dataset. This step enable more

15b422443267 Uploaded

petr-novak

parents:

diff changeset

270 sensitive detection of less abundant repeats as more reads can be used

15b422443267 Uploaded

petr-novak

parents:

diff changeset

271 in clustering step.

15b422443267 Uploaded

petr-novak

parents:

diff changeset

272

15b422443267 Uploaded

petr-novak

parents:

diff changeset

273 **Use custom repeat database**. This option allows users to perform similarity

15b422443267 Uploaded

petr-novak

parents:

diff changeset

274 comparison of identified repeats to their custom databases. The repeat class must

15b422443267 Uploaded

petr-novak

parents:

diff changeset

275 be encoded in FASTA headers of database entries in order to allow correct

15b422443267 Uploaded

petr-novak

parents:

diff changeset

276 parsing of similarity hits. Required format for custom database sequence name is: ::

15b422443267 Uploaded

petr-novak

parents:

diff changeset

277

15b422443267 Uploaded

petr-novak

parents:

diff changeset

278 >reapeatname#class/subclass

15b422443267 Uploaded

petr-novak

parents:

diff changeset

279

15b422443267 Uploaded

petr-novak

parents:

diff changeset

280

15b422443267 Uploaded

petr-novak

parents:

diff changeset

281 **Output**

15b422443267 Uploaded

petr-novak

parents:

diff changeset

282

15b422443267 Uploaded

petr-novak

parents:

diff changeset

283 List of clusters identified as putative satellite repeats, their genomic

15b422443267 Uploaded

petr-novak

parents:

diff changeset

284 abundance and various cluster characteristics.

15b422443267 Uploaded

petr-novak

parents:

diff changeset

285

15b422443267 Uploaded

petr-novak

parents:

diff changeset

286 Output includes a **HTML summary** with table listing of all analyzed

15b422443267 Uploaded

petr-novak

parents:

diff changeset

287 clusters. More detailed information about clusters is provided in

15b422443267 Uploaded

petr-novak

parents:

diff changeset

288 additional files and directories. All results are also provided as

15b422443267 Uploaded

petr-novak

parents:

diff changeset

289 downloadable **zip archive**. Additionally a **log file** reporting

15b422443267 Uploaded

petr-novak

parents:

diff changeset

290 the progress of the computational pipeline is provided.

15b422443267 Uploaded

petr-novak

parents:

diff changeset

291

15b422443267 Uploaded

petr-novak

parents:

diff changeset

292 </help>

15b422443267 Uploaded

petr-novak

parents:

diff changeset

293

15b422443267 Uploaded

petr-novak

parents:

diff changeset

294 </tool>

Mercurial > repos > petr-novak > repeatexplorer2

annotate repex_full_clustering.xml @ 0:15b422443267 draft