profrep: profrep.xml annotate

annotate profrep.xml @ 6:1c25246f6e68 draft default tip

Uploaded

author	petr-novak
date	Thu, 27 Jun 2019 09:51:41 -0400
parents	e27e86406f56
children

rev	line source
0 a5f1638b73be Uploaded petr-novak parents: diff changeset	1 <tool id="profrep" name="ProfRep" version="1.0.0">
a5f1638b73be Uploaded petr-novak parents: diff changeset	2 <stdio>
a5f1638b73be Uploaded petr-novak parents: diff changeset	3 <regex match="Traceback" source="stderr" level="fail" description="Unknown error" />
a5f1638b73be Uploaded petr-novak parents: diff changeset	4 </stdio>
a5f1638b73be Uploaded petr-novak parents: diff changeset	5 <description> Tool to identify and visualize general repetive profile of a sequence as well as assign repetitive regions to a class from database of repeats </description>
a5f1638b73be Uploaded petr-novak parents: diff changeset	6 <requirements>
a5f1638b73be Uploaded petr-novak parents: diff changeset	7 <requirement type="package">blast</requirement>
a5f1638b73be Uploaded petr-novak parents: diff changeset	8 <requirement type="package">last</requirement>
a5f1638b73be Uploaded petr-novak parents: diff changeset	9 <requirement type="package">ucsc-wigtobigwig</requirement>
a5f1638b73be Uploaded petr-novak parents: diff changeset	10 <requirement type="package">biopython</requirement>
a5f1638b73be Uploaded petr-novak parents: diff changeset	11 <requirement type="package">numpy</requirement>
a5f1638b73be Uploaded petr-novak parents: diff changeset	12 <requirement type="package">matplotlib</requirement>
a5f1638b73be Uploaded petr-novak parents: diff changeset	13 <requirement type="package">profrep</requirement>
4 e27e86406f56 Uploaded petr-novak parents: 2 diff changeset	14 <requirement type="package" version="1.0">profrep_databases</requirement>
0 a5f1638b73be Uploaded petr-novak parents: diff changeset	15 <requirement type="package" version="1.16.4">jbrowse</requirement>
a5f1638b73be Uploaded petr-novak parents: diff changeset	16 </requirements>
a5f1638b73be Uploaded petr-novak parents: diff changeset	17 <command>
6 1c25246f6e68 Uploaded petr-novak parents: 4 diff changeset	18 env > /tmp/profrep_test_env;
0 a5f1638b73be Uploaded petr-novak parents: diff changeset	19
a5f1638b73be Uploaded petr-novak parents: diff changeset	20 #if not $custom_data.options_custom_data:
a5f1638b73be Uploaded petr-novak parents: diff changeset	21 profrep_reads=\$(awk -v var="${custom_data.prepared_dataset}" 'BEGIN{FS="\t"}{if ($1 == var) print $3}' $__tool_data_path__/profrep/prepared_datasets.txt) &&
a5f1638b73be Uploaded petr-novak parents: diff changeset	22 profrep_cls=\$(awk -v var="${custom_data.prepared_dataset}" 'BEGIN{FS="\t"}{if ($1 == var) print $4}' $__tool_data_path__/profrep/prepared_datasets.txt) &&
a5f1638b73be Uploaded petr-novak parents: diff changeset	23 profrep_annotation=\$(awk -v var="${custom_data.prepared_dataset}" 'BEGIN{FS="\t"}{if ($1 == var) print $5}' $__tool_data_path__/profrep/prepared_datasets.txt) &&
a5f1638b73be Uploaded petr-novak parents: diff changeset	24 #end if
a5f1638b73be Uploaded petr-novak parents: diff changeset	25
a5f1638b73be Uploaded petr-novak parents: diff changeset	26 python3 ${__tool_directory__}/profrep.py --query ${input} --output_gff ${ProfGff} --html_file ${html_file}
a5f1638b73be Uploaded petr-novak parents: diff changeset	27 --html_path ${html_file.extra_files_path} --n_gff ${NGff}
a5f1638b73be Uploaded petr-novak parents: diff changeset	28 --protein_domains ${dm.domains_switch}
a5f1638b73be Uploaded petr-novak parents: diff changeset	29 --jbrowse_bin \${JBROWSE_SOURCE_DIR}/bin
a5f1638b73be Uploaded petr-novak parents: diff changeset	30 --log_file ${log_file}
a5f1638b73be Uploaded petr-novak parents: diff changeset	31
a5f1638b73be Uploaded petr-novak parents: diff changeset	32 #if $dm.domains_switch:
a5f1638b73be Uploaded petr-novak parents: diff changeset	33 --domain_gff ${DomGff}
a5f1638b73be Uploaded petr-novak parents: diff changeset	34 --protein_database ${__tool_data_path__ }/protein_domains/${dm.db_type}_pdb
a5f1638b73be Uploaded petr-novak parents: diff changeset	35 --classification ${__tool_data_path__ }/protein_domains/${dm.db_type}_class
a5f1638b73be Uploaded petr-novak parents: diff changeset	36 #end if
a5f1638b73be Uploaded petr-novak parents: diff changeset	37
a5f1638b73be Uploaded petr-novak parents: diff changeset	38 #if $advanced_options.opts:
a5f1638b73be Uploaded petr-novak parents: diff changeset	39 --bit_score ${advanced_options.bit_score}
a5f1638b73be Uploaded petr-novak parents: diff changeset	40 --word_size ${advanced_options.word_size}
a5f1638b73be Uploaded petr-novak parents: diff changeset	41 --e_value ${advanced_options.e_value}
a5f1638b73be Uploaded petr-novak parents: diff changeset	42 --threshold_repeat ${advanced_options.threshold}
a5f1638b73be Uploaded petr-novak parents: diff changeset	43 --window ${advanced_options.window}
a5f1638b73be Uploaded petr-novak parents: diff changeset	44 --overlap ${advanced_options.overlap}
a5f1638b73be Uploaded petr-novak parents: diff changeset	45 #if $advanced_options.dust_filter:
a5f1638b73be Uploaded petr-novak parents: diff changeset	46 --dust_filter "yes"
a5f1638b73be Uploaded petr-novak parents: diff changeset	47 #else
a5f1638b73be Uploaded petr-novak parents: diff changeset	48 --dust_filter "no"
a5f1638b73be Uploaded petr-novak parents: diff changeset	49 #end if
a5f1638b73be Uploaded petr-novak parents: diff changeset	50 #end if
a5f1638b73be Uploaded petr-novak parents: diff changeset	51
a5f1638b73be Uploaded petr-novak parents: diff changeset	52 #if $custom_data.options_custom_data:
a5f1638b73be Uploaded petr-novak parents: diff changeset	53 --reads ${reads}
a5f1638b73be Uploaded petr-novak parents: diff changeset	54 --ann_tbl ${annotations}
a5f1638b73be Uploaded petr-novak parents: diff changeset	55 --cls ${cls}
a5f1638b73be Uploaded petr-novak parents: diff changeset	56 --new_db True
a5f1638b73be Uploaded petr-novak parents: diff changeset	57 #if $custom_data.cn.copy_num:
a5f1638b73be Uploaded petr-novak parents: diff changeset	58 --copy_numbers $custom_data.cn.copy_num
a5f1638b73be Uploaded petr-novak parents: diff changeset	59 --genome_size ${custom_data.cn.genome_size}
a5f1638b73be Uploaded petr-novak parents: diff changeset	60 #end if
a5f1638b73be Uploaded petr-novak parents: diff changeset	61 #else
a5f1638b73be Uploaded petr-novak parents: diff changeset	62 --db_id ${custom_data.prepared_dataset}
a5f1638b73be Uploaded petr-novak parents: diff changeset	63 --copy_numbers $custom_data.copy_numbers
a5f1638b73be Uploaded petr-novak parents: diff changeset	64 --reads $__tool_data_path__/profrep/\$profrep_reads
a5f1638b73be Uploaded petr-novak parents: diff changeset	65 --ann_tbl $__tool_data_path__/profrep/\$profrep_annotation
a5f1638b73be Uploaded petr-novak parents: diff changeset	66 --cls $__tool_data_path__/profrep/\$profrep_cls
a5f1638b73be Uploaded petr-novak parents: diff changeset	67 --new_db False
a5f1638b73be Uploaded petr-novak parents: diff changeset	68 #end if
a5f1638b73be Uploaded petr-novak parents: diff changeset	69 </command>
a5f1638b73be Uploaded petr-novak parents: diff changeset	70
a5f1638b73be Uploaded petr-novak parents: diff changeset	71 <inputs>
a5f1638b73be Uploaded petr-novak parents: diff changeset	72 <param format="fasta" type="data" name="input" label="DNA sequence to annotate" help="Input sequence in multi-fasta format" />
a5f1638b73be Uploaded petr-novak parents: diff changeset	73 <conditional name="custom_data" >
a5f1638b73be Uploaded petr-novak parents: diff changeset	74 <param name="options_custom_data" type="boolean" truevalue="True" falsevalue="False" checked="False" label="Use custom annotation data" />
a5f1638b73be Uploaded petr-novak parents: diff changeset	75 <when value="False">
a5f1638b73be Uploaded petr-novak parents: diff changeset	76 <param name="prepared_dataset" type="select" label="Choose existing annotation dataset" help="You can find list of all available species below in the Database section">
a5f1638b73be Uploaded petr-novak parents: diff changeset	77 <options from_file="profrep/prepared_datasets.txt" >
a5f1638b73be Uploaded petr-novak parents: diff changeset	78 <column name="name" index="1"/>
a5f1638b73be Uploaded petr-novak parents: diff changeset	79 <column name="value" index="0"/>
a5f1638b73be Uploaded petr-novak parents: diff changeset	80 </options>
a5f1638b73be Uploaded petr-novak parents: diff changeset	81 </param>
a5f1638b73be Uploaded petr-novak parents: diff changeset	82 <param name="copy_numbers" type="boolean" truevalue="True" falsevalue="False" checked="True" label="Convert hits to copy numbers" />
a5f1638b73be Uploaded petr-novak parents: diff changeset	83 </when>
a5f1638b73be Uploaded petr-novak parents: diff changeset	84 <when value="True">
a5f1638b73be Uploaded petr-novak parents: diff changeset	85 <param format="fasta" type="data" name="reads" label="NGS reads" help="Input file of fasta-formatted reads sequences" />
a5f1638b73be Uploaded petr-novak parents: diff changeset	86 <param format="fasta" type="data" name="cls" label="RE list of clusters and belonging reads (hitsort.cls)" help="fasta-formatted list of all clusters reported by RE and reads identifiers that belong to them" />
a5f1638b73be Uploaded petr-novak parents: diff changeset	87 <param format="tabular" type="data" name="annotations" label="Clusters classification" help="Table containing numbers of clusters and corresponding classifications" />
a5f1638b73be Uploaded petr-novak parents: diff changeset	88 <conditional name="cn">
a5f1638b73be Uploaded petr-novak parents: diff changeset	89 <param name="copy_num" type="boolean" truevalue="True" falsevalue="False" checked="False" label="Convert hits to copy numbers" />
a5f1638b73be Uploaded petr-novak parents: diff changeset	90 <when value="True">
a5f1638b73be Uploaded petr-novak parents: diff changeset	91 <param name="genome_size" type="float" value="0" min="0.0000001" max ="1000000" label="Enter the genome size in Mbp" />
a5f1638b73be Uploaded petr-novak parents: diff changeset	92 </when>
a5f1638b73be Uploaded petr-novak parents: diff changeset	93 </conditional>
a5f1638b73be Uploaded petr-novak parents: diff changeset	94 </when>
a5f1638b73be Uploaded petr-novak parents: diff changeset	95 </conditional>
a5f1638b73be Uploaded petr-novak parents: diff changeset	96 <conditional name="dm" >
a5f1638b73be Uploaded petr-novak parents: diff changeset	97 <param name="domains_switch" type="boolean" display="checkbox" truevalue="True" falsevalue="False" checked="True" label="Report protein domains"/>
a5f1638b73be Uploaded petr-novak parents: diff changeset	98 <when value="True">
a5f1638b73be Uploaded petr-novak parents: diff changeset	99 <param name="db_type" type="select" label="Select taxon and protein domain database version (REXdb)" help="">
a5f1638b73be Uploaded petr-novak parents: diff changeset	100 <options from_file="rexdb_versions.txt">
a5f1638b73be Uploaded petr-novak parents: diff changeset	101 <column name="name" index="0"/>
a5f1638b73be Uploaded petr-novak parents: diff changeset	102 <column name="value" index="1"/>
a5f1638b73be Uploaded petr-novak parents: diff changeset	103 </options>
a5f1638b73be Uploaded petr-novak parents: diff changeset	104 </param>
a5f1638b73be Uploaded petr-novak parents: diff changeset	105 </when>
a5f1638b73be Uploaded petr-novak parents: diff changeset	106 </conditional>
a5f1638b73be Uploaded petr-novak parents: diff changeset	107 <conditional name="advanced_options" >
a5f1638b73be Uploaded petr-novak parents: diff changeset	108 <param name="opts" type="boolean" display="checkbox" truevalue="True" falsevalue="False" checked="False" label="Advanced searching options"/>
a5f1638b73be Uploaded petr-novak parents: diff changeset	109 <when value="True">
a5f1638b73be Uploaded petr-novak parents: diff changeset	110 <param name="bit_score" type="float" value="50" label="Bitscore" help="Blast filtering option: BITSCORE" />
a5f1638b73be Uploaded petr-novak parents: diff changeset	111 <param name="e_value" type="text" value="0.1" label="e-value cut-off" help="Blast filtering option: statistical significance threshold for reporting hits" />
a5f1638b73be Uploaded petr-novak parents: diff changeset	112 <param name="word_size" type="integer" value="11" min="7" max="20" label="Initial word size" help="Initial word size used by Blast for alignment" />
a5f1638b73be Uploaded petr-novak parents: diff changeset	113 <param name="dust_filter" type="boolean" display="checkbox" truevalue="True" falsevalue="False" checked="True" label="Use DUST filter" help="Filters query sequence for low-complexity regions with DUST filter" >
a5f1638b73be Uploaded petr-novak parents: diff changeset	114 </param>
a5f1638b73be Uploaded petr-novak parents: diff changeset	115 <param name="window" type="integer" value="5000" min="5000" label="Sliding window size" help="Use when having a long input sequence so that it can be processed in parallel" />
a5f1638b73be Uploaded petr-novak parents: diff changeset	116 <param name="overlap" type="integer" value="150" min="150" max="500" label="Windows overlap" help="Must be greater than read length" />
a5f1638b73be Uploaded petr-novak parents: diff changeset	117 <param name="threshold" type="integer" value="3" min="1" label="Repetitive threshold" help="Threshold for copy numbers/hits at certain position to be reported as repetitive in GFF format" />
a5f1638b73be Uploaded petr-novak parents: diff changeset	118 </when>
a5f1638b73be Uploaded petr-novak parents: diff changeset	119 </conditional>
a5f1638b73be Uploaded petr-novak parents: diff changeset	120 </inputs>
a5f1638b73be Uploaded petr-novak parents: diff changeset	121
a5f1638b73be Uploaded petr-novak parents: diff changeset	122 <outputs>
a5f1638b73be Uploaded petr-novak parents: diff changeset	123 <data format="gff3" name="ProfGff" label="GFF file of repetitive regions from dataset ${input.hid}" />
a5f1638b73be Uploaded petr-novak parents: diff changeset	124 <data format="gff3" name="DomGff" label="GFF file of protein domains from dataset ${input.hid}" >
a5f1638b73be Uploaded petr-novak parents: diff changeset	125 <filter>dm['domains_switch']</filter>
a5f1638b73be Uploaded petr-novak parents: diff changeset	126 </data>
a5f1638b73be Uploaded petr-novak parents: diff changeset	127 <data format="html" name="html_file" label="HTML report, JBrowse Data Directory from ${input.hid}" />
a5f1638b73be Uploaded petr-novak parents: diff changeset	128 <data format="gff3" name="NGff" label="GFF file of unknown bases (Ns) from dataset ${input.hid}" />
a5f1638b73be Uploaded petr-novak parents: diff changeset	129 <data format="txt" name="log_file" label="Log file" />
a5f1638b73be Uploaded petr-novak parents: diff changeset	130
a5f1638b73be Uploaded petr-novak parents: diff changeset	131 </outputs>
a5f1638b73be Uploaded petr-novak parents: diff changeset	132
a5f1638b73be Uploaded petr-novak parents: diff changeset	133 <help>
a5f1638b73be Uploaded petr-novak parents: diff changeset	134
a5f1638b73be Uploaded petr-novak parents: diff changeset	135 HELP
a5f1638b73be Uploaded petr-novak parents: diff changeset	136
a5f1638b73be Uploaded petr-novak parents: diff changeset	137 Input data
a5f1638b73be Uploaded petr-novak parents: diff changeset	138
a5f1638b73be Uploaded petr-novak parents: diff changeset	139 1. list of NGS reads
a5f1638b73be Uploaded petr-novak parents: diff changeset	140 [RE archive: seqclust -> sequences -> sequences.fasta]
a5f1638b73be Uploaded petr-novak parents: diff changeset	141 2. list of all clusters and belonging reads
a5f1638b73be Uploaded petr-novak parents: diff changeset	142 [RE archive: seqclust -> clustering -> hitsort.cls]
a5f1638b73be Uploaded petr-novak parents: diff changeset	143 3. clusters classification table
a5f1638b73be Uploaded petr-novak parents: diff changeset	144 [RE archive: PROFREP_CLASSIFICATION_TEMPLATE.csv (! automatic classification - needs to be manually adjusted)]
a5f1638b73be Uploaded petr-novak parents: diff changeset	145
a5f1638b73be Uploaded petr-novak parents: diff changeset	146 REQUIREMENTS for custom classification table:
a5f1638b73be Uploaded petr-novak parents: diff changeset	147
a5f1638b73be Uploaded petr-novak parents: diff changeset	148 TAB-separated list of cluster numbers and their repetitive classification. The list does not have to necessarily contain all the clusters. Classification may be an arbitrary custom string, but it is highly desirable to use the standardized format, especially for downstream analysis of the output (ProfRep Refiner Tool):
a5f1638b73be Uploaded petr-novak parents: diff changeset	149
a5f1638b73be Uploaded petr-novak parents: diff changeset	150 - individual classification levels are separated by a pipe character "\|"
a5f1638b73be Uploaded petr-novak parents: diff changeset	151 - the first classification level is derived from the origin of the repetitive sequence, i.e. repeat, organelle.
a5f1638b73be Uploaded petr-novak parents: diff changeset	152 - mobile elements classification should follow protein domains classification
a5f1638b73be Uploaded petr-novak parents: diff changeset	153 - for the rest of repeats (e.g. satellites, MITEs) arbitrary custom classification with any number of levels is allowed
a5f1638b73be Uploaded petr-novak parents: diff changeset	154
a5f1638b73be Uploaded petr-novak parents: diff changeset	155 Example::
a5f1638b73be Uploaded petr-novak parents: diff changeset	156
a5f1638b73be Uploaded petr-novak parents: diff changeset	157 42 repeat\|mobile_element\|Class_I\|LTR\|Ty1/copia\|SIRE
a5f1638b73be Uploaded petr-novak parents: diff changeset	158 43 repeat\|mobile_element\|Class_I\|LTR\|Ty3/gypsy\|non-chromovirus\|OTA\|Ogre/Tat\|TatIV/Ogre
a5f1638b73be Uploaded petr-novak parents: diff changeset	159 45 repeat\|mobile_element\|Class_I\|LTR\|Ty3/gypsy\|non-chromovirus\|OTA\|Athila
a5f1638b73be Uploaded petr-novak parents: diff changeset	160 48 repeat\|satellite\|PisTR/B
a5f1638b73be Uploaded petr-novak parents: diff changeset	161 134 organelle\|plastid
a5f1638b73be Uploaded petr-novak parents: diff changeset	162
a5f1638b73be Uploaded petr-novak parents: diff changeset	163 All the files are available from RE clustering archive. For Galaxy manipulation you can use 'Extract Data for Profrep' tool to extract them. Please keep in mind that classification table from RepeatExplorer should serve as some kind of template and it is supposed to be manually adjusted anyway. For selected species these files will already be available as prepared datasets - at present this option is only available for Pisum sativum Terno (Macas et al 2015))
a5f1638b73be Uploaded petr-novak parents: diff changeset	164
a5f1638b73be Uploaded petr-novak parents: diff changeset	165
a5f1638b73be Uploaded petr-novak parents: diff changeset	166 Principle
a5f1638b73be Uploaded petr-novak parents: diff changeset	167
a5f1638b73be Uploaded petr-novak parents: diff changeset	168 The main ProfRep tool runs blastn similarity search on given DNA against the database of all reads (low coverage sequencing). The preliminary hits have to pass quality filter (not too stringent so that the hit are not too fragmented) based on BITSCORE parameter (default 50). These and other search parameters are all adjustable (Advanced options in Galaxy formular). The similarity search runs in parallel which lowers the computing times significantly especially when working with large input data - it defaultly uses all the sources available. The parallelization sliding window is set to 5kb with 150b overlap, both parameters are adjustable as well. When changing them, make sure that the overlap is at least of reads length so that the hits on borders are covered. The hits are sorted to clusters they belong to and subsequently assigned to a corresponding repetitive class based on the classification table. The hits amounts per each base are recorded for every repeat class separately in form of repetitive profile. Hits can be recalculated to copy numbers if the genome size of the species is provided (for prepared species in the Galaxy menu already included). The profiles are reported in a BigWig format to be visualized as graphs (log scale) in JBrowse. This format is binary, so it cannot be directly checked, but the quantitative information is still available form Wig text-based files in the output data structure ("data" DIR). For a quick check the profiles including the domains regions are also showed in summary HTML report (if the sequence length does not exceed 200kb). The summed profile ALL is created based on all individual profiles plus profiles of all mapped (but unclustered or unclassified) reads, keeping track of the overal sequence representation of repeats.
a5f1638b73be Uploaded petr-novak parents: diff changeset	169 Protein domains search is accomplished by DANTE tool (see below), running defaultly as a ProfRep module (can be switched off). The protein domains outputs are already filtered with default quality parameters optimized for Viridiplantae species.
a5f1638b73be Uploaded petr-novak parents: diff changeset	170
a5f1638b73be Uploaded petr-novak parents: diff changeset	171 Outputs
a5f1638b73be Uploaded petr-novak parents: diff changeset	172
a5f1638b73be Uploaded petr-novak parents: diff changeset	173 - HTML summary report, JBrowse Data Directory showing basic information and repetitive profile graphs as well as protein domains (optional) for individual sequences (up to 50). This output also serves as an data directory for [JBrowse](https://jbrowse.org/) genome browser. You can create a standalone JBrowse instance for further detailed visualization of the output tracks using Galaxy-integrated tool. This output can also be downloaded as an archive containing all relevant data for visualization via locally installed JBrowse server (see more about visualization in OUTPUT VISUALIZATION below)
a5f1638b73be Uploaded petr-novak parents: diff changeset	174 - Ns GFF - reports unspecified (N) bases regions in the sequence
a5f1638b73be Uploaded petr-novak parents: diff changeset	175 - Repeats GFF - reports repetitive regions of a certain length (defaultly 80) and above hits/copy numbers threshold (defaultly 5)
a5f1638b73be Uploaded petr-novak parents: diff changeset	176 - Domains GFF - reports protein domains, classification of domain, chain orientation and alignment sequences
a5f1638b73be Uploaded petr-novak parents: diff changeset	177 - Log file
a5f1638b73be Uploaded petr-novak parents: diff changeset	178
a5f1638b73be Uploaded petr-novak parents: diff changeset	179
a5f1638b73be Uploaded petr-novak parents: diff changeset	180 </help>
a5f1638b73be Uploaded petr-novak parents: diff changeset	181
a5f1638b73be Uploaded petr-novak parents: diff changeset	182 </tool>
a5f1638b73be Uploaded petr-novak parents: diff changeset	183

Mercurial > repos > petr-novak > profrep

annotate profrep.xml @ 6:1c25246f6e68 draft default tip