velvet_optimiser: velvet_optimiser

author	simon-gladman
date	Tue, 05 Feb 2013 19:19:15 -0500
parents
children

rev	line source
1 94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	1 <tool id="velvetoptimiser_vlsci" name="Velvet Optimiser vlsci" version="1.0.0">
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	2 <description>Automatically optimise a de-novo assembly using Velvet.</description>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	3
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	4
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	5 <command interpreter="perl">
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	6 velvet_optimiser_wrapper_vlsci.pl
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	7 '$start_kmer'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	8 '$end_kmer'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	9 '$kmer_step'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	10
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	11 #for i in $inputs:
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	12 '$i.__index__'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	13 '${i.filetype}'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	14 '${i.is_separate.separate}'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	15 '${i.is_separate.forwards_file.datatype}'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	16 '${i.is_separate.forwards_file}'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	17 #if $i.is_separate.separate:
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	18 '${i.is_separate.reverse_file}'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	19 #end if
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	20 '${i.shortMP}'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	21 #end for
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	22
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	23 'other:'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	24 '$amosfile'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	25 '$verbose'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	26
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	27 #if $advanced.is_advanced:
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	28 'advanced:'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	29 '$advanced.optFuncKmer'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	30 '$advanced.optFuncCov'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	31 '$advanced.velvetg_opts'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	32 '$advanced.minCovCutoff'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	33 '$advanced.maxCovCutoff'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	34 #end if
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	35
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	36 '$contigs'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	37 '$stats'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	38 #if $amosfile:
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	39 '$afgfile'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	40 #end if
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	41 '$logfile'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	42 '$dummyout'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	43 '$lastgraph'
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	44
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	45 > $dummyout2
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	46 </command>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	47
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	48 <inputs>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	49 ##The k-mer search range setting section.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	50 <param name="start_kmer" type="integer" label="Start k-mer value" value="19" help="Odd integer. Lower limit of k-mer size range to search for optimum value"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	51 <param name="end_kmer" type="integer" label="End k-mer value" value="191" help="Odd integer. Upper limit of k-mer size range to search for optimum value"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	52 <param name="kmer_step" type="integer" label="k-mer search step size" value="2" help="Step size kmer search over the above range. Must be even."/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	53
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	54 ##Read files section. No need for zipped or auto format options as the data is already sucked in in a legible format...
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	55 <repeat name="inputs" title="Input read libraries">
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	56
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	57 <param name="filetype" type="select" label="File type">
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	58 <option value="short" selected="yes">short</option>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	59 <option value="shortPaired">shortPaired</option>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	60 <option value="long">long</option>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	61 <option value="longPaired">longPaired</option>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	62 <option value="reference">reference</option>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	63 </param>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	64
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	65 <conditional name="is_separate">
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	66 <param name="separate" type="boolean" checked="false" truevalue="-separate" falsevalue="" label="Are the reads paired and in two different files?" help="Tick this box if this is a paired library with forward and reverse read files.."/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	67 <when value="">
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	68 <param name="forwards_file" type="data" format="fasta,fastq,raw,sam,bam" label="Read dataset"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	69 </when>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	70 <when value="-separate">
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	71 <param name="forwards_file" type="data" format="fasta,fastq,raw,sam,bam" label="Read dataset for direction 1"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	72 <param name="reverse_file" type="data" format="fasta,fastq,raw,sam,bam" label="Read dataset for direction 2"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	73 </when>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	74 </conditional>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	75
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	76 <param name="shortMP" type="boolean" checked="false" truevalue="shortMP_lib" falsevalue="not_shortMP" label="Library is short mate paired." help="Select if read set is from an Illumina mate pair library"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	77
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	78 </repeat>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	79
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	80 ##The other options section (amos file, verbose output capture)
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	81 <param name="amosfile" type="boolean" checked="false" truevalue="amos" falsevalue="no_amos" label="Produce the amos output file?"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	82 <param name="verbose" type="boolean" checked="false" truevalue="verbose" falsevalue="not_verbose" label="Capture verbose velvet output in log file?"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	83
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	84 ##Advanced parameter setting section (optFuncs, other velvetg options, min cov cutoff, max cov cutoff ratio)
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	85 <conditional name="advanced">
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	86 <param name="is_advanced" type="boolean" checked="false" truevalue="yes" falsevalue="no" label="Set advanced parameters?"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	87 <when value="yes">
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	88 <param name="optFuncKmer" type="text" value="n50" label="K-mer optimisation function" help="See help below for possibilities!"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	89 <param name="optFuncCov" type="text" value="Lbp" label="Coverage cutoff optimisation function" help="See help below for possibilities!"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	90 <param name="velvetg_opts" type="text" value="" label="Other velvetg options" help="Add any other required velvetg options from the advanced set"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	91 <param name="minCovCutoff" type="integer" value="0" label="Minimum coverage cutoff" help="The minimum coverage cutoff to consider in the optimisation"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	92 <param name="maxCovCutoff" type="float" value="0.8" label="Maximum coverage cutoff" help="The maximum coverage cutoff to consider expressed as a fraction of the calculated expected coverage."/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	93 </when>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	94 <when value="no">
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	95
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	96 </when>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	97 </conditional>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	98
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	99
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	100 </inputs>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	101
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	102 <outputs>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	103 <data name="dummyout" format="tabular" label="${tool.name} on ${on_string}: STDERR" hidden="True"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	104 <data name="dummyout2" format="tabular" label="${tool.name} on ${on_string}: dummyout" hidden="True"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	105 <data name="contigs" format="fasta" label="${tool.name} on ${on_string}: Contigs"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	106 <data name="afgfile" format="afg" label="${tool.name} on ${on_string}: Assembly afg file">
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	107 <filter>(amosfile)</filter>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	108 </data>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	109 <data name="stats" format="tabular" label="${tool.name} on ${on_string}: Contig stats"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	110 <data name="logfile" format="tabular" label="${tool.name} on ${on_string}: VelvetOptimiser Logfile"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	111 <data name="lastgraph" format="text" label="${tool.name} on ${on_string}: VelvetOptimiser LastGraph" hidden="True"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	112 </outputs>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	113
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	114 <requirments>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	115 <requirement type="binary">velveth</requirement>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	116 <requirement type="binary">velvetg</requirement>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	117 <requirement type="binary">VelvetOptimiser.pl</requirement>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	118 </requirments>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	119
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	120 <tests>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	121 <test>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	122 <param name="start_kmer" value="21"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	123 <param name="end_kmer" value="29"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	124 <param name="${inputs.is_separate.separate}" value="false"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	125 <param name="${inputs.is_separate.forwards_file}" value="vopt_test_reads.dat" ftype="fasta"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	126 <output name="contigs" file="vopt_test_contigs.dat"/>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	127 </test>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	128 </tests>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	129
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	130 <help>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	131 Velvet Optimiser Overview
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	132
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	133 Velvet_ is a de novo genomic assembler specially designed for short read sequencing technologies, such as Solexa or 454, developed by Daniel Zerbino and Ewan Birney at the European Bioinformatics Institute (EMBL-EBI), near Cambridge, in the United Kingdom.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	134
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	135 Velvet currently takes in short read sequences, removes errors then produces high quality unique contigs. It then uses paired-end read and long read information, when available, to retrieve the repeated areas between contigs.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	136
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	137 Read the Velvet `documentation`__ for details on using the Vevlet Assembler.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	138
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	139 .. _Velvet: http://www.ebi.ac.uk/~zerbino/velvet/
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	140
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	141 .. __: http://www.ebi.ac.uk/~zerbino/velvet/Manual.pdf
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	142
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	143 ------
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	144
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	145 VelvetOptimiser
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	146
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	147 VelvetOptimiser_ was written by Simon Gladman of CSIRO/Monash University.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	148
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	149 VelvetOptimiser performs a number of velveth and velvetg steps to try and optimise an assembly based on the metrics provided below.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	150
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	151 .. _VelvetOptimiser: http://bioinformatics.net.au/software.shtml
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	152
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	153 ------
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	154
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	155 Velvet Optimiser VLSCI
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	156
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	157 Galaxy tool wrapper for newer versions (2.5.5) of Velvet Optimiser. Written by Simon Gladman of VBC/VLSCI.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	158
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	159 Written for use on the Genomics Virtual Laboratory.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	160
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	161 ------
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	162
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	163 Outputs
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	164
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	165
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	166 Contigs
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	167
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	168 The contigs.fa file.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	169 This fasta file contains the sequences of the contigs longer than 2k, where k is the word-length used in velveth. If you have specified a min contig lgth threshold, then the contigs shorter than that value are omitted.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	170 Note that the length and coverage information provided in the header of each contig should therefore be understood in k-mers and in k-mer coverage (cf. 5.1) respectively.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	171 The N's in the sequence correspond to gaps between scaffolded contigs. The number of N's corresponds to the estimated length of the gap. For reasons of compatibility with the archives, any gap shorter than 10bp is represented by a sequence of 10 N's.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	172
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	173 Stats
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	174
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	175 The stats.txt file.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	176 This file is a simple tabbed-delimited description of the nodes. The column names are pretty much self-explanatory. Note however that node lengths are given in k-mers. To obtain the length in nucleotides of each node you simply need to add k - 1, where k is the word-length used in velveth.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	177 The in and out columns correspond to the number of arcs on the 5' and 3' ends of the contig respectively.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	178 The coverages in columns short1 cov, short1 Ocov, short2 cov, and short2 Ocov are provided in k-mer coverage (5.1).
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	179 Also, the difference between # cov and # Ocov is the way these values are computed. In the first count, slightly divergent sequences are added to the coverage tally. However, in the second, stricter count, only the sequences which map perfectly onto the consensus sequence are taken into account.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	180
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	181 LastGraph
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	182
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	183 The LastGraph file.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	184 This file describes in its entirety the graph produced by Velvet.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	185
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	186 AMOS.afg
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	187
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	188 The velvet_asm.afg file.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	189 This file is mainly designed to be read by the open-source AMOS genome assembly package. Nonetheless, a number of programs are available to transform this kind of file into other assembly file formats (namely ACE, TIGR, Arachne and Celera). See http://amos.sourceforge.net/ for more information.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	190 The file describes all the contigs contained in the contigs.fa file (cf 4.2.1).
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	191
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	192 Logfile
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	193
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	194 The Velvet Optimiser's logfile
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	195
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	196 STDERR
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	197
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	198 The Standard Error output of the Optimiser for error messages etc.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	199
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	200 Dummyout
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	201
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	202 The workings of the perl script intermediary between galaxy and the optimiser. DEBUG information while testing. Will be removed from final version.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	203
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	204 Advanced options
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	205
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	206 Other Velvetg Options : Extra velvetg options to pass through. eg. -long_mult_cutoff -max_coverage etc (default '') See below for details.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	207
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	208 Minimum coverage cutoff : The minimum cov_cutoff to be used. (default '0').
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	209
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	210 Maximum coverage cutoff : The maximum coverage cutoff to consider as a multiplier of the expected coverage. (default '0.8').
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	211
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	212 K-mer optimisation function : The optimisation function used for k-mer choice. (default 'n50').
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	213
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	214 Coverage cutoff optimisation function : The optimisation function used for cov_cutoff optimisation. (default 'Lbp').
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	215
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	216 Velvet optimiser assembly optimisation function can be built from the following variables.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	217
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	218 LNbp = The total number of Ns in large contigs
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	219
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	220 Lbp = The total number of base pairs in large contigs
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	221
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	222 Lcon = The number of large contigs
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	223
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	224 max = The length of the longest contig
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	225
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	226 n50 = The n50
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	227
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	228 ncon = The total number of contigs
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	229
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	230 tbp = The total number of basepairs in contigs
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	231
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	232 Examples are:
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	233
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	234 'Lbp' = Just the total basepairs in contigs longer than 1kb
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	235
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	236 'n50*Lcon' = The n50 times the number of long contigs.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	237
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	238 'n50*Lcon/tbp+log(Lbp)' = The n50 times the number of long contigs divided by the total bases in all contigs plus the log of the number of bases in long contigs (as an example only.)
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	239
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	240 Hash Length
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	241
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	242 The hash length, also known as k-mer length, corresponds to the length, in base pairs, of the words being hashed.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	243
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	244 The hash length is the length of the k-mers being entered in the hash table. Firstly, you must observe three technical constraints::
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	245
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	246 # it must be an odd number, to avoid palindromes. If you put in an even number, Velvet will just decrement it and proceed.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	247 # it must be below or equal to MAXKMERHASH length (cf. 2.3.3, by default 31bp), because it is stored on 64 bits
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	248 # it must be strictly inferior to read length, otherwise you simply will not observe any overlaps between reads, for obvious reasons.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	249
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	250 Now you still have quite a lot of possibilities. As is often the case, it's a trade- off between specificity and sensitivity. Longer kmers bring you more specificity (i.e. less spurious overlaps) but lowers coverage (cf. below). . . so there's a sweet spot to be found with time and experience.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	251 We like to think in terms of "k-mer coverage", i.e. how many times has a k-mer been seen among the reads. The relation between k-mer coverage Ck and standard (nucleotide-wise) coverage C is Ck = C # (L - k + 1)/L where k is your hash length, and L you read length.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	252 Experience shows that this kmer coverage should be above 10 to start getting decent results. If Ck is above 20, you might be "wasting" coverage. Experience also shows that empirical tests with different values for k are not that costly to run! VelvetOptimiser automates these tests for you.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	253
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	254
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	255 Velvetg options
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	256
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	257 -scaffolding yes\|no : scaffolding of contigs used paired end information (default: on)
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	258
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	259 -max_branch_length integer : maximum length in base pair of bubble (default: 100)
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	260
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	261 max_divergence floating-point : maximum divergence rate between two branches in a bubble (default: 0.2)
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	262
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	263 -max_gap_count integer : maximum number of gaps allowed in the alignment of the two branches of a bubble (default: 3)
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	264
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	265 -min_pair_count integer : minimum number of paired end connections to justify the scaffolding of two long contigs (default: 5)
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	266
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	267 -max_coverage floating point : removal of high coverage nodes AFTER tour bus (default: no removal)
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	268
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	269 -coverage_mask integer : minimum coverage required for confident regions of contigs (default: 1)
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	270
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	271 -long_mult_cutoff integer : minimum number of long reads required to merge contigs (default: 2)
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	272
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	273 -paired_exp_fraction double : remove all the paired end connections which less than the specified fraction of the expected count (default: 0.1)
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	274
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	275 -conserveLong yes\|no : preserve sequences with long reads in them (default no)
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	276
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	277
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	278 Input Files
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	279
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	280 Velvet works mainly with fasta and fastq formats. For paired-end reads, the assumption is that each read is next to its mate
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	281 read. In other words, if the reads are indexed from 0, then reads 0 and 1 are paired, 2 and 3, 4 and 5, etc.
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	282
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	283 Supported file formats are::
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	284
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	285 fasta
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	286 fastq
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	287 raw
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	288 sam
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	289 bam
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	290
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	291 Read categories are::
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	292
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	293 short (default)
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	294 shortPaired
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	295 long (for Sanger, 454 or even reference sequences)
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	296 longPaired
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	297 reference (for pre-mapped sam or bam files - see Velvet manual for details on how to use this option)
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	298
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	299 </help>
94dbee11c8a9 Uploaded simon-gladman parents: diff changeset	300 </tool>

1

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

1 <tool id="velvetoptimiser_vlsci" name="Velvet Optimiser vlsci" version="1.0.0">

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

2 <description>Automatically optimise a de-novo assembly using Velvet.</description>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

3

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

4

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

5 <command interpreter="perl">

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

6 velvet_optimiser_wrapper_vlsci.pl

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

7 '$start_kmer'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

8 '$end_kmer'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

9 '$kmer_step'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

10

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

11 #for i in $inputs:

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

12 '$i.__index__'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

13 '${i.filetype}'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

14 '${i.is_separate.separate}'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

15 '${i.is_separate.forwards_file.datatype}'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

16 '${i.is_separate.forwards_file}'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

17 #if $i.is_separate.separate:

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

18 '${i.is_separate.reverse_file}'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

19 #end if

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

20 '${i.shortMP}'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

21 #end for

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

22

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

23 'other:'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

24 '$amosfile'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

25 '$verbose'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

26

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

27 #if $advanced.is_advanced:

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

28 'advanced:'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

29 '$advanced.optFuncKmer'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

30 '$advanced.optFuncCov'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

31 '$advanced.velvetg_opts'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

32 '$advanced.minCovCutoff'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

33 '$advanced.maxCovCutoff'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

34 #end if

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

35

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

36 '$contigs'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

37 '$stats'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

38 #if $amosfile:

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

39 '$afgfile'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

40 #end if

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

41 '$logfile'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

42 '$dummyout'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

43 '$lastgraph'

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

44

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

45 > $dummyout2

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

46 </command>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

47

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

48 <inputs>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

49 ##The k-mer search range setting section.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

50 <param name="start_kmer" type="integer" label="Start k-mer value" value="19" help="Odd integer. Lower limit of k-mer size range to search for optimum value"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

51 <param name="end_kmer" type="integer" label="End k-mer value" value="191" help="Odd integer. Upper limit of k-mer size range to search for optimum value"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

52 <param name="kmer_step" type="integer" label="k-mer search step size" value="2" help="Step size kmer search over the above range. Must be even."/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

53

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

54 ##Read files section. No need for zipped or auto format options as the data is already sucked in in a legible format...

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

55 <repeat name="inputs" title="Input read libraries">

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

56

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

57 <param name="filetype" type="select" label="File type">

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

58 <option value="short" selected="yes">short</option>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

59 <option value="shortPaired">shortPaired</option>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

60 <option value="long">long</option>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

61 <option value="longPaired">longPaired</option>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

62 <option value="reference">reference</option>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

63 </param>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

64

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

65 <conditional name="is_separate">

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

66 <param name="separate" type="boolean" checked="false" truevalue="-separate" falsevalue="" label="Are the reads paired and in two different files?" help="Tick this box if this is a paired library with forward and reverse read files.."/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

67 <when value="">

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

68 <param name="forwards_file" type="data" format="fasta,fastq,raw,sam,bam" label="Read dataset"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

69 </when>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

70 <when value="-separate">

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

71 <param name="forwards_file" type="data" format="fasta,fastq,raw,sam,bam" label="Read dataset for direction 1"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

72 <param name="reverse_file" type="data" format="fasta,fastq,raw,sam,bam" label="Read dataset for direction 2"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

73 </when>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

74 </conditional>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

75

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

76 <param name="shortMP" type="boolean" checked="false" truevalue="shortMP_lib" falsevalue="not_shortMP" label="Library is short mate paired." help="Select if read set is from an Illumina mate pair library"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

77

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

78 </repeat>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

79

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

80 ##The other options section (amos file, verbose output capture)

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

81 <param name="amosfile" type="boolean" checked="false" truevalue="amos" falsevalue="no_amos" label="Produce the amos output file?"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

82 <param name="verbose" type="boolean" checked="false" truevalue="verbose" falsevalue="not_verbose" label="Capture verbose velvet output in log file?"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

83

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

84 ##Advanced parameter setting section (optFuncs, other velvetg options, min cov cutoff, max cov cutoff ratio)

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

85 <conditional name="advanced">

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

86 <param name="is_advanced" type="boolean" checked="false" truevalue="yes" falsevalue="no" label="Set advanced parameters?"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

87 <when value="yes">

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

88 <param name="optFuncKmer" type="text" value="n50" label="K-mer optimisation function" help="See help below for possibilities!"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

89 <param name="optFuncCov" type="text" value="Lbp" label="Coverage cutoff optimisation function" help="See help below for possibilities!"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

90 <param name="velvetg_opts" type="text" value="" label="Other velvetg options" help="Add any other required velvetg options from the advanced set"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

91 <param name="minCovCutoff" type="integer" value="0" label="Minimum coverage cutoff" help="The minimum coverage cutoff to consider in the optimisation"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

92 <param name="maxCovCutoff" type="float" value="0.8" label="Maximum coverage cutoff" help="The maximum coverage cutoff to consider expressed as a fraction of the calculated expected coverage."/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

93 </when>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

94 <when value="no">

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

95

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

96 </when>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

97 </conditional>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

98

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

99

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

100 </inputs>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

101

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

102 <outputs>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

103 <data name="dummyout" format="tabular" label="${tool.name} on ${on_string}: STDERR" hidden="True"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

104 <data name="dummyout2" format="tabular" label="${tool.name} on ${on_string}: dummyout" hidden="True"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

105 <data name="contigs" format="fasta" label="${tool.name} on ${on_string}: Contigs"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

106 <data name="afgfile" format="afg" label="${tool.name} on ${on_string}: Assembly afg file">

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

107 <filter>(amosfile)</filter>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

108 </data>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

109 <data name="stats" format="tabular" label="${tool.name} on ${on_string}: Contig stats"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

110 <data name="logfile" format="tabular" label="${tool.name} on ${on_string}: VelvetOptimiser Logfile"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

111 <data name="lastgraph" format="text" label="${tool.name} on ${on_string}: VelvetOptimiser LastGraph" hidden="True"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

112 </outputs>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

113

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

114 <requirments>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

115 <requirement type="binary">velveth</requirement>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

116 <requirement type="binary">velvetg</requirement>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

117 <requirement type="binary">VelvetOptimiser.pl</requirement>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

118 </requirments>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

119

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

120 <tests>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

121 <test>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

122 <param name="start_kmer" value="21"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

123 <param name="end_kmer" value="29"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

124 <param name="${inputs.is_separate.separate}" value="false"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

125 <param name="${inputs.is_separate.forwards_file}" value="vopt_test_reads.dat" ftype="fasta"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

126 <output name="contigs" file="vopt_test_contigs.dat"/>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

127 </test>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

128 </tests>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

129

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

130 <help>

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

131 **Velvet Optimiser Overview**

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

132

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

133 Velvet_ is a de novo genomic assembler specially designed for short read sequencing technologies, such as Solexa or 454, developed by Daniel Zerbino and Ewan Birney at the European Bioinformatics Institute (EMBL-EBI), near Cambridge, in the United Kingdom.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

134

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

135 Velvet currently takes in short read sequences, removes errors then produces high quality unique contigs. It then uses paired-end read and long read information, when available, to retrieve the repeated areas between contigs.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

136

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

137 Read the Velvet `documentation`__ for details on using the Vevlet Assembler.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

138

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

139 .. _Velvet: http://www.ebi.ac.uk/~zerbino/velvet/

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

140

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

141 .. __: http://www.ebi.ac.uk/~zerbino/velvet/Manual.pdf

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

142

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

143 ------

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

144

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

145 **VelvetOptimiser**

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

146

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

147 VelvetOptimiser_ was written by Simon Gladman of CSIRO/Monash University.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

148

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

149 VelvetOptimiser performs a number of velveth and velvetg steps to try and optimise an assembly based on the metrics provided below.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

150

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

151 .. _VelvetOptimiser: http://bioinformatics.net.au/software.shtml

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

152

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

153 ------

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

154

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

155 **Velvet Optimiser VLSCI**

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

156

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

157 Galaxy tool wrapper for newer versions (2.5.5) of Velvet Optimiser. Written by Simon Gladman of VBC/VLSCI.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

158

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

159 Written for use on the Genomics Virtual Laboratory.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

160

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

161 ------

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

162

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

163 **Outputs**

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

164

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

165

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

166 **Contigs**

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

167

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

168 The *contigs.fa* file.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

169 This fasta file contains the sequences of the contigs longer than 2k, where k is the word-length used in velveth. If you have specified a min contig lgth threshold, then the contigs shorter than that value are omitted.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

170 Note that the length and coverage information provided in the header of each contig should therefore be understood in k-mers and in k-mer coverage (cf. 5.1) respectively.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

171 The N's in the sequence correspond to gaps between scaffolded contigs. The number of N's corresponds to the estimated length of the gap. For reasons of compatibility with the archives, any gap shorter than 10bp is represented by a sequence of 10 N's.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

172

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

173 **Stats**

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

174

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

175 The *stats.txt* file.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

176 This file is a simple tabbed-delimited description of the nodes. The column names are pretty much self-explanatory. Note however that node lengths are given in k-mers. To obtain the length in nucleotides of each node you simply need to add k - 1, where k is the word-length used in velveth.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

177 The in and out columns correspond to the number of arcs on the 5' and 3' ends of the contig respectively.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

178 The coverages in columns short1 cov, short1 Ocov, short2 cov, and short2 Ocov are provided in k-mer coverage (5.1).

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

179 Also, the difference between # cov and # Ocov is the way these values are computed. In the first count, slightly divergent sequences are added to the coverage tally. However, in the second, stricter count, only the sequences which map perfectly onto the consensus sequence are taken into account.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

180

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

181 **LastGraph**

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

182

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

183 The *LastGraph* file.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

184 This file describes in its entirety the graph produced by Velvet.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

185

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

186 **AMOS.afg**

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

187

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

188 The *velvet_asm.afg* file.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

189 This file is mainly designed to be read by the open-source AMOS genome assembly package. Nonetheless, a number of programs are available to transform this kind of file into other assembly file formats (namely ACE, TIGR, Arachne and Celera). See http://amos.sourceforge.net/ for more information.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

190 The file describes all the contigs contained in the contigs.fa file (cf 4.2.1).

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

191

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

192 **Logfile**

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

193

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

194 The Velvet Optimiser's logfile

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

195

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

196 **STDERR**

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

197

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

198 The Standard Error output of the Optimiser for error messages etc.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

199

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

200 **Dummyout**

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

201

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

202 The workings of the perl script intermediary between galaxy and the optimiser. DEBUG information while testing. Will be removed from final version.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

203

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

204 **Advanced options**

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

205

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

206 Other Velvetg Options : Extra velvetg options to pass through. eg. -long_mult_cutoff -max_coverage etc (default '') See below for details.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

207

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

208 Minimum coverage cutoff : The minimum cov_cutoff to be used. (default '0').

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

209

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

210 Maximum coverage cutoff : The maximum coverage cutoff to consider as a multiplier of the expected coverage. (default '0.8').

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

211

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

212 K-mer optimisation function : The optimisation function used for k-mer choice. (default 'n50').

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

213

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

214 Coverage cutoff optimisation function : The optimisation function used for cov_cutoff optimisation. (default 'Lbp').

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

215

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

216 Velvet optimiser assembly optimisation function can be built from the following variables.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

217

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

218 LNbp = The total number of Ns in large contigs

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

219

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

220 Lbp = The total number of base pairs in large contigs

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

221

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

222 Lcon = The number of large contigs

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

223

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

224 max = The length of the longest contig

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

225

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

226 n50 = The n50

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

227

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

228 ncon = The total number of contigs

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

229

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

230 tbp = The total number of basepairs in contigs

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

231

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

232 Examples are:

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

233

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

234 'Lbp' = Just the total basepairs in contigs longer than 1kb

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

235

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

236 'n50*Lcon' = The n50 times the number of long contigs.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

237

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

238 'n50*Lcon/tbp+log(Lbp)' = The n50 times the number of long contigs divided by the total bases in all contigs plus the log of the number of bases in long contigs (as an example only.)

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

239

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

240 **Hash Length**

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

241

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

242 The hash length, also known as k-mer length, corresponds to the length, in base pairs, of the words being hashed.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

243

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

244 The hash length is the length of the k-mers being entered in the hash table. Firstly, you must observe three technical constraints::

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

245

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

246 # it must be an odd number, to avoid palindromes. If you put in an even number, Velvet will just decrement it and proceed.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

247 # it must be below or equal to MAXKMERHASH length (cf. 2.3.3, by default 31bp), because it is stored on 64 bits

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

248 # it must be strictly inferior to read length, otherwise you simply will not observe any overlaps between reads, for obvious reasons.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

249

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

250 Now you still have quite a lot of possibilities. As is often the case, it's a trade- off between specificity and sensitivity. Longer kmers bring you more specificity (i.e. less spurious overlaps) but lowers coverage (cf. below). . . so there's a sweet spot to be found with time and experience.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

251 We like to think in terms of "k-mer coverage", i.e. how many times has a k-mer been seen among the reads. The relation between k-mer coverage Ck and standard (nucleotide-wise) coverage C is Ck = C # (L - k + 1)/L where k is your hash length, and L you read length.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

252 Experience shows that this kmer coverage should be above 10 to start getting decent results. If Ck is above 20, you might be "wasting" coverage. Experience also shows that empirical tests with different values for k are not that costly to run! VelvetOptimiser automates these tests for you.

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

253

94dbee11c8a9 Uploaded

simon-gladman

parents:

diff changeset

254

94dbee11c8a9 Uploaded

simon-gladman