metavelvet_wrapper: velvet.pl annotate

annotate velvet.pl @ 3:c979f8682b21 draft

Uploaded

author	stheil
date	Thu, 24 Sep 2015 10:42:55 -0400
parents
children

rev	line source
3 c979f8682b21 Uploaded stheil parents: diff changeset	1 #!/usr/bin/perl
c979f8682b21 Uploaded stheil parents: diff changeset	2 use strict;
c979f8682b21 Uploaded stheil parents: diff changeset	3 use warnings;
c979f8682b21 Uploaded stheil parents: diff changeset	4 use Logger::Logger;
c979f8682b21 Uploaded stheil parents: diff changeset	5 use Getopt::Long;
c979f8682b21 Uploaded stheil parents: diff changeset	6 use Tools::Fasta;
c979f8682b21 Uploaded stheil parents: diff changeset	7 use Pod::Usage;
c979f8682b21 Uploaded stheil parents: diff changeset	8
c979f8682b21 Uploaded stheil parents: diff changeset	9 my $directory;
c979f8682b21 Uploaded stheil parents: diff changeset	10 my $hashLength;
c979f8682b21 Uploaded stheil parents: diff changeset	11 my $fileString;
c979f8682b21 Uploaded stheil parents: diff changeset	12 my $performMetagenomicAssembly = 1;
c979f8682b21 Uploaded stheil parents: diff changeset	13 my $man;
c979f8682b21 Uploaded stheil parents: diff changeset	14 my $help;
c979f8682b21 Uploaded stheil parents: diff changeset	15
c979f8682b21 Uploaded stheil parents: diff changeset	16 my $velvethOptions = {};
c979f8682b21 Uploaded stheil parents: diff changeset	17 my $velvetgOptions = {};
c979f8682b21 Uploaded stheil parents: diff changeset	18 my $velvetgmOptions = {};
c979f8682b21 Uploaded stheil parents: diff changeset	19 my $metaVelvetgOptions = {};
c979f8682b21 Uploaded stheil parents: diff changeset	20 my $lastOptFile ='';
c979f8682b21 Uploaded stheil parents: diff changeset	21
c979f8682b21 Uploaded stheil parents: diff changeset	22 GetOptions(
c979f8682b21 Uploaded stheil parents: diff changeset	23
c979f8682b21 Uploaded stheil parents: diff changeset	24 'd\|directory=s' => \$directory,
c979f8682b21 Uploaded stheil parents: diff changeset	25 'hash_length=s' => \$hashLength,
c979f8682b21 Uploaded stheil parents: diff changeset	26 'm\|meta!' => \$performMetagenomicAssembly,
c979f8682b21 Uploaded stheil parents: diff changeset	27 'man' => \$man,
c979f8682b21 Uploaded stheil parents: diff changeset	28 'h\|help' => \$help,
c979f8682b21 Uploaded stheil parents: diff changeset	29 'short:s{,}' => sub {registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	30 'short2:s{,}' => sub {registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	31 'short3:s{,}' => sub {registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	32 'shortPaired:s{,}' => sub {registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	33 'shortPaired2:s{,}' => sub {registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	34 'shortPaired3:s{,}' => sub {registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	35 'long:s{,}' => sub {registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	36 'longPaired:s{,}' => sub {registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	37 'reference:s{,}' => sub {registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	38 'fasta:s{,}' => sub {registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	39 'fastq:s{,}' => sub {registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	40 'raw:s{,}' => sub {registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	41 'fasta_gz:s{,}' => sub {$_[0] =~ s/_/./; registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	42 'fastq_gz:s{,}' => sub {$_[0] =~ s/_/./; registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	43 'raw_gz:s{,}' => sub {$_[0] =~ s/_/./; registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	44 'sam:s{,}' => sub {registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	45 'bam:s{,}' => sub {registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	46 'fmtAuto:s{,}' => sub {registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	47 'interleaved:s{,}' => sub {registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	48 'separate:s{,}' => sub {registerVelvetFileOptionHash(\$fileString, \$lastOptFile, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	49 'strand_specific' => sub{registerOnOffOption($velvethOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	50 'reuse_Sequences:s' => sub{registerOnOffOption($velvethOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	51 'reuse_binary:s' => sub{registerOnOffOption($velvethOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	52 'noHash:s' => sub{registerOnOffOption($velvethOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	53 'create_binary:s' => sub{registerOnOffOption($velvethOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	54
c979f8682b21 Uploaded stheil parents: diff changeset	55 'cov_cutoff=f' => sub{registerScalarOptionHash($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	56 'ins_length=i' => sub{registerScalarOptionHash($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	57 'read_trkg=s' => sub{registerYesNoOption($velvetgOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	58 'min_contig_lgth=i' => sub{registerScalarOptionHash($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	59 'amos_file=s' => sub{registerScalarOptionHash($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	60 'exp_cov=s' => sub{registerScalarOptionHash($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	61 'long_cov_cutoff=f' => sub{registerScalarOptionHash($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	62 'ins_length_long=i' => sub{registerScalarOptionHash($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	63 'ins_length2=i' => sub{registerScalarOptionHash($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	64 'ins_length_sd=i' => sub{registerScalarOptionHash($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	65 'ins_length_long_sd=i' => sub{registerScalarOptionHash($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	66 'ins_length2_sd=i' => sub{registerScalarOptionHash($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	67 'scaffolding=s' => sub{registerScalarOptionHash($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	68 'max_branch_length=i' => sub{registerScalarOptionHash($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	69 'max_divergence=f' => sub{registerScalarOptionHash($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	70 'max_gap_count=i' => sub{registerScalarOptionHash($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	71 'min_pair_count=i' => sub{registerScalarOptionHash($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	72 'max_coverage=f' => sub{registerScalarOptionHash($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	73 'coverage_mask=i' => sub{registerScalarOptionHash($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	74 'long_mult_cutoff=i' => sub{registerScalarOptionHash($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	75 'unused_reads=s' => sub{registerYesNoOption($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	76 'alignments=s' => sub{registerYesNoOption($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	77 'exportFiltered=s' => sub{registerYesNoOption($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	78 'clean=s' => sub{registerYesNoOption($velvetgOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	79 'very_clean=s' => sub{registerYesNoOption($velvetgOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	80 'paired_exp_fraction=f' => sub{registerYesNoOption($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	81 'shortMatePaired=s' => sub{registerYesNoOption($velvetgmOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	82 'conserveLong=s' => sub{registerYesNoOption($velvetgOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	83
c979f8682b21 Uploaded stheil parents: diff changeset	84 'discard_chimera=s' => sub{registerYesNoOption($metaVelvetgOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	85 'max_chimera_rate=f' => sub{registerScalarOptionHash($metaVelvetgOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	86 'repeat_cov_sd=f' => sub{registerScalarOptionHash($metaVelvetgOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	87 'min_split_length=i' => sub{registerScalarOptionHash($metaVelvetgOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	88 'valid_connections=i' => sub{registerScalarOptionHash($metaVelvetgOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	89 'noise_connections=i' => sub{registerScalarOptionHash($metaVelvetgOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	90 'use_connections=s' => sub{registerYesNoOption($metaVelvetgOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	91 'report_split_detail=s' => sub{registerYesNoOption($metaVelvetgOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	92 'report_subgraph=s' => sub{registerYesNoOption($metaVelvetgOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	93 'exp_covs=s' => sub{registerScalarOptionHash($metaVelvetgOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	94 'min_peak_cov=f' => sub{registerScalarOptionHash($metaVelvetgOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	95 'max_peak_cov=f' => sub{registerScalarOptionHash($metaVelvetgOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	96 'histo_bin_width=f' => sub{registerScalarOptionHash($metaVelvetgOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	97 'histo_sn_ratio=f' => sub{registerScalarOptionHash($metaVelvetgOptions, @_)},
c979f8682b21 Uploaded stheil parents: diff changeset	98
c979f8682b21 Uploaded stheil parents: diff changeset	99 ) or pod2usage( "Try '$0 --help' for more information." );
c979f8682b21 Uploaded stheil parents: diff changeset	100
c979f8682b21 Uploaded stheil parents: diff changeset	101 pod2usage( -verbose => 2 ) if $man;
c979f8682b21 Uploaded stheil parents: diff changeset	102 pod2usage( -verbose => 1 ) if ($help \|\| ! defined $fileString);
c979f8682b21 Uploaded stheil parents: diff changeset	103
c979f8682b21 Uploaded stheil parents: diff changeset	104 Logger::Logger->changeMode(0);
c979f8682b21 Uploaded stheil parents: diff changeset	105
c979f8682b21 Uploaded stheil parents: diff changeset	106 if(!defined $directory \|\| $directory eq ''){
c979f8682b21 Uploaded stheil parents: diff changeset	107 $directory = '.';
c979f8682b21 Uploaded stheil parents: diff changeset	108 }
c979f8682b21 Uploaded stheil parents: diff changeset	109
c979f8682b21 Uploaded stheil parents: diff changeset	110 $directory .= '/';
c979f8682b21 Uploaded stheil parents: diff changeset	111
c979f8682b21 Uploaded stheil parents: diff changeset	112 #Running velveth
c979f8682b21 Uploaded stheil parents: diff changeset	113 my $velvethCommand = 'velveth ' . $directory . ' ' . $hashLength . ' ' . $fileString . ' ' . convertOptionHashToCommandLine($velvethOptions);
c979f8682b21 Uploaded stheil parents: diff changeset	114 $logger->info('Running velveth...');
c979f8682b21 Uploaded stheil parents: diff changeset	115 $logger->info($velvethCommand);
c979f8682b21 Uploaded stheil parents: diff changeset	116 `$velvethCommand`;
c979f8682b21 Uploaded stheil parents: diff changeset	117
c979f8682b21 Uploaded stheil parents: diff changeset	118 #Running velvetg
c979f8682b21 Uploaded stheil parents: diff changeset	119 if($performMetagenomicAssembly){
c979f8682b21 Uploaded stheil parents: diff changeset	120 $velvetgOptions->{'exp_cov'} = 'auto';
c979f8682b21 Uploaded stheil parents: diff changeset	121 }
c979f8682b21 Uploaded stheil parents: diff changeset	122 my $velvetgCommand = 'velvetg ' . $directory . ' ' . convertOptionHashToCommandLine($velvetgOptions) . ' ' . convertOptionHashToCommandLine($velvetgmOptions);
c979f8682b21 Uploaded stheil parents: diff changeset	123 $logger->info('Running velvetg...');
c979f8682b21 Uploaded stheil parents: diff changeset	124 $logger->info($velvetgCommand);
c979f8682b21 Uploaded stheil parents: diff changeset	125 `$velvetgCommand`;
c979f8682b21 Uploaded stheil parents: diff changeset	126
c979f8682b21 Uploaded stheil parents: diff changeset	127 #Running meta-velvetg
c979f8682b21 Uploaded stheil parents: diff changeset	128 if ($performMetagenomicAssembly){
c979f8682b21 Uploaded stheil parents: diff changeset	129 my $metaVelvetCommand = 'meta-velvetg ' . $directory . ' ' . convertOptionHashToCommandLine($metaVelvetgOptions) . ' ' . convertOptionHashToCommandLine($velvetgmOptions);
c979f8682b21 Uploaded stheil parents: diff changeset	130 $logger->info('Running meta-velvetg...');
c979f8682b21 Uploaded stheil parents: diff changeset	131 $logger->info($metaVelvetCommand);
c979f8682b21 Uploaded stheil parents: diff changeset	132 `$metaVelvetCommand`;
c979f8682b21 Uploaded stheil parents: diff changeset	133 }
c979f8682b21 Uploaded stheil parents: diff changeset	134
c979f8682b21 Uploaded stheil parents: diff changeset	135 if(exists $velvetgmOptions->{'unused_reads'} && $velvetgmOptions->{'unused_reads'} eq 'yes'){
c979f8682b21 Uploaded stheil parents: diff changeset	136 createSingleFile($directory.'UnusedReads.fa', $directory.'Sequences', $directory.'Singlets.fasta');
c979f8682b21 Uploaded stheil parents: diff changeset	137 }
c979f8682b21 Uploaded stheil parents: diff changeset	138
c979f8682b21 Uploaded stheil parents: diff changeset	139 sub convertOptionHashToCommandLine{
c979f8682b21 Uploaded stheil parents: diff changeset	140 my ($optionHash) = @_;
c979f8682b21 Uploaded stheil parents: diff changeset	141 my $commandLineString = '';
c979f8682b21 Uploaded stheil parents: diff changeset	142
c979f8682b21 Uploaded stheil parents: diff changeset	143 foreach my $opt (keys %$optionHash){
c979f8682b21 Uploaded stheil parents: diff changeset	144 if(defined $optionHash->{$opt}){
c979f8682b21 Uploaded stheil parents: diff changeset	145 if(ref $optionHash->{$opt}){
c979f8682b21 Uploaded stheil parents: diff changeset	146 $commandLineString .= '-' . $opt . ' ' . join(' -'.$opt.' ',@{$optionHash->{$opt}}) . ' ';
c979f8682b21 Uploaded stheil parents: diff changeset	147 }
c979f8682b21 Uploaded stheil parents: diff changeset	148 else{
c979f8682b21 Uploaded stheil parents: diff changeset	149 $commandLineString .= '-' . $opt . ' ' . $optionHash->{$opt} . ' ';
c979f8682b21 Uploaded stheil parents: diff changeset	150 }
c979f8682b21 Uploaded stheil parents: diff changeset	151 }
c979f8682b21 Uploaded stheil parents: diff changeset	152 }
c979f8682b21 Uploaded stheil parents: diff changeset	153
c979f8682b21 Uploaded stheil parents: diff changeset	154 return $commandLineString;
c979f8682b21 Uploaded stheil parents: diff changeset	155 }
c979f8682b21 Uploaded stheil parents: diff changeset	156
c979f8682b21 Uploaded stheil parents: diff changeset	157 sub registerYesNoOption{
c979f8682b21 Uploaded stheil parents: diff changeset	158 my ($hash, $optionName, $optionValue) = @_;
c979f8682b21 Uploaded stheil parents: diff changeset	159
c979f8682b21 Uploaded stheil parents: diff changeset	160 if(defined $optionValue && ($optionValue eq 'no' \|\| $optionValue eq 'yes')){
c979f8682b21 Uploaded stheil parents: diff changeset	161 registerScalarOptionHash(@_);
c979f8682b21 Uploaded stheil parents: diff changeset	162 }
c979f8682b21 Uploaded stheil parents: diff changeset	163 else{
c979f8682b21 Uploaded stheil parents: diff changeset	164 $logger->logdie("Option '$optionName' must be yes or no\n");
c979f8682b21 Uploaded stheil parents: diff changeset	165 }
c979f8682b21 Uploaded stheil parents: diff changeset	166 }
c979f8682b21 Uploaded stheil parents: diff changeset	167
c979f8682b21 Uploaded stheil parents: diff changeset	168 sub registerOnOffOption{
c979f8682b21 Uploaded stheil parents: diff changeset	169 my ($hash, $optionName, $optionValue) = @_;
c979f8682b21 Uploaded stheil parents: diff changeset	170
c979f8682b21 Uploaded stheil parents: diff changeset	171 if(! defined $optionValue \|\| ($optionValue eq '')){
c979f8682b21 Uploaded stheil parents: diff changeset	172 registerScalarOptionHash(@_);
c979f8682b21 Uploaded stheil parents: diff changeset	173 }
c979f8682b21 Uploaded stheil parents: diff changeset	174 else{
c979f8682b21 Uploaded stheil parents: diff changeset	175 $logger->logdie("No value allowed for option '$optionName'\n");
c979f8682b21 Uploaded stheil parents: diff changeset	176 }
c979f8682b21 Uploaded stheil parents: diff changeset	177 }
c979f8682b21 Uploaded stheil parents: diff changeset	178
c979f8682b21 Uploaded stheil parents: diff changeset	179 sub registerScalarOptionHash{
c979f8682b21 Uploaded stheil parents: diff changeset	180 my ($hash, $optionName, $optionValue) = @_;
c979f8682b21 Uploaded stheil parents: diff changeset	181 $hash->{$optionName} = $optionValue;
c979f8682b21 Uploaded stheil parents: diff changeset	182 }
c979f8682b21 Uploaded stheil parents: diff changeset	183
c979f8682b21 Uploaded stheil parents: diff changeset	184 sub registerVelvetFileOptionHash{
c979f8682b21 Uploaded stheil parents: diff changeset	185 my ($fileString, $lastOptFile, $optionName, $optionValue) = @_;
c979f8682b21 Uploaded stheil parents: diff changeset	186
c979f8682b21 Uploaded stheil parents: diff changeset	187 if($$lastOptFile ne $optionName){
c979f8682b21 Uploaded stheil parents: diff changeset	188 $$fileString .= ' -' . $optionName;
c979f8682b21 Uploaded stheil parents: diff changeset	189 }
c979f8682b21 Uploaded stheil parents: diff changeset	190 $$fileString .= ' ' . $optionValue;
c979f8682b21 Uploaded stheil parents: diff changeset	191 $$lastOptFile = $optionName;
c979f8682b21 Uploaded stheil parents: diff changeset	192 }
c979f8682b21 Uploaded stheil parents: diff changeset	193
c979f8682b21 Uploaded stheil parents: diff changeset	194 sub createSingleFile{
c979f8682b21 Uploaded stheil parents: diff changeset	195 my ($velvetUnusedReads, $sequencesFile, $outputFile) = @_;
c979f8682b21 Uploaded stheil parents: diff changeset	196
c979f8682b21 Uploaded stheil parents: diff changeset	197 if(! defined $outputFile){
c979f8682b21 Uploaded stheil parents: diff changeset	198 $outputFile = '';
c979f8682b21 Uploaded stheil parents: diff changeset	199 }
c979f8682b21 Uploaded stheil parents: diff changeset	200
c979f8682b21 Uploaded stheil parents: diff changeset	201 my $sequenceNumber;
c979f8682b21 Uploaded stheil parents: diff changeset	202 my %singlets;
c979f8682b21 Uploaded stheil parents: diff changeset	203 my $id;
c979f8682b21 Uploaded stheil parents: diff changeset	204 my $number;
c979f8682b21 Uploaded stheil parents: diff changeset	205
c979f8682b21 Uploaded stheil parents: diff changeset	206 open(UNUSED_FILE, $velvetUnusedReads) or $logger->logdie("Unable to open velvet UnusedReads file $velvetUnusedReads : $!");
c979f8682b21 Uploaded stheil parents: diff changeset	207 open(SEQUENCES_FILE, $sequencesFile) or $logger->logdie("Unable to open velvet Sequences file $sequencesFile : $!");
c979f8682b21 Uploaded stheil parents: diff changeset	208 open(OUTPUT_FILE, '>'.$outputFile) or $logger->logdie("Unable to create output file $outputFile : $!");
c979f8682b21 Uploaded stheil parents: diff changeset	209
c979f8682b21 Uploaded stheil parents: diff changeset	210 my $sequenceFileObject = Tools::Fasta->new(file => $velvetUnusedReads);
c979f8682b21 Uploaded stheil parents: diff changeset	211
c979f8682b21 Uploaded stheil parents: diff changeset	212 while(my $line=<UNUSED_FILE>){
c979f8682b21 Uploaded stheil parents: diff changeset	213 if($line =~ /^>SEQUENCE_([^_]+)/){
c979f8682b21 Uploaded stheil parents: diff changeset	214 $singlets{$1} = 1;
c979f8682b21 Uploaded stheil parents: diff changeset	215 }
c979f8682b21 Uploaded stheil parents: diff changeset	216 }
c979f8682b21 Uploaded stheil parents: diff changeset	217 close UNUSED_FILE;
c979f8682b21 Uploaded stheil parents: diff changeset	218
c979f8682b21 Uploaded stheil parents: diff changeset	219 while(my $line=<SEQUENCES_FILE>){
c979f8682b21 Uploaded stheil parents: diff changeset	220 if($line =~ /^>/){
c979f8682b21 Uploaded stheil parents: diff changeset	221 ($id, $number) = split("\t", $line);
c979f8682b21 Uploaded stheil parents: diff changeset	222 $line = $id . "\n";
c979f8682b21 Uploaded stheil parents: diff changeset	223 }
c979f8682b21 Uploaded stheil parents: diff changeset	224 if(exists $singlets{$number} && $singlets{$number} == 1){
c979f8682b21 Uploaded stheil parents: diff changeset	225 print OUTPUT_FILE $line;
c979f8682b21 Uploaded stheil parents: diff changeset	226 }
c979f8682b21 Uploaded stheil parents: diff changeset	227 }
c979f8682b21 Uploaded stheil parents: diff changeset	228 close SEQUENCES_FILE;
c979f8682b21 Uploaded stheil parents: diff changeset	229 close OUTPUT_FILE;
c979f8682b21 Uploaded stheil parents: diff changeset	230 }
c979f8682b21 Uploaded stheil parents: diff changeset	231
c979f8682b21 Uploaded stheil parents: diff changeset	232 =head1 NAME
c979f8682b21 Uploaded stheil parents: diff changeset	233
c979f8682b21 Uploaded stheil parents: diff changeset	234 velvet.pl
c979f8682b21 Uploaded stheil parents: diff changeset	235
c979f8682b21 Uploaded stheil parents: diff changeset	236 =head1 SYNOPSIS
c979f8682b21 Uploaded stheil parents: diff changeset	237
c979f8682b21 Uploaded stheil parents: diff changeset	238 perl velvet.pl -hash_length HASH_LENGTH [-directory OUTPUT_DIRECTORY] [-meta] [OPTIONS VELVETH / VELVETG / METAVELVETG]
c979f8682b21 Uploaded stheil parents: diff changeset	239
c979f8682b21 Uploaded stheil parents: diff changeset	240 =head1 DESCRIPTION
c979f8682b21 Uploaded stheil parents: diff changeset	241
c979f8682b21 Uploaded stheil parents: diff changeset	242 Run velvet or meta-velvetg assembly.
c979f8682b21 Uploaded stheil parents: diff changeset	243
c979f8682b21 Uploaded stheil parents: diff changeset	244 =head1 OPTIONS
c979f8682b21 Uploaded stheil parents: diff changeset	245
c979f8682b21 Uploaded stheil parents: diff changeset	246 =over 4
c979f8682b21 Uploaded stheil parents: diff changeset	247
c979f8682b21 Uploaded stheil parents: diff changeset	248 =item -directory [DIRECTORY]
c979f8682b21 Uploaded stheil parents: diff changeset	249
c979f8682b21 Uploaded stheil parents: diff changeset	250 directory path for output files
c979f8682b21 Uploaded stheil parents: diff changeset	251
c979f8682b21 Uploaded stheil parents: diff changeset	252 Default is .
c979f8682b21 Uploaded stheil parents: diff changeset	253
c979f8682b21 Uploaded stheil parents: diff changeset	254 =item -hash_length [INTEGER\|m,M,s]
c979f8682b21 Uploaded stheil parents: diff changeset	255
c979f8682b21 Uploaded stheil parents: diff changeset	256 EITHER an odd integer (if even, it will be decremented) <= 31 (if above, will be reduced)
c979f8682b21 Uploaded stheil parents: diff changeset	257
c979f8682b21 Uploaded stheil parents: diff changeset	258 OR: m,M,s where m and M are odd integers (if not, they will be decremented) with m < M <= 31 (if above, will be reduced) and s is a step (even number). Velvet will then hash from k=m to k=M with a step of s
c979f8682b21 Uploaded stheil parents: diff changeset	259
c979f8682b21 Uploaded stheil parents: diff changeset	260 =item -meta\|nometa
c979f8682b21 Uploaded stheil parents: diff changeset	261
c979f8682b21 Uploaded stheil parents: diff changeset	262 Perform a metagenomic assembly using meta-velvetg ?
c979f8682b21 Uploaded stheil parents: diff changeset	263
c979f8682b21 Uploaded stheil parents: diff changeset	264 Default is -meta
c979f8682b21 Uploaded stheil parents: diff changeset	265
c979f8682b21 Uploaded stheil parents: diff changeset	266 =back
c979f8682b21 Uploaded stheil parents: diff changeset	267
c979f8682b21 Uploaded stheil parents: diff changeset	268 =head1 VELVETH OPTIONS
c979f8682b21 Uploaded stheil parents: diff changeset	269
c979f8682b21 Uploaded stheil parents: diff changeset	270 File format options:
c979f8682b21 Uploaded stheil parents: diff changeset	271
c979f8682b21 Uploaded stheil parents: diff changeset	272 -fasta -fastq -raw -fasta_gz -fastq_gz -raw_gz -sam -bam -fmtAuto
c979f8682b21 Uploaded stheil parents: diff changeset	273
c979f8682b21 Uploaded stheil parents: diff changeset	274 (Note: -fmtAuto will detect fasta or fastq, and will try the following programs for decompression : gunzip, pbunzip2, bunzip2
c979f8682b21 Uploaded stheil parents: diff changeset	275
c979f8682b21 Uploaded stheil parents: diff changeset	276 File layout options for paired reads (only for fasta and fastq formats):
c979f8682b21 Uploaded stheil parents: diff changeset	277
c979f8682b21 Uploaded stheil parents: diff changeset	278 -interleaved : File contains paired reads interleaved in the one file (default)
c979f8682b21 Uploaded stheil parents: diff changeset	279
c979f8682b21 Uploaded stheil parents: diff changeset	280 -separate : Read 2 separate files for paired reads
c979f8682b21 Uploaded stheil parents: diff changeset	281
c979f8682b21 Uploaded stheil parents: diff changeset	282 Read type options:
c979f8682b21 Uploaded stheil parents: diff changeset	283
c979f8682b21 Uploaded stheil parents: diff changeset	284 -short -shortPaired
c979f8682b21 Uploaded stheil parents: diff changeset	285
c979f8682b21 Uploaded stheil parents: diff changeset	286 -short2 -shortPaired2
c979f8682b21 Uploaded stheil parents: diff changeset	287
c979f8682b21 Uploaded stheil parents: diff changeset	288 -long -longPaired
c979f8682b21 Uploaded stheil parents: diff changeset	289
c979f8682b21 Uploaded stheil parents: diff changeset	290 -reference
c979f8682b21 Uploaded stheil parents: diff changeset	291
c979f8682b21 Uploaded stheil parents: diff changeset	292 Options:
c979f8682b21 Uploaded stheil parents: diff changeset	293
c979f8682b21 Uploaded stheil parents: diff changeset	294 -strand_specific : for strand specific transcriptome sequencing data (default: off)
c979f8682b21 Uploaded stheil parents: diff changeset	295
c979f8682b21 Uploaded stheil parents: diff changeset	296 -reuse_Sequences : reuse Sequences file (or link) already in directory (no need to provide original filenames in this case (default: off)
c979f8682b21 Uploaded stheil parents: diff changeset	297
c979f8682b21 Uploaded stheil parents: diff changeset	298 -reuse_binary : reuse binary sequences file (or link) already in directory (no need to provide original filenames in this case (default: off)
c979f8682b21 Uploaded stheil parents: diff changeset	299
c979f8682b21 Uploaded stheil parents: diff changeset	300 -noHash : simply prepare Sequences file, do not hash reads or prepare Roadmaps file (default: off)
c979f8682b21 Uploaded stheil parents: diff changeset	301
c979f8682b21 Uploaded stheil parents: diff changeset	302 -create_binary : create binary CnyUnifiedSeq file (default: off)
c979f8682b21 Uploaded stheil parents: diff changeset	303
c979f8682b21 Uploaded stheil parents: diff changeset	304 Outputs:
c979f8682b21 Uploaded stheil parents: diff changeset	305
c979f8682b21 Uploaded stheil parents: diff changeset	306 directory/Roadmaps
c979f8682b21 Uploaded stheil parents: diff changeset	307
c979f8682b21 Uploaded stheil parents: diff changeset	308 directory/Sequences
c979f8682b21 Uploaded stheil parents: diff changeset	309
c979f8682b21 Uploaded stheil parents: diff changeset	310 [Both files are picked up by graph, so please leave them there]
c979f8682b21 Uploaded stheil parents: diff changeset	311
c979f8682b21 Uploaded stheil parents: diff changeset	312 =head1 VELVETG OPTIONS
c979f8682b21 Uploaded stheil parents: diff changeset	313
c979f8682b21 Uploaded stheil parents: diff changeset	314 Standard options:
c979f8682b21 Uploaded stheil parents: diff changeset	315
c979f8682b21 Uploaded stheil parents: diff changeset	316 -cov_cutoff <floating-point\|auto> : removal of low coverage nodes AFTER tour bus or allow the system to infer it. (default: no removal)
c979f8682b21 Uploaded stheil parents: diff changeset	317
c979f8682b21 Uploaded stheil parents: diff changeset	318 -ins_length <integer> : expected distance between two paired end reads (default: no read pairing)
c979f8682b21 Uploaded stheil parents: diff changeset	319
c979f8682b21 Uploaded stheil parents: diff changeset	320 -read_trkg <yes\|no> : tracking of short read positions in assembly (default: no tracking)
c979f8682b21 Uploaded stheil parents: diff changeset	321
c979f8682b21 Uploaded stheil parents: diff changeset	322 -min_contig_lgth <integer> : minimum contig length exported to contigs.fa file (default: hash length * 2)
c979f8682b21 Uploaded stheil parents: diff changeset	323
c979f8682b21 Uploaded stheil parents: diff changeset	324 -amos_file <yes\|no> : export assembly to AMOS file (default: no export)
c979f8682b21 Uploaded stheil parents: diff changeset	325
c979f8682b21 Uploaded stheil parents: diff changeset	326 -exp_cov <floating point\|auto> : expected coverage of unique regions or allow the system to infer it (default: no long or paired-end read resolution)
c979f8682b21 Uploaded stheil parents: diff changeset	327
c979f8682b21 Uploaded stheil parents: diff changeset	328 In case of metagenomic analysis, exp_cov value will be set to auto.
c979f8682b21 Uploaded stheil parents: diff changeset	329
c979f8682b21 Uploaded stheil parents: diff changeset	330 -long_cov_cutoff <floating-point>: removal of nodes with low long-read coverage AFTER tour bus (default: no removal)
c979f8682b21 Uploaded stheil parents: diff changeset	331
c979f8682b21 Uploaded stheil parents: diff changeset	332 Advanced options:
c979f8682b21 Uploaded stheil parents: diff changeset	333
c979f8682b21 Uploaded stheil parents: diff changeset	334 -ins_length* <integer> : expected distance between two paired-end reads in the respective short-read dataset (default: no read pairing)
c979f8682b21 Uploaded stheil parents: diff changeset	335
c979f8682b21 Uploaded stheil parents: diff changeset	336 -ins_length_long <integer> : expected distance between two long paired-end reads (default: no read pairing)
c979f8682b21 Uploaded stheil parents: diff changeset	337
c979f8682b21 Uploaded stheil parents: diff changeset	338 -ins_length*_sd <integer> : est. standard deviation of respective dataset (default: 10% of corresponding length)
c979f8682b21 Uploaded stheil parents: diff changeset	339
c979f8682b21 Uploaded stheil parents: diff changeset	340 [replace '*' by nothing, '2' or '_long' as necessary]
c979f8682b21 Uploaded stheil parents: diff changeset	341
c979f8682b21 Uploaded stheil parents: diff changeset	342 -scaffolding <yes\|no> : scaffolding of contigs used paired end information (default: on)
c979f8682b21 Uploaded stheil parents: diff changeset	343
c979f8682b21 Uploaded stheil parents: diff changeset	344 -max_branch_length <integer> : maximum length in base pair of bubble (default: 100)
c979f8682b21 Uploaded stheil parents: diff changeset	345
c979f8682b21 Uploaded stheil parents: diff changeset	346 -max_divergence <floating-point>: maximum divergence rate between two branches in a bubble (default: 0.2)
c979f8682b21 Uploaded stheil parents: diff changeset	347
c979f8682b21 Uploaded stheil parents: diff changeset	348 -max_gap_count <integer> : maximum number of gaps allowed in the alignment of the two branches of a bubble (default: 3)
c979f8682b21 Uploaded stheil parents: diff changeset	349
c979f8682b21 Uploaded stheil parents: diff changeset	350 -min_pair_count <integer> : minimum number of paired end connections to justify the scaffolding of two long contigs (default: 5)
c979f8682b21 Uploaded stheil parents: diff changeset	351
c979f8682b21 Uploaded stheil parents: diff changeset	352 -max_coverage <floating point> : removal of high coverage nodes AFTER tour bus (default: no removal)
c979f8682b21 Uploaded stheil parents: diff changeset	353
c979f8682b21 Uploaded stheil parents: diff changeset	354 -coverage_mask <int> : minimum coverage required for confident regions of contigs (default: 1)
c979f8682b21 Uploaded stheil parents: diff changeset	355
c979f8682b21 Uploaded stheil parents: diff changeset	356 -long_mult_cutoff <int> : minimum number of long reads required to merge contigs (default: 2)
c979f8682b21 Uploaded stheil parents: diff changeset	357
c979f8682b21 Uploaded stheil parents: diff changeset	358 -unused_reads <yes\|no> : export unused reads in UnusedReads.fa file (default: no)
c979f8682b21 Uploaded stheil parents: diff changeset	359
c979f8682b21 Uploaded stheil parents: diff changeset	360 -alignments <yes\|no> : export a summary of contig alignment to the reference sequences (default: no)
c979f8682b21 Uploaded stheil parents: diff changeset	361
c979f8682b21 Uploaded stheil parents: diff changeset	362 -exportFiltered <yes\|no> : export the long nodes which were eliminated by the coverage filters (default: no)
c979f8682b21 Uploaded stheil parents: diff changeset	363
c979f8682b21 Uploaded stheil parents: diff changeset	364 -clean <yes\|no> : remove all the intermediary files which are useless for recalculation (default : no)
c979f8682b21 Uploaded stheil parents: diff changeset	365
c979f8682b21 Uploaded stheil parents: diff changeset	366 -very_clean <yes\|no> : remove all the intermediary files (no recalculation possible) (default: no)
c979f8682b21 Uploaded stheil parents: diff changeset	367
c979f8682b21 Uploaded stheil parents: diff changeset	368 -paired_exp_fraction <double> : remove all the paired end connections which less than the specified fraction of the expected count (default: 0.1)
c979f8682b21 Uploaded stheil parents: diff changeset	369
c979f8682b21 Uploaded stheil parents: diff changeset	370 -shortMatePaired* <yes\|no> : for mate-pair libraries, indicate that the library might be contaminated with paired-end reads (default no)
c979f8682b21 Uploaded stheil parents: diff changeset	371
c979f8682b21 Uploaded stheil parents: diff changeset	372 -conserveLong <yes\|no> : preserve sequences with long reads in them (default no)
c979f8682b21 Uploaded stheil parents: diff changeset	373
c979f8682b21 Uploaded stheil parents: diff changeset	374 Output:
c979f8682b21 Uploaded stheil parents: diff changeset	375
c979f8682b21 Uploaded stheil parents: diff changeset	376 directory/contigs.fa : fasta file of contigs longer than twice hash length
c979f8682b21 Uploaded stheil parents: diff changeset	377
c979f8682b21 Uploaded stheil parents: diff changeset	378 directory/stats.txt : stats file (tab-spaced) useful for determining appropriate coverage cutoff
c979f8682b21 Uploaded stheil parents: diff changeset	379
c979f8682b21 Uploaded stheil parents: diff changeset	380 directory/LastGraph : special formatted file with all the information on the final graph
c979f8682b21 Uploaded stheil parents: diff changeset	381
c979f8682b21 Uploaded stheil parents: diff changeset	382 directory/velvet_asm.afg : (if requested) AMOS compatible assembly file
c979f8682b21 Uploaded stheil parents: diff changeset	383
c979f8682b21 Uploaded stheil parents: diff changeset	384 =head1 META-VELVETG OPTIONS
c979f8682b21 Uploaded stheil parents: diff changeset	385
c979f8682b21 Uploaded stheil parents: diff changeset	386 Graph-splitting options (metagenome-specific):
c979f8682b21 Uploaded stheil parents: diff changeset	387
c979f8682b21 Uploaded stheil parents: diff changeset	388 -discard_chimera <yes\|no> : discard chimera sub-graph (default: no)
c979f8682b21 Uploaded stheil parents: diff changeset	389
c979f8682b21 Uploaded stheil parents: diff changeset	390 -max_chimera_rate <double> : maximum allowable chimera rate (default: 0.0)
c979f8682b21 Uploaded stheil parents: diff changeset	391
c979f8682b21 Uploaded stheil parents: diff changeset	392 -repeat_cov_sd : standard deviation of repeat node coverages (default: 0.1)
c979f8682b21 Uploaded stheil parents: diff changeset	393
c979f8682b21 Uploaded stheil parents: diff changeset	394 -min_split_length <int> : minimum node length required for repeat resolution (default: 0)
c979f8682b21 Uploaded stheil parents: diff changeset	395
c979f8682b21 Uploaded stheil parents: diff changeset	396 -valid_connections <int> : minimum allowable number of consistent paired-end connections (default: 1)
c979f8682b21 Uploaded stheil parents: diff changeset	397
c979f8682b21 Uploaded stheil parents: diff changeset	398 -noise_connections <int> : maximum allowable number of inconsistent paired-end connections (default: 0)
c979f8682b21 Uploaded stheil parents: diff changeset	399
c979f8682b21 Uploaded stheil parents: diff changeset	400 -use_connections <yes\|no> : use paired-end connections for graph splitting (default: yes)
c979f8682b21 Uploaded stheil parents: diff changeset	401
c979f8682b21 Uploaded stheil parents: diff changeset	402 -report_split_detail <yes\|no> : report sequences around repeat nodes (default: no)
c979f8682b21 Uploaded stheil parents: diff changeset	403
c979f8682b21 Uploaded stheil parents: diff changeset	404 -report_subgraph <yes\|no> : report node sequences for each subgraph (default: no)
c979f8682b21 Uploaded stheil parents: diff changeset	405
c979f8682b21 Uploaded stheil parents: diff changeset	406 Peak detection options (metagenome-specific):
c979f8682b21 Uploaded stheil parents: diff changeset	407
c979f8682b21 Uploaded stheil parents: diff changeset	408 -exp_covs <string\|auto> : expected coverages for each species in microbiome (default: auto)
c979f8682b21 Uploaded stheil parents: diff changeset	409
c979f8682b21 Uploaded stheil parents: diff changeset	410 ex : -exp_covs 214_122_70_43_25_13.5
c979f8682b21 Uploaded stheil parents: diff changeset	411
c979f8682b21 Uploaded stheil parents: diff changeset	412 coverage values should be sorted in a descending order
c979f8682b21 Uploaded stheil parents: diff changeset	413
c979f8682b21 Uploaded stheil parents: diff changeset	414 -min_peak_cov <double> : minimum peak coverage (default: 0)
c979f8682b21 Uploaded stheil parents: diff changeset	415
c979f8682b21 Uploaded stheil parents: diff changeset	416 -max_peak_cov <double> : maximum peak coverage (default: 500)
c979f8682b21 Uploaded stheil parents: diff changeset	417
c979f8682b21 Uploaded stheil parents: diff changeset	418 -histo_bin_width <double> : bin width of peak coverage histogram (default: 1)
c979f8682b21 Uploaded stheil parents: diff changeset	419
c979f8682b21 Uploaded stheil parents: diff changeset	420 -histo_sn_ratio <double> : signal-noise ratio to remove peak noises (default: 10)
c979f8682b21 Uploaded stheil parents: diff changeset	421
c979f8682b21 Uploaded stheil parents: diff changeset	422 Output:
c979f8682b21 Uploaded stheil parents: diff changeset	423
c979f8682b21 Uploaded stheil parents: diff changeset	424 directory/meta-velvetg.contigs.fa : fasta file of contigs longer than twice hash length
c979f8682b21 Uploaded stheil parents: diff changeset	425
c979f8682b21 Uploaded stheil parents: diff changeset	426 directory/meta-velvetg.LastGraph : special formatted file with all the information on the final graph
c979f8682b21 Uploaded stheil parents: diff changeset	427
c979f8682b21 Uploaded stheil parents: diff changeset	428 directory/meta-velvetg.Graph2-stats.txt : stats file (tab-delimited) useful for optimizing coverage peak values
c979f8682b21 Uploaded stheil parents: diff changeset	429
c979f8682b21 Uploaded stheil parents: diff changeset	430 directory/meta-velvetg.split-stats.txt : stats file (tab-delimited) useful for optimizing graph-splitting parameters
c979f8682b21 Uploaded stheil parents: diff changeset	431
c979f8682b21 Uploaded stheil parents: diff changeset	432 =cut

Mercurial > repos > stheil > metavelvet_wrapper

annotate velvet.pl @ 3:c979f8682b21 draft