Mercurial > repos > alermine > nebula
comparison [APliBio]Nebula tools suite/Nebula/CreateControlSubSet/createControlSubSet.pl @ 0:2ec3ba0e9e70 draft
Uploaded
| author | alermine |
|---|---|
| date | Thu, 25 Oct 2012 08:18:25 -0400 |
| parents | |
| children |
comparison
equal
deleted
inserted
replaced
| -1:000000000000 | 0:2ec3ba0e9e70 |
|---|---|
| 1 #:t:::::::::::::::::g@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ | |
| 2 #:t::::::::::::::;@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ | |
| 3 #:::::::::::::z;@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ | |
| 4 #::::::::::::i@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ | |
| 5 #::::::::::::@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$@@@@ | |
| 6 #:::::::::::3@@@@@@@@@@@@@@@@@@@@@@@@@B@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ | |
| 7 #::::::::::3@@@@@@@@@@@@@@@@@@@@@BEEESSE5EEEEBBM@@@@@@@@@@@@@@@@@@@@@@@@@@ | |
| 8 #::::::::::3@@@@@@@@@@@@@@@@@@@@BEEEEEE35EE55E2355E5SBMB@@@@@@@@@@@@@@@@@$ | |
| 9 #::::::::::@@@@@@@@@@@@@@@@@@@EEEE55533t3tttt::::::!!!!7755E755SBBMMM@@@MM | |
| 10 #::::::::::3@@@@@@@@@@@@@@@@@@EEEE2t3ttttt:::::::::::::::::::::::!7?5225EE | |
| 11 #::::::::::3@@@@@@@@@@@@@@@@@@EEEEE31t::::::::::::::::::::::::::::::::3E5@ | |
| 12 #::::::::::3@@@@@@@@@@@@@@@@@@EEEEEEtt:::::::::::::::::::::::::::::::::353 | |
| 13 #::::::::::3@@@@@@@@@@@@@@@@@@EEEEEE1ttz::::::::::::::::::::::::::::::::35 | |
| 14 #:::::::::::@@@@@@@@@@@@@@@@@@EEEEEEEtz1::::::::::::::::::::::::::::::::t: | |
| 15 #:::::::::!3@@@@@@@@@@@@@@@@@@@EEEEEttt::::::::::::::::::::::::::::::::;zz | |
| 16 #::::::::::@@@@@@@@@@@@@@@@@@@@EEEEEttt:::::z;z:::::::::::::::::::::::::13 | |
| 17 #::::::::::3B@@@@@@@@@@@@@@@@@@EEEEEEE3tt:czzztti;:::::::::::::::::::::::3 | |
| 18 #::::ttt::::3@@@@@@@@@@@@@@@@EEEEE5EE25Ezt1EEEz5Etzzz;;;;::::::::::::::::: | |
| 19 #:::::::::::I9@@@@@@@@@@@@@@@@@@@@@@@@@@EEEEEE@@@@@@@@@@@@@@Ez;::::::::::: | |
| 20 #:::::::::::::E@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@Ez:::::: | |
| 21 #::::::::::::::E@@@@@@@@@@@@@@@@@@@@@@@@@@@@@BE5EBB@@@@@@@@@@@@@@@EEE::::: | |
| 22 #:::::::::::::::@@@@@@@@@@@@@@@@@@@@@@@@@@@@E1::35@@@@@@@@@@ME3MMME2:::::: | |
| 23 #:::::::::::::::?@@@@@@@@@@@@@@@@@@M@@@@@@@EE:::::3SB@@BBESEEt:::::::::::: | |
| 24 #::::::::::::::::J$@@@@@@@B@@@@@@@@@@@@@@@@EE:::::::!35E33t::::::::::::::: | |
| 25 #:::::::::::::::::3@E@@@EE5EESE5EESE@@@@@@@Et::::::::::::tz::::::::::::::: | |
| 26 #:::::::::::::::::J@E$@EEE5133555SE@@@@@@@@Et::::::::::::::::::::::::::::: | |
| 27 #::::::::::::::::::E@E@EEEEtt3523EEE@@@@@@@E:::::::::::::::::::::::::::::: | |
| 28 #:t::::::::::::::::JEE3@@@EEEEEEEEEE@@@@@@@E:::::::::t;::::::::::::::::::: | |
| 29 #:t:::::::::::::::::!5ES@EEEEEEEEES@@@@@@@@@E;:::;;;:3Ez:::::::::::::::::: | |
| 30 #:t::::::::::::::::::::JE@@EEEEEEE@@@@@@@@@@@@@@@@ME!:::;::::::::::::::::: | |
| 31 #:tz::::::::::::::::::::JE@@@EEEE@@@@@@@@@@@@@@EE!:::::::t:::::::::::::::: | |
| 32 #:t::::::::::::::::::::::3@@@@@@@@@@@@@@@@@@ESBE:::::::::::::::::::::::::: | |
| 33 #:::::::::::::::::::::::::Q@@@@@@@@@@@@@@@@EE3EE;:::::zzzz:::::::::::::::: | |
| 34 #:::::::::::::::::::::::::3@@@@@@@@@@@@@@@@@@@@@@NN@@@@@@Ez::::::::::::::: | |
| 35 #:zt:::::::::::::::::::::::3@@@@EE@@@@@@@@@@EEEEt::;z113E5t::::::::::::::: | |
| 36 #::tt:::::::::::::::::::::::3@@@E@@@@@@@@@@@@@@@@BEt::::::::::::::::t::::: | |
| 37 #:tt:t:::::::::::::::::::::::?S@@@@@@@@@@@BBEEE51!::::::::::::::zzzEt::::: | |
| 38 #::::::::::::::::::::::::::::::3Q@@@@@@@BEEEEEt:::::::::::::;zz@@@EE:::::: | |
| 39 #::::::::::::::::::::::::::::::::75B@@@@@EEEtt;:::::::::;zz@@@@BEEEtz::::: | |
| 40 #::::::::::::::::::::::::::::::::::::?9@@@@@@@@@@@E2Ezg@@@@@B@@@EEEE1t:::: | |
| 41 #:::::::::::::::::::::::::::::::::::::::3@@@@@@@@@@@@@@@@@@@E@EEEEEEEzzz:: | |
| 42 #::::::::::::::::::::::::::::::::::::;@@@@@@@@@@@@@@@@@@@@@@@EEEEEEE5ttttt | |
| 43 #:::::::::::::::::::::::::::::::;g@@@@@@@@@@@@@@@@@@@@@@@@@@EEEEEEEEEEEtzt | |
| 44 #::::::::::::::::::::::::::::;@@@@@@@@@@@@@@@@@@@@@@@@@@E@@EEEEEEEEEEEE@@@ | |
| 45 #::::::::::::::::::::::::::g@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@EEEE3EEEE@@@@@@@ | |
| 46 #:::::::::::::::::::::;;g@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@EEEt33@@@@@@@@@@ | |
| 47 #:::::::::::::::::;g@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@E@@@@@@EEEtg@@@@@@@@@@@@ | |
| 48 #::::::::::::::;@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@EEEE@@@@@@@@@@@@@@@@@@@@@@@@ | |
| 49 #:::::::::::::@@@@@@@@@@@@@@@@@$@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ | |
| 50 #::::::::::;@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ | |
| 51 # | |
| 52 # Copyleft ↄ⃝ 2012 Institut Curie | |
| 53 # Author(s): Valentina Boeva, Alban Lermine (Institut Curie) 2012 | |
| 54 # Contact: valentina.boeva@curie.fr, alban.lermine@curie.fr | |
| 55 # This software is distributed under the terms of the GNU General | |
| 56 # Public License, either Version 2, June 1991 or Version 3, June 2007. | |
| 57 | |
| 58 #!/usr/bin/perl | |
| 59 | |
| 60 #filter out dulpicates from SAMPLE (optional) and create a control dataset w/o duplicates with the same number of reads as in the SAMPLE | |
| 61 | |
| 62 use strict; | |
| 63 use warnings; | |
| 64 use diagnostics; | |
| 65 | |
| 66 my $usage = qq{ | |
| 67 $0 | |
| 68 | |
| 69 ----------------------------- | |
| 70 mandatory parameters: | |
| 71 | |
| 72 -f CHiP_file | |
| 73 -c control_file | |
| 74 -t type [bam, sam, eland] | |
| 75 -o output file | |
| 76 ----------------------------- | |
| 77 optional parameters: | |
| 78 | |
| 79 none | |
| 80 }; | |
| 81 | |
| 82 if(scalar(@ARGV) == 0){ | |
| 83 print $usage; | |
| 84 exit(0); | |
| 85 } | |
| 86 | |
| 87 ## mandatory arguments | |
| 88 | |
| 89 my $filename = ""; | |
| 90 my $output_fname = ""; | |
| 91 | |
| 92 my $controlFilename = ""; | |
| 93 my $type = ""; | |
| 94 my $sampleOutput = ""; | |
| 95 my $samtools_bin_dir=; | |
| 96 | |
| 97 | |
| 98 ## optional arguments | |
| 99 | |
| 100 ## parse command line arguments | |
| 101 | |
| 102 while(scalar(@ARGV) > 0){ | |
| 103 my $this_arg = shift @ARGV; | |
| 104 if ( $this_arg eq '-h') {print "$usage\n"; exit; } | |
| 105 | |
| 106 elsif ( $this_arg eq '-f') {$filename = shift @ARGV;} | |
| 107 elsif ( $this_arg eq '-c') {$controlFilename = shift @ARGV;} | |
| 108 elsif ( $this_arg eq '-t') {$type = shift @ARGV;} | |
| 109 elsif ( $this_arg eq '-o') {$output_fname = shift @ARGV;} | |
| 110 elsif ( $this_arg eq '-s') {$sampleOutput = shift @ARGV;} | |
| 111 | |
| 112 | |
| 113 elsif ( $this_arg =~ m/^-/ ) { print "unknown flag: $this_arg\n";} | |
| 114 } | |
| 115 | |
| 116 if ( $filename eq ""){ | |
| 117 die "you should specify chip file\n"; | |
| 118 } | |
| 119 if( $controlFilename eq ""){ | |
| 120 die "you should specify control file\n"; | |
| 121 } | |
| 122 if( $type eq ""){ | |
| 123 die "you should specify file type (bam, sam or eland)\n"; | |
| 124 } | |
| 125 if( $output_fname eq ""){ | |
| 126 die "you should specify output filename\n"; | |
| 127 } | |
| 128 | |
| 129 | |
| 130 print "\n-----------------\n\n"; | |
| 131 | |
| 132 my %hash; | |
| 133 my $chipCount = 0; | |
| 134 my @header; | |
| 135 | |
| 136 | |
| 137 if ($type eq "eland") { | |
| 138 open FILE, "< $filename " || die "$filename : $!\n"; | |
| 139 while(<FILE>){ | |
| 140 my @fields = split(/\t/,$_); | |
| 141 my $entry = $fields[6].":".$fields[7]."-".$fields[8]; | |
| 142 unless (exists($hash{$entry})) { | |
| 143 $hash{$entry} = $_; | |
| 144 $chipCount++; | |
| 145 } | |
| 146 } | |
| 147 } elsif ($type eq "sam") { | |
| 148 open FILE, "< $filename " || die "$filename : $!\n"; | |
| 149 while(<FILE>){ | |
| 150 if (m/^@/) { | |
| 151 push(@header,$_); | |
| 152 next; | |
| 153 } | |
| 154 my @fields = split(/\t/,$_); | |
| 155 next if (scalar(@fields)<10); | |
| 156 my $entry = $fields[2].":".$fields[3]."-".$fields[1]; | |
| 157 unless (exists($hash{$entry})) { | |
| 158 $hash{$entry} = $_; | |
| 159 $chipCount++; | |
| 160 } | |
| 161 } | |
| 162 } elsif ($type eq "bam") { | |
| 163 open(FILE, "$samtools_bin_dir/samtools view -h $filename |") or die "$0: can't open ".$filename.":$!\n"; | |
| 164 while(<FILE>){ | |
| 165 if (m/^@/) { | |
| 166 push(@header,$_); | |
| 167 next; | |
| 168 } | |
| 169 my @fields = split(/\t/,$_); | |
| 170 next if (scalar(@fields)<10); | |
| 171 my $entry = $fields[2].":".$fields[3]."-".$fields[1]; | |
| 172 unless (exists($hash{$entry})) { | |
| 173 $hash{$entry} = $_; | |
| 174 $chipCount++; | |
| 175 } | |
| 176 } | |
| 177 } | |
| 178 close FILE; | |
| 179 print "ChIP: $chipCount\n"; | |
| 180 | |
| 181 if ($sampleOutput ne "") { | |
| 182 | |
| 183 open OUT, "> $sampleOutput" || die "$sampleOutput: $!\n"; | |
| 184 | |
| 185 if ($type eq "bam" || $type eq "sam") { #print header | |
| 186 for my $headerLine (@header) { | |
| 187 print OUT $headerLine; | |
| 188 } | |
| 189 } | |
| 190 for my $line (values %hash) { | |
| 191 print OUT $line; | |
| 192 } | |
| 193 close OUT; | |
| 194 } | |
| 195 | |
| 196 delete @hash{keys %hash}; | |
| 197 @header = (); | |
| 198 | |
| 199 my $controlCount = 0; | |
| 200 if ($type eq "eland") { | |
| 201 open FILE, "< $controlFilename " || die "$controlFilename : $!\n"; | |
| 202 while(<FILE>){ | |
| 203 my @fields = split(/\t/,$_); | |
| 204 my $entry = $fields[6].":".$fields[7]."-".$fields[8]; | |
| 205 unless (exists($hash{$entry})) { | |
| 206 $hash{$entry} = $_; | |
| 207 $controlCount++; | |
| 208 } | |
| 209 } | |
| 210 } elsif ($type eq "sam") { | |
| 211 open FILE, "< $controlFilename " || die "$controlFilename : $!\n"; | |
| 212 while(<FILE>){ | |
| 213 if (m/^@/) { | |
| 214 push(@header,$_); | |
| 215 next; | |
| 216 } | |
| 217 my @fields = split(/\t/,$_); | |
| 218 my $entry = $fields[2].":".$fields[3]."-".$fields[1]; | |
| 219 unless (exists($hash{$entry})) { | |
| 220 $hash{$entry} = $_; | |
| 221 $controlCount++; | |
| 222 } | |
| 223 } | |
| 224 } elsif ($type eq "bam") { | |
| 225 open(FILE, "$samtools_bin_dir/samtools view -h $controlFilename |") or die "$0: can't open ".$controlFilename.":$!\n"; | |
| 226 while(<FILE>){ | |
| 227 if (m/^@/) { | |
| 228 push(@header,$_); | |
| 229 next; | |
| 230 } | |
| 231 my @fields = split(/\t/,$_); | |
| 232 my $entry = $fields[2].":".$fields[3]."-".$fields[1]; | |
| 233 unless (exists($hash{$entry})) { | |
| 234 $hash{$entry} = $_; | |
| 235 $controlCount++; | |
| 236 } | |
| 237 } | |
| 238 } | |
| 239 close FILE; | |
| 240 print "Control: $controlCount\n"; | |
| 241 my $prob = $chipCount/$controlCount; | |
| 242 | |
| 243 open OUT, "> $output_fname" || die "$output_fname: $!\n"; | |
| 244 | |
| 245 if ($type eq "bam" || $type eq "sam") { #print header | |
| 246 for my $headerLine (@header) { | |
| 247 print OUT $headerLine; | |
| 248 } | |
| 249 } | |
| 250 my $count = 0; | |
| 251 | |
| 252 for my $line (values %hash) { | |
| 253 my $rand = rand(); | |
| 254 | |
| 255 if ($rand < $prob) { | |
| 256 print OUT $line; | |
| 257 $count ++; | |
| 258 } | |
| 259 last if ($count == $chipCount); | |
| 260 } | |
| 261 | |
| 262 | |
| 263 if ($count < $chipCount) { | |
| 264 | |
| 265 $prob = ($chipCount-$count)/$controlCount*1.1; | |
| 266 | |
| 267 for my $line (values %hash) { | |
| 268 my $rand = rand(); | |
| 269 | |
| 270 if ($rand < $prob) { | |
| 271 print OUT $line; | |
| 272 $count ++; | |
| 273 } | |
| 274 last if ($count == $chipCount); | |
| 275 } | |
| 276 } | |
| 277 | |
| 278 print "count = $count\n"; | |
| 279 close OUT; | |
| 280 |
