0
|
1 #:t:::::::::::::::::g@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
|
|
2 #:t::::::::::::::;@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
|
|
3 #:::::::::::::z;@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
|
|
4 #::::::::::::i@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
|
|
5 #::::::::::::@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$@@@@
|
|
6 #:::::::::::3@@@@@@@@@@@@@@@@@@@@@@@@@B@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
|
|
7 #::::::::::3@@@@@@@@@@@@@@@@@@@@@BEEESSE5EEEEBBM@@@@@@@@@@@@@@@@@@@@@@@@@@
|
|
8 #::::::::::3@@@@@@@@@@@@@@@@@@@@BEEEEEE35EE55E2355E5SBMB@@@@@@@@@@@@@@@@@$
|
|
9 #::::::::::@@@@@@@@@@@@@@@@@@@EEEE55533t3tttt::::::!!!!7755E755SBBMMM@@@MM
|
|
10 #::::::::::3@@@@@@@@@@@@@@@@@@EEEE2t3ttttt:::::::::::::::::::::::!7?5225EE
|
|
11 #::::::::::3@@@@@@@@@@@@@@@@@@EEEEE31t::::::::::::::::::::::::::::::::3E5@
|
|
12 #::::::::::3@@@@@@@@@@@@@@@@@@EEEEEEtt:::::::::::::::::::::::::::::::::353
|
|
13 #::::::::::3@@@@@@@@@@@@@@@@@@EEEEEE1ttz::::::::::::::::::::::::::::::::35
|
|
14 #:::::::::::@@@@@@@@@@@@@@@@@@EEEEEEEtz1::::::::::::::::::::::::::::::::t:
|
|
15 #:::::::::!3@@@@@@@@@@@@@@@@@@@EEEEEttt::::::::::::::::::::::::::::::::;zz
|
|
16 #::::::::::@@@@@@@@@@@@@@@@@@@@EEEEEttt:::::z;z:::::::::::::::::::::::::13
|
|
17 #::::::::::3B@@@@@@@@@@@@@@@@@@EEEEEEE3tt:czzztti;:::::::::::::::::::::::3
|
|
18 #::::ttt::::3@@@@@@@@@@@@@@@@EEEEE5EE25Ezt1EEEz5Etzzz;;;;:::::::::::::::::
|
|
19 #:::::::::::I9@@@@@@@@@@@@@@@@@@@@@@@@@@EEEEEE@@@@@@@@@@@@@@Ez;:::::::::::
|
|
20 #:::::::::::::E@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@Ez::::::
|
|
21 #::::::::::::::E@@@@@@@@@@@@@@@@@@@@@@@@@@@@@BE5EBB@@@@@@@@@@@@@@@EEE:::::
|
|
22 #:::::::::::::::@@@@@@@@@@@@@@@@@@@@@@@@@@@@E1::35@@@@@@@@@@ME3MMME2::::::
|
|
23 #:::::::::::::::?@@@@@@@@@@@@@@@@@@M@@@@@@@EE:::::3SB@@BBESEEt::::::::::::
|
|
24 #::::::::::::::::J$@@@@@@@B@@@@@@@@@@@@@@@@EE:::::::!35E33t:::::::::::::::
|
|
25 #:::::::::::::::::3@E@@@EE5EESE5EESE@@@@@@@Et::::::::::::tz:::::::::::::::
|
|
26 #:::::::::::::::::J@E$@EEE5133555SE@@@@@@@@Et:::::::::::::::::::::::::::::
|
|
27 #::::::::::::::::::E@E@EEEEtt3523EEE@@@@@@@E::::::::::::::::::::::::::::::
|
|
28 #:t::::::::::::::::JEE3@@@EEEEEEEEEE@@@@@@@E:::::::::t;:::::::::::::::::::
|
|
29 #:t:::::::::::::::::!5ES@EEEEEEEEES@@@@@@@@@E;:::;;;:3Ez::::::::::::::::::
|
|
30 #:t::::::::::::::::::::JE@@EEEEEEE@@@@@@@@@@@@@@@@ME!:::;:::::::::::::::::
|
|
31 #:tz::::::::::::::::::::JE@@@EEEE@@@@@@@@@@@@@@EE!:::::::t::::::::::::::::
|
|
32 #:t::::::::::::::::::::::3@@@@@@@@@@@@@@@@@@ESBE::::::::::::::::::::::::::
|
|
33 #:::::::::::::::::::::::::Q@@@@@@@@@@@@@@@@EE3EE;:::::zzzz::::::::::::::::
|
|
34 #:::::::::::::::::::::::::3@@@@@@@@@@@@@@@@@@@@@@NN@@@@@@Ez:::::::::::::::
|
|
35 #:zt:::::::::::::::::::::::3@@@@EE@@@@@@@@@@EEEEt::;z113E5t:::::::::::::::
|
|
36 #::tt:::::::::::::::::::::::3@@@E@@@@@@@@@@@@@@@@BEt::::::::::::::::t:::::
|
|
37 #:tt:t:::::::::::::::::::::::?S@@@@@@@@@@@BBEEE51!::::::::::::::zzzEt:::::
|
|
38 #::::::::::::::::::::::::::::::3Q@@@@@@@BEEEEEt:::::::::::::;zz@@@EE::::::
|
|
39 #::::::::::::::::::::::::::::::::75B@@@@@EEEtt;:::::::::;zz@@@@BEEEtz:::::
|
|
40 #::::::::::::::::::::::::::::::::::::?9@@@@@@@@@@@E2Ezg@@@@@B@@@EEEE1t::::
|
|
41 #:::::::::::::::::::::::::::::::::::::::3@@@@@@@@@@@@@@@@@@@E@EEEEEEEzzz::
|
|
42 #::::::::::::::::::::::::::::::::::::;@@@@@@@@@@@@@@@@@@@@@@@EEEEEEE5ttttt
|
|
43 #:::::::::::::::::::::::::::::::;g@@@@@@@@@@@@@@@@@@@@@@@@@@EEEEEEEEEEEtzt
|
|
44 #::::::::::::::::::::::::::::;@@@@@@@@@@@@@@@@@@@@@@@@@@E@@EEEEEEEEEEEE@@@
|
|
45 #::::::::::::::::::::::::::g@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@EEEE3EEEE@@@@@@@
|
|
46 #:::::::::::::::::::::;;g@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@EEEt33@@@@@@@@@@
|
|
47 #:::::::::::::::::;g@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@E@@@@@@EEEtg@@@@@@@@@@@@
|
|
48 #::::::::::::::;@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@EEEE@@@@@@@@@@@@@@@@@@@@@@@@
|
|
49 #:::::::::::::@@@@@@@@@@@@@@@@@$@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
|
|
50 #::::::::::;@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
|
|
51 #
|
|
52 # Copyleft ↄ⃝ 2012 Institut Curie
|
|
53 # Author(s): Valentina Boeva, Alban Lermine (Institut Curie) 2012
|
|
54 # Contact: valentina.boeva@curie.fr, alban.lermine@curie.fr
|
|
55 # This software is distributed under the terms of the GNU General
|
|
56 # Public License, either Version 2, June 1991 or Version 3, June 2007.
|
|
57
|
|
58 #!/usr/bin/perl
|
|
59
|
|
60 #filter out dulpicates from SAMPLE (optional) and create a control dataset w/o duplicates with the same number of reads as in the SAMPLE
|
|
61
|
|
62 use strict;
|
|
63 use warnings;
|
|
64 use diagnostics;
|
|
65
|
|
66 my $usage = qq{
|
|
67 $0
|
|
68
|
|
69 -----------------------------
|
|
70 mandatory parameters:
|
|
71
|
|
72 -f CHiP_file
|
|
73 -c control_file
|
|
74 -t type [bam, sam, eland]
|
|
75 -o output file
|
|
76 -----------------------------
|
|
77 optional parameters:
|
|
78
|
|
79 none
|
|
80 };
|
|
81
|
|
82 if(scalar(@ARGV) == 0){
|
|
83 print $usage;
|
|
84 exit(0);
|
|
85 }
|
|
86
|
|
87 ## mandatory arguments
|
|
88
|
|
89 my $filename = "";
|
|
90 my $output_fname = "";
|
|
91
|
|
92 my $controlFilename = "";
|
|
93 my $type = "";
|
|
94 my $sampleOutput = "";
|
|
95 my $samtools_bin_dir=;
|
|
96
|
|
97
|
|
98 ## optional arguments
|
|
99
|
|
100 ## parse command line arguments
|
|
101
|
|
102 while(scalar(@ARGV) > 0){
|
|
103 my $this_arg = shift @ARGV;
|
|
104 if ( $this_arg eq '-h') {print "$usage\n"; exit; }
|
|
105
|
|
106 elsif ( $this_arg eq '-f') {$filename = shift @ARGV;}
|
|
107 elsif ( $this_arg eq '-c') {$controlFilename = shift @ARGV;}
|
|
108 elsif ( $this_arg eq '-t') {$type = shift @ARGV;}
|
|
109 elsif ( $this_arg eq '-o') {$output_fname = shift @ARGV;}
|
|
110 elsif ( $this_arg eq '-s') {$sampleOutput = shift @ARGV;}
|
|
111
|
|
112
|
|
113 elsif ( $this_arg =~ m/^-/ ) { print "unknown flag: $this_arg\n";}
|
|
114 }
|
|
115
|
|
116 if ( $filename eq ""){
|
|
117 die "you should specify chip file\n";
|
|
118 }
|
|
119 if( $controlFilename eq ""){
|
|
120 die "you should specify control file\n";
|
|
121 }
|
|
122 if( $type eq ""){
|
|
123 die "you should specify file type (bam, sam or eland)\n";
|
|
124 }
|
|
125 if( $output_fname eq ""){
|
|
126 die "you should specify output filename\n";
|
|
127 }
|
|
128
|
|
129
|
|
130 print "\n-----------------\n\n";
|
|
131
|
|
132 my %hash;
|
|
133 my $chipCount = 0;
|
|
134 my @header;
|
|
135
|
|
136
|
|
137 if ($type eq "eland") {
|
|
138 open FILE, "< $filename " || die "$filename : $!\n";
|
|
139 while(<FILE>){
|
|
140 my @fields = split(/\t/,$_);
|
|
141 my $entry = $fields[6].":".$fields[7]."-".$fields[8];
|
|
142 unless (exists($hash{$entry})) {
|
|
143 $hash{$entry} = $_;
|
|
144 $chipCount++;
|
|
145 }
|
|
146 }
|
|
147 } elsif ($type eq "sam") {
|
|
148 open FILE, "< $filename " || die "$filename : $!\n";
|
|
149 while(<FILE>){
|
|
150 if (m/^@/) {
|
|
151 push(@header,$_);
|
|
152 next;
|
|
153 }
|
|
154 my @fields = split(/\t/,$_);
|
|
155 next if (scalar(@fields)<10);
|
|
156 my $entry = $fields[2].":".$fields[3]."-".$fields[1];
|
|
157 unless (exists($hash{$entry})) {
|
|
158 $hash{$entry} = $_;
|
|
159 $chipCount++;
|
|
160 }
|
|
161 }
|
|
162 } elsif ($type eq "bam") {
|
|
163 open(FILE, "$samtools_bin_dir/samtools view -h $filename |") or die "$0: can't open ".$filename.":$!\n";
|
|
164 while(<FILE>){
|
|
165 if (m/^@/) {
|
|
166 push(@header,$_);
|
|
167 next;
|
|
168 }
|
|
169 my @fields = split(/\t/,$_);
|
|
170 next if (scalar(@fields)<10);
|
|
171 my $entry = $fields[2].":".$fields[3]."-".$fields[1];
|
|
172 unless (exists($hash{$entry})) {
|
|
173 $hash{$entry} = $_;
|
|
174 $chipCount++;
|
|
175 }
|
|
176 }
|
|
177 }
|
|
178 close FILE;
|
|
179 print "ChIP: $chipCount\n";
|
|
180
|
|
181 if ($sampleOutput ne "") {
|
|
182
|
|
183 open OUT, "> $sampleOutput" || die "$sampleOutput: $!\n";
|
|
184
|
|
185 if ($type eq "bam" || $type eq "sam") { #print header
|
|
186 for my $headerLine (@header) {
|
|
187 print OUT $headerLine;
|
|
188 }
|
|
189 }
|
|
190 for my $line (values %hash) {
|
|
191 print OUT $line;
|
|
192 }
|
|
193 close OUT;
|
|
194 }
|
|
195
|
|
196 delete @hash{keys %hash};
|
|
197 @header = ();
|
|
198
|
|
199 my $controlCount = 0;
|
|
200 if ($type eq "eland") {
|
|
201 open FILE, "< $controlFilename " || die "$controlFilename : $!\n";
|
|
202 while(<FILE>){
|
|
203 my @fields = split(/\t/,$_);
|
|
204 my $entry = $fields[6].":".$fields[7]."-".$fields[8];
|
|
205 unless (exists($hash{$entry})) {
|
|
206 $hash{$entry} = $_;
|
|
207 $controlCount++;
|
|
208 }
|
|
209 }
|
|
210 } elsif ($type eq "sam") {
|
|
211 open FILE, "< $controlFilename " || die "$controlFilename : $!\n";
|
|
212 while(<FILE>){
|
|
213 if (m/^@/) {
|
|
214 push(@header,$_);
|
|
215 next;
|
|
216 }
|
|
217 my @fields = split(/\t/,$_);
|
|
218 my $entry = $fields[2].":".$fields[3]."-".$fields[1];
|
|
219 unless (exists($hash{$entry})) {
|
|
220 $hash{$entry} = $_;
|
|
221 $controlCount++;
|
|
222 }
|
|
223 }
|
|
224 } elsif ($type eq "bam") {
|
|
225 open(FILE, "$samtools_bin_dir/samtools view -h $controlFilename |") or die "$0: can't open ".$controlFilename.":$!\n";
|
|
226 while(<FILE>){
|
|
227 if (m/^@/) {
|
|
228 push(@header,$_);
|
|
229 next;
|
|
230 }
|
|
231 my @fields = split(/\t/,$_);
|
|
232 my $entry = $fields[2].":".$fields[3]."-".$fields[1];
|
|
233 unless (exists($hash{$entry})) {
|
|
234 $hash{$entry} = $_;
|
|
235 $controlCount++;
|
|
236 }
|
|
237 }
|
|
238 }
|
|
239 close FILE;
|
|
240 print "Control: $controlCount\n";
|
|
241 my $prob = $chipCount/$controlCount;
|
|
242
|
|
243 open OUT, "> $output_fname" || die "$output_fname: $!\n";
|
|
244
|
|
245 if ($type eq "bam" || $type eq "sam") { #print header
|
|
246 for my $headerLine (@header) {
|
|
247 print OUT $headerLine;
|
|
248 }
|
|
249 }
|
|
250 my $count = 0;
|
|
251
|
|
252 for my $line (values %hash) {
|
|
253 my $rand = rand();
|
|
254
|
|
255 if ($rand < $prob) {
|
|
256 print OUT $line;
|
|
257 $count ++;
|
|
258 }
|
|
259 last if ($count == $chipCount);
|
|
260 }
|
|
261
|
|
262
|
|
263 if ($count < $chipCount) {
|
|
264
|
|
265 $prob = ($chipCount-$count)/$controlCount*1.1;
|
|
266
|
|
267 for my $line (values %hash) {
|
|
268 my $rand = rand();
|
|
269
|
|
270 if ($rand < $prob) {
|
|
271 print OUT $line;
|
|
272 $count ++;
|
|
273 }
|
|
274 last if ($count == $chipCount);
|
|
275 }
|
|
276 }
|
|
277
|
|
278 print "count = $count\n";
|
|
279 close OUT;
|
|
280
|