Mercurial > repos > mgarnier > pangenome_cog_analysis
comparison pangenomeCogAnalysis_V1.pl @ 2:0428ce25da81 draft
Uploaded
author | mgarnier |
---|---|
date | Fri, 02 Jul 2021 14:53:33 +0000 |
parents | 1f75641c2ee8 |
children | db4e1e6850b0 |
comparison
equal
deleted
inserted
replaced
1:1f75641c2ee8 | 2:0428ce25da81 |
---|---|
2 | 2 |
3 use strict; | 3 use strict; |
4 use warnings; | 4 use warnings; |
5 | 5 |
6 my $num_args = $#ARGV + 1; | 6 my $num_args = $#ARGV + 1; |
7 if ($num_args != 11) { | 7 if ($num_args != 10) { |
8 print "Il n'y a pas le bon nombre d'arguments !\n"; | 8 print "Il n'y a pas le bon nombre d'arguments !\n"; |
9 exit; | 9 exit; |
10 } | 10 } |
11 | 11 |
12 # INPUT_ | 12 # INPUT_ |
20 # OUTPUT_ | 20 # OUTPUT_ |
21 my $output = $ARGV[6]; # liste des espèces avec leurs orthogroupes (présence-absence) | 21 my $output = $ARGV[6]; # liste des espèces avec leurs orthogroupes (présence-absence) |
22 my $output2 = $ARGV[7]; # fichier des moyennes | 22 my $output2 = $ARGV[7]; # fichier des moyennes |
23 my $output3 = $ARGV[8]; # fichier de la liste des valeurs pour chaque catégorie de COG et pour chaque espèce | 23 my $output3 = $ARGV[8]; # fichier de la liste des valeurs pour chaque catégorie de COG et pour chaque espèce |
24 my $output4 = $ARGV[9]; # fichier avec les catégories de COG pour core-génome / génome accessoire / gènes spé | 24 my $output4 = $ARGV[9]; # fichier avec les catégories de COG pour core-génome / génome accessoire / gènes spé |
25 my $output5 = $ARGV[10]; # sortie qui affiche les GFF | |
26 | 25 |
27 | 26 |
28 # print "ok\n"; | 27 # print "ok\n"; |
29 # exit; | 28 # exit; |
30 | 29 |
30 my @list_gff = split(',', $annotation_GFF); # liste des différents fichiers GFF (qui se retrouvent dans le dossier Annotation Maker) | |
31 my %hSpecies = (); # HASH -> key: N_Id (ex NF_AR12) ; val: nom de l'esp (ex Naegleria Fowleri) | 31 my %hSpecies = (); # HASH -> key: N_Id (ex NF_AR12) ; val: nom de l'esp (ex Naegleria Fowleri) |
32 | 32 |
33 ######################## LE SPECIES_FILE ########################### | 33 ######################## LE SPECIES_FILE ########################### |
34 open (S, $species_file); | 34 open (S, $species_file); |
35 while (my $line = <S>){ | 35 while (my $line = <S>){ |
36 | 36 |
37 $line =~s/\n//g; $line =~s/\r//g; | 37 $line =~s/\n//g; $line =~s/\r//g; |
38 my @sp = split('\t', $line); | 38 my @sp = split('\t', $line); |
39 # print "$line\n"; | 39 # print "$line\n"; |
40 # exit; | 40 # exit; |
41 $hSpecies{$sp[0]} = $sp[1]; # key = N_Id ; val = name | 41 $hSpecies{$sp[0]} = $sp[1]; # HASH -> key: N_Id ; val: name |
42 | 42 |
43 } | 43 } |
44 my $nbr = keys (%hSpecies); #compter le nombre de souches max | 44 my $nbr = keys (%hSpecies); #compter le nombre de souches max |
45 # = taille de la table de hash | 45 # = taille de la table de hash |
46 # print "J'ai $nbr clés\n"; | 46 # print "J'ai $nbr clés\n"; |
89 | 89 |
90 my %coregenes = (); # HASH -> key: gene ; val: orthogroupe (pour core-genome) | 90 my %coregenes = (); # HASH -> key: gene ; val: orthogroupe (pour core-genome) |
91 my %specificgenes = (); # HASH -> key: gene ; val: orthogroupe (pour gènes spécifiques) | 91 my %specificgenes = (); # HASH -> key: gene ; val: orthogroupe (pour gènes spécifiques) |
92 my %accessorygenes = (); # HASH -> key: gene ; val: orthogroupe (pour génome accessoire) | 92 my %accessorygenes = (); # HASH -> key: gene ; val: orthogroupe (pour génome accessoire) |
93 | 93 |
94 my $coregene_line; | |
95 my %coregenes2 = (); # HASH -> key1: colonne i ; key2: gène ; val: orthogroupe | |
96 | |
97 my %Genes_of_OG = (); # HASH -> key1: orthogroupe ; key2: colonne i ; val: gène | |
98 | |
94 | 99 |
95 while(<M>) { | 100 while(<M>) { |
96 | 101 |
102 my $line = $_; | |
103 $line =~s/\n//g; $line =~s/\r//g; | |
97 my $nb_found = 0; | 104 my $nb_found = 0; |
98 my @infos = split(/\t/,$_); | 105 my @infos = split(/\t/,$line); |
99 my $orthogroup = $infos[0]; # on récupère le nom de l'orthogroupe dans $orthogroup | 106 my $orthogroup = $infos[0]; # on récupère le nom de l'orthogroupe dans $orthogroup |
100 my $first_column = $infos[1]; # ici on récupère les gènes de la première colonne qui vont nous servir pour le core-génome | 107 my $first_column = $infos[1]; # ici on récupère les gènes de la première colonne qui vont nous servir pour le core-génome |
101 my $combi_prs = ""; | 108 my $combi_prs = ""; |
102 my $combi_abs = ""; | 109 my $combi_abs = ""; |
103 my $val; | 110 my $val; |
104 my $gene_random; | 111 my $gene_random; |
105 | 112 |
113 | |
106 for (my $i=1; $i <= $#infos; $i++){ # on travaille par ligne puis dans chaque ligne (while(<M>)), cellule par cellule (cette boucle for) | 114 for (my $i=1; $i <= $#infos; $i++){ # on travaille par ligne puis dans chaque ligne (while(<M>)), cellule par cellule (cette boucle for) |
107 | 115 |
108 $val = $infos[$i]; # on récupère l'information contenue dans la case $i | 116 $val = $infos[$i]; # on récupère l'information contenue dans la case $i |
109 | 117 |
110 if ($val =~/\w/){ # s'il cette cellule contient qq chose... | 118 if ($val =~/\w/){ # s'il cette cellule contient qq chose... |
111 $combi_prs .= "_".$i; # ...on va concaténer notre chaine $combi_prs pour que cela forme une combinaison | 119 $combi_prs .= "_".$i; # ...on va concaténer notre chaine $combi_prs pour que cela forme une combinaison |
112 $nb_found++; # on incrémente le compteur qui permet de savoir cb de fois notre orthogroupe est présent (le but sera de l'utiliser quand nb_found == 9) | 120 $nb_found++; # on incrémente le compteur qui permet de savoir cb de fois notre orthogroupe est présent (le but sera de l'utiliser quand nb_found == 9) |
113 $gene_random=$val; # on récupère la valeur de la case (les gènes) | 121 $gene_random=$val; # on récupère la valeur de la case (les gènes) |
122 | |
123 my @table_genes = split (',', $val); | |
124 my $premier_gene = $table_genes[0]; | |
125 $Genes_of_OG{$i}{$orthogroup} = $premier_gene; # pour chaque orthorgoupe de chaque colonne, on récupère le premier gène | |
114 } | 126 } |
115 | 127 |
116 else { # si jamais il n'y a rien dans la cellule... | 128 else { # si jamais il n'y a rien dans la cellule... |
117 $combi_abs .= "_".$i; # ... on fait la même chose mais avec $combi_abs | 129 $combi_abs .= "_".$i; # ... on fait la même chose mais avec $combi_abs |
118 } | 130 } |
122 # $hCount{$combi}++; | 134 # $hCount{$combi}++; |
123 $hCombination_prs{$combi_prs}.=$orthogroup."\n"; # à la fin de chaque ligne, on va ajouter notre orthogroupe à la combinaison qui lui correspond | 135 $hCombination_prs{$combi_prs}.=$orthogroup."\n"; # à la fin de chaque ligne, on va ajouter notre orthogroupe à la combinaison qui lui correspond |
124 $hCombination_abs{$combi_abs}.=$orthogroup."\n"; | 136 $hCombination_abs{$combi_abs}.=$orthogroup."\n"; |
125 | 137 |
126 | 138 |
127 | |
128 | 139 |
129 if ($nb_found == $#infos){ # si nb_found = au nombre de souche, c'est qu'on a à faire à un core-génome | 140 if ($nb_found == $#infos){ # si nb_found = au nombre de souche, c'est qu'on a à faire à un core-génome |
130 # print "$orthogroup\n"; | 141 # print "$orthogroup\n"; |
131 # print "$nb_found\n=================\n"; | 142 # print "$nb_found\n=================\n"; |
132 my @list_of_genes = split (',', $first_column); # ici va séparer tous les gènes (qui se présentent comme une liste, séparés par des ',') | 143 for (my $i=1; $i <= $#infos; $i++){ |
133 my $first_gene = $list_of_genes[0]; # prend la valeur du premier gène uniquement ! | 144 my @list_of_genes = split (',', $infos[$i]); # ici va séparer tous les gènes (qui se présentent comme une liste, séparés par des ',') |
134 $coregenes{$first_gene}= $orthogroup; # on va récupérer ce premier gène qu'on met dans un hash (pour y avoir accès facilement, d'où val = 1, ici ça n'a pas d'importance) | 145 my $first_gene = $list_of_genes[0]; # prend la valeur du premier gène uniquement ! |
135 # foreach my $oups (@list_of_genes) { | 146 $coregenes{$first_gene}= $orthogroup; # on va récupérer ce premier gène qu'on met dans un hash (pour y avoir accès facilement, d'où val = 1, ici ça n'a pas d'importance) |
136 # print "$orthogroup\n"; | 147 $coregenes2{$i}{$first_gene}= $orthogroup; |
137 # print "$first_gene\n--------------------------\n"; | 148 |
138 # } | 149 |
139 | 150 |
151 | |
152 } | |
153 if (!$coregene_line){ | |
154 $coregene_line = $line; | |
155 } | |
140 } | 156 } |
141 elsif ($nb_found == 1) { # si on a un gène spé | 157 elsif ($nb_found == 1) { # si on a un gène spé |
142 my @list_of_genes = split (',', $gene_random); # idem, on ne veut qu'un seul gène donc on crée la liste | 158 my @list_of_genes = split (',', $gene_random); # idem, on ne veut qu'un seul gène donc on crée la liste |
143 my $first_gene = $list_of_genes[0]; # on ne prend que le premier | 159 my $first_gene = $list_of_genes[0]; # on ne prend que le premier |
144 $specificgenes{$first_gene}= $orthogroup; # et pareil on crée la table de hash | 160 $specificgenes{$first_gene}= $orthogroup; # et pareil on crée la table de hash |
149 my $first_gene = $list_of_genes[0]; | 165 my $first_gene = $list_of_genes[0]; |
150 $accessorygenes{$first_gene}= $orthogroup; | 166 $accessorygenes{$first_gene}= $orthogroup; |
151 } | 167 } |
152 | 168 |
153 } | 169 } |
154 # while (my ($k,$v) = each(%coregenes)) { | 170 |
155 # print "gene=$k OG=$v\n"; | 171 my %hCol_Annotated = (); # HASH -> key: colonne ; val: 1 (colonnes pour lesquelles les GFF sont présents) |
172 | |
173 # Le but ici est de ne garder que les colonnes (donc les souches) qui ont un fichier GFF associé | |
174 my @list_column = split ('\t', $coregene_line); | |
175 for (my $i=1; $i <= $#list_column; $i++){ | |
176 my @list_genes = split (', ', $list_column[$i]); | |
177 my $premier_gene = $list_genes[0]; | |
178 my $strain = $samples[$i]; # récupérer le nom de la souche | |
179 | |
180 | |
181 foreach my $gff (@list_gff){ | |
182 my $result_grep = `grep $premier_gene $gff`; | |
183 | |
184 if ($result_grep){ | |
185 $hCol_Annotated{$i}=$strain; | |
186 | |
187 } | |
188 # print "$result_grep\n"; | |
189 } | |
190 } | |
191 # exit; | |
192 # foreach my $i (sort keys (%coregenes2)){ # parcours de la table %hCount2 au niveau des catégories | |
193 # foreach my $gene (keys %{$coregenes2{$i} }){ # parcours de la table %hCount2 au niveau des espèces | |
194 # print "$i\t$gene\t".$coregenes2{$i}{$gene}."\n"; | |
195 # } | |
196 # } | |
197 | |
198 # while (my ($k,$v) = each(%strain_specie)) { | |
199 # print "i=$k strain=$v\n"; | |
156 # } | 200 # } |
157 # exit; | 201 # exit; |
158 # foreach my $oups (keys (%coregenes)) { | 202 # foreach my $oups (keys (%coregenes)) { |
159 # print "$oups\n"; | 203 # print "$oups\n"; |
160 # } | 204 # } |
161 # exit; | 205 # exit; |
162 | 206 |
163 close (M); | 207 close (M); |
208 | |
209 my %Hash_Specific = (); | |
164 | 210 |
165 open (OUT, '>', $output) or die $!; | 211 open (OUT, '>', $output) or die $!; |
166 print OUT "$annotation\n"; | 212 print OUT "$annotation\n"; |
167 foreach my $species (keys (%hCombination)){ # parcours de la table de hash %hCombination (key: nom esp ; val: combi) | 213 foreach my $species (keys (%hCombination)){ # parcours de la table de hash %hCombination (key: nom esp ; val: combi) |
168 my $combination = $hCombination{$species}; # on récupère dans la variable $combination la valeur de chaque clé {species} (= nom esp) de la table de hash %hCombination | 214 my $combination = $hCombination{$species}; # on récupère dans la variable $combination la valeur de chaque clé {species} (= nom esp) de la table de hash %hCombination |
172 # open (OUT,">results.list.txt"); | 218 # open (OUT,">results.list.txt"); |
173 | 219 |
174 if ($ortho_presents){ | 220 if ($ortho_presents){ |
175 print OUT "> $species - present\n"; | 221 print OUT "> $species - present\n"; |
176 print OUT "$ortho_presents\n"; | 222 print OUT "$ortho_presents\n"; |
223 my @orthogroups_name = split ('\n', $ortho_presents); | |
224 foreach my $ortho (@orthogroups_name){ | |
225 $Hash_Specific{$ortho} = $species; | |
226 } | |
177 } | 227 } |
178 | 228 |
179 if ($ortho_absents){ | 229 if ($ortho_absents){ |
180 # open (OUT2,">$species.$combination.absents.list.txt"); | 230 # open (OUT2,">$species.$combination.absents.list.txt"); |
181 print OUT "> $species - absent\n"; | 231 print OUT "> $species - absent\n"; |
239 # hash pour récupérer le gène | 289 # hash pour récupérer le gène |
240 my %hCore_Cat_Esp = (); # HASH -> key1: catégorie de COG ; key2: espèce ; val: gène | 290 my %hCore_Cat_Esp = (); # HASH -> key1: catégorie de COG ; key2: espèce ; val: gène |
241 my %hAccessory_Cat_Esp = (); # HASH -> key1: catégorie de COG ; key2: espèce ; val: gène | 291 my %hAccessory_Cat_Esp = (); # HASH -> key1: catégorie de COG ; key2: espèce ; val: gène |
242 my %hSpecific_Cat_Esp = (); # HASH -> key1: catégorie de COG ; key2: espèce ; val: gène | 292 my %hSpecific_Cat_Esp = (); # HASH -> key1: catégorie de COG ; key2: espèce ; val: gène |
243 | 293 |
244 my %Cog_of_gene = (); | 294 my %Cog_of_gene = (); # HASH -> key: gène ; val: cat de COG |
295 my %Specie_of_gene = (); # HASH -> key: gène ; val: souche | |
245 | 296 |
246 foreach my $file(@files){ # parcours de la liste des fichiers | 297 foreach my $file(@files){ # parcours de la liste des fichiers |
247 my $esp = $hCorresp_file_species{$file}; # on récupère l'espèce pour chaque fichier de COG dans $esp | 298 my $esp = $hCorresp_file_species{$file}; # on récupère l'espèce pour chaque fichier de COG dans $esp |
248 # print $esp."\n"; | 299 # print $esp."\n"; |
249 # exit; | 300 # exit; |
415 | 466 |
416 #////////////////////////////////////////////////////////////////////////////////////////////////// | 467 #////////////////////////////////////////////////////////////////////////////////////////////////// |
417 | 468 |
418 ############################################### GFF ############################################### | 469 ############################################### GFF ############################################### |
419 | 470 |
420 my @list_gff = split(',', $annotation_GFF); # liste des différents fichiers GFF (qui se retrouvent dans le dossier Annotation Maker) | 471 |
421 my @order_gff = split(',', $order_GFF); # liste de l'ordre des souches | 472 my @order_gff = split(',', $order_GFF); # liste de l'ordre des souches |
422 my ($g,$o); | 473 my ($g,$o); |
423 | 474 |
424 my %hgff_order = (); #HASH -> key: un fichier GFF ; val: un nom de souche (ces 2 données sont entrées en input = $annotation_GFF et $order_GFF) | 475 my %hgff_order = (); #HASH -> key: un fichier GFF ; val: un nom de souche (ces 2 données sont entrées en input = $annotation_GFF et $order_GFF) |
425 my %Gene_position = (); | 476 my %Gene_position = (); |
426 my %Cat_genes = (); | 477 my %Cat_genes = (); |
427 | 478 |
428 # my %hCore_Cat = reverse (%hCore_Cat); | 479 my %hash_of_genes = (); |
429 | 480 |
430 # ++++++++++++ parcours de 2 listes en même temps ++++++++++++ # | 481 # ++++++++++++ parcours de 2 listes en même temps ++++++++++++ # |
431 foreach $g (@list_gff){ | 482 foreach $g (@list_gff){ |
483 # print "$g\n"; | |
432 $hgff_order{$g} = $order_gff[$o++]; # on fait correspondre pour chaque fichier GFF, un nom de souche | 484 $hgff_order{$g} = $order_gff[$o++]; # on fait correspondre pour chaque fichier GFF, un nom de souche |
433 open (G, $g); | 485 open (G, $g); |
434 while (<G>) { | 486 while (<G>) { |
435 my @table_gff = split (/\t/, $_); | 487 my @table_gff = split (/\t/, $_); |
436 my $chr = $table_gff[0]; | 488 my $chr = $table_gff[0]; |
443 | 495 |
444 if ($type && $type eq "mRNA" && $gene_name =~ /ID=([^;]+);/){ | 496 if ($type && $type eq "mRNA" && $gene_name =~ /ID=([^;]+);/){ |
445 my $gene = $1; | 497 my $gene = $1; |
446 # print $gene."\n"; | 498 # print $gene."\n"; |
447 # exit; | 499 # exit; |
500 $hash_of_genes{$gene}=1; | |
501 | |
448 foreach my $cog (keys (%hCore_Cat)){ | 502 foreach my $cog (keys (%hCore_Cat)){ |
449 if ($hCore_Cat{$cog} eq $gene){ | 503 if ($hCore_Cat{$cog} eq $gene){ |
450 $Cat_genes{$gene}=$cog; | 504 $Cat_genes{$gene}=$cog; |
451 } | 505 } |
452 } | 506 } |
453 | 507 |
454 $Gene_position{$gene}="$chr\t$start\t$end"; | 508 $Gene_position{$gene}="$chr\t$start\t$end"; |
455 } | 509 } |
456 | 510 |
457 | 511 # foreach my $gene (keys (%hash_of_genes)){ |
512 # my $orthogrp = $hGene_OG{$gene}; | |
513 # print "$orthogrp\n"; | |
514 # } | |
458 } | 515 } |
459 | 516 |
460 close (G); | 517 close (G); |
461 } | 518 } |
462 | 519 |
463 open (OUT5, "> $output5"); | 520 mkdir("Core"); |
464 print OUT5 "Orthogroups\tGenes\tChromosomes\tStart\tEnd\tCOG categories\n"; | 521 foreach my $i (keys (%coregenes2)){ |
465 | 522 |
466 | 523 if (!$hCol_Annotated{$i}) { # si le fichier GFF n'existe pas |
467 | 524 next; |
468 | 525 } |
469 # foreach my $gene1 (keys (%Gene_position)){ | 526 |
470 # if ($hCore_Cat{$gene1}){ | 527 |
471 # # print "$hCore_Cat{$gene1}\n"; | 528 my $strain_name = $hCol_Annotated{$i}; |
472 # my $cog = $hCore_Cat{$gene1}; | 529 |
473 # $Hash_genes{$gene1}=$cog; | 530 my $specie_name = $hSpecies{$strain_name}; |
474 # } | 531 |
475 # } | 532 |
476 # while (my ($k,$v) = each(%Hash_genes)) { | 533 |
477 # print "gene=$k cog=$v\n"; | 534 open (OUT5, "> Core/$strain_name.$specie_name.txt") or die "Cannot create file $!\n"; |
478 # } | 535 print OUT5 "Orthogroup\tGene\tChromosome\tStart\tEnd\tCOG categories\n"; |
479 # exit; | 536 |
480 | 537 my $refcoregenes2 = $coregenes2{$i}; |
481 foreach my $gene (keys (%coregenes)){ | 538 my %subhash = %$refcoregenes2; |
482 # print "$gene\n"; | 539 foreach my $gene (keys (%subhash)){ |
483 my $cat = "unknown"; | 540 # print "$gene\n"; |
484 if ($Cog_of_gene{$gene}){ | 541 my $cat = "unknown"; |
485 $cat = $Cog_of_gene{$gene}; | 542 if ($Cog_of_gene{$gene}){ |
486 } | 543 $cat = $Cog_of_gene{$gene}; |
487 print OUT5 $coregenes{$gene}."\t"."$gene\t".$Gene_position{$gene}."\t".$cat."\n"; | 544 } |
488 | 545 # if (!$Gene_position{$gene}){ |
489 } | 546 # print "$gene\n coucou"; exit; |
490 | 547 # } |
491 close (OUT5); | 548 |
549 # if (!$subhash{$gene}){ | |
550 # print "$gene\n"; | |
551 # } | |
552 print OUT5 $subhash{$gene}."\t"."$gene\t".$Gene_position{$gene}."\t".$cat."\n"; | |
553 | |
554 } | |
555 | |
556 close (OUT5); | |
557 } | |
558 | |
559 | |
560 mkdir("GroupSpecific"); | |
561 foreach my $i (keys (%Genes_of_OG)){ | |
562 if (!$hCol_Annotated{$i}) { # si le fichier GFF n'existe pas | |
563 next; | |
564 } | |
565 | |
566 my $strain_name = $hCol_Annotated{$i}; | |
567 | |
568 my $specie_name = $hSpecies{$strain_name}; | |
569 | |
570 open (OUT6, "> GroupSpecific/$strain_name.$specie_name.txt") or die "Cannot create file $!\n"; | |
571 print OUT6 "Orthogroup\tGene\tChromosome\tStart\tEnd\tCOG categories\n"; | |
572 | |
573 my $refGenes_of_OG = $Genes_of_OG{$i}; | |
574 my %subhash = %$refGenes_of_OG; | |
575 | |
576 foreach my $orthogroup (keys (%subhash)){ | |
577 if ($Hash_Specific{$orthogroup} && $Hash_Specific{$orthogroup} eq $specie_name){ | |
578 my $gene = $subhash{$orthogroup}; | |
579 | |
580 my $cat = "unknown"; | |
581 if ($Cog_of_gene{$gene}){ | |
582 $cat = $Cog_of_gene{$gene}; | |
583 } | |
584 print OUT6 $orthogroup."\t".$subhash{$orthogroup}."\t".$Gene_position{$gene}."\t".$cat."\n"; | |
585 } | |
586 | |
587 } | |
588 close (OUT6); | |
589 } |