0
|
1 library(data.table)
|
|
2 library(randomForest)
|
|
3 args <- commandArgs(trailingOnly = TRUE)
|
|
4
|
|
5 set.seed(1) #To test reproductibility
|
|
6
|
|
7
|
|
8 #for test
|
|
9 #inputest=list.files("C:/Users/Yves Bas/Documents/GitHub/65MO_Galaxy-E/raw_scripts/Vigie-Chiro/input_examples",full.names=T,pattern="participation-")
|
|
10 #for (i in 1:length(inputest))
|
|
11 #{
|
|
12 # args=c(inputest[i],"ClassifEspC2b_180222.learner")
|
|
13 #args[3]=basename(args[1])
|
|
14
|
|
15 filename=args[3]
|
|
16 if (exists("ClassifEspC2b")==F){load(args[2])}
|
|
17
|
|
18 DataPar=fread(args[1]) #id to be corrected
|
|
19 DataPar$participation=substr(filename,nchar(filename)-40,nchar(filename)-17)
|
|
20 test1=duplicated(cbind(DataPar$'nom du fichier',DataPar$tadarida_taxon))
|
|
21 test2=(DataPar$tadarida_taxon=="empty")
|
|
22 DataPar=subset(DataPar,(!test1)|(test2))
|
|
23 DataPar$tadarida_probabilite[DataPar$tadarida_probabilite==""]="0"
|
|
24 DataPar$tadarida_probabilite=as.numeric(DataPar$tadarida_probabilite)
|
|
25
|
|
26
|
|
27 #tableau comptabilisant le nombre de contacts par espèces
|
|
28 nbcT=as.matrix(table(DataPar$participation,DataPar$tadarida_taxon))
|
|
29
|
|
30 DataPar$tadarida_probabilite=as.numeric(DataPar$tadarida_probabilite)
|
|
31
|
|
32 #generating input variables for second layer classification
|
|
33
|
|
34 Q25=vector()
|
|
35 Q50=vector()
|
|
36 Q75=vector()
|
|
37 Q90=vector()
|
|
38 Q95=vector()
|
|
39 Q98=vector()
|
|
40 Q100=vector()
|
|
41 compt=0
|
|
42 PropSp=nbcT[0,]
|
|
43 VoteO=DataPar[0,]
|
|
44 for (j in 1:nlevels(as.factor(DataPar$tadarida_taxon)))
|
|
45 {
|
|
46 Datasub2=subset(DataPar,DataPar$tadarida_taxon==levels(as.factor(DataPar$tadarida_taxon))[j])
|
|
47
|
|
48 Q25=c(Q25,rep(quantile(Datasub2$tadarida_probabilite,0.25),nrow(Datasub2)))
|
|
49 Q50=c(Q50,rep(quantile(Datasub2$tadarida_probabilite,0.50),nrow(Datasub2)))
|
|
50 Q75=c(Q75,rep(quantile(Datasub2$tadarida_probabilite,0.75),nrow(Datasub2)))
|
|
51 Q90=c(Q90,rep(quantile(Datasub2$tadarida_probabilite,0.90),nrow(Datasub2)))
|
|
52 Q95=c(Q95,rep(quantile(Datasub2$tadarida_probabilite,0.95),nrow(Datasub2)))
|
|
53 Q98=c(Q98,rep(quantile(Datasub2$tadarida_probabilite,0.98),nrow(Datasub2)))
|
|
54 Q100=c(Q100,rep(max(Datasub2$tadarida_probabilite),nrow(Datasub2)))
|
|
55 Ncont1=nrow(Datasub2)
|
|
56 VoteO=rbind(VoteO,Datasub2)
|
|
57 PropSp0=nbcT/Ncont1
|
|
58 PropSp=rbind(PropSp,PropSp0[rep(seq_len(nrow(PropSp0)),nrow(Datasub2)),])
|
|
59 compt=compt+nrow(Datasub2)
|
|
60 #print(paste(compt,levels(as.factor(DataPar$tadarida_taxon))[j]))
|
|
61 }
|
|
62
|
|
63 VoteC2=cbind(VoteO,PropSp,Q25,Q50,Q75,Q90,Q95,Q98,Q100)
|
|
64
|
|
65
|
|
66 #édition des titres de colonne pour identifier les variables de type "proportions d'abondances"
|
|
67 for (i in 15:(ncol(VoteC2)-7))
|
|
68 {
|
|
69 colnames(VoteC2)[i]=paste0(names(VoteC2)[i],"_prop")
|
|
70 }
|
|
71
|
|
72 #rajouter les espèces manquantes
|
|
73 EspForm=subset(row.names(ClassifEspC2b$importance)
|
|
74 ,substr(row.names(ClassifEspC2b$importance)
|
|
75 ,nchar(row.names(ClassifEspC2b$importance))-4
|
|
76 ,nchar(row.names(ClassifEspC2b$importance)))
|
|
77 =="_prop")
|
|
78 test=match(EspForm,colnames(VoteC2))
|
|
79 EspM=subset(EspForm,is.na(test))
|
|
80 Zeros=matrix(nrow=nrow(VoteC2),ncol=length(EspM))
|
|
81 Zeros[is.na(Zeros)]=0
|
|
82 colnames(Zeros)=EspM
|
|
83 VoteC2=cbind(VoteC2,Zeros)
|
|
84
|
|
85 ListDV=levels(as.factor(DataPar$'nom du fichier'))
|
|
86 #calcule les probabilités max par espèce et par fichier
|
|
87 #(utile pour corriger les erreurs dues à la coexistence de taxons dans le même fichier
|
|
88 #ex: cris sociaux de Pipistrelles identifiées comme autre chose (Noctule, oreillard...))
|
|
89 MaxI=tapply(DataPar$tadarida_probabilite
|
|
90 ,INDEX=list(c(DataPar$'nom du fichier'),c(DataPar$tadarida_taxon))
|
|
91 ,FUN=max)
|
|
92 MaxI2=as.data.frame(cbind(row.names(MaxI),MaxI))
|
|
93 for (i in 2:ncol(MaxI2))
|
|
94 {
|
|
95 MaxI2[,i]=as.numeric(as.character(MaxI2[,i]))
|
|
96 }
|
|
97 MaxI2[is.na(MaxI2)]=0
|
|
98
|
|
99 #édition des titres de colonne pour identifier les variables de type "indices max"
|
|
100 for (i in 2:(ncol(MaxI2)))
|
|
101 {
|
|
102 colnames(MaxI2)[i]=paste0(names(MaxI2)[i],"_maxI")
|
|
103 }
|
|
104
|
|
105
|
|
106 #rajouter les espèces manquantes
|
|
107 EspForm=subset(row.names(ClassifEspC2b$importance)
|
|
108 ,substr(row.names(ClassifEspC2b$importance)
|
|
109 ,nchar(row.names(ClassifEspC2b$importance))-4
|
|
110 ,nchar(row.names(ClassifEspC2b$importance)))
|
|
111 =="_maxI")
|
|
112 test=match(EspForm,colnames(MaxI2))
|
|
113 EspM=subset(EspForm,is.na(test))
|
|
114 Zeros=matrix(nrow=nrow(MaxI2),ncol=length(EspM))
|
|
115 Zeros[is.na(Zeros)]=0
|
|
116 colnames(Zeros)=EspM
|
|
117 MaxI2=cbind(MaxI2,Zeros)
|
|
118
|
|
119
|
|
120
|
|
121
|
|
122 #indice de confiance à l'echelle de l'observation (groupe de cris identifié comme provenant d'une seule espèce par la première couche)
|
|
123 if(exists("IdS3")){rm(IdS3)}
|
|
124 for (i in 1:nlevels(as.factor(DataPar$tadarida_taxon)))
|
|
125 {
|
|
126 Idsub=subset(DataPar,DataPar$tadarida_taxon==levels(as.factor(DataPar$tadarida_taxon))[i])
|
|
127 IdS2=cbind('nom du fichier'=Idsub$'nom du fichier',tadarida_taxon=Idsub$tadarida_taxon,prob=Idsub$tadarida_probabilite)
|
|
128 colnames(IdS2)[3]=paste(levels(as.factor(DataPar$tadarida_taxon))[i])
|
|
129 if(exists("IdS3")){IdS3=merge(IdS3,IdS2,all=T)}else{IdS3=IdS2}
|
|
130 #print(i)
|
|
131 }
|
|
132
|
|
133 for (i in 3:ncol(IdS3))
|
|
134 {
|
|
135 IdS3[,i]=as.numeric(as.character(IdS3[,i]))
|
|
136 }
|
|
137
|
|
138 #édition des titres de colonne pour identifier les variables de type "indices de l'observation"
|
|
139 for (i in 3:(ncol(IdS3)))
|
|
140 {
|
|
141 colnames(IdS3)[i]=paste0(names(IdS3)[i],"_ValI")
|
|
142 }
|
|
143
|
|
144 IdS3[is.na(IdS3)]=0
|
|
145
|
|
146 #rajouter les espèces manquantes
|
|
147 EspForm=subset(row.names(ClassifEspC2b$importance)
|
|
148 ,substr(row.names(ClassifEspC2b$importance)
|
|
149 ,nchar(row.names(ClassifEspC2b$importance))-4
|
|
150 ,nchar(row.names(ClassifEspC2b$importance)))
|
|
151 =="_ValI")
|
|
152 test=match(EspForm,colnames(IdS3))
|
|
153 EspM=subset(EspForm,is.na(test))
|
|
154 Zeros=matrix(nrow=nrow(IdS3),ncol=length(EspM))
|
|
155 Zeros[is.na(Zeros)]=0
|
|
156 colnames(Zeros)=EspM
|
|
157 IdS3=cbind(IdS3,Zeros)
|
|
158
|
|
159 #on merge les prop d'espèces, les quantiles et les indices par fichiers et par observations
|
|
160 VoteC3=merge(VoteC2,MaxI2,by.x="nom du fichier",by.y="V1")
|
|
161 VoteC4=merge(VoteC3,IdS3,by=c("nom du fichier","tadarida_taxon"))
|
|
162 VoteC4$temps_fin=as.numeric(as.character(VoteC4$temps_fin))
|
|
163 VoteC4$temps_debut=as.numeric(as.character(VoteC4$temps_debut))
|
|
164 VoteC4$frequence=as.numeric(as.character(VoteC4$frequence_mediane))
|
|
165 VoteC4$durseq=VoteC4$temps_fin-VoteC4$temps_debut
|
|
166
|
|
167 ProbEsp_C2b=predict(ClassifEspC2b,VoteC4,type="prob",norm.votes=TRUE)
|
|
168 ProbEsp_C2bs=predict(ClassifEspC2b,VoteC4,type="response",norm.votes=TRUE)
|
|
169
|
|
170 colnum=match("participation",colnames(VoteC4))
|
|
171 DataCorrC2=cbind(VoteC4[,1:colnum],ProbEsp_C2b,ProbEsp_C2bs)
|
|
172 DataCorrC2=DataCorrC2[order(DataCorrC2$tadarida_probabilite,decreasing=T),]
|
|
173 DataCorrC2=DataCorrC2[order(DataCorrC2$'nom du fichier'),]
|
|
174
|
|
175 DataCorrC2$ProbEsp_C2bs=as.character(DataCorrC2$ProbEsp_C2bs)
|
|
176 DataCorrC2$ProbEsp_C2bs[is.na(DataCorrC2$ProbEsp_C2bs)]="empty"
|
|
177
|
|
178 fout_name="output.tabular"
|
|
179
|
|
180 write.table(DataCorrC2,file=fout_name,row.names=FALSE,sep="\t")
|
|
181 #write.table(DataCorrC2,paste0(substr(args[1],nchar(args[1])-40,nchar(args[1])-17),"-DataCorrC2.csv"),row.names=F,sep="\t")
|