oghma: lasso.R annotate

annotate lasso.R @ 100:09827a9f75a6 draft

Uploaded

author	nicolas
date	Mon, 31 Oct 2016 06:44:04 -0400
parents	14b976f46889
children

rev	line source
79 14b976f46889 Uploaded nicolas parents: diff changeset	1 ########################################################
14b976f46889 Uploaded nicolas parents: diff changeset	2 #
14b976f46889 Uploaded nicolas parents: diff changeset	3 # creation date : 08/01/16
14b976f46889 Uploaded nicolas parents: diff changeset	4 # last modification : 01/09/16
14b976f46889 Uploaded nicolas parents: diff changeset	5 # author : Dr Nicolas Beaume
14b976f46889 Uploaded nicolas parents: diff changeset	6 # owner : IRRI
14b976f46889 Uploaded nicolas parents: diff changeset	7 #
14b976f46889 Uploaded nicolas parents: diff changeset	8 ########################################################
14b976f46889 Uploaded nicolas parents: diff changeset	9
14b976f46889 Uploaded nicolas parents: diff changeset	10 suppressWarnings(suppressMessages(library(glmnet)))
14b976f46889 Uploaded nicolas parents: diff changeset	11 library(methods)
14b976f46889 Uploaded nicolas parents: diff changeset	12 ############################ helper functions #######################
14b976f46889 Uploaded nicolas parents: diff changeset	13
14b976f46889 Uploaded nicolas parents: diff changeset	14
14b976f46889 Uploaded nicolas parents: diff changeset	15 # optimize alpha parameter
14b976f46889 Uploaded nicolas parents: diff changeset	16 optimize <- function(genotype, phenotype, alpha=seq(0,1,0.1), repet=7) {
14b976f46889 Uploaded nicolas parents: diff changeset	17 acc <- NULL
14b976f46889 Uploaded nicolas parents: diff changeset	18 indexAlpha <- 1
14b976f46889 Uploaded nicolas parents: diff changeset	19 for(a in alpha) {
14b976f46889 Uploaded nicolas parents: diff changeset	20 curAcc <- NULL
14b976f46889 Uploaded nicolas parents: diff changeset	21 # repeat nfolds time each analysis
14b976f46889 Uploaded nicolas parents: diff changeset	22 for(i in 1:repet) {
14b976f46889 Uploaded nicolas parents: diff changeset	23 # draw at random 1/3 of the training set for testing and thus choose alpha
14b976f46889 Uploaded nicolas parents: diff changeset	24 # note it is not a cross-validation
14b976f46889 Uploaded nicolas parents: diff changeset	25 n <- ceiling(nrow(genotype)/3)
14b976f46889 Uploaded nicolas parents: diff changeset	26 indexTest <- sample(1:nrow(genotype), size=n)
14b976f46889 Uploaded nicolas parents: diff changeset	27 # create training set and test set
14b976f46889 Uploaded nicolas parents: diff changeset	28 train <- genotype[-indexTest,]
14b976f46889 Uploaded nicolas parents: diff changeset	29 test <- genotype[indexTest,]
14b976f46889 Uploaded nicolas parents: diff changeset	30 phenoTrain <- phenotype[-indexTest]
14b976f46889 Uploaded nicolas parents: diff changeset	31 phenoTest <- phenotype[indexTest]
14b976f46889 Uploaded nicolas parents: diff changeset	32 # cv.glmnet allow to compute lambda at the current alpha
14b976f46889 Uploaded nicolas parents: diff changeset	33 cv <- cv.glmnet(x=as.matrix(train), y=phenoTrain, alpha=a)
14b976f46889 Uploaded nicolas parents: diff changeset	34 # create model
14b976f46889 Uploaded nicolas parents: diff changeset	35 model <- glmnet(x=as.matrix(train), y=phenoTrain, alpha=a, lambda = cv$lambda.1se)
14b976f46889 Uploaded nicolas parents: diff changeset	36 # predict test set
14b976f46889 Uploaded nicolas parents: diff changeset	37 pred <- predict(model, test, type = "response")
14b976f46889 Uploaded nicolas parents: diff changeset	38 # compute r2 for choosing the best alpha
14b976f46889 Uploaded nicolas parents: diff changeset	39 curAcc <- c(curAcc, r2(phenoTest, pred))
14b976f46889 Uploaded nicolas parents: diff changeset	40 }
14b976f46889 Uploaded nicolas parents: diff changeset	41 # add mean r2 for this value of lambda to the accuracy vector
14b976f46889 Uploaded nicolas parents: diff changeset	42 acc <- c(acc, mean(curAcc))
14b976f46889 Uploaded nicolas parents: diff changeset	43 }
14b976f46889 Uploaded nicolas parents: diff changeset	44 # choose best alpha
14b976f46889 Uploaded nicolas parents: diff changeset	45 names(acc) <- alpha
14b976f46889 Uploaded nicolas parents: diff changeset	46 return(as.numeric(names(acc)[which.max(acc)]))
14b976f46889 Uploaded nicolas parents: diff changeset	47 }
14b976f46889 Uploaded nicolas parents: diff changeset	48
14b976f46889 Uploaded nicolas parents: diff changeset	49 # compute r2 by computing the classic formula
14b976f46889 Uploaded nicolas parents: diff changeset	50 # compare the sum of square difference from target to prediciton
14b976f46889 Uploaded nicolas parents: diff changeset	51 # to the sum of square difference from target to the mean of the target
14b976f46889 Uploaded nicolas parents: diff changeset	52 r2 <- function(target, prediction) {
14b976f46889 Uploaded nicolas parents: diff changeset	53 sst <- sum((target-mean(target))^2)
14b976f46889 Uploaded nicolas parents: diff changeset	54 ssr <- sum((target-prediction)^2)
14b976f46889 Uploaded nicolas parents: diff changeset	55 return(1-ssr/sst)
14b976f46889 Uploaded nicolas parents: diff changeset	56 }
14b976f46889 Uploaded nicolas parents: diff changeset	57 ################################## main function ###########################
14b976f46889 Uploaded nicolas parents: diff changeset	58
14b976f46889 Uploaded nicolas parents: diff changeset	59 lasso <- function(genotype, phenotype, evaluation = T, outFile, folds, alpha=NULL) {
14b976f46889 Uploaded nicolas parents: diff changeset	60 # go for optimization
14b976f46889 Uploaded nicolas parents: diff changeset	61 if(is.null(alpha)) {
14b976f46889 Uploaded nicolas parents: diff changeset	62 alpha <- seq(0,1,0.1)
14b976f46889 Uploaded nicolas parents: diff changeset	63 alpha <- optimize(genotype=genotype, phenotype=phenotype, alpha = alpha)
14b976f46889 Uploaded nicolas parents: diff changeset	64 }
14b976f46889 Uploaded nicolas parents: diff changeset	65 # evaluation
14b976f46889 Uploaded nicolas parents: diff changeset	66 if(evaluation) {
14b976f46889 Uploaded nicolas parents: diff changeset	67 prediction <- NULL
14b976f46889 Uploaded nicolas parents: diff changeset	68 # do cross-validation
14b976f46889 Uploaded nicolas parents: diff changeset	69 for(i in 1:length(folds)) {
14b976f46889 Uploaded nicolas parents: diff changeset	70 # create training and test set
14b976f46889 Uploaded nicolas parents: diff changeset	71 train <- genotype[-folds[[i]],]
14b976f46889 Uploaded nicolas parents: diff changeset	72 test <- genotype[folds[[i]],]
14b976f46889 Uploaded nicolas parents: diff changeset	73 phenoTrain <- phenotype[-folds[[i]]]
14b976f46889 Uploaded nicolas parents: diff changeset	74 phenoTest <- phenotype[folds[[i]]]
14b976f46889 Uploaded nicolas parents: diff changeset	75 # cv.glmnet helps to compute the right lambda for a chosen alpha
14b976f46889 Uploaded nicolas parents: diff changeset	76 cv <- cv.glmnet(x=as.matrix(train), y=phenoTrain, alpha=alpha)
14b976f46889 Uploaded nicolas parents: diff changeset	77 # create model
14b976f46889 Uploaded nicolas parents: diff changeset	78 lasso.fit <- glmnet(x=as.matrix(train), y=phenoTrain, alpha=alpha, lambda = cv$lambda.1se)
14b976f46889 Uploaded nicolas parents: diff changeset	79 # predict value of the test set for further evaluation
14b976f46889 Uploaded nicolas parents: diff changeset	80 prediction <- c(prediction, list(predict(lasso.fit, test, type = "response")[,1]))
14b976f46889 Uploaded nicolas parents: diff changeset	81 }
14b976f46889 Uploaded nicolas parents: diff changeset	82 # save predicted value for test set of each fold for further evaluation
14b976f46889 Uploaded nicolas parents: diff changeset	83 saveRDS(prediction, file=paste(outFile,".rds", sep=""))
14b976f46889 Uploaded nicolas parents: diff changeset	84 # just create a model
14b976f46889 Uploaded nicolas parents: diff changeset	85 } else {
14b976f46889 Uploaded nicolas parents: diff changeset	86 # cv.glmnet helps to compute the right lambda for a chosen alpha
14b976f46889 Uploaded nicolas parents: diff changeset	87 cv <- cv.glmnet(x=genotype, y=phenotype, alpha=alpha)
14b976f46889 Uploaded nicolas parents: diff changeset	88 # create model
14b976f46889 Uploaded nicolas parents: diff changeset	89 model <- glmnet(x=genotype, y=phenotype, alpha=alpha, lambda=cv$lambda.1se)
14b976f46889 Uploaded nicolas parents: diff changeset	90 # save model
14b976f46889 Uploaded nicolas parents: diff changeset	91 saveRDS(model, file = paste(outFile, ".rds", sep = ""))
14b976f46889 Uploaded nicolas parents: diff changeset	92 }
14b976f46889 Uploaded nicolas parents: diff changeset	93 }
14b976f46889 Uploaded nicolas parents: diff changeset	94
14b976f46889 Uploaded nicolas parents: diff changeset	95 ############################ main #############################
14b976f46889 Uploaded nicolas parents: diff changeset	96 # load argument
14b976f46889 Uploaded nicolas parents: diff changeset	97 cmd <- commandArgs(T)
14b976f46889 Uploaded nicolas parents: diff changeset	98 source(cmd[1])
14b976f46889 Uploaded nicolas parents: diff changeset	99 # check if evaluation is required
14b976f46889 Uploaded nicolas parents: diff changeset	100 evaluation <- F
14b976f46889 Uploaded nicolas parents: diff changeset	101 if(as.integer(doEvaluation) == 1) {
14b976f46889 Uploaded nicolas parents: diff changeset	102 evaluation <- T
14b976f46889 Uploaded nicolas parents: diff changeset	103 con = file(folds)
14b976f46889 Uploaded nicolas parents: diff changeset	104 folds <- readLines(con = con, n = 1, ok=T)
14b976f46889 Uploaded nicolas parents: diff changeset	105 close(con)
14b976f46889 Uploaded nicolas parents: diff changeset	106 folds <- readRDS(folds)
14b976f46889 Uploaded nicolas parents: diff changeset	107 }
14b976f46889 Uploaded nicolas parents: diff changeset	108 # load classifier parameters
14b976f46889 Uploaded nicolas parents: diff changeset	109 alpha <- as.numeric(alpha)
14b976f46889 Uploaded nicolas parents: diff changeset	110 if(alpha < 0 \| alpha > 1) {alpha <- NULL}
14b976f46889 Uploaded nicolas parents: diff changeset	111 # load genotype and phenotype
14b976f46889 Uploaded nicolas parents: diff changeset	112 con = file(genotype)
14b976f46889 Uploaded nicolas parents: diff changeset	113 genotype <- readLines(con = con, n = 1, ok=T)
14b976f46889 Uploaded nicolas parents: diff changeset	114 close(con)
14b976f46889 Uploaded nicolas parents: diff changeset	115 genotype <- read.table(genotype, sep="\t", h=T)
14b976f46889 Uploaded nicolas parents: diff changeset	116 # phenotype is written as a table (in columns) but it must be sent as a vector for mixed.solve
14b976f46889 Uploaded nicolas parents: diff changeset	117 phenotype <- read.table(phenotype, sep="\t", h=T)[,1]
14b976f46889 Uploaded nicolas parents: diff changeset	118 # run !
14b976f46889 Uploaded nicolas parents: diff changeset	119 lasso(genotype = data.matrix(genotype), phenotype = phenotype,
14b976f46889 Uploaded nicolas parents: diff changeset	120 evaluation = evaluation, outFile = out, folds = folds, alpha = alpha)
14b976f46889 Uploaded nicolas parents: diff changeset	121 # return path of the result file to galaxy
14b976f46889 Uploaded nicolas parents: diff changeset	122 cat(paste(paste(out, ".rds", sep = ""), "\n", sep=""))

Mercurial > repos > nicolas > oghma

annotate lasso.R @ 100:09827a9f75a6 draft