prisca: RScript.r annotate

annotate RScript.r @ 7:7ce82833977c draft

Uploaded

author	davidvanzessen
date	Tue, 12 Dec 2017 04:53:20 -0500
parents	a9d2ed661541
children	eb2aa7cffca3

rev	line source
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	1 args <- commandArgs(trailingOnly = TRUE)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	2 options(scipen=999)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	3
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	4 inFile = args[1]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	5 outDir = args[2]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	6 logfile = args[3]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	7 min_freq = as.numeric(args[4])
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	8 min_cells = as.numeric(args[5])
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	9 mergeOn = args[6]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	10
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	11 cat("<html><table><tr><td>Starting analysis</td></tr>", file=logfile, append=F)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	12
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	13 library(ggplot2)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	14 library(reshape2)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	15 library(data.table)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	16 library(grid)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	17 library(parallel)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	18 #require(xtable)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	19 cat("<tr><td>Reading input</td></tr>", file=logfile, append=T)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	20 dat = read.table(inFile, header=T, sep="\t", dec=".", fill=T, stringsAsFactors=F)
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	21
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	22 needed_cols = c("Patient", "Receptor", "Sample", "Cell_Count", "Clone_Molecule_Count_From_Spikes", "Log10_Frequency", "J_Segment_Major_Gene", "V_Segment_Major_Gene", "CDR3_Sense_Sequence", "Clone_Sequence")
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	23 if(!all(needed_cols %in% names(dat))){
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	24 cat("Missing column(s):<br />", file=logfile, append=F)
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	25 missing_cols = needed_cols[!(needed_cols %in% names(dat))]
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	26 for(col in missing_cols){
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	27 cat(paste(col, "<br />"), file=logfile, append=T)
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	28 }
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	29 stop("Not all columns are present")
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	30 }
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	31
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	32 if(!("Total_Read_Count" %in% names(dat))){
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	33 dat$Total_Read_Count = 0
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	34 }
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	35
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	36 dat = dat[,c("Patient", "Receptor", "Sample", "Cell_Count", "Clone_Molecule_Count_From_Spikes", "Log10_Frequency", "Total_Read_Count", "J_Segment_Major_Gene", "V_Segment_Major_Gene", "CDR3_Sense_Sequence", "Clone_Sequence")]
7 7ce82833977c Uploaded davidvanzessen parents: 6 diff changeset	37 dat = dat[!(nchar(dat$Clone_Sequence) < 2),]
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	38
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	39 dat$dsPerM = 0
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	40 dat = dat[!is.na(dat$Patient),]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	41 dat$Related_to_leukemia_clone = F
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	42
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	43 setwd(outDir)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	44 cat("<tr><td>Selecting first V/J Genes</td></tr>", file=logfile, append=T)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	45 dat$V_Segment_Major_Gene = as.factor(as.character(lapply(strsplit(as.character(dat$V_Segment_Major_Gene), "; "), "[[", 1)))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	46 dat$J_Segment_Major_Gene = as.factor(as.character(lapply(strsplit(as.character(dat$J_Segment_Major_Gene), "; "), "[[", 1)))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	47
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	48 cat("<tr><td>Calculating Frequency</td></tr>", file=logfile, append=T)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	49
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	50 dat$Frequency = ((10^dat$Log10_Frequency)*100)
5 bcf1469e8feb Uploaded davidvanzessen parents: 4 diff changeset	51 dat = dat[dat$Frequency <= 100,] #just in case?
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	52
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	53 dat = dat[dat$Frequency >= min_freq,]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	54
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	55 patient.sample.counts = data.frame(data.table(dat)[, list(count=.N), by=c("Patient", "Sample")])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	56 patient.sample.counts = data.frame(data.table(patient.sample.counts)[, list(count=.N), by=c("Patient")])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	57
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	58 print("Found the following patients with number of samples:")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	59 print(patient.sample.counts)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	60
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	61 patient.sample.counts.pairs = patient.sample.counts[patient.sample.counts$count %in% 1:2,]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	62 patient.sample.counts.triplets = patient.sample.counts[patient.sample.counts$count == 3,]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	63
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	64
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	65
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	66 triplets = dat[dat$Patient %in% patient.sample.counts.triplets$Patient,]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	67 dat = dat[dat$Patient %in% patient.sample.counts.pairs$Patient,]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	68
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	69 cat("<tr><td>Normalizing to lowest cell count within locus</td></tr>", file=logfile, append=T)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	70
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	71 dat$locus_V = substring(dat$V_Segment_Major_Gene, 0, 4)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	72 dat$locus_J = substring(dat$J_Segment_Major_Gene, 0, 4)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	73 min_cell_count = data.frame(data.table(dat)[, list(min_cell_count=min(.SD$Cell_Count)), by=c("Patient", "locus_V", "locus_J")])
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	74
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	75 dat$min_cell_paste = paste(dat$Patient, dat$locus_V, dat$locus_J)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	76 min_cell_count$min_cell_paste = paste(min_cell_count$Patient, min_cell_count$locus_V, min_cell_count$locus_J)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	77
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	78 min_cell_count = min_cell_count[,c("min_cell_paste", "min_cell_count")]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	79 print(paste("rows:", nrow(dat)))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	80 dat = merge(dat, min_cell_count, by="min_cell_paste")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	81 print(paste("rows:", nrow(dat)))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	82 dat$normalized_read_count = round(dat$Clone_Molecule_Count_From_Spikes / dat$Cell_Count * dat$min_cell_count / 2, digits=2) #??????????????????????????????????? wel of geen / 2
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	83
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	84 dat = dat[dat$normalized_read_count >= min_cells,]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	85
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	86 dat$paste = paste(dat$Sample, dat$Clone_Sequence)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	87
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	88 patients = split(dat, dat$Patient, drop=T)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	89 intervalReads = rev(c(0,10,25,50,100,250,500,750,1000,10000))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	90 intervalFreq = rev(c(0,0.01,0.05,0.1,0.5,1,5))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	91 V_Segments = c(".*", "IGHV", "IGHD", "IGKV", "IGKV", "IgKINTR", "TRGV", "TRDV", "TRDD" , "TRBV")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	92 J_Segments = c(".", ".", ".", "IGKJ", "KDE", ".", ".", ".", ".", ".")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	93 Titles = c("Total", "IGH-Vh-Jh", "IGH-Dh-Jh", "Vk-Jk", "Vk-Kde" , "Intron-Kde", "TCRG", "TCRD-Vd-Dd", "TCRD-Dd-Dd", "TCRB-Vb-Jb")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	94 Titles = factor(Titles, levels=Titles)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	95 TitlesOrder = data.frame("Title"=Titles, "TitlesOrder"=1:length(Titles))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	96
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	97 single_patients = dat[NULL,]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	98
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	99 patient.merge.list = list() #cache the 'both' table, 2x speedup for more memory...
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	100 patient.merge.list.second = list()
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	101 scatter_locus_data_list = list()
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	102 cat(paste("<table border='0' style='font-family:courier;'>", sep=""), file="multiple_matches.html", append=T)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	103 cat(paste("<table border='0' style='font-family:courier;'>", sep=""), file="single_matches.html", append=T)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	104 patientCountOnColumn <- function(x, product, interval, on, appendtxt=F){
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	105 if (!is.data.frame(x) & is.list(x)){
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	106 x = x[[1]]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	107 }
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	108 #x$Sample = factor(x$Sample, levels=unique(x$Sample))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	109 x = data.frame(x,stringsAsFactors=F)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	110 onShort = "reads"
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	111 if(on == "Frequency"){
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	112 onShort = "freq"
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	113 }
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	114 onx = paste(on, ".x", sep="")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	115 ony = paste(on, ".y", sep="")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	116 splt = split(x, x$Sample, drop=T)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	117 type="pair"
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	118 if(length(splt) == 1){
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	119 print(paste(paste(x[1,which(colnames(x) == "Patient")]), "has one sample"))
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	120 splt[[2]] = splt[[1]][NULL,]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	121 type="single"
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	122 }
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	123 patient1 = splt[[1]]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	124 patient2 = splt[[2]]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	125
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	126 oneSample = patient1[1,"Sample"]
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	127 twoSample = patient2[1,"Sample"]
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	128 patient = x[1,"Patient"]
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	129
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	130 switched = F
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	131 if(length(grep("._Right$", twoSample)) == 1 \|\| length(grep("._Dx_BM$", twoSample)) == 1 \|\| length(grep(".*_Dx$", twoSample)) == 1 ){
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	132 tmp = twoSample
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	133 twoSample = oneSample
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	134 oneSample = tmp
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	135 tmp = patient1
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	136 patient1 = patient2
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	137 patient2 = tmp
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	138 switched = T
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	139 }
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	140 if(appendtxt){
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	141 cat(paste(patient, oneSample, twoSample, type, sep="\t"), file="patients.txt", append=T, sep="", fill=3)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	142 }
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	143 cat(paste("<tr><td>", patient, "</td>", sep=""), file=logfile, append=T)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	144
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	145 if(mergeOn == "Clone_Sequence"){
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	146 patient1$merge = paste(patient1$Clone_Sequence)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	147 patient2$merge = paste(patient2$Clone_Sequence)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	148 } else {
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	149 patient1$merge = paste(patient1$V_Segment_Major_Gene, patient1$J_Segment_Major_Gene, patient1$CDR3_Sense_Sequence)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	150 patient2$merge = paste(patient2$V_Segment_Major_Gene, patient2$J_Segment_Major_Gene, patient2$CDR3_Sense_Sequence)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	151 }
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	152
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	153 scatterplot_data_columns = c("Patient", "Sample", "Frequency", "normalized_read_count", "V_Segment_Major_Gene", "J_Segment_Major_Gene", "merge")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	154 scatterplot_data = patient1[NULL,scatterplot_data_columns]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	155 scatterplot.data.type.factor = c(oneSample, twoSample, paste(c(oneSample, twoSample), "In Both"))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	156 scatterplot_data$type = character(0)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	157 scatterplot_data$link = numeric(0)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	158 scatterplot_data$on = character(0)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	159
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	160 patientMerge = merge(patient1, patient2, by.x="merge", by.y="merge")[NULL,] #blegh
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	161
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	162 cs.exact.matches = patient1[patient1$Clone_Sequence %in% patient2$Clone_Sequence,]$Clone_Sequence
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	163
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	164 start.time = proc.time()
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	165 merge.list = c()
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	166
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	167 if(patient %in% names(patient.merge.list)){
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	168 patientMerge = patient.merge.list[[patient]]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	169 merge.list[["second"]] = patient.merge.list.second[[patient]]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	170 scatterplot_data = scatter_locus_data_list[[patient]]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	171 cat(paste("<td>", nrow(patient1), " in ", oneSample, " and ", nrow(patient2), " in ", twoSample, ", ", nrow(patientMerge), " in both (fetched from cache)</td></tr>", sep=""), file=logfile, append=T)
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	172
5 bcf1469e8feb Uploaded davidvanzessen parents: 4 diff changeset	173 #print(names(patient.merge.list))
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	174 } else {
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	175 #fuzzy matching here...
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	176
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	177 patient1.fuzzy = patient1
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	178 patient2.fuzzy = patient2
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	179
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	180 patient1.fuzzy$merge = paste(patient1.fuzzy$locus_V, patient1.fuzzy$locus_J)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	181 patient2.fuzzy$merge = paste(patient2.fuzzy$locus_V, patient2.fuzzy$locus_J)
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	182
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	183 patient.fuzzy = rbind(patient1.fuzzy, patient2.fuzzy)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	184 patient.fuzzy = patient.fuzzy[order(nchar(patient.fuzzy$Clone_Sequence)),]
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	185
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	186 merge.list = list()
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	187
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	188 merge.list[["second"]] = vector()
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	189
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	190 link.count = 1
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	191
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	192 while(nrow(patient.fuzzy) > 1){
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	193 first.merge = patient.fuzzy[1,"merge"]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	194 first.clone.sequence = patient.fuzzy[1,"Clone_Sequence"]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	195 first.sample = patient.fuzzy[1,"Sample"]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	196 merge.filter = first.merge == patient.fuzzy$merge
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	197
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	198 #length.filter = nchar(patient.fuzzy$Clone_Sequence) - nchar(first.clone.sequence) <= 9
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	199
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	200 first.sample.filter = first.sample == patient.fuzzy$Sample
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	201 second.sample.filter = first.sample != patient.fuzzy$Sample
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	202
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	203 #first match same sample, sum to a single row, same for other sample
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	204 #then merge rows like 'normal'
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	205
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	206 sequence.filter = grepl(paste("^", first.clone.sequence, sep=""), patient.fuzzy$Clone_Sequence)
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	207
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	208
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	209
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	210 #match.filter = merge.filter & grepl(first.clone.sequence, patient.fuzzy$Clone_Sequence) & length.filter & sample.filter
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	211 first.match.filter = merge.filter & sequence.filter & first.sample.filter
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	212 second.match.filter = merge.filter & sequence.filter & second.sample.filter
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	213
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	214 first.rows = patient.fuzzy[first.match.filter,]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	215 second.rows = patient.fuzzy[second.match.filter,]
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	216
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	217 first.rows.v = table(first.rows$V_Segment_Major_Gene)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	218 first.rows.v = names(first.rows.v[which.max(first.rows.v)])
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	219 first.rows.j = table(first.rows$J_Segment_Major_Gene)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	220 first.rows.j = names(first.rows.j[which.max(first.rows.j)])
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	221
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	222 first.sum = data.frame(merge = first.clone.sequence,
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	223 Patient = patient,
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	224 Receptor = first.rows[1,"Receptor"],
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	225 Sample = first.rows[1,"Sample"],
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	226 Cell_Count = first.rows[1,"Cell_Count"],
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	227 Clone_Molecule_Count_From_Spikes = sum(first.rows$Clone_Molecule_Count_From_Spikes),
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	228 Log10_Frequency = log10(sum(first.rows$Frequency)),
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	229 Total_Read_Count = sum(first.rows$Total_Read_Count),
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	230 dsPerM = sum(first.rows$dsPerM),
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	231 J_Segment_Major_Gene = first.rows.j,
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	232 V_Segment_Major_Gene = first.rows.v,
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	233 Clone_Sequence = first.clone.sequence,
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	234 CDR3_Sense_Sequence = first.rows[1,"CDR3_Sense_Sequence"],
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	235 Related_to_leukemia_clone = F,
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	236 Frequency = sum(first.rows$Frequency),
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	237 locus_V = first.rows[1,"locus_V"],
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	238 locus_J = first.rows[1,"locus_J"],
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	239 min_cell_count = first.rows[1,"min_cell_count"],
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	240 normalized_read_count = sum(first.rows$normalized_read_count),
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	241 paste = first.rows[1,"paste"],
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	242 min_cell_paste = first.rows[1,"min_cell_paste"])
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	243
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	244 if(nrow(second.rows) > 0){
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	245 second.rows.v = table(second.rows$V_Segment_Major_Gene)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	246 second.rows.v = names(second.rows.v[which.max(second.rows.v)])
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	247 second.rows.j = table(second.rows$J_Segment_Major_Gene)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	248 second.rows.j = names(second.rows.j[which.max(second.rows.j)])
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	249
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	250 second.sum = data.frame(merge = first.clone.sequence,
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	251 Patient = patient,
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	252 Receptor = second.rows[1,"Receptor"],
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	253 Sample = second.rows[1,"Sample"],
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	254 Cell_Count = second.rows[1,"Cell_Count"],
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	255 Clone_Molecule_Count_From_Spikes = sum(second.rows$Clone_Molecule_Count_From_Spikes),
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	256 Log10_Frequency = log10(sum(second.rows$Frequency)),
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	257 Total_Read_Count = sum(second.rows$Total_Read_Count),
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	258 dsPerM = sum(second.rows$dsPerM),
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	259 J_Segment_Major_Gene = second.rows.j,
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	260 V_Segment_Major_Gene = second.rows.v,
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	261 Clone_Sequence = first.clone.sequence,
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	262 CDR3_Sense_Sequence = second.rows[1,"CDR3_Sense_Sequence"],
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	263 Related_to_leukemia_clone = F,
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	264 Frequency = sum(second.rows$Frequency),
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	265 locus_V = second.rows[1,"locus_V"],
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	266 locus_J = second.rows[1,"locus_J"],
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	267 min_cell_count = second.rows[1,"min_cell_count"],
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	268 normalized_read_count = sum(second.rows$normalized_read_count),
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	269 paste = second.rows[1,"paste"],
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	270 min_cell_paste = second.rows[1,"min_cell_paste"])
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	271
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	272 #print(names(patientMerge))
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	273 #print(merge(first.sum, second.sum, by="merge"))
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	274 patientMerge = rbind(patientMerge, merge(first.sum, second.sum, by="merge"))
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	275 #print("test2")
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	276 patient.fuzzy = patient.fuzzy[!(first.match.filter \| second.match.filter),]
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	277
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	278 hidden.clone.sequences = c(first.rows[-1,"Clone_Sequence"], second.rows[second.rows$Clone_Sequence != first.clone.sequence,"Clone_Sequence"])
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	279 merge.list[["second"]] = append(merge.list[["second"]], hidden.clone.sequences)
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	280
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	281 tmp.rows = rbind(first.rows, second.rows)
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	282 #print("test3")
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	283 tmp.rows = tmp.rows[order(nchar(tmp.rows$Clone_Sequence)),]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	284
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	285
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	286 #add to the scatterplot data
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	287 scatterplot.row = first.sum[,scatterplot_data_columns]
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	288 scatterplot.row$type = paste(first.sum[,"Sample"], "In Both")
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	289 scatterplot.row$link = link.count
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	290 scatterplot.row$on = onShort
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	291
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	292 scatterplot_data = rbind(scatterplot_data, scatterplot.row)
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	293
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	294 scatterplot.row = second.sum[,scatterplot_data_columns]
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	295 scatterplot.row$type = paste(second.sum[,"Sample"], "In Both")
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	296 scatterplot.row$link = link.count
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	297 scatterplot.row$on = onShort
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	298
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	299 scatterplot_data = rbind(scatterplot_data, scatterplot.row)
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	300
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	301 #write some information about the match to a log file
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	302 if (nrow(first.rows) > 1 \| nrow(second.rows) > 1) {
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	303 cat(paste("<tr><td>", patient, " row ", 1:nrow(tmp.rows), "</td><td>", tmp.rows$Sample, ":</td><td>", tmp.rows$Clone_Sequence, "</td><td>", tmp.rows$normalized_read_count, "</td></tr>", sep=""), file="multiple_matches.html", append=T)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	304 } else {
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	305 second.clone.sequence = second.rows[1,"Clone_Sequence"]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	306 if(nchar(first.clone.sequence) != nchar(second.clone.sequence)){
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	307 cat(paste("<tr bgcolor='#DDD'><td>", patient, " row ", 1:nrow(tmp.rows), "</td><td>", tmp.rows$Sample, ":</td><td>", tmp.rows$Clone_Sequence, "</td><td>", tmp.rows$normalized_read_count, "</td></tr>", sep=""), file="single_matches.html", append=T)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	308 } else {
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	309 #cat(paste("<tr><td>", patient, " row ", 1:nrow(tmp.rows), "</td><td>", tmp.rows$Sample, ":</td><td>", tmp.rows$Clone_Sequence, "</td><td>", tmp.rows$normalized_read_count, "</td></tr>", sep=""), file="single_matches.html", append=T)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	310 }
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	311 }
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	312
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	313 } else if(nrow(first.rows) > 1) {
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	314 if(patient1[1,"Sample"] == first.sample){
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	315 patient1 = patient1[!(patient1$Clone_Sequence %in% first.rows$Clone_Sequence),]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	316 patient1 = rbind(patient1, first.sum)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	317 } else {
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	318 patient2 = patient2[!(patient2$Clone_Sequence %in% first.rows$Clone_Sequence),]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	319 patient2 = rbind(patient2, first.sum)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	320 }
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	321
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	322 hidden.clone.sequences = c(first.rows[-1,"Clone_Sequence"])
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	323 merge.list[["second"]] = append(merge.list[["second"]], hidden.clone.sequences)
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	324
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	325 patient.fuzzy = patient.fuzzy[-first.match.filter,]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	326
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	327 #add to the scatterplot data
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	328 scatterplot.row = first.sum[,scatterplot_data_columns]
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	329 scatterplot.row$type = first.sum[,"Sample"]
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	330 scatterplot.row$link = link.count
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	331 scatterplot.row$on = onShort
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	332
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	333 scatterplot_data = rbind(scatterplot_data, scatterplot.row)
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	334
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	335 cat(paste("<tr bgcolor='#DDF'><td>", patient, " row ", 1:nrow(first.rows), "</td><td>", first.rows$Sample, ":</td><td>", first.rows$Clone_Sequence, "</td><td>", first.rows$normalized_read_count, "</td></tr>", sep=""), file="single_matches.html", append=T)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	336 } else {
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	337 patient.fuzzy = patient.fuzzy[-1,]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	338
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	339 #add to the scatterplot data
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	340 scatterplot.row = first.sum[,scatterplot_data_columns]
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	341 scatterplot.row$type = first.sum[,"Sample"]
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	342 scatterplot.row$link = link.count
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	343 scatterplot.row$on = onShort
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	344
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	345 scatterplot_data = rbind(scatterplot_data, scatterplot.row)
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	346 }
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	347 link.count = link.count + 1
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	348 }
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	349 patient.merge.list[[patient]] <<- patientMerge
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	350 patient.merge.list.second[[patient]] <<- merge.list[["second"]]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	351
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	352 sample.order = data.frame(type = c(oneSample, twoSample, paste(c(oneSample, twoSample), "In Both")),type.order = 1:4)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	353 scatterplot_data = merge(scatterplot_data, sample.order, by="type")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	354
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	355 scatter_locus_data_list[[patient]] <<- scatterplot_data
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	356 cat(paste("<td>", nrow(patient1), " in ", oneSample, " and ", nrow(patient2), " in ", twoSample, ", ", nrow(patientMerge), " in both (finding both took ", (proc.time() - start.time)[[3]], "s)</td></tr>", sep=""), file=logfile, append=T)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	357 }
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	358
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	359 patient1 = patient1[!(patient1$Clone_Sequence %in% patient.merge.list.second[[patient]]),]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	360 patient2 = patient2[!(patient2$Clone_Sequence %in% patient.merge.list.second[[patient]]),]
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	361
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	362
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	363 patientMerge$thresholdValue = pmax(patientMerge[,onx], patientMerge[,ony])
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	364 #patientMerge$thresholdValue = pmin(patientMerge[,onx], patientMerge[,ony])
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	365 res1 = vector()
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	366 res2 = vector()
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	367 resBoth = vector()
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	368 read1Count = vector()
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	369 read2Count = vector()
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	370 locussum1 = vector()
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	371 locussum2 = vector()
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	372
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	373 #for(iter in 1){
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	374 for(iter in 1:length(product[,1])){
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	375 threshhold = product[iter,"interval"]
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	376 V_Segment = paste(".", as.character(product[iter,"V_Segments"]), ".", sep="")
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	377 J_Segment = paste(".", as.character(product[iter,"J_Segments"]), ".", sep="")
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	378 #both = (grepl(V_Segment, patientMerge$V_Segment_Major_Gene.x) & grepl(J_Segment, patientMerge$J_Segment_Major_Gene.x) & patientMerge[,onx] > threshhold & patientMerge[,ony] > threshhold) #both higher than threshold
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	379 both = (grepl(V_Segment, patientMerge$V_Segment_Major_Gene.x) & grepl(J_Segment, patientMerge$J_Segment_Major_Gene.x) & patientMerge$thresholdValue > threshhold) #highest of both is higher than threshold
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	380 one = (grepl(V_Segment, patient1$V_Segment_Major_Gene) & grepl(J_Segment, patient1$J_Segment_Major_Gene) & patient1[,on] > threshhold & !(patient1$merge %in% patientMerge[both,]$merge))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	381 two = (grepl(V_Segment, patient2$V_Segment_Major_Gene) & grepl(J_Segment, patient2$J_Segment_Major_Gene) & patient2[,on] > threshhold & !(patient2$merge %in% patientMerge[both,]$merge))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	382 read1Count = append(read1Count, sum(patient1[one,]$normalized_read_count))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	383 read2Count = append(read2Count, sum(patient2[two,]$normalized_read_count))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	384 res1 = append(res1, sum(one))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	385 res2 = append(res2, sum(two))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	386 resBoth = append(resBoth, sum(both))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	387 locussum1 = append(locussum1, sum(patient1[(grepl(V_Segment, patient1$V_Segment_Major_Gene) & grepl(J_Segment, patient1$J_Segment_Major_Gene)),]$normalized_read_count))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	388 locussum2 = append(locussum2, sum(patient2[(grepl(V_Segment, patient2$V_Segment_Major_Gene) & grepl(J_Segment, patient2$J_Segment_Major_Gene)),]$normalized_read_count))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	389 #threshhold = 0
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	390 if(threshhold != 0 \| T){
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	391 if(sum(one) > 0){
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	392 dfOne = patient1[one,c("V_Segment_Major_Gene", "J_Segment_Major_Gene", "normalized_read_count", "Frequency", "Clone_Sequence", "Related_to_leukemia_clone")]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	393 colnames(dfOne) = c("Proximal segment", "Distal segment", "normalized_read_count", "Frequency", "Clone Sequence", "Related_to_leukemia_clone")
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	394 filenameOne = paste(oneSample, "_", product[iter, "Titles"], "_", threshhold, sep="")
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	395 write.table(dfOne, file=paste(filenameOne, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	396 }
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	397 if(sum(two) > 0){
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	398 dfTwo = patient2[two,c("V_Segment_Major_Gene", "J_Segment_Major_Gene", "normalized_read_count", "Frequency", "Clone_Sequence", "Related_to_leukemia_clone")]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	399 colnames(dfTwo) = c("Proximal segment", "Distal segment", "normalized_read_count", "Frequency", "Clone Sequence", "Related_to_leukemia_clone")
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	400 filenameTwo = paste(twoSample, "_", product[iter, "Titles"], "_", threshhold, sep="")
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	401 write.table(dfTwo, file=paste(filenameTwo, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	402 }
6 a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	403 }
a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	404 scatterplot_locus_data = scatterplot_data[grepl(V_Segment, scatterplot_data$V_Segment_Major_Gene) & grepl(J_Segment, scatterplot_data$J_Segment_Major_Gene),]
a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	405 if(nrow(scatterplot_locus_data) > 0){
a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	406 scatterplot_locus_data$Rearrangement = product[iter, "Titles"]
a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	407 }
a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	408 p = NULL
a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	409 #print(paste("nrow scatterplot_locus_data", nrow(scatterplot_locus_data)))
a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	410 if(nrow(scatterplot_locus_data) != 0){
a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	411 if(on == "normalized_read_count"){
a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	412 write.table(scatterplot_locus_data, file=paste(oneSample, twoSample, product[iter, "Titles"], "scatterplot_locus_data.txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	413 scales = 10^(0:6) #(0:ceiling(log10(max(scatterplot_locus_data$normalized_read_count))))
a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	414 p = ggplot(scatterplot_locus_data, aes(factor(reorder(type, type.order)), normalized_read_count, group=link)) + geom_line() + scale_y_log10(breaks=scales,labels=scales, limits=c(1,1e6)) + scale_x_discrete(breaks=levels(scatterplot_data$type), labels=levels(scatterplot_data$type), drop=FALSE)
a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	415 } else {
a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	416 p = ggplot(scatterplot_locus_data, aes(factor(reorder(type, type.order)), Frequency, group=link)) + geom_line() + scale_y_log10(limits=c(0.0001,100), breaks=c(0.0001, 0.001, 0.01, 0.1, 1, 10, 100), labels=c("0.0001", "0.001", "0.01", "0.1", "1", "10", "100")) + scale_x_discrete(breaks=levels(scatterplot_data$type), labels=levels(scatterplot_data$type), drop=FALSE)
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	417 }
6 a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	418 p = p + geom_point(aes(colour=type), position="dodge")
a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	419 p = p + xlab("In one or both samples") + ylab(onShort) + ggtitle(paste(patient1[1,"Patient"], patient1[1,"Sample"], patient2[1,"Sample"], onShort, product[iter, "Titles"]))
a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	420 } else {
a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	421 p = ggplot(NULL, aes(x=c("In one", "In Both"),y=0)) + geom_blank(NULL) + xlab("In one or both of the samples") + ylab(onShort) + ggtitle(paste(patient1[1,"Patient"], patient1[1,"Sample"], patient2[1,"Sample"], onShort, product[iter, "Titles"]))
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	422 }
6 a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	423 png(paste(patient1[1,"Patient"], "_", patient1[1,"Sample"], "_", patient2[1,"Sample"], "_", onShort, "_", product[iter, "Titles"],"_scatter.png", sep=""))
a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	424 print(p)
a9d2ed661541 Uploaded davidvanzessen parents: 5 diff changeset	425 dev.off()
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	426 if(sum(both) > 0){
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	427 dfBoth = patientMerge[both,c("V_Segment_Major_Gene.x", "J_Segment_Major_Gene.x", "normalized_read_count.x", "Frequency.x", "Related_to_leukemia_clone.x", "Clone_Sequence.x", "V_Segment_Major_Gene.y", "J_Segment_Major_Gene.y", "normalized_read_count.y", "Frequency.y", "Related_to_leukemia_clone.y")]
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	428 colnames(dfBoth) = c(paste("Proximal segment", oneSample), paste("Distal segment", oneSample), paste("Normalized_Read_Count", oneSample), paste("Frequency", oneSample), paste("Related_to_leukemia_clone", oneSample),"Clone Sequence", paste("Proximal segment", twoSample), paste("Distal segment", twoSample), paste("Normalized_Read_Count", twoSample), paste("Frequency", twoSample), paste("Related_to_leukemia_clone", twoSample))
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	429 filenameBoth = paste(oneSample, "_", twoSample, "_", product[iter, "Titles"], "_", threshhold, sep="")
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	430 write.table(dfBoth, file=paste(filenameBoth, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	431 }
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	432 }
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	433 patientResult = data.frame("Locus"=product$Titles, "J_Segment"=product$J_Segments, "V_Segment"=product$V_Segments, "cut_off_value"=paste(">", product$interval, sep=""), "Both"=resBoth, "tmp1"=res1, "read_count1" = round(read1Count), "tmp2"=res2, "read_count2"= round(read2Count), "Sum"=res1 + res2 + resBoth, "percentage" = round((resBoth/(res1 + res2 + resBoth)) * 100, digits=2), "Locus_sum1"=locussum1, "Locus_sum2"=locussum2)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	434 if(sum(is.na(patientResult$percentage)) > 0){
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	435 patientResult[is.na(patientResult$percentage),]$percentage = 0
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	436 }
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	437 colnames(patientResult)[6] = oneSample
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	438 colnames(patientResult)[8] = twoSample
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	439 colnamesBak = colnames(patientResult)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	440 colnames(patientResult) = c("Ig/TCR gene rearrangement type", "Distal Gene segment", "Proximal gene segment", "cut_off_value", paste("Number of sequences ", patient, "_Both", sep=""), paste("Number of sequences", oneSample, sep=""), paste("Normalized Read Count", oneSample), paste("Number of sequences", twoSample, sep=""), paste("Normalized Read Count", twoSample), paste("Sum number of sequences", patient), paste("Percentage of sequences ", patient, "_Both", sep=""), paste("Locus Sum", oneSample), paste("Locus Sum", twoSample))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	441 write.table(patientResult, file=paste(patient, "_", onShort, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	442 colnames(patientResult) = colnamesBak
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	443
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	444 patientResult$Locus = factor(patientResult$Locus, Titles)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	445 patientResult$cut_off_value = factor(patientResult$cut_off_value, paste(">", interval, sep=""))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	446
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	447 plt = ggplot(patientResult[,c("Locus", "cut_off_value", "Both")])
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	448 plt = plt + geom_bar( aes( x=factor(cut_off_value), y=Both), stat='identity', position="dodge", fill="#79c36a")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	449 plt = plt + facet_grid(.~Locus) + theme(axis.text.x = element_text(angle = 45, hjust = 1))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	450 plt = plt + geom_text(aes(ymax=max(Both), x=cut_off_value,y=Both,label=Both), angle=90, hjust=0)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	451 plt = plt + xlab("Reads per locus") + ylab("Count") + ggtitle("Number of clones in both")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	452 plt = plt + theme(plot.margin = unit(c(1,8.8,0.5,1.5), "lines"))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	453 png(paste(patient, "_", onShort, ".png", sep=""), width=1920, height=1080)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	454 print(plt)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	455 dev.off()
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	456 #(t,r,b,l)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	457 plt = ggplot(patientResult[,c("Locus", "cut_off_value", "percentage")])
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	458 plt = plt + geom_bar( aes( x=factor(cut_off_value), y=percentage), stat='identity', position="dodge", fill="#79c36a")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	459 plt = plt + facet_grid(.~Locus) + theme(axis.text.x = element_text(angle = 45, hjust = 1))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	460 plt = plt + geom_text(aes(ymax=max(percentage), x=cut_off_value,y=percentage,label=percentage), angle=90, hjust=0)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	461 plt = plt + xlab("Reads per locus") + ylab("Count") + ggtitle("% clones in both left and right")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	462 plt = plt + theme(plot.margin = unit(c(1,8.8,0.5,1.5), "lines"))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	463 png(paste(patient, "_percent_", onShort, ".png", sep=""), width=1920, height=1080)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	464 print(plt)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	465 dev.off()
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	466
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	467 patientResult = melt(patientResult[,c('Locus','cut_off_value', oneSample, twoSample)] ,id.vars=1:2)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	468 patientResult$relativeValue = patientResult$value * 10
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	469 patientResult[patientResult$relativeValue == 0,]$relativeValue = 1
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	470 plt = ggplot(patientResult)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	471 plt = plt + geom_bar( aes( x=factor(cut_off_value), y=relativeValue, fill=variable), stat='identity', position="dodge")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	472 plt = plt + facet_grid(.~Locus) + theme(axis.text.x = element_text(angle = 45, hjust = 1))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	473 plt = plt + scale_y_continuous(trans="log", breaks=10^c(0:10), labels=c(0, 10^c(0:9)))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	474 plt = plt + geom_text(data=patientResult[patientResult$variable == oneSample,], aes(ymax=max(value), x=cut_off_value,y=relativeValue,label=value), angle=90, position=position_dodge(width=0.9), hjust=0, vjust=-0.2)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	475 plt = plt + geom_text(data=patientResult[patientResult$variable == twoSample,], aes(ymax=max(value), x=cut_off_value,y=relativeValue,label=value), angle=90, position=position_dodge(width=0.9), hjust=0, vjust=0.8)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	476 plt = plt + xlab("Reads per locus") + ylab("Count") + ggtitle(paste("Number of clones in only ", oneSample, " and only ", twoSample, sep=""))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	477 png(paste(patient, "_", onShort, "_both.png", sep=""), width=1920, height=1080)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	478 print(plt)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	479 dev.off()
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	480 }
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	481
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	482 if(length(patients) > 0){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	483 cat("<tr><td>Starting Frequency analysis</td></tr>", file=logfile, append=T)
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	484
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	485 interval = intervalFreq
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	486 intervalOrder = data.frame("interval"=paste(">", interval, sep=""), "intervalOrder"=1:length(interval))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	487 product = data.frame("Titles"=rep(Titles, each=length(interval)), "interval"=rep(interval, times=10), "V_Segments"=rep(V_Segments, each=length(interval)), "J_Segments"=rep(J_Segments, each=length(interval)))
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	488 for (current_patient in patients){
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	489 print(paste("Started working", unique(current_patient$Patient), "Frequency analysis"))
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	490 patientCountOnColumn(current_patient, product=product, interval=interval, on="Frequency", appendtxt=T)
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	491 }
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	492
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	493 cat("<tr><td>Starting Cell Count analysis</td></tr>", file=logfile, append=T)
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	494
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	495 interval = intervalReads
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	496 intervalOrder = data.frame("interval"=paste(">", interval, sep=""), "intervalOrder"=1:length(interval))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	497 product = data.frame("Titles"=rep(Titles, each=length(interval)), "interval"=rep(interval, times=10), "V_Segments"=rep(V_Segments, each=length(interval)), "J_Segments"=rep(J_Segments, each=length(interval)))
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	498 for (current_patient in patients){
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	499 print(paste("Started working on ", unique(current_patient$Patient), "Read Count analysis"))
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	500 patientCountOnColumn(current_patient, product=product, interval=interval, on="normalized_read_count")
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	501 }
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	502 }
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	503 if(nrow(single_patients) > 0){
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	504 scales = 10^(0:6) #(0:ceiling(log10(max(scatterplot_locus_data$normalized_read_count))))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	505 p = ggplot(single_patients, aes(Rearrangement, normalized_read_count)) + scale_y_log10(breaks=scales,labels=as.character(scales)) + expand_limits(y=c(0,1000000))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	506 p = p + geom_point(aes(colour=type), position="jitter")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	507 p = p + xlab("In one or both samples") + ylab("Reads")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	508 p = p + facet_grid(.~Patient) + ggtitle("Scatterplot of the reads of the patients with a single sample")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	509 png("singles_reads_scatterplot.png", width=640 * length(unique(single_patients$Patient)) + 100, height=1080)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	510 print(p)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	511 dev.off()
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	512
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	513 #p = ggplot(single_patients, aes(Rearrangement, Frequency)) + scale_y_continuous(limits = c(0, 100)) + expand_limits(y=c(0,100))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	514 p = ggplot(single_patients, aes(Rearrangement, Frequency)) + scale_y_log10(limits=c(0.0001,100), breaks=c(0.0001, 0.001, 0.01, 0.1, 1, 10, 100), labels=c("0.0001", "0.001", "0.01", "0.1", "1", "10", "100")) + expand_limits(y=c(0,100))
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	515 p = p + geom_point(aes(colour=type), position="jitter")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	516 p = p + xlab("In one or both samples") + ylab("Frequency")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	517 p = p + facet_grid(.~Patient) + ggtitle("Scatterplot of the frequency of the patients with a single sample")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	518 png("singles_freq_scatterplot.png", width=640 * length(unique(single_patients$Patient)) + 100, height=1080)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	519 print(p)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	520 dev.off()
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	521 } else {
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	522 empty <- data.frame()
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	523 p = ggplot(empty) + geom_point() + xlim(0, 10) + ylim(0, 100) + xlab("In one or both samples") + ylab("Frequency") + ggtitle("Scatterplot of the frequency of the patients with a single sample")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	524
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	525 png("singles_reads_scatterplot.png", width=400, height=300)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	526 print(p)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	527 dev.off()
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	528
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	529 png("singles_freq_scatterplot.png", width=400, height=300)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	530 print(p)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	531 dev.off()
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	532 }
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	533
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	534 patient.merge.list = list() #cache the 'both' table, 2x speedup for more memory...
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	535 patient.merge.list.second = list()
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	536
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	537 tripletAnalysis <- function(patient1, label1, patient2, label2, patient3, label3, product, interval, on, appendTriplets= FALSE){
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	538 onShort = "reads"
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	539 if(on == "Frequency"){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	540 onShort = "freq"
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	541 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	542 onx = paste(on, ".x", sep="")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	543 ony = paste(on, ".y", sep="")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	544 onz = paste(on, ".z", sep="")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	545 type="triplet"
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	546
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	547 threshholdIndex = which(colnames(product) == "interval")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	548 V_SegmentIndex = which(colnames(product) == "V_Segments")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	549 J_SegmentIndex = which(colnames(product) == "J_Segments")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	550 titleIndex = which(colnames(product) == "Titles")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	551 sampleIndex = which(colnames(patient1) == "Sample")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	552 patientIndex = which(colnames(patient1) == "Patient")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	553 oneSample = paste(patient1[1,sampleIndex], sep="")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	554 twoSample = paste(patient2[1,sampleIndex], sep="")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	555 threeSample = paste(patient3[1,sampleIndex], sep="")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	556
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	557 if(mergeOn == "Clone_Sequence"){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	558 patient1$merge = paste(patient1$Clone_Sequence)
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	559 patient2$merge = paste(patient2$Clone_Sequence)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	560 patient3$merge = paste(patient3$Clone_Sequence)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	561
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	562 } else {
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	563 patient1$merge = paste(patient1$V_Segment_Major_Gene, patient1$J_Segment_Major_Gene, patient1$CDR3_Sense_Sequence)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	564 patient2$merge = paste(patient2$V_Segment_Major_Gene, patient2$J_Segment_Major_Gene, patient2$CDR3_Sense_Sequence)
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	565 patient3$merge = paste(patient3$V_Segment_Major_Gene, patient3$J_Segment_Major_Gene, patient3$CDR3_Sense_Sequence)
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	566 }
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	567
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	568 #patientMerge = merge(patient1, patient2, by="merge")[NULL,]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	569 patient1.fuzzy = patient1
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	570 patient2.fuzzy = patient2
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	571 patient3.fuzzy = patient3
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	572
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	573 cat(paste("<tr><td>", label1, "</td>", sep=""), file=logfile, append=T)
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	574
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	575 patient1.fuzzy$merge = paste(patient1.fuzzy$locus_V, patient1.fuzzy$locus_J)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	576 patient2.fuzzy$merge = paste(patient2.fuzzy$locus_V, patient2.fuzzy$locus_J)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	577 patient3.fuzzy$merge = paste(patient3.fuzzy$locus_V, patient3.fuzzy$locus_J)
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	578
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	579 patient.fuzzy = rbind(patient1.fuzzy ,patient2.fuzzy, patient3.fuzzy)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	580 patient.fuzzy = patient.fuzzy[order(nchar(patient.fuzzy$Clone_Sequence)),]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	581
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	582 other.sample.list = list()
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	583 other.sample.list[[oneSample]] = c(twoSample, threeSample)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	584 other.sample.list[[twoSample]] = c(oneSample, threeSample)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	585 other.sample.list[[threeSample]] = c(oneSample, twoSample)
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	586
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	587 patientMerge = merge(patient1, patient2, by="merge")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	588 patientMerge = merge(patientMerge, patient3, by="merge")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	589 colnames(patientMerge)[which(!grepl("(\\.x$)\|(\\.y$)\|(merge)", names(patientMerge)))] = paste(colnames(patientMerge)[which(!grepl("(\\.x$)\|(\\.y$)\|(merge)", names(patientMerge), perl=T))], ".z", sep="")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	590 #patientMerge$thresholdValue = pmax(patientMerge[,onx], patientMerge[,ony], patientMerge[,onz])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	591 patientMerge = patientMerge[NULL,]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	592
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	593 duo.merge.list = list()
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	594
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	595 patientMerge12 = merge(patient1, patient2, by="merge")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	596 #patientMerge12$thresholdValue = pmax(patientMerge12[,onx], patientMerge12[,ony])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	597 patientMerge12 = patientMerge12[NULL,]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	598 duo.merge.list[[paste(oneSample, twoSample)]] = patientMerge12
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	599 duo.merge.list[[paste(twoSample, oneSample)]] = patientMerge12
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	600
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	601 patientMerge13 = merge(patient1, patient3, by="merge")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	602 #patientMerge13$thresholdValue = pmax(patientMerge13[,onx], patientMerge13[,ony])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	603 patientMerge13 = patientMerge13[NULL,]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	604 duo.merge.list[[paste(oneSample, threeSample)]] = patientMerge13
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	605 duo.merge.list[[paste(threeSample, oneSample)]] = patientMerge13
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	606
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	607 patientMerge23 = merge(patient2, patient3, by="merge")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	608 #patientMerge23$thresholdValue = pmax(patientMerge23[,onx], patientMerge23[,ony])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	609 patientMerge23 = patientMerge23[NULL,]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	610 duo.merge.list[[paste(twoSample, threeSample)]] = patientMerge23
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	611 duo.merge.list[[paste(threeSample, twoSample)]] = patientMerge23
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	612
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	613 merge.list = list()
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	614 merge.list[["second"]] = vector()
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	615
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	616 #print(paste(nrow(patient1), nrow(patient2), nrow(patient3), label1, label2, label3))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	617
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	618 start.time = proc.time()
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	619 if(paste(label1, "123") %in% names(patient.merge.list)){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	620 patientMerge = patient.merge.list[[paste(label1, "123")]]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	621 patientMerge12 = patient.merge.list[[paste(label1, "12")]]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	622 patientMerge13 = patient.merge.list[[paste(label1, "13")]]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	623 patientMerge23 = patient.merge.list[[paste(label1, "23")]]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	624
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	625 #merge.list[["second"]] = patient.merge.list.second[[label1]]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	626
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	627 cat(paste("<td>", nrow(patient1), " in ", label1, " and ", nrow(patient2), " in ", label2, nrow(patient3), " in ", label3, ", ", nrow(patientMerge), " in both (fetched from cache)</td></tr>", sep=""), file=logfile, append=T)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	628 } else {
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	629 while(nrow(patient.fuzzy) > 0){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	630 first.merge = patient.fuzzy[1,"merge"]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	631 first.clone.sequence = patient.fuzzy[1,"Clone_Sequence"]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	632 first.sample = paste(patient.fuzzy[1,"Sample"], sep="")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	633
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	634 merge.filter = first.merge == patient.fuzzy$merge
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	635
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	636 second.sample = other.sample.list[[first.sample]][1]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	637 third.sample = other.sample.list[[first.sample]][2]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	638
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	639 sample.filter.1 = first.sample == patient.fuzzy$Sample
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	640 sample.filter.2 = second.sample == patient.fuzzy$Sample
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	641 sample.filter.3 = third.sample == patient.fuzzy$Sample
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	642
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	643 sequence.filter = grepl(paste("^", first.clone.sequence, sep=""), patient.fuzzy$Clone_Sequence)
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	644
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	645 match.filter.1 = sample.filter.1 & sequence.filter & merge.filter
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	646 match.filter.2 = sample.filter.2 & sequence.filter & merge.filter
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	647 match.filter.3 = sample.filter.3 & sequence.filter & merge.filter
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	648
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	649 matches.in.1 = any(match.filter.1)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	650 matches.in.2 = any(match.filter.2)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	651 matches.in.3 = any(match.filter.3)
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	652
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	653 rows.1 = patient.fuzzy[match.filter.1,]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	654
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	655 sum.1 = data.frame(merge = first.clone.sequence,
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	656 Patient = label1,
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	657 Receptor = rows.1[1,"Receptor"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	658 Sample = rows.1[1,"Sample"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	659 Cell_Count = rows.1[1,"Cell_Count"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	660 Clone_Molecule_Count_From_Spikes = sum(rows.1$Clone_Molecule_Count_From_Spikes),
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	661 Log10_Frequency = log10(sum(rows.1$Frequency)),
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	662 Total_Read_Count = sum(rows.1$Total_Read_Count),
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	663 dsPerM = sum(rows.1$dsPerM),
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	664 J_Segment_Major_Gene = rows.1[1,"J_Segment_Major_Gene"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	665 V_Segment_Major_Gene = rows.1[1,"V_Segment_Major_Gene"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	666 Clone_Sequence = first.clone.sequence,
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	667 CDR3_Sense_Sequence = rows.1[1,"CDR3_Sense_Sequence"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	668 Related_to_leukemia_clone = F,
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	669 Frequency = sum(rows.1$Frequency),
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	670 locus_V = rows.1[1,"locus_V"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	671 locus_J = rows.1[1,"locus_J"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	672 uniqueID = rows.1[1,"uniqueID"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	673 normalized_read_count = sum(rows.1$normalized_read_count))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	674 sum.2 = sum.1[NULL,]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	675 rows.2 = patient.fuzzy[match.filter.2,]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	676 if(matches.in.2){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	677 sum.2 = data.frame(merge = first.clone.sequence,
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	678 Patient = label1,
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	679 Receptor = rows.2[1,"Receptor"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	680 Sample = rows.2[1,"Sample"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	681 Cell_Count = rows.2[1,"Cell_Count"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	682 Clone_Molecule_Count_From_Spikes = sum(rows.2$Clone_Molecule_Count_From_Spikes),
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	683 Log10_Frequency = log10(sum(rows.2$Frequency)),
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	684 Total_Read_Count = sum(rows.2$Total_Read_Count),
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	685 dsPerM = sum(rows.2$dsPerM),
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	686 J_Segment_Major_Gene = rows.2[1,"J_Segment_Major_Gene"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	687 V_Segment_Major_Gene = rows.2[1,"V_Segment_Major_Gene"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	688 Clone_Sequence = first.clone.sequence,
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	689 CDR3_Sense_Sequence = rows.2[1,"CDR3_Sense_Sequence"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	690 Related_to_leukemia_clone = F,
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	691 Frequency = sum(rows.2$Frequency),
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	692 locus_V = rows.2[1,"locus_V"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	693 locus_J = rows.2[1,"locus_J"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	694 uniqueID = rows.2[1,"uniqueID"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	695 normalized_read_count = sum(rows.2$normalized_read_count))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	696 }
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	697
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	698 sum.3 = sum.1[NULL,]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	699 rows.3 = patient.fuzzy[match.filter.3,]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	700 if(matches.in.3){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	701 sum.3 = data.frame(merge = first.clone.sequence,
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	702 Patient = label1,
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	703 Receptor = rows.3[1,"Receptor"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	704 Sample = rows.3[1,"Sample"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	705 Cell_Count = rows.3[1,"Cell_Count"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	706 Clone_Molecule_Count_From_Spikes = sum(rows.3$Clone_Molecule_Count_From_Spikes),
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	707 Log10_Frequency = log10(sum(rows.3$Frequency)),
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	708 Total_Read_Count = sum(rows.3$Total_Read_Count),
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	709 dsPerM = sum(rows.3$dsPerM),
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	710 J_Segment_Major_Gene = rows.3[1,"J_Segment_Major_Gene"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	711 V_Segment_Major_Gene = rows.3[1,"V_Segment_Major_Gene"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	712 Clone_Sequence = first.clone.sequence,
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	713 CDR3_Sense_Sequence = rows.3[1,"CDR3_Sense_Sequence"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	714 Related_to_leukemia_clone = F,
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	715 Frequency = sum(rows.3$Frequency),
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	716 locus_V = rows.3[1,"locus_V"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	717 locus_J = rows.3[1,"locus_J"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	718 uniqueID = rows.3[1,"uniqueID"],
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	719 normalized_read_count = sum(rows.3$normalized_read_count))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	720 }
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	721
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	722 if(matches.in.2 & matches.in.3){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	723 merge.123 = merge(sum.1, sum.2, by="merge")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	724 merge.123 = merge(merge.123, sum.3, by="merge")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	725 colnames(merge.123)[which(!grepl("(\\.x$)\|(\\.y$)\|(merge)", names(merge.123)))] = paste(colnames(merge.123)[which(!grepl("(\\.x$)\|(\\.y$)\|(merge)", names(merge.123), perl=T))], ".z", sep="")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	726 #merge.123$thresholdValue = pmax(merge.123[,onx], merge.123[,ony], merge.123[,onz])
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	727
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	728 patientMerge = rbind(patientMerge, merge.123)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	729 patient.fuzzy = patient.fuzzy[!(match.filter.1 \| match.filter.2 \| match.filter.3),]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	730
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	731 hidden.clone.sequences = c(rows.1[-1,"Clone_Sequence"], rows.2[rows.2$Clone_Sequence != first.clone.sequence,"Clone_Sequence"], rows.3[rows.3$Clone_Sequence != first.clone.sequence,"Clone_Sequence"])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	732 merge.list[["second"]] = append(merge.list[["second"]], hidden.clone.sequences)
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	733
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	734 } else if (matches.in.2) {
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	735 #other.sample1 = other.sample.list[[first.sample]][1]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	736 #other.sample2 = other.sample.list[[first.sample]][2]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	737
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	738 second.sample = sum.2[,"Sample"]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	739
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	740 current.merge.list = duo.merge.list[[paste(first.sample, second.sample)]]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	741
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	742 merge.12 = merge(sum.1, sum.2, by="merge")
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	743
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	744 current.merge.list = rbind(current.merge.list, merge.12)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	745 duo.merge.list[[paste(first.sample, second.sample)]] = current.merge.list
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	746
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	747 patient.fuzzy = patient.fuzzy[!(match.filter.1 \| match.filter.2),]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	748
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	749 hidden.clone.sequences = c(rows.1[-1,"Clone_Sequence"], rows.2[rows.2$Clone_Sequence != first.clone.sequence,"Clone_Sequence"])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	750 merge.list[["second"]] = append(merge.list[["second"]], hidden.clone.sequences)
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	751
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	752 } else if (matches.in.3) {
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	753
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	754 #other.sample1 = other.sample.list[[first.sample]][1]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	755 #other.sample2 = other.sample.list[[first.sample]][2]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	756
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	757 second.sample = sum.3[,"Sample"]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	758
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	759 current.merge.list = duo.merge.list[[paste(first.sample, second.sample)]]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	760
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	761 merge.13 = merge(sum.1, sum.3, by="merge")
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	762
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	763 current.merge.list = rbind(current.merge.list, merge.13)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	764 duo.merge.list[[paste(first.sample, second.sample)]] = current.merge.list
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	765
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	766 patient.fuzzy = patient.fuzzy[!(match.filter.1 \| match.filter.3),]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	767
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	768 hidden.clone.sequences = c(rows.1[-1,"Clone_Sequence"], rows.3[rows.3$Clone_Sequence != first.clone.sequence,"Clone_Sequence"])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	769 merge.list[["second"]] = append(merge.list[["second"]], hidden.clone.sequences)
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	770
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	771 } else if(nrow(rows.1) > 1){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	772 patient1 = patient1[!(patient1$Clone_Sequence %in% rows.1$Clone_Sequence),]
5 bcf1469e8feb Uploaded davidvanzessen parents: 4 diff changeset	773 #print(names(patient1)[names(patient1) %in% sum.1])
bcf1469e8feb Uploaded davidvanzessen parents: 4 diff changeset	774 #print(names(patient1)[!(names(patient1) %in% sum.1)])
bcf1469e8feb Uploaded davidvanzessen parents: 4 diff changeset	775 #print(names(patient1))
bcf1469e8feb Uploaded davidvanzessen parents: 4 diff changeset	776 #print(names(sum.1))
bcf1469e8feb Uploaded davidvanzessen parents: 4 diff changeset	777 #print(summary(sum.1))
bcf1469e8feb Uploaded davidvanzessen parents: 4 diff changeset	778 #print(summary(patient1))
bcf1469e8feb Uploaded davidvanzessen parents: 4 diff changeset	779 #print(dim(sum.1))
bcf1469e8feb Uploaded davidvanzessen parents: 4 diff changeset	780 #print(dim(patient1))
bcf1469e8feb Uploaded davidvanzessen parents: 4 diff changeset	781 #print(head(sum.1[,names(patient1)]))
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	782 patient1 = rbind(patient1, sum.1[,names(patient1)])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	783 patient.fuzzy = patient.fuzzy[-match.filter.1,]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	784 } else {
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	785 patient.fuzzy = patient.fuzzy[-1,]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	786 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	787
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	788 tmp.rows = rbind(rows.1, rows.2, rows.3)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	789 tmp.rows = tmp.rows[order(nchar(tmp.rows$Clone_Sequence)),]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	790
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	791 if (sum(match.filter.1) > 1 \| sum(match.filter.2) > 1 \| sum(match.filter.1) > 1) {
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	792 cat(paste("<tr><td>", label1, " row ", 1:nrow(tmp.rows), "</td><td>", tmp.rows$Sample, ":</td><td>", tmp.rows$Clone_Sequence, "</td><td>", tmp.rows$normalized_read_count, "</td></tr>", sep=""), file="multiple_matches.html", append=T)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	793 } else {
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	794 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	795
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	796 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	797 patient.merge.list[[paste(label1, "123")]] = patientMerge
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	798
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	799 patientMerge12 = duo.merge.list[[paste(oneSample, twoSample)]]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	800 patientMerge13 = duo.merge.list[[paste(oneSample, threeSample)]]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	801 patientMerge23 = duo.merge.list[[paste(twoSample, threeSample)]]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	802
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	803 patient.merge.list[[paste(label1, "12")]] = patientMerge12
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	804 patient.merge.list[[paste(label1, "13")]] = patientMerge13
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	805 patient.merge.list[[paste(label1, "23")]] = patientMerge23
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	806
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	807 #patient.merge.list.second[[label1]] = merge.list[["second"]]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	808 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	809 cat(paste("<td>", nrow(patient1), " in ", label1, " and ", nrow(patient2), " in ", label2, nrow(patient3), " in ", label3, ", ", nrow(patientMerge), " in both (finding both took ", (proc.time() - start.time)[[3]], "s)</td></tr>", sep=""), file=logfile, append=T)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	810 patientMerge$thresholdValue = pmax(patientMerge[,onx], patientMerge[,ony], patientMerge[,onz])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	811 patientMerge12$thresholdValue = pmax(patientMerge12[,onx], patientMerge12[,ony])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	812 patientMerge13$thresholdValue = pmax(patientMerge13[,onx], patientMerge13[,ony])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	813 patientMerge23$thresholdValue = pmax(patientMerge23[,onx], patientMerge23[,ony])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	814
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	815 #patientMerge$thresholdValue = pmin(patientMerge[,onx], patientMerge[,ony], patientMerge[,onz])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	816 #patientMerge12$thresholdValue = pmin(patientMerge12[,onx], patientMerge12[,ony])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	817 #patientMerge13$thresholdValue = pmin(patientMerge13[,onx], patientMerge13[,ony])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	818 #patientMerge23$thresholdValue = pmin(patientMerge23[,onx], patientMerge23[,ony])
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	819
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	820 patient1 = patient1[!(patient1$Clone_Sequence %in% merge.list[["second"]]),]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	821 patient2 = patient2[!(patient2$Clone_Sequence %in% merge.list[["second"]]),]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	822 patient3 = patient3[!(patient3$Clone_Sequence %in% merge.list[["second"]]),]
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	823
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	824 if(F){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	825 patientMerge = merge(patient1, patient2, by="merge")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	826 patientMerge = merge(patientMerge, patient3, by="merge")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	827 colnames(patientMerge)[which(!grepl("(\\.x$)\|(\\.y$)\|(merge)", names(patientMerge)))] = paste(colnames(patientMerge)[which(!grepl("(\\.x$)\|(\\.y$)\|(merge)", names(patientMerge), perl=T))], ".z", sep="")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	828 patientMerge$thresholdValue = pmax(patientMerge[,onx], patientMerge[,ony], patientMerge[,onz])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	829 patientMerge12 = merge(patient1, patient2, by="merge")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	830 patientMerge12$thresholdValue = pmax(patientMerge12[,onx], patientMerge12[,ony])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	831 patientMerge13 = merge(patient1, patient3, by="merge")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	832 patientMerge13$thresholdValue = pmax(patientMerge13[,onx], patientMerge13[,ony])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	833 patientMerge23 = merge(patient2, patient3, by="merge")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	834 patientMerge23$thresholdValue = pmax(patientMerge23[,onx], patientMerge23[,ony])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	835 }
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	836
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	837 scatterplot_data_columns = c("Clone_Sequence", "Frequency", "normalized_read_count", "V_Segment_Major_Gene", "J_Segment_Major_Gene", "merge")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	838 scatterplot_data = rbind(patient1[,scatterplot_data_columns], patient2[,scatterplot_data_columns], patient3[,scatterplot_data_columns])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	839 scatterplot_data = scatterplot_data[!duplicated(scatterplot_data$merge),]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	840
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	841 scatterplot_data$type = factor(x="In one", levels=c("In one", "In two", "In three", "In multiple"))
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	842
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	843 res1 = vector()
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	844 res2 = vector()
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	845 res3 = vector()
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	846 res12 = vector()
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	847 res13 = vector()
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	848 res23 = vector()
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	849 resAll = vector()
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	850 read1Count = vector()
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	851 read2Count = vector()
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	852 read3Count = vector()
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	853
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	854 if(appendTriplets){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	855 cat(paste(label1, label2, label3, sep="\t"), file="triplets.txt", append=T, sep="", fill=3)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	856 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	857 for(iter in 1:length(product[,1])){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	858 threshhold = product[iter,threshholdIndex]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	859 V_Segment = paste(".", as.character(product[iter,V_SegmentIndex]), ".", sep="")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	860 J_Segment = paste(".", as.character(product[iter,J_SegmentIndex]), ".", sep="")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	861 #all = (grepl(V_Segment, patientMerge$V_Segment_Major_Gene.x) & grepl(J_Segment, patientMerge$J_Segment_Major_Gene.x) & patientMerge[,onx] > threshhold & patientMerge[,ony] > threshhold & patientMerge[,onz] > threshhold)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	862 all = (grepl(V_Segment, patientMerge$V_Segment_Major_Gene.x) & grepl(J_Segment, patientMerge$J_Segment_Major_Gene.x) & patientMerge$thresholdValue > threshhold)
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	863
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	864 one_two = (grepl(V_Segment, patientMerge12$V_Segment_Major_Gene.x) & grepl(J_Segment, patientMerge12$J_Segment_Major_Gene.x) & patientMerge12$thresholdValue > threshhold & !(patientMerge12$merge %in% patientMerge[all,]$merge))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	865 one_three = (grepl(V_Segment, patientMerge13$V_Segment_Major_Gene.x) & grepl(J_Segment, patientMerge13$J_Segment_Major_Gene.x) & patientMerge13$thresholdValue > threshhold & !(patientMerge13$merge %in% patientMerge[all,]$merge))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	866 two_three = (grepl(V_Segment, patientMerge23$V_Segment_Major_Gene.x) & grepl(J_Segment, patientMerge23$J_Segment_Major_Gene.x) & patientMerge23$thresholdValue > threshhold & !(patientMerge23$merge %in% patientMerge[all,]$merge))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	867
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	868 one = (grepl(V_Segment, patient1$V_Segment_Major_Gene) & grepl(J_Segment, patient1$J_Segment_Major_Gene) & patient1[,on] > threshhold & !(patient1$merge %in% patientMerge[all,]$merge) & !(patient1$merge %in% patientMerge12[one_two,]$merge) & !(patient1$merge %in% patientMerge13[one_three,]$merge))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	869 two = (grepl(V_Segment, patient2$V_Segment_Major_Gene) & grepl(J_Segment, patient2$J_Segment_Major_Gene) & patient2[,on] > threshhold & !(patient2$merge %in% patientMerge[all,]$merge) & !(patient2$merge %in% patientMerge12[one_two,]$merge) & !(patient2$merge %in% patientMerge23[two_three,]$merge))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	870 three = (grepl(V_Segment, patient3$V_Segment_Major_Gene) & grepl(J_Segment, patient3$J_Segment_Major_Gene) & patient3[,on] > threshhold & !(patient3$merge %in% patientMerge[all,]$merge) & !(patient3$merge %in% patientMerge13[one_three,]$merge) & !(patient3$merge %in% patientMerge23[two_three,]$merge))
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	871
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	872 read1Count = append(read1Count, sum(patient1[one,]$normalized_read_count) + sum(patientMerge[all,]$normalized_read_count.x))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	873 read2Count = append(read2Count, sum(patient2[two,]$normalized_read_count) + sum(patientMerge[all,]$normalized_read_count.y))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	874 read3Count = append(read3Count, sum(patient3[three,]$normalized_read_count) + sum(patientMerge[all,]$normalized_read_count.z))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	875 res1 = append(res1, sum(one))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	876 res2 = append(res2, sum(two))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	877 res3 = append(res3, sum(three))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	878 resAll = append(resAll, sum(all))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	879 res12 = append(res12, sum(one_two))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	880 res13 = append(res13, sum(one_three))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	881 res23 = append(res23, sum(two_three))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	882 #threshhold = 0
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	883 if(threshhold != 0){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	884 if(sum(one) > 0){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	885 dfOne = patient1[one,c("V_Segment_Major_Gene", "J_Segment_Major_Gene", "normalized_read_count", "Frequency", "Clone_Sequence", "Related_to_leukemia_clone")]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	886 colnames(dfOne) = c("Proximal segment", "Distal segment", "normalized_read_count", "Frequency", "Clone_Sequence", "Related_to_leukemia_clone")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	887 filenameOne = paste(label1, "_", product[iter, titleIndex], "_", threshhold, sep="")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	888 write.table(dfOne, file=paste(filenameOne, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	889 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	890 if(sum(two) > 0){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	891 dfTwo = patient2[two,c("V_Segment_Major_Gene", "J_Segment_Major_Gene", "normalized_read_count", "Frequency", "Clone_Sequence", "Related_to_leukemia_clone")]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	892 colnames(dfTwo) = c("Proximal segment", "Distal segment", "normalized_read_count", "Frequency", "Clone_Sequence", "Related_to_leukemia_clone")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	893 filenameTwo = paste(label2, "_", product[iter, titleIndex], "_", threshhold, sep="")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	894 write.table(dfTwo, file=paste(filenameTwo, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	895 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	896 if(sum(three) > 0){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	897 dfThree = patient3[three,c("V_Segment_Major_Gene", "J_Segment_Major_Gene", "normalized_read_count", "Frequency", "Clone_Sequence", "Related_to_leukemia_clone")]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	898 colnames(dfThree) = c("Proximal segment", "Distal segment", "normalized_read_count", "Frequency", "Clone_Sequence", "Related_to_leukemia_clone")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	899 filenameThree = paste(label3, "_", product[iter, titleIndex], "_", threshhold, sep="")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	900 write.table(dfThree, file=paste(filenameThree, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	901 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	902 if(sum(one_two) > 0){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	903 dfOne_two = patientMerge12[one_two,c("V_Segment_Major_Gene.x", "J_Segment_Major_Gene.x", "normalized_read_count.x", "Frequency.x", "Related_to_leukemia_clone.x", "Clone_Sequence.x", "V_Segment_Major_Gene.y", "J_Segment_Major_Gene.y", "normalized_read_count.y", "Frequency.y", "Related_to_leukemia_clone.y")]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	904 colnames(dfOne_two) = c(paste("Proximal segment", oneSample), paste("Distal segment", oneSample), paste("Normalized_Read_Count", oneSample), paste("Frequency", oneSample), paste("Related_to_leukemia_clone", oneSample),"Clone_Sequence", paste("Proximal segment", twoSample), paste("Distal segment", twoSample), paste("Normalized_Read_Count", twoSample), paste("Frequency", twoSample), paste("Related_to_leukemia_clone", twoSample))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	905 filenameOne_two = paste(label1, "_", label2, "_", product[iter, titleIndex], "_", threshhold, onShort, sep="")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	906 write.table(dfOne_two, file=paste(filenameOne_two, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	907 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	908 if(sum(one_three) > 0){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	909 dfOne_three = patientMerge13[one_three,c("V_Segment_Major_Gene.x", "J_Segment_Major_Gene.x", "normalized_read_count.x", "Frequency.x", "Related_to_leukemia_clone.x", "Clone_Sequence.x", "V_Segment_Major_Gene.y", "J_Segment_Major_Gene.y", "normalized_read_count.y", "Frequency.y", "Related_to_leukemia_clone.y")]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	910 colnames(dfOne_three) = c(paste("Proximal segment", oneSample), paste("Distal segment", oneSample), paste("Normalized_Read_Count", oneSample), paste("Frequency", oneSample), paste("Related_to_leukemia_clone", oneSample),"Clone_Sequence", paste("Proximal segment", threeSample), paste("Distal segment", threeSample), paste("Normalized_Read_Count", threeSample), paste("Frequency", threeSample), paste("Related_to_leukemia_clone", threeSample))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	911 filenameOne_three = paste(label1, "_", label3, "_", product[iter, titleIndex], "_", threshhold, onShort, sep="")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	912 write.table(dfOne_three, file=paste(filenameOne_three, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	913 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	914 if(sum(two_three) > 0){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	915 dfTwo_three = patientMerge23[two_three,c("V_Segment_Major_Gene.x", "J_Segment_Major_Gene.x", "normalized_read_count.x", "Frequency.x", "Related_to_leukemia_clone.x", "Clone_Sequence.x", "V_Segment_Major_Gene.y", "J_Segment_Major_Gene.y", "normalized_read_count.y", "Frequency.y", "Related_to_leukemia_clone.y")]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	916 colnames(dfTwo_three) = c(paste("Proximal segment", twoSample), paste("Distal segment", twoSample), paste("Normalized_Read_Count", twoSample), paste("Frequency", twoSample), paste("Related_to_leukemia_clone", twoSample),"Clone_Sequence", paste("Proximal segment", threeSample), paste("Distal segment", threeSample), paste("Normalized_Read_Count", threeSample), paste("Frequency", threeSample), paste("Related_to_leukemia_clone", threeSample))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	917 filenameTwo_three = paste(label2, "_", label3, "_", product[iter, titleIndex], "_", threshhold, onShort, sep="")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	918 write.table(dfTwo_three, file=paste(filenameTwo_three, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	919 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	920 } else { #scatterplot data
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	921 scatterplot_locus_data = scatterplot_data[grepl(V_Segment, scatterplot_data$V_Segment_Major_Gene) & grepl(J_Segment, scatterplot_data$J_Segment_Major_Gene),]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	922 scatterplot_locus_data = scatterplot_locus_data[!(scatterplot_locus_data$merge %in% merge.list[["second"]]),]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	923 in_two = (scatterplot_locus_data$merge %in% patientMerge12[one_two,]$merge) \| (scatterplot_locus_data$merge %in% patientMerge13[one_three,]$merge) \| (scatterplot_locus_data$merge %in% patientMerge23[two_three,]$merge)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	924 if(sum(in_two) > 0){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	925 scatterplot_locus_data[in_two,]$type = "In two"
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	926 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	927 in_three = (scatterplot_locus_data$merge %in% patientMerge[all,]$merge)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	928 if(sum(in_three)> 0){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	929 scatterplot_locus_data[in_three,]$type = "In three"
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	930 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	931 not_in_one = scatterplot_locus_data$type != "In one"
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	932 if(sum(not_in_one) > 0){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	933 #scatterplot_locus_data[not_in_one,]$type = "In multiple"
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	934 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	935 p = NULL
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	936 if(nrow(scatterplot_locus_data) != 0){
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	937 filename.scatter = paste(label1, "_", label2, "_", label3, "_", product[iter, titleIndex], "_scatter_", threshhold, sep="")
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	938 write.table(scatterplot_locus_data, file=paste(filename.scatter, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	939 if(on == "normalized_read_count"){
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	940 scales = 10^(0:6) #(0:ceiling(log10(max(scatterplot_locus_data$normalized_read_count))))
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	941 p = ggplot(scatterplot_locus_data, aes(type, normalized_read_count)) + scale_y_log10(breaks=scales,labels=scales, limits=c(1, 1e6))
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	942 } else {
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	943 p = ggplot(scatterplot_locus_data, aes(type, Frequency)) + scale_y_log10(limits=c(0.0001,100), breaks=c(0.0001, 0.001, 0.01, 0.1, 1, 10, 100), labels=c("0.0001", "0.001", "0.01", "0.1", "1", "10", "100")) + expand_limits(y=c(0,100))
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	944 #p = ggplot(scatterplot_locus_data, aes(type, Frequency)) + scale_y_continuous(limits = c(0, 100)) + expand_limits(y=c(0,100))
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	945 }
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	946 p = p + geom_point(aes(colour=type), position="jitter")
7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	947 p = p + xlab("In one or in multiple samples") + ylab(onShort) + ggtitle(paste(label1, label2, label3, onShort, product[iter, titleIndex]))
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	948 } else {
2 7ffd0fba8cf4 Uploaded davidvanzessen parents: 1 diff changeset	949 p = ggplot(NULL, aes(x=c("In one", "In multiple"),y=0)) + geom_blank(NULL) + xlab("In two or in three of the samples") + ylab(onShort) + ggtitle(paste(label1, label2, label3, onShort, product[iter, titleIndex]))
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	950 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	951 png(paste(label1, "_", label2, "_", label3, "_", onShort, "_", product[iter, titleIndex],"_scatter.png", sep=""))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	952 print(p)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	953 dev.off()
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	954 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	955 if(sum(all) > 0){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	956 dfAll = patientMerge[all,c("V_Segment_Major_Gene.x", "J_Segment_Major_Gene.x", "normalized_read_count.x", "Frequency.x", "Related_to_leukemia_clone.x", "Clone_Sequence.x", "V_Segment_Major_Gene.y", "J_Segment_Major_Gene.y", "normalized_read_count.y", "Frequency.y", "Related_to_leukemia_clone.y", "V_Segment_Major_Gene.z", "J_Segment_Major_Gene.z", "normalized_read_count.z", "Frequency.z", "Related_to_leukemia_clone.z")]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	957 colnames(dfAll) = c(paste("Proximal segment", oneSample), paste("Distal segment", oneSample), paste("Normalized_Read_Count", oneSample), paste("Frequency", oneSample), paste("Related_to_leukemia_clone", oneSample),"Clone_Sequence", paste("Proximal segment", twoSample), paste("Distal segment", twoSample), paste("Normalized_Read_Count", twoSample), paste("Frequency", twoSample), paste("Related_to_leukemia_clone", twoSample), paste("Proximal segment", threeSample), paste("Distal segment", threeSample), paste("Normalized_Read_Count", threeSample), paste("Frequency", threeSample), paste("Related_to_leukemia_clone", threeSample))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	958 filenameAll = paste(label1, "_", label2, "_", label3, "_", product[iter, titleIndex], "_", threshhold, sep="")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	959 write.table(dfAll, file=paste(filenameAll, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	960 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	961 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	962 #patientResult = data.frame("Locus"=product$Titles, "J_Segment"=product$J_Segments, "V_Segment"=product$V_Segments, "cut_off_value"=paste(">", product$interval, sep=""), "All"=resAll, "tmp1"=res1, "read_count1" = round(read1Count), "tmp2"=res2, "read_count2"= round(read2Count), "tmp3"=res3, "read_count3"=round(read3Count))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	963 patientResult = data.frame("Locus"=product$Titles, "J_Segment"=product$J_Segments, "V_Segment"=product$V_Segments, "cut_off_value"=paste(">", product$interval, sep=""), "All"=resAll, "tmp1"=res1, "tmp2"=res2, "tmp3"=res3, "tmp12"=res12, "tmp13"=res13, "tmp23"=res23)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	964 colnames(patientResult)[6] = oneSample
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	965 colnames(patientResult)[7] = twoSample
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	966 colnames(patientResult)[8] = threeSample
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	967 colnames(patientResult)[9] = paste(oneSample, twoSample, sep="_")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	968 colnames(patientResult)[10] = paste(oneSample, twoSample, sep="_")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	969 colnames(patientResult)[11] = paste(oneSample, twoSample, sep="_")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	970
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	971 colnamesBak = colnames(patientResult)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	972 colnames(patientResult) = c("Ig/TCR gene rearrangement type", "Distal Gene segment", "Proximal gene segment", "cut_off_value", "Number of sequences All", paste("Number of sequences", oneSample), paste("Number of sequences", twoSample), paste("Number of sequences", threeSample), paste("Number of sequences", oneSample, twoSample), paste("Number of sequences", oneSample, threeSample), paste("Number of sequences", twoSample, threeSample))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	973 write.table(patientResult, file=paste(label1, "_", label2, "_", label3, "_", onShort, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	974 colnames(patientResult) = colnamesBak
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	975
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	976 patientResult$Locus = factor(patientResult$Locus, Titles)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	977 patientResult$cut_off_value = factor(patientResult$cut_off_value, paste(">", interval, sep=""))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	978
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	979 plt = ggplot(patientResult[,c("Locus", "cut_off_value", "All")])
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	980 plt = plt + geom_bar( aes( x=factor(cut_off_value), y=All), stat='identity', position="dodge", fill="#79c36a")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	981 plt = plt + facet_grid(.~Locus) + theme(axis.text.x = element_text(angle = 45, hjust = 1))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	982 plt = plt + geom_text(aes(ymax=max(All), x=cut_off_value,y=All,label=All), angle=90, hjust=0)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	983 plt = plt + xlab("Reads per locus") + ylab("Count") + ggtitle("Number of clones in All")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	984 plt = plt + theme(plot.margin = unit(c(1,8.8,0.5,1.5), "lines"))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	985 png(paste(label1, "_", label2, "_", label3, "_", onShort, "_total_all.png", sep=""), width=1920, height=1080)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	986 print(plt)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	987 dev.off()
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	988
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	989 fontSize = 4
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	990
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	991 bak = patientResult
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	992 patientResult = melt(patientResult[,c('Locus','cut_off_value', oneSample, twoSample, threeSample)] ,id.vars=1:2)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	993 patientResult$relativeValue = patientResult$value * 10
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	994 patientResult[patientResult$relativeValue == 0,]$relativeValue = 1
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	995 plt = ggplot(patientResult)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	996 plt = plt + geom_bar( aes( x=factor(cut_off_value), y=relativeValue, fill=variable), stat='identity', position="dodge")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	997 plt = plt + facet_grid(.~Locus) + theme(axis.text.x = element_text(angle = 45, hjust = 1))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	998 plt = plt + scale_y_continuous(trans="log", breaks=10^c(0:10), labels=c(0, 10^c(0:9)))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	999 plt = plt + geom_text(data=patientResult[patientResult$variable == oneSample,], aes(ymax=max(value), x=cut_off_value,y=relativeValue,label=value), angle=90, position=position_dodge(width=0.9), hjust=0, vjust=-0.7, size=fontSize)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1000 plt = plt + geom_text(data=patientResult[patientResult$variable == twoSample,], aes(ymax=max(value), x=cut_off_value,y=relativeValue,label=value), angle=90, position=position_dodge(width=0.9), hjust=0, vjust=0.4, size=fontSize)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1001 plt = plt + geom_text(data=patientResult[patientResult$variable == threeSample,], aes(ymax=max(value), x=cut_off_value,y=relativeValue,label=value), angle=90, position=position_dodge(width=0.9), hjust=0, vjust=1.5, size=fontSize)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1002 plt = plt + xlab("Reads per locus") + ylab("Count") + ggtitle("Number of clones in only one sample")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1003 png(paste(label1, "_", label2, "_", label3, "_", onShort, "_indiv_all.png", sep=""), width=1920, height=1080)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1004 print(plt)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1005 dev.off()
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	1006 }
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	1007
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	1008 if(nrow(triplets) != 0){
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	1009
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1010 cat("<tr><td>Starting triplet analysis</td></tr>", file=logfile, append=T)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1011
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1012 triplets$uniqueID = paste(triplets$Patient, triplets$Sample, sep="_")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1013
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1014 cat("<tr><td>Normalizing to lowest cell count within locus</td></tr>", file=logfile, append=T)
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	1015
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1016 triplets$locus_V = substring(triplets$V_Segment_Major_Gene, 0, 4)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1017 triplets$locus_J = substring(triplets$J_Segment_Major_Gene, 0, 4)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1018 min_cell_count = data.frame(data.table(triplets)[, list(min_cell_count=min(.SD$Cell_Count)), by=c("uniqueID", "locus_V", "locus_J")])
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	1019
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1020 triplets$min_cell_paste = paste(triplets$uniqueID, triplets$locus_V, triplets$locus_J)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1021 min_cell_count$min_cell_paste = paste(min_cell_count$uniqueID, min_cell_count$locus_V, min_cell_count$locus_J)
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	1022
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1023 min_cell_count = min_cell_count[,c("min_cell_paste", "min_cell_count")]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1024
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1025 triplets = merge(triplets, min_cell_count, by="min_cell_paste")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1026
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1027 triplets$normalized_read_count = round(triplets$Clone_Molecule_Count_From_Spikes / triplets$Cell_Count * triplets$min_cell_count / 2, digits=2)
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	1028
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1029 triplets = triplets[triplets$normalized_read_count >= min_cells,]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1030
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1031 column_drops = c("min_cell_count", "min_cell_paste")
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1032
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1033 triplets = triplets[,!(colnames(triplets) %in% column_drops)]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1034
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1035 cat("<tr><td>Starting Cell Count analysis</td></tr>", file=logfile, append=T)
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	1036
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1037 interval = intervalReads
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1038 intervalOrder = data.frame("interval"=paste(">", interval, sep=""), "intervalOrder"=1:length(interval))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1039 product = data.frame("Titles"=rep(Titles, each=length(interval)), "interval"=rep(interval, times=10), "V_Segments"=rep(V_Segments, each=length(interval)), "J_Segments"=rep(J_Segments, each=length(interval)))
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	1040
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1041 triplets = split(triplets, triplets$Patient, drop=T)
5 bcf1469e8feb Uploaded davidvanzessen parents: 4 diff changeset	1042 #print(nrow(triplets))
1 75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1043 for(triplet in triplets){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1044 samples = unique(triplet$Sample)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1045 one = triplet[triplet$Sample == samples[1],]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1046 two = triplet[triplet$Sample == samples[2],]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1047 three = triplet[triplet$Sample == samples[3],]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1048
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1049 print(paste(nrow(triplet), nrow(one), nrow(two), nrow(three)))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1050 tripletAnalysis(one, one[1,"uniqueID"], two, two[1,"uniqueID"], three, three[1,"uniqueID"], product=product, interval=interval, on="normalized_read_count", T)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1051 }
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1052
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1053 cat("<tr><td>Starting Frequency analysis</td></tr>", file=logfile, append=T)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1054
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1055 interval = intervalFreq
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1056 intervalOrder = data.frame("interval"=paste(">", interval, sep=""), "intervalOrder"=1:length(interval))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1057 product = data.frame("Titles"=rep(Titles, each=length(interval)), "interval"=rep(interval, times=10), "V_Segments"=rep(V_Segments, each=length(interval)), "J_Segments"=rep(J_Segments, each=length(interval)))
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1058
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1059 for(triplet in triplets){
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1060 samples = unique(triplet$Sample)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1061 one = triplet[triplet$Sample == samples[1],]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1062 two = triplet[triplet$Sample == samples[2],]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1063 three = triplet[triplet$Sample == samples[3],]
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1064 tripletAnalysis(one, one[1,"uniqueID"], two, two[1,"uniqueID"], three, three[1,"uniqueID"], product=product, interval=interval, on="Frequency", F)
75853bceec00 Uploaded davidvanzessen parents: 0 diff changeset	1065 }
0 ed6885c85660 Uploaded davidvanzessen parents: diff changeset	1066 } else {
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	1067 cat("", file="triplets.txt")
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	1068 }
ed6885c85660 Uploaded davidvanzessen parents: diff changeset	1069 cat("</table></html>", file=logfile, append=T)

Mercurial > repos > davidvanzessen > prisca

annotate RScript.r @ 7:7ce82833977c draft