cross_sample: cross_sample/runCrossSample.py annotate

annotate cross_sample/runCrossSample.py @ 0:8d951baf795f draft

Uploaded

author	immport-devteam
date	Mon, 27 Feb 2017 12:47:17 -0500
parents
children

rev	line source
0 8d951baf795f Uploaded immport-devteam parents: diff changeset	1 #!/usr/bin/env python
8d951baf795f Uploaded immport-devteam parents: diff changeset	2 ######################################################################
8d951baf795f Uploaded immport-devteam parents: diff changeset	3 # Copyright (c) 2016 Northrop Grumman.
8d951baf795f Uploaded immport-devteam parents: diff changeset	4 # All rights reserved.
8d951baf795f Uploaded immport-devteam parents: diff changeset	5 ######################################################################
8d951baf795f Uploaded immport-devteam parents: diff changeset	6 from __future__ import print_function
8d951baf795f Uploaded immport-devteam parents: diff changeset	7 import sys
8d951baf795f Uploaded immport-devteam parents: diff changeset	8 import os
8d951baf795f Uploaded immport-devteam parents: diff changeset	9 from scipy.stats import gmean
8d951baf795f Uploaded immport-devteam parents: diff changeset	10 from argparse import ArgumentParser
8d951baf795f Uploaded immport-devteam parents: diff changeset	11 from collections import defaultdict
8d951baf795f Uploaded immport-devteam parents: diff changeset	12 import pandas as pd
8d951baf795f Uploaded immport-devteam parents: diff changeset	13
8d951baf795f Uploaded immport-devteam parents: diff changeset	14 #
8d951baf795f Uploaded immport-devteam parents: diff changeset	15 # version 1.1 -- April 2016 -- C. Thomas
8d951baf795f Uploaded immport-devteam parents: diff changeset	16 # modified to read in several input files and output to a directory
8d951baf795f Uploaded immport-devteam parents: diff changeset	17 # + generates summary statistics
8d951baf795f Uploaded immport-devteam parents: diff changeset	18 # also checks before running that input files are consistent with centroid file
8d951baf795f Uploaded immport-devteam parents: diff changeset	19 #
8d951baf795f Uploaded immport-devteam parents: diff changeset	20
8d951baf795f Uploaded immport-devteam parents: diff changeset	21
8d951baf795f Uploaded immport-devteam parents: diff changeset	22 def compare_MFIs(input_files, f_names, mfi_file):
8d951baf795f Uploaded immport-devteam parents: diff changeset	23 header_MFIs = ""
8d951baf795f Uploaded immport-devteam parents: diff changeset	24 flag_error = False
8d951baf795f Uploaded immport-devteam parents: diff changeset	25 with open(mfi_file, "r") as mfi_check:
8d951baf795f Uploaded immport-devteam parents: diff changeset	26 mfi_fl = mfi_check.readline().split("\t")
8d951baf795f Uploaded immport-devteam parents: diff changeset	27 header_MFIs = "\t".join([mfi_fl[h] for h in range(1, len(mfi_fl))])
8d951baf795f Uploaded immport-devteam parents: diff changeset	28
8d951baf795f Uploaded immport-devteam parents: diff changeset	29 for hh, files in enumerate(input_files):
8d951baf795f Uploaded immport-devteam parents: diff changeset	30 with open(files, "r") as inf:
8d951baf795f Uploaded immport-devteam parents: diff changeset	31 hdrs = inf.readline()
8d951baf795f Uploaded immport-devteam parents: diff changeset	32 if hdrs != header_MFIs:
8d951baf795f Uploaded immport-devteam parents: diff changeset	33 sys.stderr.write(hdrs + "headers in " + f_names[hh] + " are not consistent with FLOCK centroid file:\n" + header_MFIs + "\n")
8d951baf795f Uploaded immport-devteam parents: diff changeset	34 flag_error = True
8d951baf795f Uploaded immport-devteam parents: diff changeset	35 if flag_error:
8d951baf795f Uploaded immport-devteam parents: diff changeset	36 sys.exit(2)
8d951baf795f Uploaded immport-devteam parents: diff changeset	37
8d951baf795f Uploaded immport-devteam parents: diff changeset	38
8d951baf795f Uploaded immport-devteam parents: diff changeset	39 def stats_MFIs(cs_df, ctr, mfi_calc):
8d951baf795f Uploaded immport-devteam parents: diff changeset	40 if mfi_calc == "mfi":
8d951baf795f Uploaded immport-devteam parents: diff changeset	41 MFIs = cs_df.groupby('Population').mean().round(decimals=2)
8d951baf795f Uploaded immport-devteam parents: diff changeset	42 elif mfi_calc == "gmfi":
8d951baf795f Uploaded immport-devteam parents: diff changeset	43 MFIs = cs_df.groupby('Population').agg(lambda x: gmean(list(x))).round(decimals=2)
8d951baf795f Uploaded immport-devteam parents: diff changeset	44 else:
8d951baf795f Uploaded immport-devteam parents: diff changeset	45 MFIs = cs_df.groupby('Population').median().round(decimals=2)
8d951baf795f Uploaded immport-devteam parents: diff changeset	46 pop_freq = (cs_df.Population.value_counts(normalize=True) * 100).round(decimals=2)
8d951baf795f Uploaded immport-devteam parents: diff changeset	47 sorted_pop_freq = pop_freq.sort_index()
8d951baf795f Uploaded immport-devteam parents: diff changeset	48 MFIs['Percentage'] = sorted_pop_freq
8d951baf795f Uploaded immport-devteam parents: diff changeset	49 MFIs['Population'] = MFIs.index
8d951baf795f Uploaded immport-devteam parents: diff changeset	50 MFIs['SampleName'] = "".join(["Sample", str(ctr).zfill(2)])
8d951baf795f Uploaded immport-devteam parents: diff changeset	51 return MFIs
8d951baf795f Uploaded immport-devteam parents: diff changeset	52
8d951baf795f Uploaded immport-devteam parents: diff changeset	53
8d951baf795f Uploaded immport-devteam parents: diff changeset	54 def get_pop_prop(input_files, summary_stat, mfi_stats, marker_names, mfi_calc):
8d951baf795f Uploaded immport-devteam parents: diff changeset	55 pop_count = defaultdict(dict)
8d951baf795f Uploaded immport-devteam parents: diff changeset	56 mrk = marker_names.strip().split("\t")
8d951baf795f Uploaded immport-devteam parents: diff changeset	57 markers = "\t".join([mrk[m] for m in range(1, len(mrk))])
8d951baf795f Uploaded immport-devteam parents: diff changeset	58
8d951baf795f Uploaded immport-devteam parents: diff changeset	59 ctr_mfi = 0
8d951baf795f Uploaded immport-devteam parents: diff changeset	60 nb_pop = 0
8d951baf795f Uploaded immport-devteam parents: diff changeset	61 tot = {}
8d951baf795f Uploaded immport-devteam parents: diff changeset	62 with open(mfi_stats, "a") as mfis:
8d951baf795f Uploaded immport-devteam parents: diff changeset	63 mfis.write("\t".join([markers, "Percentage", "Population", "SampleName"]) + "\n")
8d951baf795f Uploaded immport-devteam parents: diff changeset	64 for files in input_files:
8d951baf795f Uploaded immport-devteam parents: diff changeset	65 cs = pd.read_table(files)
8d951baf795f Uploaded immport-devteam parents: diff changeset	66 tot[files] = len(cs.index)
8d951baf795f Uploaded immport-devteam parents: diff changeset	67 for pops in cs.Population:
8d951baf795f Uploaded immport-devteam parents: diff changeset	68 if pops in pop_count[files]:
8d951baf795f Uploaded immport-devteam parents: diff changeset	69 pop_count[files][pops] += 1
8d951baf795f Uploaded immport-devteam parents: diff changeset	70 else:
8d951baf795f Uploaded immport-devteam parents: diff changeset	71 pop_count[files][pops] = 1
8d951baf795f Uploaded immport-devteam parents: diff changeset	72 if (len(pop_count[files]) > nb_pop):
8d951baf795f Uploaded immport-devteam parents: diff changeset	73 nb_pop = len(pop_count[files])
8d951baf795f Uploaded immport-devteam parents: diff changeset	74 ctr_mfi += 1
8d951baf795f Uploaded immport-devteam parents: diff changeset	75 cs_stats = stats_MFIs(cs, ctr_mfi, mfi_calc)
8d951baf795f Uploaded immport-devteam parents: diff changeset	76 cs_stats.to_csv(mfis, sep="\t", header=False, index=False)
8d951baf795f Uploaded immport-devteam parents: diff changeset	77
8d951baf795f Uploaded immport-devteam parents: diff changeset	78 ctr = 0
8d951baf795f Uploaded immport-devteam parents: diff changeset	79 with open(summary_stat, "w") as outf:
8d951baf795f Uploaded immport-devteam parents: diff changeset	80 itpop = [str(x) for x in range(1, nb_pop + 1)]
8d951baf795f Uploaded immport-devteam parents: diff changeset	81 cols = "\t".join(itpop)
8d951baf795f Uploaded immport-devteam parents: diff changeset	82 outf.write("FileID\tSampleName\t" + cols + "\n")
8d951baf795f Uploaded immport-devteam parents: diff changeset	83 for eachfile in pop_count:
8d951baf795f Uploaded immport-devteam parents: diff changeset	84 tmp = []
8d951baf795f Uploaded immport-devteam parents: diff changeset	85 for num in range(1, nb_pop + 1):
8d951baf795f Uploaded immport-devteam parents: diff changeset	86 if num not in pop_count[eachfile]:
8d951baf795f Uploaded immport-devteam parents: diff changeset	87 pop_count[eachfile][num] = 0
8d951baf795f Uploaded immport-devteam parents: diff changeset	88 tmp.append(str((pop_count[eachfile][num] / float(tot[eachfile])) * 100))
8d951baf795f Uploaded immport-devteam parents: diff changeset	89 props = "\t".join(tmp)
8d951baf795f Uploaded immport-devteam parents: diff changeset	90 ctr += 1
8d951baf795f Uploaded immport-devteam parents: diff changeset	91 sample_name = "".join(["Sample", str(ctr).zfill(2)])
8d951baf795f Uploaded immport-devteam parents: diff changeset	92 outf.write("\t".join([input_files[eachfile], sample_name, props]) + "\n")
8d951baf795f Uploaded immport-devteam parents: diff changeset	93
8d951baf795f Uploaded immport-devteam parents: diff changeset	94
8d951baf795f Uploaded immport-devteam parents: diff changeset	95 def run_cross_sample(input_files, f_names, mfi_file, output_dir, summary_stat,
8d951baf795f Uploaded immport-devteam parents: diff changeset	96 mfi_stats, tool_directory, mfi_calc):
8d951baf795f Uploaded immport-devteam parents: diff changeset	97 markers = ""
8d951baf795f Uploaded immport-devteam parents: diff changeset	98 # Strip off Header Line
8d951baf795f Uploaded immport-devteam parents: diff changeset	99 with open(mfi_file, "r") as mfi_in, open("mfi.txt", "w") as mfi_out:
8d951baf795f Uploaded immport-devteam parents: diff changeset	100 markers = mfi_in.readline().strip("\n")
8d951baf795f Uploaded immport-devteam parents: diff changeset	101 for line in mfi_in:
8d951baf795f Uploaded immport-devteam parents: diff changeset	102 mfi_out.write(line)
8d951baf795f Uploaded immport-devteam parents: diff changeset	103
8d951baf795f Uploaded immport-devteam parents: diff changeset	104 # Create output directory
8d951baf795f Uploaded immport-devteam parents: diff changeset	105 if not os.path.exists(output_dir):
8d951baf795f Uploaded immport-devteam parents: diff changeset	106 os.makedirs(output_dir)
8d951baf795f Uploaded immport-devteam parents: diff changeset	107
8d951baf795f Uploaded immport-devteam parents: diff changeset	108 outputs = {}
8d951baf795f Uploaded immport-devteam parents: diff changeset	109 # Run cent_adjust
8d951baf795f Uploaded immport-devteam parents: diff changeset	110 for nm, flow_file in enumerate(input_files):
8d951baf795f Uploaded immport-devteam parents: diff changeset	111 run_command = tool_directory + "/bin/cent_adjust mfi.txt " + flow_file
8d951baf795f Uploaded immport-devteam parents: diff changeset	112 print(run_command)
8d951baf795f Uploaded immport-devteam parents: diff changeset	113 os.system(run_command)
8d951baf795f Uploaded immport-devteam parents: diff changeset	114 flow_name = os.path.split(flow_file)[1]
8d951baf795f Uploaded immport-devteam parents: diff changeset	115 outfile = os.path.join(output_dir, flow_name + ".flowclr")
8d951baf795f Uploaded immport-devteam parents: diff changeset	116 outputs[outfile] = f_names[nm]
8d951baf795f Uploaded immport-devteam parents: diff changeset	117 with open(flow_file, "r") as flowf, open("population_id.txt", "r") as popf, open(outfile, "w") as outf:
8d951baf795f Uploaded immport-devteam parents: diff changeset	118 f_line = flowf.readline()
8d951baf795f Uploaded immport-devteam parents: diff changeset	119 f_line = f_line.rstrip()
8d951baf795f Uploaded immport-devteam parents: diff changeset	120 f_line = f_line + "\tPopulation\n"
8d951baf795f Uploaded immport-devteam parents: diff changeset	121 outf.write(f_line)
8d951baf795f Uploaded immport-devteam parents: diff changeset	122
8d951baf795f Uploaded immport-devteam parents: diff changeset	123 for line in flowf:
8d951baf795f Uploaded immport-devteam parents: diff changeset	124 line = line.rstrip()
8d951baf795f Uploaded immport-devteam parents: diff changeset	125 pop_line = popf.readline()
8d951baf795f Uploaded immport-devteam parents: diff changeset	126 pop_line = pop_line.rstrip()
8d951baf795f Uploaded immport-devteam parents: diff changeset	127 line = line + "\t" + pop_line + "\n"
8d951baf795f Uploaded immport-devteam parents: diff changeset	128 outf.write(line)
8d951baf795f Uploaded immport-devteam parents: diff changeset	129 get_pop_prop(outputs, summary_stat, mfi_stats, markers, mfi_calc)
8d951baf795f Uploaded immport-devteam parents: diff changeset	130 return
8d951baf795f Uploaded immport-devteam parents: diff changeset	131
8d951baf795f Uploaded immport-devteam parents: diff changeset	132
8d951baf795f Uploaded immport-devteam parents: diff changeset	133 def generate_CS_stats(mfi_stats, all_stats):
8d951baf795f Uploaded immport-devteam parents: diff changeset	134 df = pd.read_table(mfi_stats)
8d951baf795f Uploaded immport-devteam parents: diff changeset	135 means = df.groupby('Population').mean().round(decimals=2)
8d951baf795f Uploaded immport-devteam parents: diff changeset	136 medians = df.groupby('Population').median().round(decimals=2)
8d951baf795f Uploaded immport-devteam parents: diff changeset	137 stdev = df.groupby('Population').std().round(decimals=2)
8d951baf795f Uploaded immport-devteam parents: diff changeset	138 all_markers = []
8d951baf795f Uploaded immport-devteam parents: diff changeset	139 with open(mfi_stats, "r") as ms:
8d951baf795f Uploaded immport-devteam parents: diff changeset	140 ms_fl = ms.readline().strip()
8d951baf795f Uploaded immport-devteam parents: diff changeset	141 all_markers = ms_fl.split("\t")[0:-2]
8d951baf795f Uploaded immport-devteam parents: diff changeset	142
8d951baf795f Uploaded immport-devteam parents: diff changeset	143 with open(all_stats, "w") as mstats:
8d951baf795f Uploaded immport-devteam parents: diff changeset	144 hdgs = ["\t".join(["_".join([mrs, "mean"]), "_".join([mrs, "median"]), "_".join([mrs, "stdev"])]) for mrs in all_markers]
8d951baf795f Uploaded immport-devteam parents: diff changeset	145 mstats.write("Population\t")
8d951baf795f Uploaded immport-devteam parents: diff changeset	146 mstats.write("\t".join(hdgs) + "\n")
8d951baf795f Uploaded immport-devteam parents: diff changeset	147 for pops in set(df.Population):
8d951baf795f Uploaded immport-devteam parents: diff changeset	148 tmp_line = []
8d951baf795f Uploaded immport-devteam parents: diff changeset	149 for mar in all_markers:
8d951baf795f Uploaded immport-devteam parents: diff changeset	150 tmp_line.append("\t".join([str(means.loc[pops, mar]), str(medians.loc[pops, mar]), str(stdev.loc[pops, mar])]))
8d951baf795f Uploaded immport-devteam parents: diff changeset	151 mstats.write(str(pops) + "\t")
8d951baf795f Uploaded immport-devteam parents: diff changeset	152 mstats.write("\t".join(tmp_line) + "\n")
8d951baf795f Uploaded immport-devteam parents: diff changeset	153
8d951baf795f Uploaded immport-devteam parents: diff changeset	154
8d951baf795f Uploaded immport-devteam parents: diff changeset	155 if __name__ == "__main__":
8d951baf795f Uploaded immport-devteam parents: diff changeset	156 parser = ArgumentParser(
8d951baf795f Uploaded immport-devteam parents: diff changeset	157 prog="runCrossSample",
8d951baf795f Uploaded immport-devteam parents: diff changeset	158 description="Run CrossSample on Flow file")
8d951baf795f Uploaded immport-devteam parents: diff changeset	159
8d951baf795f Uploaded immport-devteam parents: diff changeset	160 parser.add_argument(
8d951baf795f Uploaded immport-devteam parents: diff changeset	161 '-i',
8d951baf795f Uploaded immport-devteam parents: diff changeset	162 dest="input_files",
8d951baf795f Uploaded immport-devteam parents: diff changeset	163 required=True,
8d951baf795f Uploaded immport-devteam parents: diff changeset	164 action='append',
8d951baf795f Uploaded immport-devteam parents: diff changeset	165 help="File locations for flow text files.")
8d951baf795f Uploaded immport-devteam parents: diff changeset	166
8d951baf795f Uploaded immport-devteam parents: diff changeset	167 parser.add_argument(
8d951baf795f Uploaded immport-devteam parents: diff changeset	168 '-n',
8d951baf795f Uploaded immport-devteam parents: diff changeset	169 dest="filenames",
8d951baf795f Uploaded immport-devteam parents: diff changeset	170 required=True,
8d951baf795f Uploaded immport-devteam parents: diff changeset	171 action='append',
8d951baf795f Uploaded immport-devteam parents: diff changeset	172 help="Filenames")
8d951baf795f Uploaded immport-devteam parents: diff changeset	173
8d951baf795f Uploaded immport-devteam parents: diff changeset	174 parser.add_argument(
8d951baf795f Uploaded immport-devteam parents: diff changeset	175 '-m',
8d951baf795f Uploaded immport-devteam parents: diff changeset	176 dest="mfi",
8d951baf795f Uploaded immport-devteam parents: diff changeset	177 required=True,
8d951baf795f Uploaded immport-devteam parents: diff changeset	178 help="File location for the MFI text file.")
8d951baf795f Uploaded immport-devteam parents: diff changeset	179
8d951baf795f Uploaded immport-devteam parents: diff changeset	180 parser.add_argument(
8d951baf795f Uploaded immport-devteam parents: diff changeset	181 '-o',
8d951baf795f Uploaded immport-devteam parents: diff changeset	182 dest="out_path",
8d951baf795f Uploaded immport-devteam parents: diff changeset	183 required=True,
8d951baf795f Uploaded immport-devteam parents: diff changeset	184 help="Path to the directory for the output files.")
8d951baf795f Uploaded immport-devteam parents: diff changeset	185
8d951baf795f Uploaded immport-devteam parents: diff changeset	186 parser.add_argument(
8d951baf795f Uploaded immport-devteam parents: diff changeset	187 '-M',
8d951baf795f Uploaded immport-devteam parents: diff changeset	188 dest="mfi_calc",
8d951baf795f Uploaded immport-devteam parents: diff changeset	189 required=True,
8d951baf795f Uploaded immport-devteam parents: diff changeset	190 help="what to calculate for centroids.")
8d951baf795f Uploaded immport-devteam parents: diff changeset	191
8d951baf795f Uploaded immport-devteam parents: diff changeset	192 parser.add_argument(
8d951baf795f Uploaded immport-devteam parents: diff changeset	193 '-s',
8d951baf795f Uploaded immport-devteam parents: diff changeset	194 dest="sstat",
8d951baf795f Uploaded immport-devteam parents: diff changeset	195 required=True,
8d951baf795f Uploaded immport-devteam parents: diff changeset	196 help="File location for the summary statistics.")
8d951baf795f Uploaded immport-devteam parents: diff changeset	197
8d951baf795f Uploaded immport-devteam parents: diff changeset	198 parser.add_argument(
8d951baf795f Uploaded immport-devteam parents: diff changeset	199 '-S',
8d951baf795f Uploaded immport-devteam parents: diff changeset	200 dest="mfi_stat",
8d951baf795f Uploaded immport-devteam parents: diff changeset	201 required=True,
8d951baf795f Uploaded immport-devteam parents: diff changeset	202 help="File location for the MFI summary statistics.")
8d951baf795f Uploaded immport-devteam parents: diff changeset	203
8d951baf795f Uploaded immport-devteam parents: diff changeset	204 parser.add_argument(
8d951baf795f Uploaded immport-devteam parents: diff changeset	205 '-t',
8d951baf795f Uploaded immport-devteam parents: diff changeset	206 dest="tool_dir",
8d951baf795f Uploaded immport-devteam parents: diff changeset	207 required=True,
8d951baf795f Uploaded immport-devteam parents: diff changeset	208 help="File location for cent_adjust.")
8d951baf795f Uploaded immport-devteam parents: diff changeset	209
8d951baf795f Uploaded immport-devteam parents: diff changeset	210 parser.add_argument(
8d951baf795f Uploaded immport-devteam parents: diff changeset	211 '-a',
8d951baf795f Uploaded immport-devteam parents: diff changeset	212 dest="all_stats",
8d951baf795f Uploaded immport-devteam parents: diff changeset	213 required=True,
8d951baf795f Uploaded immport-devteam parents: diff changeset	214 help="File location for stats on all markers.")
8d951baf795f Uploaded immport-devteam parents: diff changeset	215
8d951baf795f Uploaded immport-devteam parents: diff changeset	216 args = parser.parse_args()
8d951baf795f Uploaded immport-devteam parents: diff changeset	217
8d951baf795f Uploaded immport-devteam parents: diff changeset	218 input_files = [f for f in args.input_files]
8d951baf795f Uploaded immport-devteam parents: diff changeset	219 input_names = [n for n in args.filenames]
8d951baf795f Uploaded immport-devteam parents: diff changeset	220 compare_MFIs(input_files, input_names, args.mfi)
8d951baf795f Uploaded immport-devteam parents: diff changeset	221 run_cross_sample(input_files, input_names, args.mfi, args.out_path, args.sstat, args.mfi_stat, args.tool_dir, args.mfi_calc)
8d951baf795f Uploaded immport-devteam parents: diff changeset	222 generate_CS_stats(args.mfi_stat, args.all_stats)
8d951baf795f Uploaded immport-devteam parents: diff changeset	223
8d951baf795f Uploaded immport-devteam parents: diff changeset	224 sys.exit(0)

Mercurial > repos > immport-devteam > cross_sample

annotate cross_sample/runCrossSample.py @ 0:8d951baf795f draft