ems_variant_density_mapping: EMS_VariantDensityMapping.py annotate

annotate EMS_VariantDensityMapping.py @ 4:d2158e476320 draft

Uploaded

author	gregory-minevich
date	Thu, 14 Jun 2012 21:22:09 -0400
parents	a43cb9a57a9a
children

rev	line source
0 a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	1 #!/usr/bin/python
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	2
4 d2158e476320 Uploaded gregory-minevich parents: 0 diff changeset	3 import re
0 a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	4 import sys
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	5 import optparse
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	6 import csv
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	7 from rpy import *
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	8
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	9 def main():
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	10 parser = optparse.OptionParser()
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	11 parser.add_option('-s', '--snp_vcf', dest = 'snp_vcf', action = 'store', type = 'string', default = None, help = "VCF of SNPs")
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	12 parser.add_option('-c', '--hist_color', dest = 'hist_color', action = 'store', type = 'string', default = "darkgray", help = "Color for 1Mb histograms")
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	13 parser.add_option('-y', '--ylim', dest = 'ylim', action = 'store', type = 'int', default= 100, help = "Upper limit of Y axis")
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	14 parser.add_option('-z', '--standardize', dest = 'standardize', default= 'false', help = "Standardize X-axis")
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	15 parser.add_option('-e', '--ems', dest = 'ems', default= 'false', help = "Whether EMS variants should be filtered for")
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	16 parser.add_option('-o', '--output', dest = 'plot_output', action = 'store', type = 'string', default = 'EMS_Variant_Density_Plot.pdf', help = "Output file name of plot")
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	17 (options, args) = parser.parse_args()
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	18
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	19
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	20 i, ii, iii, iv, v, x = parse_snp_vcf(snp_vcf = options.snp_vcf, ems=options.ems)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	21 create_histograms(plot_output = options.plot_output, hist_color=options.hist_color, ylim=options.ylim, ems=options.ems, standardize=options.standardize, i = i, ii = ii, iii = iii, iv = iv, v = v, x = x)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	22
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	23 def create_histograms(plot_output = None, hist_color=None, ylim=None, ems=None, standardize=None , i = None, ii = None, iii = None, iv = None, v = None, x = None):
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	24 breaks = { 'I' : 16 , 'II' : 16, 'III' : 14, 'IV' : 18, 'V' : 21, 'X' : 18 }
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	25
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	26 try:
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	27 r.pdf(plot_output, 8, 8)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	28 if len(i) > 0:
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	29 plot_data(position_list = i, chr = "I", breaks = breaks["I"], hist_color=hist_color, ylim=ylim, ems=ems, standardize=standardize)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	30 if len(ii) > 0:
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	31 plot_data(position_list = ii, chr = "II", breaks = breaks["II"], hist_color=hist_color, ylim=ylim, ems=ems, standardize=standardize)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	32 if len(iii) > 0:
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	33 plot_data(position_list = iii, chr = "III", breaks = breaks["III"], hist_color=hist_color, ylim=ylim, ems=ems, standardize=standardize)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	34 if len(iv) > 0:
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	35 plot_data(position_list = iv, chr = "IV", breaks = breaks["IV"], hist_color=hist_color, ylim=ylim, ems=ems, standardize=standardize)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	36 if len(v) > 0:
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	37 plot_data(position_list = v, chr = "V", breaks = breaks["V"], hist_color=hist_color, ylim=ylim, ems=ems, standardize=standardize)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	38 if len(x) > 0:
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	39 plot_data(position_list = x, chr = "X", breaks = breaks["X"], hist_color=hist_color, ylim=ylim, ems=ems, standardize=standardize)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	40 r.dev_off()
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	41 except Exception as inst:
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	42 print inst
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	43 print "There was an error creating the plot pdf... Please try again"
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	44
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	45 def parse_snp_vcf(snp_vcf = None, ems=None):
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	46 i_file = open(snp_vcf, 'rU')
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	47 reader = csv.reader(i_file, delimiter = '\t', quoting = csv.QUOTE_NONE)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	48
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	49 skip_headers(reader = reader, i_file = i_file)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	50
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	51 i_position_list = []
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	52 ii_position_list = []
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	53 iii_position_list = []
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	54 iv_position_list = []
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	55 v_position_list = []
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	56 x_position_list = []
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	57
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	58 for row in reader:
4 d2158e476320 Uploaded gregory-minevich parents: 0 diff changeset	59 chromosome = row[0].upper()
d2158e476320 Uploaded gregory-minevich parents: 0 diff changeset	60 chromosome = re.sub("chr", "", chromosome, flags = re.IGNORECASE)
d2158e476320 Uploaded gregory-minevich parents: 0 diff changeset	61 chromosome = re.sub("CHROMOSOME_", "", chromosome, flags = re.IGNORECASE)
d2158e476320 Uploaded gregory-minevich parents: 0 diff changeset	62
0 a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	63 position = row[1]
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	64 ref_allele = row[3]
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	65 alt_allele = row[4]
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	66
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	67 if (ems=='true'):
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	68 if (ref_allele =="G" or ref_allele =="C") and (alt_allele =="A" or alt_allele =="T"):
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	69 if chromosome == "I":
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	70 i_position_list.append(position)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	71 elif chromosome == "II":
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	72 ii_position_list.append(position)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	73 elif chromosome == "III":
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	74 iii_position_list.append(position)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	75 elif chromosome == "IV":
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	76 iv_position_list.append(position)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	77 elif chromosome == "V":
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	78 v_position_list.append(position)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	79 elif chromosome == "X":
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	80 x_position_list.append(position)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	81 elif (ems=='false'):
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	82 if chromosome == "I":
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	83 i_position_list.append(position)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	84 elif chromosome == "II":
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	85 ii_position_list.append(position)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	86 elif chromosome == "III":
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	87 iii_position_list.append(position)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	88 elif chromosome == "IV":
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	89 iv_position_list.append(position)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	90 elif chromosome == "V":
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	91 v_position_list.append(position)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	92 elif chromosome == "X":
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	93 x_position_list.append(position)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	94
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	95 return i_position_list, ii_position_list, iii_position_list, iv_position_list, v_position_list, x_position_list
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	96
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	97 def skip_headers(reader = None, i_file = None):
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	98 # count headers
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	99 comment = 0
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	100 while reader.next()[0].startswith('#'):
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	101 comment = comment + 1
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	102
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	103 # skip headers
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	104 i_file.seek(0)
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	105 for i in range(0, comment):
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	106 reader.next()
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	107
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	108 def plot_data(position_list = None, chr = None, breaks = None, hist_color=None, ylim = None, ems=None, standardize=None):
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	109 positions = ",".join(map(str, map(lambda x: float(x) / 1000000, position_list)))
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	110 positions = "c(" + positions + ")"
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	111
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	112 if (standardize=='true'):
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	113 r("hist(" + positions + ", xlim=c(0,21), ylim=c(0, %d "%ylim +"),col='"+ hist_color + "', breaks = seq(0, as.integer( ' " + str(breaks) + " '), by=1), main = 'LG " + chr + "', ylab = 'Frequency Of SNPs', xlab = 'Location (Mb)')")
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	114 r("hist(" + positions + ", xlim=c(0,21), add=TRUE, ylim=c(0, %d "%ylim +"), col=rgb(1, 0, 0, 1), breaks = seq(0, as.integer( ' " + str(breaks) + " '), by=.5), main = 'Chr " + chr + "', ylab = 'Number Of SNPs', xlab = 'Location (Mb)')")
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	115 r("axis(1, at=seq(0, 21, by=1), labels=FALSE, tcl=-0.5)")
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	116 r("axis(1, at=seq(0, 21, by=0.5), labels=FALSE, tcl=-0.25)")
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	117 elif (standardize=='false'):
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	118 r("hist(" + positions + ", xlim=c(0,as.integer( ' " + str(breaks) + " ')), ylim=c(0, %d "%ylim +"),col='"+ hist_color + "', breaks = seq(0, as.integer( ' " + str(breaks) + " '), by=1), main = 'LG " + chr + "', ylab = 'Frequency Of SNPs', xlab = 'Location (Mb)')")
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	119 r("hist(" + positions + ", xlim=c(0,as.integer( ' " + str(breaks) + " ')), add=TRUE, ylim=c(0, %d "%ylim +"), col=rgb(1, 0, 0, 1), breaks = seq(0, as.integer( ' " + str(breaks) + " '), by=.5), main = 'Chr " + chr + "', ylab = 'Number Of SNPs', xlab = 'Location (Mb)')")
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	120 r("axis(1, at=seq(0, as.integer( ' " + str(breaks) + " '), by=1), labels=FALSE, tcl=-0.5)")
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	121 r("axis(1, at=seq(0, as.integer( ' " + str(breaks) + " '), by=0.5), labels=FALSE, tcl=-0.25)")
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	122
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	123
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	124
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	125 if __name__ == "__main__":
a43cb9a57a9a Uploaded gregory-minevich parents: diff changeset	126 main()

Mercurial > repos > gregory-minevich > ems_variant_density_mapping

annotate EMS_VariantDensityMapping.py @ 4:d2158e476320 draft