shm_csr: baseline/script_imgt.py annotate

annotate baseline/script_imgt.py @ 0:c33d93683a09 draft

Uploaded

author	davidvanzessen
date	Thu, 13 Oct 2016 10:52:24 -0400
parents
children	4c5ba6b5d10d

rev	line source
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	1 #import xlrd #avoid dep
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	2 import argparse
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	3 import re
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	4
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	5 parser = argparse.ArgumentParser()
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	6 parser.add_argument("--input", help="Excel input file containing one or more sheets where column G has the gene annotation, H has the sequence id and J has the sequence")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	7 parser.add_argument("--ref", help="Reference file")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	8 parser.add_argument("--output", help="Output file")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	9 parser.add_argument("--id", help="ID to be used at the '>>>' line in the output")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	10
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	11 args = parser.parse_args()
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	12
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	13 refdic = dict()
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	14 with open(args.ref, 'r') as ref:
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	15 currentSeq = ""
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	16 currentId = ""
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	17 for line in ref:
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	18 if line[0] is ">":
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	19 if currentSeq is not "" and currentId is not "":
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	20 refdic[currentId[1:]] = currentSeq
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	21 currentId = line.rstrip()
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	22 currentSeq = ""
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	23 else:
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	24 currentSeq += line.rstrip()
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	25 refdic[currentId[1:]] = currentSeq
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	26
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	27
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	28 vPattern = [r"(IGHV[0-9]-[0-9ab]+-?[0-9]?D?\*\d{1,2})"]#,
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	29 # r"(TRBV[0-9]{1,2}-?[0-9]?-?[123]?)",
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	30 # r"(IGKV[0-3]D?-[0-9]{1,2})",
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	31 # r"(IGLV[0-9]-[0-9]{1,2})",
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	32 # r"(TRAV[0-9]{1,2}(-[1-46])?(/DV[45678])?)",
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	33 # r"(TRGV[234589])",
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	34 # r"(TRDV[1-3])"]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	35
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	36 #vPattern = re.compile(r"\|".join(vPattern))
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	37 vPattern = re.compile("\|".join(vPattern))
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	38
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	39 def filterGene(s, pattern):
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	40 if type(s) is not str:
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	41 return None
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	42 res = pattern.search(s)
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	43 if res:
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	44 return res.group(0)
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	45 return None
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	46
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	47
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	48
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	49 currentSeq = ""
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	50 currentId = ""
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	51 first=True
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	52 with open(args.input, 'r') as i:
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	53 with open(args.output, 'a') as o:
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	54 o.write(">>>" + args.id + "\n")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	55 outputdic = dict()
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	56 for line in i:
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	57 if first:
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	58 first = False
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	59 continue
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	60 linesplt = line.split("\t")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	61 ref = filterGene(linesplt[1], vPattern)
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	62 if not ref or not linesplt[2].rstrip():
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	63 continue
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	64 if ref in outputdic:
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	65 outputdic[ref] += [(linesplt[0].replace(">", ""), linesplt[2].replace(">", "").rstrip())]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	66 else:
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	67 outputdic[ref] = [(linesplt[0].replace(">", ""), linesplt[2].replace(">", "").rstrip())]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	68 #print outputdic
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	69
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	70 for k in outputdic.keys():
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	71 if k in refdic:
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	72 o.write(">>" + k + "\n")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	73 o.write(refdic[k] + "\n")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	74 for seq in outputdic[k]:
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	75 #print seq
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	76 o.write(">" + seq[0] + "\n")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	77 o.write(seq[1] + "\n")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	78 else:
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	79 print k + " not in reference, skipping " + k

Mercurial > repos > davidvanzessen > shm_csr

annotate baseline/script_imgt.py @ 0:c33d93683a09 draft