proteomic_cravat_score_and_annotate: cravat

annotate cravat_submit.py @ 4:5e0334dc65f0 draft default tip

Altered the title of the output collection to include the word "Results".

author	rsajulga
date	Thu, 17 May 2018 22:40:09 -0400
parents	676c8be98be4
children

rev	line source
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	1 import requests
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	2 import json
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	3 import time
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	4 import urllib
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	5 import sys
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	6 import csv
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	7 import re
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	8 import math
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	9 from difflib import SequenceMatcher
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	10 from xml.etree import ElementTree as ET
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	11 import sqlite3
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	12
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	13 try:
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	14 input_filename = sys.argv[1]
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	15 input_select_bar = sys.argv[2]
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	16 GRCh_build = sys.argv[3]
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	17 probed_filename = sys.argv[4]
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	18 output_filename = sys.argv[5]
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	19 file_3 = sys.argv[6]
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	20 file_4 = sys.argv[7]
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	21 file_5 = sys.argv[8]
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	22 except:
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	23 # Filenames for testing.
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	24 input_filename = 'input/Galaxy68-[VCF-BEDintersect__on_data_65_and_data_6].vcf'
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	25 input_select_bar = 'VEST'
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	26 GRCh_build = 'GRCh38'
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	27 output_filename = 'combined_variants.tsv'
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	28 probed_filename = 'input/Galaxy66-[PepPointer].bed'
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	29 file_3 = 'output/Gene_Level_Analysis.tsv'
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	30 file_4 = 'output/Variant_Non-coding.Result.tsv'
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	31 file_5 = 'output/Input_Errors.Result.tsv'
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	32 matches_filename = 'matches.tsv'
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	33
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	34 def getSequence(transcript_id):
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	35 server = 'http://rest.ensembl.org'
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	36 ext = '/sequence/id/' + transcript_id + '?content-type=text/x-seqxml%2Bxml;multiple_sequences=1;type=protein'
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	37 req = requests.get(server+ext, headers={ "Content-Type" : "text/plain"})
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	38
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	39 if not req.ok:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	40 return None
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	41
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	42 root = ET.fromstring(req.content)
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	43 for child in root.iter('AAseq'):
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	44 return child.text
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	45
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	46
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	47 write_header = True
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	48
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	49 GRCh37hg19 = 'off'
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	50 if GRCh_build == 'GRCh37':
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	51 GRCh37hg19 = 'on'
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	52
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	53 #plugs in params to given URL
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	54 submit = requests.post('http://staging.cravat.us/CRAVAT/rest/service/submit', files={'inputfile':open(input_filename)}, data={'email':'znylund@insilico.us.com', 'analyses': input_select_bar, 'hg19': GRCh37hg19})
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	55
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	56 #Makes the data a json dictionary, takes out only the job ID
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	57 jobid = json.loads(submit.text)['jobid']
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	58
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	59 #out_file.write(jobid)
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	60 submitted = json.loads(submit.text)['status']
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	61 #out_file.write('\t' + submitted)
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	62
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	63 input_file = open(input_filename)
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	64
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	65 # Loads the proBED file as a list.
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	66 if (probed_filename != 'None'):
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	67 proBED = []
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	68 with open(probed_filename) as tsvin:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	69 tsvreader = csv.reader(tsvin, delimiter='\t')
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	70 for i, row in enumerate(tsvreader):
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	71 proBED.append(row)
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	72
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	73 #loops until we find a status equal to Success, then breaks
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	74 while True:
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	75 check = requests.get('http://staging.cravat.us/CRAVAT/rest/service/status', params={'jobid': jobid})
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	76 status = json.loads(check.text)['status']
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	77 resultfileurl = json.loads(check.text)['resultfileurl']
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	78 #out_file.write(str(status) + ', ')
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	79 if status == 'Success':
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	80 #out_file.write('\t' + resultfileurl)
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	81 break
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	82 else:
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	83 time.sleep(2)
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	84
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	85 #out_file.write('\n')
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	86
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	87 #creates three files
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	88 file_1 = 'Variant_Result.tsv'
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	89 file_2 = 'Additional_Details.tsv'
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	90 #file_3 = time.strftime("%H:%M") + 'Combined_Variant_Results.tsv'
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	91
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	92 #Downloads the tabular results
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	93 urllib.urlretrieve("http://staging.cravat.us/CRAVAT/results/" + jobid + "/" + "Variant.Result.tsv", file_1)
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	94 urllib.urlretrieve("http://staging.cravat.us/CRAVAT/results/" + jobid + "/" + "Variant_Additional_Details.Result.tsv", file_2)
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	95 urllib.urlretrieve("http://staging.cravat.us/CRAVAT/results/" + jobid + "/" + "Gene_Level_Analysis.Result.tsv", file_3)
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	96 urllib.urlretrieve("http://staging.cravat.us/CRAVAT/results/" + jobid + "/" + "Variant_Non-coding.Result.tsv", file_4)
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	97 urllib.urlretrieve("http://staging.cravat.us/CRAVAT/results/" + jobid + "/" + "Input_Errors.Result.tsv", file_5)
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	98
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	99 #opens the Variant Result file and the Variant Additional Details file as csv readers, then opens the output file (galaxy) as a writer
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	100 with open(file_1) as tsvin_1, open(file_2) as tsvin_2, open(output_filename, 'wb') as tsvout:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	101 tsvreader_2 = csv.reader(tsvin_2, delimiter='\t')
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	102 tsvout = csv.writer(tsvout, delimiter='\t')
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	103
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	104 headers = []
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	105 duplicate_indices = []
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	106 n = 12 #Index for proteogenomic column start
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	107 reg_seq_change = re.compile('([A-Z]+)(\d+)([A-Z]+)')
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	108 SOtranscripts = re.compile('([A-Z]+[\d\.]+):([A-Z]+\d+[A-Z]+)')
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	109 pep_muts = {}
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	110 pep_map = {}
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	111 rows = []
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	112
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	113 for row in tsvreader_2:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	114 if row != [] and row[0][0] != '#':
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	115 #checks if the row begins with input line
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	116 if row[0] == 'Input line':
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	117 vad_headers = row
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	118 else:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	119 # Initially screens through the output Variant Additional Details to catch mutations on same peptide region
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	120 genchrom = row[vad_headers.index('Chromosome')]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	121 genpos = int(row[vad_headers.index('Position')])
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	122 aa_change = row[vad_headers.index('Protein sequence change')]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	123 input_line = row[vad_headers.index('Input line')]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	124
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	125 for peptide in proBED:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	126 pepseq = peptide[3]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	127 pepchrom = peptide[0]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	128 pepposA = int(peptide[1])
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	129 pepposB = int(peptide[2])
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	130 if genchrom == pepchrom and pepposA <= genpos and genpos <= pepposB:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	131 strand = row[vad_headers.index('Strand')]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	132 transcript_strand = row[vad_headers.index('S.O. transcript strand')]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	133
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	134 # Calculates the position of the variant amino acid(s) on peptide
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	135 if transcript_strand == strand:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	136 aa_peppos = int(math.ceil((genpos - pepposA)/3.0) - 1)
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	137 if strand == '-' or transcript_strand == '-' or aa_peppos >= len(pepseq):
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	138 aa_peppos = int(math.floor((pepposB - genpos)/3.0))
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	139 if pepseq in pep_muts:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	140 if aa_change not in pep_muts[pepseq]:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	141 pep_muts[pepseq][aa_change] = [aa_peppos]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	142 else:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	143 if aa_peppos not in pep_muts[pepseq][aa_change]:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	144 pep_muts[pepseq][aa_change].append(aa_peppos)
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	145 else:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	146 pep_muts[pepseq] = {aa_change : [aa_peppos]}
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	147 # Stores the intersect information by mapping Input Line (CRAVAT output) to peptide sequence.
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	148 if input_line in pep_map:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	149 if pepseq not in pep_map[input_line]:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	150 pep_map[input_line].append(pepseq)
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	151 else:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	152 pep_map[input_line] = [pepseq]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	153
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	154 with open(file_1) as tsvin_1, open(file_2) as tsvin_2, open(output_filename, 'wb') as tsvout:
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	155 tsvreader_1 = csv.reader(tsvin_1, delimiter='\t')
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	156 tsvreader_2 = csv.reader(tsvin_2, delimiter='\t')
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	157 tsvout = csv.writer(tsvout, delimiter='\t')
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	158
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	159 headers = []
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	160
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	161 #loops through each row in the Variant Additional Details (VAD) file
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	162 for row in tsvreader_2:
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	163
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	164 #sets row_2 equal to the same row in Variant Result (VR) file
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	165 row_2 = tsvreader_1.next()
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	166 #checks if row is empty or if the first term contains '#'
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	167 if row == [] or row[0][0] == '#':
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	168 tsvout.writerow(row)
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	169 else:
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	170 if row[0] == 'Input line':
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	171 #Goes through each value in the headers list in VAD
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	172 for value in row:
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	173 #Adds each value into headers
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	174 headers.append(value)
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	175 #Loops through the Keys in VR
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	176 for i,value in enumerate(row_2):
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	177 #Checks if the value is already in headers
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	178 if value in headers:
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	179 duplicate_indices.append(i)
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	180 continue
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	181 #else adds the header to headers
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	182 else:
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	183 headers.append(value)
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	184 #Adds appropriate headers when proteomic input is supplied
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	185 if (probed_filename != 'None'):
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	186 headers.insert(n, 'Variant peptide')
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	187 headers.insert(n, 'Reference peptide')
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	188 tsvout.writerow(headers)
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	189 else:
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	190 cells = []
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	191 #Goes through each value in the next list
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	192 for value in row:
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	193 #adds it to cells
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	194 cells.append(value)
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	195 #Goes through each value from the VR file after position 11 (After it is done repeating from VAD file)
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	196 for i,value in enumerate(row_2):
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	197 #adds in the rest of the values to cells
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	198 if i not in duplicate_indices:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	199 # Skips the initial 11 columns and the VEST p-value (already in VR file)
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	200 cells.append(value)
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	201
2 676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	202 # Verifies the peptides intersected previously through sequences obtained from Ensembl's API
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	203 if (probed_filename != 'None'):
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	204 cells.insert(n,'')
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	205 cells.insert(n,'')
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	206 input_line = cells[headers.index('Input line')]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	207 if input_line in pep_map:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	208 pepseq = pep_map[input_line][0]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	209 aa_changes = pep_muts[pepseq]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	210 transcript_id = cells[headers.index('S.O. transcript')]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	211 ref_fullseq = getSequence(transcript_id)
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	212 # Checks the other S.O. transcripts if the primary S.O. transcript has no sequence available
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	213 if not ref_fullseq:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	214 transcripts = cells[headers.index('S.O. all transcripts')]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	215 for transcript in transcripts.split(','):
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	216 if transcript:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	217 mat = SOtranscripts.search(transcript)
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	218 ref_fullseq = getSequence(mat.group(1))
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	219 if ref_fullseq:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	220 aa_changes = {mat.group(2): [aa_changes.values()[0][0]]}
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	221 break
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	222 # Resubmits the previous transcripts without extensions if all S.O. transcripts fail to provide a sequence
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	223 if not ref_fullseq:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	224 transcripts = cells[headers.index('S.O. all transcripts')]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	225 for transcript in transcripts.split(','):
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	226 if transcript:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	227 mat = SOtranscripts.search(transcript)
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	228 ref_fullseq = getSequence(mat.group(1).split('.')[0])
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	229 if ref_fullseq:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	230 aa_changes = {mat.group(2): [aa_changes.values()[0][0]]}
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	231 break
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	232 if ref_fullseq:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	233 # Sorts the amino acid changes
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	234 positions = {}
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	235 for aa_change in aa_changes:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	236 m = reg_seq_change.search(aa_change)
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	237 aa_protpos = int(m.group(2))
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	238 aa_peppos = aa_changes[aa_change][0]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	239 aa_startpos = aa_protpos - aa_peppos - 1
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	240 if aa_startpos in positions:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	241 positions[aa_startpos].append(aa_change)
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	242 else:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	243 positions[aa_startpos] = [aa_change]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	244 # Goes through the sorted categories to mutate the Ensembl peptide (uses proBED peptide as a reference)
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	245 for pep_protpos in positions:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	246 ref_seq = ref_fullseq[pep_protpos:pep_protpos+len(pepseq)]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	247 muts = positions[pep_protpos]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	248 options = []
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	249 mut_seq = ref_seq
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	250 for mut in muts:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	251 m = reg_seq_change.search(mut)
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	252 ref_aa = m.group(1)
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	253 mut_pos = int(m.group(2))
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	254 alt_aa = m.group(3)
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	255 pep_mutpos = mut_pos - pep_protpos - 1
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	256 if ref_seq[pep_mutpos] == ref_aa and (pepseq[pep_mutpos] == alt_aa or pepseq[pep_mutpos] == ref_aa):
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	257 if pepseq[pep_mutpos] == ref_aa:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	258 mut_seq = mut_seq[:pep_mutpos] + ref_aa + mut_seq[pep_mutpos+1:]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	259 else:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	260 mut_seq = mut_seq[:pep_mutpos] + alt_aa + mut_seq[pep_mutpos+1:]
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	261 else:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	262 break
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	263 # Adds the mutated peptide and reference peptide if mutated correctly
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	264 if pepseq == mut_seq:
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	265 cells[n+1] = pepseq
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	266 cells[n] = ref_seq
676c8be98be4 Uploaded rsajulga parents: 0 diff changeset	267 #print cells
0 7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	268 tsvout.writerow(cells)
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	269
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	270
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	271
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	272
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	273
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	274
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	275 #a = 'col1\tcol2\tcol3'
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	276 #header_list = a.split('\t')
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	277
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	278 #loop through the two results, when you first hit header you print out the headers in tabular form
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	279 #Print out each header only once
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	280 #Combine both headers into one output file
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	281 #loop through the rest of the data and assign each value to its assigned header
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	282 #combine this all into one output file
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	283
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	284
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	285
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	286
7ebdd4ac13a2 Uploaded rsajulga parents: diff changeset	287

Mercurial > repos > rsajulga > proteomic_cravat_score_and_annotate

annotate cravat_submit.py @ 4:5e0334dc65f0 draft default tip