get_orfs_or_cdss: tools/filters/get_orfs_or

annotate tools/filters/get_orfs_or_cdss.py @ 0:9cff9a1176ea

Uploaded v0.0.1

author	peterjc
date	Thu, 19 Jan 2012 10:17:10 -0500
parents
children	922d69bd5258

rev	line source
0 9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	1 #!/usr/bin/env python
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	2 """Find ORFs in a nucleotide sequence file.
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	3
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	4 get_orfs_or_cdss.py $input_fasta $input_format $table $ftype $ends $mode $min_len $strand $out_nuc_file $out_prot_file
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	5
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	6 Takes ten command line options, input sequence filename, format, genetic
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	7 code, CDS vs ORF, end type (open, closed), selection mode (all, top, one),
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	8 minimum length (in amino acids), strand (both, forward, reverse), output
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	9 nucleotide filename, and output protein filename.
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	10
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	11 This tool is a short Python script which requires Biopython. If you use
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	12 this tool in scientific work leading to a publication, please cite the
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	13 Biopython application note:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	14
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	15 Cock et al 2009. Biopython: freely available Python tools for computational
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	16 molecular biology and bioinformatics. Bioinformatics 25(11) 1422-3.
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	17 http://dx.doi.org/10.1093/bioinformatics/btp163 pmid:19304878.
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	18
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	19 This script is copyright 2011 by Peter Cock, The James Hutton Institute
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	20 (formerly SCRI), Dundee, UK. All rights reserved.
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	21
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	22 See accompanying text file for licence details (MIT/BSD style).
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	23
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	24 This is version 0.0.1 of the script.
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	25 """
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	26 import sys
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	27 import re
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	28
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	29 def stop_err(msg, err=1):
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	30 sys.stderr.write(msg.rstrip() + "\n")
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	31 sys.exit(err)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	32
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	33 try:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	34 from Bio.Seq import Seq, reverse_complement, translate
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	35 from Bio.SeqRecord import SeqRecord
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	36 from Bio import SeqIO
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	37 from Bio.Data import CodonTable
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	38 except ImportError:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	39 stop_err("Missing Biopython library")
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	40
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	41 #Parse Command Line
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	42 try:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	43 input_file, seq_format, table, ftype, ends, mode, min_len, strand, out_nuc_file, out_prot_file = sys.argv[1:]
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	44 except ValueError:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	45 stop_err("Expected ten arguments, got %i:\n%s" % (len(sys.argv)-1, " ".join(sys.argv)))
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	46
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	47 try:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	48 table = int(table)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	49 except ValueError:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	50 stop_err("Expected integer for genetic code table, got %s" % table)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	51
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	52 try:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	53 table_obj = CodonTable.ambiguous_generic_by_id[table]
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	54 except KeyError:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	55 stop_err("Unknown codon table %i" % table)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	56
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	57 if ftype not in ["CDS", "ORF"]:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	58 stop_err("Expected CDS or ORF, got %s" % ftype)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	59
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	60 if ends not in ["open", "closed"]:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	61 stop_err("Expected open or closed for end treatment, got %s" % ends)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	62
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	63 try:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	64 min_len = int(min_len)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	65 except ValueError:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	66 stop_err("Expected integer for min_len, got %s" % min_len)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	67
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	68 if seq_format.lower()=="sff":
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	69 seq_format = "sff-trim"
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	70 elif seq_format.lower()=="fasta":
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	71 seq_format = "fasta"
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	72 elif seq_format.lower().startswith("fastq"):
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	73 seq_format = "fastq"
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	74 else:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	75 stop_err("Unsupported file type %r" % seq_format)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	76
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	77 print "Genetic code table %i" % table
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	78 print "Minimum length %i aa" % min_len
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	79 #print "Taking %s ORF(s) from %s strand(s)" % (mode, strand)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	80
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	81 starts = sorted(table_obj.start_codons)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	82 assert "NNN" not in starts
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	83 re_starts = re.compile("\|".join(starts))
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	84
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	85 stops = sorted(table_obj.stop_codons)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	86 assert "NNN" not in stops
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	87 re_stops = re.compile("\|".join(stops))
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	88
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	89 def start_chop_and_trans(s, strict=True):
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	90 """Returns offset, trimmed nuc, protein."""
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	91 if strict:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	92 assert s[-3:] in stops, s
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	93 assert len(s) % 3 == 0
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	94 for match in re_starts.finditer(s):
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	95 #Must check the start is in frame
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	96 start = match.start()
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	97 if start % 3 == 0:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	98 n = s[start:]
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	99 assert len(n) % 3 == 0, "%s is len %i" % (n, len(n))
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	100 if strict:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	101 t = translate(n, table, cds=True)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	102 else:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	103 #Use when missing stop codon,
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	104 t = "M" + translate(n[3:], table, to_stop=True)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	105 return start, n, t
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	106 return None, None, None
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	107
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	108 def break_up_frame(s):
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	109 """Returns offset, nuc, protein."""
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	110 start = 0
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	111 for match in re_stops.finditer(s):
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	112 index = match.start() + 3
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	113 if index % 3 != 0:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	114 continue
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	115 n = s[start:index]
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	116 if ftype=="CDS":
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	117 offset, n, t = start_chop_and_trans(n)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	118 else:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	119 offset = 0
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	120 t = translate(n, table, to_stop=True)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	121 if n and len(t) >= min_len:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	122 yield start + offset, n, t
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	123 start = index
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	124 if ends == "open":
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	125 #No stop codon, Biopython's strict CDS translate will fail
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	126 n = s[start:]
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	127 #Ensure we have whole codons
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	128 #TODO - Try appending N instead?
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	129 #TODO - Do the next four lines more elegantly
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	130 if len(n) % 3:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	131 n = n[:-1]
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	132 if len(n) % 3:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	133 n = n[:-1]
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	134 if ftype=="CDS":
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	135 offset, n, t = start_chop_and_trans(n, strict=False)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	136 else:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	137 offset = 0
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	138 t = translate(n, table, to_stop=True)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	139 if n and len(t) >= min_len:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	140 yield start + offset, n, t
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	141
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	142
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	143 def get_all_peptides(nuc_seq):
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	144 """Returns start, end, strand, nucleotides, protein.
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	145
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	146 Co-ordinates are Python style zero-based.
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	147 """
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	148 #TODO - Refactor to use a generator function (in start order)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	149 #rather than making a list and sorting?
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	150 answer = []
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	151 full_len = len(nuc_seq)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	152 if strand != "reverse":
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	153 for frame in range(0,3):
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	154 for offset, n, t in break_up_frame(nuc_seq[frame:]):
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	155 start = frame + offset #zero based
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	156 answer.append((start, start + len(n), +1, n, t))
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	157 if strand != "forward":
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	158 rc = reverse_complement(nuc_seq)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	159 for frame in range(0,3) :
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	160 for offset, n, t in break_up_frame(rc[frame:]):
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	161 start = full_len - frame - offset #zero based
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	162 answer.append((start, start + len(n), -1, n ,t))
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	163 answer.sort()
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	164 return answer
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	165
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	166 def get_top_peptides(nuc_seq):
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	167 """Returns all peptides of max length."""
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	168 values = list(get_all_peptides(nuc_seq))
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	169 if not values:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	170 raise StopIteration
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	171 max_len = max(len(x[-1]) for x in values)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	172 for x in values:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	173 if len(x[-1]) == max_len:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	174 yield x
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	175
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	176 def get_one_peptide(nuc_seq):
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	177 """Returns first (left most) peptide with max length."""
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	178 values = list(get_top_peptides(nuc_seq))
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	179 if not values:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	180 raise StopIteration
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	181 yield values[0]
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	182
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	183 if mode == "all":
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	184 get_peptides = get_all_peptides
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	185 elif mode == "top":
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	186 get_peptides = get_top_peptides
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	187 elif mode == "one":
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	188 get_peptides = get_one_peptide
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	189
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	190 in_count = 0
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	191 out_count = 0
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	192 if out_nuc_file == "-":
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	193 out_nuc = sys.stdout
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	194 else:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	195 out_nuc = open(out_nuc_file, "w")
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	196 if out_prot_file == "-":
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	197 out_prot = sys.stdout
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	198 else:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	199 out_prot = open(out_prot_file, "w")
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	200 for record in SeqIO.parse(input_file, seq_format):
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	201 for i, (f_start, f_end, f_strand, n, t) in enumerate(get_peptides(str(record.seq).upper())):
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	202 out_count += 1
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	203 if f_strand == +1:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	204 loc = "%i..%i" % (f_start+1, f_end)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	205 else:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	206 loc = "complement(%i..%i)" % (f_start+1, f_end)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	207 descr = "length %i aa, %i bp, from %s of %s" \
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	208 % (len(t), len(n), loc, record.description)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	209 r = SeqRecord(Seq(n), id = record.id + "\|%s%i" % (ftype, i+1), name = "", description= descr)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	210 t = SeqRecord(Seq(t), id = record.id + "\|%s%i" % (ftype, i+1), name = "", description= descr)
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	211 SeqIO.write(r, out_nuc, "fasta")
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	212 SeqIO.write(t, out_prot, "fasta")
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	213 in_count += 1
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	214 if out_nuc is not sys.stdout:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	215 out_nuc.close()
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	216 if out_prot is not sys.stdout:
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	217 out_prot.close()
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	218
9cff9a1176ea Uploaded v0.0.1 peterjc parents: diff changeset	219 print "Found %i %ss in %i sequences" % (out_count, ftype, in_count)

Mercurial > repos > peterjc > get_orfs_or_cdss

annotate tools/filters/get_orfs_or_cdss.py @ 0:9cff9a1176ea