flanking_features: flanking_features.py annotate

annotate flanking_features.py @ 0:90100b587723 draft

Imported from capsule None

author	devteam
date	Tue, 01 Apr 2014 10:52:59 -0400
parents
children	8307665c4b6c

rev	line source
0 90100b587723 Imported from capsule None devteam parents: diff changeset	1 #!/usr/bin/env python
90100b587723 Imported from capsule None devteam parents: diff changeset	2 #By: Guruprasad Ananda
90100b587723 Imported from capsule None devteam parents: diff changeset	3 """
90100b587723 Imported from capsule None devteam parents: diff changeset	4 Fetch closest up/downstream interval from features corresponding to every interval in primary
90100b587723 Imported from capsule None devteam parents: diff changeset	5
90100b587723 Imported from capsule None devteam parents: diff changeset	6 usage: %prog primary_file features_file out_file direction
90100b587723 Imported from capsule None devteam parents: diff changeset	7 -1, --cols1=N,N,N,N: Columns for start, end, strand in first file
90100b587723 Imported from capsule None devteam parents: diff changeset	8 -2, --cols2=N,N,N,N: Columns for start, end, strand in second file
90100b587723 Imported from capsule None devteam parents: diff changeset	9 -G, --gff1: input 1 is GFF format, meaning start and end coordinates are 1-based, closed interval
90100b587723 Imported from capsule None devteam parents: diff changeset	10 -H, --gff2: input 2 is GFF format, meaning start and end coordinates are 1-based, closed interval
90100b587723 Imported from capsule None devteam parents: diff changeset	11 """
90100b587723 Imported from capsule None devteam parents: diff changeset	12
90100b587723 Imported from capsule None devteam parents: diff changeset	13 import sys, traceback, fileinput
90100b587723 Imported from capsule None devteam parents: diff changeset	14 from warnings import warn
90100b587723 Imported from capsule None devteam parents: diff changeset	15 from bx.cookbook import doc_optparse
90100b587723 Imported from capsule None devteam parents: diff changeset	16 from galaxy.tools.util.galaxyops import *
90100b587723 Imported from capsule None devteam parents: diff changeset	17 from bx.intervals.io import *
90100b587723 Imported from capsule None devteam parents: diff changeset	18 from bx.intervals.operations import quicksect
90100b587723 Imported from capsule None devteam parents: diff changeset	19 from utils.gff_util import *
90100b587723 Imported from capsule None devteam parents: diff changeset	20
90100b587723 Imported from capsule None devteam parents: diff changeset	21 assert sys.version_info[:2] >= ( 2, 4 )
90100b587723 Imported from capsule None devteam parents: diff changeset	22
90100b587723 Imported from capsule None devteam parents: diff changeset	23 def get_closest_feature (node, direction, threshold_up, threshold_down, report_func_up, report_func_down):
90100b587723 Imported from capsule None devteam parents: diff changeset	24 #direction=1 for +ve strand upstream and -ve strand downstream cases; and it is 0 for +ve strand downstream and -ve strand upstream cases
90100b587723 Imported from capsule None devteam parents: diff changeset	25 #threhold_Up is equal to the interval start for +ve strand, and interval end for -ve strand
90100b587723 Imported from capsule None devteam parents: diff changeset	26 #threhold_down is equal to the interval end for +ve strand, and interval start for -ve strand
90100b587723 Imported from capsule None devteam parents: diff changeset	27 if direction == 1:
90100b587723 Imported from capsule None devteam parents: diff changeset	28 if node.maxend <= threshold_up:
90100b587723 Imported from capsule None devteam parents: diff changeset	29 if node.end == node.maxend:
90100b587723 Imported from capsule None devteam parents: diff changeset	30 report_func_up(node)
90100b587723 Imported from capsule None devteam parents: diff changeset	31 elif node.right and node.left:
90100b587723 Imported from capsule None devteam parents: diff changeset	32 if node.right.maxend == node.maxend:
90100b587723 Imported from capsule None devteam parents: diff changeset	33 get_closest_feature(node.right, direction, threshold_up, threshold_down, report_func_up, report_func_down)
90100b587723 Imported from capsule None devteam parents: diff changeset	34 elif node.left.maxend == node.maxend:
90100b587723 Imported from capsule None devteam parents: diff changeset	35 get_closest_feature(node.left, direction, threshold_up, threshold_down, report_func_up, report_func_down)
90100b587723 Imported from capsule None devteam parents: diff changeset	36 elif node.right and node.right.maxend == node.maxend:
90100b587723 Imported from capsule None devteam parents: diff changeset	37 get_closest_feature(node.right, direction, threshold_up, threshold_down, report_func_up, report_func_down)
90100b587723 Imported from capsule None devteam parents: diff changeset	38 elif node.left and node.left.maxend == node.maxend:
90100b587723 Imported from capsule None devteam parents: diff changeset	39 get_closest_feature(node.left, direction, threshold_up, threshold_down, report_func_up, report_func_down)
90100b587723 Imported from capsule None devteam parents: diff changeset	40 elif node.minend <= threshold_up:
90100b587723 Imported from capsule None devteam parents: diff changeset	41 if node.end <= threshold_up:
90100b587723 Imported from capsule None devteam parents: diff changeset	42 report_func_up(node)
90100b587723 Imported from capsule None devteam parents: diff changeset	43 if node.left and node.right:
90100b587723 Imported from capsule None devteam parents: diff changeset	44 if node.right.minend <= threshold_up:
90100b587723 Imported from capsule None devteam parents: diff changeset	45 get_closest_feature(node.right, direction, threshold_up, threshold_down, report_func_up, report_func_down)
90100b587723 Imported from capsule None devteam parents: diff changeset	46 if node.left.minend <= threshold_up:
90100b587723 Imported from capsule None devteam parents: diff changeset	47 get_closest_feature(node.left, direction, threshold_up, threshold_down, report_func_up, report_func_down)
90100b587723 Imported from capsule None devteam parents: diff changeset	48 elif node.left:
90100b587723 Imported from capsule None devteam parents: diff changeset	49 if node.left.minend <= threshold_up:
90100b587723 Imported from capsule None devteam parents: diff changeset	50 get_closest_feature(node.left, direction, threshold_up, threshold_down, report_func_up, report_func_down)
90100b587723 Imported from capsule None devteam parents: diff changeset	51 elif node.right:
90100b587723 Imported from capsule None devteam parents: diff changeset	52 if node.right.minend <= threshold_up:
90100b587723 Imported from capsule None devteam parents: diff changeset	53 get_closest_feature(node.right, direction, threshold_up, threshold_down, report_func_up, report_func_down)
90100b587723 Imported from capsule None devteam parents: diff changeset	54 elif direction == 0:
90100b587723 Imported from capsule None devteam parents: diff changeset	55 if node.start > threshold_down:
90100b587723 Imported from capsule None devteam parents: diff changeset	56 report_func_down(node)
90100b587723 Imported from capsule None devteam parents: diff changeset	57 if node.left:
90100b587723 Imported from capsule None devteam parents: diff changeset	58 get_closest_feature(node.left, direction, threshold_up, threshold_down, report_func_up, report_func_down)
90100b587723 Imported from capsule None devteam parents: diff changeset	59 else:
90100b587723 Imported from capsule None devteam parents: diff changeset	60 if node.right:
90100b587723 Imported from capsule None devteam parents: diff changeset	61 get_closest_feature(node.right, direction, threshold_up, threshold_down, report_func_up, report_func_down)
90100b587723 Imported from capsule None devteam parents: diff changeset	62
90100b587723 Imported from capsule None devteam parents: diff changeset	63 def proximal_region_finder(readers, region, comments=True):
90100b587723 Imported from capsule None devteam parents: diff changeset	64 """
90100b587723 Imported from capsule None devteam parents: diff changeset	65 Returns an iterator that yields elements of the form [ <original_interval>, <closest_feature> ].
90100b587723 Imported from capsule None devteam parents: diff changeset	66 Intervals are GenomicInterval objects.
90100b587723 Imported from capsule None devteam parents: diff changeset	67 """
90100b587723 Imported from capsule None devteam parents: diff changeset	68 primary = readers[0]
90100b587723 Imported from capsule None devteam parents: diff changeset	69 features = readers[1]
90100b587723 Imported from capsule None devteam parents: diff changeset	70 either = False
90100b587723 Imported from capsule None devteam parents: diff changeset	71 if region == 'Upstream':
90100b587723 Imported from capsule None devteam parents: diff changeset	72 up, down = True, False
90100b587723 Imported from capsule None devteam parents: diff changeset	73 elif region == 'Downstream':
90100b587723 Imported from capsule None devteam parents: diff changeset	74 up, down = False, True
90100b587723 Imported from capsule None devteam parents: diff changeset	75 else:
90100b587723 Imported from capsule None devteam parents: diff changeset	76 up, down = True, True
90100b587723 Imported from capsule None devteam parents: diff changeset	77 if region == 'Either':
90100b587723 Imported from capsule None devteam parents: diff changeset	78 either = True
90100b587723 Imported from capsule None devteam parents: diff changeset	79
90100b587723 Imported from capsule None devteam parents: diff changeset	80 # Read features into memory:
90100b587723 Imported from capsule None devteam parents: diff changeset	81 rightTree = quicksect.IntervalTree()
90100b587723 Imported from capsule None devteam parents: diff changeset	82 for item in features:
90100b587723 Imported from capsule None devteam parents: diff changeset	83 if type( item ) is GenomicInterval:
90100b587723 Imported from capsule None devteam parents: diff changeset	84 rightTree.insert( item, features.linenum, item )
90100b587723 Imported from capsule None devteam parents: diff changeset	85
90100b587723 Imported from capsule None devteam parents: diff changeset	86 for interval in primary:
90100b587723 Imported from capsule None devteam parents: diff changeset	87 if type( interval ) is Header:
90100b587723 Imported from capsule None devteam parents: diff changeset	88 yield interval
90100b587723 Imported from capsule None devteam parents: diff changeset	89 if type( interval ) is Comment and comments:
90100b587723 Imported from capsule None devteam parents: diff changeset	90 yield interval
90100b587723 Imported from capsule None devteam parents: diff changeset	91 elif type( interval ) == GenomicInterval:
90100b587723 Imported from capsule None devteam parents: diff changeset	92 chrom = interval.chrom
90100b587723 Imported from capsule None devteam parents: diff changeset	93 start = int(interval.start)
90100b587723 Imported from capsule None devteam parents: diff changeset	94 end = int(interval.end)
90100b587723 Imported from capsule None devteam parents: diff changeset	95 strand = interval.strand
90100b587723 Imported from capsule None devteam parents: diff changeset	96 if chrom not in rightTree.chroms:
90100b587723 Imported from capsule None devteam parents: diff changeset	97 continue
90100b587723 Imported from capsule None devteam parents: diff changeset	98 else:
90100b587723 Imported from capsule None devteam parents: diff changeset	99 root = rightTree.chroms[chrom] #root node for the chrom tree
90100b587723 Imported from capsule None devteam parents: diff changeset	100 result_up = []
90100b587723 Imported from capsule None devteam parents: diff changeset	101 result_down = []
90100b587723 Imported from capsule None devteam parents: diff changeset	102 if (strand == '+' and up) or (strand == '-' and down):
90100b587723 Imported from capsule None devteam parents: diff changeset	103 #upstream +ve strand and downstream -ve strand cases
90100b587723 Imported from capsule None devteam parents: diff changeset	104 get_closest_feature (root, 1, start, None, lambda node: result_up.append( node ), None)
90100b587723 Imported from capsule None devteam parents: diff changeset	105
90100b587723 Imported from capsule None devteam parents: diff changeset	106 if (strand == '+' and down) or (strand == '-' and up):
90100b587723 Imported from capsule None devteam parents: diff changeset	107 #downstream +ve strand and upstream -ve strand case
90100b587723 Imported from capsule None devteam parents: diff changeset	108 get_closest_feature (root, 0, None, end-1, None, lambda node: result_down.append( node ))
90100b587723 Imported from capsule None devteam parents: diff changeset	109
90100b587723 Imported from capsule None devteam parents: diff changeset	110 if result_up:
90100b587723 Imported from capsule None devteam parents: diff changeset	111 if len(result_up) > 1: #The results_up list has a list of intervals upstream to the given interval.
90100b587723 Imported from capsule None devteam parents: diff changeset	112 ends = []
90100b587723 Imported from capsule None devteam parents: diff changeset	113 for n in result_up:
90100b587723 Imported from capsule None devteam parents: diff changeset	114 ends.append(n.end)
90100b587723 Imported from capsule None devteam parents: diff changeset	115 res_ind = ends.index(max(ends)) #fetch the index of the closest interval i.e. the interval with the max end from the results_up list
90100b587723 Imported from capsule None devteam parents: diff changeset	116 else:
90100b587723 Imported from capsule None devteam parents: diff changeset	117 res_ind = 0
90100b587723 Imported from capsule None devteam parents: diff changeset	118 if not(either):
90100b587723 Imported from capsule None devteam parents: diff changeset	119 yield [ interval, result_up[res_ind].other ]
90100b587723 Imported from capsule None devteam parents: diff changeset	120
90100b587723 Imported from capsule None devteam parents: diff changeset	121 if result_down:
90100b587723 Imported from capsule None devteam parents: diff changeset	122 if not(either):
90100b587723 Imported from capsule None devteam parents: diff changeset	123 #The last element of result_down will be the closest element to the given interval
90100b587723 Imported from capsule None devteam parents: diff changeset	124 yield [ interval, result_down[-1].other ]
90100b587723 Imported from capsule None devteam parents: diff changeset	125
90100b587723 Imported from capsule None devteam parents: diff changeset	126 if either and (result_up or result_down):
90100b587723 Imported from capsule None devteam parents: diff changeset	127 iter_val = []
90100b587723 Imported from capsule None devteam parents: diff changeset	128 if result_up and result_down:
90100b587723 Imported from capsule None devteam parents: diff changeset	129 if abs(start - int(result_up[res_ind].end)) <= abs(end - int(result_down[-1].start)):
90100b587723 Imported from capsule None devteam parents: diff changeset	130 iter_val = [ interval, result_up[res_ind].other ]
90100b587723 Imported from capsule None devteam parents: diff changeset	131 else:
90100b587723 Imported from capsule None devteam parents: diff changeset	132 #The last element of result_down will be the closest element to the given interval
90100b587723 Imported from capsule None devteam parents: diff changeset	133 iter_val = [ interval, result_down[-1].other ]
90100b587723 Imported from capsule None devteam parents: diff changeset	134 elif result_up:
90100b587723 Imported from capsule None devteam parents: diff changeset	135 iter_val = [ interval, result_up[res_ind].other ]
90100b587723 Imported from capsule None devteam parents: diff changeset	136 elif result_down:
90100b587723 Imported from capsule None devteam parents: diff changeset	137 #The last element of result_down will be the closest element to the given interval
90100b587723 Imported from capsule None devteam parents: diff changeset	138 iter_val = [ interval, result_down[-1].other ]
90100b587723 Imported from capsule None devteam parents: diff changeset	139 yield iter_val
90100b587723 Imported from capsule None devteam parents: diff changeset	140
90100b587723 Imported from capsule None devteam parents: diff changeset	141 def main():
90100b587723 Imported from capsule None devteam parents: diff changeset	142 options, args = doc_optparse.parse( __doc__ )
90100b587723 Imported from capsule None devteam parents: diff changeset	143 try:
90100b587723 Imported from capsule None devteam parents: diff changeset	144 chr_col_1, start_col_1, end_col_1, strand_col_1 = parse_cols_arg( options.cols1 )
90100b587723 Imported from capsule None devteam parents: diff changeset	145 chr_col_2, start_col_2, end_col_2, strand_col_2 = parse_cols_arg( options.cols2 )
90100b587723 Imported from capsule None devteam parents: diff changeset	146 in1_gff_format = bool( options.gff1 )
90100b587723 Imported from capsule None devteam parents: diff changeset	147 in2_gff_format = bool( options.gff2 )
90100b587723 Imported from capsule None devteam parents: diff changeset	148 in_fname, in2_fname, out_fname, direction = args
90100b587723 Imported from capsule None devteam parents: diff changeset	149 except:
90100b587723 Imported from capsule None devteam parents: diff changeset	150 doc_optparse.exception()
90100b587723 Imported from capsule None devteam parents: diff changeset	151
90100b587723 Imported from capsule None devteam parents: diff changeset	152 # Set readers to handle either GFF or default format.
90100b587723 Imported from capsule None devteam parents: diff changeset	153 if in1_gff_format:
90100b587723 Imported from capsule None devteam parents: diff changeset	154 in1_reader_wrapper = GFFIntervalToBEDReaderWrapper
90100b587723 Imported from capsule None devteam parents: diff changeset	155 else:
90100b587723 Imported from capsule None devteam parents: diff changeset	156 in1_reader_wrapper = NiceReaderWrapper
90100b587723 Imported from capsule None devteam parents: diff changeset	157 if in2_gff_format:
90100b587723 Imported from capsule None devteam parents: diff changeset	158 in2_reader_wrapper = GFFIntervalToBEDReaderWrapper
90100b587723 Imported from capsule None devteam parents: diff changeset	159 else:
90100b587723 Imported from capsule None devteam parents: diff changeset	160 in2_reader_wrapper = NiceReaderWrapper
90100b587723 Imported from capsule None devteam parents: diff changeset	161
90100b587723 Imported from capsule None devteam parents: diff changeset	162 g1 = in1_reader_wrapper( fileinput.FileInput( in_fname ),
90100b587723 Imported from capsule None devteam parents: diff changeset	163 chrom_col=chr_col_1,
90100b587723 Imported from capsule None devteam parents: diff changeset	164 start_col=start_col_1,
90100b587723 Imported from capsule None devteam parents: diff changeset	165 end_col=end_col_1,
90100b587723 Imported from capsule None devteam parents: diff changeset	166 strand_col=strand_col_1,
90100b587723 Imported from capsule None devteam parents: diff changeset	167 fix_strand=True )
90100b587723 Imported from capsule None devteam parents: diff changeset	168 g2 = in2_reader_wrapper( fileinput.FileInput( in2_fname ),
90100b587723 Imported from capsule None devteam parents: diff changeset	169 chrom_col=chr_col_2,
90100b587723 Imported from capsule None devteam parents: diff changeset	170 start_col=start_col_2,
90100b587723 Imported from capsule None devteam parents: diff changeset	171 end_col=end_col_2,
90100b587723 Imported from capsule None devteam parents: diff changeset	172 strand_col=strand_col_2,
90100b587723 Imported from capsule None devteam parents: diff changeset	173 fix_strand=True )
90100b587723 Imported from capsule None devteam parents: diff changeset	174
90100b587723 Imported from capsule None devteam parents: diff changeset	175 # Find flanking features.
90100b587723 Imported from capsule None devteam parents: diff changeset	176 out_file = open( out_fname, "w" )
90100b587723 Imported from capsule None devteam parents: diff changeset	177 try:
90100b587723 Imported from capsule None devteam parents: diff changeset	178 for result in proximal_region_finder([g1,g2], direction):
90100b587723 Imported from capsule None devteam parents: diff changeset	179 if type( result ) is list:
90100b587723 Imported from capsule None devteam parents: diff changeset	180 line, closest_feature = result
90100b587723 Imported from capsule None devteam parents: diff changeset	181 # Need to join outputs differently depending on file types.
90100b587723 Imported from capsule None devteam parents: diff changeset	182 if in1_gff_format:
90100b587723 Imported from capsule None devteam parents: diff changeset	183 # Output is GFF with added attribute 'closest feature.'
90100b587723 Imported from capsule None devteam parents: diff changeset	184
90100b587723 Imported from capsule None devteam parents: diff changeset	185 # Invervals are in BED coordinates; need to convert to GFF.
90100b587723 Imported from capsule None devteam parents: diff changeset	186 line = convert_bed_coords_to_gff( line )
90100b587723 Imported from capsule None devteam parents: diff changeset	187 closest_feature = convert_bed_coords_to_gff( closest_feature )
90100b587723 Imported from capsule None devteam parents: diff changeset	188
90100b587723 Imported from capsule None devteam parents: diff changeset	189 # Replace double quotes with single quotes in closest feature's attributes.
90100b587723 Imported from capsule None devteam parents: diff changeset	190 out_file.write( "%s closest_feature \"%s\" \n" %
90100b587723 Imported from capsule None devteam parents: diff changeset	191 ( "\t".join( line.fields ), \
90100b587723 Imported from capsule None devteam parents: diff changeset	192 "\t".join( closest_feature.fields ).replace( "\"", "\\\"" )
90100b587723 Imported from capsule None devteam parents: diff changeset	193 ) )
90100b587723 Imported from capsule None devteam parents: diff changeset	194 else:
90100b587723 Imported from capsule None devteam parents: diff changeset	195 # Output is BED + closest feature fields.
90100b587723 Imported from capsule None devteam parents: diff changeset	196 output_line_fields = []
90100b587723 Imported from capsule None devteam parents: diff changeset	197 output_line_fields.extend( line.fields )
90100b587723 Imported from capsule None devteam parents: diff changeset	198 output_line_fields.extend( closest_feature.fields )
90100b587723 Imported from capsule None devteam parents: diff changeset	199 out_file.write( "%s\n" % ( "\t".join( output_line_fields ) ) )
90100b587723 Imported from capsule None devteam parents: diff changeset	200 else:
90100b587723 Imported from capsule None devteam parents: diff changeset	201 out_file.write( "%s\n" % result )
90100b587723 Imported from capsule None devteam parents: diff changeset	202 except ParseError, exc:
90100b587723 Imported from capsule None devteam parents: diff changeset	203 fail( "Invalid file format: %s" % str( exc ) )
90100b587723 Imported from capsule None devteam parents: diff changeset	204
90100b587723 Imported from capsule None devteam parents: diff changeset	205 print "Direction: %s" %(direction)
90100b587723 Imported from capsule None devteam parents: diff changeset	206 if g1.skipped > 0:
90100b587723 Imported from capsule None devteam parents: diff changeset	207 print skipped( g1, filedesc=" of 1st dataset" )
90100b587723 Imported from capsule None devteam parents: diff changeset	208 if g2.skipped > 0:
90100b587723 Imported from capsule None devteam parents: diff changeset	209 print skipped( g2, filedesc=" of 2nd dataset" )
90100b587723 Imported from capsule None devteam parents: diff changeset	210
90100b587723 Imported from capsule None devteam parents: diff changeset	211 if __name__ == "__main__":
90100b587723 Imported from capsule None devteam parents: diff changeset	212 main()

Mercurial > repos > devteam > flanking_features

annotate flanking_features.py @ 0:90100b587723 draft