short_reads_figure_high_quality_length: short_reads_figure_high_quality

annotate short_reads_figure_high_quality_length.py @ 0:556ceed24699 draft

Imported from capsule None

author	devteam
date	Mon, 19 May 2014 12:34:37 -0400
parents
children

rev	line source
0 556ceed24699 Imported from capsule None devteam parents: diff changeset	1 #!/usr/bin/env python
556ceed24699 Imported from capsule None devteam parents: diff changeset	2
556ceed24699 Imported from capsule None devteam parents: diff changeset	3 import os, sys, math, tempfile, zipfile, re
556ceed24699 Imported from capsule None devteam parents: diff changeset	4 from rpy import *
556ceed24699 Imported from capsule None devteam parents: diff changeset	5
556ceed24699 Imported from capsule None devteam parents: diff changeset	6 assert sys.version_info[:2] >= ( 2, 4 )
556ceed24699 Imported from capsule None devteam parents: diff changeset	7
556ceed24699 Imported from capsule None devteam parents: diff changeset	8 def stop_err( msg ):
556ceed24699 Imported from capsule None devteam parents: diff changeset	9 sys.stderr.write( "%s\n" % msg )
556ceed24699 Imported from capsule None devteam parents: diff changeset	10 sys.exit()
556ceed24699 Imported from capsule None devteam parents: diff changeset	11
556ceed24699 Imported from capsule None devteam parents: diff changeset	12 def unzip( filename ):
556ceed24699 Imported from capsule None devteam parents: diff changeset	13 zip_file = zipfile.ZipFile( filename, 'r' )
556ceed24699 Imported from capsule None devteam parents: diff changeset	14 tmpfilename = tempfile.NamedTemporaryFile().name
556ceed24699 Imported from capsule None devteam parents: diff changeset	15 for name in zip_file.namelist():
556ceed24699 Imported from capsule None devteam parents: diff changeset	16 file( tmpfilename, 'a' ).write( zip_file.read( name ) )
556ceed24699 Imported from capsule None devteam parents: diff changeset	17 zip_file.close()
556ceed24699 Imported from capsule None devteam parents: diff changeset	18 return tmpfilename
556ceed24699 Imported from capsule None devteam parents: diff changeset	19
556ceed24699 Imported from capsule None devteam parents: diff changeset	20 def __main__():
556ceed24699 Imported from capsule None devteam parents: diff changeset	21 infile_score_name = sys.argv[1].strip()
556ceed24699 Imported from capsule None devteam parents: diff changeset	22 outfile_R_name = sys.argv[2].strip()
556ceed24699 Imported from capsule None devteam parents: diff changeset	23
556ceed24699 Imported from capsule None devteam parents: diff changeset	24 try:
556ceed24699 Imported from capsule None devteam parents: diff changeset	25 score_threshold = int( sys.argv[3].strip() )
556ceed24699 Imported from capsule None devteam parents: diff changeset	26 except:
556ceed24699 Imported from capsule None devteam parents: diff changeset	27 stop_err( 'Threshold for quality score must be numerical.' )
556ceed24699 Imported from capsule None devteam parents: diff changeset	28
556ceed24699 Imported from capsule None devteam parents: diff changeset	29 infile_is_zipped = False
556ceed24699 Imported from capsule None devteam parents: diff changeset	30 if zipfile.is_zipfile( infile_score_name ):
556ceed24699 Imported from capsule None devteam parents: diff changeset	31 infile_is_zipped = True
556ceed24699 Imported from capsule None devteam parents: diff changeset	32 infile_name = unzip( infile_score_name )
556ceed24699 Imported from capsule None devteam parents: diff changeset	33 else:
556ceed24699 Imported from capsule None devteam parents: diff changeset	34 infile_name = infile_score_name
556ceed24699 Imported from capsule None devteam parents: diff changeset	35
556ceed24699 Imported from capsule None devteam parents: diff changeset	36 # detect whether it's tabular or fasta format
556ceed24699 Imported from capsule None devteam parents: diff changeset	37 seq_method = None
556ceed24699 Imported from capsule None devteam parents: diff changeset	38 data_type = None
556ceed24699 Imported from capsule None devteam parents: diff changeset	39 for i, line in enumerate( file( infile_name ) ):
556ceed24699 Imported from capsule None devteam parents: diff changeset	40 line = line.rstrip( '\r\n' )
556ceed24699 Imported from capsule None devteam parents: diff changeset	41 if not line or line.startswith( '#' ):
556ceed24699 Imported from capsule None devteam parents: diff changeset	42 continue
556ceed24699 Imported from capsule None devteam parents: diff changeset	43 if data_type == None:
556ceed24699 Imported from capsule None devteam parents: diff changeset	44 if line.startswith( '>' ):
556ceed24699 Imported from capsule None devteam parents: diff changeset	45 data_type = 'fasta'
556ceed24699 Imported from capsule None devteam parents: diff changeset	46 continue
556ceed24699 Imported from capsule None devteam parents: diff changeset	47 elif len( line.split( '\t' ) ) > 0:
556ceed24699 Imported from capsule None devteam parents: diff changeset	48 fields = line.split()
556ceed24699 Imported from capsule None devteam parents: diff changeset	49 for score in fields:
556ceed24699 Imported from capsule None devteam parents: diff changeset	50 try:
556ceed24699 Imported from capsule None devteam parents: diff changeset	51 int( score )
556ceed24699 Imported from capsule None devteam parents: diff changeset	52 data_type = 'tabular'
556ceed24699 Imported from capsule None devteam parents: diff changeset	53 seq_method = 'solexa'
556ceed24699 Imported from capsule None devteam parents: diff changeset	54 break
556ceed24699 Imported from capsule None devteam parents: diff changeset	55 except:
556ceed24699 Imported from capsule None devteam parents: diff changeset	56 break
556ceed24699 Imported from capsule None devteam parents: diff changeset	57 elif data_type == 'fasta':
556ceed24699 Imported from capsule None devteam parents: diff changeset	58 fields = line.split()
556ceed24699 Imported from capsule None devteam parents: diff changeset	59 for score in fields:
556ceed24699 Imported from capsule None devteam parents: diff changeset	60 try:
556ceed24699 Imported from capsule None devteam parents: diff changeset	61 int( score )
556ceed24699 Imported from capsule None devteam parents: diff changeset	62 seq_method = '454'
556ceed24699 Imported from capsule None devteam parents: diff changeset	63 break
556ceed24699 Imported from capsule None devteam parents: diff changeset	64 except:
556ceed24699 Imported from capsule None devteam parents: diff changeset	65 break
556ceed24699 Imported from capsule None devteam parents: diff changeset	66 if i == 100:
556ceed24699 Imported from capsule None devteam parents: diff changeset	67 break
556ceed24699 Imported from capsule None devteam parents: diff changeset	68
556ceed24699 Imported from capsule None devteam parents: diff changeset	69 if data_type is None:
556ceed24699 Imported from capsule None devteam parents: diff changeset	70 stop_err( 'This tool can only use fasta data or tabular data.' )
556ceed24699 Imported from capsule None devteam parents: diff changeset	71 if seq_method is None:
556ceed24699 Imported from capsule None devteam parents: diff changeset	72 stop_err( 'Invalid data for fasta format.')
556ceed24699 Imported from capsule None devteam parents: diff changeset	73
556ceed24699 Imported from capsule None devteam parents: diff changeset	74 cont_high_quality = []
556ceed24699 Imported from capsule None devteam parents: diff changeset	75 invalid_lines = 0
556ceed24699 Imported from capsule None devteam parents: diff changeset	76 invalid_scores = 0
556ceed24699 Imported from capsule None devteam parents: diff changeset	77 if seq_method == 'solexa':
556ceed24699 Imported from capsule None devteam parents: diff changeset	78 for i, line in enumerate( open( infile_name ) ):
556ceed24699 Imported from capsule None devteam parents: diff changeset	79 line = line.rstrip( '\r\n' )
556ceed24699 Imported from capsule None devteam parents: diff changeset	80 if not line or line.startswith( '#' ):
556ceed24699 Imported from capsule None devteam parents: diff changeset	81 continue
556ceed24699 Imported from capsule None devteam parents: diff changeset	82 locs = line.split( '\t' )
556ceed24699 Imported from capsule None devteam parents: diff changeset	83 for j, base in enumerate( locs ):
556ceed24699 Imported from capsule None devteam parents: diff changeset	84 nuc_errors = base.split()
556ceed24699 Imported from capsule None devteam parents: diff changeset	85 try:
556ceed24699 Imported from capsule None devteam parents: diff changeset	86 nuc_errors[0] = int( nuc_errors[0] )
556ceed24699 Imported from capsule None devteam parents: diff changeset	87 nuc_errors[1] = int( nuc_errors[1] )
556ceed24699 Imported from capsule None devteam parents: diff changeset	88 nuc_errors[2] = int( nuc_errors[2] )
556ceed24699 Imported from capsule None devteam parents: diff changeset	89 nuc_errors[3] = int( nuc_errors[3] )
556ceed24699 Imported from capsule None devteam parents: diff changeset	90 big = max( nuc_errors )
556ceed24699 Imported from capsule None devteam parents: diff changeset	91 except:
556ceed24699 Imported from capsule None devteam parents: diff changeset	92 invalid_scores += 1
556ceed24699 Imported from capsule None devteam parents: diff changeset	93 big = 0
556ceed24699 Imported from capsule None devteam parents: diff changeset	94 if j == 0:
556ceed24699 Imported from capsule None devteam parents: diff changeset	95 cont_high_quality.append(1)
556ceed24699 Imported from capsule None devteam parents: diff changeset	96 else:
556ceed24699 Imported from capsule None devteam parents: diff changeset	97 if big >= score_threshold:
556ceed24699 Imported from capsule None devteam parents: diff changeset	98 cont_high_quality[ len( cont_high_quality ) - 1 ] += 1
556ceed24699 Imported from capsule None devteam parents: diff changeset	99 else:
556ceed24699 Imported from capsule None devteam parents: diff changeset	100 cont_high_quality.append(1)
556ceed24699 Imported from capsule None devteam parents: diff changeset	101 else: # seq_method == '454'
556ceed24699 Imported from capsule None devteam parents: diff changeset	102 tmp_score = ''
556ceed24699 Imported from capsule None devteam parents: diff changeset	103 for i, line in enumerate( open( infile_name ) ):
556ceed24699 Imported from capsule None devteam parents: diff changeset	104 line = line.rstrip( '\r\n' )
556ceed24699 Imported from capsule None devteam parents: diff changeset	105 if not line or line.startswith( '#' ):
556ceed24699 Imported from capsule None devteam parents: diff changeset	106 continue
556ceed24699 Imported from capsule None devteam parents: diff changeset	107 if line.startswith( '>' ):
556ceed24699 Imported from capsule None devteam parents: diff changeset	108 if len( tmp_score ) > 0:
556ceed24699 Imported from capsule None devteam parents: diff changeset	109 locs = tmp_score.split()
556ceed24699 Imported from capsule None devteam parents: diff changeset	110 for j, base in enumerate( locs ):
556ceed24699 Imported from capsule None devteam parents: diff changeset	111 try:
556ceed24699 Imported from capsule None devteam parents: diff changeset	112 base = int( base )
556ceed24699 Imported from capsule None devteam parents: diff changeset	113 except:
556ceed24699 Imported from capsule None devteam parents: diff changeset	114 invalid_scores += 1
556ceed24699 Imported from capsule None devteam parents: diff changeset	115 base = 0
556ceed24699 Imported from capsule None devteam parents: diff changeset	116 if j == 0:
556ceed24699 Imported from capsule None devteam parents: diff changeset	117 cont_high_quality.append(1)
556ceed24699 Imported from capsule None devteam parents: diff changeset	118 else:
556ceed24699 Imported from capsule None devteam parents: diff changeset	119 if base >= score_threshold:
556ceed24699 Imported from capsule None devteam parents: diff changeset	120 cont_high_quality[ len( cont_high_quality ) - 1 ] += 1
556ceed24699 Imported from capsule None devteam parents: diff changeset	121 else:
556ceed24699 Imported from capsule None devteam parents: diff changeset	122 cont_high_quality.append(1)
556ceed24699 Imported from capsule None devteam parents: diff changeset	123 tmp_score = ''
556ceed24699 Imported from capsule None devteam parents: diff changeset	124 else:
556ceed24699 Imported from capsule None devteam parents: diff changeset	125 tmp_score = "%s %s" % ( tmp_score, line )
556ceed24699 Imported from capsule None devteam parents: diff changeset	126 if len( tmp_score ) > 0:
556ceed24699 Imported from capsule None devteam parents: diff changeset	127 locs = tmp_score.split()
556ceed24699 Imported from capsule None devteam parents: diff changeset	128 for j, base in enumerate( locs ):
556ceed24699 Imported from capsule None devteam parents: diff changeset	129 try:
556ceed24699 Imported from capsule None devteam parents: diff changeset	130 base = int( base )
556ceed24699 Imported from capsule None devteam parents: diff changeset	131 except:
556ceed24699 Imported from capsule None devteam parents: diff changeset	132 invalid_scores += 1
556ceed24699 Imported from capsule None devteam parents: diff changeset	133 base = 0
556ceed24699 Imported from capsule None devteam parents: diff changeset	134 if j == 0:
556ceed24699 Imported from capsule None devteam parents: diff changeset	135 cont_high_quality.append(1)
556ceed24699 Imported from capsule None devteam parents: diff changeset	136 else:
556ceed24699 Imported from capsule None devteam parents: diff changeset	137 if base >= score_threshold:
556ceed24699 Imported from capsule None devteam parents: diff changeset	138 cont_high_quality[ len( cont_high_quality ) - 1 ] += 1
556ceed24699 Imported from capsule None devteam parents: diff changeset	139 else:
556ceed24699 Imported from capsule None devteam parents: diff changeset	140 cont_high_quality.append(1)
556ceed24699 Imported from capsule None devteam parents: diff changeset	141
556ceed24699 Imported from capsule None devteam parents: diff changeset	142 # generate pdf figures
556ceed24699 Imported from capsule None devteam parents: diff changeset	143 cont_high_quality = array ( cont_high_quality )
556ceed24699 Imported from capsule None devteam parents: diff changeset	144 outfile_R_pdf = outfile_R_name
556ceed24699 Imported from capsule None devteam parents: diff changeset	145 r.pdf( outfile_R_pdf )
556ceed24699 Imported from capsule None devteam parents: diff changeset	146 title = "Histogram of continuous high quality scores"
556ceed24699 Imported from capsule None devteam parents: diff changeset	147 xlim_range = [ 1, max( cont_high_quality ) ]
556ceed24699 Imported from capsule None devteam parents: diff changeset	148 nclass = max( cont_high_quality )
556ceed24699 Imported from capsule None devteam parents: diff changeset	149 if nclass > 100:
556ceed24699 Imported from capsule None devteam parents: diff changeset	150 nclass = 100
556ceed24699 Imported from capsule None devteam parents: diff changeset	151 r.hist( cont_high_quality, probability=True, xlab="Continuous High Quality Score length (bp)", ylab="Frequency (%)", xlim=xlim_range, main=title, nclass=nclass)
556ceed24699 Imported from capsule None devteam parents: diff changeset	152 r.dev_off()
556ceed24699 Imported from capsule None devteam parents: diff changeset	153
556ceed24699 Imported from capsule None devteam parents: diff changeset	154 if infile_is_zipped and os.path.exists( infile_name ):
556ceed24699 Imported from capsule None devteam parents: diff changeset	155 # Need to delete temporary file created when we unzipped the infile archive
556ceed24699 Imported from capsule None devteam parents: diff changeset	156 os.remove( infile_name )
556ceed24699 Imported from capsule None devteam parents: diff changeset	157
556ceed24699 Imported from capsule None devteam parents: diff changeset	158 if invalid_lines > 0:
556ceed24699 Imported from capsule None devteam parents: diff changeset	159 print 'Skipped %d invalid lines. ' % invalid_lines
556ceed24699 Imported from capsule None devteam parents: diff changeset	160 if invalid_scores > 0:
556ceed24699 Imported from capsule None devteam parents: diff changeset	161 print 'Skipped %d invalid scores. ' % invalid_scores
556ceed24699 Imported from capsule None devteam parents: diff changeset	162
556ceed24699 Imported from capsule None devteam parents: diff changeset	163 r.quit( save="no" )
556ceed24699 Imported from capsule None devteam parents: diff changeset	164
556ceed24699 Imported from capsule None devteam parents: diff changeset	165 if __name__=="__main__":__main__()

Mercurial > repos > devteam > short_reads_figure_high_quality_length

annotate short_reads_figure_high_quality_length.py @ 0:556ceed24699 draft