data_manager_fetch_genome_all_fasta: data_manager/data_manager_fetch_genome_all

author	devteam
date	Fri, 28 Mar 2014 14:14:24 -0400
parents
children	ac850912d386

rev	line source
0 2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	1 #!/usr/bin/env python
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	2 #Dan Blankenberg
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	3
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	4 import sys
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	5 import os
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	6 import tempfile
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	7 import shutil
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	8 import optparse
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	9 import urllib2
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	10 #import uuid
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	11 from ftplib import FTP
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	12 import tarfile
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	13 import zipfile
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	14 import gzip
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	15 import bz2
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	16
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	17 from galaxy.util.json import from_json_string, to_json_string
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	18
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	19
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	20 CHUNK_SIZE = 2**20 #1mb
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	21
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	22 def cleanup_before_exit( tmp_dir ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	23 if tmp_dir and os.path.exists( tmp_dir ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	24 shutil.rmtree( tmp_dir )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	25
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	26 def stop_err(msg):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	27 sys.stderr.write(msg)
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	28 sys.exit(1)
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	29
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	30 def get_dbkey_id_name( params, dbkey_description=None ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	31 dbkey = params['param_dict']['dbkey']
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	32 #TODO: ensure sequence_id is unique and does not already appear in location file
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	33 sequence_id = params['param_dict']['sequence_id']
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	34 if not sequence_id:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	35 sequence_id = dbkey #uuid.uuid4() generate and use an uuid instead?
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	36
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	37 sequence_name = params['param_dict']['sequence_name']
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	38 if not sequence_name:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	39 sequence_name = dbkey_description
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	40 if not sequence_name:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	41 sequence_name = dbkey
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	42 return dbkey, sequence_id, sequence_name
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	43
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	44 def _get_files_in_ftp_path( ftp, path ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	45 path_contents = []
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	46 ftp.retrlines( 'MLSD %s' % ( path ), path_contents.append )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	47 return [ line.split( ';' )[ -1 ].lstrip() for line in path_contents ]
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	48
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	49 def _get_stream_readers_for_tar( file_obj, tmp_dir ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	50 fasta_tar = tarfile.open( fileobj=file_obj, mode='r:*' )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	51 return [ fasta_tar.extractfile( member ) for member in fasta_tar.getmembers() ]
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	52
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	53 def _get_stream_readers_for_zip( file_obj, tmp_dir ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	54 fasta_zip = zipfile.ZipFile( file_obj, 'r' )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	55 rval = []
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	56 for member in fasta_zip.namelist():
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	57 fasta_zip.extract( member, tmp_dir )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	58 rval.append( open( os.path.join( tmp_dir, member ), 'rb' ) )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	59 return rval
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	60
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	61 def _get_stream_readers_for_gzip( file_obj, tmp_dir ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	62 return [ gzip.GzipFile( fileobj=file_obj, mode='rb' ) ]
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	63
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	64 def _get_stream_readers_for_bz2( file_obj, tmp_dir ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	65 return [ bz2.BZ2File( file_obj.name, 'rb' ) ]
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	66
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	67 def sort_fasta( fasta_filename, sort_method, params ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	68 if sort_method is None:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	69 return
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	70 assert sort_method in SORTING_METHODS, ValueError( "%s is not a valid sorting option." % sort_method )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	71 return SORTING_METHODS[ sort_method ]( fasta_filename, params )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	72
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	73 def _move_and_index_fasta_for_sorting( fasta_filename ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	74 unsorted_filename = tempfile.NamedTemporaryFile().name
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	75 shutil.move( fasta_filename, unsorted_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	76 fasta_offsets = {}
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	77 unsorted_fh = open( unsorted_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	78 while True:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	79 offset = unsorted_fh.tell()
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	80 line = unsorted_fh.readline()
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	81 if not line:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	82 break
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	83 if line.startswith( ">" ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	84 line = line.split( None, 1 )[0][1:]
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	85 fasta_offsets[ line ] = offset
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	86 unsorted_fh.close()
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	87 current_order = map( lambda x: x[1], sorted( map( lambda x: ( x[1], x[0] ), fasta_offsets.items() ) ) )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	88 return ( unsorted_filename, fasta_offsets, current_order )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	89
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	90 def _write_sorted_fasta( sorted_names, fasta_offsets, sorted_fasta_filename, unsorted_fasta_filename ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	91 unsorted_fh = open( unsorted_fasta_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	92 sorted_fh = open( sorted_fasta_filename, 'wb+' )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	93
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	94 for name in sorted_names:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	95 offset = fasta_offsets[ name ]
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	96 unsorted_fh.seek( offset )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	97 sorted_fh.write( unsorted_fh.readline() )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	98 while True:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	99 line = unsorted_fh.readline()
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	100 if not line or line.startswith( ">" ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	101 break
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	102 sorted_fh.write( line )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	103 unsorted_fh.close()
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	104 sorted_fh.close()
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	105
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	106 def _sort_fasta_as_is( fasta_filename, params ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	107 return
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	108
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	109 def _sort_fasta_lexicographical( fasta_filename, params ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	110 ( unsorted_filename, fasta_offsets, current_order ) = _move_and_index_fasta_for_sorting( fasta_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	111 sorted_names = sorted( fasta_offsets.keys() )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	112 if sorted_names == current_order:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	113 shutil.move( unsorted_filename, fasta_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	114 else:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	115 _write_sorted_fasta( sorted_names, fasta_offsets, fasta_filename, unsorted_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	116
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	117 def _sort_fasta_gatk( fasta_filename, params ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	118 #This method was added by reviewer request.
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	119 ( unsorted_filename, fasta_offsets, current_order ) = _move_and_index_fasta_for_sorting( fasta_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	120 sorted_names = map( str, range( 1, 23 ) ) + [ 'X', 'Y' ]
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	121 #detect if we have chrN, or just N
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	122 has_chr = False
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	123 for chrom in sorted_names:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	124 if "chr%s" % chrom in current_order:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	125 has_chr = True
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	126 break
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	127
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	128 if has_chr:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	129 sorted_names = map( lambda x: "chr%s" % x, sorted_names)
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	130 sorted_names.insert( 0, "chrM" )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	131 else:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	132 sorted_names.insert( 0, "MT" )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	133 sorted_names.extend( map( lambda x: "%s_random" % x, sorted_names ) )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	134
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	135 existing_sorted_names = []
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	136 for name in sorted_names:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	137 if name in current_order:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	138 existing_sorted_names.append( name )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	139 for name in current_order:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	140 #TODO: confirm that non-canonical names do not need to be sorted specially
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	141 if name not in existing_sorted_names:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	142 existing_sorted_names.append( name )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	143
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	144 if existing_sorted_names == current_order:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	145 shutil.move( unsorted_filename, fasta_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	146 else:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	147 _write_sorted_fasta( existing_sorted_names, fasta_offsets, fasta_filename, unsorted_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	148
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	149 def _sort_fasta_custom( fasta_filename, params ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	150 ( unsorted_filename, fasta_offsets, current_order ) = _move_and_index_fasta_for_sorting( fasta_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	151 sorted_names = []
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	152 for id_repeat in params['param_dict']['sorting']['sequence_identifiers']:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	153 sorted_names.append( id_repeat[ 'identifier' ] )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	154 handle_not_listed = params['param_dict']['sorting']['handle_not_listed']['handle_not_listed_selector']
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	155 if handle_not_listed.startswith( 'keep' ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	156 add_list = []
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	157 for name in current_order:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	158 if name not in sorted_names:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	159 add_list.append( name )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	160 if add_list:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	161 if handle_not_listed == 'keep_append':
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	162 sorted_names.extend( add_list )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	163 else:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	164 add_list.extend( sorted_names )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	165 sorted_names = add_list
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	166 if sorted_names == current_order:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	167 shutil.move( unsorted_filename, fasta_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	168 else:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	169 _write_sorted_fasta( sorted_names, fasta_offsets, fasta_filename, unsorted_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	170
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	171 def download_from_ucsc( data_manager_dict, params, target_directory, dbkey, sequence_id, sequence_name ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	172 UCSC_FTP_SERVER = 'hgdownload.cse.ucsc.edu'
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	173 UCSC_CHROM_FA_FILENAME = 'chromFa'
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	174 UCSC_DOWNLOAD_PATH = '/goldenPath/%s/bigZips/'
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	175 COMPRESSED_EXTENSIONS = [ ( '.tar.gz', _get_stream_readers_for_tar ), ( '.tar.bz2', _get_stream_readers_for_tar ), ( '.zip', _get_stream_readers_for_zip ), ( '.fa.gz', _get_stream_readers_for_gzip ), ( '.fa.bz2', _get_stream_readers_for_bz2 ) ]
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	176
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	177 email = params['param_dict']['__user_email__']
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	178 if not email:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	179 email = 'anonymous@example.com'
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	180
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	181 ucsc_dbkey = params['param_dict']['reference_source']['requested_dbkey'] or dbkey
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	182 ftp = FTP( UCSC_FTP_SERVER )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	183 ftp.login( 'anonymous', email )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	184
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	185 ucsc_path = UCSC_DOWNLOAD_PATH % ucsc_dbkey
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	186 path_contents = _get_files_in_ftp_path( ftp, ucsc_path )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	187
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	188 ucsc_file_name = None
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	189 get_stream_reader = None
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	190 ext = None
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	191 for ext, get_stream_reader in COMPRESSED_EXTENSIONS:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	192 if "%s%s" % ( UCSC_CHROM_FA_FILENAME, ext ) in path_contents:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	193 ucsc_file_name = "%s%s%s" % ( ucsc_path, UCSC_CHROM_FA_FILENAME, ext )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	194 break
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	195
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	196 if not ucsc_file_name:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	197 raise Exception( 'Unable to determine filename for UCSC Genome for %s: %s' % ( ucsc_dbkey, path_contents ) )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	198
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	199
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	200 tmp_dir = tempfile.mkdtemp( prefix='tmp-data-manager-ucsc-' )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	201 ucsc_fasta_filename = os.path.join( tmp_dir, "%s%s" % ( UCSC_CHROM_FA_FILENAME, ext ) )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	202
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	203 fasta_base_filename = "%s.fa" % sequence_id
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	204 fasta_filename = os.path.join( target_directory, fasta_base_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	205 fasta_writer = open( fasta_filename, 'wb+' )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	206
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	207 tmp_extract_dir = os.path.join ( tmp_dir, 'extracted_fasta' )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	208 os.mkdir( tmp_extract_dir )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	209
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	210 tmp_fasta = open( ucsc_fasta_filename, 'wb+' )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	211
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	212 ftp.retrbinary( 'RETR %s' % ucsc_file_name, tmp_fasta.write )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	213
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	214 tmp_fasta.flush()
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	215 tmp_fasta.seek( 0 )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	216
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	217 fasta_readers = get_stream_reader( tmp_fasta, tmp_extract_dir )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	218
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	219 data_table_entry = _stream_fasta_to_file( fasta_readers, target_directory, dbkey, sequence_id, sequence_name, params )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	220 _add_data_table_entry( data_manager_dict, data_table_entry )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	221
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	222 for fasta_reader in fasta_readers:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	223 fasta_reader.close()
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	224 tmp_fasta.close()
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	225 cleanup_before_exit( tmp_dir )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	226
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	227 def download_from_ncbi( data_manager_dict, params, target_directory, dbkey, sequence_id, sequence_name ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	228 NCBI_DOWNLOAD_URL = 'http://togows.dbcls.jp/entry/ncbi-nucleotide/%s.fasta' #FIXME: taken from dave's genome manager...why some japan site?
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	229
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	230 requested_identifier = params['param_dict']['reference_source']['requested_identifier']
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	231 url = NCBI_DOWNLOAD_URL % requested_identifier
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	232 fasta_reader = urllib2.urlopen( url )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	233
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	234 data_table_entry = _stream_fasta_to_file( fasta_reader, target_directory, dbkey, sequence_id, sequence_name, params )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	235 _add_data_table_entry( data_manager_dict, data_table_entry )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	236
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	237 def download_from_url( data_manager_dict, params, target_directory, dbkey, sequence_id, sequence_name ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	238 #TODO: we should automatically do decompression here
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	239 urls = filter( bool, map( lambda x: x.strip(), params['param_dict']['reference_source']['user_url'].split( '\n' ) ) )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	240 fasta_reader = [ urllib2.urlopen( url ) for url in urls ]
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	241
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	242 data_table_entry = _stream_fasta_to_file( fasta_reader, target_directory, dbkey, sequence_id, sequence_name, params )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	243 _add_data_table_entry( data_manager_dict, data_table_entry )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	244
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	245 def download_from_history( data_manager_dict, params, target_directory, dbkey, sequence_id, sequence_name ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	246 #TODO: allow multiple FASTA input files
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	247 input_filename = params['param_dict']['reference_source']['input_fasta']
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	248 if isinstance( input_filename, list ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	249 fasta_reader = [ open( filename, 'rb' ) for filename in input_filename ]
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	250 else:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	251 fasta_reader = open( input_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	252
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	253 data_table_entry = _stream_fasta_to_file( fasta_reader, target_directory, dbkey, sequence_id, sequence_name, params )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	254 _add_data_table_entry( data_manager_dict, data_table_entry )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	255
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	256 def copy_from_directory( data_manager_dict, params, target_directory, dbkey, sequence_id, sequence_name ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	257 input_filename = params['param_dict']['reference_source']['fasta_filename']
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	258 create_symlink = params['param_dict']['reference_source']['create_symlink'] == 'create_symlink'
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	259 if create_symlink:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	260 data_table_entry = _create_symlink( input_filename, target_directory, dbkey, sequence_id, sequence_name )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	261 else:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	262 if isinstance( input_filename, list ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	263 fasta_reader = [ open( filename, 'rb' ) for filename in input_filename ]
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	264 else:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	265 fasta_reader = open( input_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	266 data_table_entry = _stream_fasta_to_file( fasta_reader, target_directory, dbkey, sequence_id, sequence_name, params )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	267 _add_data_table_entry( data_manager_dict, data_table_entry )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	268
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	269 def _add_data_table_entry( data_manager_dict, data_table_entry ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	270 data_manager_dict['data_tables'] = data_manager_dict.get( 'data_tables', {} )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	271 data_manager_dict['data_tables']['all_fasta'] = data_manager_dict['data_tables'].get( 'all_fasta', [] )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	272 data_manager_dict['data_tables']['all_fasta'].append( data_table_entry )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	273 return data_manager_dict
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	274
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	275 def _stream_fasta_to_file( fasta_stream, target_directory, dbkey, sequence_id, sequence_name, params, close_stream=True ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	276 fasta_base_filename = "%s.fa" % sequence_id
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	277 fasta_filename = os.path.join( target_directory, fasta_base_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	278 fasta_writer = open( fasta_filename, 'wb+' )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	279
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	280 if isinstance( fasta_stream, list ) and len( fasta_stream ) == 1:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	281 fasta_stream = fasta_stream[0]
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	282
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	283 if isinstance( fasta_stream, list ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	284 last_char = None
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	285 for fh in fasta_stream:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	286 if last_char not in [ None, '\n', '\r' ]:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	287 fasta_writer.write( '\n' )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	288 while True:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	289 data = fh.read( CHUNK_SIZE )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	290 if data:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	291 fasta_writer.write( data )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	292 last_char = data[-1]
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	293 else:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	294 break
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	295 if close_stream:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	296 fh.close()
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	297 else:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	298 while True:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	299 data = fasta_stream.read( CHUNK_SIZE )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	300 if data:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	301 fasta_writer.write( data )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	302 else:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	303 break
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	304 if close_stream:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	305 fasta_stream.close()
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	306
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	307 fasta_writer.close()
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	308
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	309 sort_fasta( fasta_filename, params['param_dict']['sorting']['sort_selector'], params )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	310
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	311 return dict( value=sequence_id, dbkey=dbkey, name=sequence_name, path=fasta_base_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	312
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	313 def _create_symlink( input_filename, target_directory, dbkey, sequence_id, sequence_name ):
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	314 fasta_base_filename = "%s.fa" % sequence_id
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	315 fasta_filename = os.path.join( target_directory, fasta_base_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	316 os.symlink( input_filename, fasta_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	317 return dict( value=sequence_id, dbkey=dbkey, name=sequence_name, path=fasta_base_filename )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	318
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	319
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	320
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	321
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	322 REFERENCE_SOURCE_TO_DOWNLOAD = dict( ucsc=download_from_ucsc, ncbi=download_from_ncbi, url=download_from_url, history=download_from_history, directory=copy_from_directory )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	323
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	324 SORTING_METHODS = dict( as_is=_sort_fasta_as_is, lexicographical=_sort_fasta_lexicographical, gatk=_sort_fasta_gatk, custom=_sort_fasta_custom )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	325
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	326 def main():
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	327 #Parse Command Line
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	328 parser = optparse.OptionParser()
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	329 parser.add_option( '-d', '--dbkey_description', dest='dbkey_description', action='store', type="string", default=None, help='dbkey_description' )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	330 (options, args) = parser.parse_args()
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	331
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	332 filename = args[0]
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	333
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	334 params = from_json_string( open( filename ).read() )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	335 target_directory = params[ 'output_data' ][0]['extra_files_path']
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	336 os.mkdir( target_directory )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	337 data_manager_dict = {}
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	338
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	339 dbkey, sequence_id, sequence_name = get_dbkey_id_name( params, dbkey_description=options.dbkey_description )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	340
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	341 if dbkey in [ None, '', '?' ]:
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	342 raise Exception( '"%s" is not a valid dbkey. You must specify a valid dbkey.' % ( dbkey ) )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	343
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	344 #Fetch the FASTA
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	345 REFERENCE_SOURCE_TO_DOWNLOAD[ params['param_dict']['reference_source']['reference_source_selector'] ]( data_manager_dict, params, target_directory, dbkey, sequence_id, sequence_name )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	346
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	347 #save info to json file
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	348 open( filename, 'wb' ).write( to_json_string( data_manager_dict ) )
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	349
2ebc856bce29 Uploaded data manager definition. devteam parents: diff changeset	350 if __name__ == "__main__": main()

0

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

1 #!/usr/bin/env python

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

2 #Dan Blankenberg

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

3

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

4 import sys

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

5 import os

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

6 import tempfile

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

7 import shutil

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

8 import optparse

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

9 import urllib2

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

10 #import uuid

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

11 from ftplib import FTP

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

12 import tarfile

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

13 import zipfile

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

14 import gzip

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

15 import bz2

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

16

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

17 from galaxy.util.json import from_json_string, to_json_string

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

18

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

19

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

20 CHUNK_SIZE = 2**20 #1mb

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

21

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

22 def cleanup_before_exit( tmp_dir ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

23 if tmp_dir and os.path.exists( tmp_dir ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

24 shutil.rmtree( tmp_dir )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

25

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

26 def stop_err(msg):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

27 sys.stderr.write(msg)

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

28 sys.exit(1)

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

29

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

30 def get_dbkey_id_name( params, dbkey_description=None ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

31 dbkey = params['param_dict']['dbkey']

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

32 #TODO: ensure sequence_id is unique and does not already appear in location file

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

33 sequence_id = params['param_dict']['sequence_id']

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

34 if not sequence_id:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

35 sequence_id = dbkey #uuid.uuid4() generate and use an uuid instead?

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

36

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

37 sequence_name = params['param_dict']['sequence_name']

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

38 if not sequence_name:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

39 sequence_name = dbkey_description

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

40 if not sequence_name:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

41 sequence_name = dbkey

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

42 return dbkey, sequence_id, sequence_name

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

43

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

44 def _get_files_in_ftp_path( ftp, path ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

45 path_contents = []

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

46 ftp.retrlines( 'MLSD %s' % ( path ), path_contents.append )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

47 return [ line.split( ';' )[ -1 ].lstrip() for line in path_contents ]

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

48

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

49 def _get_stream_readers_for_tar( file_obj, tmp_dir ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

50 fasta_tar = tarfile.open( fileobj=file_obj, mode='r:*' )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

51 return [ fasta_tar.extractfile( member ) for member in fasta_tar.getmembers() ]

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

52

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

53 def _get_stream_readers_for_zip( file_obj, tmp_dir ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

54 fasta_zip = zipfile.ZipFile( file_obj, 'r' )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

55 rval = []

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

56 for member in fasta_zip.namelist():

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

57 fasta_zip.extract( member, tmp_dir )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

58 rval.append( open( os.path.join( tmp_dir, member ), 'rb' ) )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

59 return rval

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

60

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

61 def _get_stream_readers_for_gzip( file_obj, tmp_dir ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

62 return [ gzip.GzipFile( fileobj=file_obj, mode='rb' ) ]

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

63

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

64 def _get_stream_readers_for_bz2( file_obj, tmp_dir ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

65 return [ bz2.BZ2File( file_obj.name, 'rb' ) ]

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

66

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

67 def sort_fasta( fasta_filename, sort_method, params ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

68 if sort_method is None:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

69 return

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

70 assert sort_method in SORTING_METHODS, ValueError( "%s is not a valid sorting option." % sort_method )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

71 return SORTING_METHODS[ sort_method ]( fasta_filename, params )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

72

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

73 def _move_and_index_fasta_for_sorting( fasta_filename ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

74 unsorted_filename = tempfile.NamedTemporaryFile().name

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

75 shutil.move( fasta_filename, unsorted_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

76 fasta_offsets = {}

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

77 unsorted_fh = open( unsorted_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

78 while True:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

79 offset = unsorted_fh.tell()

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

80 line = unsorted_fh.readline()

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

81 if not line:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

82 break

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

83 if line.startswith( ">" ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

84 line = line.split( None, 1 )[0][1:]

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

85 fasta_offsets[ line ] = offset

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

86 unsorted_fh.close()

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

87 current_order = map( lambda x: x[1], sorted( map( lambda x: ( x[1], x[0] ), fasta_offsets.items() ) ) )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

88 return ( unsorted_filename, fasta_offsets, current_order )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

89

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

90 def _write_sorted_fasta( sorted_names, fasta_offsets, sorted_fasta_filename, unsorted_fasta_filename ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

91 unsorted_fh = open( unsorted_fasta_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

92 sorted_fh = open( sorted_fasta_filename, 'wb+' )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

93

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

94 for name in sorted_names:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

95 offset = fasta_offsets[ name ]

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

96 unsorted_fh.seek( offset )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

97 sorted_fh.write( unsorted_fh.readline() )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

98 while True:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

99 line = unsorted_fh.readline()

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

100 if not line or line.startswith( ">" ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

101 break

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

102 sorted_fh.write( line )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

103 unsorted_fh.close()

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

104 sorted_fh.close()

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

105

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

106 def _sort_fasta_as_is( fasta_filename, params ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

107 return

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

108

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

109 def _sort_fasta_lexicographical( fasta_filename, params ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

110 ( unsorted_filename, fasta_offsets, current_order ) = _move_and_index_fasta_for_sorting( fasta_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

111 sorted_names = sorted( fasta_offsets.keys() )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

112 if sorted_names == current_order:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

113 shutil.move( unsorted_filename, fasta_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

114 else:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

115 _write_sorted_fasta( sorted_names, fasta_offsets, fasta_filename, unsorted_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

116

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

117 def _sort_fasta_gatk( fasta_filename, params ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

118 #This method was added by reviewer request.

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

119 ( unsorted_filename, fasta_offsets, current_order ) = _move_and_index_fasta_for_sorting( fasta_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

120 sorted_names = map( str, range( 1, 23 ) ) + [ 'X', 'Y' ]

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

121 #detect if we have chrN, or just N

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

122 has_chr = False

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

123 for chrom in sorted_names:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

124 if "chr%s" % chrom in current_order:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

125 has_chr = True

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

126 break

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

127

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

128 if has_chr:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

129 sorted_names = map( lambda x: "chr%s" % x, sorted_names)

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

130 sorted_names.insert( 0, "chrM" )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

131 else:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

132 sorted_names.insert( 0, "MT" )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

133 sorted_names.extend( map( lambda x: "%s_random" % x, sorted_names ) )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

134

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

135 existing_sorted_names = []

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

136 for name in sorted_names:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

137 if name in current_order:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

138 existing_sorted_names.append( name )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

139 for name in current_order:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

140 #TODO: confirm that non-canonical names do not need to be sorted specially

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

141 if name not in existing_sorted_names:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

142 existing_sorted_names.append( name )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

143

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

144 if existing_sorted_names == current_order:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

145 shutil.move( unsorted_filename, fasta_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

146 else:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

147 _write_sorted_fasta( existing_sorted_names, fasta_offsets, fasta_filename, unsorted_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

148

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

149 def _sort_fasta_custom( fasta_filename, params ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

150 ( unsorted_filename, fasta_offsets, current_order ) = _move_and_index_fasta_for_sorting( fasta_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

151 sorted_names = []

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

152 for id_repeat in params['param_dict']['sorting']['sequence_identifiers']:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

153 sorted_names.append( id_repeat[ 'identifier' ] )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

154 handle_not_listed = params['param_dict']['sorting']['handle_not_listed']['handle_not_listed_selector']

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

155 if handle_not_listed.startswith( 'keep' ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

156 add_list = []

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

157 for name in current_order:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

158 if name not in sorted_names:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

159 add_list.append( name )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

160 if add_list:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

161 if handle_not_listed == 'keep_append':

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

162 sorted_names.extend( add_list )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

163 else:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

164 add_list.extend( sorted_names )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

165 sorted_names = add_list

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

166 if sorted_names == current_order:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

167 shutil.move( unsorted_filename, fasta_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

168 else:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

169 _write_sorted_fasta( sorted_names, fasta_offsets, fasta_filename, unsorted_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

170

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

171 def download_from_ucsc( data_manager_dict, params, target_directory, dbkey, sequence_id, sequence_name ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

172 UCSC_FTP_SERVER = 'hgdownload.cse.ucsc.edu'

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

173 UCSC_CHROM_FA_FILENAME = 'chromFa'

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

174 UCSC_DOWNLOAD_PATH = '/goldenPath/%s/bigZips/'

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

175 COMPRESSED_EXTENSIONS = [ ( '.tar.gz', _get_stream_readers_for_tar ), ( '.tar.bz2', _get_stream_readers_for_tar ), ( '.zip', _get_stream_readers_for_zip ), ( '.fa.gz', _get_stream_readers_for_gzip ), ( '.fa.bz2', _get_stream_readers_for_bz2 ) ]

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

176

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

177 email = params['param_dict']['__user_email__']

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

178 if not email:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

179 email = 'anonymous@example.com'

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

180

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

181 ucsc_dbkey = params['param_dict']['reference_source']['requested_dbkey'] or dbkey

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

182 ftp = FTP( UCSC_FTP_SERVER )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

183 ftp.login( 'anonymous', email )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

184

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

185 ucsc_path = UCSC_DOWNLOAD_PATH % ucsc_dbkey

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

186 path_contents = _get_files_in_ftp_path( ftp, ucsc_path )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

187

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

188 ucsc_file_name = None

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

189 get_stream_reader = None

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

190 ext = None

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

191 for ext, get_stream_reader in COMPRESSED_EXTENSIONS:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

192 if "%s%s" % ( UCSC_CHROM_FA_FILENAME, ext ) in path_contents:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

193 ucsc_file_name = "%s%s%s" % ( ucsc_path, UCSC_CHROM_FA_FILENAME, ext )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

194 break

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

195

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

196 if not ucsc_file_name:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

197 raise Exception( 'Unable to determine filename for UCSC Genome for %s: %s' % ( ucsc_dbkey, path_contents ) )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

198

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

199

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

200 tmp_dir = tempfile.mkdtemp( prefix='tmp-data-manager-ucsc-' )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

201 ucsc_fasta_filename = os.path.join( tmp_dir, "%s%s" % ( UCSC_CHROM_FA_FILENAME, ext ) )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

202

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

203 fasta_base_filename = "%s.fa" % sequence_id

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

204 fasta_filename = os.path.join( target_directory, fasta_base_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

205 fasta_writer = open( fasta_filename, 'wb+' )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

206

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

207 tmp_extract_dir = os.path.join ( tmp_dir, 'extracted_fasta' )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

208 os.mkdir( tmp_extract_dir )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

209

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

210 tmp_fasta = open( ucsc_fasta_filename, 'wb+' )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

211

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

212 ftp.retrbinary( 'RETR %s' % ucsc_file_name, tmp_fasta.write )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

213

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

214 tmp_fasta.flush()

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

215 tmp_fasta.seek( 0 )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

216

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

217 fasta_readers = get_stream_reader( tmp_fasta, tmp_extract_dir )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

218

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

219 data_table_entry = _stream_fasta_to_file( fasta_readers, target_directory, dbkey, sequence_id, sequence_name, params )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

220 _add_data_table_entry( data_manager_dict, data_table_entry )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

221

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

222 for fasta_reader in fasta_readers:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

223 fasta_reader.close()

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

224 tmp_fasta.close()

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

225 cleanup_before_exit( tmp_dir )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

226

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

227 def download_from_ncbi( data_manager_dict, params, target_directory, dbkey, sequence_id, sequence_name ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

228 NCBI_DOWNLOAD_URL = 'http://togows.dbcls.jp/entry/ncbi-nucleotide/%s.fasta' #FIXME: taken from dave's genome manager...why some japan site?

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

229

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

230 requested_identifier = params['param_dict']['reference_source']['requested_identifier']

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

231 url = NCBI_DOWNLOAD_URL % requested_identifier

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

232 fasta_reader = urllib2.urlopen( url )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

233

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

234 data_table_entry = _stream_fasta_to_file( fasta_reader, target_directory, dbkey, sequence_id, sequence_name, params )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

235 _add_data_table_entry( data_manager_dict, data_table_entry )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

236

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

237 def download_from_url( data_manager_dict, params, target_directory, dbkey, sequence_id, sequence_name ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

238 #TODO: we should automatically do decompression here

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

239 urls = filter( bool, map( lambda x: x.strip(), params['param_dict']['reference_source']['user_url'].split( '\n' ) ) )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

240 fasta_reader = [ urllib2.urlopen( url ) for url in urls ]

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

241

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

242 data_table_entry = _stream_fasta_to_file( fasta_reader, target_directory, dbkey, sequence_id, sequence_name, params )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

243 _add_data_table_entry( data_manager_dict, data_table_entry )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

244

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

245 def download_from_history( data_manager_dict, params, target_directory, dbkey, sequence_id, sequence_name ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

246 #TODO: allow multiple FASTA input files

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

247 input_filename = params['param_dict']['reference_source']['input_fasta']

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

248 if isinstance( input_filename, list ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

249 fasta_reader = [ open( filename, 'rb' ) for filename in input_filename ]

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

250 else:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

251 fasta_reader = open( input_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

252

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

253 data_table_entry = _stream_fasta_to_file( fasta_reader, target_directory, dbkey, sequence_id, sequence_name, params )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

254 _add_data_table_entry( data_manager_dict, data_table_entry )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

255

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

256 def copy_from_directory( data_manager_dict, params, target_directory, dbkey, sequence_id, sequence_name ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

257 input_filename = params['param_dict']['reference_source']['fasta_filename']

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

258 create_symlink = params['param_dict']['reference_source']['create_symlink'] == 'create_symlink'

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

259 if create_symlink:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

260 data_table_entry = _create_symlink( input_filename, target_directory, dbkey, sequence_id, sequence_name )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

261 else:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

262 if isinstance( input_filename, list ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

263 fasta_reader = [ open( filename, 'rb' ) for filename in input_filename ]

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

264 else:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

265 fasta_reader = open( input_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

266 data_table_entry = _stream_fasta_to_file( fasta_reader, target_directory, dbkey, sequence_id, sequence_name, params )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

267 _add_data_table_entry( data_manager_dict, data_table_entry )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

268

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

269 def _add_data_table_entry( data_manager_dict, data_table_entry ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

270 data_manager_dict['data_tables'] = data_manager_dict.get( 'data_tables', {} )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

271 data_manager_dict['data_tables']['all_fasta'] = data_manager_dict['data_tables'].get( 'all_fasta', [] )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

272 data_manager_dict['data_tables']['all_fasta'].append( data_table_entry )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

273 return data_manager_dict

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

274

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

275 def _stream_fasta_to_file( fasta_stream, target_directory, dbkey, sequence_id, sequence_name, params, close_stream=True ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

276 fasta_base_filename = "%s.fa" % sequence_id

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

277 fasta_filename = os.path.join( target_directory, fasta_base_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

278 fasta_writer = open( fasta_filename, 'wb+' )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

279

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

280 if isinstance( fasta_stream, list ) and len( fasta_stream ) == 1:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

281 fasta_stream = fasta_stream[0]

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

282

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

283 if isinstance( fasta_stream, list ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

284 last_char = None

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

285 for fh in fasta_stream:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

286 if last_char not in [ None, '\n', '\r' ]:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

287 fasta_writer.write( '\n' )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

288 while True:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

289 data = fh.read( CHUNK_SIZE )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

290 if data:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

291 fasta_writer.write( data )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

292 last_char = data[-1]

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

293 else:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

294 break

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

295 if close_stream:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

296 fh.close()

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

297 else:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

298 while True:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

299 data = fasta_stream.read( CHUNK_SIZE )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

300 if data:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

301 fasta_writer.write( data )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

302 else:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

303 break

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

304 if close_stream:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

305 fasta_stream.close()

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

306

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

307 fasta_writer.close()

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

308

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

309 sort_fasta( fasta_filename, params['param_dict']['sorting']['sort_selector'], params )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

310

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

311 return dict( value=sequence_id, dbkey=dbkey, name=sequence_name, path=fasta_base_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

312

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

313 def _create_symlink( input_filename, target_directory, dbkey, sequence_id, sequence_name ):

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

314 fasta_base_filename = "%s.fa" % sequence_id

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

315 fasta_filename = os.path.join( target_directory, fasta_base_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

316 os.symlink( input_filename, fasta_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

317 return dict( value=sequence_id, dbkey=dbkey, name=sequence_name, path=fasta_base_filename )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

318

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

319

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

320

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

321

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

322 REFERENCE_SOURCE_TO_DOWNLOAD = dict( ucsc=download_from_ucsc, ncbi=download_from_ncbi, url=download_from_url, history=download_from_history, directory=copy_from_directory )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

323

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

324 SORTING_METHODS = dict( as_is=_sort_fasta_as_is, lexicographical=_sort_fasta_lexicographical, gatk=_sort_fasta_gatk, custom=_sort_fasta_custom )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

325

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

326 def main():

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

327 #Parse Command Line

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

328 parser = optparse.OptionParser()

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

329 parser.add_option( '-d', '--dbkey_description', dest='dbkey_description', action='store', type="string", default=None, help='dbkey_description' )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

330 (options, args) = parser.parse_args()

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

331

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

332 filename = args[0]

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

333

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

334 params = from_json_string( open( filename ).read() )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

335 target_directory = params[ 'output_data' ][0]['extra_files_path']

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

336 os.mkdir( target_directory )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

337 data_manager_dict = {}

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

338

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

339 dbkey, sequence_id, sequence_name = get_dbkey_id_name( params, dbkey_description=options.dbkey_description )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

340

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

341 if dbkey in [ None, '', '?' ]:

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

342 raise Exception( '"%s" is not a valid dbkey. You must specify a valid dbkey.' % ( dbkey ) )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

343

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

344 #Fetch the FASTA

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

345 REFERENCE_SOURCE_TO_DOWNLOAD[ params['param_dict']['reference_source']['reference_source_selector'] ]( data_manager_dict, params, target_directory, dbkey, sequence_id, sequence_name )

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

346

2ebc856bce29 Uploaded data manager definition.

devteam

parents:

diff changeset

347 #save info to json file

2ebc856bce29 Uploaded data manager definition.

devteam