data_manager_build_alfa_indexes: data_manager_build_alfa_indexes/data_manager/data_manager_build_alfa

annotate data_manager_build_alfa_indexes/data_manager/data_manager_build_alfa_indexes.py @ 28:9139892d06a2 draft

Uploaded

author	charles-bernard
date	Thu, 08 Dec 2016 03:43:26 -0500
parents	5dafa8e43d3e
children	0c821f76e2e5

rev	line source
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	1 #!/usr/bin/python
016200d4e379 Uploaded charles-bernard parents: diff changeset	2
016200d4e379 Uploaded charles-bernard parents: diff changeset	3 import sys
016200d4e379 Uploaded charles-bernard parents: diff changeset	4 import shutil
016200d4e379 Uploaded charles-bernard parents: diff changeset	5 import re
016200d4e379 Uploaded charles-bernard parents: diff changeset	6 import urllib2
016200d4e379 Uploaded charles-bernard parents: diff changeset	7 import subprocess
016200d4e379 Uploaded charles-bernard parents: diff changeset	8 import gzip
016200d4e379 Uploaded charles-bernard parents: diff changeset	9 import os
016200d4e379 Uploaded charles-bernard parents: diff changeset	10 import tempfile
016200d4e379 Uploaded charles-bernard parents: diff changeset	11 from optparse import OptionParser
016200d4e379 Uploaded charles-bernard parents: diff changeset	12 from galaxy.util.json import from_json_string, to_json_string
016200d4e379 Uploaded charles-bernard parents: diff changeset	13
016200d4e379 Uploaded charles-bernard parents: diff changeset	14 def get_arg():
016200d4e379 Uploaded charles-bernard parents: diff changeset	15 parser = OptionParser()
016200d4e379 Uploaded charles-bernard parents: diff changeset	16 parser.add_option("-e", "--ensembl", dest = 'ensembl_info', action = "store", nargs = 2, metavar = ("kingdom", "species_name"), type = "str")
016200d4e379 Uploaded charles-bernard parents: diff changeset	17 parser.add_option("-o", "--output", dest='output_filename', action="store", nargs = 1, metavar = 'JSON_FILE')
7 4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	18 parser.add_option("--log", dest='log_filename', action="store", nargs=1, metavar='log_report')
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	19 (options, args) = parser.parse_args()
016200d4e379 Uploaded charles-bernard parents: diff changeset	20 return options, args
016200d4e379 Uploaded charles-bernard parents: diff changeset	21
016200d4e379 Uploaded charles-bernard parents: diff changeset	22 def cleanup_before_exit(tmp_dir):
016200d4e379 Uploaded charles-bernard parents: diff changeset	23 if tmp_dir and os.path.exists(tmp_dir):
016200d4e379 Uploaded charles-bernard parents: diff changeset	24 shutil.rmtree(tmp_dir)
016200d4e379 Uploaded charles-bernard parents: diff changeset	25
016200d4e379 Uploaded charles-bernard parents: diff changeset	26 def get_page_content(url):
016200d4e379 Uploaded charles-bernard parents: diff changeset	27 req = urllib2.Request(url)
016200d4e379 Uploaded charles-bernard parents: diff changeset	28 page = urllib2.urlopen(req)
016200d4e379 Uploaded charles-bernard parents: diff changeset	29 return page.read()
016200d4e379 Uploaded charles-bernard parents: diff changeset	30
016200d4e379 Uploaded charles-bernard parents: diff changeset	31 def download_file(link, local_file_name):
016200d4e379 Uploaded charles-bernard parents: diff changeset	32 req = urllib2.Request(link)
016200d4e379 Uploaded charles-bernard parents: diff changeset	33 src_file = urllib2.urlopen(req)
016200d4e379 Uploaded charles-bernard parents: diff changeset	34 local_file = open(local_file_name, 'wb')
016200d4e379 Uploaded charles-bernard parents: diff changeset	35 local_file.write(src_file.read())
016200d4e379 Uploaded charles-bernard parents: diff changeset	36 local_file.close()
016200d4e379 Uploaded charles-bernard parents: diff changeset	37
016200d4e379 Uploaded charles-bernard parents: diff changeset	38 def uncompress_gz(gz_file_name, uncompressed_file_name):
7 4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	39 print("____________________________________________________________")
4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	40 print("*** Uncompressing %s" % gz_file_name)
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	41 uncompressed_file = open(uncompressed_file_name, 'wb')
016200d4e379 Uploaded charles-bernard parents: diff changeset	42 with gzip.open(gz_file_name, 'rb') as src_file:
016200d4e379 Uploaded charles-bernard parents: diff changeset	43 uncompressed_file.write(src_file.read())
016200d4e379 Uploaded charles-bernard parents: diff changeset	44 uncompressed_file.close()
7 4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	45 print("-> Uncompressed !\n")
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	46
016200d4e379 Uploaded charles-bernard parents: diff changeset	47 def add_data_table_entry( data_manager_dict, data_table_entry ):
016200d4e379 Uploaded charles-bernard parents: diff changeset	48 data_manager_dict['data_tables'] = data_manager_dict.get( 'data_tables', {} )
016200d4e379 Uploaded charles-bernard parents: diff changeset	49 data_manager_dict['data_tables']['alfa_indexes'] = data_manager_dict['data_tables'].get( 'alfa_indexes', data_table_entry )
016200d4e379 Uploaded charles-bernard parents: diff changeset	50 return data_manager_dict
016200d4e379 Uploaded charles-bernard parents: diff changeset	51
016200d4e379 Uploaded charles-bernard parents: diff changeset	52 def standardize_species_name(species_name):
28 9139892d06a2 Uploaded charles-bernard parents: 25 diff changeset	53 # substitute all capital letters, replace every succession of chars that are not letters to one underscore
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	54 standard_species_name = re.sub(r'[)]$', '', species_name)
016200d4e379 Uploaded charles-bernard parents: diff changeset	55 standard_species_name = re.sub(r'[ _),-.(=]+ *', '_', standard_species_name)
016200d4e379 Uploaded charles-bernard parents: diff changeset	56 return standard_species_name.lower()
016200d4e379 Uploaded charles-bernard parents: diff changeset	57
016200d4e379 Uploaded charles-bernard parents: diff changeset	58 def get_ensembl_url_root(kingdom):
7 4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	59 print("____________________________________________________________")
4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	60 print("*** Determining Ensembl ftp root url")
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	61 if kingdom == 'vertebrates':
016200d4e379 Uploaded charles-bernard parents: diff changeset	62 root = 'ftp://ftp.ensembl.org/pub/current_gtf/'
016200d4e379 Uploaded charles-bernard parents: diff changeset	63 else:
016200d4e379 Uploaded charles-bernard parents: diff changeset	64 root = 'ftp://ftp.ensemblgenomes.org/pub/%s/current/' % kingdom
7 4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	65 print("-> Determined !\n")
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	66 return root
016200d4e379 Uploaded charles-bernard parents: diff changeset	67
016200d4e379 Uploaded charles-bernard parents: diff changeset	68 def test_ensembl_species_exists(kingdom, url, species_name):
28 9139892d06a2 Uploaded charles-bernard parents: 25 diff changeset	69 """
9139892d06a2 Uploaded charles-bernard parents: 25 diff changeset	70 Test if a species exist on the ftp & return the species name with the species_line if so.
9139892d06a2 Uploaded charles-bernard parents: 25 diff changeset	71 if the species_name matches a single string, then this string will be returned as the species name
9139892d06a2 Uploaded charles-bernard parents: 25 diff changeset	72 if the species_name matches several strings, then an error is printed with all the possible species to enter for a new run
9139892d06a2 Uploaded charles-bernard parents: 25 diff changeset	73 """
7 4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	74 print("____________________________________________________________")
4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	75 print ("*** Testing whether %s is referenced in Ensembl %s" % (species_name, kingdom))
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	76 list_species_file_name = 'species_Ensembl%s%s.txt' % (kingdom[0].upper(), kingdom[1:])
016200d4e379 Uploaded charles-bernard parents: diff changeset	77 if kingdom=='vertebrates':
016200d4e379 Uploaded charles-bernard parents: diff changeset	78 download_file(url, list_species_file_name)
016200d4e379 Uploaded charles-bernard parents: diff changeset	79 else:
016200d4e379 Uploaded charles-bernard parents: diff changeset	80 download_file(url + list_species_file_name, list_species_file_name)
016200d4e379 Uploaded charles-bernard parents: diff changeset	81
016200d4e379 Uploaded charles-bernard parents: diff changeset	82 grep_result = subprocess.Popen(['grep', species_name, list_species_file_name], stdout=subprocess.PIPE, stderr=subprocess.STDOUT)
016200d4e379 Uploaded charles-bernard parents: diff changeset	83 species_lines_matched, grep_error = grep_result.communicate()
016200d4e379 Uploaded charles-bernard parents: diff changeset	84 if grep_error != None or species_lines_matched == "":
016200d4e379 Uploaded charles-bernard parents: diff changeset	85 msg = 'The species \'%s\' is not referenced on Ensembl (%s)' % (species_name, kingdom)
016200d4e379 Uploaded charles-bernard parents: diff changeset	86 sys.exit(msg)
016200d4e379 Uploaded charles-bernard parents: diff changeset	87
016200d4e379 Uploaded charles-bernard parents: diff changeset	88 species_lines = species_lines_matched.split('\n')
016200d4e379 Uploaded charles-bernard parents: diff changeset	89 del species_lines[-1]
016200d4e379 Uploaded charles-bernard parents: diff changeset	90 nb_lines = len(species_lines)
016200d4e379 Uploaded charles-bernard parents: diff changeset	91
016200d4e379 Uploaded charles-bernard parents: diff changeset	92 if nb_lines == 1:
15 9bc3d77b5661 Uploaded charles-bernard parents: 10 diff changeset	93 if kingdom == 'vertebrates':
9bc3d77b5661 Uploaded charles-bernard parents: 10 diff changeset	94 fields = species_lines[0].split(' ')
9bc3d77b5661 Uploaded charles-bernard parents: 10 diff changeset	95 columns = fields[-1].split('\r')
9bc3d77b5661 Uploaded charles-bernard parents: 10 diff changeset	96 found_species_name = columns[0]
9bc3d77b5661 Uploaded charles-bernard parents: 10 diff changeset	97 else:
9bc3d77b5661 Uploaded charles-bernard parents: 10 diff changeset	98 columns = species_lines[0].split('\t')
9bc3d77b5661 Uploaded charles-bernard parents: 10 diff changeset	99 found_species_name = columns[1]
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	100 if species_name != found_species_name:
7 4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	101 print('-> \'%s\' has been replace with the complete species name \'%s\'' % (species_name, found_species_name))
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	102 return found_species_name, species_lines_matched
7 4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	103 print("-> Referenced !\n")
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	104 return species_name, species_lines_matched
016200d4e379 Uploaded charles-bernard parents: diff changeset	105 else:
016200d4e379 Uploaded charles-bernard parents: diff changeset	106 list_species = [''] * nb_lines
016200d4e379 Uploaded charles-bernard parents: diff changeset	107 for i in range(0, nb_lines):
15 9bc3d77b5661 Uploaded charles-bernard parents: 10 diff changeset	108 if kingdom == 'vertebrates':
21 fbb5a2468fa8 Uploaded charles-bernard parents: 15 diff changeset	109 fields = species_lines[i].split(' ')
15 9bc3d77b5661 Uploaded charles-bernard parents: 10 diff changeset	110 columns = fields[-1].split('\r')
9bc3d77b5661 Uploaded charles-bernard parents: 10 diff changeset	111 list_species[i] = columns[0]
9bc3d77b5661 Uploaded charles-bernard parents: 10 diff changeset	112 else:
21 fbb5a2468fa8 Uploaded charles-bernard parents: 15 diff changeset	113 columns = species_lines[i].split('\t')
15 9bc3d77b5661 Uploaded charles-bernard parents: 10 diff changeset	114 list_species[i] = columns[1]
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	115 exact_match = re.search('^%s$' % species_name, list_species[i])
016200d4e379 Uploaded charles-bernard parents: diff changeset	116 if exact_match:
7 4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	117 print("-> Referenced !\n")
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	118 return species_name, species_lines[i]
28 9139892d06a2 Uploaded charles-bernard parents: 25 diff changeset	119 msg = ("The string \'%s\' has been matched against the list of Ensembl Species but is not a complete species name.\n"
9139892d06a2 Uploaded charles-bernard parents: 25 diff changeset	120 "Please retry with one of these following species names:\n" % species_name)
9139892d06a2 Uploaded charles-bernard parents: 25 diff changeset	121 for s in list_species:
9139892d06a2 Uploaded charles-bernard parents: 25 diff changeset	122 msg = ("%s- %s\n" % (msg, s))
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	123 sys.exit(msg)
016200d4e379 Uploaded charles-bernard parents: diff changeset	124
016200d4e379 Uploaded charles-bernard parents: diff changeset	125 def get_ensembl_collection(kingdom, species_line):
7 4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	126 print("*** Extracting the %s_collection of the species" % kingdom)
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	127 collection_regex = re.compile('%s_.+_collection' % kingdom.lower())
016200d4e379 Uploaded charles-bernard parents: diff changeset	128 collection_match = re.search(collection_regex, species_line)
016200d4e379 Uploaded charles-bernard parents: diff changeset	129 if not collection_match:
7 4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	130 print("-> Skiped: this species is not classified in a Ensembl %s collection\n" % kingdom)
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	131 return None
7 4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	132 print("-> Extracted !\n")
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	133 return collection_match.group(0)
016200d4e379 Uploaded charles-bernard parents: diff changeset	134
016200d4e379 Uploaded charles-bernard parents: diff changeset	135 def get_ensembl_gtf_archive_name(url_dir, species_name):
7 4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	136 print("____________________________________________________________")
4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	137 print("*** Extracting the gtf archive name of %s" % species_name)
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	138 gtf_archive_regex = re.compile('%s\..*\.[0-9]+\.gtf\.gz' % species_name, flags = re.IGNORECASE)
016200d4e379 Uploaded charles-bernard parents: diff changeset	139 dir_content = get_page_content(url_dir)
016200d4e379 Uploaded charles-bernard parents: diff changeset	140 gtf_archive_match = re.search(gtf_archive_regex, dir_content)
016200d4e379 Uploaded charles-bernard parents: diff changeset	141 if not gtf_archive_match:
016200d4e379 Uploaded charles-bernard parents: diff changeset	142 sys.exit('The species is referenced on Ensembl but error of nomenclature led to download failure')
016200d4e379 Uploaded charles-bernard parents: diff changeset	143 gtf_archive_name = gtf_archive_match.group(0)
7 4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	144 print("-> Extracted !\n")
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	145 return gtf_archive_name
016200d4e379 Uploaded charles-bernard parents: diff changeset	146
016200d4e379 Uploaded charles-bernard parents: diff changeset	147 def get_ensembl_gtf_archive(kingdom, url, species_name, species_line):
016200d4e379 Uploaded charles-bernard parents: diff changeset	148 if kingdom != 'vertebrates':
016200d4e379 Uploaded charles-bernard parents: diff changeset	149 url = url + 'gtf/'
016200d4e379 Uploaded charles-bernard parents: diff changeset	150 if kingdom == 'bacteria' or kingdom == 'protists' or kingdom == 'fungi':
016200d4e379 Uploaded charles-bernard parents: diff changeset	151 collection = get_ensembl_collection(kingdom, species_line)
016200d4e379 Uploaded charles-bernard parents: diff changeset	152 if collection != None:
016200d4e379 Uploaded charles-bernard parents: diff changeset	153 url = url + "%s/" % collection
016200d4e379 Uploaded charles-bernard parents: diff changeset	154 final_url = url + species_name + '/'
016200d4e379 Uploaded charles-bernard parents: diff changeset	155 gtf_archive_name = get_ensembl_gtf_archive_name(final_url, species_name)
7 4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	156 print("____________________________________________________________")
4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	157 print("*** Download the gtf archive of %s" % species_name)
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	158 download_file(final_url + gtf_archive_name, gtf_archive_name)
7 4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	159 print("-> Downloaded !\n")
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	160 return gtf_archive_name
016200d4e379 Uploaded charles-bernard parents: diff changeset	161
016200d4e379 Uploaded charles-bernard parents: diff changeset	162 def generate_alfa_indexes(path_to_alfa, gtf_file_name):
7 4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	163 print("____________________________________________________________")
4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	164 print("*** Generating alfa indexes from %s" % gtf_file_name)
4 6f0be85be8fb Uploaded charles-bernard parents: 0 diff changeset	165 alfa_result = subprocess.Popen(['python', path_to_alfa, '-a', gtf_file_name], stdout=subprocess.PIPE, stderr=subprocess.STDOUT)
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	166 alfa_out, alfa_err = alfa_result.communicate()
016200d4e379 Uploaded charles-bernard parents: diff changeset	167 if alfa_err != None and not re.search('### End of program', alfa_err):
016200d4e379 Uploaded charles-bernard parents: diff changeset	168 msg = 'Generation Failed due an alfa error: %s' % (alfa_err)
016200d4e379 Uploaded charles-bernard parents: diff changeset	169 sys.exit(msg)
10 85678c59651a Uploaded charles-bernard parents: 7 diff changeset	170 print("Alfa prompt:\n%s" % alfa_out)
7 4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	171 print("-> Generated !\n")
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	172
016200d4e379 Uploaded charles-bernard parents: diff changeset	173 def get_data_table_new_entry(gtf_archive_name):
016200d4e379 Uploaded charles-bernard parents: diff changeset	174 info_list = gtf_archive_name.split('.')
016200d4e379 Uploaded charles-bernard parents: diff changeset	175 species = info_list[0]
016200d4e379 Uploaded charles-bernard parents: diff changeset	176 version = info_list[1]
016200d4e379 Uploaded charles-bernard parents: diff changeset	177 release = info_list[2]
016200d4e379 Uploaded charles-bernard parents: diff changeset	178 value = '%s_%s_%s' % (species, version, release)
016200d4e379 Uploaded charles-bernard parents: diff changeset	179 dbkey = value
016200d4e379 Uploaded charles-bernard parents: diff changeset	180 name = '%s: %s (release %s)' % (species, version, release)
016200d4e379 Uploaded charles-bernard parents: diff changeset	181 prefix = '%s.%s.%s' % (species, version, release)
016200d4e379 Uploaded charles-bernard parents: diff changeset	182 entry_dict = { 'species': species, 'version': version, 'release': release, 'value': value, 'dbkey': dbkey, 'name': name, 'prefix': prefix }
016200d4e379 Uploaded charles-bernard parents: diff changeset	183 return entry_dict
016200d4e379 Uploaded charles-bernard parents: diff changeset	184
016200d4e379 Uploaded charles-bernard parents: diff changeset	185 def main():
016200d4e379 Uploaded charles-bernard parents: diff changeset	186 options, args = get_arg()
15 9bc3d77b5661 Uploaded charles-bernard parents: 10 diff changeset	187 tool_dir = args[0]
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	188
4 6f0be85be8fb Uploaded charles-bernard parents: 0 diff changeset	189 path_to_alfa = os.path.join(tool_dir, 'ALFA.py')
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	190
016200d4e379 Uploaded charles-bernard parents: diff changeset	191 if options.output_filename == None:
016200d4e379 Uploaded charles-bernard parents: diff changeset	192 msg = 'No json output file specified'
016200d4e379 Uploaded charles-bernard parents: diff changeset	193 sys.exit(msg)
016200d4e379 Uploaded charles-bernard parents: diff changeset	194 output_filename = options.output_filename
28 9139892d06a2 Uploaded charles-bernard parents: 25 diff changeset	195
9139892d06a2 Uploaded charles-bernard parents: 25 diff changeset	196 # Interestingly the output file to return is not empty initially.
9139892d06a2 Uploaded charles-bernard parents: 25 diff changeset	197 # it contains a dictionary, with notably the path to the dir where the alfa_indexes
9139892d06a2 Uploaded charles-bernard parents: 25 diff changeset	198 # are expected to be found
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	199 params = from_json_string(open(output_filename).read())
016200d4e379 Uploaded charles-bernard parents: diff changeset	200 target_directory = params['output_data'][0]['extra_files_path']
016200d4e379 Uploaded charles-bernard parents: diff changeset	201 os.mkdir(target_directory)
016200d4e379 Uploaded charles-bernard parents: diff changeset	202
15 9bc3d77b5661 Uploaded charles-bernard parents: 10 diff changeset	203 tmp_dir = tempfile.mkdtemp(prefix='tmp', suffix='')
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	204 os.chdir(tmp_dir)
15 9bc3d77b5661 Uploaded charles-bernard parents: 10 diff changeset	205
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	206 data_manager_dict = {}
016200d4e379 Uploaded charles-bernard parents: diff changeset	207
016200d4e379 Uploaded charles-bernard parents: diff changeset	208 if options.ensembl_info:
016200d4e379 Uploaded charles-bernard parents: diff changeset	209 kingdom, species_name = options.ensembl_info
016200d4e379 Uploaded charles-bernard parents: diff changeset	210 species_name = standardize_species_name(species_name)
016200d4e379 Uploaded charles-bernard parents: diff changeset	211 url = get_ensembl_url_root(kingdom)
016200d4e379 Uploaded charles-bernard parents: diff changeset	212 species_name, species_line = test_ensembl_species_exists(kingdom, url, species_name)
016200d4e379 Uploaded charles-bernard parents: diff changeset	213 gtf_archive_name = get_ensembl_gtf_archive(kingdom, url, species_name, species_line)
016200d4e379 Uploaded charles-bernard parents: diff changeset	214 data_table_entry = get_data_table_new_entry(gtf_archive_name)
016200d4e379 Uploaded charles-bernard parents: diff changeset	215 gtf_file_name = '%s.gtf' % data_table_entry['prefix']
016200d4e379 Uploaded charles-bernard parents: diff changeset	216 uncompress_gz(gtf_archive_name, gtf_file_name)
016200d4e379 Uploaded charles-bernard parents: diff changeset	217 generate_alfa_indexes(path_to_alfa, gtf_file_name)
016200d4e379 Uploaded charles-bernard parents: diff changeset	218 stranded_index_name = '%s.stranded.index' % data_table_entry['prefix']
016200d4e379 Uploaded charles-bernard parents: diff changeset	219 unstranded_index_name = '%s.unstranded.index' % data_table_entry['prefix']
016200d4e379 Uploaded charles-bernard parents: diff changeset	220 add_data_table_entry(data_manager_dict, data_table_entry)
016200d4e379 Uploaded charles-bernard parents: diff changeset	221
7 4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	222 print("____________________________________________________________")
4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	223 print("*** General Info")
4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	224 print("URL ROOT:\t%s" % url)
4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	225 print("SPECIES:\t%s" % data_table_entry['species'])
4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	226 print("VERSION:\t%s" % data_table_entry['version'])
4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	227 print("RELEASE:\t%s" % data_table_entry['release'])
4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	228 print("VALUE:\t%s" % data_table_entry['value'])
4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	229 print("DBKEY:\t%s" % data_table_entry['dbkey'])
4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	230 print("NAME:\t%s" % data_table_entry['name'])
4d8c94b9a6d7 Uploaded charles-bernard parents: 6 diff changeset	231 print("PREFIX:\t%s" % data_table_entry['prefix'])
6 54c2c66e45a9 Uploaded charles-bernard parents: 4 diff changeset	232
0 016200d4e379 Uploaded charles-bernard parents: diff changeset	233 shutil.copyfile(stranded_index_name, os.path.join(target_directory, stranded_index_name))
016200d4e379 Uploaded charles-bernard parents: diff changeset	234 shutil.copyfile(unstranded_index_name, os.path.join(target_directory, unstranded_index_name))
016200d4e379 Uploaded charles-bernard parents: diff changeset	235
016200d4e379 Uploaded charles-bernard parents: diff changeset	236 cleanup_before_exit(tmp_dir)
016200d4e379 Uploaded charles-bernard parents: diff changeset	237
016200d4e379 Uploaded charles-bernard parents: diff changeset	238 open(output_filename, 'wb').write(to_json_string(data_manager_dict))
21 fbb5a2468fa8 Uploaded charles-bernard parents: 15 diff changeset	239 main()

Mercurial > repos > charles-bernard > data_manager_build_alfa_indexes

annotate data_manager_build_alfa_indexes/data_manager/data_manager_build_alfa_indexes.py @ 28:9139892d06a2 draft