vsnp_build_tables: vsnp_build

annotate vsnp_build_tables.py @ 10:14384fd2a7e2 draft

Uploaded

author	greg
date	Thu, 29 Jul 2021 15:02:47 +0000
parents	f641e52353e8
children

rev	line source
0 38a38babcb31 Uploaded greg parents: diff changeset	1 #!/usr/bin/env python
38a38babcb31 Uploaded greg parents: diff changeset	2
38a38babcb31 Uploaded greg parents: diff changeset	3 import argparse
9 f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	4 import multiprocessing
0 38a38babcb31 Uploaded greg parents: diff changeset	5 import os
9 f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	6 import queue
3 abfb861df879 Uploaded greg parents: 1 diff changeset	7 import re
abfb861df879 Uploaded greg parents: 1 diff changeset	8
0 38a38babcb31 Uploaded greg parents: diff changeset	9 import pandas
38a38babcb31 Uploaded greg parents: diff changeset	10 import pandas.io.formats.excel
38a38babcb31 Uploaded greg parents: diff changeset	11 from Bio import SeqIO
38a38babcb31 Uploaded greg parents: diff changeset	12
38a38babcb31 Uploaded greg parents: diff changeset	13 # Maximum columns allowed in a LibreOffice
38a38babcb31 Uploaded greg parents: diff changeset	14 # spreadsheet is 1024. Excel allows for
38a38babcb31 Uploaded greg parents: diff changeset	15 # 16,384 columns, but we'll set the lower
1 b60858c3eb91 Uploaded greg parents: 0 diff changeset	16 # number as the maximum. Some browsers
b60858c3eb91 Uploaded greg parents: 0 diff changeset	17 # (e.g., Firefox on Linux) are configured
b60858c3eb91 Uploaded greg parents: 0 diff changeset	18 # to use LibreOffice for Excel spreadsheets.
b60858c3eb91 Uploaded greg parents: 0 diff changeset	19 MAXCOLS = 1024
0 38a38babcb31 Uploaded greg parents: diff changeset	20 OUTPUT_EXCEL_DIR = 'output_excel_dir'
9 f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	21 INPUT_JSON_AVG_MQ_DIR = 'input_json_avg_mq_dir'
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	22 INPUT_JSON_DIR = 'input_json_dir'
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	23 INPUT_NEWICK_DIR = 'input_newick_dir'
0 38a38babcb31 Uploaded greg parents: diff changeset	24
38a38babcb31 Uploaded greg parents: diff changeset	25
38a38babcb31 Uploaded greg parents: diff changeset	26 def annotate_table(table_df, group, annotation_dict):
38a38babcb31 Uploaded greg parents: diff changeset	27 for gbk_chrome, pro in list(annotation_dict.items()):
38a38babcb31 Uploaded greg parents: diff changeset	28 ref_pos = list(table_df)
38a38babcb31 Uploaded greg parents: diff changeset	29 ref_series = pandas.Series(ref_pos)
38a38babcb31 Uploaded greg parents: diff changeset	30 ref_df = pandas.DataFrame(ref_series.str.split(':', expand=True).values, columns=['reference', 'position'])
38a38babcb31 Uploaded greg parents: diff changeset	31 all_ref = ref_df[ref_df['reference'] == gbk_chrome]
38a38babcb31 Uploaded greg parents: diff changeset	32 positions = all_ref.position.to_frame()
38a38babcb31 Uploaded greg parents: diff changeset	33 # Create an annotation file.
38a38babcb31 Uploaded greg parents: diff changeset	34 annotation_file = "%s_annotations.csv" % group
38a38babcb31 Uploaded greg parents: diff changeset	35 with open(annotation_file, "a") as fh:
3 abfb861df879 Uploaded greg parents: 1 diff changeset	36 for _, row in positions.iterrows():
0 38a38babcb31 Uploaded greg parents: diff changeset	37 pos = row.position
38a38babcb31 Uploaded greg parents: diff changeset	38 try:
38a38babcb31 Uploaded greg parents: diff changeset	39 aaa = pro.iloc[pro.index.get_loc(int(pos))][['chrom', 'locus', 'product', 'gene']]
38a38babcb31 Uploaded greg parents: diff changeset	40 try:
38a38babcb31 Uploaded greg parents: diff changeset	41 chrom, name, locus, tag = aaa.values[0]
38a38babcb31 Uploaded greg parents: diff changeset	42 print("{}:{}\t{}, {}, {}".format(chrom, pos, locus, tag, name), file=fh)
38a38babcb31 Uploaded greg parents: diff changeset	43 except ValueError:
38a38babcb31 Uploaded greg parents: diff changeset	44 # If only one annotation for the entire
38a38babcb31 Uploaded greg parents: diff changeset	45 # chromosome (e.g., flu) then having [0] fails
38a38babcb31 Uploaded greg parents: diff changeset	46 chrom, name, locus, tag = aaa.values
38a38babcb31 Uploaded greg parents: diff changeset	47 print("{}:{}\t{}, {}, {}".format(chrom, pos, locus, tag, name), file=fh)
38a38babcb31 Uploaded greg parents: diff changeset	48 except KeyError:
38a38babcb31 Uploaded greg parents: diff changeset	49 print("{}:{}\tNo annotated product".format(gbk_chrome, pos), file=fh)
38a38babcb31 Uploaded greg parents: diff changeset	50 # Read the annotation file into a data frame.
38a38babcb31 Uploaded greg parents: diff changeset	51 annotations_df = pandas.read_csv(annotation_file, sep='\t', header=None, names=['index', 'annotations'], index_col='index')
38a38babcb31 Uploaded greg parents: diff changeset	52 # Remove the annotation_file from disk since both
38a38babcb31 Uploaded greg parents: diff changeset	53 # cascade and sort tables are built using the file,
38a38babcb31 Uploaded greg parents: diff changeset	54 # and it is opened for writing in append mode.
38a38babcb31 Uploaded greg parents: diff changeset	55 os.remove(annotation_file)
38a38babcb31 Uploaded greg parents: diff changeset	56 # Process the data.
38a38babcb31 Uploaded greg parents: diff changeset	57 table_df_transposed = table_df.T
38a38babcb31 Uploaded greg parents: diff changeset	58 table_df_transposed.index = table_df_transposed.index.rename('index')
38a38babcb31 Uploaded greg parents: diff changeset	59 table_df_transposed = table_df_transposed.merge(annotations_df, left_index=True, right_index=True)
38a38babcb31 Uploaded greg parents: diff changeset	60 table_df = table_df_transposed.T
38a38babcb31 Uploaded greg parents: diff changeset	61 return table_df
38a38babcb31 Uploaded greg parents: diff changeset	62
38a38babcb31 Uploaded greg parents: diff changeset	63
38a38babcb31 Uploaded greg parents: diff changeset	64 def excel_formatter(json_file_name, excel_file_name, group, annotation_dict):
38a38babcb31 Uploaded greg parents: diff changeset	65 pandas.io.formats.excel.header_style = None
38a38babcb31 Uploaded greg parents: diff changeset	66 table_df = pandas.read_json(json_file_name, orient='split')
38a38babcb31 Uploaded greg parents: diff changeset	67 if annotation_dict is not None:
38a38babcb31 Uploaded greg parents: diff changeset	68 table_df = annotate_table(table_df, group, annotation_dict)
38a38babcb31 Uploaded greg parents: diff changeset	69 else:
38a38babcb31 Uploaded greg parents: diff changeset	70 table_df = table_df.append(pandas.Series(name='no annotations'))
38a38babcb31 Uploaded greg parents: diff changeset	71 writer = pandas.ExcelWriter(excel_file_name, engine='xlsxwriter')
38a38babcb31 Uploaded greg parents: diff changeset	72 table_df.to_excel(writer, sheet_name='Sheet1')
38a38babcb31 Uploaded greg parents: diff changeset	73 writer_book = writer.book
38a38babcb31 Uploaded greg parents: diff changeset	74 ws = writer.sheets['Sheet1']
38a38babcb31 Uploaded greg parents: diff changeset	75 format_a = writer_book.add_format({'bg_color': '#58FA82'})
38a38babcb31 Uploaded greg parents: diff changeset	76 format_g = writer_book.add_format({'bg_color': '#F7FE2E'})
38a38babcb31 Uploaded greg parents: diff changeset	77 format_c = writer_book.add_format({'bg_color': '#0000FF'})
38a38babcb31 Uploaded greg parents: diff changeset	78 format_t = writer_book.add_format({'bg_color': '#FF0000'})
38a38babcb31 Uploaded greg parents: diff changeset	79 format_normal = writer_book.add_format({'bg_color': '#FDFEFE'})
38a38babcb31 Uploaded greg parents: diff changeset	80 formatlowqual = writer_book.add_format({'font_color': '#C70039', 'bg_color': '#E2CFDD'})
38a38babcb31 Uploaded greg parents: diff changeset	81 format_ambigous = writer_book.add_format({'font_color': '#C70039', 'bg_color': '#E2CFDD'})
38a38babcb31 Uploaded greg parents: diff changeset	82 format_n = writer_book.add_format({'bg_color': '#E2CFDD'})
38a38babcb31 Uploaded greg parents: diff changeset	83 rows, cols = table_df.shape
38a38babcb31 Uploaded greg parents: diff changeset	84 ws.set_column(0, 0, 30)
38a38babcb31 Uploaded greg parents: diff changeset	85 ws.set_column(1, cols, 2.1)
38a38babcb31 Uploaded greg parents: diff changeset	86 ws.freeze_panes(2, 1)
38a38babcb31 Uploaded greg parents: diff changeset	87 format_annotation = writer_book.add_format({'font_color': '#0A028C', 'rotation': '-90', 'align': 'top'})
38a38babcb31 Uploaded greg parents: diff changeset	88 # Set last row.
38a38babcb31 Uploaded greg parents: diff changeset	89 ws.set_row(rows + 1, cols + 1, format_annotation)
38a38babcb31 Uploaded greg parents: diff changeset	90 # Make sure that row/column locations don't overlap.
38a38babcb31 Uploaded greg parents: diff changeset	91 ws.conditional_format(rows - 2, 1, rows - 1, cols, {'type': 'cell', 'criteria': '<', 'value': 55, 'format': formatlowqual})
38a38babcb31 Uploaded greg parents: diff changeset	92 ws.conditional_format(2, 1, rows - 2, cols, {'type': 'cell', 'criteria': '==', 'value': 'B$2', 'format': format_normal})
38a38babcb31 Uploaded greg parents: diff changeset	93 ws.conditional_format(2, 1, rows - 2, cols, {'type': 'text', 'criteria': 'containing', 'value': 'A', 'format': format_a})
38a38babcb31 Uploaded greg parents: diff changeset	94 ws.conditional_format(2, 1, rows - 2, cols, {'type': 'text', 'criteria': 'containing', 'value': 'G', 'format': format_g})
38a38babcb31 Uploaded greg parents: diff changeset	95 ws.conditional_format(2, 1, rows - 2, cols, {'type': 'text', 'criteria': 'containing', 'value': 'C', 'format': format_c})
38a38babcb31 Uploaded greg parents: diff changeset	96 ws.conditional_format(2, 1, rows - 2, cols, {'type': 'text', 'criteria': 'containing', 'value': 'T', 'format': format_t})
38a38babcb31 Uploaded greg parents: diff changeset	97 ws.conditional_format(2, 1, rows - 2, cols, {'type': 'text', 'criteria': 'containing', 'value': 'S', 'format': format_ambigous})
38a38babcb31 Uploaded greg parents: diff changeset	98 ws.conditional_format(2, 1, rows - 2, cols, {'type': 'text', 'criteria': 'containing', 'value': 'Y', 'format': format_ambigous})
38a38babcb31 Uploaded greg parents: diff changeset	99 ws.conditional_format(2, 1, rows - 2, cols, {'type': 'text', 'criteria': 'containing', 'value': 'R', 'format': format_ambigous})
38a38babcb31 Uploaded greg parents: diff changeset	100 ws.conditional_format(2, 1, rows - 2, cols, {'type': 'text', 'criteria': 'containing', 'value': 'W', 'format': format_ambigous})
38a38babcb31 Uploaded greg parents: diff changeset	101 ws.conditional_format(2, 1, rows - 2, cols, {'type': 'text', 'criteria': 'containing', 'value': 'K', 'format': format_ambigous})
38a38babcb31 Uploaded greg parents: diff changeset	102 ws.conditional_format(2, 1, rows - 2, cols, {'type': 'text', 'criteria': 'containing', 'value': 'M', 'format': format_ambigous})
38a38babcb31 Uploaded greg parents: diff changeset	103 ws.conditional_format(2, 1, rows - 2, cols, {'type': 'text', 'criteria': 'containing', 'value': 'N', 'format': format_n})
38a38babcb31 Uploaded greg parents: diff changeset	104 ws.conditional_format(2, 1, rows - 2, cols, {'type': 'text', 'criteria': 'containing', 'value': '-', 'format': format_n})
38a38babcb31 Uploaded greg parents: diff changeset	105 format_rotation = writer_book.add_format({})
38a38babcb31 Uploaded greg parents: diff changeset	106 format_rotation.set_rotation(90)
38a38babcb31 Uploaded greg parents: diff changeset	107 for column_num, column_name in enumerate(list(table_df.columns)):
38a38babcb31 Uploaded greg parents: diff changeset	108 ws.write(0, column_num + 1, column_name, format_rotation)
38a38babcb31 Uploaded greg parents: diff changeset	109 format_annotation = writer_book.add_format({'font_color': '#0A028C', 'rotation': '-90', 'align': 'top'})
38a38babcb31 Uploaded greg parents: diff changeset	110 # Set last row.
38a38babcb31 Uploaded greg parents: diff changeset	111 ws.set_row(rows, 400, format_annotation)
38a38babcb31 Uploaded greg parents: diff changeset	112 writer.save()
38a38babcb31 Uploaded greg parents: diff changeset	113
38a38babcb31 Uploaded greg parents: diff changeset	114
38a38babcb31 Uploaded greg parents: diff changeset	115 def get_annotation_dict(gbk_file):
38a38babcb31 Uploaded greg parents: diff changeset	116 gbk_dict = SeqIO.to_dict(SeqIO.parse(gbk_file, "genbank"))
38a38babcb31 Uploaded greg parents: diff changeset	117 annotation_dict = {}
38a38babcb31 Uploaded greg parents: diff changeset	118 tmp_file = "features.csv"
38a38babcb31 Uploaded greg parents: diff changeset	119 # Create a file of chromosomes and features.
38a38babcb31 Uploaded greg parents: diff changeset	120 for chromosome in list(gbk_dict.keys()):
38a38babcb31 Uploaded greg parents: diff changeset	121 with open(tmp_file, 'w+') as fh:
38a38babcb31 Uploaded greg parents: diff changeset	122 for feature in gbk_dict[chromosome].features:
38a38babcb31 Uploaded greg parents: diff changeset	123 if "CDS" in feature.type or "rRNA" in feature.type:
38a38babcb31 Uploaded greg parents: diff changeset	124 try:
38a38babcb31 Uploaded greg parents: diff changeset	125 product = feature.qualifiers['product'][0]
38a38babcb31 Uploaded greg parents: diff changeset	126 except KeyError:
38a38babcb31 Uploaded greg parents: diff changeset	127 product = None
38a38babcb31 Uploaded greg parents: diff changeset	128 try:
38a38babcb31 Uploaded greg parents: diff changeset	129 locus = feature.qualifiers['locus_tag'][0]
38a38babcb31 Uploaded greg parents: diff changeset	130 except KeyError:
38a38babcb31 Uploaded greg parents: diff changeset	131 locus = None
38a38babcb31 Uploaded greg parents: diff changeset	132 try:
38a38babcb31 Uploaded greg parents: diff changeset	133 gene = feature.qualifiers['gene'][0]
38a38babcb31 Uploaded greg parents: diff changeset	134 except KeyError:
38a38babcb31 Uploaded greg parents: diff changeset	135 gene = None
38a38babcb31 Uploaded greg parents: diff changeset	136 fh.write("%s\t%d\t%d\t%s\t%s\t%s\n" % (chromosome, int(feature.location.start), int(feature.location.end), locus, product, gene))
38a38babcb31 Uploaded greg parents: diff changeset	137 # Read the chromosomes and features file into a data frame.
38a38babcb31 Uploaded greg parents: diff changeset	138 df = pandas.read_csv(tmp_file, sep='\t', names=["chrom", "start", "stop", "locus", "product", "gene"])
38a38babcb31 Uploaded greg parents: diff changeset	139 # Process the data.
38a38babcb31 Uploaded greg parents: diff changeset	140 df = df.sort_values(['start', 'gene'], ascending=[True, False])
38a38babcb31 Uploaded greg parents: diff changeset	141 df = df.drop_duplicates('start')
38a38babcb31 Uploaded greg parents: diff changeset	142 pro = df.reset_index(drop=True)
38a38babcb31 Uploaded greg parents: diff changeset	143 pro.index = pandas.IntervalIndex.from_arrays(pro['start'], pro['stop'], closed='both')
38a38babcb31 Uploaded greg parents: diff changeset	144 annotation_dict[chromosome] = pro
38a38babcb31 Uploaded greg parents: diff changeset	145 return annotation_dict
38a38babcb31 Uploaded greg parents: diff changeset	146
38a38babcb31 Uploaded greg parents: diff changeset	147
3 abfb861df879 Uploaded greg parents: 1 diff changeset	148 def get_sample_name(file_path):
0 38a38babcb31 Uploaded greg parents: diff changeset	149 base_file_name = os.path.basename(file_path)
38a38babcb31 Uploaded greg parents: diff changeset	150 if base_file_name.find(".") > 0:
38a38babcb31 Uploaded greg parents: diff changeset	151 # Eliminate the extension.
38a38babcb31 Uploaded greg parents: diff changeset	152 return os.path.splitext(base_file_name)[0]
3 abfb861df879 Uploaded greg parents: 1 diff changeset	153 return base_file_name
0 38a38babcb31 Uploaded greg parents: diff changeset	154
38a38babcb31 Uploaded greg parents: diff changeset	155
38a38babcb31 Uploaded greg parents: diff changeset	156 def output_cascade_table(cascade_order, mqdf, group, annotation_dict):
38a38babcb31 Uploaded greg parents: diff changeset	157 cascade_order_mq = pandas.concat([cascade_order, mqdf], join='inner')
38a38babcb31 Uploaded greg parents: diff changeset	158 output_table(cascade_order_mq, "cascade", group, annotation_dict)
38a38babcb31 Uploaded greg parents: diff changeset	159
38a38babcb31 Uploaded greg parents: diff changeset	160
38a38babcb31 Uploaded greg parents: diff changeset	161 def output_excel(df, type_str, group, annotation_dict, count=None):
38a38babcb31 Uploaded greg parents: diff changeset	162 # Output the temporary json file that
38a38babcb31 Uploaded greg parents: diff changeset	163 # is used by the excel_formatter.
38a38babcb31 Uploaded greg parents: diff changeset	164 if count is None:
38a38babcb31 Uploaded greg parents: diff changeset	165 if group is None:
3 abfb861df879 Uploaded greg parents: 1 diff changeset	166 json_file_name = os.path.join(OUTPUT_EXCEL_DIR, "%s_order_mq.json" % type_str)
0 38a38babcb31 Uploaded greg parents: diff changeset	167 excel_file_name = os.path.join(OUTPUT_EXCEL_DIR, "%s_table.xlsx" % type_str)
38a38babcb31 Uploaded greg parents: diff changeset	168 else:
3 abfb861df879 Uploaded greg parents: 1 diff changeset	169 json_file_name = os.path.join(OUTPUT_EXCEL_DIR, "%s_%s_order_mq.json" % (group, type_str))
0 38a38babcb31 Uploaded greg parents: diff changeset	170 excel_file_name = os.path.join(OUTPUT_EXCEL_DIR, "%s_%s_table.xlsx" % (group, type_str))
38a38babcb31 Uploaded greg parents: diff changeset	171 else:
3 abfb861df879 Uploaded greg parents: 1 diff changeset	172 # The table has more columns than is allowed by the
abfb861df879 Uploaded greg parents: 1 diff changeset	173 # MAXCOLS setting, so multiple files will be produced
abfb861df879 Uploaded greg parents: 1 diff changeset	174 # as an output collection.
0 38a38babcb31 Uploaded greg parents: diff changeset	175 if group is None:
3 abfb861df879 Uploaded greg parents: 1 diff changeset	176 json_file_name = os.path.join(OUTPUT_EXCEL_DIR, "%s_order_mq_%d.json" % (type_str, count))
0 38a38babcb31 Uploaded greg parents: diff changeset	177 excel_file_name = os.path.join(OUTPUT_EXCEL_DIR, "%s_table_%d.xlsx" % (type_str, count))
38a38babcb31 Uploaded greg parents: diff changeset	178 else:
3 abfb861df879 Uploaded greg parents: 1 diff changeset	179 json_file_name = os.path.join(OUTPUT_EXCEL_DIR, "%s_%s_order_mq_%d.json" % (group, type_str, count))
0 38a38babcb31 Uploaded greg parents: diff changeset	180 excel_file_name = os.path.join(OUTPUT_EXCEL_DIR, "%s_%s_table_%d.xlsx" % (group, type_str, count))
38a38babcb31 Uploaded greg parents: diff changeset	181 df.to_json(json_file_name, orient='split')
38a38babcb31 Uploaded greg parents: diff changeset	182 # Output the Excel file.
38a38babcb31 Uploaded greg parents: diff changeset	183 excel_formatter(json_file_name, excel_file_name, group, annotation_dict)
38a38babcb31 Uploaded greg parents: diff changeset	184
38a38babcb31 Uploaded greg parents: diff changeset	185
38a38babcb31 Uploaded greg parents: diff changeset	186 def output_sort_table(cascade_order, mqdf, group, annotation_dict):
38a38babcb31 Uploaded greg parents: diff changeset	187 sort_df = cascade_order.T
38a38babcb31 Uploaded greg parents: diff changeset	188 sort_df['abs_value'] = sort_df.index
38a38babcb31 Uploaded greg parents: diff changeset	189 sort_df[['chrom', 'pos']] = sort_df['abs_value'].str.split(':', expand=True)
38a38babcb31 Uploaded greg parents: diff changeset	190 sort_df = sort_df.drop(['abs_value', 'chrom'], axis=1)
38a38babcb31 Uploaded greg parents: diff changeset	191 sort_df.pos = sort_df.pos.astype(int)
38a38babcb31 Uploaded greg parents: diff changeset	192 sort_df = sort_df.sort_values(by=['pos'])
38a38babcb31 Uploaded greg parents: diff changeset	193 sort_df = sort_df.drop(['pos'], axis=1)
38a38babcb31 Uploaded greg parents: diff changeset	194 sort_df = sort_df.T
38a38babcb31 Uploaded greg parents: diff changeset	195 sort_order_mq = pandas.concat([sort_df, mqdf], join='inner')
38a38babcb31 Uploaded greg parents: diff changeset	196 output_table(sort_order_mq, "sort", group, annotation_dict)
38a38babcb31 Uploaded greg parents: diff changeset	197
38a38babcb31 Uploaded greg parents: diff changeset	198
38a38babcb31 Uploaded greg parents: diff changeset	199 def output_table(df, type_str, group, annotation_dict):
38a38babcb31 Uploaded greg parents: diff changeset	200 if isinstance(group, str) and group.startswith("dataset"):
38a38babcb31 Uploaded greg parents: diff changeset	201 # Inputs are single files, not collections,
38a38babcb31 Uploaded greg parents: diff changeset	202 # so input file names are not useful for naming
38a38babcb31 Uploaded greg parents: diff changeset	203 # output files.
38a38babcb31 Uploaded greg parents: diff changeset	204 group_str = None
38a38babcb31 Uploaded greg parents: diff changeset	205 else:
38a38babcb31 Uploaded greg parents: diff changeset	206 group_str = group
38a38babcb31 Uploaded greg parents: diff changeset	207 count = 0
38a38babcb31 Uploaded greg parents: diff changeset	208 chunk_start = 0
38a38babcb31 Uploaded greg parents: diff changeset	209 chunk_end = 0
38a38babcb31 Uploaded greg parents: diff changeset	210 column_count = df.shape[1]
38a38babcb31 Uploaded greg parents: diff changeset	211 if column_count >= MAXCOLS:
38a38babcb31 Uploaded greg parents: diff changeset	212 # Here the number of columns is greater than
38a38babcb31 Uploaded greg parents: diff changeset	213 # the maximum allowed by Excel, so multiple
38a38babcb31 Uploaded greg parents: diff changeset	214 # outputs will be produced.
38a38babcb31 Uploaded greg parents: diff changeset	215 while column_count >= MAXCOLS:
38a38babcb31 Uploaded greg parents: diff changeset	216 count += 1
38a38babcb31 Uploaded greg parents: diff changeset	217 chunk_end += MAXCOLS
38a38babcb31 Uploaded greg parents: diff changeset	218 df_of_type = df.iloc[:, chunk_start:chunk_end]
38a38babcb31 Uploaded greg parents: diff changeset	219 output_excel(df_of_type, type_str, group_str, annotation_dict, count=count)
38a38babcb31 Uploaded greg parents: diff changeset	220 chunk_start += MAXCOLS
38a38babcb31 Uploaded greg parents: diff changeset	221 column_count -= MAXCOLS
38a38babcb31 Uploaded greg parents: diff changeset	222 count += 1
38a38babcb31 Uploaded greg parents: diff changeset	223 df_of_type = df.iloc[:, chunk_start:]
38a38babcb31 Uploaded greg parents: diff changeset	224 output_excel(df_of_type, type_str, group_str, annotation_dict, count=count)
38a38babcb31 Uploaded greg parents: diff changeset	225 else:
38a38babcb31 Uploaded greg parents: diff changeset	226 output_excel(df, type_str, group_str, annotation_dict)
38a38babcb31 Uploaded greg parents: diff changeset	227
38a38babcb31 Uploaded greg parents: diff changeset	228
9 f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	229 def preprocess_tables(task_queue, annotation_dict, timeout):
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	230 while True:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	231 try:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	232 tup = task_queue.get(block=True, timeout=timeout)
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	233 except queue.Empty:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	234 break
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	235 newick_file, json_file, json_avg_mq_file = tup
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	236 avg_mq_series = pandas.read_json(json_avg_mq_file, typ='series', orient='split')
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	237 # Map quality to dataframe.
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	238 mqdf = avg_mq_series.to_frame(name='MQ')
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	239 mqdf = mqdf.T
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	240 # Get the group.
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	241 group = get_sample_name(newick_file)
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	242 snps_df = pandas.read_json(json_file, orient='split')
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	243 with open(newick_file, 'r') as fh:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	244 for line in fh:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	245 line = re.sub('[:,]', '\n', line)
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	246 line = re.sub('[)(]', '', line)
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	247 line = re.sub(r'[0-9].\.[0-9].\n', '', line)
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	248 line = re.sub('root\n', '', line)
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	249 sample_order = line.split('\n')
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	250 sample_order = list([_f for _f in sample_order if _f])
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	251 sample_order.insert(0, 'root')
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	252 tree_order = snps_df.loc[sample_order]
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	253 # Count number of SNPs in each column.
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	254 snp_per_column = []
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	255 for column_header in tree_order:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	256 count = 0
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	257 column = tree_order[column_header]
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	258 for element in column:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	259 if element != column[0]:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	260 count = count + 1
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	261 snp_per_column.append(count)
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	262 row1 = pandas.Series(snp_per_column, tree_order.columns, name="snp_per_column")
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	263 # Count number of SNPS from the
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	264 # top of each column in the table.
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	265 snp_from_top = []
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	266 for column_header in tree_order:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	267 count = 0
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	268 column = tree_order[column_header]
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	269 # for each element in the column
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	270 # skip the first element
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	271 for element in column[1:]:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	272 if element == column[0]:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	273 count = count + 1
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	274 else:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	275 break
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	276 snp_from_top.append(count)
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	277 row2 = pandas.Series(snp_from_top, tree_order.columns, name="snp_from_top")
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	278 tree_order = tree_order.append([row1])
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	279 tree_order = tree_order.append([row2])
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	280 # In pandas=0.18.1 even this does not work:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	281 # abc = row1.to_frame()
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	282 # abc = abc.T --> tree_order.shape (5, 18), abc.shape (1, 18)
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	283 # tree_order.append(abc)
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	284 # Continue to get error: "*** ValueError: all the input arrays must have same number of dimensions"
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	285 tree_order = tree_order.T
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	286 tree_order = tree_order.sort_values(['snp_from_top', 'snp_per_column'], ascending=[True, False])
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	287 tree_order = tree_order.T
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	288 # Remove snp_per_column and snp_from_top rows.
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	289 cascade_order = tree_order[:-2]
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	290 # Output the cascade table.
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	291 output_cascade_table(cascade_order, mqdf, group, annotation_dict)
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	292 # Output the sorted table.
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	293 output_sort_table(cascade_order, mqdf, group, annotation_dict)
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	294 task_queue.task_done()
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	295
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	296
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	297 def set_num_cpus(num_files, processes):
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	298 num_cpus = int(multiprocessing.cpu_count())
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	299 if num_files < num_cpus and num_files < processes:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	300 return num_files
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	301 if num_cpus < processes:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	302 half_cpus = int(num_cpus / 2)
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	303 if num_files < half_cpus:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	304 return num_files
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	305 return half_cpus
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	306 return processes
0 38a38babcb31 Uploaded greg parents: diff changeset	307
38a38babcb31 Uploaded greg parents: diff changeset	308
38a38babcb31 Uploaded greg parents: diff changeset	309 if __name__ == '__main__':
38a38babcb31 Uploaded greg parents: diff changeset	310 parser = argparse.ArgumentParser()
38a38babcb31 Uploaded greg parents: diff changeset	311
9 f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	312 parser.add_argument('--input_avg_mq_json', action='store', dest='input_avg_mq_json', required=False, default=None, help='Average MQ json file')
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	313 parser.add_argument('--input_newick', action='store', dest='input_newick', required=False, default=None, help='Newick file')
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	314 parser.add_argument('--input_snps_json', action='store', dest='input_snps_json', required=False, default=None, help='SNPs json file')
0 38a38babcb31 Uploaded greg parents: diff changeset	315 parser.add_argument('--gbk_file', action='store', dest='gbk_file', required=False, default=None, help='Optional gbk file'),
9 f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	316 parser.add_argument('--processes', action='store', dest='processes', type=int, help='User-selected number of processes to use for job splitting')
0 38a38babcb31 Uploaded greg parents: diff changeset	317
38a38babcb31 Uploaded greg parents: diff changeset	318 args = parser.parse_args()
38a38babcb31 Uploaded greg parents: diff changeset	319
38a38babcb31 Uploaded greg parents: diff changeset	320 if args.gbk_file is not None:
38a38babcb31 Uploaded greg parents: diff changeset	321 # Create the annotation_dict for annotating
38a38babcb31 Uploaded greg parents: diff changeset	322 # the Excel tables.
38a38babcb31 Uploaded greg parents: diff changeset	323 annotation_dict = get_annotation_dict(args.gbk_file)
38a38babcb31 Uploaded greg parents: diff changeset	324 else:
38a38babcb31 Uploaded greg parents: diff changeset	325 annotation_dict = None
38a38babcb31 Uploaded greg parents: diff changeset	326
9 f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	327 # The assumption here is that the list of files
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	328 # in both INPUT_NEWICK_DIR and INPUT_JSON_DIR are
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	329 # named such that they are properly matched if
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	330 # the directories contain more than 1 file (i.e.,
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	331 # hopefully the newick file names and json file names
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	332 # will be something like Mbovis-01D6_* so they can be
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	333 # sorted and properly associated with each other).
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	334 if args.input_newick is not None:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	335 newick_files = [args.input_newick]
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	336 else:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	337 newick_files = []
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	338 for file_name in sorted(os.listdir(INPUT_NEWICK_DIR)):
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	339 file_path = os.path.abspath(os.path.join(INPUT_NEWICK_DIR, file_name))
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	340 newick_files.append(file_path)
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	341 if args.input_snps_json is not None:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	342 json_files = [args.input_snps_json]
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	343 else:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	344 json_files = []
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	345 for file_name in sorted(os.listdir(INPUT_JSON_DIR)):
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	346 file_path = os.path.abspath(os.path.join(INPUT_JSON_DIR, file_name))
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	347 json_files.append(file_path)
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	348 if args.input_avg_mq_json is not None:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	349 json_avg_mq_files = [args.input_avg_mq_json]
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	350 else:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	351 json_avg_mq_files = []
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	352 for file_name in sorted(os.listdir(INPUT_JSON_AVG_MQ_DIR)):
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	353 file_path = os.path.abspath(os.path.join(INPUT_JSON_AVG_MQ_DIR, file_name))
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	354 json_avg_mq_files.append(file_path)
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	355
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	356 multiprocessing.set_start_method('spawn')
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	357 queue1 = multiprocessing.JoinableQueue()
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	358 queue2 = multiprocessing.JoinableQueue()
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	359 num_files = len(newick_files)
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	360 cpus = set_num_cpus(num_files, args.processes)
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	361 # Set a timeout for get()s in the queue.
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	362 timeout = 0.05
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	363
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	364 for i, newick_file in enumerate(newick_files):
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	365 json_file = json_files[i]
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	366 json_avg_mq_file = json_avg_mq_files[i]
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	367 queue1.put((newick_file, json_file, json_avg_mq_file))
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	368
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	369 # Complete the preprocess_tables task.
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	370 processes = [multiprocessing.Process(target=preprocess_tables, args=(queue1, annotation_dict, timeout, )) for _ in range(cpus)]
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	371 for p in processes:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	372 p.start()
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	373 for p in processes:
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	374 p.join()
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	375 queue1.join()
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	376
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	377 if queue1.empty():
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	378 queue1.close()
f641e52353e8 "planemo upload for repository https://github.com/gregvonkuster/galaxy_tools/tree/master/tools/sequence_analysis/vsnp/vsnp_build_tables commit 1131a7accc36df73eac621f6ae8aa3cb62403bde" greg parents: 3 diff changeset	379 queue1.join_thread()

Mercurial > repos > greg > vsnp_build_tables

annotate vsnp_build_tables.py @ 10:14384fd2a7e2 draft