vsnp_statistics: vsnp_statistics.py comparison

comparison vsnp_statistics.py @ 4:2d6c6b01319e draft

Uploaded

author	greg
date	Sun, 03 Jan 2021 15:47:28 +0000
parents	321a8259e3f9
children	d0fbdeaaa488

comparison

equal deleted inserted replaced

-:321a8259e3f9
+:2d6c6b01319e
 #!/usr/bin/env python
 import argparse
 import gzip
+import os
+import shutil
 import numpy
-import os
 import pandas
-import shutil
-INPUT_IDXSTATS_DIR = 'input_idxstats'
-INPUT_METRICS_DIR = 'input_metrics'
-INPUT_READS_DIR = 'input_reads'
 QUALITYKEY = {'!': '0', '"': '1', '#': '2', '$': '3', '%': '4', '&': '5', "'": '6', '(': '7',
 ')': '8', '*': '9', '+': '10', ',': '11', '-': '12', '.': '13', '/': '14', '0': '15',
 '1': '16', '2': '17', '3': '18', '4': '19', '5': '20', '6': '21', '7': '22',
 '8': '23', '9': '24', ':': '25', ';': '26', '<': '27', '=': '28', '>': '29',
 '?': '30', '@': '31', 'A': '32', 'B': '33', 'C': '34', 'D': '35', 'E': '36',
 's': '1', 't': '1', 'u': '1', 'v': '1', 'w': '1', 'x': '1', 'y': '1', 'z': '1',
 ' ': '1'}
 def fastq_to_df(fastq_file, gzipped):
-if gzipped.lower() == "true":
+if gzipped:
 return pandas.read_csv(gzip.open(fastq_file, "r"), header=None, sep="^")
-else:
+return pandas.read_csv(open(fastq_file, "r"), header=None, sep="^")
-return pandas.read_csv(open(fastq_file, "r"), header=None, sep="^")
-def get_base_file_name(file_path):
-base_file_name = os.path.basename(file_path)
-if base_file_name.find(".") > 0:
-# Eliminate the extension.
-return os.path.splitext(base_file_name)[0]
-elif base_file_name.find("_") > 0:
-# The dot extension was likely changed to
-# the " character.
-items = base_file_name.split("_")
-return "_".join(items[0:-1])
-else:
-return base_file_name
 def nice_size(size):
 # Returns a readably formatted string with the size
 words = ['bytes', 'KB', 'MB', 'GB', 'TB', 'PB', 'EB']
 return "%s%d bytes" % (prefix, size)
 return "%s%.1f %s" % (prefix, size, word)
 return '??? bytes'
-def output_statistics(reads_files, idxstats_files, metrics_files, output_file, gzipped, dbkey):
+def output_statistics(fastq_files, idxstats_files, metrics_files, output_file, gzipped, dbkey):
 # Produce an Excel spreadsheet that
 # contains a row for each sample.
 columns = ['Reference', 'File Size', 'Mean Read Length', 'Mean Read Quality', 'Reads Passing Q30',
 'Total Reads', 'All Mapped Reads', 'Unmapped Reads', 'Unmapped Reads Percentage of Total',
 'Reference with Coverage', 'Average Depth of Coverage', 'Good SNP Count']
 data_frames = []
-for i, fastq_file in enumerate(reads_files):
+for i, fastq_file in enumerate(fastq_files):
 idxstats_file = idxstats_files[i]
 metrics_file = metrics_files[i]
 file_name_base = os.path.basename(fastq_file)
 # Read fastq_file into a data frame.
 fastq_df = fastq_to_df(fastq_file, gzipped)
 # VCFfilter 611
 good_snp_count = items[1]
 return ref_with_coverage, avg_depth_of_coverage, good_snp_count
-if __name__ == '__main__':
+parser = argparse.ArgumentParser()
-parser = argparse.ArgumentParser()
+parser.add_argument('--dbkey', action='store', dest='dbkey', help='Reference dbkey')
-parser.add_argument('--read1', action='store', dest='read1', required=False, default=None, help='Required: single read')
+parser.add_argument('--gzipped', action='store_true', dest='gzipped', required=False, default=False, help='Input files are gzipped')
-parser.add_argument('--read2', action='store', dest='read2', required=False, default=None, help='Optional: paired read')
+parser.add_argument('--input_idxstats_dir', action='store', dest='input_idxstats_dir', required=False, default=None, help='Samtools idxstats input directory')
-parser.add_argument('--dbkey', action='store', dest='dbkey', help='Reference dbkey')
+parser.add_argument('--input_metrics_dir', action='store', dest='input_metrics_dir', required=False, default=None, help='vSNP add zero coverage metrics input directory')
-parser.add_argument('--gzipped', action='store', dest='gzipped', help='Input files are gzipped')
+parser.add_argument('--input_reads_dir', action='store', dest='input_reads_dir', required=False, default=None, help='Samples input directory')
-parser.add_argument('--samtools_idxstats', action='store', dest='samtools_idxstats', required=False, default=None, help='Output of samtools_idxstats')
+parser.add_argument('--list_paired', action='store_true', dest='list_paired', required=False, default=False, help='Input samples is a list of paired reads')
 parser.add_argument('--output', action='store', dest='output', help='Output Excel statistics file')
-parser.add_argument('--vsnp_azc', action='store', dest='vsnp_azc', required=False, default=None, help='Output of vsnp_add_zero_coverage')
+parser.add_argument('--read1', action='store', dest='read1', help='Required: single read')
+parser.add_argument('--read2', action='store', dest='read2', required=False, default=None, help='Optional: paired read')
-args = parser.parse_args()
+parser.add_argument('--samtools_idxstats', action='store', dest='samtools_idxstats', help='Output of samtools_idxstats')
-print("args:\n%s\n" % str(args))
+parser.add_argument('--vsnp_azc', action='store', dest='vsnp_azc', help='Output of vsnp_add_zero_coverage')
-reads_files = []
+args = parser.parse_args()
-idxstats_files = []
-metrics_files = []
+fastq_files = []
-# Accumulate inputs.
+idxstats_files = []
-if args.read1 is not None:
+metrics_files = []
-# The inputs are not dataset collections, so
+# Accumulate inputs.
-# read1, read2 (possibly) and vsnp_azc will also
+if args.read1 is not None:
-# not be None.
+# The inputs are not dataset collections, so
-reads_files.append(args.read1)
+# read1, read2 (possibly) and vsnp_azc will also
+# not be None.
+fastq_files.append(args.read1)
+idxstats_files.append(args.samtools_idxstats)
+metrics_files.append(args.vsnp_azc)
+if args.read2 is not None:
+fastq_files.append(args.read2)
 idxstats_files.append(args.samtools_idxstats)
 metrics_files.append(args.vsnp_azc)
-if args.read2 is not None:
+else:
-reads_files.append(args.read2)
+for file_name in sorted(os.listdir(args.input_reads_dir)):
-idxstats_files.append(args.samtools_idxstats)
+fastq_files.append(os.path.join(args.input_reads_dir, file_name))
-metrics_files.append(args.vsnp_azc)
+for file_name in sorted(os.listdir(args.input_idxstats_dir)):
-else:
+idxstats_files.append(os.path.join(args.input_idxstats_dir, file_name))
-for file_name in sorted(os.listdir(INPUT_READS_DIR)):
+if args.list_paired:
-file_path = os.path.abspath(os.path.join(INPUT_READS_DIR, file_name))
+# Add the idxstats file for reverse.
-reads_files.append(file_path)
+idxstats_files.append(os.path.join(args.input_idxstats_dir, file_name))
-base_file_name = get_base_file_name(file_path)
+for file_name in sorted(os.listdir(args.input_metrics_dir)):
-for file_name in sorted(os.listdir(INPUT_IDXSTATS_DIR)):
+metrics_files.append(os.path.join(args.input_metrics_dir, file_name))
-file_path = os.path.abspath(os.path.join(INPUT_IDXSTATS_DIR, file_name))
+if args.list_paired:
-idxstats_files.append(file_path)
+# Add the metrics file for reverse.
-for file_name in sorted(os.listdir(INPUT_METRICS_DIR)):
+metrics_files.append(os.path.join(args.input_metrics_dir, file_name))
-file_path = os.path.abspath(os.path.join(INPUT_METRICS_DIR, file_name))
+output_statistics(fastq_files, idxstats_files, metrics_files, args.output, args.gzipped, args.dbkey)
-metrics_files.append(file_path)
-output_statistics(reads_files, idxstats_files, metrics_files, args.output, args.gzipped, args.dbkey)

Mercurial > repos > greg > vsnp_statistics

comparison vsnp_statistics.py @ 4:2d6c6b01319e draft