ribogalaxy_get_chrom_sizes: get_chrom_sizes/calculating

annotate get_chrom_sizes/calculating_chrom.sizes.py @ 29:190fa66855a8 draft

Uploaded

author	jackcurragh
date	Fri, 23 Sep 2022 13:55:45 +0000
parents	feeee18b0084
children	9b2bb994fc76

rev	line source
1 27f3669eda60 Uploaded jackcurragh parents: diff changeset	1 # input a genome file and return a file genome.chrom.sizes to be associated with the custom build (or just have it as an output to be used later in the history.
27f3669eda60 Uploaded jackcurragh parents: diff changeset	2 # adapted from https://bioexpressblog.wordpress.com/2014/04/15/calculate-length-of-all-sequences-in-an-multi-fasta-file/
27f3669eda60 Uploaded jackcurragh parents: diff changeset	3 from sys import argv
27f3669eda60 Uploaded jackcurragh parents: diff changeset	4 # python calculating_chrom.sizes.py genome_input.fa output.chrom.sizes
6 c96b29e00427 Uploaded jackcurragh parents: 4 diff changeset	5 fasta_source = str(argv[1])
15 c7e2879bf357 Uploaded jackcurragh parents: 8 diff changeset	6 prefix = str(argv[2])
18 06c2eaff31e5 Uploaded jackcurragh parents: 17 diff changeset	7 genome = str(argv[3])
06c2eaff31e5 Uploaded jackcurragh parents: 17 diff changeset	8 builtin = str(argv[4])
21 cc021a23613b Uploaded jackcurragh parents: 18 diff changeset	9 output = str(argv[5])
15 c7e2879bf357 Uploaded jackcurragh parents: 8 diff changeset	10
1 27f3669eda60 Uploaded jackcurragh parents: diff changeset	11 # genome = 'test-data/test.fasta'
27f3669eda60 Uploaded jackcurragh parents: diff changeset	12 # output = "test-data/test_chrom.sizes"
8 84664985411c Uploaded jackcurragh parents: 6 diff changeset	13 if fasta_source == 'builtin':
84664985411c Uploaded jackcurragh parents: 6 diff changeset	14 genome = builtin
1 27f3669eda60 Uploaded jackcurragh parents: diff changeset	15
24 feeee18b0084 Uploaded jackcurragh parents: 21 diff changeset	16 chromSizesoutput = open(output,"w")
1 27f3669eda60 Uploaded jackcurragh parents: diff changeset	17
27f3669eda60 Uploaded jackcurragh parents: diff changeset	18 records = []
27f3669eda60 Uploaded jackcurragh parents: diff changeset	19 record = False
27f3669eda60 Uploaded jackcurragh parents: diff changeset	20 for line in open(genome, 'r').readlines():
27f3669eda60 Uploaded jackcurragh parents: diff changeset	21 if line[0] == '>':
27f3669eda60 Uploaded jackcurragh parents: diff changeset	22 if record:
27f3669eda60 Uploaded jackcurragh parents: diff changeset	23 records.append(record)
27f3669eda60 Uploaded jackcurragh parents: diff changeset	24 record = [line.strip("\n").split(' ')[0][1:], 0]
27f3669eda60 Uploaded jackcurragh parents: diff changeset	25
27f3669eda60 Uploaded jackcurragh parents: diff changeset	26 else:
27f3669eda60 Uploaded jackcurragh parents: diff changeset	27 sequence = line.strip('\n')
27f3669eda60 Uploaded jackcurragh parents: diff changeset	28 record[1] += len(sequence)
3 cfdf764b9226 Uploaded jackcurragh parents: 1 diff changeset	29
cfdf764b9226 Uploaded jackcurragh parents: 1 diff changeset	30 if record not in records:
cfdf764b9226 Uploaded jackcurragh parents: 1 diff changeset	31 records.append(record)
cfdf764b9226 Uploaded jackcurragh parents: 1 diff changeset	32
21 cc021a23613b Uploaded jackcurragh parents: 18 diff changeset	33
cc021a23613b Uploaded jackcurragh parents: 18 diff changeset	34
1 27f3669eda60 Uploaded jackcurragh parents: diff changeset	35 for seq_record in records:
4 c6a297d05c8e Uploaded jackcurragh parents: 3 diff changeset	36 if prefix != 'none':
c6a297d05c8e Uploaded jackcurragh parents: 3 diff changeset	37 output_line = f"{prefix}{seq_record[0]}\t{seq_record[1]}\n"
c6a297d05c8e Uploaded jackcurragh parents: 3 diff changeset	38 else:
c6a297d05c8e Uploaded jackcurragh parents: 3 diff changeset	39 output_line = f"{seq_record[0]}\t{seq_record[1]}\n"
c6a297d05c8e Uploaded jackcurragh parents: 3 diff changeset	40
1 27f3669eda60 Uploaded jackcurragh parents: diff changeset	41 chromSizesoutput.write(output_line)
27f3669eda60 Uploaded jackcurragh parents: diff changeset	42
27f3669eda60 Uploaded jackcurragh parents: diff changeset	43 chromSizesoutput.close()

Mercurial > repos > jackcurragh > ribogalaxy_get_chrom_sizes

annotate get_chrom_sizes/calculating_chrom.sizes.py @ 29:190fa66855a8 draft