pangenome_explorer: COG/bac-genomics-scripts/ecoli

annotate COG/bac-genomics-scripts/ecoli_mlst/README.md @ 14:5a5c9a6b047b draft

Uploaded

author	dereeper
date	Tue, 10 Dec 2024 16:20:53 +0000
parents	e42d30da7a74
children

rev	line source
3 e42d30da7a74 Uploaded dereeper parents: diff changeset	1 ecoli_mlst
e42d30da7a74 Uploaded dereeper parents: diff changeset	2 ==========
e42d30da7a74 Uploaded dereeper parents: diff changeset	3
e42d30da7a74 Uploaded dereeper parents: diff changeset	4 `ecoli_mlst` is a script to determine MLST sequence types for E. coli genomes and extract allele sequences.
e42d30da7a74 Uploaded dereeper parents: diff changeset	5
e42d30da7a74 Uploaded dereeper parents: diff changeset	6 * [Synopsis](#synopsis)
e42d30da7a74 Uploaded dereeper parents: diff changeset	7 * [Description](#description)
e42d30da7a74 Uploaded dereeper parents: diff changeset	8 * [Usage](#usage)
e42d30da7a74 Uploaded dereeper parents: diff changeset	9 * [Options](#options)
e42d30da7a74 Uploaded dereeper parents: diff changeset	10 * [Mandatory options](#mandatory-options)
e42d30da7a74 Uploaded dereeper parents: diff changeset	11 * [Optional options](#optional-options)
e42d30da7a74 Uploaded dereeper parents: diff changeset	12 * [Output](#output)
e42d30da7a74 Uploaded dereeper parents: diff changeset	13 * [Run environment](#run-environment)
e42d30da7a74 Uploaded dereeper parents: diff changeset	14 * [Author - contact](#author---contact)
e42d30da7a74 Uploaded dereeper parents: diff changeset	15 * [Citation, installation, and license](#citation-installation-and-license)
e42d30da7a74 Uploaded dereeper parents: diff changeset	16 * [Changelog](#changelog)
e42d30da7a74 Uploaded dereeper parents: diff changeset	17
e42d30da7a74 Uploaded dereeper parents: diff changeset	18 # Synopsis
e42d30da7a74 Uploaded dereeper parents: diff changeset	19
e42d30da7a74 Uploaded dereeper parents: diff changeset	20 perl ecoli_mlst.pl -a fas -g fasta
e42d30da7a74 Uploaded dereeper parents: diff changeset	21
e42d30da7a74 Uploaded dereeper parents: diff changeset	22 # Description
e42d30da7a74 Uploaded dereeper parents: diff changeset	23
e42d30da7a74 Uploaded dereeper parents: diff changeset	24 The script searches for multilocus sequence type (MLST) alleles in E. coli genomes according to
e42d30da7a74 Uploaded dereeper parents: diff changeset	25 Mark Achtman's scheme with seven house-keeping genes (adk, fumC, gyrB,
e42d30da7a74 Uploaded dereeper parents: diff changeset	26 icd, mdh, purA, and recA) [Wirth et al., 2006]. NUCmer from the
e42d30da7a74 Uploaded dereeper parents: diff changeset	27 [MUMmer package](http://mummer.sourceforge.net/) is used to compare the given allele
e42d30da7a74 Uploaded dereeper parents: diff changeset	28 sequences to bacterial genomes via nucleotide alignments.
e42d30da7a74 Uploaded dereeper parents: diff changeset	29
e42d30da7a74 Uploaded dereeper parents: diff changeset	30 Download the allele files (adk.fas ...) and the sequence type file
e42d30da7a74 Uploaded dereeper parents: diff changeset	31 ('publicSTs.txt') from this website:
e42d30da7a74 Uploaded dereeper parents: diff changeset	32 http://mlst.ucc.ie/mlst/dbs/Ecoli
e42d30da7a74 Uploaded dereeper parents: diff changeset	33
e42d30da7a74 Uploaded dereeper parents: diff changeset	34 To run `ecoli_mlst.pl` include all E. coli genome files (file
e42d30da7a74 Uploaded dereeper parents: diff changeset	35 extension e.g. 'fasta'), all allele sequence files (file extension
e42d30da7a74 Uploaded dereeper parents: diff changeset	36 'fas') and 'publicSTs.txt' in the current working directory. The
e42d30da7a74 Uploaded dereeper parents: diff changeset	37 allele profiles are parsed from the created \*.coord files and written
e42d30da7a74 Uploaded dereeper parents: diff changeset	38 to a result file, plus additional information from the file
e42d30da7a74 Uploaded dereeper parents: diff changeset	39 'publicSTs.txt'. Also, the corresponding allele sequences (obtained
e42d30da7a74 Uploaded dereeper parents: diff changeset	40 from the allele input files) are concatenated for each E. coli genome
e42d30da7a74 Uploaded dereeper parents: diff changeset	41 into a result multi-fasta file. Option -c can be used to initiate
e42d30da7a74 Uploaded dereeper parents: diff changeset	42 an alignment for this multi-fasta file with [ClustalW](http://www.clustal.org/clustal2/) (standard
e42d30da7a74 Uploaded dereeper parents: diff changeset	43 alignment parameters; has to be in the `$PATH` or change variable
e42d30da7a74 Uploaded dereeper parents: diff changeset	44 `$clustal_call`). The alignment fasta output file can be used
e42d30da7a74 Uploaded dereeper parents: diff changeset	45 directly for [RAxML](http://sco.h-its.org/exelixis/web/software/raxml/index.html). CAREFUL the Phylip alignment format from
e42d30da7a74 Uploaded dereeper parents: diff changeset	46 ClustalW allows only 10 characters per strain ID.
e42d30da7a74 Uploaded dereeper parents: diff changeset	47
e42d30da7a74 Uploaded dereeper parents: diff changeset	48 `ecoli_mlst.pl` works with complete and draft genomes. However, several genomes cannot be included in a single input file!
e42d30da7a74 Uploaded dereeper parents: diff changeset	49
e42d30da7a74 Uploaded dereeper parents: diff changeset	50 Obviously, only for those genomes whose allele sequences have been
e42d30da7a74 Uploaded dereeper parents: diff changeset	51 deposited in Achtman's allele database results can be obtained. If an
e42d30da7a74 Uploaded dereeper parents: diff changeset	52 allele is not found in a genome it is marked by a '?' in the result
e42d30da7a74 Uploaded dereeper parents: diff changeset	53 profile file and a place holder 'XXX' in the result fasta file. For
e42d30da7a74 Uploaded dereeper parents: diff changeset	54 these cases a manual NUCmer or BLASTN might be useful to fill the
e42d30da7a74 Uploaded dereeper parents: diff changeset	55 gaps and [`run_sub_seq.pl`](/run_sub_seq) to get the corresponding 'new' allele
e42d30da7a74 Uploaded dereeper parents: diff changeset	56 sequences.
e42d30da7a74 Uploaded dereeper parents: diff changeset	57
e42d30da7a74 Uploaded dereeper parents: diff changeset	58 Non-NCBI fasta headers for the genome files have to have a
e42d30da7a74 Uploaded dereeper parents: diff changeset	59 unique ID directly following the '>' (e.g. 'Sakai', '55989' ...).
e42d30da7a74 Uploaded dereeper parents: diff changeset	60
e42d30da7a74 Uploaded dereeper parents: diff changeset	61 # Usage
e42d30da7a74 Uploaded dereeper parents: diff changeset	62
e42d30da7a74 Uploaded dereeper parents: diff changeset	63 perl ecoli_mlst.pl -a fas -g fasta -c
e42d30da7a74 Uploaded dereeper parents: diff changeset	64
e42d30da7a74 Uploaded dereeper parents: diff changeset	65 # Options
e42d30da7a74 Uploaded dereeper parents: diff changeset	66
e42d30da7a74 Uploaded dereeper parents: diff changeset	67 ## Mandatory options
e42d30da7a74 Uploaded dereeper parents: diff changeset	68
e42d30da7a74 Uploaded dereeper parents: diff changeset	69 - -a, -alleles
e42d30da7a74 Uploaded dereeper parents: diff changeset	70
e42d30da7a74 Uploaded dereeper parents: diff changeset	71 File extension of the MLST allele fasta files, e.g. 'fas' (<=> -g).
e42d30da7a74 Uploaded dereeper parents: diff changeset	72
e42d30da7a74 Uploaded dereeper parents: diff changeset	73 - -g, -genomes
e42d30da7a74 Uploaded dereeper parents: diff changeset	74
e42d30da7a74 Uploaded dereeper parents: diff changeset	75 File extension of the E. coli genome fasta files, e.g. 'fasta' (<=> -a).
e42d30da7a74 Uploaded dereeper parents: diff changeset	76
e42d30da7a74 Uploaded dereeper parents: diff changeset	77 ## Optional options
e42d30da7a74 Uploaded dereeper parents: diff changeset	78
e42d30da7a74 Uploaded dereeper parents: diff changeset	79 - -h, -help
e42d30da7a74 Uploaded dereeper parents: diff changeset	80
e42d30da7a74 Uploaded dereeper parents: diff changeset	81 Help (perldoc POD)
e42d30da7a74 Uploaded dereeper parents: diff changeset	82
e42d30da7a74 Uploaded dereeper parents: diff changeset	83 - -c, -clustalw
e42d30da7a74 Uploaded dereeper parents: diff changeset	84
e42d30da7a74 Uploaded dereeper parents: diff changeset	85 Call [ClustalW](http://www.clustal.org/clustal2/) for alignment
e42d30da7a74 Uploaded dereeper parents: diff changeset	86
e42d30da7a74 Uploaded dereeper parents: diff changeset	87 # Output
e42d30da7a74 Uploaded dereeper parents: diff changeset	88
e42d30da7a74 Uploaded dereeper parents: diff changeset	89 - ecoli_mlst_profile.txt
e42d30da7a74 Uploaded dereeper parents: diff changeset	90
e42d30da7a74 Uploaded dereeper parents: diff changeset	91 Tab-separated allele profiles for the E. coli genomes, plus additional info from 'publicSTs.txt'
e42d30da7a74 Uploaded dereeper parents: diff changeset	92
e42d30da7a74 Uploaded dereeper parents: diff changeset	93 - ecoli_mlst_seq.fasta
e42d30da7a74 Uploaded dereeper parents: diff changeset	94
e42d30da7a74 Uploaded dereeper parents: diff changeset	95 Multi-fasta file of all concatenated allele sequences for each genome
e42d30da7a74 Uploaded dereeper parents: diff changeset	96
e42d30da7a74 Uploaded dereeper parents: diff changeset	97 - *.coord
e42d30da7a74 Uploaded dereeper parents: diff changeset	98
e42d30da7a74 Uploaded dereeper parents: diff changeset	99 Text files that contain the coordinates of the NUCmer hits for each genome and allele
e42d30da7a74 Uploaded dereeper parents: diff changeset	100
e42d30da7a74 Uploaded dereeper parents: diff changeset	101 - (errors.txt)
e42d30da7a74 Uploaded dereeper parents: diff changeset	102
e42d30da7a74 Uploaded dereeper parents: diff changeset	103 Error file, summarizing number of not found alleles or unclear NUCmer hits
e42d30da7a74 Uploaded dereeper parents: diff changeset	104
e42d30da7a74 Uploaded dereeper parents: diff changeset	105 - (ecoli_mlst_seq_aln.fasta)
e42d30da7a74 Uploaded dereeper parents: diff changeset	106
e42d30da7a74 Uploaded dereeper parents: diff changeset	107 Optional, [ClustalW](http://www.clustal.org/clustal2/) alignment in Phylip format
e42d30da7a74 Uploaded dereeper parents: diff changeset	108
e42d30da7a74 Uploaded dereeper parents: diff changeset	109 - (ecoli_mlst_seq_aln.dnd)
e42d30da7a74 Uploaded dereeper parents: diff changeset	110
e42d30da7a74 Uploaded dereeper parents: diff changeset	111 Optional, ClustalW alignment guide tree
e42d30da7a74 Uploaded dereeper parents: diff changeset	112
e42d30da7a74 Uploaded dereeper parents: diff changeset	113 ## Run environment
e42d30da7a74 Uploaded dereeper parents: diff changeset	114
e42d30da7a74 Uploaded dereeper parents: diff changeset	115 The Perl script runs only under UNIX flavors.
e42d30da7a74 Uploaded dereeper parents: diff changeset	116
e42d30da7a74 Uploaded dereeper parents: diff changeset	117 ## Author - contact
e42d30da7a74 Uploaded dereeper parents: diff changeset	118
e42d30da7a74 Uploaded dereeper parents: diff changeset	119 Andreas Leimbach (aleimba[at]gmx[dot]de; Microbial Genome Plasticity, Institute of Hygiene, University of Muenster)
e42d30da7a74 Uploaded dereeper parents: diff changeset	120
e42d30da7a74 Uploaded dereeper parents: diff changeset	121 ## Citation, installation, and license
e42d30da7a74 Uploaded dereeper parents: diff changeset	122
e42d30da7a74 Uploaded dereeper parents: diff changeset	123 For [citation](https://github.com/aleimba/bac-genomics-scripts#citation), [installation](https://github.com/aleimba/bac-genomics-scripts#installation-recommendations), and [license](https://github.com/aleimba/bac-genomics-scripts#license) information please see the repository main [README.md](https://github.com/aleimba/bac-genomics-scripts/blob/master/README.md).
e42d30da7a74 Uploaded dereeper parents: diff changeset	124
e42d30da7a74 Uploaded dereeper parents: diff changeset	125 ## Changelog
e42d30da7a74 Uploaded dereeper parents: diff changeset	126
e42d30da7a74 Uploaded dereeper parents: diff changeset	127 * v0.3 (30.01.2013)
e42d30da7a74 Uploaded dereeper parents: diff changeset	128 - additional info in POD
e42d30da7a74 Uploaded dereeper parents: diff changeset	129 - check if result files already exist and ask user what to do
e42d30da7a74 Uploaded dereeper parents: diff changeset	130 - changed script name from `ecoli_mlst_alleles.pl` to `ecoli_mlst.pl`
e42d30da7a74 Uploaded dereeper parents: diff changeset	131 * v0.2 (20.10.2012)
e42d30da7a74 Uploaded dereeper parents: diff changeset	132 - included a POD
e42d30da7a74 Uploaded dereeper parents: diff changeset	133 - options with Getopt::Long
e42d30da7a74 Uploaded dereeper parents: diff changeset	134 - don't consider input E. coli genome query files, which are too big (set cutoff at 9 MB for a fasta E. coli file)
e42d30da7a74 Uploaded dereeper parents: diff changeset	135 - draft E. coli genomes can now be used as input query files
e42d30da7a74 Uploaded dereeper parents: diff changeset	136 - additional info in 'publicSTs.txt' now associated to found ST types in output
e42d30da7a74 Uploaded dereeper parents: diff changeset	137 - give text to STDOUT which files were created
e42d30da7a74 Uploaded dereeper parents: diff changeset	138 - new option -c to align the resulting allele sequences via ClustalW
e42d30da7a74 Uploaded dereeper parents: diff changeset	139 * v0.1 (25.10.2011)

Mercurial > repos > dereeper > pangenome_explorer

annotate COG/bac-genomics-scripts/ecoli_mlst/README.md @ 14:5a5c9a6b047b draft