pangenome_explorer: COG/bac-genomics-scripts/tbl2tab/README.md annotate

annotate COG/bac-genomics-scripts/tbl2tab/README.md @ 14:5a5c9a6b047b draft

Uploaded

author	dereeper
date	Tue, 10 Dec 2024 16:20:53 +0000
parents	e42d30da7a74
children

rev	line source
3 e42d30da7a74 Uploaded dereeper parents: diff changeset	1 tbl2tab
e42d30da7a74 Uploaded dereeper parents: diff changeset	2 =======
e42d30da7a74 Uploaded dereeper parents: diff changeset	3
e42d30da7a74 Uploaded dereeper parents: diff changeset	4 `tbl2tab.pl` is a script to convert tbl to tab-separated format and back.
e42d30da7a74 Uploaded dereeper parents: diff changeset	5
e42d30da7a74 Uploaded dereeper parents: diff changeset	6 * [Synopsis](#synopsis)
e42d30da7a74 Uploaded dereeper parents: diff changeset	7 * [Description](#description)
e42d30da7a74 Uploaded dereeper parents: diff changeset	8 * [Usage](#usage)
e42d30da7a74 Uploaded dereeper parents: diff changeset	9 * [Options](#options)
e42d30da7a74 Uploaded dereeper parents: diff changeset	10 * [Mandatory options](#mandatory-options)
e42d30da7a74 Uploaded dereeper parents: diff changeset	11 * [Optional options](#optional-options)
e42d30da7a74 Uploaded dereeper parents: diff changeset	12 * [Output](#output)
e42d30da7a74 Uploaded dereeper parents: diff changeset	13 * [Run environment](#run-environment)
e42d30da7a74 Uploaded dereeper parents: diff changeset	14 * [Author - contact](#author---contact)
e42d30da7a74 Uploaded dereeper parents: diff changeset	15 * [Citation, installation, and license](#citation-installation-and-license)
e42d30da7a74 Uploaded dereeper parents: diff changeset	16 * [Changelog](#changelog)
e42d30da7a74 Uploaded dereeper parents: diff changeset	17
e42d30da7a74 Uploaded dereeper parents: diff changeset	18 ## Synopsis
e42d30da7a74 Uploaded dereeper parents: diff changeset	19
e42d30da7a74 Uploaded dereeper parents: diff changeset	20 perl tbl2tab.pl -m tbl2tab -i feature_table.tbl -s -l locus_prefix
e42d30da7a74 Uploaded dereeper parents: diff changeset	21
e42d30da7a74 Uploaded dereeper parents: diff changeset	22 or
e42d30da7a74 Uploaded dereeper parents: diff changeset	23
e42d30da7a74 Uploaded dereeper parents: diff changeset	24 perl tbl2tab.pl -m tab2tbl -i feature_table.tab -g -l locus_prefix -p "gnl\|dbname\|"
e42d30da7a74 Uploaded dereeper parents: diff changeset	25
e42d30da7a74 Uploaded dereeper parents: diff changeset	26 ## Description
e42d30da7a74 Uploaded dereeper parents: diff changeset	27
e42d30da7a74 Uploaded dereeper parents: diff changeset	28 NCBI's feature table (tbl) format is needed for the submission of genomic data to GenBank with the NCBI tools [Sequin](http://www.ncbi.nlm.nih.gov/Sequin/) or [tbl2asn](http://www.ncbi.nlm.nih.gov/genbank/tbl2asn2). tbl files can be created with automatic annotation systems like [Prokka](http://www.vicbioinformatics.com/software.prokka.shtml). `tbl2tab.pl` can convert a tbl file to a tab-separated format (tab) and back to the tbl format. The tab-delimited format is useful to manipulate the data more comfortably in a spreadsheet software (e.g. LibreOffice or MS Excel). For a conversion back to tbl format save the file in the spreadsheet software as a tab-delimited text file. The script is intended for microbial genomes, but might also be useful for eukaryotes.
e42d30da7a74 Uploaded dereeper parents: diff changeset	29
e42d30da7a74 Uploaded dereeper parents: diff changeset	30 Regular expressions are applied in mode 'tbl2tab' to correct gene names and words in '/product' values to lowercase initials (with the exception of 'Rossman' and 'Willebrand'). The resulting tab file can then be used to check for possible errors.
e42d30da7a74 Uploaded dereeper parents: diff changeset	31
e42d30da7a74 Uploaded dereeper parents: diff changeset	32 The first four header columns of the tab format are mandatory, 'seq_id' for the SeqID, and for each primary tag/feature (e.g. CDS, RNAs, repeat_region etc.), 'start', 'stop', and 'primary_tag'. These mandatory columns have to be filled in every row in the tab file. All the following columns will be included as tags/qualifiers (e.g. '/locus_tag', '/product', '/EC_number', '/note' etc.) in the conversion to the tbl file if a value is present.
e42d30da7a74 Uploaded dereeper parents: diff changeset	33
e42d30da7a74 Uploaded dereeper parents: diff changeset	34 There are three special cases:
e42d30da7a74 Uploaded dereeper parents: diff changeset	35
e42d30da7a74 Uploaded dereeper parents: diff changeset	36 First, '/pseudo' will be included as a tag if any value (the script uses 'T' for true) is present in the tab format. If a primary tag is indicated as pseudo both the primary tag and the accessory 'gene' primary tag (for CDS/RNA features with option -g) will include a '/pseudo' qualifier in the resulting tbl file. Pseudo-genes are indicated by 'pseudo' in the 'primary_tag' column, thus the 'pseudo' column is ignored in these cases.
e42d30da7a74 Uploaded dereeper parents: diff changeset	37
e42d30da7a74 Uploaded dereeper parents: diff changeset	38 Second, tag '/gene_desc' is reserved for the 'product' values of pseudo-genes, thus a 'gene_desc' column in a tab file will be ignored in the conversion to tbl.
e42d30da7a74 Uploaded dereeper parents: diff changeset	39
e42d30da7a74 Uploaded dereeper parents: diff changeset	40 Third, column 'protein_id' in a tab file will also be ignored in the conversion. '/protein_id' values are created from option -p and the locus_tag for each CDS primary feature.
e42d30da7a74 Uploaded dereeper parents: diff changeset	41
e42d30da7a74 Uploaded dereeper parents: diff changeset	42 Furthermore, with option -s G2L-style spreadsheet formulas ([Goettingen Genomics Laboratory](http://appmibio.uni-goettingen.de/)) can be included with additional columns, 'spreadsheet_locus_tag', 'position', 'distance', 'gene_number', and 'contig_order'. These columns will not be included in a conversion to the tbl format. Thus, if you want to include e.g. the locus_tags from the formula in column 'spreadsheet_locus_tag' in the resulting tbl file copy the values to the column 'locus_tag'!
e42d30da7a74 Uploaded dereeper parents: diff changeset	43
e42d30da7a74 Uploaded dereeper parents: diff changeset	44 To illustrate the process two example files are included in the repository, 'example.tbl' and 'example2.tab', which are interconvertible (see "[USAGE](#usage)" below).
e42d30da7a74 Uploaded dereeper parents: diff changeset	45
e42d30da7a74 Uploaded dereeper parents: diff changeset	46 Warning, be aware of possible errors introduced by automatic format conversions using a spreadsheet software like MS Excel, see e.g. Zeeberg et al. 2004 (http://www.ncbi.nlm.nih.gov/pubmed/15214961).
e42d30da7a74 Uploaded dereeper parents: diff changeset	47
e42d30da7a74 Uploaded dereeper parents: diff changeset	48 For more information regarding the feature table and the submission process see NCBI's [prokaryotic annotation guide](http://www.ncbi.nlm.nih.gov/genbank/genomesubmit) and the [bacterial genome submission guide](http://www.ncbi.nlm.nih.gov/genbank/genomesubmit_annotation).
e42d30da7a74 Uploaded dereeper parents: diff changeset	49
e42d30da7a74 Uploaded dereeper parents: diff changeset	50 ## Usage
e42d30da7a74 Uploaded dereeper parents: diff changeset	51
e42d30da7a74 Uploaded dereeper parents: diff changeset	52 ### Conversion from tbl to tab format
e42d30da7a74 Uploaded dereeper parents: diff changeset	53
e42d30da7a74 Uploaded dereeper parents: diff changeset	54 perl tbl2tab.pl -m tbl2tab -i example.tbl -s -l EPE
e42d30da7a74 Uploaded dereeper parents: diff changeset	55
e42d30da7a74 Uploaded dereeper parents: diff changeset	56 ### Conversion from tab to tbl format
e42d30da7a74 Uploaded dereeper parents: diff changeset	57
e42d30da7a74 Uploaded dereeper parents: diff changeset	58 perl tbl2tab.pl -m tab2tbl -i example2.tab -g -l EPE
e42d30da7a74 Uploaded dereeper parents: diff changeset	59
e42d30da7a74 Uploaded dereeper parents: diff changeset	60 ## Options
e42d30da7a74 Uploaded dereeper parents: diff changeset	61
e42d30da7a74 Uploaded dereeper parents: diff changeset	62 ### Mandatory options
e42d30da7a74 Uploaded dereeper parents: diff changeset	63
e42d30da7a74 Uploaded dereeper parents: diff changeset	64 * -m, -mode
e42d30da7a74 Uploaded dereeper parents: diff changeset	65
e42d30da7a74 Uploaded dereeper parents: diff changeset	66 Conversion mode, either 'tbl2tab' or 'tab2tbl' [default = 'tbl2tab']
e42d30da7a74 Uploaded dereeper parents: diff changeset	67
e42d30da7a74 Uploaded dereeper parents: diff changeset	68 * -i, -input
e42d30da7a74 Uploaded dereeper parents: diff changeset	69
e42d30da7a74 Uploaded dereeper parents: diff changeset	70 Input tbl or tab file to be converted to the other format
e42d30da7a74 Uploaded dereeper parents: diff changeset	71
e42d30da7a74 Uploaded dereeper parents: diff changeset	72 ### Optional options
e42d30da7a74 Uploaded dereeper parents: diff changeset	73
e42d30da7a74 Uploaded dereeper parents: diff changeset	74 * -h, -help
e42d30da7a74 Uploaded dereeper parents: diff changeset	75
e42d30da7a74 Uploaded dereeper parents: diff changeset	76 Help (perldoc POD)
e42d30da7a74 Uploaded dereeper parents: diff changeset	77
e42d30da7a74 Uploaded dereeper parents: diff changeset	78 * -v, -version
e42d30da7a74 Uploaded dereeper parents: diff changeset	79
e42d30da7a74 Uploaded dereeper parents: diff changeset	80 Print version number to STDERR
e42d30da7a74 Uploaded dereeper parents: diff changeset	81
e42d30da7a74 Uploaded dereeper parents: diff changeset	82 #### Mode tbl2tab
e42d30da7a74 Uploaded dereeper parents: diff changeset	83
e42d30da7a74 Uploaded dereeper parents: diff changeset	84 * -l, -locus_prefix
e42d30da7a74 Uploaded dereeper parents: diff changeset	85
e42d30da7a74 Uploaded dereeper parents: diff changeset	86 Only in combination with option -s and there mandatory to include the locus_tag prefix in the formula for column 'spreadsheet_locus_tag'
e42d30da7a74 Uploaded dereeper parents: diff changeset	87
e42d30da7a74 Uploaded dereeper parents: diff changeset	88 * -c, -concat
e42d30da7a74 Uploaded dereeper parents: diff changeset	89
e42d30da7a74 Uploaded dereeper parents: diff changeset	90 Concatenate values of identical tags within one primary tag with '~' (e.g. several '/EC_number' or '/inference' tags)
e42d30da7a74 Uploaded dereeper parents: diff changeset	91
e42d30da7a74 Uploaded dereeper parents: diff changeset	92 * -e, -empty
e42d30da7a74 Uploaded dereeper parents: diff changeset	93
e42d30da7a74 Uploaded dereeper parents: diff changeset	94 String used for primary features without value for a tag [default = '']
e42d30da7a74 Uploaded dereeper parents: diff changeset	95
e42d30da7a74 Uploaded dereeper parents: diff changeset	96 * -s, -spreadsheet
e42d30da7a74 Uploaded dereeper parents: diff changeset	97
e42d30da7a74 Uploaded dereeper parents: diff changeset	98 Include formulas for spreadsheet editing
e42d30da7a74 Uploaded dereeper parents: diff changeset	99
e42d30da7a74 Uploaded dereeper parents: diff changeset	100 * -f, -formula_lang
e42d30da7a74 Uploaded dereeper parents: diff changeset	101
e42d30da7a74 Uploaded dereeper parents: diff changeset	102 Syntax language of the spreadsheet formulas, either 'English' or 'German'. If you're still encountering problems with the formulas set the decimal and thousands separator manually in the options of the spreadsheet software (instead of using the operating system separators). [default = 'e']
e42d30da7a74 Uploaded dereeper parents: diff changeset	103
e42d30da7a74 Uploaded dereeper parents: diff changeset	104 #### Mode tab2tbl
e42d30da7a74 Uploaded dereeper parents: diff changeset	105
e42d30da7a74 Uploaded dereeper parents: diff changeset	106 * -l, -locus_prefix
e42d30da7a74 Uploaded dereeper parents: diff changeset	107
e42d30da7a74 Uploaded dereeper parents: diff changeset	108 Prefix to the SeqID if not present already in the SeqID
e42d30da7a74 Uploaded dereeper parents: diff changeset	109
e42d30da7a74 Uploaded dereeper parents: diff changeset	110 * -g, -gene
e42d30da7a74 Uploaded dereeper parents: diff changeset	111
e42d30da7a74 Uploaded dereeper parents: diff changeset	112 Include accessory 'gene' primary tags (with '/gene', '/locus_tag' and possibly '/pseudo' tags) for 'CDS/RNA' primary tags; NCBI standard
e42d30da7a74 Uploaded dereeper parents: diff changeset	113
e42d30da7a74 Uploaded dereeper parents: diff changeset	114 * -t, -tags_full
e42d30da7a74 Uploaded dereeper parents: diff changeset	115
e42d30da7a74 Uploaded dereeper parents: diff changeset	116 Only in combination with option -g, include '/gene' and '/locus_tag' tags additionally in primary tag, not only in accessory 'gene' primary tag
e42d30da7a74 Uploaded dereeper parents: diff changeset	117
e42d30da7a74 Uploaded dereeper parents: diff changeset	118 * -p, -protein_id_prefix
e42d30da7a74 Uploaded dereeper parents: diff changeset	119
e42d30da7a74 Uploaded dereeper parents: diff changeset	120 Prefix for '/protein_id' tags; don't forget the double quotes for the string, otherwise the shell will intepret as pipe [default = 'gnl\|goetting\|']
e42d30da7a74 Uploaded dereeper parents: diff changeset	121
e42d30da7a74 Uploaded dereeper parents: diff changeset	122 ## Output
e42d30da7a74 Uploaded dereeper parents: diff changeset	123
e42d30da7a74 Uploaded dereeper parents: diff changeset	124 * *.tab\|tbl
e42d30da7a74 Uploaded dereeper parents: diff changeset	125
e42d30da7a74 Uploaded dereeper parents: diff changeset	126 Result file in the opposite format
e42d30da7a74 Uploaded dereeper parents: diff changeset	127
e42d30da7a74 Uploaded dereeper parents: diff changeset	128 * (hypo_putative_genes.txt)
e42d30da7a74 Uploaded dereeper parents: diff changeset	129
e42d30da7a74 Uploaded dereeper parents: diff changeset	130 Created in mode tab2tbl, indicates if CDSs are annotated as
e42d30da7a74 Uploaded dereeper parents: diff changeset	131 'hypothetical/putative/predicted protein' but still have a gene name
e42d30da7a74 Uploaded dereeper parents: diff changeset	132
e42d30da7a74 Uploaded dereeper parents: diff changeset	133 ## Run environment
e42d30da7a74 Uploaded dereeper parents: diff changeset	134
e42d30da7a74 Uploaded dereeper parents: diff changeset	135 The Perl script runs under Windows and UNIX flavors.
e42d30da7a74 Uploaded dereeper parents: diff changeset	136
e42d30da7a74 Uploaded dereeper parents: diff changeset	137 ## Author - contact
e42d30da7a74 Uploaded dereeper parents: diff changeset	138
e42d30da7a74 Uploaded dereeper parents: diff changeset	139 Andreas Leimbach (aleimba[at]gmx[dot]de; Microbial Genome Plasticity, Institute of Hygiene, University of Muenster)
e42d30da7a74 Uploaded dereeper parents: diff changeset	140
e42d30da7a74 Uploaded dereeper parents: diff changeset	141 ## Citation, installation, and license
e42d30da7a74 Uploaded dereeper parents: diff changeset	142
e42d30da7a74 Uploaded dereeper parents: diff changeset	143 For [citation](https://github.com/aleimba/bac-genomics-scripts#citation), [installation](https://github.com/aleimba/bac-genomics-scripts#installation-recommendations), and [license](https://github.com/aleimba/bac-genomics-scripts#license) information please see the repository main [README.md](https://github.com/aleimba/bac-genomics-scripts/blob/master/README.md).
e42d30da7a74 Uploaded dereeper parents: diff changeset	144
e42d30da7a74 Uploaded dereeper parents: diff changeset	145 ## Changelog
e42d30da7a74 Uploaded dereeper parents: diff changeset	146
e42d30da7a74 Uploaded dereeper parents: diff changeset	147 * v0.2 (29.10.2014)
e42d30da7a74 Uploaded dereeper parents: diff changeset	148 * fixed bug: message which file was created was mixed up
e42d30da7a74 Uploaded dereeper parents: diff changeset	149 * hypo_putative_genes.txt includes now also 'predicted protein' annotations
e42d30da7a74 Uploaded dereeper parents: diff changeset	150 * additions and syntax changes to POD and README.md
e42d30da7a74 Uploaded dereeper parents: diff changeset	151 * v0.1 (24.06.2014)

Mercurial > repos > dereeper > pangenome_explorer

annotate COG/bac-genomics-scripts/tbl2tab/README.md @ 14:5a5c9a6b047b draft