pangenome_explorer: COG/bac-genomics-scripts/cat

annotate COG/bac-genomics-scripts/cat_seq/README.md @ 3:e42d30da7a74 draft

Uploaded

author	dereeper
date	Thu, 30 May 2024 11:52:25 +0000
parents
children

rev	line source
3 e42d30da7a74 Uploaded dereeper parents: diff changeset	1 cat_seq
e42d30da7a74 Uploaded dereeper parents: diff changeset	2 =======
e42d30da7a74 Uploaded dereeper parents: diff changeset	3
e42d30da7a74 Uploaded dereeper parents: diff changeset	4 A script to merge multi-sequence RichSeq files into one single-entry 'artificial' sequence file.
e42d30da7a74 Uploaded dereeper parents: diff changeset	5
e42d30da7a74 Uploaded dereeper parents: diff changeset	6 * [Synopsis](#synopsis)
e42d30da7a74 Uploaded dereeper parents: diff changeset	7 * [Description](#description)
e42d30da7a74 Uploaded dereeper parents: diff changeset	8 * [Usage](#usage)
e42d30da7a74 Uploaded dereeper parents: diff changeset	9 * [Merge multi-sequence file](#merge-multi-sequence-file)
e42d30da7a74 Uploaded dereeper parents: diff changeset	10 * [Merge multi-sequence file and specify different output format](#merge-multi-sequence-file-and-specify-different-output-format)
e42d30da7a74 Uploaded dereeper parents: diff changeset	11 * [UNIX loop to concatenate each multi-sequence file in the current working directory](#unix-loop-to-concatenate-each-multi-sequence-file-in-the-current-working-directory)
e42d30da7a74 Uploaded dereeper parents: diff changeset	12 * [Concatenate multi-sequence fasta files faster with UNIX's `grep`](#concatenate-multi-sequence-fasta-files-faster-with-unixs-grep)
e42d30da7a74 Uploaded dereeper parents: diff changeset	13 * [Output](#output)
e42d30da7a74 Uploaded dereeper parents: diff changeset	14 * [Dependencies](#dependencies)
e42d30da7a74 Uploaded dereeper parents: diff changeset	15 * [Run environment](#run-environment)
e42d30da7a74 Uploaded dereeper parents: diff changeset	16 * [Alternative software](#alternative-software)
e42d30da7a74 Uploaded dereeper parents: diff changeset	17 * [Author - contact](#author---contact)
e42d30da7a74 Uploaded dereeper parents: diff changeset	18 * [Citation, installation, and license](#citation-installation-and-license)
e42d30da7a74 Uploaded dereeper parents: diff changeset	19 * [Changelog](#changelog)
e42d30da7a74 Uploaded dereeper parents: diff changeset	20
e42d30da7a74 Uploaded dereeper parents: diff changeset	21 ## Synopsis
e42d30da7a74 Uploaded dereeper parents: diff changeset	22
e42d30da7a74 Uploaded dereeper parents: diff changeset	23 perl cat_seq.pl multi-seq_file.embl
e42d30da7a74 Uploaded dereeper parents: diff changeset	24
e42d30da7a74 Uploaded dereeper parents: diff changeset	25 ## Description
e42d30da7a74 Uploaded dereeper parents: diff changeset	26
e42d30da7a74 Uploaded dereeper parents: diff changeset	27 This script concatenates multiple sequences in a RichSeq file (embl or genbank, but also fasta) to a single artificial sequence. The first sequence in the file is used as a foundation to add the subsequent sequences, along with all features and annotations.
e42d30da7a74 Uploaded dereeper parents: diff changeset	28
e42d30da7a74 Uploaded dereeper parents: diff changeset	29 Optionally, a different output file format can be specified (fasta/embl/genbank).
e42d30da7a74 Uploaded dereeper parents: diff changeset	30
e42d30da7a74 Uploaded dereeper parents: diff changeset	31 ## Usage
e42d30da7a74 Uploaded dereeper parents: diff changeset	32
e42d30da7a74 Uploaded dereeper parents: diff changeset	33 ### Merge multi-sequence file
e42d30da7a74 Uploaded dereeper parents: diff changeset	34
e42d30da7a74 Uploaded dereeper parents: diff changeset	35 perl cat_seq.pl multi-seq_file.gbk
e42d30da7a74 Uploaded dereeper parents: diff changeset	36
e42d30da7a74 Uploaded dereeper parents: diff changeset	37 ### Merge multi-sequence file and specify different output format
e42d30da7a74 Uploaded dereeper parents: diff changeset	38
e42d30da7a74 Uploaded dereeper parents: diff changeset	39 perl cat_seq.pl multi-seq_file.embl [fasta\|genbank]
e42d30da7a74 Uploaded dereeper parents: diff changeset	40
e42d30da7a74 Uploaded dereeper parents: diff changeset	41 ### UNIX loop to concatenate each multi-sequence file in the current working directory
e42d30da7a74 Uploaded dereeper parents: diff changeset	42
e42d30da7a74 Uploaded dereeper parents: diff changeset	43 for i in *.[embl\|fasta\|gbk]; do perl cat_seq.pl $i [embl\|fasta\|genbank]; done
e42d30da7a74 Uploaded dereeper parents: diff changeset	44
e42d30da7a74 Uploaded dereeper parents: diff changeset	45 ### Concatenate multi-sequence fasta files faster with UNIXs grep
e42d30da7a74 Uploaded dereeper parents: diff changeset	46 If you're working only with fasta files UNIX's `grep` is a faster choice to concatenate sequences.
e42d30da7a74 Uploaded dereeper parents: diff changeset	47
e42d30da7a74 Uploaded dereeper parents: diff changeset	48 grep -v ">" seq.fasta > seq_artificial.fasta
e42d30da7a74 Uploaded dereeper parents: diff changeset	49
e42d30da7a74 Uploaded dereeper parents: diff changeset	50 Subsequently add as a first line a fasta ID (starting with '>') with an editor.
e42d30da7a74 Uploaded dereeper parents: diff changeset	51
e42d30da7a74 Uploaded dereeper parents: diff changeset	52 ## Output
e42d30da7a74 Uploaded dereeper parents: diff changeset	53
e42d30da7a74 Uploaded dereeper parents: diff changeset	54 * *\_artificial.[embl\|fasta\|genbank]
e42d30da7a74 Uploaded dereeper parents: diff changeset	55
e42d30da7a74 Uploaded dereeper parents: diff changeset	56 Concatenated artificial sequence in the input format, or optionally the specified output sequence format.
e42d30da7a74 Uploaded dereeper parents: diff changeset	57
e42d30da7a74 Uploaded dereeper parents: diff changeset	58 ## Dependencies
e42d30da7a74 Uploaded dereeper parents: diff changeset	59
e42d30da7a74 Uploaded dereeper parents: diff changeset	60 * BioPerl (tested with version 1.006901)
e42d30da7a74 Uploaded dereeper parents: diff changeset	61
e42d30da7a74 Uploaded dereeper parents: diff changeset	62 ## Run environment
e42d30da7a74 Uploaded dereeper parents: diff changeset	63
e42d30da7a74 Uploaded dereeper parents: diff changeset	64 The Perl script runs under Windows and UNIX flavors.
e42d30da7a74 Uploaded dereeper parents: diff changeset	65
e42d30da7a74 Uploaded dereeper parents: diff changeset	66 ## Alternative software
e42d30da7a74 Uploaded dereeper parents: diff changeset	67
e42d30da7a74 Uploaded dereeper parents: diff changeset	68 The EMBOSS (The European Molecular Biology Open Software Suite) application *union* can also be used for this task (http://emboss.sourceforge.net/apps/release/6.6/emboss/apps/union.html).
e42d30da7a74 Uploaded dereeper parents: diff changeset	69
e42d30da7a74 Uploaded dereeper parents: diff changeset	70 ## Author - contact
e42d30da7a74 Uploaded dereeper parents: diff changeset	71
e42d30da7a74 Uploaded dereeper parents: diff changeset	72 Andreas Leimbach (aleimba[at]gmx[dot]de; Microbial Genome Plasticity, Institute of Hygiene, University of Muenster)
e42d30da7a74 Uploaded dereeper parents: diff changeset	73
e42d30da7a74 Uploaded dereeper parents: diff changeset	74 ## Citation, installation, and license
e42d30da7a74 Uploaded dereeper parents: diff changeset	75
e42d30da7a74 Uploaded dereeper parents: diff changeset	76 For [citation](https://github.com/aleimba/bac-genomics-scripts#citation), [installation](https://github.com/aleimba/bac-genomics-scripts#installation-recommendations), and [license](https://github.com/aleimba/bac-genomics-scripts#license) information please see the repository main [README.md](https://github.com/aleimba/bac-genomics-scripts/blob/master/README.md).
e42d30da7a74 Uploaded dereeper parents: diff changeset	77
e42d30da7a74 Uploaded dereeper parents: diff changeset	78 ## Changelog
e42d30da7a74 Uploaded dereeper parents: diff changeset	79
e42d30da7a74 Uploaded dereeper parents: diff changeset	80 * v0.1 (08.02.2013)

Mercurial > repos > dereeper > pangenome_explorer

annotate COG/bac-genomics-scripts/cat_seq/README.md @ 3:e42d30da7a74 draft