Repository 'versioned_data'
hg clone https://toolshed.g2.bx.psu.edu/repos/damion/versioned_data

Changeset 0:d31a1bd74e63 (2015-08-09)
Next changeset 1:5c5027485f7d (2015-08-09)
Commit message:
Uploaded first version
added:
LICENSE.md
README.md
ffp_macros.xml
ffp_phylogeny.py
ffp_phylogeny.xml
test-data/genome1
test-data/genome2
test-data/test_length_1_output.tabular
test-data/test_length_2_output.tabular
test-data/test_length_2b_output.tabular
tool_dependencies.xml
b
diff -r 000000000000 -r d31a1bd74e63 LICENSE.md
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/LICENSE.md Sun Aug 09 16:05:40 2015 -0400
b
b'@@ -0,0 +1,48 @@\n+Source Code License\n+\n+An Open Source Initiative (OSI) approved license\n+ffp_phylogeny source code is licensed under the Academic Free License version 3.0.\n+\n+Licensed under the Academic Free License version 3.0\n+\n+1) Grant of Copyright License. Licensor grants You a worldwide, royalty-free, non-exclusive, sublicensable license, for the duration of the copyright, to do the following:\n+\n+a) to reproduce the Original Work in copies, either alone or as part of a collective work;\n+\n+b) to translate, adapt, alter, transform, modify, or arrange the Original Work, thereby creating derivative works ("Derivative Works") based upon the Original Work;\n+\n+c) to distribute or communicate copies of the Original Work and Derivative Works to the public, under any license of your choice that does not contradict the terms and conditions, including Licensor\'s reserved rights and remedies, in this Academic Free License;\n+\n+d) to perform the Original Work publicly; and\n+\n+e) to display the Original Work publicly.\n+\n+2) Grant of Patent License. Licensor grants You a worldwide, royalty-free, non-exclusive, sublicensable license, under patent claims owned or controlled by the Licensor that are embodied in the Original Work as furnished by the Licensor, for the duration of the patents, to make, use, sell, offer for sale, have made, and import the Original Work and Derivative Works.\n+\n+3) Grant of Source Code License. The term "Source Code" means the preferred form of the Original Work for making modifications to it and all available documentation describing how to modify the Original Work. Licensor agrees to provide a machine-readable copy of the Source Code of the Original Work along with each copy of the Original Work that Licensor distributes. Licensor reserves the right to satisfy this obligation by placing a machine-readable copy of the Source Code in an information repository reasonably calculated to permit inexpensive and convenient access by You for as long as Licensor continues to distribute the Original Work.\n+\n+4) Exclusions From License Grant. Neither the names of Licensor, nor the names of any contributors to the Original Work, nor any of their trademarks or service marks, may be used to endorse or promote products derived from this Original Work without express prior permission of the Licensor. Except as expressly stated herein, nothing in this License grants any license to Licensor\'s trademarks, copyrights, patents, trade secrets or any other intellectual property. No patent license is granted to make, use, sell, offer for sale, have made, or import embodiments of any patent claims other than the licensed claims defined in Section 2. No license is granted to the trademarks of Licensor even if such marks are included in the Original Work. Nothing in this License shall be interpreted to prohibit Licensor from licensing under terms different from this License any Original Work that Licensor otherwise would have a right to license.\n+\n+5) External Deployment. The term "External Deployment" means the use, distribution, or communication of the Original Work or Derivative Works in any way such that the Original Work or Derivative Works may be used by anyone other than You, whether those works are distributed or communicated to those persons or made available as an application intended for use over a network. As an express condition for the grants of license hereunder, You must treat any External Deployment by You of the Original Work or a Derivative Work as a distribution under section 1(c).\n+\n+6) Attribution Rights. You must retain, in the Source Code of any Derivative Works that You create, all copyright, patent, or trademark notices from the Source Code of the Original Work, as well as any notices of licensing and any descriptive text identified therein as an "Attribution Notice." You must cause the Source Code for any Derivative Works that You create to carry a prominent Attribution Notice reasonably calculated to inform '..b'e is intended to affect copyright exceptions and limitations (including "fair use" or "fair dealing"). This License shall terminate immediately and You may no longer exercise any of the rights granted to You by this License upon your failure to honor the conditions in Section 1(c).\n+\n+10) Termination for Patent Action. This License shall terminate automatically and You may no longer exercise any of the rights granted to You by this License as of the date You commence an action, including a cross-claim or counterclaim, against Licensor or any licensee alleging that the Original Work infringes a patent. This termination provision shall not apply for an action alleging patent infringement by combinations of the Original Work with other software or hardware.\n+\n+11) Jurisdiction, Venue and Governing Law. Any action or suit relating to this License may be brought only in the courts of a jurisdiction wherein the Licensor resides or in which Licensor conducts its primary business, and under the laws of that jurisdiction excluding its conflict-of-law provisions. The application of the United Nations Convention on Contracts for the International Sale of Goods is expressly excluded. Any use of the Original Work outside the scope of this License or after its termination shall be subject to the requirements and penalties of copyright or patent law in the appropriate jurisdiction. This section shall survive the termination of this License.\n+\n+12) Attorneys\' Fees. In any action to enforce the terms of this License or seeking damages relating thereto, the prevailing party shall be entitled to recover its costs and expenses, including, without limitation, reasonable attorneys\' fees and costs incurred in connection with such action, including any appeal of such action. This section shall survive the termination of this License.\n+\n+13) Miscellaneous. If any provision of this License is held to be unenforceable, such provision shall be reformed only to the extent necessary to make it enforceable.\n+\n+14) Definition of "You" in This License. "You" throughout this License, whether in upper or lower case, means an individual or a legal entity exercising rights under, and complying with all of the terms of, this License. For legal entities, "You" includes any entity that controls, is controlled by, or is under common control with you. For purposes of this definition, "control" means (i) the power, direct or indirect, to cause the direction or management of such entity, whether by contract or otherwise, or (ii) ownership of fifty percent (50%) or more of the outstanding shares, or (iii) beneficial ownership of such entity.\n+\n+15) Right to Use. You may use the Original Work in all ways not otherwise restricted or conditioned by this License or by law, and Licensor promises not to interfere with or be responsible for such uses by You.\n+\n+16) Modification of This License. This License is Copyright \xc2\xa9 2005 Lawrence Rosen. Permission is granted to copy, distribute, or communicate this License without modification. Nothing in this License permits You to modify this License as applied to the Original Work or to Derivative Works. However, You may modify the text of this License and copy, distribute or communicate your modified version (the "Modified License") and apply it to other original works of authorship subject to the following conditions: (i) You may not indicate in any way that your Modified License is the "Academic Free License" or "AFL" and you may not use those names in the name of your Modified License; (ii) You must replace the notice specified in the first paragraph above with the notice "Licensed under <insert your license name here>" or with a notice of your own that is not confusingly similar to the notice in this License; and (iii) You may not claim that your original works are open source software unless your Modified License has been approved by Open Source Initiative (OSI) and You comply with its license review and certification process.\n'
b
diff -r 000000000000 -r d31a1bd74e63 README.md
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/README.md Sun Aug 09 16:05:40 2015 -0400
[
@@ -0,0 +1,47 @@
+Feature Frequency Profile Phylogenies
+=====================================
+
+
+Introduction
+------------
+
+FFP (Feature frequency profile) is an alignment free comparison tool for phylogenetic analysis and text comparison. It can be applied to nucleotide sequences, complete genomes, proteomes and even used for text comparison.  This software is a Galaxy (http://galaxyproject.org) tool for calculating FFP on one or more fasta sequence or text datasets.
+
+The original command line ffp-phylogeny code is at http://ffp-phylogeny.sourceforge.net/ .  This tool uses Aaron Petkau's modified version: https://github.com/apetkau/ffp-3.19-custom .  Aaron has quite a good writeup of the technique as well at https://github.com/apetkau/microbial-informatics-2014/tree/master/labs/ffp-phylogeny .
+
+**Installation Note** : Your Galaxy server will need the groff package to be installed on it first (to generate ffp-phylogeny man pages).  A cryptic error will occur if it isn't: "troff: fatal error: can't find macro file s".  This is different from the "groff-base" package.
+
+This Galaxy tool prepares a mini-pipeline consisting of **[ffpry | ffpaa | ffptxt] > [ ffpfilt | ffpcol > ffprwn] > ffpjsd > ffptree**  .  The last step is optional - by deselecting the "Generate Tree Phylogeny" checkbox, the tool will output a distance matrix rather than a Newick (.nhx) formatted tree file.
+
+Each sequence or text file has a profile containing tallies of each feature found.  A feature is a string of valid characters of given length. 
+
+For nucleotide data, by default each character (ATGC) is grouped as either purine(R) or pyrmidine(Y) before being counted.
+
+For amino acid data, by default each character is grouped into one of the following: (ST),(DE),(KQR),(IVLM),(FWY),C,G,A,N,H,P. Each group is represented by the first character in its series.
+
+One other key concept is that a given feature, e.g. "TAA" is counted in forward AND reverse directions, mirroring the idea that a feature's orientation is not so important to distinguish when it comes to alignment-free comparison.  The counts for "TAA" and "AAT" are merged.

+The labeling of the resulting counted feature items is perhaps the trickiest concept to master.  Due to computational efficiency measures taken by the developers, a feature that we see on paper as "TAC" may be stored and labeled internally as "GTA", its reverse compliment.  One must look for the alternative if one does not find the original. 
+
+Also note that in amino acid sequences the stop codon "*" (or any other character that is not in the Amino acid alphabet) causes that character frame not to be counted.  Also, character frames never span across fasta entries.
+
+A few tutorials:
+ * http://sourceforge.net/projects/ffp-phylogeny/files/Documentation/tutorial.pdf
+ * https://github.com/apetkau/microbial-informatics-2014/tree/master/labs/ffp-phylogeny
+
+-------
+**Note**
+
+Taxonomy label details: If each file contains one profile, the file's name is used to label the profile.  If each file contains fasta sequences to profile individually, their fasta identifiers will be used to label them.  The "short labels" option will find the shortest label that uniquely identifies each profile.  Either way, there are some quirks: ffpjsd clips labels to 10 characters if they are greater than 50 characters, so all labels are trimmed to 50 characters first.  Also "id" is prefixed to any numeric label since some tree visualizers won't show purely numeric labels.  In the accidental case where a Fasta sequence label is a duplicate of a previous one it will be prefixed by "DupLabel-".
+
+The command line ffpjsd can hang if one provides an l-mer length greater than the length of file content.  One must identify its process id ("ps aux | grep ffpjsd") and kill it ("kill [process id]").
+
+Finally, it is possible for the ffptree program to generate a tree where some of the branch distances are negative. See https://www.biostars.org/p/45597/
+
+-------
+**References**

+The development of the ffp-phylogeny command line software should be attributed to:
+
+Sims GE, Jun S-R, Wu GA, Kim S-H. Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions. Proceedings of the National Academy of Sciences of the United States of America 2009;106(8):2677-2682. doi:10.1073/pnas.0813249106.
+
b
diff -r 000000000000 -r d31a1bd74e63 ffp_macros.xml
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/ffp_macros.xml Sun Aug 09 16:05:40 2015 -0400
b
@@ -0,0 +1,21 @@
+<macros>
+
+    <xml name="stdio">
+        <stdio>
+            <!-- Anything other than zero is an error -->
+            <exit_code range="1:" />
+            <exit_code range=":-1" />
+            <!-- In case the return code has not been set propery check stderr too -->
+            <regex match="Error:" />
+            <regex match="Exception:" />
+        </stdio>
+    </xml>
+
+    <xml name="requirements">
+        <requirements>
+            <requirement type="binary">@BINARY@</requirement>
+        </requirements>
+        <version_command interpreter="python">@BINARY@ --version</version_command>
+    </xml>
+
+</macros>
\ No newline at end of file
b
diff -r 000000000000 -r d31a1bd74e63 ffp_phylogeny.py
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/ffp_phylogeny.py Sun Aug 09 16:05:40 2015 -0400
[
b'@@ -0,0 +1,364 @@\n+#!/usr/bin/python\n+import optparse\n+import re\n+import time\n+import os\n+import tempfile\n+import sys\n+import shlex, subprocess\n+from string import maketrans\n+\n+VERSION_NUMBER = "0.1.03"\n+\n+class MyParser(optparse.OptionParser):\n+\t"""\n+\t From http://stackoverflow.com/questions/1857346/python-optparse-how-to-include-additional-info-in-usage-output\n+\t Provides a better class for displaying formatted help info in epilog() portion of optParse; allows for carriage returns.\n+\t"""\n+\tdef format_epilog(self, formatter):\n+\t\treturn self.epilog\n+\n+\n+def stop_err( msg ):\n+    sys.stderr.write("%s\\n" % msg)\n+    sys.exit(1)\n+\n+def getTaxonomyNames(type, multiple, abbreviate, filepaths, filenames):\n+\t"""\n+\tReturns a taxonomic list of names corresponding to each file being analyzed by ffp.\n+\tThis may also include names for each fasta sequence found within a file if the\n+\t"-m" multiple option is provided. \tDefault is to use the file names rather than fasta id\'s inside the files.\n+\tNOTE: THIS DOES NOT (MUST NOT) REORDER NAMES IN NAME ARRAY. \n+\tEACH NAME ENTRY IS TRIMMED AND MADE UNIQUE\n+\t\n+\t@param type string [\'text\',\'amino\',\'nucleotide\']\n+\t@param multiple boolean Flag indicates to look within files for labels\n+\t@param abbreviate boolean Flag indicates to shorten labels\t\n+\t@filenames array original input file names as user selected them\n+\t@filepaths array resulting galaxy dataset file .dat paths\n+\t\n+\t"""\n+\t# Take off prefix/suffix whitespace/comma :\n+\ttaxonomy = filenames.strip().strip(\',\').split(\',\')\n+\tnames=[]\n+\tptr = 0\n+\n+\tfor file in filepaths:\n+\t\t# Trim labels to 50 characters max.  ffpjsd kneecaps a taxonomy label to 10 characters if it is greater than 50 chars.\n+\t\ttaxonomyitem = taxonomy[ptr].strip()[:50] #.translate(translations)\n+\t\t# Convert non-alphanumeric characters to underscore in taxonomy names.  ffprwn IS VERY SENSITIVE ABOUT THIS.\n+\t\ttaxonomyitem = re.sub(\'[^0-9a-zA-Z]+\', \'_\', taxonomyitem)\n+\n+\t\tif (not type in \'text\') and multiple:\n+\t\t\t#Must read each fasta file, looking for all lines beginning ">"\n+\t\t\twith open(file) as fastafile:\n+\t\t\t\tlineptr = 0\n+\t\t\t\tfor line in fastafile:\n+\t\t\t\t\tif line[0] == \'>\':\n+\t\t\t\t\t\tname = line[1:].split(None,1)[0].strip()[:50]\n+\t\t\t\t\t\t# Odd case where no fasta description found\n+\t\t\t\t\t\tif name == \'\': name = taxonomyitem + \'.\' + str(lineptr)\n+\t\t\t\t\t\tnames.append(name)\n+\t\t\t\t\t\tlineptr += 1\n+\t\telse:\n+\n+\t\t\tnames.append(taxonomyitem)\n+\t\t\n+\t\tptr += 1\n+\n+\tif abbreviate:\n+\t\tnames = trimCommonPrefixes(names)\n+\t\tnames = trimCommonPrefixes(names, True) # reverse = Suffixes.\n+\n+\treturn names\n+\t\n+def trimCommonPrefixes(names, reverse=False):\n+\t"""\n+\tExamines sorted array of names.  Trims off prefix of each subsequent pair.\n+\t\n+\t@param names array of textual labels (file names or fasta taxonomy ids)\n+\t@param reverse boolean whether to reverse array strings before doing prefix trimming.\n+\t"""\n+\twordybits = \'|.0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ\'\n+\n+\tif reverse:\n+\t\tnames = map(lambda name: name[::-1], names) #reverses characters in names\n+\t\n+\tsortednames = sorted(names)\n+\tptr = 0\n+\tsortedlen = len(sortednames)\n+\toldprefixlen=0\n+\tprefixlen=0\n+\tfor name in sortednames:\n+\t\tptr += 1\n+\n+\t\t#If we\'re not at the very last item, reevaluate prefixlen\n+\t\tif ptr < sortedlen:\n+\n+\t\t\t# Skip first item in an any duplicate pair.  Leave duplicate name in full.\n+\t\t\tif name == sortednames[ptr]:\n+\t\t\t\tif reverse:\n+\t\t\t\t\tcontinue\n+\t\t\t\telse:\n+\t\t\t\t\tnames[names.index(name)] = \'DupLabel-\' + name\n+\t\t\t\t\tcontinue\n+\n+\t\t\t# See http://stackoverflow.com/questions/9114402/regexp-finding-longest-common-prefix-of-two-strings\n+\t\t\tprefixlen = len( name[:([x[0]==x[1] for x in zip(name, sortednames[ptr])]+[0]).index(0)] )\n+\t\t\t\t\n+\t\tif prefixlen <= oldprefixlen:\n+\t\t\tnewprefix = name[:oldprefixlen]\n+\t\telse:\n+\t\t\tnewprefix = name[:prefixlen]\n+\t\t# Expands label to include any preceeding characters that were probably part of it.\n+\t\tnewprefix = newprefix.rstrip(wordybits)\n+\t\tnewname = name[len(newprefix):]\n+\t\t# Some tree visua'..b'imidine group) before being counted.  Disable this to treat individual characters as distinct.\')\n+\n+\t\tparser.add_option(\'-a\', \'--abbreviate\', dest=\'abbreviate\', default=False, action=\'store_true\', \n+\t\t\thelp=\'Shorten tree taxonomy labels as much as possible.\')\n+\t\t\n+\t\tparser.add_option(\'-s\', \'--similarity\', dest=\'similarity\', default=False, action=\'store_true\', \n+\t\t\thelp=\'Enables pearson correlation coefficient matrix and any of the binary distance measures to be turned into similarity matrixes.\')\n+\t\t\n+\t\tparser.add_option(\'-f\', \'--filter\', type=\'choice\', dest=\'filter\', default=\'none\',\n+\t\t\tchoices=[\'none\',\'count\',\'f\',\'n\',\'e\',\'freq\',\'norm\',\'evd\'],\n+\t\t\thelp=\'Choice of [f=raw frequency|n=normal|e=extreme value (Gumbel)] distribution: Features are trimmed from the data based on lower/upper cutoff points according to the given distribution.\')\n+\n+\t\tparser.add_option(\'-L\', \'--lower\', type=\'float\', dest=\'lower\', \n+\t\t\thelp=\'Filter lower bound is a 0.00 percentages\')\n+\t\t\n+\t\tparser.add_option(\'-U\', \'--upper\', type=\'float\', dest=\'upper\',\n+\t\t\thelp=\'Filter upper bound is a 0.00 percentages\')\n+\n+\t\tparser.add_option(\'-o\', \'--output\', type=\'string\', dest=\'output\', \n+\t\t\thelp=\'Path of output file to create\')\n+\n+\t\tparser.add_option(\'-T\', \'--tree\', dest=\'tree\', default=False, action=\'store_true\', help=\'Generate Phylogenetic Tree output file\')\n+\n+\t\tparser.add_option(\'-v\', \'--version\', dest=\'version\', default=False, action=\'store_true\', help=\'Version number\')\n+\n+\t\t# Could also have -D INT decimal precision included for ffprwn .\n+\t\t\t\n+\t\toptions, args = parser.parse_args()\n+\n+\t\tif options.version:\n+\t\t\tprint VERSION_NUMBER\n+\t\t\treturn\n+\t\t\n+\t\timport time\n+\t\ttime_start = time.time()\n+\n+\t\ttry:\n+\t\t\tin_files = args[:]\n+\t\t\n+\t\texcept:\n+\t\t\tstop_err("Expecting at least 1 input data file.")\n+\n+\t\t\n+\t\t#ffptxt / ffpaa / ffpry\n+\t\tif options.type in \'text\':\n+\t\t\tcommand = \'ffptxt\'\n+\t\t\t\n+\t\telse:\n+\t\t\tif options.type == \'amino\':\n+\t\t\t\tcommand = \'ffpaa\'\n+\t\t\telse:\n+\t\t\t\tcommand = \'ffpry\'\n+\t\t\t\t\n+\t\t\tif options.disable:\n+\t\t\t\tcommand += \' -d\'\n+\t\t\t\t\n+\t\t\tif options.multiple:\n+\t\t\t\tcommand += \' -m\'\n+\t\t\n+\t\tcommand += \' -l \' + str(options.length)\n+\n+\t\tif len(in_files): #Note: app isn\'t really suited to stdio\n+\t\t\tcommand += \' "\' + \'" "\'.join(in_files) + \'"\'\n+\t\t\t\t\n+\t\t#ffpcol / ffpfilt\n+\t\tif options.filter != \'none\':\t\t\n+\t\t\tcommand += \' | ffpfilt\'\n+\t\t\tif options.filter != \'count\':\n+\t\t\t\tcommand += \' -\' + options.filter\n+\t\t\tif options.lower > 0:\n+\t\t\t\tcommand += \' --lower \' + str(options.lower)\n+\t\t\tif options.upper > 0:\n+\t\t\t\tcommand += \' --upper \' + str(options.upper)\n+\t\t\t\n+\t\telse:\n+\t\t\tcommand += \' | ffpcol\'\n+\n+\t\tif options.type in \'text\':\n+\t\t\tcommand += \' -t\'\n+\t\t\t\n+\t\telse:\n+\n+\t\t\tif options.type == \'amino\':\n+\t\t\t\tcommand += \' -a\'\n+\t\t\t\n+\t\t\tif options.disable:\n+\t\t\t\tcommand += \' -d\'\n+\t\t\t\n+\t\t#if options.normalize:\n+\t\tcommand += \' | ffprwn\'\n+\n+\t\t#Now create a taxonomy label file, ensuring a name exists for each profile.\n+\t\ttaxonomyNames = getTaxonomyNames(options.type, options.multiple, options.abbreviate, in_files, options.taxonomy)\n+\t\ttaxonomyTempFile = getTaxonomyFile(taxonomyNames)\n+\t\t\n+\t\t# -p = Include phylip format \'infile\' of the taxon names to use.  Very simple, just a list of fasta identifier names.\n+\t\tcommand += \' | ffpjsd -p \' + taxonomyTempFile\n+\n+\t\tif options.metric and len(options.metric) >0 :\n+\t\t\tcommand += \' --\' + options.metric\n+\t\t\tif options.similarity:\n+\t\t\t\tcommand += \' -s\'\n+\n+\t\t# Generate Newick (.nhx) formatted tree if we have at least 3 taxonomy items:\n+\t\tif options.tree:\n+\t\t\tif len(taxonomyNames) > 2:\n+\t\t\t\tcommand += \' | ffptree -q\' \n+\t\t\telse:\n+\t\t\t\tstop_err("For a phylogenetic tree display, one must have at least 3 ffp profiles.")\n+\n+\t\t#print command\n+\t\t\n+\t\tresult = check_output(command)\n+\t\twith open(options.output,\'w\') as fw:\n+\t\t\tfw.writelines(result)\n+\t\tos.remove(taxonomyTempFile)\n+\n+if __name__ == \'__main__\':\n+\n+\ttime_start = time.time()\n+\n+\treportEngine = ReportEngine()\n+\treportEngine.__main__()\n+\t\n+\tprint(\'Execution time (seconds): \' + str(int(time.time()-time_start)))\n+\t\n'
b
diff -r 000000000000 -r d31a1bd74e63 ffp_phylogeny.xml
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/ffp_phylogeny.xml Sun Aug 09 16:05:40 2015 -0400
[
b'@@ -0,0 +1,293 @@\n+<tool id="ffp_phylogeny" name="Feature Frequency Profile Phylogeny" version="0.1.04">\n+\t<description>An alignment free comparison tool for phylogenetic analysis and text comparison</description>\n+\t<requirements>\n+\t\t<requirement type="package" version="0.3.19_d4382db015acec0e5cc43d6c1ac80ae12cb7e6b3">ffp-phylogeny</requirement>\n+\t</requirements>\n+\t\n+\t<macros>\n+\t\t<token name="@BINARY@">./ffp_phylogeny.py</token>\n+\t\t<import>ffp_macros.xml</import>\n+\t</macros>\n+\t<expand macro="requirements" />\n+   <command interpreter="python"><![CDATA[\n+\t\tffp_phylogeny.py\n+\t\t#for $i in $sequence.filesin\n+\t\t\t"$i" ## full file paths\n+\t\t#end for\n+\t\t-x "\n+\t\t#for $i in $sequence.filesin\n+\t\t\t$i.name, ## original file names\n+\t\t#end for\n+\t\t"\n+\t\t-t "$(sequence.file_type.split(\'-\')[0])"\n+\t\t-l "$length"\n+\t\t-o "$info"\n+\t\t##if $normalize\n+\t\t##\t-n\n+\t\t##end if\n+\t\t#if $sequence.file_type != \'text\'\n+\t\t\t#if $sequence.file_type == \'amino-multi\' or $sequence.file_type == \'nucleotide-multi\'\n+\t\t\t\t-m\n+\t\t\t#end if\n+\t\t\t#if $sequence.groupings\n+\t\t\t\t#pass\n+\t\t\t#else\n+\t\t\t\t-d\n+\t\t\t#end if\n+\t\t\t#if $metric\n+\t\t\t\t-M "$metric"\n+\t\t\t#end if\n+\t\t\t#if $similarity\n+\t\t\t\t-s\n+\t\t\t#end if\n+\t\t\t#if $abbreviate\n+\t\t\t\t-a\n+\t\t\t#end if\t\t\t\n+\t\t#end if\n+\t\t#if $phylogeny.phylo_type == \'filt\'\n+\t\t\t-f "$phylogeny.filt.filter_type"\n+\t\t\t-L "$phylogeny.filt.lower"\n+\t\t\t-U "$phylogeny.filt.upper" \n+\t\t#end if\n+\t\t#if $tree\n+\t\t\t-T\n+\t\t#end if\t\t\n+\t\t##ffpjsd -n FLOAT , --normval=FLOAT\n+\t\t## For option -e, --euclid, change the n-norm distance (Default is n=2) to any other value where n > 1\n+\n+    ]]></command>\n+    <expand macro="stdio" />\n+    <inputs>\n+\n+\t\t<!-- Either amino acid or nucleotide input -->\n+\t\t<!-- Ideally we could determine from file content or suffix what type it is -->\n+\n+\t\t<param name="length" type="integer" min="1" max="25" label="l-mer length" value="6" help="String of valid characters of this length will be counted.  Synonyms: feature, k-mer, n-gram, k-tuple" size="2"/>\n+\t\t<!--\n+\t\t<param name="normalize" label="Normalize counts into relative frequency" type="boolean" checked="true" help="" />\n+\t\t-->\n+\t\t<conditional name="sequence">\n+\t\t\t<param type="select" name="file_type" label="File type" help="Note: For phylogeny display, at least three profiles are required.">\n+\t\t\t\t<option value="amino">Amino Acids, one profile per file</option>\n+\t\t\t\t<option value="amino-multi">Amino Acids, one profile per fasta sequence in file</option>\n+\t\t\t\t<option value="nucleotide">Nucleic acids, one profile per file</option>\n+\t\t\t\t<option value="nucleotide-multi">Nucleic acids, one profile per fasta sequence in file</option>\n+\t\t\t\t<option value="text">Text, single file</option>\n+\t\t\t</param>\n+\n+\t\t\t<when value="amino"><!-- ffpaa -->\n+\t\t\t\t<param name="filesin" type="data" label="Select input file(s)" format="fasta" multiple="true" />\n+\t\t\t\t<param name="groupings" label="Enable amino acid grouping" type="boolean" checked="true" help="Counts amino acids in groups rather than individually (usually advantageous, see below)." />\n+\t\t\t</when>\n+\n+\t\t\t<when value="amino-multi">\n+\t\t\t\t<param name="filesin" type="data" label="Select input file(s)" format="fasta" multiple="true" />\n+\t\t\t\t<param name="groupings" label="Enable amino acid grouping" type="boolean" checked="true" help="Counts amino acids in groups rather than individually (usually advantageous, see below)." />\n+\t\t\t</when>\n+\t\t\t\t\t\t\n+\t\t\t<when value="nucleotide"><!-- ffpry -->\n+\t\t\t\t<param name="filesin" type="data" label="Select input file(s)" format="fasta" multiple="true" />\t\n+\t\t\t\t<param name="groupings" label="Enable purine / pyrimidine grouping" type="boolean" checked="true" help="Counts each nucleotide as a purine(R) or pyrimidine(Y) rather than individually (usually advantageous)." />\n+\t\t\t</when>\n+\t\t\t\n+\t\t\t<when value="nucleotide-multi">\n+\t\t\t\t<param name="filesin" type="data" label="Select input file(s)" format="fasta" multiple="true" />\n+\t\t\t\t<param name="groupings" label="Enable purine / pyrimidine grouping" type="boolean" checked="true" help="Counts each nucle'..b'<param name="length" value="2"/>\n+\t\t\t<param name="tree" value="0"/>\n+\t\t\t<param name="groupings" value="true"/>\n+\t\t\t<param name="file_type" value="nucleotide-multi"/>\n+\t\t\t<param name="filesin" value="genome1,genome2"/>\n+\t\t\t<output name="info" file="test_length_2b_output.tabular"/>\n+\t\t</test>\t\t\n+\t</tests>\n+\n+    <help><![CDATA[\n+    \n+.. class:: infomark\n+\n+\n+**What it does**\n+\n+FFP (Feature frequency profile) is an alignment free comparison tool for phylogenetic analysis and text comparison. It can be applied to nucleotide sequences, complete genomes, proteomes and even used for text comparison.\n+\n+This galaxy tool prepares a mini-pipeline consisting of **[ffpry | ffpaa | ffptxt] > [ ffpfilt | ffpcol > ffprwn] > ffpjsd > ffptree**  .  The last step is optional - by deselecting the "Generate Tree Phylogeny" checkbox, the tool will output only the precursor distance matrix file rather than a Newick (.nhx) formatted tree file.\n+\n+Each sequence or text file has a profile containing tallies of each feature found.  A feature is a string of valid characters of given length. \n+\n+For nucleotide data, by default each character (ATGC) is grouped as either purine(R) or pyrmidine(Y) before being counted.\n+\n+For amino acid data, by default each character is grouped into one of the following:\n+(ST),(DE),(KQR),(IVLM),(FWY),C,G,A,N,H,P. Each group is represented by the first character in its series.\n+\n+One other key concept is that a given feature, e.g. "TAA" is counted in forward \n+AND reverse directions, mirroring the idea that a feature&apos;s orientation is not\n+so important to distinguish when it comes to alignment-free comparison.  \n+The counts for "TAA" and "AAT" are merged.\n+ \n+The labeling of the resulting counted feature items is perhaps the trickiest\n+concept to master.  Due to computational efficiency measures taken by the \n+developers, a feature that we see on paper as "TAC" may be stored and labeled \n+internally as "GTA", its reverse compliment.  One must look for the alternative\n+if one does not find the original. \n+\n+Also note that in amino acid sequences the stop codon "*" (or any other character \n+that is not in the Amino acid alphabet) causes that character frame not to be\n+counted.  Also, character frames never span across fasta entries.\n+\n+A few tutorials:\n+ * http://sourceforge.net/projects/ffp-phylogeny/files/Documentation/tutorial.pdf\n+ * https://github.com/apetkau/microbial-informatics-2014/tree/master/labs/ffp-phylogeny\n+\n+-------\n+\n+.. class:: warningmark\n+\n+**Note**\n+\n+Taxonomy label details: If each file contains one profile, the file\'s name is used to label the profile.\n+If each file contains fasta sequences to profile individually, their fasta identifiers will be used to label them.\n+The "short labels" option will find the shortest label that uniquely identifies each profile.\n+Either way, there are some quirks: ffpjsd clips labels to 10 characters if they are greater than 50 characters, so all labels are trimmed to 50 characters first.\n+Also "id" is prefixed to any numeric label since some tree visualizers won\'t show purely numeric labels.\n+In the accidental case where a Fasta sequence label is a duplicate of a previous one it will be prefixed by "DupLabel-".\n+\n+The command line ffpjsd can hang if one provides an l-mer length greater than the length of file content.\n+One must identify its process id (">ps aux | grep ffpjsd") and kill it (">kill [process id]").\n+-------\n+\n+**References**\n+\n+The original ffp-phylogeny code is at http://ffp-phylogeny.sourceforge.net/ .\n+This tool uses Aaron Petkau\'s modified version: https://github.com/apetkau/ffp-3.19-custom .\n+ \n+The development of the ff-phylogeny should be attributed to:\n+\n+Sims GE, Jun S-R, Wu GA, Kim S-H. Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions. Proceedings of the National Academy of Sciences of the United States of America 2009;106(8):2677-2682. doi:10.1073/pnas.0813249106.\n+\n+    ]]></help>\n+</tool>\n+\n+\n'
b
diff -r 000000000000 -r d31a1bd74e63 test-data/genome1
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/genome1 Sun Aug 09 16:05:40 2015 -0400
b
@@ -0,0 +1,2 @@
+>genome1
+AATT
b
diff -r 000000000000 -r d31a1bd74e63 test-data/genome2
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/genome2 Sun Aug 09 16:05:40 2015 -0400
b
@@ -0,0 +1,2 @@
+>genome2
+AAGG
b
diff -r 000000000000 -r d31a1bd74e63 test-data/test_length_1_output.tabular
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/test_length_1_output.tabular Sun Aug 09 16:05:40 2015 -0400
b
@@ -0,0 +1,3 @@
+2
+genome1                                           0.00e+00 1.89e-01 
+genome2                                           1.89e-01 0.00e+00 
b
diff -r 000000000000 -r d31a1bd74e63 test-data/test_length_2_output.tabular
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/test_length_2_output.tabular Sun Aug 09 16:05:40 2015 -0400
b
@@ -0,0 +1,3 @@
+2
+genome1                                           0.00e+00 4.58e-01 
+genome2                                           4.58e-01 0.00e+00 
b
diff -r 000000000000 -r d31a1bd74e63 test-data/test_length_2b_output.tabular
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/test_length_2b_output.tabular Sun Aug 09 16:05:40 2015 -0400
b
@@ -0,0 +1,3 @@
+2
+genome1                                           0.00e+00 1.42e-01 
+genome2                                           1.42e-01 0.00e+00 
b
diff -r 000000000000 -r d31a1bd74e63 tool_dependencies.xml
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tool_dependencies.xml Sun Aug 09 16:05:40 2015 -0400
b
@@ -0,0 +1,24 @@
+<?xml version="1.0"?>
+<tool_dependency>
+ <package name="ffp-phylogeny" version="0.3.19_d4382db015acec0e5cc43d6c1ac80ae12cb7e6b3">
+ <install version="1.0">
+ <actions>
+ <action type="shell_command">git clone https://github.com/apetkau/ffp-3.19-custom.git ffp-phylogeny</action>
+ <action type="shell_command">git reset --hard d4382db015acec0e5cc43d6c1ac80ae12cb7e6b3</action>
+ <action type="shell_command">./configure --disable-gui --prefix=$INSTALL_DIR</action>
+ <action type="make_install"></action>
+ <!-- action type="move_directory_files">
+ <source_directory>bin</source_directory>
+ <destination_directory>$INSTALL_DIR/bin</destination_directory>
+ </action -->
+ <action type="set_environment">
+ <environment_variable name="PATH" action="prepend_to">$INSTALL_DIR/bin</environment_variable>
+ </action>
+ </actions>
+ </install>
+ <readme>
+ apetkau/ffp-3.19-custom is a customized version of http://sourceforge.net/projects/ffp-phylogeny/
+ </readme>
+ </package>
+</tool_dependency>
+