Repository 'fastx_barcode_splitter_enhanced'
hg clone https://toolshed.g2.bx.psu.edu/repos/lparsons/fastx_barcode_splitter_enhanced

Changeset 0:84bbf4fd24c3 (2013-11-08)
Next changeset 1:b7b3d008e2d3 (2015-10-27)
Commit message:
Initial toolshed version with support for separate index reads and automatic loading of results into Galaxy history.
added:
fastx_barcode_splitter.pl
fastx_barcode_splitter.xml
fastx_barcode_splitter_galaxy_wrapper.sh
test-data/fastx_barcode_splitter1.fastq
test-data/fastx_barcode_splitter1.out
test-data/fastx_barcode_splitter1.txt
b
diff -r 000000000000 -r 84bbf4fd24c3 fastx_barcode_splitter.pl
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/fastx_barcode_splitter.pl Fri Nov 08 09:53:39 2013 -0500
[
b'@@ -0,0 +1,583 @@\n+#!/usr/bin/perl\n+\n+#    FASTX-toolkit - FASTA/FASTQ preprocessing tools.\n+#    Copyright (C) 2009  A. Gordon (gordon@cshl.edu)\n+#\n+#   Lance Parsons (lparsons@princeton.edu)\n+#   3/21/2011 - Modified to accept separate index file for barcodes\n+#   4/6/2011 - Modified to cleanup bad barcode identifiers (esp. useful for Galaxy)\n+#\n+#   This program is free software: you can redistribute it and/or modify\n+#   it under the terms of the GNU Affero General Public License as\n+#   published by the Free Software Foundation, either version 3 of the\n+#   License, or (at your option) any later version.\n+#\n+#   This program is distributed in the hope that it will be useful,\n+#   but WITHOUT ANY WARRANTY; without even the implied warranty of\n+#   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the\n+#   GNU Affero General Public License for more details.\n+#\n+#    You should have received a copy of the GNU Affero General Public License\n+#    along with this program.  If not, see <http://www.gnu.org/licenses/>.\n+\n+use strict;\n+use warnings;\n+use IO::Handle;\n+use Data::Dumper;\n+use Getopt::Long;\n+use Carp;\n+\n+##\n+## This program splits a FASTQ/FASTA file into several smaller files,\n+## Based on barcode matching.\n+##\n+## run with "--help" for usage information\n+##\n+## Assaf Gordon <gordon@cshl.edu> , 11sep2008\n+\n+# Forward declarations\n+sub load_barcode_file ($);\n+sub parse_command_line ;\n+sub match_sequences ;\n+sub mismatch_count($$) ;\n+sub print_results;\n+sub open_and_detect_input_format;\n+sub open_index_and_detect_input_format($);\n+sub read_index_record;\n+sub read_record;\n+sub write_record($);\n+sub usage();\n+\n+# Global flags and arguments, \n+# Set by command line argumens\n+my $barcode_file ;\n+my $barcodes_at_eol = 0 ;\n+my $barcodes_at_bol = 0 ;\n+my $index_read_file ;\n+my $exact_match = 0 ;\n+my $allow_partial_overlap = 0;\n+my $allowed_mismatches = 1;\n+my $newfile_suffix = \'\';\n+my $newfile_prefix  ;\n+my $quiet = 0 ;\n+my $debug = 0 ;\n+my $fastq_format = 1;\n+my $index_fastq_format = 1;\n+my $read_id_check_strip_characters = 1;\n+\n+# Global variables \n+# Populated by \'create_output_files\'\n+my %filenames;\n+my %files;\n+my %counts = ( \'unmatched\' => 0 );\n+my $barcodes_length;\n+my @barcodes;\n+my $input_file_io;\n+\n+\n+# The Four lines per record in FASTQ format.\n+# (when using FASTA format, only the first two are used)\n+my $seq_name;\n+my $seq_bases;\n+my $seq_name2;\n+my $seq_qualities;\n+\n+# Values used for index read file\n+my $index_seq_name;\n+my $index_seq_bases;\n+my $index_seq_name2;\n+my $index_seq_qualities;\n+\n+\n+\n+#\n+# Start of Program\n+#\n+parse_command_line ;\n+\n+load_barcode_file ( $barcode_file ) ;\n+\n+open_and_detect_input_format;\n+\n+if (defined $index_read_file) {open_index_and_detect_input_format ( $index_read_file );}\n+\n+match_sequences ;\n+\n+print_results unless $quiet;\n+\n+#\n+# End of program\n+#\n+\n+\n+\n+\n+\n+\n+\n+\n+sub parse_command_line {\n+\tmy $help;\n+\n+\tusage() if (scalar @ARGV==0);\n+\n+\tmy $result = GetOptions ( "bcfile=s" => \\$barcode_file,\n+\t\t"eol"  => \\$barcodes_at_eol,\n+\t\t"bol"  => \\$barcodes_at_bol,\n+\t\t"idxfile=s"  => \\$index_read_file,\n+\t\t"idxidstrip=i" => \\$read_id_check_strip_characters,\n+\t\t"exact" => \\$exact_match,\n+\t\t"prefix=s" => \\$newfile_prefix,\n+\t\t"suffix=s" => \\$newfile_suffix,\n+\t\t"quiet" => \\$quiet, \n+\t\t"partial=i" => \\$allow_partial_overlap,\n+\t\t"debug" => \\$debug,\n+\t\t"mismatches=i" => \\$allowed_mismatches,\n+\t\t"help" => \\$help\n+\t) ;\n+\n+\tusage() if ($help);\n+\n+\tdie "Error: barcode file not specified (use \'--bcfile [FILENAME]\')\\n" unless defined $barcode_file;\n+\tdie "Error: prefix path/filename not specified (use \'--prefix [PATH]\')\\n" unless defined $newfile_prefix;\n+\n+\tif (! defined $index_read_file) {\n+\t\tif ($barcodes_at_bol == $barcodes_at_eol) {\n+\t\t\tdie "Error: can\'t specify both --eol & --bol\\n" if $barcodes_at_eol;\n+\t\t\tdie "Error: must specify either --eol or --bol or --idxfile\\n" ;\n+\t\t}\n+\t}\n+\telsif ($barcodes_at_bol || $barcodes_at_eol) {\n+\t\tdie "Error: Must specify only one of --idxfile, --eol, or'..b'ists would call the 5\' end, and programmers\n+\t\t  would call index 0.)\n+--eol\t\t- Try to match barcodes at the END of sequences.\n+\t\t  (What biologists would call the 3\' end, and programmers\n+\t\t  would call the end of the string.)\n+--idxfile FILE  - Read barcodes from separate index file (fasta or fastq)\n+\t\t  NOTE: one of --bol, --eol, --idxfile must be specified,\n+\t\t       but not more than one.\n+--idxidstrip N  - When using index file, strip this number of characters\n+\t\t  from the end of the sequence id before matching.\n+\t\t  Automatically detects CASAVA 1.8 format and strips at a\n+\t\t  space in the id, use 0 to disable this.\n+\t\t  (Default is 1). \n+--mismatches N\t- Max. number of mismatches allowed. default is 1.\n+--exact\t\t- Same as \'--mismatches 0\'. If both --exact and --mismatches \n+\t\t  are specified, \'--exact\' takes precedence.\n+--partial N\t- Allow partial overlap of barcodes. (see explanation below.)\n+\t\t  (Default is not partial matching)\n+--quiet\t\t- Don\'t print counts and summary at the end of the run.\n+\t\t  (Default is to print.)\n+--debug\t\t- Print lots of useless debug information to STDERR.\n+--help\t\t- This helpful help screen.\n+\n+Example (Assuming \'s_2_100.txt\' is a FASTQ file, \'mybarcodes.txt\' is \n+the barcodes file):\n+\n+   \\$ cat s_2_100.txt | $0 --bcfile mybarcodes.txt --bol --mismatches 2 \\\\\n+\t--prefix /tmp/bla_ --suffix ".txt"\n+\n+Barcode file format\n+-------------------\n+Barcode files are simple text files. Each line should contain an identifier \n+(descriptive name for the barcode), and the barcode itself (A/C/G/T), \n+separated by a TAB character. Example:\n+\n+    #This line is a comment (starts with a \'number\' sign)\n+    BC1 GATCT\n+    BC2 ATCGT\n+    BC3 GTGAT\n+    BC4 TGTCT\n+\n+For each barcode, a new FASTQ file will be created (with the barcode\'s \n+identifier as part of the file name). Sequences matching the barcode \n+will be stored in the appropriate file.\n+\n+Running the above example (assuming "mybarcodes.txt" contains the above \n+barcodes), will create the following files:\n+\t/tmp/bla_BC1.txt\n+\t/tmp/bla_BC2.txt\n+\t/tmp/bla_BC3.txt\n+\t/tmp/bla_BC4.txt\n+\t/tmp/bla_unmatched.txt\n+The \'unmatched\' file will contain all sequences that didn\'t match any barcode.\n+\n+Barcode matching\n+----------------\n+\n+** Without partial matching:\n+\n+Count mismatches between the FASTA/Q sequences and the barcodes.\n+The barcode which matched with the lowest mismatches count (providing the\n+count is small or equal to \'--mismatches N\') \'gets\' the sequences.\n+\n+Example (using the above barcodes):\n+Input Sequence:\n+GATTTACTATGTAAAGATAGAAGGAATAAGGTGAAG\n+\n+Matching with \'--bol --mismatches 1\':\n+GATTTACTATGTAAAGATAGAAGGAATAAGGTGAAG\n+GATCT (1 mismatch, BC1)\n+ATCGT (4 mismatches, BC2)\n+GTGAT (3 mismatches, BC3)\n+TGTCT (3 mismatches, BC4)\n+\n+This sequence will be classified as \'BC1\' (it has the lowest mismatch count).\n+If \'--exact\' or \'--mismatches 0\' were specified, this sequence would be \n+classified as \'unmatched\' (because, although BC1 had the lowest mismatch count,\n+it is above the maximum allowed mismatches).\n+\n+Matching with \'--eol\' (end of line) does the same, but from the other side\n+of the sequence.\n+\n+** With partial matching (very similar to indels):\n+\n+Same as above, with the following addition: barcodes are also checked for\n+partial overlap (number of allowed non-overlapping bases is \'--partial N\').\n+\n+Example:\n+Input sequence is ATTTACTATGTAAAGATAGAAGGAATAAGGTGAAG\n+(Same as above, but note the missing \'G\' at the beginning.)\n+\n+Matching (without partial overlapping) against BC1 yields 4 mismatches:\n+ATTTACTATGTAAAGATAGAAGGAATAAGGTGAAG\n+GATCT (4 mismatches)\n+\n+Partial overlapping would also try the following match:\n+-ATTTACTATGTAAAGATAGAAGGAATAAGGTGAAG\n+GATCT (1 mismatch)\n+\n+Note: scoring counts a missing base as a mismatch, so the final\n+mismatch count is 2 (1 \'real\' mismatch, 1 \'missing base\' mismatch).\n+If running with \'--mismatches 2\' (meaning allowing upto 2 mismatches) - this \n+seqeunce will be classified as BC1.\n+\n+EOF\n+\n+exit 1;\n+}\n'
b
diff -r 000000000000 -r 84bbf4fd24c3 fastx_barcode_splitter.xml
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/fastx_barcode_splitter.xml Fri Nov 08 09:53:39 2013 -0500
b
@@ -0,0 +1,92 @@
+<tool id="cshl_princeton_fastx_barcode_splitter" version="1.1" name="Barcode Splitter" force_history_refresh="True">
+ <description></description>
+ <command interpreter="bash">
+ fastx_barcode_splitter_galaxy_wrapper.sh $BARCODE $input "primary_$output.id" "$__new_file_path__" $input.extension --mismatches $mismatches --partial $partial 
+ #if $refBarcodeLocation.barcodeLocation == "idxfile":
+   --idxfile $refBarcodeLocation.idxfile 
+ #else: 
+   $refBarcodeLocation.EOL 
+ #end if
+ > $output
+ </command>
+
+ <inputs>
+ <param format="txt" version="1.1" name="BARCODE" type="data" label="Barcodes to use" />
+ <param format="fasta,fastqsanger,fastqsolexa,fastqillumina" version="1.1" name="input" type="data" label="Library to split" />
+
+ <conditional name="refBarcodeLocation">
+ <param version="1.1" name="barcodeLocation" type="select" label="Barcodes found at">
+ <option value="bol">Start of sequence (5' end)</option>
+ <option value="eol">End of sequence (3' end)</option>
+ <option value="idxfile">Separate index file</option>
+ </param>
+ <when value="bol">
+ <param version="1.1" name="EOL" type="hidden" value="--bol" />
+ </when>
+ <when value="eol">
+ <param version="1.1" name="EOL" type="hidden" value="--eol" />
+ </when>
+ <when value="idxfile">
+ <param version="1.1" name="idxfile" type="data" format="fasta,fastq,fastqsanger" label="Select index read file" />
+ </when>
+ </conditional>
+
+ <param version="1.1" name="mismatches" type="integer" size="3" value="0" label="Number of allowed mismatches" />
+
+ <param version="1.1" name="partial" type="integer" size="3" value="0" label="Number of allowed barcodes nucleotide deletions" />
+
+ </inputs>
+
+ <tests>
+ <test>
+ <!-- Split a FASTQ file -->
+ <param version="1.1" name="BARCODE" value="fastx_barcode_splitter1.txt" />
+ <param version="1.1" name="input" value="fastx_barcode_splitter1.fastq" ftype="fastqsolexa" />
+ <param version="1.1" name="EOL" value="Start of sequence (5' end)" />
+ <param version="1.1" name="mismatches" value="2" />
+ <param version="1.1" name="partial" value="0" />
+ <output version="1.1" name="output" file="fastx_barcode_splitter1.out" />
+ </test>
+ </tests>
+
+ <outputs>
+ <data version="1.1" format="html" name="output" />
+ </outputs>
+<help>
+
+**What it does**
+
+This tool splits a FASTQ or FASTA file into several files, using barcodes as the split criteria.
+
+--------
+
+**Barcode file Format**
+
+Barcode files are simple text files.
+Each line should contain an identifier (descriptive name for the barcode), and the barcode itself (A/C/G/T), separated by a TAB character.
+Example::
+
+    #This line is a comment (starts with a 'number' sign)
+    BC1 GATCT
+    BC2 ATCGT
+    BC3 GTGAT
+    BC4 TGTCT
+    
+For each barcode, a new FASTQ file will be created (with the barcode's identifier as part of the file name).
+Sequences matching the barcode will be stored in the appropriate file.
+
+One additional FASTQ file will be created (the 'unmatched' file), where sequences not matching any barcode will be stored.
+
+The output of this tool is an HTML file, displaying the split counts and the file names.
+In addition, each fastq file produced will be loaded into the galaxy history automatically.
+
+
+------
+
+This tool is based on `FASTX-toolkit`__ by Assaf Gordon.
+
+ .. __: http://hannonlab.cshl.edu/fastx_toolkit/

+</help>
+<!-- FASTX-barcode-splitter is part of the FASTX-toolkit, by A.Gordon (gordon@cshl.edu) -->
+</tool>
b
diff -r 000000000000 -r 84bbf4fd24c3 fastx_barcode_splitter_galaxy_wrapper.sh
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/fastx_barcode_splitter_galaxy_wrapper.sh Fri Nov 08 09:53:39 2013 -0500
[
@@ -0,0 +1,90 @@
+#!/bin/bash
+
+#    FASTX-toolkit - FASTA/FASTQ preprocessing tools.
+#    Copyright (C) 2009  A. Gordon (gordon@cshl.edu)
+#
+#   This program is free software: you can redistribute it and/or modify
+#   it under the terms of the GNU Affero General Public License as
+#   published by the Free Software Foundation, either version 3 of the
+#   License, or (at your option) any later version.
+#
+#   This program is distributed in the hope that it will be useful,
+#   but WITHOUT ANY WARRANTY; without even the implied warranty of
+#   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+#   GNU Affero General Public License for more details.
+#
+#    You should have received a copy of the GNU Affero General Public License
+#    along with this program.  If not, see <http://www.gnu.org/licenses/>.
+
+#  Modified by Lance Parsons (lparsons@princeton.edu)
+# 2011-03-15 Adapted to allow galaxy to determine filetype
+#
+#This is a shell script wrapper for 'fastx_barcode_splitter.pl'
+#
+# 1. Output files are saved at the dataset's files_path directory.
+#    
+# 2. 'fastx_barcode_splitter.pl' outputs a textual table.
+#    This script turns it into pretty HTML with working URL
+#    (so lazy users can just click on the URLs and get their files)
+
+if [ "$1x" = "x" ]; then
+ echo "Usage: $0 [BARCODE FILE] [FASTQ FILE] [LIBRARY_NAME] [OUTPUT_PATH] [FILETYPE]" >&2
+ exit 1
+fi
+
+BARCODE_FILE="$1"
+FASTQ_FILE="$2"
+LIBNAME="$3"
+OUTPUT_PATH="$4"
+FILETYPE="$5"
+shift 5
+# The rest of the parameters are passed to the split program
+
+if [ "${OUTPUT_PATH}x" = "x" ]; then
+ echo "Usage: $0 [BARCODE FILE] [FASTQ FILE] [LIBRARY_NAME] [OUTPUT_PATH] [FILETYPE]" >&2
+ exit 1
+fi
+
+#Sanitize library name, make sure we can create a file with this name
+LIBNAME=${LIBNAME%.gz}
+LIBNAME=${LIBNAME%.txt}
+LIBNAME=$(echo "$LIBNAME" | tr -cd '[:alnum:]_')
+
+if [ ! -r "$FASTQ_FILE" ]; then
+ echo "Error: Input file ($FASTQ_FILE) not found!" >&2
+ exit 1
+fi
+if [ ! -r "$BARCODE_FILE" ]; then
+ echo "Error: barcode file ($BARCODE_FILE) not found!" >&2
+ exit 1
+fi
+mkdir -p "$OUTPUT_PATH"
+if [ ! -d "$OUTPUT_PATH" ]; then
+ echo "Error: failed to create output path '$OUTPUT_PATH'" >&2
+ exit 1
+fi
+
+PUBLICURL=""
+BASEPATH="$OUTPUT_PATH/"
+#PREFIX="$BASEPATH"`date "+%Y-%m-%d_%H%M__"`"${LIBNAME}__"
+PREFIX="$BASEPATH""${LIBNAME}_"
+SUFFIX="_visible_$FILETYPE"
+DIRECTORY=$(cd `dirname $0` && pwd)
+
+RESULTS=`gzip -cdf "$FASTQ_FILE" | $DIRECTORY/fastx_barcode_splitter.pl --bcfile "$BARCODE_FILE" --prefix "$PREFIX" --suffix "$SUFFIX" "$@"`
+if [ $? != 0 ]; then
+ echo "error"
+fi
+
+#
+# Convert the textual tab-separated table into simple HTML table,
+# with the local path replaces with a valid URL
+#HTMLSUMMARY=${PREFIX}stats_visible_html
+echo "<html><body><table border=1>" 
+echo "$RESULTS" | sed -r "s|$BASEPATH(.*)|\\1|" | sed '
+i<tr><td>
+s|\t|</td><td>|g
+a<\/td><\/tr>
+'
+echo "<p>"
+echo "</table></body></html>"
b
diff -r 000000000000 -r 84bbf4fd24c3 test-data/fastx_barcode_splitter1.fastq
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/fastx_barcode_splitter1.fastq Fri Nov 08 09:53:39 2013 -0500
b
@@ -0,0 +1,168 @@
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GATCTAGTAGTAGTAGA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GATCTAGTAGTAGTAGA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GATCTAGTAGTAGTAGA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GATCTAGTAGTAGTAGA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GATCTAGTAGTAGTAGA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GGTCTAGTAGTAGTAGA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GGTCTTCTCTATGTACA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GGTCTGAGTATACACAT
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GGTATTCTCTATGTACA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GGTATTCTCTATGTACA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GGTATTCTCTATGTACA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GGTACGAGTATACACAT
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GGTACTCTCTATGTACA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GGTACGAGTATACACAT
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+ATCGTTCTCTATGTACA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+ATCGTGAGTATACACAT
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+ATCGTTCTCTATGTACA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+ATCGTGAGTATACACAT
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+ATCTTTCTCTATGTACA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+ATCTTGAGTATACACAT
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+ATCTTGAGTATACACAT
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+ATCTTTCTCTATGTACA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+ATCTCGAGTATACACAT
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+ATCTCGAGTATACACAT
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+ATCTCTCTCTATGTACA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+ATCTCGAGTATACACAT
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GGAATGAGTATACACAT
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GGAATTCTCTATGTACA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GGAATGAGTATACACAT
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GGAATTCTCTATGTACA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GGAATGAGTATACACAT
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GGAATTCTCTATGTACA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GGAATGAGTATACACAT
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GGAATTCTCTATGTACA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+GGAATGAGTATACACAT
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+TAGTTGAGTATACACAT
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+TAGTTGAGTATACACAT
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+TAGTTTCTCTATGTACA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+TAGTTTCTCTATGTACA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+TAGTTGAGTATACACAT
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+TAGTTTCTCTATGTACA
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
+@CSHL_3_FC042AGLLWW:1:2:7:203
+TGTCTGAGTATACACAT
++CSHL_3_FC042AGLLWW:1:2:7:203
+aab^V^aU]`aa^aZaa
\ No newline at end of file
b
diff -r 000000000000 -r 84bbf4fd24c3 test-data/fastx_barcode_splitter1.out
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/fastx_barcode_splitter1.out Fri Nov 08 09:53:39 2013 -0500
b
@@ -0,0 +1,24 @@
+<html><body><table border=1>
+<tr><td>
+Barcode</td><td>Count</td><td>Location
+</td></tr>
+<tr><td>
+BC1</td><td>11</td><td><a href="fastx_barcode_splitter1_fastq__BC1.txt">fastx_barcode_splitter1_fastq__BC1.txt</a>
+</td></tr>
+<tr><td>
+BC2</td><td>12</td><td><a href="fastx_barcode_splitter1_fastq__BC2.txt">fastx_barcode_splitter1_fastq__BC2.txt</a>
+</td></tr>
+<tr><td>
+BC3</td><td>9</td><td><a href="fastx_barcode_splitter1_fastq__BC3.txt">fastx_barcode_splitter1_fastq__BC3.txt</a>
+</td></tr>
+<tr><td>
+BC4</td><td>1</td><td><a href="fastx_barcode_splitter1_fastq__BC4.txt">fastx_barcode_splitter1_fastq__BC4.txt</a>
+</td></tr>
+<tr><td>
+unmatched</td><td>9</td><td><a href="fastx_barcode_splitter1_fastq__unmatched.txt">fastx_barcode_splitter1_fastq__unmatched.txt</a>
+</td></tr>
+<tr><td>
+total</td><td>42
+</td></tr>
+<p>
+</table></body></html>
b
diff -r 000000000000 -r 84bbf4fd24c3 test-data/fastx_barcode_splitter1.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/fastx_barcode_splitter1.txt Fri Nov 08 09:53:39 2013 -0500
b
@@ -0,0 +1,4 @@
+BC1 GATCT
+BC2 ATCGT
+BC3 GTGAT
+BC4 TGTCT
\ No newline at end of file