Repository 're_utils'
hg clone https://toolshed.g2.bx.psu.edu/repos/petr-novak/re_utils

Changeset 9:c2c69c6090f0 (2020-01-31)
Previous changeset 8:99569eccc583 (2019-12-09) Next changeset 10:768883847008 (2020-02-03)
Commit message:
Uploaded
modified:
ChipSeqRatioDef.xml
RM_custom_search.xml
extract_contigs_from_archive.xml
fasta_affixer.xml
fasta_interlacer.xml
fasta_manual_input.xml
fastq_name_affixer.xml
pairScan.xml
paired_fastq_filtering.xml
renameSequences.xml
sampleFasta.xml
single_fastq_filtering.xml
b
diff -r 99569eccc583 -r c2c69c6090f0 ChipSeqRatioDef.xml
--- a/ChipSeqRatioDef.xml Mon Dec 09 04:14:48 2019 -0500
+++ b/ChipSeqRatioDef.xml Fri Jan 31 06:55:23 2020 -0500
b
@@ -22,12 +22,12 @@
     </command>
 
     <inputs>
-        <param name="ChipFile" label="Chip Sequences" type="data" format="fasta" help="NGS data in fasta format"/> 
- <param name="InputFile" label="Input Sequences" type="data" format="fasta" help="NGS data in fasta format"/>
- <param name="ContigFile" label="Reference - Contig Sequences" type="data" format="fasta"
-        help="Contigs obtained from RepeatExplorer clustering pipeline in fasta file"/> 
- <param name="MaxCl" label="Number of clusters to be shown in graph" type="integer" value="200"/>   
- <param name="bitscore" label="Minimum bit score threshold" type="integer" value="50" help="All similarity hits with lower bit score will not be considered for ChIP/Input ratio calculation"/>   
+        <param name="ChipFile" label="Chip reads" type="data" format="fasta" help="Reads in FASTA format"/> 
+ <param name="InputFile" label="Input reads" type="data" format="fasta" help="Reads in FASTA format"/>
+ <param name="ContigFile" label="Reference - contig sequences" type="data" format="fasta"
+        help="Contigs from RepeatExplorer clustering (the file &quot;contigs.fasta&quot;)"/> 
+ <param name="MaxCl" label="Number of top clusters to be shown in graph" type="integer" value="200"/>   
+ <param name="bitscore" label="Bit score threshold" type="integer" value="50" help="Similarity hits with lower bit score will not be used for ChIP/Input ratio calculation"/>   
     </inputs>
     <outputs>
      <data name="OutputFile" format="tabular"
@@ -40,20 +40,22 @@
     <help>
 **What it does**
 
-Analysis of NGS sequences from Chromatin Imunoprecipitation. ChiP
-and Input reads are mapped to contigs obtained from graph based
-repetitive sequence clustering(`Novak et al. 2013`__) to enriched repeats. Reads from input
-and ChIP should be ideally short illumina reads with uniform length
-above 80 nt. It is sufficiant to use about 1 milion of reads for both Input and Chip.
+The ChIP-seq Mapper evaluates the enrichment of repetitive sequences in sequencing data from chromatin 
+immunoprecipitation experiments, using repeats identified by RepeatExplorer as the reference. The tool 
+performs BLASTN similarity search of the read sequences to the reference, 
+and the reads producing hits that passed the user-specified similarity threshold are assigned to the 
+repeat clusters. The assignment is made to the cluster that produced the best similarity hit, and every 
+read is assigned to only a single cluster. Following read mapping, the numbers of reads from the 
+INPUT and ChIP samples are evaluated, and ChIP/INPUT ratios of the normalized read counts are reported 
+for individual clusters.
+ChIP and INPUT reads should be of uniform lengths of at least 40 nt. The bit score threshold value should be
+adjusted based on the length of the analyzed reads (the value equal to the read length is recommended for a start). 
 This method was first used in (`Neumann et al. 2012`__) for
-identification of repetitive sequences associated with cetromeric
-region. If you use this method, reference:
+identification of repetitive sequences associated with centromeres:
 
 
 `PLoS Genet. Epub 2012 Jun 21. Stretching the rules: monocentric chromosomes with multiple centromere domains. Neumann P, Navrátilová A, Schroeder-Reiter E, Koblížková A, Steinbauerová V, Chocholová E, Novák P, Wanner G, Macas J.`__.
 
-.. __: http://bioinformatics.oxfordjournals.org/content/29/6/792.full

 .. __: http://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1002777
 .. __: http://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1002777
       
b
diff -r 99569eccc583 -r c2c69c6090f0 RM_custom_search.xml
--- a/RM_custom_search.xml Mon Dec 09 04:14:48 2019 -0500
+++ b/RM_custom_search.xml Fri Jan 31 06:55:23 2020 -0500
b
@@ -10,7 +10,7 @@
   </command>
 
   <inputs>
-    <param format="zip" type="data" name="input_zip" label="Input clustering data in as zip archive" help="zip archive obtained from previouse Graph-based sequence clustering"/>
+    <param format="zip" type="data" name="input_zip" label="RepeatExplorer output data archive" help="Zip archive obtained from previouse Graph-based sequence clustering"/>
     <param name="RMdatabase" format="fasta" type="data" label="Library of repeats" help="Library of repeats as DNA sequences in fasta format. The recommended format for IDs in a custom library is : '>reapeatname#class/subclass'"/>
   </inputs>
   
b
diff -r 99569eccc583 -r c2c69c6090f0 extract_contigs_from_archive.xml
--- a/extract_contigs_from_archive.xml Mon Dec 09 04:14:48 2019 -0500
+++ b/extract_contigs_from_archive.xml Fri Jan 31 06:55:23 2020 -0500
b
@@ -10,7 +10,7 @@
   </inputs>
 
   <outputs>
-    <data name="contigs" format="fasta" label="contigs from RepeatExplorer clustering from data ${RepeatExplorer_archive.hid}" />
-    <data name="aln" format="txt" label="contigs from RepeatExplorer clustering in aln format from data ${RepeatExplorer_archive.hid}" />
+    <data name="contigs" format="fasta" label="Contigs from RepeatExplorer clustering from data ${RepeatExplorer_archive.hid}" />
+    <data name="aln" format="txt" label="Contigs from RepeatExplorer clustering in aln format from data ${RepeatExplorer_archive.hid}" />
   </outputs>
 </tool>
b
diff -r 99569eccc583 -r c2c69c6090f0 fasta_affixer.xml
--- a/fasta_affixer.xml Mon Dec 09 04:14:48 2019 -0500
+++ b/fasta_affixer.xml Fri Jan 31 06:55:23 2020 -0500
b
@@ -1,19 +1,19 @@
 <tool id="fasta_affixer" name="FASTA read name affixer" version="1.0.0">
-<description> Tool appending suffix and prefix to sequences names </description>
+<description> Appending suffix and prefix to the read names </description>
 <command interpreter="python3">
 fasta_affixer.py -f $input -p "$prefix" -s "$suffix" -n $nspace -o $output
 </command>
 
  <inputs>
-  <param format="fasta" type="data" name="input" label="Choose your fasta file" />
-  <param name="prefix" type="text" size="10" value="" label="Prefix" help="Enter prefix which will be added to all sequences names" />
-  <param name="suffix" type="text" size="10" value="" label="Suffix" help="Enter suffix which will be added to all sequences names"/>
-  <param name="nspace" type="integer" size="10" value="0" min="0" max="1000" label="Number of spaces in name to ignore" help="Sequence name is a string before the first space. If you want name to include spaces in name, enter positive integer. All other characters beyond ignored spaces are omitted"/>
+  <param format="fasta" type="data" name="input" label="Choose your FASTA file" />
+  <param name="prefix" type="text" size="10" value="" label="Prefix" help="Enter prefix which will be added to all read names" />
+  <param name="suffix" type="text" size="10" value="" label="Suffix" help="Enter suffix which will be added to all read names"/>
+  <param name="nspace" type="integer" size="10" value="0" min="0" max="1000" label="Number of spaces in the name to ignore" help="By default, a string before the first space is considered to be the read name, and all characters following the space are discarded. If you want to keep the information following the space(s) in the name, enter positive integer."/>
  </inputs>
 
 
  <outputs>
-  <data format="fasta" name="output" label="fasta dataset ${input.hid} with modified sequence names" />
+  <data format="fasta" name="output" label="FASTA dataset ${input.hid} with modified sequence names" />
  </outputs>
 
  <tests>
b
diff -r 99569eccc583 -r c2c69c6090f0 fasta_interlacer.xml
--- a/fasta_interlacer.xml Mon Dec 09 04:14:48 2019 -0500
+++ b/fasta_interlacer.xml Fri Jan 31 06:55:23 2020 -0500
b
@@ -12,8 +12,8 @@
 
 
  <outputs>
-    <data format="fasta" name="paired" label="interlaced paired reads from datasets ${A.hid} and ${B.hid} "/>
-    <data format="fasta" name="single" label="reads without available pair reads from datasets ${A.hid} and ${B.hid}"/>
+    <data format="fasta" name="paired" label="Interlaced paired reads from datasets ${A.hid} and ${B.hid} "/>
+    <data format="fasta" name="single" label="Reads without corresponding mate from datasets ${A.hid} and ${B.hid}"/>
  </outputs>
 
  <help>
b
diff -r 99569eccc583 -r c2c69c6090f0 fasta_manual_input.xml
--- a/fasta_manual_input.xml Mon Dec 09 04:14:48 2019 -0500
+++ b/fasta_manual_input.xml Fri Jan 31 06:55:23 2020 -0500
b
@@ -7,12 +7,12 @@
   </command>
 
   <inputs>
-    <param  type="text" name="fasta_text" area="True" size="50x150" label="Paste sequences in fasta format" />
+    <param  type="text" name="fasta_text" area="True" size="50x150" label="Paste sequences in FASTA format" />
   </inputs>
 
 
   <outputs>
-    <data format="fasta" name="fasta_file" label="fasta sequence manually edited" />
+    <data format="fasta" name="fasta_file" label="FASTA sequence manually edited" />
   </outputs>
 
   <help>
b
diff -r 99569eccc583 -r c2c69c6090f0 fastq_name_affixer.xml
--- a/fastq_name_affixer.xml Mon Dec 09 04:14:48 2019 -0500
+++ b/fastq_name_affixer.xml Fri Jan 31 06:55:23 2020 -0500
b
@@ -5,15 +5,15 @@
 </command>
 
  <inputs>
-  <param format="fastq" type="data" name="input" label="Choose your fastq file" />
+  <param format="fastq" type="data" name="input" label="Choose your FASTQ file" />
   <param name="prefix" type="text" size="10" value="" label="Prefix" help="Enter prefix which will be added to all sequences names" />
   <param name="suffix" type="text" size="10" value="" label="Suffix" help="Enter suffix which will be added to all sequences names"/>
-  <param name="nspace" type="integer" size="10" value="0" min="0" max="1000" label="Number of spaces in name to ignore" help="Sequence name is a string before the first space. If you want name to include spaces in name, enter positive integer. All other characters beyond ignored spaces are omitted"/>
+  <param name="nspace" type="integer" size="10" value="0" min="0" max="1000" label="Number of spaces in sequence name to ignore" help="Sequence name is a string before the first space. If you want name to include spaces in name, enter positive integer. All other characters beyond ignored spaces are omitted"/>
  </inputs>
 
 
  <outputs>
-  <data format="fastq" name="output" label="fastq dataset ${input.hid} with modified sequence names" />
+  <data format="fastq" name="output" label="FASTQ dataset ${input.hid} with modified sequence names" />
  </outputs>
 
  <help>
b
diff -r 99569eccc583 -r c2c69c6090f0 pairScan.xml
--- a/pairScan.xml Mon Dec 09 04:14:48 2019 -0500
+++ b/pairScan.xml Fri Jan 31 06:55:23 2020 -0500
[
@@ -1,6 +1,6 @@
 
-<tool id="pairScan" name="Scan paired reads for overlap" version="1.0.0">
-  <description> Scan paired reads for overlap </description>
+<tool id="pairScan" name="Scan paired-end reads for overlap" version="1.0.0">
+  <description> Scan paired-end reads for overlap </description>
   <requirements>
     <requirement type="package">python-levenshtein</requirement>
   </requirements>
@@ -9,8 +9,8 @@
   </command>
 
   <inputs>
-    <param format="fasta" type="data" name="fasta_input" label="sequences in fasta format" />
-    <param name="min_overlap" type="integer" size="3" value="30" min="20" max="100" label="minimum overlap length [nt] " />
+    <param format="fasta" type="data" name="fasta_input" label="Reads in FASTA format" />
+    <param name="min_overlap" type="integer" size="3" value="30" min="20" max="100" label="Minimum overlap length [nt] " />
     <param name="max_mismatch" type="select" label="Maximum number of mismatches per 100 bp">
       <option value="0">0</option>
       <option value="1" selected="true">1</option>
@@ -38,8 +38,8 @@
 
 
   <outputs>
-    <data format="fasta" name="pass" label="pairs with no overlap from dataset ${fasta_input.hid}"/>
-    <data format="fasta" name="bad" label="overlaping pairs from dataset ${fasta_input.hid}"/>
+    <data format="fasta" name="pass" label="Pairs with no overlap from dataset ${fasta_input.hid}"/>
+    <data format="fasta" name="bad" label="Overlaping pairs from dataset ${fasta_input.hid}"/>
   </outputs>
 
   <help>
b
diff -r 99569eccc583 -r c2c69c6090f0 paired_fastq_filtering.xml
--- a/paired_fastq_filtering.xml Mon Dec 09 04:14:48 2019 -0500
+++ b/paired_fastq_filtering.xml Fri Jan 31 06:55:23 2020 -0500
b
@@ -1,9 +1,9 @@
-<tool id="paired_fastq_filtering" name="Preprocessing of fastq paired-end reads">
+<tool id="paired_fastq_filtering" name="Preprocessing of FASTQ paired-end reads">
   <stdio>
      <exit_code range="1:" level="fatal" description="Error" />
   </stdio>
   <description>
-    Preprocessing of paired-end reads fastq files
+    Preprocessing of paired-end reads in FASTQ format
     including trimming, quality filtering, cutadapt filtering and interlacing. Broken
     pairs are discarded.
   </description>
@@ -40,41 +40,41 @@
     <param format="fastq,fastq.gz" type="data" name="B" label="Right-hand reads" />
 
     <conditional name="sampling">
-      <param name="sequence_sampling" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Sequence sampling"/>
+      <param name="sequence_sampling" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Read sampling"/>
      <when value="false">
         <!-- do nothing here -->
       </when>
       <when value="true">
-      <param name="sample_size" type="integer" label="Sample size(number of pairs)" help="How many sequence pairs should be in resulting dataset" value="500000" min="0"/>
+      <param name="sample_size" type="integer" label="Sample size (number of pairs)" help="How many read pairs should be sampled" value="500000" min="0"/>
       </when>
     </conditional>
 
-    <param type="integer" name="cut_off" label="Quality cut-off" value="10" min="0" help="see below how to correctly set quality cut-off" />
-    <param type="integer" name="percent_above" label="percent above cutoff" value="95" min="0"
-           help="Percent of bases in sequence that must have quality equal to / higher than cut-off value" />
+    <param type="integer" name="cut_off" label="Quality cut-off" value="10" min="0" help="See below how to correctly set the quality cut-off" />
+    <param type="integer" name="percent_above" label="Percent above cutoff" value="95" min="0"
+           help="Percentage of bases in the read that must have quality equal to or higher than the cut-off value" />
 
     <conditional name="trimming">
-      <param name="sequence_trimming" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Trim sequences"/>
+      <param name="sequence_trimming" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Trim reads"/>
       <when value="false">
         <!-- do nothing here -->
       </when>      
       <when value="true">
-        <param type="integer" name="trim_start" label="trimming - start position" value="1" min="1"
-               help="sequences are trimmed at specified start" />
-        <param type="integer" name="trim_end" label="trimming - end position" value="100" min="1"
-               help="sequences are trimmed to specified end position, shorted sequences are discarded" />
+        <param type="integer" name="trim_start" label="Start position" value="1" min="1"
+               help="Reads are trimmed at the specified start" />
+        <param type="integer" name="trim_end" label="End position" value="100" min="1"
+               help="Reads are trimmed to the specified end position, shorted sequences are discarded" />
       </when>      
 
     </conditional>
-    <param name="max_n" type="integer" label="maximum Ns" help="Maximum number of Ns in sequence" value="0" min="0" max="10"/>
+    <param name="max_n" type="integer" label="Maximum Ns" help="Maximal number of Ns allowed in reads" value="0" min="0" max="10"/>
 
     <conditional name="cutadapt">
-      <param name="use_custom" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Do you want to use custom cutadapt options"/>
+      <param name="use_custom" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Custom cutadapt options"/>
      <when value="false">
         <!-- do nothing here -->
       </when>
       <when value="true">
-      <param name="custom_options" type="text" area="True" size="8x30"  label="Cutadapt custom options" help="Consult cutadapt for usage" value="">
+      <param name="custom_options" type="text" area="True" size="8x30"  label="Custom options" help="Consult cutadapt for usage" value="">
           <sanitizer sanitize="False"/>
           </param>>
       </when>
@@ -87,17 +87,17 @@
       </when>
       <when value="true">
         
-      <param name="filter_database" format="fasta" type="data" label="Sequence filter database" help="Provide DNA sequences in fasta format. Sequence reads which has at least 90% similarity over 90% of length to sequence in filter database will be removed. This is suitable option if you want to remove organele DNA or contamination"/>
+      <param name="filter_database" format="fasta" type="data" label="Sequence filter database" help="Provide DNA sequences in FASTA format. Reads that have at least 90% similarity over 90% of their length to sequence in the filter database will be removed. This option is suitable for removing organellar or other contaminating sequences."/>
       </when>
     </conditional>
 
-    <param name="rename" type="boolean" truevalue="-R" falsevalue="" checked="True" label="Rename sequences" help="By default, original sequence ID are used, in case your sequences do not follow proper naming scheme to label paired-end read mate, use this option. All read pairs must be complete!"/>
+    <param name="rename" type="boolean" truevalue="-R" falsevalue="" checked="True" label="Rename reads" help="By default, original read names are used. In case your reads do not follow proper naming scheme to label paired-end mates, use this option. All read pairs must be complete!"/>
   </inputs>
 
 
   <outputs>
     <data format="fasta" name="paired" label="Interlaced paired reads from datasets ${A.hid} and ${B.hid} "/>
-    <data format="png" name="png_output" label="nucleotide composition after filtering of ${A.hid} and ${B.hid} "/>"
+    <data format="png" name="png_output" label="Nucleotide composition after filtering of ${A.hid} and ${B.hid} "/>"
   </outputs>
 
 
b
diff -r 99569eccc583 -r c2c69c6090f0 renameSequences.xml
--- a/renameSequences.xml Mon Dec 09 04:14:48 2019 -0500
+++ b/renameSequences.xml Fri Jan 31 06:55:23 2020 -0500
b
@@ -5,21 +5,21 @@
 </command>
 
  <inputs>
-  <param format="fasta" type="data" name="input" label="Choose your fasta file" />
-  <param name="prefix_length" type="integer" size="10" value="0" label="Prefix length" help="Enter length of prefix to keep in sequences names" />
-  <param name="paired" type="boolean" truevalue="true" falsevalue="false" checked="False" label="All sequence reads are paired" help="check if you are using pair reads and input sequences contain both read mates and  left mates alternate with their right mates"/>
+  <param format="fasta" type="data" name="input" label="Choose your FASTA file" />
+  <param name="prefix_length" type="integer" size="10" value="0" label="Prefix length" help="Enter the length of prefix to keep in sequences names" />
+  <param name="paired" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Sequences are paired-end reads in interlaced format" help=""/>
  </inputs>
 
 
  <outputs>
-  <data format="fasta" name="output" label="renamed sequences from dataset ${input.hid}" />
+  <data format="fasta" name="output" label="Renamed sequences from dataset ${input.hid}" />
  </outputs>
 
  <help>
 **What is does**
  
 Use this tool to rename your sequences with numerical counter while keeping sequence name prefex as part of the name. 
-If paired sequences are used, last character in sequence name is used to distinguish pairs.  
+If paired-end reads are used, the last character in sequence name is used to distinguish pairs.  
  
 </help>
 </tool>
b
diff -r 99569eccc583 -r c2c69c6090f0 sampleFasta.xml
--- a/sampleFasta.xml Mon Dec 09 04:14:48 2019 -0500
+++ b/sampleFasta.xml Fri Jan 31 06:55:23 2020 -0500
[
@@ -1,5 +1,5 @@
-<tool id="sampler" name="Sequence sampling" version="1.0.0">
-  <description> Tool for creating samples of sequences from larger dataset</description>
+<tool id="sampler" name="Read sampling" version="1.0.0">
+  <description> Tool for random sampling subsets of reads from larger dataset</description>
   <requirements>
     <requirement type="package">seqkit</requirement>
   </requirements>
@@ -7,24 +7,26 @@
     <exit_code range="1:" level="fatal" description="Error" />
   </stdio>
   <command>
+    <![CDATA[
     #if str($paired)=="true"
       ${__tool_directory__}/deinterlacer.py $input Afile Bfile
-      &amp;&amp;
-      seqkit sample -2 --number $number --rand-seed $seed -o Asample -w 0 Afile
-      &amp;&amp;
-      seqkit sample -2 --number $number --rand-seed $seed -o Bsample -w 0 Bfile
-      &amp;&amp;
+      &&
+      seqkit sample -2 --number $number --rand-seed $seed -o Asample -w 0 Afile < /dev/null
+      &&
+      seqkit sample -2 --number $number --rand-seed $seed -o Bsample -w 0 Bfile < /dev/null
+      &&
       ${__tool_directory__}/fasta_interlacer.py -a Asample -b Bsample -p $output -x tmpfile
     #else
       seqkit sample -2 --number $number --rand-seed $seed -o $output -w 0 $input
     #end if
-  </command>
+    ]]>
+    </command>
 
   <inputs>
-    <param format="fasta" type="data" name="input" label="Choose your fasta file" />
-    <param name="number" type="integer" size="7" value="500000" min="1" label="number of sequences or sequence pairs"/>
-    <param name="seed" type="integer" size="10" value="10" min="0" label="random number generator seed " />
-    <param name="paired" type="boolean" truevalue="true" falsevalue="false" checked="False" label="All sequence reads are paired" help="check if you are using pair reads and and input sequences contain both read mates and  left mates alternate with their right mates"/>
+    <param format="fasta" type="data" name="input" label="Read file (FASTA)" />
+    <param name="number" type="integer" size="7" value="500000" min="1" label="Number of reads or read pairs"/>
+    <param name="seed" type="integer" size="10" value="10" min="0" label="Random number generator seed " />
+    <param name="paired" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Paired-end reads" help="If paired-end reads are sampled, left and right-hand reads must be interlaced and all pairs must be complete."/>
     
     
   </inputs>
b
diff -r 99569eccc583 -r c2c69c6090f0 single_fastq_filtering.xml
--- a/single_fastq_filtering.xml Mon Dec 09 04:14:48 2019 -0500
+++ b/single_fastq_filtering.xml Fri Jan 31 06:55:23 2020 -0500
b
@@ -1,9 +1,9 @@
-<tool id="single_fastq_filtering" name="Preprocessing of fastq reads">
+<tool id="single_fastq_filtering" name="Preprocessing of FASTQ reads">
   <stdio>
     <exit_code range="1:" level="fatal" description="Error" />
   </stdio>
   <description>
-    Preprocessing of fastq files
+    Preprocessing of FASTQ read files
     including trimming, quality filtering, cutadapt filtering and sampling
   </description>
   <requirements>
@@ -35,43 +35,43 @@
   </command>
 
   <inputs>
-    <param format="fastq,fastq.gz" type="data" name="A" label="reads in fastq format" />
+    <param format="fastq,fastq.gz" type="data" name="A" label="Reads in FASTQ format" />
     <conditional name="sampling">
-      <param name="sequence_sampling" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Sequence sampling"/>
+      <param name="sequence_sampling" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Read sampling"/>
      <when value="false">
         <!-- do nothing here -->
       </when>
       <when value="true">
-      <param name="sample_size" type="integer" label="Sample size(number of reads" help="How many sequence reads should be in resulting dataset" value="500000" min="0"/>
+      <param name="sample_size" type="integer" label="Sample size (number of reads)" help="How many reads should be sampled" value="500000" min="0"/>
       </when>
     </conditional>
 
-    <param type="integer" name="cut_off" label="Quality cut-off" value="10" min="0" help="see below how to correctly set quality cut-off" />
-    <param type="integer" name="percent_above" label="percent above cutoff" value="95" min="0"
-           help="Percent of bases in sequence that must have quality equal to / higher than cut-off value" />
+    <param type="integer" name="cut_off" label="Quality cut-off" value="10" min="0" help="See below how to correctly set the quality cut-off" />
+    <param type="integer" name="percent_above" label="Percent above cutoff" value="95" min="0"
+           help="Percentage of bases in the read that must have quality equal to or higher than the cut-off value" />
 
     <conditional name="trimming">
-      <param name="sequence_trimming" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Trim sequences"/>
+      <param name="sequence_trimming" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Trim reads"/>
       <when value="false">
         <!-- do nothing here -->
       </when>      
       <when value="true">
-        <param type="integer" name="trim_start" label="trimming - start position" value="1" min="1"
-               help="sequences are trimmed at specified start" />
-        <param type="integer" name="trim_end" label="trimming - end position" value="100" min="1"
-               help="sequences are trimmed to specified end position, shorted sequences are discarded" />
+        <param type="integer" name="trim_start" label="Start position" value="1" min="1"
+               help="Reads are trimmed at the specified start" />
+        <param type="integer" name="trim_end" label="End position" value="100" min="1"
+               help="Reads are trimmed to the specified end position, shorted sequences are discarded" />
       </when>      
 
     </conditional>
-    <param name="max_n" type="integer" label="maximum Ns" help="Maximum number of Ns in sequence" value="0" min="0" max="10"/>
+    <param name="max_n" type="integer" label="maximum Ns" help="Maximal number of Ns allowed in reads" value="0" min="0" max="10"/>
 
     <conditional name="cutadapt">
-      <param name="use_custom" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Do you want to use custom cutadapt options"/>
+      <param name="use_custom" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Custom cutadapt options"/>
      <when value="false">
         <!-- do nothing here -->
       </when>
       <when value="true">
-      <param name="custom_options" type="text" area="True" size="8x30"  label="Cutadapt custom options" help="Consult cutadapt for usage" value="">
+      <param name="custom_options" type="text" area="True" size="8x30"  label="Custom options" help="Consult cutadapt for usage" value="">
           <sanitizer sanitize="False"/>
           </param>>
       </when>
@@ -84,7 +84,7 @@
       </when>
       <when value="true">
 
-      <param name="filter_database" format="fasta" type="data" label="Sequence filter database" help="Provide DNA sequences in fasta format. Sequence reads which has at least 90% similarity over 90% of length to sequence in filter database will be removed. This is suitable option if you want to remove organele DNA or contamination"/>
+      <param name="filter_database" format="fasta" type="data" label="Sequence filter database" help="Provide DNA sequences in FASTA format. Reads that have at least 90% similarity over 90% of their length to sequence in the filter database will be removed. This option is suitable for removing organellar or other contaminating sequences."/>
       </when>
     </conditional>
 
@@ -92,8 +92,8 @@
 
 
   <outputs>
-    <data format="fasta" name="output" label="filtered fasta reads from datasets ${A.hid}"/>
-    <data format="png" name="png_output" label="nucleotide composition after filtering of ${A.hid}"/>"
+    <data format="fasta" name="output" label="Filtered FASTA reads from datasets ${A.hid}"/>
+    <data format="png" name="png_output" label="Nucleotide composition after filtering of ${A.hid}"/>"
   </outputs>
 
   <tests>