Mercurial > repos > iuc > eukrep

<tool id="eukrep" name="EukRep" version="@TOOL_VERSION@+galaxy@VERSION_SUFFIX@" profile="24.0" license="MIT">
    <description>Classification of Eukaryotic and Prokaryotic sequences from metagenomic datasets</description>
    <macros>
        <token name="@TOOL_VERSION@">0.6.7</token>
        <token name="@VERSION_SUFFIX@">0</token>
    </macros>
    <xrefs>
        <xref type="bio.tools">eukrep</xref>
    </xrefs>
    <requirements>
        <requirement type="package" version="@TOOL_VERSION@">eukrep</requirement>
    </requirements>
    <version_command>EukRep --version | cut -d" " -f 2</version_command>
    <command detect_errors="exit_code"><![CDATA[
    ln -s '$input' input.$input.ext &&
    EukRep
        -i input.$input.ext
        -o 'output.fa'
        ## -ff                   Force overwrite of existing output files
        --min $min
        ## --model MODEL         Path to an alternate trained linear SVM model. Default is lin_svm_160_3.0.pickle
        --kmer_len $kmer_len
        #if $prokarya
            --prokarya 'output_prokarya.fa'
        #end if
        $seq_names
        -m $stringency
        --tie $tie
    ]]></command>
    <inputs>
        <param name="input" type="data" format="fasta,fasta.gz" label="Sequences"/>
        <param argument="--min" type="integer" value="3000" min="0" label="Minimum sequence length cutoff" help="for sequences to be included in prediction"/>
        <!--  -->
        <param argument="--kmer_len" type="integer" value="5" min="3" max="6" label="K-mer length" help="K-mer length to use for making predictions"/>
        <param argument="--prokarya" type="boolean" label="Output predicted prokaryotic sequences"/>
        <param argument="--seq_names" type="boolean" truevalue="--seq_names" falsevalue="" label="Only output fasta headers" help="of identified sequences, instead of full FASTA entry"/>
        <param name="stringency" argument="-m" type="select" label="Stringency" help="How stringent the algorithm is in identifying eukaryotic scaffolds. Strict has a lower false positive rate and true positive rate; vice verso for leneient">
            <option value="strict">Strict</option>
            <option value="balanced" selected="true">Balanced</option>
            <option value="lenient">Lenient</option>
        </param>
        <param argument="--tie" type="select" label="Tie handling" help="Specify how to handle cases where an equal number of a sequences chunks are predicted to be of eukaryotic and prokaryotic origin (Generally occurs infrequently)">
            <option value="euk" selected="true">Eukaryotic</option>
            <option value="prok">Prokaryotic</option>
            <option value="rand">Random</option>
            <option value="skip">Do not classify</option>
        </param>
    </inputs>
    <outputs>
        <data name="output" format="fasta" from_work_dir="output.fa" label="${tool.name} on ${on_string}">
            <filter>not seq_names</filter>
        </data>
        <data name="output_prokarya" format="fasta" from_work_dir="output_prokarya.fa" label="${tool.name} on ${on_string}: Prokaryote sequences">
            <filter>not seq_names</filter>
            <filter>prokarya</filter>
        </data>
        <data name="output_names" format="txt" from_work_dir="output.fa" label="${tool.name} on ${on_string}: Eukaryote names">
            <filter>seq_names</filter>
        </data>
        <data name="output_prokarya_names" format="txt" from_work_dir="output_prokarya.fa"  label="${tool.name} on ${on_string}: Prokaryote names">
            <filter>prokarya</filter>
            <filter>seq_names</filter>
        </data>
    </outputs>
    <tests>
        <test expect_num_outputs="1">
            <param name="input" value="test_scaffolds.fa" location="https://github.com/patrickwest/EukRep/raw/refs/tags/v0.6.6/tests/test_sequences/test_scaffolds.fa"/>
            <param name="kmer_len" value="4"/>
            <output name="output">
                <assert_contents>
                    <has_line line=">test_sequence_5" n="1"/>
                    <has_n_lines n="2"/>
                </assert_contents>
            </output>
        </test>
        <test expect_num_outputs="1">
            <param name="input" value="test_scaffolds.fa" location="https://github.com/patrickwest/EukRep/raw/refs/tags/v0.6.6/tests/test_sequences/test_scaffolds.fa"/>
            <param name="kmer_len" value="4"/>
            <param name="seq_names" value="true"/>
            <output name="output_names">
                <assert_contents>
                    <has_line line="test_sequence_5" n="1"/>
                    <has_n_lines n="1"/>
                </assert_contents>
            </output>
        </test>
        <test expect_num_outputs="2">
            <param name="input" value="test_scaffolds.fa" location="https://github.com/patrickwest/EukRep/raw/refs/tags/v0.6.6/tests/test_sequences/test_scaffolds.fa"/>
            <param name="kmer_len" value="4"/>
            <param name="prokarya" value="true"/>
            <output name="output">
                <assert_contents>
                    <has_line line=">test_sequence_5" n="1"/>
                    <has_n_lines n="2"/>
                </assert_contents>
            </output>
            <output name="output_prokarya">
                <assert_contents>
                    <has_line line=">test_sequence_5" negate="true"/>
                    <has_n_lines n="24"/>
                </assert_contents>
            </output>
        </test>
        <test expect_num_outputs="2">
            <param name="input" value="test_scaffolds.fa" location="https://github.com/patrickwest/EukRep/raw/refs/tags/v0.6.6/tests/test_sequences/test_scaffolds.fa"/>
            <param name="kmer_len" value="4"/>
            <param name="seq_names" value="true"/>
            <param name="prokarya" value="true"/>
            <output name="output_names">
                <assert_contents>
                    <has_line line="test_sequence_5" n="1"/>
                    <has_n_lines n="1"/>
                </assert_contents>
            </output>
            <output name="output_prokarya_names">
                <assert_contents>
                    <has_line line="test_sequence_5" negate="true"/>
                    <has_n_lines n="12"/>
                </assert_contents>
            </output>

        </test>
    </tests>
    <help><![CDATA[

.. class:: infomark

**What it does**

Classification of Eukaryotic and Prokaryotic sequences from metagenomic datasetsocs/ref/rst/restructuredtext.html)

Usage
.....


**Input**

Sequences in FASTA format.

**Output**

Eukaryotic sequences in FASTA format.


    ]]></help>
    <citations>
        <citation type="doi">10.1101/gr.228429.117</citation>
    </citations>
</tool>