Mercurial > repos > iuc > data_manager_hisat2_index_builder

--- a/data_manager/hisat2_index_builder.py	Sun Apr 16 08:30:13 2023 +0000
+++ /dev/null	Thu Jan 01 00:00:00 1970 +0000
@@ -1,87 +0,0 @@
-#!/usr/bin/env python
-# Based heavily on the Bowtie 2 data manager wrapper script by Dan Blankenberg
-from __future__ import print_function
-
-import argparse
-import json
-import os
-import shlex
-import subprocess
-import sys
-
-DEFAULT_DATA_TABLE_NAME = "hisat2_indexes"
-
-
-def get_id_name(params, dbkey, fasta_description=None):
-    # TODO: ensure sequence_id is unique and does not already appear in location file
-    sequence_id = params['param_dict']['sequence_id']
-    if not sequence_id:
-        sequence_id = dbkey
-
-    sequence_name = params['param_dict']['sequence_name']
-    if not sequence_name:
-        sequence_name = fasta_description
-        if not sequence_name:
-            sequence_name = dbkey
-    return sequence_id, sequence_name
-
-
-def build_hisat_index(data_manager_dict, options, params, sequence_id, sequence_name):
-    data_table_name = options.data_table_name or DEFAULT_DATA_TABLE_NAME
-    target_directory = params['output_data'][0]['extra_files_path']
-    if not os.path.exists(target_directory):
-        os.mkdir(target_directory)
-    fasta_base_name = os.path.split(options.fasta_filename)[-1]
-    sym_linked_fasta_filename = os.path.join(target_directory, fasta_base_name)
-    os.symlink(options.fasta_filename, sym_linked_fasta_filename)
-    args = ['hisat2-build']
-    args.extend(shlex.split(options.indexer_options))
-    args.extend([sym_linked_fasta_filename, sequence_id])
-    proc = subprocess.Popen(args=args, shell=False, cwd=target_directory)
-    return_code = proc.wait()
-    if return_code:
-        print("Error building index.", file=sys.stderr)
-        sys.exit(return_code)
-    data_table_entry = dict(value=sequence_id, dbkey=options.fasta_dbkey, name=sequence_name, path=sequence_id)
-    _add_data_table_entry(data_manager_dict, data_table_name, data_table_entry)
-
-
-def _add_data_table_entry(data_manager_dict, data_table_name, data_table_entry):
-    data_manager_dict['data_tables'] = data_manager_dict.get('data_tables', {})
-    data_manager_dict['data_tables'][data_table_name] = data_manager_dict['data_tables'].get(data_table_name, [])
-    data_manager_dict['data_tables'][data_table_name].append(data_table_entry)
-    return data_manager_dict
-
-
-def main():
-    # Parse Command Line
-    parser = argparse.ArgumentParser()
-    parser.add_argument('--output', dest='output', action='store', type=str, default=None)
-    parser.add_argument('--fasta_filename', dest='fasta_filename', action='store', type=str, default=None)
-    parser.add_argument('--fasta_dbkey', dest='fasta_dbkey', action='store', type=str, default=None)
-    parser.add_argument('--fasta_description', dest='fasta_description', action='store', type=str, default=None)
-    parser.add_argument('--data_table_name', dest='data_table_name', action='store', type=str, default='hisat2_indexes')
-    parser.add_argument('--indexer_options', dest='indexer_options', action='store', type=str, default='')
-    options = parser.parse_args()
-
-    filename = options.output
-
-    with open(filename) as fh:
-        params = json.load(fh)
-    data_manager_dict = {}
-
-    if options.fasta_dbkey in [None, '', '?']:
-        raise Exception('"%s" is not a valid dbkey. You must specify a valid dbkey.' % (options.fasta_dbkey))
-
-    sequence_id, sequence_name = get_id_name(params, dbkey=options.fasta_dbkey, fasta_description=options.fasta_description)
-
-    # build the index
-    build_hisat_index(data_manager_dict, options, params, sequence_id, sequence_name)
-
-    # save info to json file
-    with open(filename, 'w') as fh:
-        json.dump(data_manager_dict, fh, sort_keys=True)
-
-
-if __name__ == "__main__":
-    main()
--- a/data_manager/hisat2_index_builder.xml	Sun Apr 16 08:30:13 2023 +0000
+++ b/data_manager/hisat2_index_builder.xml	Sat Aug 16 14:36:15 2025 +0000
@@ -1,9 +1,15 @@
-<tool id="hisat2_index_builder_data_manager" name="HISAT2 index" tool_type="manage_data" version="2.1.0" profile="19.05">
+<tool id="hisat2_index_builder_data_manager" name="HISAT2 index" tool_type="manage_data" version="@WRAPPER_VERSION@+galaxy@VERSION_SUFFIX@" profile="23.0">
     <description>builder</description>
+    <macros>
+        <token name="@WRAPPER_VERSION@">2.2.1</token>
+        <token name="@VERSION_SUFFIX@">1</token>
+    </macros>
     <requirements>
-        <requirement type="package" version="2.1.0">hisat2</requirement>
+        <requirement type="package" version="@WRAPPER_VERSION@">hisat2</requirement>
     </requirements>
     <command detect_errors="exit_code"><![CDATA[
+        #set $value = $sequence_id or $all_fasta_source.fields.dbkey
+        #set $fasta_file_name = str($all_fasta_source.fields.path).split('/')[-1]
         #if $advanced.adv_param_select == 'yes' and $advanced.gtf_input:
             ln -s '${advanced.gtf_input}' gtf_file.gtf &&
             hisat2_extract_splice_sites.py gtf_file.gtf > splice_sites.txt &&
@@ -17,30 +23,53 @@
                 hisat2_extract_snps_haplotypes_UCSC.py '${all_fasta_source.fields.path}' snps.tabular extracted &&
             #end if
         #end if
-        python '$__tool_directory__/hisat2_index_builder.py' --output '${out_file}'
-            --fasta_filename '${all_fasta_source.fields.path}'
-            --fasta_dbkey '${all_fasta_source.fields.dbkey}'
-            --fasta_description '${all_fasta_source.fields.name}'
-            --data_table_name hisat2_indexes
-            --indexer_options "-p \${GALAXY_SLOTS:-1}
+
+        mkdir -p '${out_file.extra_files_path}' &&
+        ln -s '${all_fasta_source.fields.path}' '${out_file.extra_files_path}/${fasta_file_name}' &&
+        working="\$(pwd)" &&
+        cd '${out_file.extra_files_path}' &&
+
+        hisat2-build -p "\${GALAXY_SLOTS:-1}"
             #if $advanced.adv_param_select == 'yes':
                 --noauto
                 #if $advanced.snps:
-                    --snps "`pwd`/extracted.snp"
-                    --haplotype "`pwd`/extracted.haplotype"
+                    --snp "\${working}/extracted.snp"
+                    --haplotype "\${working}/extracted.haplotype"
                 #end if
                 #if $advanced.gtf_input:
-                    --ss "`pwd`/splice_sites.txt"
-                    --exon "`pwd`/exon.txt"
+                    --ss "\${working}/splice_sites.txt"
+                    --exon "\${working}/exon.txt"
                 #end if
                 --bmax $advanced.bmax
                 --bmaxdivn $advanced.bmaxdivn
                 --dcv $advanced.dcv
                 --offrate $advanced.offrate
             #end if
-            "
+            '${fasta_file_name}' '${value}' &&
+        rm '${out_file.extra_files_path}/${fasta_file_name}' &&
+
+        cp '$dmjson' '$out_file'
         ]]>
     </command>
+    <configfiles>
+        <configfile name="dmjson"><![CDATA[#slurp
+#set $fasta_file_name = str($all_fasta_source.fields.path).split('/')[-1]
+#set $value = $sequence_id or $all_fasta_source.fields.dbkey
+#set $name = $sequence_name or $all_fasta_source.fields.name
+{
+  "data_tables":{
+    "hisat2_indexes":[
+      {
+        "value": "${value}",
+        "dbkey": "${all_fasta_source.fields.dbkey}",
+        "name": "${name}",
+        "path": "${value}"
+      }
+    ]
+  }
+}
+]]></configfile>
+    </configfiles>
     <inputs>
         <param label="Source FASTA Sequence" name="all_fasta_source" type="select">
             <options from_data_table="all_fasta" />
@@ -69,7 +98,18 @@
     <tests>
         <test>
             <param name="all_fasta_source" value="phiX174"/>
-            <output name="out_file" file="hisat2_data_manager.json"/>
+            <output name="out_file" file="hisat2_data_manager.1.json"/>
+        </test>
+        <test>
+            <param name="all_fasta_source" value="phiX174"/>
+            <param name="sequence_name" value="Galeocerdo cuvier"/>
+            <param name="sequence_id" value="tigHai1"/>
+            <param name="advanced|adv_param_select" value="yes"/>
+            <param name="advanced|bmax" value="3"/>
+            <param name="advanced|bmaxdivn" value="3"/>
+            <param name="advanced|dcv" value="4"/>
+            <param name="advanced|offrate" value="5"/>
+            <output name="out_file" file="hisat2_data_manager.2.json"/>
         </test>
     </tests>
     <help>
--- a/data_manager_conf.xml	Sun Apr 16 08:30:13 2023 +0000
+++ b/data_manager_conf.xml	Sat Aug 16 14:36:15 2025 +0000
@@ -9,12 +9,12 @@
                 <column name="path" output_ref="out_file" >
                     <move type="directory" relativize_symlinks="True">
                         <!-- <source>${path}</source>--> <!-- out_file.extra_files_path is used as base by default --> <!-- if no source, eg for type=directory, then refers to base -->
-                        <target base="${GALAXY_DATA_MANAGER_DATA_PATH}">${dbkey}/hisat2_index/${value}</target>
+                        <target base="${GALAXY_DATA_MANAGER_DATA_PATH}">genomes/${dbkey}/hisat_index/v2/${value}</target>
                     </move>
-                    <value_translation>${GALAXY_DATA_MANAGER_DATA_PATH}/${dbkey}/hisat2_index/${value}/${path}</value_translation>
+                    <value_translation>${GALAXY_DATA_MANAGER_DATA_PATH}/genomes/${dbkey}/hisat_index/v2/${value}/${value}</value_translation>
                     <value_translation type="function">abspath</value_translation>
                 </column>
             </output>
         </data_table>
     </data_manager>
-</data_managers>
\ No newline at end of file
+</data_managers>
--- /dev/null	Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/hisat2_data_manager.1.json	Sat Aug 16 14:36:15 2025 +0000
@@ -0,0 +1,12 @@
+{
+  "data_tables":{
+    "hisat2_indexes":[
+      {
+        "value": "phiX174",
+        "dbkey": "phiX174",
+        "name": "phiX174",
+        "path": "phiX174"
+      }
+    ]
+  }
+}
--- /dev/null	Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/hisat2_data_manager.2.json	Sat Aug 16 14:36:15 2025 +0000
@@ -0,0 +1,12 @@
+{
+  "data_tables":{
+    "hisat2_indexes":[
+      {
+        "value": "tigHai1",
+        "dbkey": "phiX174",
+        "name": "Galeocerdo cuvier",
+        "path": "tigHai1"
+      }
+    ]
+  }
+}
--- a/test-data/hisat2_data_manager.json	Sun Apr 16 08:30:13 2023 +0000
+++ /dev/null	Thu Jan 01 00:00:00 1970 +0000
@@ -1,1 +0,0 @@
-{"data_tables": {"hisat2_indexes": [{"dbkey": "phiX174", "name": "phiX174", "path": "phiX174", "value": "phiX174"}]}}
\ No newline at end of file