Repository 'split_file_to_collection'
hg clone https://toolshed.g2.bx.psu.edu/repos/bgruening/split_file_to_collection

Changeset 3:2ddc36385d7a (2019-09-10)
Previous changeset 2:d150ac3d853d (2019-08-28) Next changeset 4:0850f2dfba13 (2019-10-09)
Commit message:
"planemo upload for repository https://github.com/bgruening/galaxytools/tree/master/tools/text_processing/split_file_to_collection commit 8d069684e155d2f5b6fae06d14d98ce41321da53"
modified:
split_file_to_collection.py
split_file_to_collection.xml
added:
test-data/chr_000000.txt
test-data/chr_000001.txt
test-data/chr_000002.txt
test-data/chr_000003.txt
test-data/chr_000004.txt
test-data/chr_000005.txt
test-data/chr_000006.txt
test-data/chr_000007.txt
test-data/chr_000008.txt
test-data/chr_000009.txt
test-data/chr_000010.txt
test-data/chr_000011.txt
test-data/chr_000012.txt
test-data/chr_000013.txt
test-data/chr_000014.txt
test-data/chr_000015.txt
test-data/chr_000016.txt
test-data/chr_000017.txt
test-data/chr_000018.txt
test-data/chr_000019.txt
test-data/chr_000020.txt
test-data/chr_000021.txt
test-data/chr_000022.txt
test-data/chr_000023.txt
test-data/karyotype.txt
b
diff -r d150ac3d853d -r 2ddc36385d7a split_file_to_collection.py
--- a/split_file_to_collection.py Wed Aug 28 10:55:25 2019 -0400
+++ b/split_file_to_collection.py Tue Sep 10 12:31:15 2019 -0400
[
@@ -140,7 +140,7 @@
         new_file_base = [custom_new_file_name, custom_new_file_ext]
 
     newfiles = [
-        open(out_dir + "/" + new_file_base[0] + "_" + str(count) + new_file_base[1], "w")
+        open(os.path.join(out_dir, "%s_%06d%s" % (new_file_base[0], count, new_file_base[1])) , "w")
         for count in range(0, numnew)
     ]
 
@@ -159,7 +159,7 @@
     # keep track in loop of number of records in each file
     # only used in batch
     records_in_file = 0
-    
+
     # open file
     with open(in_file, "r") as file:
         record = ""
b
diff -r d150ac3d853d -r 2ddc36385d7a split_file_to_collection.xml
--- a/split_file_to_collection.xml Wed Aug 28 10:55:25 2019 -0400
+++ b/split_file_to_collection.xml Tue Sep 10 12:31:15 2019 -0400
[
b'@@ -50,8 +50,8 @@\n                     --id_column \'$split_parms.split_by.id_col\'\n                     --match \'$split_parms.split_by.match_regex\'\n                     --sub \'$split_parms.split_by.sub_regex\'\n-                #else \n-                    --numnew \'$split_parms.split_by.numnew\' \n+                #else\n+                    --numnew \'$split_parms.split_by.numnew\'\n                     #if $split_parms.split_by.select_allocate.allocate == "random":\n                         --rand\n                         --seed \'$split_parms.split_by.rand.seed\'\n@@ -190,10 +190,10 @@\n             <param name="select_split_by" value="row"/>\n             <param name="top" value="2"/>\n             <param name="numnew" value="2"/>\n-            <param name="newfilenames" value="test"/> \n+            <param name="newfilenames" value="test"/>\n             <output_collection name="list_output_tab" type="list">\n-                <element name="test_0.tabular" file="test_0.tabular" ftype="tabular"/>\n-                <element name="test_1.tabular" file="test_1.tabular" ftype="tabular"/>\n+                <element name="test_000000.tabular" file="test_0.tabular" ftype="tabular"/>\n+                <element name="test_000001.tabular" file="test_1.tabular" ftype="tabular"/>\n             </output_collection>\n         </test>\n         <test>\n@@ -203,10 +203,44 @@\n             <param name="top" value="2"/>\n             <param name="numnew" value="2"/>\n             <param name="newfilenames" value="batch_tab"/>\n-            <param name="allocate" value="batch"/> \n+            <param name="allocate" value="batch"/>\n             <output_collection name="list_output_tab" type="list">\n-                <element name="batch_tab_0.tabular" file="batch_tab_0.tabular" ftype="tabular"/>\n-                <element name="batch_tab_1.tabular" file="batch_tab_1.tabular" ftype="tabular"/>\n+                <element name="batch_tab_000000.tabular" file="batch_tab_0.tabular" ftype="tabular"/>\n+                <element name="batch_tab_000001.tabular" file="batch_tab_1.tabular" ftype="tabular"/>\n+            </output_collection>\n+        </test>\n+        <test>\n+            <param name="select_ftype" value="txt"/>\n+            <param name="input" value="karyotype.txt" ftype="txt"/>\n+            <param name="numnew" value="24"/>\n+            <param name="newfilenames" value="chr"/>\n+            <param name="allocate" value="batch"/>\n+\n+            <output_collection name="list_output_txt" type="list">\n+                <element name="chr_000000.txt" file="chr_000000.txt" ftype="txt"/>\n+                <element name="chr_000001.txt" file="chr_000001.txt" ftype="txt"/>\n+                <element name="chr_000002.txt" file="chr_000002.txt" ftype="txt"/>\n+                <element name="chr_000003.txt" file="chr_000003.txt" ftype="txt"/>\n+                <element name="chr_000004.txt" file="chr_000004.txt" ftype="txt"/>\n+                <element name="chr_000005.txt" file="chr_000005.txt" ftype="txt"/>\n+                <element name="chr_000006.txt" file="chr_000006.txt" ftype="txt"/>\n+                <element name="chr_000007.txt" file="chr_000007.txt" ftype="txt"/>\n+                <element name="chr_000008.txt" file="chr_000008.txt" ftype="txt"/>\n+                <element name="chr_000009.txt" file="chr_000009.txt" ftype="txt"/>\n+                <element name="chr_000010.txt" file="chr_000010.txt" ftype="txt"/>\n+                <element name="chr_000011.txt" file="chr_000011.txt" ftype="txt"/>\n+                <element name="chr_000012.txt" file="chr_000012.txt" ftype="txt"/>\n+                <element name="chr_000013.txt" file="chr_000013.txt" ftype="txt"/>\n+                <element name="chr_000014.txt" file="chr_000014.txt" ftype="txt"/>\n+                <element name="chr_000015.txt" file="chr_000015.txt" ftype="txt"/>\n+                <element name="chr_000016.txt" file="chr_000016.txt" ftype="txt"/>\n+                <element name="chr_000017.txt" file="chr_000017.txt" ftype'..b'am name="newfilenames" value="rand"/>\n             <param name="allocate" value="random"/>\n-            <param name="seed" value="1010"/> \n+            <param name="seed" value="1010"/>\n             <output_collection name="list_output_generic" type="list">\n-                <element name="rand_0" file="rand_0.fasta" ftype="fasta"/>\n-                <element name="rand_1" file="rand_1.fasta" ftype="fasta"/>\n+                <element name="rand_000000" file="rand_0.fasta" ftype="fasta"/>\n+                <element name="rand_000001" file="rand_1.fasta" ftype="fasta"/>\n             </output_collection>\n         </test>\n         <test>\n@@ -320,27 +354,27 @@\n             <param name="newfilenames" value="mol"/>\n             <param name="allocate" value="batch"/>\n             <output_collection name="list_output_generic" type="list">\n-                <element name="mol_0" file="mol_0.sdf" ftype="sdf"/>\n-                <element name="mol_1" file="mol_1.sdf" ftype="sdf"/>\n-                <element name="mol_2" file="mol_2.sdf" ftype="sdf"/>\n+                <element name="mol_000000" file="mol_0.sdf" ftype="sdf"/>\n+                <element name="mol_000001" file="mol_1.sdf" ftype="sdf"/>\n+                <element name="mol_000002" file="mol_2.sdf" ftype="sdf"/>\n             </output_collection>\n         </test>\n     </tests>\n     <help><![CDATA[\n **Split file into a dataset collection**\n \n-This tool splits a data sets consisting of records into multiple data sets within a collection. \n+This tool splits a data sets consisting of records into multiple data sets within a collection.\n A record can be for instance simply a line, a FASTA sequence (header + sequence), a FASTQ sequence\n (headers + sequence + qualities), etc. The important property is that the begin of a new record\n-can be speciefied by a regular expression, e.g. ".*" for lines, ">.*" for FASTA, or "@.*" for FASTQ. \n-The tool has presets for text, tabular data sets (which are split by line), FASTA, FASTQ, and MGF. \n-For other data types the text delimiting records can be specified manually using the generic splitter. \n+can be speciefied by a regular expression, e.g. ".*" for lines, ">.*" for FASTA, or "@.*" for FASTQ.\n+The tool has presets for text, tabular data sets (which are split by line), FASTA, FASTQ, and MGF.\n+For other data types the text delimiting records can be specified manually using the generic splitter.\n \n-If splitting by line (or by some other item, like a FASTA entry or an MGF record, the splitting can be either done alternating, in original record order, or at random. \n+If splitting by line (or by some other item, like a FASTA entry or an MGF record, the splitting can be either done alternating, in original record order, or at random.\n \n If t records are to be distributed to n new data sets, then the i-th record goes to data set\n \n-* floor(i / t * n) (for batch), \n+* floor(i / t * n) (for batch),\n * i % n (for alternating), or\n * a random data set\n \n@@ -368,11 +402,11 @@\n 4 2   1   1\n = === === ====\n \n-Note that there are no guarantees when splitting at random that every result file will be non-empty, so downstream tools should be able to gracefully handle empty files. \n+Note that there are no guarantees when splitting at random that every result file will be non-empty, so downstream tools should be able to gracefully handle empty files.\n \n If a tabular file is used as input, you may choose to split by line or by column. If split by column, a new file is created for each unique value in the column.\n In addition, (Python) regular expressions may be used to transform the value in the column to a new value. Caution should be used with this feature, as it could transform all values to the same value, or other unexpected behavior.\n-The default regular expression uses each value in the column without modifying it. \n+The default regular expression uses each value in the column without modifying it.\n     ]]></help>\n     <citations>\n         <citation type="bibtex">\n'
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000000.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000000.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr1 1 0 247249719 chr1
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000001.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000001.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr2 2 0 242951149 chr2
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000002.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000002.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr3 3 0 199501827 chr3
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000003.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000003.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr4 4 0 191273063 chr4
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000004.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000004.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr5 5 0 180857866 chr5
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000005.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000005.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr6 6 0 170899992 chr6
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000006.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000006.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr7 7 0 158821424 chr7
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000007.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000007.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr8 8 0 146274826 chr8
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000008.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000008.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr9 9 0 140273252 chr9
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000009.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000009.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr10 10 0 135374737 chr10
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000010.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000010.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr11 11 0 134452384 chr11
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000011.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000011.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr12 12 0 132349534 chr12
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000012.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000012.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr13 13 0 114142980 chr13
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000013.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000013.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr14 14 0 106368585 chr14
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000014.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000014.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr15 15 0 100338915 chr15
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000015.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000015.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr16 16 0 88827254 chr16
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000016.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000016.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr17 17 0 78774742 chr17
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000017.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000017.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr18 18 0 76117153 chr18
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000018.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000018.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr19 19 0 63811651 chr19
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000019.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000019.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr20 20 0 62435964 chr20
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000020.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000020.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr21 21 0 46944323 chr21
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000021.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000021.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chr22 22 0 49691432 chr22
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000022.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000022.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chrX x 0 154913754 chrx
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/chr_000023.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/chr_000023.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,1 @@
+chr - chrY y 0 57772954 chry
b
diff -r d150ac3d853d -r 2ddc36385d7a test-data/karyotype.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/karyotype.txt Tue Sep 10 12:31:15 2019 -0400
b
@@ -0,0 +1,24 @@
+chr - chr1 1 0 247249719 chr1
+chr - chr2 2 0 242951149 chr2
+chr - chr3 3 0 199501827 chr3
+chr - chr4 4 0 191273063 chr4
+chr - chr5 5 0 180857866 chr5
+chr - chr6 6 0 170899992 chr6
+chr - chr7 7 0 158821424 chr7
+chr - chr8 8 0 146274826 chr8
+chr - chr9 9 0 140273252 chr9
+chr - chr10 10 0 135374737 chr10
+chr - chr11 11 0 134452384 chr11
+chr - chr12 12 0 132349534 chr12
+chr - chr13 13 0 114142980 chr13
+chr - chr14 14 0 106368585 chr14
+chr - chr15 15 0 100338915 chr15
+chr - chr16 16 0 88827254 chr16
+chr - chr17 17 0 78774742 chr17
+chr - chr18 18 0 76117153 chr18
+chr - chr19 19 0 63811651 chr19
+chr - chr20 20 0 62435964 chr20
+chr - chr21 21 0 46944323 chr21
+chr - chr22 22 0 49691432 chr22
+chr - chrX x 0 154913754 chrx
+chr - chrY y 0 57772954 chry