Repository 'hd'
hg clone https://toolshed.g2.bx.psu.edu/repos/mheinzl/hd

Changeset 29:6b15b3b6405c (2019-07-24)
Previous changeset 28:1fa7342a140d (2019-06-03) Next changeset 30:46bfbec0f9e6 (2019-08-07)
Commit message:
planemo upload for repository https://github.com/monikaheinzl/duplexanalysis_galaxy/tree/master/tools/hd commit 5b3ab8c6467fe3a52e89f5a7d175bd8a0189018a-dirty
modified:
hd.py
hd.xml
test-data/hd_chimeras_output.tab
test-data/hd_output.pdf
test-data/hd_output.tab
b
diff -r 1fa7342a140d -r 6b15b3b6405c hd.py
--- a/hd.py Mon Jun 03 05:37:01 2019 -0400
+++ b/hd.py Wed Jul 24 05:58:15 2019 -0400
[
b'@@ -5,16 +5,17 @@\n # Author: Monika Heinzl, Johannes-Kepler University Linz (Austria)\n # Contact: monika.heinzl@edumail.at\n #\n-# Takes at least one TABULAR file with tags before the alignment to the SSCS and optionally a second TABULAR file as input.\n-# The program produces a plot which shows a histogram of Hamming distances separated after family sizes,\n-# a family size distribution separated after Hamming distances for all (sample_size=0) or a given sample of SSCSs or SSCSs, which form a DCS.\n-# In additon, the tool produces HD and FSD plots for the difference between the HDs of both parts of the tags and for the chimeric reads\n-# and finally a CSV file with the data of the plots.\n-# It is also possible to perform the HD analysis with shortened tags with given sizes as input.\n+# Takes at least one TABULAR file with tags before the alignment to the SSCS and\n+# optionally a second TABULAR file as input. The program produces a plot which shows a histogram of Hamming distances\n+# separated after family sizes, a family size distribution separated after Hamming distances for all (sample_size=0)\n+# or a given sample of SSCSs or SSCSs, which form a DCS. In additon, the tool produces HD and FSD plots for the\n+# difference between the HDs of both parts of the tags and for the chimeric reads and finally a CSV file with the\n+# data of the plots. It is also possible to perform the HD analysis with shortened tags with given sizes as input.\n # The tool can run on a certain number of processors, which can be defined by the user.\n \n # USAGE: python hd.py --inputFile filename --inputName1 filename --sample_size int /\n-#        --only_DCS True --FamilySize3 True --subset_tag True --nproc int --minFS int --maxFS int --nr_above_bars True/False --output_tabular outptufile_name_tabular\n+#        --only_DCS True --FamilySize3 True --subset_tag True --nproc int --minFS int --maxFS int\n+#        --nr_above_bars True/False --output_tabular outptufile_name_tabular\n \n import argparse\n import itertools\n@@ -34,7 +35,7 @@\n \n \n def plotFSDwithHD2(familySizeList1, maximumXFS, minimumXFS, originalCounts,\n-                   title_file1, subtitle, pdf, relative=False, diff=True):\n+                   subtitle, pdf, relative=False, diff=True, rel_freq=False):\n     if diff is False:\n         colors = ["#e6194b", "#3cb44b", "#ffe119", "#0082c8", "#f58231", "#911eb4"]\n         labels = ["HD=1", "HD=2", "HD=3", "HD=4", "HD=5-8", "HD>8"]\n@@ -48,36 +49,37 @@\n     fig = plt.figure(figsize=(6, 7))\n     ax = fig.add_subplot(111)\n     plt.subplots_adjust(bottom=0.1)\n-    p1 = numpy.bincount(numpy.concatenate((familySizeList1)))\n+    p1 = numpy.bincount(numpy.concatenate(familySizeList1))\n     maximumY = numpy.amax(p1)\n \n     if len(range(minimumXFS, maximumXFS)) == 0:\n         range1 = range(minimumXFS - 1, minimumXFS + 2)\n     else:\n         range1 = range(0, maximumXFS + 2)\n-    counts = plt.hist(familySizeList1, label=labels,\n-                      color=colors, stacked=True,\n-                      rwidth=0.8, alpha=1, align="left",\n-                      edgecolor="None", bins=range1)\n+\n+    if rel_freq:\n+        w = [numpy.zeros_like(data) + 1. / len(numpy.concatenate(familySizeList1)) for data in familySizeList1]\n+        counts = plt.hist(familySizeList1, label=labels, weights=w, color=colors, stacked=True,\n+                          rwidth=0.8, alpha=1, align="left", edgecolor="None", bins=range1)\n+        plt.ylabel("Relative Frequency", fontsize=14)\n+        plt.ylim((0, (float(maximumY) / sum(p1)) * 1.1))\n+    else:\n+        counts = plt.hist(familySizeList1, label=labels, color=colors, stacked=True,\n+                          rwidth=0.8, alpha=1, align="left", edgecolor="None", bins=range1)\n+        if len(numpy.concatenate(familySizeList1)) != 0:\n+            plt.ylim((0, max(numpy.bincount(numpy.concatenate(familySizeList1))) * 1.1))\n+        plt.ylabel("Absolute Frequency", fontsize=14)\n+        plt.ylim((0, maximumY * 1.2))\n     plt.legend(loc=\'upper righ'..b'e("nr of tags{}{:,}\\nsample size{}{:,}\\n\\n".format(sep, lenTags, sep, len_sample))\n \n         # HD\n         createFileHD(summary, sumCol, overallSum, output_file,\n@@ -1109,27 +1324,36 @@\n \n         # HD within tags\n         output_file.write(\n-            "The Hamming distances were calculated by comparing the first halve against all halves and selected the minimum value (HD a).\\n"\n-            "For the second half of the tag, we compared them against all tags which resulted in the minimum HD of the previous step and selected the maximum value (HD b\').\\n"\n-            "Finally, it was possible to calculate the absolute and relative differences between the HDs (absolute and relative delta HD).\\n"\n-            "These calculations were repeated, but starting with the second half in the first step to find all possible chimeras in the data (HD b and HD  For simplicity we used the maximum value between the delta values in the end.\\n"\n-            "When only tags that can form DCS were allowed in the analysis, family sizes for the forward and reverse (ab and ba) will be included in the plots.\\n")\n+            "The Hamming distances were calculated by comparing the first halve against all halves and selected the "\n+            "minimum value (HD a).\\nFor the second half of the tag, we compared them against all tags which resulted "\n+            "in the minimum HD of the previous step and selected the maximum value (HD b\').\\nFinally, it was possible "\n+            "to calculate the absolute and relative differences between the HDs (absolute and relative delta HD).\\n"\n+            "These calculations were repeated, but starting with the second half in the first step to find all "\n+            "possible chimeras in the data (HD b and HD  For simplicity we used the maximum value between the delta "\n+            "values in the end.\\nWhen only tags that can form DCS were allowed in the analysis, family sizes for the "\n+            "forward and reverse (ab and ba) will be included in the plots.\\n")\n \n-        output_file.write("length of one part of the tag = {}\\n\\n".format(len(data_array[0, 1]) / 2))\n+        output_file.write("\\nlength of one half of the tag{}{}\\n\\n".format(sep, len(data_array[0, 1]) / 2))\n \n         createFileHDwithinTag(summary9, sumCol9, overallSum9, output_file,\n                               "Hamming distance of each half in the tag", sep)\n         createFileHD(summary11, sumCol11, overallSum11, output_file,\n-                     "Absolute delta Hamming distances within the tag", sep)\n+                     "Absolute delta Hamming distance within the tag", sep)\n \n         createFileHD(summary13, sumCol13, overallSum13, output_file,\n-                     "Chimera analysis: relative delta Hamming distances", sep)\n+                     "Chimera analysis: relative delta Hamming distance", sep)\n \n         if len(minHD_tags_zeros) != 0:\n             output_file.write(\n-                "Chimeras:\\nAll tags were filtered: only those tags where at least one half was identical (HD=0) and therefore, had a relative delta of 1 were kept. These tags are considered as chimeric.\\nSo the Hamming distances of the chimeric tags are shown.\\n")\n+                "All tags were filtered: only those tags where at least one half was identical (HD=0) and therefore, "\n+                "had a relative delta of 1 were kept. These tags are considered as chimeric.\\nSo the Hamming distances "\n+                "of the chimeric tags are shown.\\n")\n             createFileHD(summary15, sumCol15, overallSum15, output_file,\n-                         "Hamming distances of chimeras", sep)\n+                         "Hamming distance of chimeric families separated after FS", sep)\n+\n+            if onlyDuplicates is False:\n+                createFileHDwithDCS(summary16, sumCol16, overallSum16, output_file,\n+                                    "Hamming distance of chimeric families separated after DCS and single SSCS", sep)\n \n         output_file.write("\\n")\n \n'
b
diff -r 1fa7342a140d -r 6b15b3b6405c hd.xml
--- a/hd.xml Mon Jun 03 05:37:01 2019 -0400
+++ b/hd.xml Wed Jul 24 05:58:15 2019 -0400
b
@@ -1,12 +1,12 @@
 <?xml version="1.0" encoding="UTF-8"?>
-<tool id="hd" name="HD:" version="1.0.0">
+<tool id="hd" name="HD:" version="1.0.1">
     <description>hamming distance analysis of duplex tags</description>
     <requirements>
         <requirement type="package" version="2.7">python</requirement>
         <requirement type="package" version="1.4.0">matplotlib</requirement>
     </requirements>
     <command>
-        python2 '$__tool_directory__/hd.py' --inputFile '$inputFile' --inputName1 '$inputFile.name' --sample_size $sampleSize --subset_tag $subsetTag --nproc $nproc $onlyDCS --minFS $minFS --maxFS $maxFS
+        python2 '$__tool_directory__/hd.py' --inputFile '$inputFile' --inputName1 '$inputFile.name' --sample_size $sampleSize --subset_tag $subsetTag --nproc $nproc $onlyDCS $rel_freq --minFS $minFS --maxFS $maxFS
  $nr_above_bars --output_pdf $output_pdf --output_tabular $output_tabular --output_chimeras_tabular $output_chimeras_tabular
     </command>
     <inputs>
@@ -15,6 +15,7 @@
         <param name="minFS" type="integer" label="minimum family size of the tags" min="1" value="1" help="filters the tags after their family size: Families with a smaller size are skipped. Default: min. family size = 1."/>
         <param name="maxFS" type="integer" label="max family size of the tags" min="0" value="0" help="filters the tags after their family size: Families with a larger size are skipped. If max. family size is 0, no upper bound is defined and the maximum family size in the analysis will be the maximum family size of the whole dataset. Default: max. family size = 0."/>
         <param name="onlyDCS" type="boolean" label="only DCS in the analysis?" truevalue="" falsevalue="--only_DCS" checked="False" help="Only tags, which have a partner tag (ab and ba) in the dataset, are included in the analysis."/>
+        <param name="rel_freq" type="boolean" label="relative frequency?" truevalue="" falsevalue="--rel_freq" checked="False" help="If True, the relative frequencies instead of the absolute values are displayed in the plots."/>
         <param name="subsetTag" type="integer" label="shorten tag in the analysis?" value="0" help="By this parameter an analysis with shorter tag length is simulated. If this parameter is 0 (by default), the tags with its original length are used in the analysis."/>
         <param name="nproc" type="integer" label="number of processors" value="8" help="Number of processor used for computing."/>
         <param name="nr_above_bars" type="boolean" label="include numbers above bars?" truevalue="--nr_above_bars" falsevalue="" checked="True" help="The absolute and relative values of the data can be included or removed from the plots. "/>
@@ -93,7 +94,9 @@
     - Higher relative differences occur either due to low total HDs and/or larger absolute differences, both things that indicate that 2 tags were originally the same tag.
     - A relative difference of 1 means that one part of the tags is identical. Since it is very unlikely that by chance two different tags have a HD of 0 between one of their parts, the HDs in the other part are probably artificially introduced (chimeric reads).
 
- 6. The last page contains a graph representing the **HD of the chimeric tags** which is at the same time the HD of the non-identical halves of the tags with a relative difference of 1 from the previous page.
+ 6. The last page contains a graph representing the **HD of the chimeric tags** which is at the same time the HD of the non-identical halves of the chimeric tags with a relative difference of 1 from the previous page.
+
+ 7. The last page is only generated when the parameter "only DCS in the analysis?" is **False**. The graph represents the **HD of the chimeric tags** which is at the same time the HD of the non-identical halves of the chimeric tags and indicates if they can form a DCS or not.
 
  .. class:: infomark
 
b
diff -r 1fa7342a140d -r 6b15b3b6405c test-data/hd_chimeras_output.tab
--- a/test-data/hd_chimeras_output.tab Mon Jun 03 05:37:01 2019 -0400
+++ b/test-data/hd_chimeras_output.tab Wed Jul 24 05:58:15 2019 -0400
b
@@ -1,23 +1,22 @@
-chimera tag similar tag with HD=0
-AAAAAAAAAAAA AACCAAAACTTC *AAAAAAAAAAAA* TCTTTCTTTGAG
-AAAAAAAAAAAA ACCAGGCGTCGA *AAAAAAAAAAAA* AACCAAAACTTC, *AAAAAAAAAAAA* AGCTCCACGTTG, *AAAAAAAAAAAA* CAGTGTTGAGAC, *AAAAAAAAAAAA* TCTTTCTTTGAG, *AAAAAAAAAAAA* TTGGGTTCCTTA
-AAAAAAAAAAAA AGCTCCACGTTG *AAAAAAAAAAAA* CAGTGTTGAGAC, *AAAAAAAAAAAA* CCGCTCCTCACA
-AAAAAAAAAAAA ATCGTGGTTTGT *AAAAAAAAAAAA* CAGTGTTGAGAC, AAAAAAAAAAAG *ATCGTGGTTTGT*
-AAAAAAAAAAAA ATTCACCCTTGT *AAAAAAAAAAAA* CAGTGTTGAGAC, AAAAAAAAAAAT *ATTCACCCTTGT*
-AAAAAAAAAAAA CACACTTAACTT *AAAAAAAAAAAA* ATTCACCCTTGT, *AAAAAAAAAAAA* CCGCTCCTCACA, *AAAAAAAAAAAA* TCTTTCTTTGAG
-AAAAAAAAAAAA CAGTGTTGAGAC *AAAAAAAAAAAA* ATCGTGGTTTGT, *AAAAAAAAAAAA* ATTCACCCTTGT, *AAAAAAAAAAAA* CACACTTAACTT
-AAAAAAAAAAAA CCGCTCCTCACA *AAAAAAAAAAAA* AGCTCCACGTTG, *AAAAAAAAAAAA* CACACTTAACTT
-AAAAAAAAAAAA GGCAACACAGAA *AAAAAAAAAAAA* ATCGTGGTTTGT, AAAAAAAAAAAG *GGCAACACAGAA*
-AAAAAAAAAAAA TCTTTCTTTGAG *AAAAAAAAAAAA* AACCAAAACTTC, AAAAAAAAAAAG *TCTTTCTTTGAG*
-AAAAAAAAAAAA TTGGGTTCCTTA *AAAAAAAAAAAA* ACCAGGCGTCGA, *AAAAAAAAAAAA* GGCAACACAGAA, *AAAAAAAAAAAA* TCTTTCTTTGAG
-AAAAAAAAAAAG AGTCGCACCCAG *AAAAAAAAAAAG* ATCGTGGTTTGT
-AAAAAAAAAAAG ATCGTGGTTTGT AAAAAAAAAAAA *ATCGTGGTTTGT*, *AAAAAAAAAAAG* TAGCCCTAAACG
-AAAAAAAAAAAG CGCAACACAGAA *AAAAAAAAAAAG* ATCGTGGTTTGT
-AAAAAAAAAAAG GGCAACACAGAA AAAAAAAAAAAA *GGCAACACAGAA*, *AAAAAAAAAAAG* ATCGTGGTTTGT
-AAAAAAAAAAAG TAGCCCTAAACG *AAAAAAAAAAAG* ATCGTGGTTTGT
-AAAAAAAAAAAG TCTTTCTTTGAG AAAAAAAAAAAA *TCTTTCTTTGAG*, *AAAAAAAAAAAG* ATCGTGGTTTGT, *AAAAAAAAAAAG* CGCAACACAGAA, *AAAAAAAAAAAG* GGCAACACAGAA
-AAAAAAAAAAAT ATCATAGACTCT *AAAAAAAAAAAT* ATTCACCCTTGT
-AAAAAAAAAAAT ATTCACCCTTGT AAAAAAAAAAAA *ATTCACCCTTGT*, *AAAAAAAAAAAT* ATCATAGACTCT
-AAAAAAAAAAAT ATTCGAAAGTTA *AAAAAAAAAAAT* ATCATAGACTCT, *AAAAAAAAAAAT* ATTCACCCTTGT
+chimera tag family size, read direction similar tag with HD=0
+AAAAAAAAAAAA AACCAAAACTTC 1 ba *AAAAAAAAAAAA* TCTTTCTTTGAG 2 ab
+AAAAAAAAAAAA ACCAGGCGTCGA 1 ba *AAAAAAAAAAAA* AACCAAAACTTC 1 ba, *AAAAAAAAAAAA* AGCTCCACGTTG 1 ba, *AAAAAAAAAAAA* CAGTGTTGAGAC 1 ba, *AAAAAAAAAAAA* TCTTTCTTTGAG 2 ab, *AAAAAAAAAAAA* TTGGGTTCCTTA 1 ab
+AAAAAAAAAAAA ATCGTGGTTTGT 1 ba *AAAAAAAAAAAA* CAGTGTTGAGAC 1 ba, AAAAAAAAAAAG *ATCGTGGTTTGT* 4 ba
+AAAAAAAAAAAA ATTCACCCTTGT 1 ba *AAAAAAAAAAAA* CAGTGTTGAGAC 1 ba, AAAAAAAAAAAT *ATTCACCCTTGT* 6 ba
+AAAAAAAAAAAA CACACTTAACTT 7 ba *AAAAAAAAAAAA* ATTCACCCTTGT 1 ba, *AAAAAAAAAAAA* CCGCTCCTCACA 4 ba, *AAAAAAAAAAAA* TCTTTCTTTGAG 2 ab
+AAAAAAAAAAAA GGCAACACAGAA 1 ab *AAAAAAAAAAAA* ATCGTGGTTTGT 1 ba, AAAAAAAAAAAG *GGCAACACAGAA* 3 ab
+AAAAAAAAAAAG AGTCGCACCCAG 1 ba *AAAAAAAAAAAG* ATCGTGGTTTGT 4 ba
+AAAAAAAAAAAG CGCAACACAGAA 1 ab *AAAAAAAAAAAG* ATCGTGGTTTGT 4 ba
+AAAAAAAAAAAG TAGCCCTAAACG 1 ab *AAAAAAAAAAAG* ATCGTGGTTTGT 4 ba
+AAAAAAAAAAAG TCTTTCTTTGAG 1 ab AAAAAAAAAAAA *TCTTTCTTTGAG* 2 ab, *AAAAAAAAAAAG* ATCGTGGTTTGT 4 ba, *AAAAAAAAAAAG* CGCAACACAGAA 1 ab, *AAAAAAAAAAAG* GGCAACACAGAA 3 ab
+AAAAAAAAAAAT ATCATAGACTCT 1 ab *AAAAAAAAAAAT* ATTCACCCTTGT 6 ba
+AAAAAAAAAAAT ATTCGAAAGTTA 1 ba *AAAAAAAAAAAT* ATCATAGACTCT 1 ab, *AAAAAAAAAAAT* ATTCACCCTTGT 6 ba
 This file contains all tags that were identified as chimeras as the first column and the corresponding tags which returned a Hamming distance of zero in either the first or the second half of the sample tag as the second column.
- The tags were separated by an empty space into their halves and the * marks the identical half.
\ No newline at end of file
+The tags were separated by an empty space into their halves and the * marks the identical half.
+
+Statistics of nr. of tags that returned max. HD (2nd column)
+minimum 1 tag(s)
+mean 2.08333333333 tag(s)
+median 2.0 tag(s)
+maximum 5 tag(s)
+sum 25 tag(s)
b
diff -r 1fa7342a140d -r 6b15b3b6405c test-data/hd_output.pdf
b
Binary file test-data/hd_output.pdf has changed
b
diff -r 1fa7342a140d -r 6b15b3b6405c test-data/hd_output.tab
--- a/test-data/hd_output.tab Mon Jun 03 05:37:01 2019 -0400
+++ b/test-data/hd_output.tab Wed Jul 24 05:58:15 2019 -0400
b
@@ -1,5 +1,6 @@
 hd_data.tab
-number of tags per file 20 (from 20) against 20
+nr of tags 20
+sample size 20
 
 Hamming distance separated by family size
  FS=1 FS=2 FS=3 FS=4 FS=5-10 FS>10 sum
@@ -29,10 +30,11 @@
 Finally, it was possible to calculate the absolute and relative differences between the HDs (absolute and relative delta HD).
 These calculations were repeated, but starting with the second half in the first step to find all possible chimeras in the data (HD b and HD  For simplicity we used the maximum value between the delta values in the end.
 When only tags that can form DCS were allowed in the analysis, family sizes for the forward and reverse (ab and ba) will be included in the plots.
-length of one part of the tag = 12
+
+length of one half of the tag 12
 
 Hamming distance of each half in the tag
- HD a HD b' HD b HD a' HD a+b sum
+ HD DCS HD b' HD b HD a' HD a+b', a'+b sum
 HD=0 20 0 8 1 0 29
 HD=1 0 0 1 19 8 28
 HD=2 0 0 0 0 1 1
@@ -46,7 +48,7 @@
 HD=12 0 7 0 0 7 14
 sum 20 20 20 20 40 120
 
-Absolute delta Hamming distances within the tag
+Absolute delta Hamming distance within the tag
  FS=1 FS=2 FS=3 FS=4 FS=5-10 FS>10 sum
 diff=7 1 0 0 0 0 0 1
 diff=8 1 0 0 0 1 0 2
@@ -56,15 +58,14 @@
 diff=12 5 1 0 1 0 0 7
 sum 14 1 1 2 2 0 20
 
-Chimera analysis: relative delta Hamming distances
+Chimera analysis: relative delta Hamming distance
  FS=1 FS=2 FS=3 FS=4 FS=5-10 FS>10 sum
 diff=1.0 14 1 1 2 2 0 20
 sum 14 1 1 2 2 0 20
 
-Chimeras:
 All tags were filtered: only those tags where at least one half was identical (HD=0) and therefore, had a relative delta of 1 were kept. These tags are considered as chimeric.
 So the Hamming distances of the chimeric tags are shown.
-Hamming distances of chimeras
+Hamming distance of chimeric families separated after FS
  FS=1 FS=2 FS=3 FS=4 FS=5-10 FS>10 sum
 HD=7 1 0 0 0 0 0 1
 HD=8 1 0 0 0 1 0 2
@@ -74,4 +75,14 @@
 HD=12 5 1 0 1 0 0 7
 sum 14 1 1 2 2 0 20
 
+Hamming distance of chimeric families separated after DCS and single SSCS
+ DCS SSCS ab SSCS ba sum
+HD=7.0 0 0 1 1
+HD=8.0 0 1 1 2
+HD=9.0 0 1 0 1
+HD=10.0 0 1 1 2
+HD=11.0 0 3 4 7
+HD=12.0 0 2 5 7
+sum 0 8 12 20
 
+