Repository 'hd'
hg clone https://toolshed.g2.bx.psu.edu/repos/mheinzl/hd

Changeset 25:9e384b0741f1 (2019-05-14)
Previous changeset 24:3bc67ac46740 (2019-02-27) Next changeset 26:15d5da04ef70 (2019-05-14)
Commit message:
planemo upload for repository https://github.com/monikaheinzl/duplexanalysis_galaxy/tree/master/tools/hd commit b8a2f7b7615b2bcd3b602027af31f4e677da94f6-dirty
modified:
hd.py
hd.xml
added:
test-data/hd_chimeras_output.tab
test-data/hd_data.tab
test-data/hd_output.pdf
test-data/hd_output.tab
removed:
test-data/Test_data.tabular
test-data/output_file.pdf
test-data/output_file.tabular
test-data/output_file_chimeras.tabular
b
diff -r 3bc67ac46740 -r 9e384b0741f1 hd.py
--- a/hd.py Wed Feb 27 09:17:04 2019 -0500
+++ b/hd.py Tue May 14 03:29:37 2019 -0400
[
b'@@ -14,7 +14,7 @@\n # The tool can run on a certain number of processors, which can be defined by the user.\n \n # USAGE: python hd.py --inputFile filename --inputName1 filename --sample_size int /\n-#        --only_DCS True --FamilySize3 True --subset_tag True --nproc int --minFS int --maxFS int --nr_above_bars True/False --output_pdf outputfile_name_pdf --output_tabular outputfile_name_tabular --output_chimeras_tabular outputfile_name_chimeras_tabular\n+#        --only_DCS True --FamilySize3 True --subset_tag True --nproc int --minFS int --maxFS int --nr_above_bars True/False --output_tabular outptufile_name_tabular\n \n import argparse\n import itertools\n@@ -23,6 +23,8 @@\n from collections import Counter, defaultdict\n from functools import partial\n from multiprocessing.pool import Pool\n+import random\n+import os\n \n import matplotlib.pyplot as plt\n import numpy\n@@ -142,22 +144,23 @@\n                              xy=(label, x_label + len(con_list1) * 0.01),\n                              xycoords="data", color="#000066", fontsize=10)\n \n-    legend = "sample size= {:,} against {:,}".format(sum(counts), lenTags)\n-    plt.text(0.14, -0.01, legend, size=12, transform=plt.gcf().transFigure)\n-    if nr_unique_chimeras != 0 and len_sample != 0:\n-        if relative == True:\n-            legend = "nr. of unique chimeric tags= {:,} ({:.5f}) (rel.diff=1)".format(nr_unique_chimeras,\n-                                                                         int(nr_unique_chimeras) / float(len_sample))\n-        else:\n-            legend = "nr. of unique chimeric tags= {:,} ({:.5f})".format(nr_unique_chimeras, int(nr_unique_chimeras) / float(len_sample))\n-        plt.text(0.14, -0.05, legend, size=12, transform=plt.gcf().transFigure)\n+    legend = "nr. of tags = {:,}\\nsample size = {:,}\\nnr. of data points = {:,}".format(lenTags, len_sample, sum(counts))\n+    plt.text(0.14, -0.05, legend, size=12, transform=plt.gcf().transFigure)\n+\n+    # if nr_unique_chimeras != 0 and len_sample != 0:\n+    #     if relative == True:\n+    #         legend = "nr. of unique chimeric tags= {:,} ({:.5f}) (rel.diff=1)".format(nr_unique_chimeras,\n+    #                                                                      int(nr_unique_chimeras) / float(len_sample))\n+    #     else:\n+    #         legend = "nr. of unique chimeric tags= {:,} ({:.5f})".format(nr_unique_chimeras, int(nr_unique_chimeras) / float(len_sample))\n+    #     plt.text(0.14, -0.09, legend, size=12, transform=plt.gcf().transFigure)\n \n     pdf.savefig(fig, bbox_inches="tight")\n     plt.close("all")\n     plt.clf()\n \n \n-def plotHDwithinSeq_Sum2(sum1, sum1min, sum2, sum2min, min_value, lenTags, title_file1, pdf):\n+def plotHDwithinSeq_Sum2(sum1, sum1min, sum2, sum2min, min_value, lenTags, title_file1, pdf, len_sample):\n     fig = plt.figure(figsize=(6, 8))\n     plt.subplots_adjust(bottom=0.1)\n \n@@ -172,7 +175,7 @@\n     else:\n         range1 = range(minimumX, maximumX + 2)\n \n-    plt.hist(ham_partial, align="left", rwidth=0.8, stacked=False, label=[ "HD a", "HD b\'", "HD b", "HD a\'", "HD a+b"], bins=range1, color=["#58ACFA", "#0404B4", "#FE642E", "#B40431", "#585858"], edgecolor=\'black\', linewidth=1)\n+    plt.hist(ham_partial, align="left", rwidth=0.8, stacked=False, label=["HD a", "HD b\'", "HD b", "HD a\'", "HD a+b"], bins=range1, color=["#58ACFA", "#0404B4", "#FE642E", "#B40431", "#585858"], edgecolor=\'black\', linewidth=1)\n \n     plt.legend(loc=\'upper right\', fontsize=14, frameon=True, bbox_to_anchor=(1.55, 1))\n     plt.suptitle(\'Hamming distances within tags\', fontsize=14)\n@@ -184,9 +187,10 @@\n     plt.axis((minimumX - 1, maximumX + 1, 0, maximumY * 1.2))\n     plt.xticks(numpy.arange(0, maximumX + 1, 1.0))\n     # plt.ylim(0, maximumY * 1.2)\n+    legend = "nr. of tags = {:,}\\nsample size = {:,}\\nnr. of data points = {:,}".format(lenTags, len_sample, len(numpy.concatenate(ham_partial)))\n \n-    legend = "sample size= {:,} against {:,}".format(len(numpy.concatenate(ham_partial)), lenTags)\n-    plt.text(0.14, -0'..b'nce, pdf=pdf,\n                       subtitle="Delta Hamming distance within tags",\n                       title_file1=name1, lenTags=lenTags,\n-                      xlabel="absolute delta HD", relative=False, nr_above_bars=nr_above_bars)\n+                      xlabel="absolute delta HD", relative=False, nr_above_bars=nr_above_bars, len_sample=len_sample)\n \n         plotHDwithFSD(listRelDifference1, maximumXRelDifference, minimumXRelDifference, pdf=pdf,\n                       subtitle="Chimera Analysis: relative delta Hamming distances",\n@@ -994,7 +1054,7 @@\n         # plots for chimeric reads\n         if len(minHD_tags_zeros) != 0:\n             # HD\n-            plotHDwithFSD(listDifference1_zeros, maximumXDifference_zeros, minimumXDifference_zeros, pdf=pdf,subtitle="Hamming distance of the non-identical half of chimeras",\n+            plotHDwithFSD(listDifference1_zeros, maximumXDifference_zeros, minimumXDifference_zeros, pdf=pdf, subtitle="Hamming distance of chimeras",\n                           title_file1=name1, lenTags=lenTags, xlabel="HD", relative=False,\n                           nr_above_bars=nr_above_bars, nr_unique_chimeras=nr_chimeric_tags, len_sample=len_sample)\n \n@@ -1047,9 +1107,11 @@\n \n         # HD within tags\n         output_file.write(\n-            "The hamming distances were calculated by comparing each half of all tags against the tag(s) with the minimum Hamming distance per half.\\n"\n-            "Since this calculation was repeated, but starting with the second half to find all possible chimeras in the data, the actual number of tags in the plots differs from the sample size entered by the user.\\n"\n-            "In addition, both family sizes of one tag will be included in the plots if only tags of reads that can form a DCS were allowed.\\n")\n+            "The Hamming distances were calculated by comparing the first halve against all halves and selected the minimum value (HD a).\\n"\n+            "For the second half of the tag, we compared them against all tags which resulted in the minimum HD of the previous step and selected the maximum value (HD b\').\\n"\n+            "Finally, it was possible to calculate the absolute and relative differences between the HDs (absolute and relative delta HD).\\n"\n+            "These calculations were repeated, but starting with the second half in the first step to find all possible chimeras in the data (HD b and HD  For simplicity we used the maximum value between the delta values in the end.\\n"\n+            "When only tags that can form DCS were allowed in the analysis, family sizes for the forward and reverse (ab and ba) will be included in the plots.\\n")\n \n         output_file.write("length of one part of the tag = {}\\n\\n".format(len(data_array[0, 1]) / 2))\n \n@@ -1063,16 +1125,12 @@\n \n         if len(minHD_tags_zeros) != 0:\n             output_file.write(\n-                "Chimeras:\\nAll tags were filtered: only those tags where at least one half is identical with the half of the min. tag are kept.\\nSo the Hamming distance of the non-identical half is shown.\\n")\n-            output_file.write(\n-                "Be aware that the real number of chimeric tags (where rel. diff = 1) is not shown in the plot because of the above reasons.\\n")\n-            output_file.write("real number of chimeric tags{}{}{}{}\\n".format(sep, nr_chimeric_tags, sep, int(nr_chimeric_tags) / float(len_sample)))\n+                "Chimeras:\\nAll tags were filtered: only those tags where at least one half was identical (HD=0) and therefore, had a relative delta of 1 were kept. These tags are considered as chimeric.\\nSo the Hamming distances of the chimeric tags are shown.\\n")\n             createFileHD(summary15, sumCol15, overallSum15, output_file,\n-                         "Hamming distances of non-zero half", sep)\n+                         "Hamming distances of chimeras", sep)\n \n         output_file.write("\\n")\n \n \n if __name__ == \'__main__\':\n     sys.exit(Hamming_Distance_Analysis(sys.argv))\n-\n'
b
diff -r 3bc67ac46740 -r 9e384b0741f1 hd.xml
--- a/hd.xml Wed Feb 27 09:17:04 2019 -0500
+++ b/hd.xml Tue May 14 03:29:37 2019 -0400
[
@@ -28,11 +28,11 @@
     </outputs>
     <tests>
         <test>
-            <param name="inputFile" value="Test_data.tabular"/>
+            <param name="inputFile" value="hd_data.tab"/>
             <param name="sampleSize" value="0"/>
-            <output name="output_pdf" file="output_file.pdf" lines_diff="6"/>
-            <output name="output_tabular" file="output_file.tabular"/>
-            <output name="output_chimeras_tabular" file="output_file_chimeras.tabular"/>
+            <output name="output_pdf" file="hd_output.pdf" lines_diff="6"/>
+            <output name="output_tabular" file="hd_output.tab"/>
+            <output name="output_chimeras_tabular" file="hd_output_chimeras.tab"/>
         </test>
     </tests>
     <help> <![CDATA[
b
diff -r 3bc67ac46740 -r 9e384b0741f1 test-data/Test_data.tabular
--- a/test-data/Test_data.tabular Wed Feb 27 09:17:04 2019 -0500
+++ /dev/null Thu Jan 01 00:00:00 1970 +0000
b
@@ -1,20 +0,0 @@
-1 AAAAAAAAAAAAAACCAAAACTTC ba
-1 AAAAAAAAAAAAACCAGGCGTCGA ba
-1 AAAAAAAAAAAAAGCTCCACGTTG ba
-1 AAAAAAAAAAAAATCGTGGTTTGT ba
-1 AAAAAAAAAAAAATTCACCCTTGT ba
-7 AAAAAAAAAAAACACACTTAACTT ba
-1 AAAAAAAAAAAACAGTGTTGAGAC ba
-4 AAAAAAAAAAAACCGCTCCTCACA ba
-1 AAAAAAAAAAAAGGCAACACAGAA ab
-2 AAAAAAAAAAAATCTTTCTTTGAG ab
-1 AAAAAAAAAAAATTGGGTTCCTTA ab
-1 AAAAAAAAAAAGAGTCGCACCCAG ba
-4 AAAAAAAAAAAGATCGTGGTTTGT ba
-1 AAAAAAAAAAAGCGCAACACAGAA ab
-3 AAAAAAAAAAAGGGCAACACAGAA ab
-1 AAAAAAAAAAAGTAGCCCTAAACG ab
-1 AAAAAAAAAAAGTCTTTCTTTGAG ab
-1 AAAAAAAAAAATATCATAGACTCT ab
-6 AAAAAAAAAAATATTCACCCTTGT ba
-1 AAAAAAAAAAATATTCGAAAGTTA ba
\ No newline at end of file
b
diff -r 3bc67ac46740 -r 9e384b0741f1 test-data/hd_chimeras_output.tab
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/hd_chimeras_output.tab Tue May 14 03:29:37 2019 -0400
b
@@ -0,0 +1,23 @@
+chimera tag similar tag with HD=0
+AAAAAAAAAAAA AACCAAAACTTC *AAAAAAAAAAAA* TCTTTCTTTGAG
+AAAAAAAAAAAA ACCAGGCGTCGA *AAAAAAAAAAAA* AACCAAAACTTC, *AAAAAAAAAAAA* AGCTCCACGTTG, *AAAAAAAAAAAA* CAGTGTTGAGAC, *AAAAAAAAAAAA* TCTTTCTTTGAG, *AAAAAAAAAAAA* TTGGGTTCCTTA
+AAAAAAAAAAAA AGCTCCACGTTG *AAAAAAAAAAAA* CAGTGTTGAGAC, *AAAAAAAAAAAA* CCGCTCCTCACA
+AAAAAAAAAAAA ATCGTGGTTTGT *AAAAAAAAAAAA* CAGTGTTGAGAC, AAAAAAAAAAAG *ATCGTGGTTTGT*
+AAAAAAAAAAAA ATTCACCCTTGT *AAAAAAAAAAAA* CAGTGTTGAGAC, AAAAAAAAAAAT *ATTCACCCTTGT*
+AAAAAAAAAAAA CACACTTAACTT *AAAAAAAAAAAA* ATTCACCCTTGT, *AAAAAAAAAAAA* CCGCTCCTCACA, *AAAAAAAAAAAA* TCTTTCTTTGAG
+AAAAAAAAAAAA CAGTGTTGAGAC *AAAAAAAAAAAA* ATCGTGGTTTGT, *AAAAAAAAAAAA* ATTCACCCTTGT, *AAAAAAAAAAAA* CACACTTAACTT
+AAAAAAAAAAAA CCGCTCCTCACA *AAAAAAAAAAAA* AGCTCCACGTTG, *AAAAAAAAAAAA* CACACTTAACTT
+AAAAAAAAAAAA GGCAACACAGAA *AAAAAAAAAAAA* ATCGTGGTTTGT, AAAAAAAAAAAG *GGCAACACAGAA*
+AAAAAAAAAAAA TCTTTCTTTGAG *AAAAAAAAAAAA* AACCAAAACTTC, AAAAAAAAAAAG *TCTTTCTTTGAG*
+AAAAAAAAAAAA TTGGGTTCCTTA *AAAAAAAAAAAA* ACCAGGCGTCGA, *AAAAAAAAAAAA* GGCAACACAGAA, *AAAAAAAAAAAA* TCTTTCTTTGAG
+AAAAAAAAAAAG AGTCGCACCCAG *AAAAAAAAAAAG* ATCGTGGTTTGT
+AAAAAAAAAAAG ATCGTGGTTTGT AAAAAAAAAAAA *ATCGTGGTTTGT*, *AAAAAAAAAAAG* TAGCCCTAAACG
+AAAAAAAAAAAG CGCAACACAGAA *AAAAAAAAAAAG* ATCGTGGTTTGT
+AAAAAAAAAAAG GGCAACACAGAA AAAAAAAAAAAA *GGCAACACAGAA*, *AAAAAAAAAAAG* ATCGTGGTTTGT
+AAAAAAAAAAAG TAGCCCTAAACG *AAAAAAAAAAAG* ATCGTGGTTTGT
+AAAAAAAAAAAG TCTTTCTTTGAG AAAAAAAAAAAA *TCTTTCTTTGAG*, *AAAAAAAAAAAG* ATCGTGGTTTGT, *AAAAAAAAAAAG* CGCAACACAGAA, *AAAAAAAAAAAG* GGCAACACAGAA
+AAAAAAAAAAAT ATCATAGACTCT *AAAAAAAAAAAT* ATTCACCCTTGT
+AAAAAAAAAAAT ATTCACCCTTGT AAAAAAAAAAAA *ATTCACCCTTGT*, *AAAAAAAAAAAT* ATCATAGACTCT
+AAAAAAAAAAAT ATTCGAAAGTTA *AAAAAAAAAAAT* ATCATAGACTCT, *AAAAAAAAAAAT* ATTCACCCTTGT
+This file contains all tags that were identified as chimeras as the first column and the corresponding tags which returned a Hamming distance of zero in either the first or the second half of the sample tag as the second column.
+ The tags were separated by an empty space into their halves and the * marks the identical half.
\ No newline at end of file
b
diff -r 3bc67ac46740 -r 9e384b0741f1 test-data/hd_data.tab
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/hd_data.tab Tue May 14 03:29:37 2019 -0400
b
@@ -0,0 +1,20 @@
+1 AAAAAAAAAAAAAACCAAAACTTC ba
+1 AAAAAAAAAAAAACCAGGCGTCGA ba
+1 AAAAAAAAAAAAAGCTCCACGTTG ba
+1 AAAAAAAAAAAAATCGTGGTTTGT ba
+1 AAAAAAAAAAAAATTCACCCTTGT ba
+7 AAAAAAAAAAAACACACTTAACTT ba
+1 AAAAAAAAAAAACAGTGTTGAGAC ba
+4 AAAAAAAAAAAACCGCTCCTCACA ba
+1 AAAAAAAAAAAAGGCAACACAGAA ab
+2 AAAAAAAAAAAATCTTTCTTTGAG ab
+1 AAAAAAAAAAAATTGGGTTCCTTA ab
+1 AAAAAAAAAAAGAGTCGCACCCAG ba
+4 AAAAAAAAAAAGATCGTGGTTTGT ba
+1 AAAAAAAAAAAGCGCAACACAGAA ab
+3 AAAAAAAAAAAGGGCAACACAGAA ab
+1 AAAAAAAAAAAGTAGCCCTAAACG ab
+1 AAAAAAAAAAAGTCTTTCTTTGAG ab
+1 AAAAAAAAAAATATCATAGACTCT ab
+6 AAAAAAAAAAATATTCACCCTTGT ba
+1 AAAAAAAAAAATATTCGAAAGTTA ba
\ No newline at end of file
b
diff -r 3bc67ac46740 -r 9e384b0741f1 test-data/hd_output.pdf
b
Binary file test-data/hd_output.pdf has changed
b
diff -r 3bc67ac46740 -r 9e384b0741f1 test-data/hd_output.tab
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/hd_output.tab Tue May 14 03:29:37 2019 -0400
b
@@ -0,0 +1,77 @@
+hd_data.tab
+number of tags per file 20 (from 20) against 20
+
+Hamming distance separated by family size
+ FS=1 FS=2 FS=3 FS=4 FS=5-10 FS>10 sum
+HD=1 5 1 1 1 1 0 9
+HD=6 3 0 0 0 0 0 3
+HD=7 4 0 0 0 1 0 5
+HD=8 2 0 0 1 0 0 3
+sum 14 1 1 2 2 0 20
+
+Family size distribution separated by Hamming distance
+ HD=1 HD=2 HD=3 HD=4 HD=5-8 HD>8 sum
+FS=1 5 0 0 0 9 0 14
+FS=2 1 0 0 0 0 0 1
+FS=3 1 0 0 0 0 0 1
+FS=4 1 0 0 0 1 0 2
+FS=6 1 0 0 0 0 0 1
+FS=7 0 0 0 0 1 0 1
+sum 9 0 0 0 11 0 20
+
+
+max. family size in sample: 7
+absolute frequency: 1
+relative frequency: 0.05
+
+The Hamming distances were calculated by comparing the first halve against all halves and selected the minimum value (HD a).
+For the second half of the tag, we compared them against all tags which resulted in the minimum HD of the previous step and selected the maximum value (HD b').
+Finally, it was possible to calculate the absolute and relative differences between the HDs (absolute and relative delta HD).
+These calculations were repeated, but starting with the second half in the first step to find all possible chimeras in the data (HD b and HD  For simplicity we used the maximum value between the delta values in the end.
+When only tags that can form DCS were allowed in the analysis, family sizes for the forward and reverse (ab and ba) will be included in the plots.
+length of one part of the tag = 12
+
+Hamming distance of each half in the tag
+ HD a HD b' HD b HD a' HD a+b sum
+HD=0 20 0 8 1 0 29
+HD=1 0 0 1 19 8 28
+HD=2 0 0 0 0 1 1
+HD=5 0 0 3 0 0 3
+HD=6 0 0 2 0 3 5
+HD=7 0 1 6 0 4 11
+HD=8 0 2 0 0 7 9
+HD=9 0 1 0 0 1 2
+HD=10 0 2 0 0 2 4
+HD=11 0 7 0 0 7 14
+HD=12 0 7 0 0 7 14
+sum 20 20 20 20 40 120
+
+Absolute delta Hamming distances within the tag
+ FS=1 FS=2 FS=3 FS=4 FS=5-10 FS>10 sum
+diff=7 1 0 0 0 0 0 1
+diff=8 1 0 0 0 1 0 2
+diff=9 1 0 0 0 0 0 1
+diff=10 2 0 0 0 0 0 2
+diff=11 4 0 1 1 1 0 7
+diff=12 5 1 0 1 0 0 7
+sum 14 1 1 2 2 0 20
+
+Chimera analysis: relative delta Hamming distances
+ FS=1 FS=2 FS=3 FS=4 FS=5-10 FS>10 sum
+diff=1.0 14 1 1 2 2 0 20
+sum 14 1 1 2 2 0 20
+
+Chimeras:
+All tags were filtered: only those tags where at least one half was identical (HD=0) and therefore, had a relative delta of 1 were kept. These tags are considered as chimeric.
+So the Hamming distances of the chimeric tags are shown.
+Hamming distances of chimeras
+ FS=1 FS=2 FS=3 FS=4 FS=5-10 FS>10 sum
+HD=7 1 0 0 0 0 0 1
+HD=8 1 0 0 0 1 0 2
+HD=9 1 0 0 0 0 0 1
+HD=10 2 0 0 0 0 0 2
+HD=11 4 0 1 1 1 0 7
+HD=12 5 1 0 1 0 0 7
+sum 14 1 1 2 2 0 20
+
+
b
diff -r 3bc67ac46740 -r 9e384b0741f1 test-data/output_file.pdf
b
Binary file test-data/output_file.pdf has changed
b
diff -r 3bc67ac46740 -r 9e384b0741f1 test-data/output_file.tabular
--- a/test-data/output_file.tabular Wed Feb 27 09:17:04 2019 -0500
+++ /dev/null Thu Jan 01 00:00:00 1970 +0000
b
@@ -1,86 +0,0 @@
-Test_data
-number of tags per file 20 (from 20) against 20
-
-Hamming distance separated by family size
- FS=1 FS=2 FS=3 FS=4 FS=5-10 FS>10 sum
-HD=1 5 1 1 1 1 0 9
-HD=6 3 0 0 0 0 0 3
-HD=7 4 0 0 0 1 0 5
-HD=8 2 0 0 1 0 0 3
-sum 14 1 1 2 2 0 20
-
-Family size distribution separated by Hamming distance
- HD=1 HD=2 HD=3 HD=4 HD=5-8 HD>8 sum
-FS=1 5 0 0 0 9 0 14
-FS=2 1 0 0 0 0 0 1
-FS=3 1 0 0 0 0 0 1
-FS=4 1 0 0 0 1 0 2
-FS=6 1 0 0 0 0 0 1
-FS=7 0 0 0 0 1 0 1
-sum 9 0 0 0 11 0 20
-
-
-max. family size in sample: 7
-absolute frequency: 1
-relative frequency: 0.05
-
-The hamming distances were calculated by comparing each half of all tags against the tag(s) with the minimum Hamming distance per half.
-Since this calculation was repeated, but starting with the second half to find all possible chimeras in the data, the actual number of tags in the plots differs from the sample size entered by the user.
-In addition, both family sizes of one tag will be included in the plots if only tags of reads that can form a DCS were allowed.
-length of one part of the tag = 12
-
-Hamming distance of each half in the tag
- HD a HD b' HD b HD a' HD a+b sum
-HD=0 20 0 8 1 0 29
-HD=1 0 0 1 19 8 28
-HD=2 0 0 0 0 1 1
-HD=5 0 0 3 0 0 3
-HD=6 0 0 2 0 3 5
-HD=7 0 1 6 0 4 11
-HD=8 0 2 0 0 7 9
-HD=9 0 1 0 0 1 2
-HD=10 0 2 0 0 2 4
-HD=11 0 7 0 0 7 14
-HD=12 0 7 0 0 7 14
-sum 20 20 20 20 40 120
-
-Absolute delta Hamming distances within the tag
- FS=1 FS=2 FS=3 FS=4 FS=5-10 FS>10 sum
-diff=0 1 0 0 0 0 0 1
-diff=1 4 1 1 1 1 0 8
-diff=4 3 0 0 0 0 0 3
-diff=5 2 0 0 0 0 0 2
-diff=6 3 0 0 1 1 0 5
-diff=7 2 0 0 0 0 0 2
-diff=8 1 0 0 0 1 0 2
-diff=9 1 0 0 0 0 0 1
-diff=10 2 0 0 0 0 0 2
-diff=11 4 0 1 1 1 0 7
-diff=12 5 1 0 1 0 0 7
-sum 28 2 2 4 4 0 40
-
-Chimera analysis: relative delta Hamming distances
- FS=1 FS=2 FS=3 FS=4 FS=5-10 FS>10 sum
-diff=0.0 1 0 0 0 0 0 1
-diff=0.7 5 0 0 0 0 0 5
-diff=0.8 3 0 0 1 1 0 5
-diff=1.0 19 2 2 3 3 0 29
-sum 28 2 2 4 4 0 40
-
-Chimeras:
-All tags were filtered: only those tags where at least one half is identical with the half of the min. tag are kept.
-So the Hamming distance of the non-identical half is shown.
-Be aware that the real number of chimeric tags (where rel. diff = 1) is not shown in the plot because of the above reasons.
-real number of chimeric tags 20 1.0
-Hamming distances of non-zero half
- FS=1 FS=2 FS=3 FS=4 FS=5-10 FS>10 sum
-HD=1 4 1 1 1 1 0 8
-HD=7 2 0 0 0 0 0 2
-HD=8 1 0 0 0 1 0 2
-HD=9 1 0 0 0 0 0 1
-HD=10 2 0 0 0 0 0 2
-HD=11 4 0 1 1 1 0 7
-HD=12 5 1 0 1 0 0 7
-sum 19 2 2 3 3 0 29
-
-
b
diff -r 3bc67ac46740 -r 9e384b0741f1 test-data/output_file_chimeras.tabular
--- a/test-data/output_file_chimeras.tabular Wed Feb 27 09:17:04 2019 -0500
+++ /dev/null Thu Jan 01 00:00:00 1970 +0000
b
@@ -1,23 +0,0 @@
-sample tag similar tag
-AAAAAAAAAAAA AACCAAAACTTC *AAAAAAAAAAAA* TCTTTCTTTGAG
-AAAAAAAAAAAA ACCAGGCGTCGA *AAAAAAAAAAAA* AACCAAAACTTC, *AAAAAAAAAAAA* AGCTCCACGTTG, *AAAAAAAAAAAA* CAGTGTTGAGAC, *AAAAAAAAAAAA* TCTTTCTTTGAG, *AAAAAAAAAAAA* TTGGGTTCCTTA
-AAAAAAAAAAAA AGCTCCACGTTG *AAAAAAAAAAAA* CAGTGTTGAGAC, *AAAAAAAAAAAA* CCGCTCCTCACA
-AAAAAAAAAAAA ATCGTGGTTTGT *AAAAAAAAAAAA* CAGTGTTGAGAC, AAAAAAAAAAAG *ATCGTGGTTTGT*
-AAAAAAAAAAAA ATTCACCCTTGT *AAAAAAAAAAAA* CAGTGTTGAGAC, AAAAAAAAAAAT *ATTCACCCTTGT*
-AAAAAAAAAAAA CACACTTAACTT *AAAAAAAAAAAA* ATTCACCCTTGT, *AAAAAAAAAAAA* CCGCTCCTCACA, *AAAAAAAAAAAA* TCTTTCTTTGAG
-AAAAAAAAAAAA CAGTGTTGAGAC *AAAAAAAAAAAA* ATCGTGGTTTGT, *AAAAAAAAAAAA* ATTCACCCTTGT, *AAAAAAAAAAAA* CACACTTAACTT
-AAAAAAAAAAAA CCGCTCCTCACA *AAAAAAAAAAAA* AGCTCCACGTTG, *AAAAAAAAAAAA* CACACTTAACTT
-AAAAAAAAAAAA GGCAACACAGAA *AAAAAAAAAAAA* ATCGTGGTTTGT, AAAAAAAAAAAG *GGCAACACAGAA*
-AAAAAAAAAAAA TCTTTCTTTGAG *AAAAAAAAAAAA* AACCAAAACTTC, AAAAAAAAAAAG *TCTTTCTTTGAG*
-AAAAAAAAAAAA TTGGGTTCCTTA *AAAAAAAAAAAA* ACCAGGCGTCGA, *AAAAAAAAAAAA* GGCAACACAGAA, *AAAAAAAAAAAA* TCTTTCTTTGAG
-AAAAAAAAAAAG AGTCGCACCCAG *AAAAAAAAAAAG* ATCGTGGTTTGT
-AAAAAAAAAAAG ATCGTGGTTTGT *AAAAAAAAAAAG* TAGCCCTAAACG, AAAAAAAAAAAA *ATCGTGGTTTGT*
-AAAAAAAAAAAG CGCAACACAGAA *AAAAAAAAAAAG* ATCGTGGTTTGT
-AAAAAAAAAAAG GGCAACACAGAA *AAAAAAAAAAAG* ATCGTGGTTTGT, AAAAAAAAAAAA *GGCAACACAGAA*
-AAAAAAAAAAAG TAGCCCTAAACG *AAAAAAAAAAAG* ATCGTGGTTTGT
-AAAAAAAAAAAG TCTTTCTTTGAG *AAAAAAAAAAAG* ATCGTGGTTTGT, *AAAAAAAAAAAG* CGCAACACAGAA, *AAAAAAAAAAAG* GGCAACACAGAA, AAAAAAAAAAAA *TCTTTCTTTGAG*
-AAAAAAAAAAAT ATCATAGACTCT *AAAAAAAAAAAT* ATTCACCCTTGT
-AAAAAAAAAAAT ATTCACCCTTGT *AAAAAAAAAAAT* ATCATAGACTCT, AAAAAAAAAAAA *ATTCACCCTTGT*
-AAAAAAAAAAAT ATTCGAAAGTTA *AAAAAAAAAAAT* ATCATAGACTCT, *AAAAAAAAAAAT* ATTCACCCTTGT
-This file contains all tags that were identified as chimeras as the first column and the corresponding tags which returned a Hamming distance of zero in either the first or the second half of the sample tag as the second column.
- The tags were separated by an empty space into their halves and the * marks the identical half.
\ No newline at end of file