BLAST Search Results

# HG changeset patch # User peterjc # Date 1348150363 14400 # Node ID 45ba7c750bc8be36f270934c681a089758e1c87e # Parent 10dce68b584b515d4f44c40e61b1e558d8ce66f8 This update should have no functional effect. Renamed files (since xml.py will be inaccurate once BLAST databases are added in future update). diff -r 10dce68b584b -r 45ba7c750bc8 datatypes_conf.txt --- a/datatypes_conf.txt Thu Aug 23 09:33:16 2012 -0400 +++ /dev/null Thu Jan 01 00:00:00 1970 +0000 @@ -1,72 +0,0 @@ -Galaxy datatypes for NCBI BLAST+ suite -====================================== - -These Galaxy datatypes are copyright 2010-2012 by Peter Cock, The James Hutton -Institute (formerly SCRI, Scottish Crop Research Institute), UK. All rights reserved. -See the licence text below. - -Note that these files (and the associated BLAST+ wrappers) were originally -distributed as part of the main Galaxy repository, but as of August 2012 moved -to the Galaxy Tool Shed as 'blast_datatypes' (and 'ncbi_blast_plus' for the -wrappers). My thanks to Dannon Baker from the Galaxy development team for his -assistance with this. - - -Installation -============ - -Doing this automatically via the Galaxy Tool Shed is probably simplest. - - -History -======= - -These versions numbers match those for 'ncbi_blast_plus', but are not used -explicitly in the datatypes themselves. - -v0.0.11 - Final revision as part of the Galaxy main repository, and the - first release via the Tool Shed - - -Developers -========== - -BLAST+ datatypes and wrappers, and other tools are being developed on the -following hg branch: http://bitbucket.org/peterjc/galaxy-central/src/tools - -For making the "Galaxy Tool Shed" http://community.g2.bx.psu.edu/ tarball I use -the following command from the Galaxy tools/ncbi_blast_plus folder: - -$ tar -czf blast_datatypes.tar.gz datatypes_conf.txt datatypes_conf.xml xml.py - -Check this worked: - -$ tar -tzf blast_datatypes.tar.gz -datatypes_conf.txt -datatypes_conf.xml -xml.py - - -Licence (MIT/BSD style) -======================= - -Permission to use, copy, modify, and distribute this software and its -documentation with or without modifications and for any purpose and -without fee is hereby granted, provided that any copyright notices -appear in all copies and that both those copyright notices and this -permission notice appear in supporting documentation, and that the -names of the contributors or copyright holders not be used in -advertising or publicity pertaining to distribution of the software -without specific prior permission. - -THE CONTRIBUTORS AND COPYRIGHT HOLDERS OF THIS SOFTWARE DISCLAIM ALL -WARRANTIES WITH REGARD TO THIS SOFTWARE, INCLUDING ALL IMPLIED -WARRANTIES OF MERCHANTABILITY AND FITNESS, IN NO EVENT SHALL THE -CONTRIBUTORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY SPECIAL, INDIRECT -OR CONSEQUENTIAL DAMAGES OR ANY DAMAGES WHATSOEVER RESULTING FROM LOSS -OF USE, DATA OR PROFITS, WHETHER IN AN ACTION OF CONTRACT, NEGLIGENCE -OR OTHER TORTIOUS ACTION, ARISING OUT OF OR IN CONNECTION WITH THE USE -OR PERFORMANCE OF THIS SOFTWARE. - -NOTE: This is the licence for the Galaxy BLAST datatypes only. BLAST+ -and associated data files are available and licenced separately. diff -r 10dce68b584b -r 45ba7c750bc8 datatypes_conf.xml --- a/datatypes_conf.xml Thu Aug 23 09:33:16 2012 -0400 +++ /dev/null Thu Jan 01 00:00:00 1970 +0000 @@ -1,13 +0,0 @@ - - - - - - - - - - - - - diff -r 10dce68b584b -r 45ba7c750bc8 test-data/blastp_four_human_vs_rhodopsin.tabular --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/blastp_four_human_vs_rhodopsin.tabular Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,6 @@ +sp|P08100|OPSD_HUMAN gi|57163783|ref|NP_001009242.1| 96.55 348 12 0 1 348 1 348 0.0 701 +sp|P08100|OPSD_HUMAN gi|3024260|sp|P56514.1|OPSD_BUFBU 84.80 342 51 1 1 341 1 342 0.0 619 +sp|P08100|OPSD_HUMAN gi|283855846|gb|ADB45242.1| 94.82 328 17 0 11 338 1 328 0.0 653 +sp|P08100|OPSD_HUMAN gi|283855823|gb|ADB45229.1| 94.82 328 17 0 11 338 1 328 0.0 631 +sp|P08100|OPSD_HUMAN gi|223523|prf||0811197A 93.10 348 23 1 1 348 1 347 0.0 673 +sp|P08100|OPSD_HUMAN gi|12583665|dbj|BAB21486.1| 82.16 342 60 1 1 341 1 342 3e-176 599 diff -r 10dce68b584b -r 45ba7c750bc8 test-data/blastp_four_human_vs_rhodopsin.xml --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/blastp_four_human_vs_rhodopsin.xml Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,646 @@ + + + + blastp + BLASTP 2.2.25+ + Stephen F. Altschul, Thomas L. Madden, Alejandro A. Schäffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. + + sp|Q9BS26|ERP44_HUMAN + Endoplasmic reticulum resident protein 44 OS=Homo sapiens GN=ERP44 PE=1 SV=1 + 406 + + + BLOSUM62 + 1e-08 + 11 + 1 + F + + + + + 1 + sp|Q9BS26|ERP44_HUMAN + Endoplasmic reticulum resident protein 44 OS=Homo sapiens GN=ERP44 PE=1 SV=1 + 406 + + + + 0 + 0 + 30 + 119568 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 2 + sp|Q9BS26|ERP44_HUMAN + Endoplasmic reticulum resident protein 44 OS=Homo sapiens GN=ERP44 PE=1 SV=1 + 406 + + + + 0 + 0 + 30 + 119568 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 3 + sp|Q9BS26|ERP44_HUMAN + Endoplasmic reticulum resident protein 44 OS=Homo sapiens GN=ERP44 PE=1 SV=1 + 406 + + + + 0 + 0 + 30 + 119568 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 4 + sp|Q9BS26|ERP44_HUMAN + Endoplasmic reticulum resident protein 44 OS=Homo sapiens GN=ERP44 PE=1 SV=1 + 406 + + + + 0 + 0 + 30 + 119568 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 5 + sp|Q9BS26|ERP44_HUMAN + Endoplasmic reticulum resident protein 44 OS=Homo sapiens GN=ERP44 PE=1 SV=1 + 406 + + + + 0 + 0 + 30 + 119568 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 6 + sp|Q9BS26|ERP44_HUMAN + Endoplasmic reticulum resident protein 44 OS=Homo sapiens GN=ERP44 PE=1 SV=1 + 406 + + + + 0 + 0 + 30 + 119568 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 7 + sp|Q9NSY1|BMP2K_HUMAN + BMP-2-inducible protein kinase OS=Homo sapiens GN=BMP2K PE=1 SV=2 + 1161 + + + + 0 + 0 + 38 + 348130 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 8 + sp|Q9NSY1|BMP2K_HUMAN + BMP-2-inducible protein kinase OS=Homo sapiens GN=BMP2K PE=1 SV=2 + 1161 + + + + 0 + 0 + 38 + 348130 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 9 + sp|Q9NSY1|BMP2K_HUMAN + BMP-2-inducible protein kinase OS=Homo sapiens GN=BMP2K PE=1 SV=2 + 1161 + + + + 0 + 0 + 38 + 348130 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 10 + sp|Q9NSY1|BMP2K_HUMAN + BMP-2-inducible protein kinase OS=Homo sapiens GN=BMP2K PE=1 SV=2 + 1161 + + + + 0 + 0 + 38 + 348130 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 11 + sp|Q9NSY1|BMP2K_HUMAN + BMP-2-inducible protein kinase OS=Homo sapiens GN=BMP2K PE=1 SV=2 + 1161 + + + + 0 + 0 + 38 + 348130 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 12 + sp|Q9NSY1|BMP2K_HUMAN + BMP-2-inducible protein kinase OS=Homo sapiens GN=BMP2K PE=1 SV=2 + 1161 + + + + 0 + 0 + 38 + 348130 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 13 + sp|P06213|INSR_HUMAN + Insulin receptor OS=Homo sapiens GN=INSR PE=1 SV=4 + 1382 + + + + 0 + 0 + 39 + 414987 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 14 + sp|P06213|INSR_HUMAN + Insulin receptor OS=Homo sapiens GN=INSR PE=1 SV=4 + 1382 + + + + 0 + 0 + 39 + 414987 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 15 + sp|P06213|INSR_HUMAN + Insulin receptor OS=Homo sapiens GN=INSR PE=1 SV=4 + 1382 + + + + 0 + 0 + 39 + 414987 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 16 + sp|P06213|INSR_HUMAN + Insulin receptor OS=Homo sapiens GN=INSR PE=1 SV=4 + 1382 + + + + 0 + 0 + 39 + 414987 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 17 + sp|P06213|INSR_HUMAN + Insulin receptor OS=Homo sapiens GN=INSR PE=1 SV=4 + 1382 + + + + 0 + 0 + 39 + 414987 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 18 + sp|P06213|INSR_HUMAN + Insulin receptor OS=Homo sapiens GN=INSR PE=1 SV=4 + 1382 + + + + 0 + 0 + 39 + 414987 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 19 + sp|P08100|OPSD_HUMAN + Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 + 348 + + + 1 + gi|57163783|ref|NP_001009242.1| + rhodopsin [Felis catus] + NP_001009242 + 348 + + + 1 + 701.049065538619 + 1808 + 0 + 1 + 348 + 1 + 348 + 0 + 0 + 336 + 343 + 0 + 348 + MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA + MNGTEGPNFYVPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTLPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTTGSKTETSQVAPA + MNGTEGPNFYVPFSN TGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMV GGFT+TLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPL GWSRYIPEG+QCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMI+IFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMT+PAFFAKS++IYNPVIYIMMNKQFRNCMLTT+CCGKNPLGDDEAS T SKTETSQVAPA + + + + + + + 0 + 0 + 29 + 101761 + 0.041 + 0.267 + 0.14 + + + + + 20 + sp|P08100|OPSD_HUMAN + Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 + 348 + + + 1 + gi|3024260|sp|P56514.1|OPSD_BUFBU + RecName: Full=Rhodopsin + P56514 + 354 + + + 1 + 619.001555868222 + 1595 + 0 + 1 + 341 + 1 + 342 + 0 + 0 + 290 + 322 + 1 + 342 + MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEA-SATVSKTE + MNGTEGPNFYIPMSNKTGVVRSPFEYPQYYLAEPWQYSILCAYMFLLILLGFPINFMTLYVTIQHKKLRTPLNYILLNLAFANHFMVLCGFTVTMYSSMNGYFILGATGCYVEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFSENHAVMGVAFTWIMALSCAVPPLLGWSRYIPEGMQCSCGVDYYTLKPEVNNESFVIYMFVVHFTIPLIIIFFCYGRLVCTVKEAAAQQQESATTQKAEKEVTRMVIIMVVFFLICWVPYASVAFFIFSNQGSEFGPIFMTVPAFFAKSSSIYNPVIYIMLNKQFRNCMITTLCCGKNPFGEDDASSAATSKTE + MNGTEGPNFY+P SN TGVVRSPFEYPQYYLAEPWQ+S+L AYMFLLI+LGFPINF+TLYVT+QHKKLRTPLNYILLNLA A+ FMVL GFT T+Y+S++GYF+ G TGC +EGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRF ENHA+MGVAFTW+MAL+CA PPL GWSRYIPEG+QCSCG+DYYTLKPEVNNESFVIYMFVVHFTIP+IIIFFCYG+LV TVKEAAAQQQESATTQKAEKEVTRMVIIMV+ FLICWVPYASVAF+IF++QGS FGPIFMT+PAFFAKS++IYNPVIYIM+NKQFRNCM+TT+CCGKNP G+D+A SA SKTE + + + + + + + 0 + 0 + 29 + 101761 + 0.041 + 0.267 + 0.14 + + + + + 21 + sp|P08100|OPSD_HUMAN + Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 + 348 + + + 1 + gi|283855846|gb|ADB45242.1| + rhodopsin [Cynopterus brachyotis] + ADB45242 + 328 + + + 1 + 653.284318124867 + 1684 + 0 + 11 + 338 + 1 + 328 + 0 + 0 + 311 + 321 + 0 + 328 + VPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVS + VPFSNKTGVVRSPFEHPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGLALTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSNFGPIFMTLPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTTAS + VPFSN TGVVRSPFE+PQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMV GGFT+TLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMG+A TWVMALACAAPPL GWSRYIPEG+QCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMI+IFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICW+PYA VAFYIFTHQGSNFGPIFMT+PAFFAKS++IYNPVIYIMMNKQFRNCMLTT+CCGKNPLGDDEAS T S + + + + + + + 0 + 0 + 29 + 101761 + 0.041 + 0.267 + 0.14 + + + + + 22 + sp|P08100|OPSD_HUMAN + Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 + 348 + + + 1 + gi|283855823|gb|ADB45229.1| + rhodopsin [Myotis pilosus] + ADB45229 + 328 + + + 1 + 631.327942297578 + 1627 + 0 + 11 + 338 + 1 + 328 + 0 + 0 + 311 + 323 + 0 + 328 + VPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVS + VPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVANLFMVFGGFTTTLYTSMHGYFVFGATGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGLAFTWVMALACAAPPLAGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVVAFLICWLPYASVAFYIFTHQGSNFGPVFMTIPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTTAS + VPFSN TGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVA+LFMV GGFT+TLYTS+HGYFVFG TGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMG+AFTWVMALACAAPPLAGWSRYIPEG+QCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMI+IFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMV+AFLICW+PYASVAFYIFTHQGSNFGP+FMTIPAFFAKS++IYNPVIYIMMNKQFRNCMLTT+CCGKNPLGDDEAS T S + + + + + + + 0 + 0 + 29 + 101761 + 0.041 + 0.267 + 0.14 + + + + + 23 + sp|P08100|OPSD_HUMAN + Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 + 348 + + + 1 + gi|223523|prf||0811197A + rhodopsin [Bos taurus] + 0811197A + 347 + + + 1 + 673.314696072569 + 1736 + 0 + 1 + 348 + 1 + 347 + 0 + 0 + 324 + 336 + 1 + 348 + MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA + MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGID-YTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTSAVYNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA + MNGTEGPNFYVPFSN TGVVRSPFE PQYYLAEPWQFSMLAAYMFLLI+LGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMV GGFT+TLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPL GWSRYIPEG+QCSCGID YT E NNESFVIYMFVVHF IP+I+IFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICW+PYA VAFYIFTHQGS+FGPIFMTIPAFFAK++A+YNPVIYIMMNKQFRNCM+TT+CCGKNPLGDDEAS TVSKTETSQVAPA + + + + + + + 0 + 0 + 29 + 101761 + 0.041 + 0.267 + 0.14 + + + + + 24 + sp|P08100|OPSD_HUMAN + Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 + 348 + + + 1 + gi|12583665|dbj|BAB21486.1| + fresh water form rod opsin [Conger myriaster] + BAB21486 + 354 + + + 1 + 599.356377496438 + 1544 + 3.49521227372659e-176 + 1 + 341 + 1 + 342 + 0 + 0 + 281 + 314 + 1 + 342 + MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPL-GDDEASATVSKTE + MNGTEGPNFYIPMSNATGVVRSPFEYPQYYLAEPWAFSALSAYMFFLIIAGFPINFLTLYVTIEHKKLRTPLNYILLNLAVADLFMVFGGFTTTMYTSMHGYFVFGPTGCNIEGFFATLGGEIALWCLVVLAIERWMVVCKPVTNFRFGESHAIMGVMVTWTMALACALPPLFGWSRYIPEGLQCSCGIDYYTRAPGINNESFVIYMFTCHFSIPLAVISFCYGRLVCTVKEAAAQQQESETTQRAEREVTRMVVIMVISFLVCWVPYASVAWYIFTHQGSTFGPIFMTIPSFFAKSSALYNPMIYICMNKQFRHCMITTLCCGKNPFEEEDGASATSSKTE + MNGTEGPNFY+P SNATGVVRSPFEYPQYYLAEPW FS L+AYMF LI+ GFPINFLTLYVT++HKKLRTPLNYILLNLAVADLFMV GGFT+T+YTS+HGYFVFGPTGCN+EGFFATLGGEIALW LVVLAIER++VVCKP++NFRFGE+HAIMGV TW MALACA PPL GWSRYIPEGLQCSCGIDYYT P +NNESFVIYMF HF+IP+ +I FCYG+LV TVKEAAAQQQES TTQ+AE+EVTRMV+IMVI+FL+CWVPYASVA+YIFTHQGS FGPIFMTIP+FFAKS+A+YNP+IYI MNKQFR+CM+TT+CCGKNP +D ASAT SKTE + + + + + + + 0 + 0 + 29 + 101761 + 0.041 + 0.267 + 0.14 + + + + + diff -r 10dce68b584b -r 45ba7c750bc8 test-data/blastp_four_human_vs_rhodopsin_converted.tabular --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/blastp_four_human_vs_rhodopsin_converted.tabular Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,6 @@ +sp|P08100|OPSD_HUMAN gi|57163783|ref|NP_001009242.1| 96.55 348 12 0 1 348 1 348 0.0 701 +sp|P08100|OPSD_HUMAN gi|3024260|sp|P56514.1|OPSD_BUFBU 84.80 342 51 1 1 341 1 342 0.0 619 +sp|P08100|OPSD_HUMAN gi|283855846|gb|ADB45242.1| 94.82 328 17 0 11 338 1 328 0.0 653 +sp|P08100|OPSD_HUMAN gi|283855823|gb|ADB45229.1| 94.82 328 17 0 11 338 1 328 0.0 631 +sp|P08100|OPSD_HUMAN gi|223523|prf||0811197A 93.10 348 23 1 1 348 1 347 0.0 673 +sp|P08100|OPSD_HUMAN gi|12583665|dbj|BAB21486.1| 82.16 342 60 1 1 341 1 342 3e-176 599 diff -r 10dce68b584b -r 45ba7c750bc8 test-data/blastp_four_human_vs_rhodopsin_converted_ext.tabular --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/blastp_four_human_vs_rhodopsin_converted_ext.tabular Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,6 @@ +sp|P08100|OPSD_HUMAN gi|57163783|ref|NP_001009242.1| 96.55 348 12 0 1 348 1 348 0.0 701 gi|57163783|ref|NP_001009242.1| 1808 336 343 0 98.56 1 1 MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA MNGTEGPNFYVPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTLPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTTGSKTETSQVAPA 348 348 +sp|P08100|OPSD_HUMAN gi|3024260|sp|P56514.1|OPSD_BUFBU 84.80 342 51 1 1 341 1 342 0.0 619 gi|3024260|sp|P56514.1|OPSD_BUFBU 1595 290 322 1 94.15 1 1 MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEA-SATVSKTE MNGTEGPNFYIPMSNKTGVVRSPFEYPQYYLAEPWQYSILCAYMFLLILLGFPINFMTLYVTIQHKKLRTPLNYILLNLAFANHFMVLCGFTVTMYSSMNGYFILGATGCYVEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFSENHAVMGVAFTWIMALSCAVPPLLGWSRYIPEGMQCSCGVDYYTLKPEVNNESFVIYMFVVHFTIPLIIIFFCYGRLVCTVKEAAAQQQESATTQKAEKEVTRMVIIMVVFFLICWVPYASVAFFIFSNQGSEFGPIFMTVPAFFAKSSSIYNPVIYIMLNKQFRNCMITTLCCGKNPFGEDDASSAATSKTE 348 354 +sp|P08100|OPSD_HUMAN gi|283855846|gb|ADB45242.1| 94.82 328 17 0 11 338 1 328 0.0 653 gi|283855846|gb|ADB45242.1| 1684 311 321 0 97.87 1 1 VPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVS VPFSNKTGVVRSPFEHPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGLALTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSNFGPIFMTLPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTTAS 348 328 +sp|P08100|OPSD_HUMAN gi|283855823|gb|ADB45229.1| 94.82 328 17 0 11 338 1 328 0.0 631 gi|283855823|gb|ADB45229.1| 1627 311 323 0 98.48 1 1 VPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVS VPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVANLFMVFGGFTTTLYTSMHGYFVFGATGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGLAFTWVMALACAAPPLAGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVVAFLICWLPYASVAFYIFTHQGSNFGPVFMTIPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTTAS 348 328 +sp|P08100|OPSD_HUMAN gi|223523|prf||0811197A 93.10 348 23 1 1 348 1 347 0.0 673 gi|223523|prf||0811197A 1736 324 336 1 96.55 1 1 MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGID-YTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTSAVYNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA 348 347 +sp|P08100|OPSD_HUMAN gi|12583665|dbj|BAB21486.1| 82.16 342 60 1 1 341 1 342 3e-176 599 gi|12583665|dbj|BAB21486.1| 1544 281 314 1 91.81 1 1 MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPL-GDDEASATVSKTE MNGTEGPNFYIPMSNATGVVRSPFEYPQYYLAEPWAFSALSAYMFFLIIAGFPINFLTLYVTIEHKKLRTPLNYILLNLAVADLFMVFGGFTTTMYTSMHGYFVFGPTGCNIEGFFATLGGEIALWCLVVLAIERWMVVCKPVTNFRFGESHAIMGVMVTWTMALACALPPLFGWSRYIPEGLQCSCGIDYYTRAPGINNESFVIYMFTCHFSIPLAVISFCYGRLVCTVKEAAAQQQESETTQRAEREVTRMVVIMVISFLVCWVPYASVAWYIFTHQGSTFGPIFMTIPSFFAKSSALYNPMIYICMNKQFRHCMITTLCCGKNPFEEEDGASATSSKTE 348 354 diff -r 10dce68b584b -r 45ba7c750bc8 test-data/blastp_four_human_vs_rhodopsin_ext.tabular --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/blastp_four_human_vs_rhodopsin_ext.tabular Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,6 @@ +sp|P08100|OPSD_HUMAN gi|57163783|ref|NP_001009242.1| 96.55 348 12 0 1 348 1 348 0.0 701 gi|57163783|ref|NP_001009242.1| 1808 336 343 0 98.56 1 1 MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA MNGTEGPNFYVPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTLPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTTGSKTETSQVAPA 348 348 +sp|P08100|OPSD_HUMAN gi|3024260|sp|P56514.1|OPSD_BUFBU 84.80 342 51 1 1 341 1 342 0.0 619 gi|3024260|sp|P56514.1|OPSD_BUFBU 1595 290 322 1 94.15 1 1 MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEA-SATVSKTE MNGTEGPNFYIPMSNKTGVVRSPFEYPQYYLAEPWQYSILCAYMFLLILLGFPINFMTLYVTIQHKKLRTPLNYILLNLAFANHFMVLCGFTVTMYSSMNGYFILGATGCYVEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFSENHAVMGVAFTWIMALSCAVPPLLGWSRYIPEGMQCSCGVDYYTLKPEVNNESFVIYMFVVHFTIPLIIIFFCYGRLVCTVKEAAAQQQESATTQKAEKEVTRMVIIMVVFFLICWVPYASVAFFIFSNQGSEFGPIFMTVPAFFAKSSSIYNPVIYIMLNKQFRNCMITTLCCGKNPFGEDDASSAATSKTE 348 354 +sp|P08100|OPSD_HUMAN gi|283855846|gb|ADB45242.1| 94.82 328 17 0 11 338 1 328 0.0 653 gi|283855846|gb|ADB45242.1| 1684 311 321 0 97.87 1 1 VPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVS VPFSNKTGVVRSPFEHPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGLALTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSNFGPIFMTLPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTTAS 348 328 +sp|P08100|OPSD_HUMAN gi|283855823|gb|ADB45229.1| 94.82 328 17 0 11 338 1 328 0.0 631 gi|283855823|gb|ADB45229.1| 1627 311 323 0 98.48 1 1 VPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVS VPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVANLFMVFGGFTTTLYTSMHGYFVFGATGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGLAFTWVMALACAAPPLAGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVVAFLICWLPYASVAFYIFTHQGSNFGPVFMTIPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTTAS 348 328 +sp|P08100|OPSD_HUMAN gi|223523|prf||0811197A 93.10 348 23 1 1 348 1 347 0.0 673 gi|223523|prf||0811197A 1736 324 336 1 96.55 1 1 MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGID-YTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTSAVYNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA 348 347 +sp|P08100|OPSD_HUMAN gi|12583665|dbj|BAB21486.1| 82.16 342 60 1 1 341 1 342 3e-176 599 gi|12583665|dbj|BAB21486.1| 1544 281 314 1 91.81 1 1 MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPL-GDDEASATVSKTE MNGTEGPNFYIPMSNATGVVRSPFEYPQYYLAEPWAFSALSAYMFFLIIAGFPINFLTLYVTIEHKKLRTPLNYILLNLAVADLFMVFGGFTTTMYTSMHGYFVFGPTGCNIEGFFATLGGEIALWCLVVLAIERWMVVCKPVTNFRFGESHAIMGVMVTWTMALACALPPLFGWSRYIPEGLQCSCGIDYYTRAPGINNESFVIYMFTCHFSIPLAVISFCYGRLVCTVKEAAAQQQESETTQRAEREVTRMVVIMVISFLVCWVPYASVAWYIFTHQGSTFGPIFMTIPSFFAKSSALYNPMIYICMNKQFRHCMITTLCCGKNPFEEEDGASATSSKTE 348 354 diff -r 10dce68b584b -r 45ba7c750bc8 test-data/blastp_human_vs_pdb_seg_no.xml --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/blastp_human_vs_pdb_seg_no.xml Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,322 @@ + + + + blastp + BLASTP 2.2.24+ + Stephen F. Altschul, Thomas L. Madden, Alejandro A. Schäffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. + /data/blastdb/pdbaa + Query_1 + sp|Q9BS26|ERP44_HUMAN Endoplasmic reticulum resident protein 44 OS=Homo sapiens GN=ERP44 PE=1 SV=1 + 406 + + + BLOSUM62 + 1e-08 + 11 + 1 + F + + + + + 1 + Query_1 + sp|Q9BS26|ERP44_HUMAN Endoplasmic reticulum resident protein 44 OS=Homo sapiens GN=ERP44 PE=1 SV=1 + 406 + + + 1 + gi|193885198|pdb|2R2J|A + Chain A, Crystal Structure Of Human Erp44 + 2R2J_A + 382 + + + 1 + 768.073791748238 + 1982 + 0 + 26 + 406 + 2 + 382 + 0 + 0 + 370 + 372 + 0 + 381 + PVTTEITSLDTENIDEILNNADVALVNFYADWCRFSQMLHPIFEEASDVIKEEFPNENQVVFARVDCDQHSDIAQRYRISKYPTLKLFRNGMMMKREYRGQRSVKALADYIRQQKSDPIQEIRDLAEITTLDRSKRNIIGYFEQKDSDNYRVFERVANILHDDCAFLSAFGDVSKPERYSGDNIIYKPPGHSAPDMVYLGAMTNFDVTYNWIQDKCVPLVREITFENGEELTEEGLPFLILFHMKEDTESLEIFQNEVARQLISEKGTINFLHADCDKFRHPLLHIQKTPADCPVIAIDSFRHMYVFGDFKDVLIPGKLKQFVFDLHSGKLHREFHHGPDPTDTAPGEQAQDVASSPPESSFQKLAPSEYRYTLLRDRDEL + PLGSEITSLDTENIDEILNNADVALVNFYADWCRFSQXLHPIFEEASDVIKEEFPNENQVVFARVDCDQHSDIAQRYRISKYPTLKLFRNGXXXKREYRGQRSVKALADYIRQQKSDPIQEIRDLAEITTLDRSKRNIIGYFEQKDSDNYRVFERVANILHDDCAFLSAFGDVSKPERYSGDNIIYKPPGHSAPDXVYLGAXTNFDVTYNWIQDKCVPLVREITFENGEELTEEGLPFLILFHXKEDTESLEIFQNEVARQLISEKGTINFLHADCDKFRHPLLHIQKTPADCPVIAIDSFRHXYVFGDFKDVLIPGKLKQFVFDLHSGKLHREFHHGPDPTDTAPGEQAQDVASSPPESSFQKLAPSEYRYTLLRDRDEL + P+ +EITSLDTENIDEILNNADVALVNFYADWCRFSQ LHPIFEEASDVIKEEFPNENQVVFARVDCDQHSDIAQRYRISKYPTLKLFRNG KREYRGQRSVKALADYIRQQKSDPIQEIRDLAEITTLDRSKRNIIGYFEQKDSDNYRVFERVANILHDDCAFLSAFGDVSKPERYSGDNIIYKPPGHSAPD VYLGA TNFDVTYNWIQDKCVPLVREITFENGEELTEEGLPFLILFH KEDTESLEIFQNEVARQLISEKGTINFLHADCDKFRHPLLHIQKTPADCPVIAIDSFRH YVFGDFKDVLIPGKLKQFVFDLHSGKLHREFHHGPDPTDTAPGEQAQDVASSPPESSFQKLAPSEYRYTLLRDRDEL + + + + + 2 + gi|88192228|pdb|2B5E|A + Chain A, Crystal Structure Of Yeast Protein Disulfide Isomerase >gi|206581884|pdb|3BOA|A Chain A, Crystal Structure Of Yeast Protein Disulfide Isomerase. + 2B5E_A + 504 + + + 1 + 95.130132620622 + 235 + 4.15033135540548e-20 + 25 + 306 + 10 + 283 + 0 + 0 + 73 + 133 + 24 + 290 + TPVTTEITSLDTENIDEILNNADVALVNFYADWCRFSQMLHPIFEEASDVIKEEFPNENQVVFARVDCDQHSDIAQRYRISKYPTLKLFRNGMMMKR-EYRGQRSVKALADYIRQQKSDPIQEIRDLAEITTLDRSKRNIIGYFEQKDSDNYRVFERVANILHDDCAFLSAFGDVSKPERYSGDNI---IYKPPGHSAPDMVYLGA---MTNFDVTYNWIQDKCVPLVREITFENGEELTEEGLPFLILFHMKEDTESLEIFQNEVARQLISEKGTINFLHADCDKF-RH + APEDSAVVKLATDSFNEYIQSHDLVLAEFFAPWCGHCKNMAPEYVKAAETLVEK-----NITLAQIDCTENQDLCMEHNIPGFPSLKIFKNSDVNNSIDYEGPRTAEAIVQFMIKQSQPAVAVVADLPAYLANETFVTPVIVQSGKIDADFNATFYSMANKHFNDYDFVSA--------ENADDDFKLSIYLPSAMDEP-VVYNGKKADIADADVFEKWLQVEALPYFGEIDGSVFAQYVESGLPLGYLFY--NDEEELEEYKPLFTELAKKNRGLMNFVSIDARKFGRH + P + + L T++ +E + + D+ L F+A WC + + P + +A++ + E+ + A++DC ++ D+ + I +P+LK+F+N + +Y G R+ +A+ ++ +Q + + DL + +I + D+D F +AN +D F+SA + D+ IY P P +VY G + + DV W+Q + +P EI + E GLP LF+ D E LE ++ +G +NF+ D KF RH + + + + + + + 49615 + 11554246 + 0 + 2039204827 + 0.041 + 0.267 + 0.14 + + + + + 2 + Query_2 + sp|Q9NSY1|BMP2K_HUMAN BMP-2-inducible protein kinase OS=Homo sapiens GN=BMP2K PE=1 SV=2 + 1161 + + + 1 + gi|73536291|pdb|2BUJ|A + Chain A, Crystal Structure Of The Human Serine-Threonine Kinase 16 In Complex With Staurosporine >gi|73536292|pdb|2BUJ|B Chain B, Crystal Structure Of The Human Serine-Threonine Kinase 16 In Complex With Staurosporine + 2BUJ_A + 317 + + + 1 + 105.530521170391 + 262 + 1.04156432658542e-22 + 40 + 308 + 21 + 294 + 0 + 0 + 82 + 130 + 15 + 279 + GVRVFAVGRHQVTLEESLAEGGFSTVFLVR-THGGIRCALKRMYVNNMPDLNVCKREITIMKELSGHKNIVGYLDCAVNSISDNVWEVLILMEYCRAGQVVNQMNKKLQTG--FTEPEVLQIFCDTCEAVARLHQCKTPIIHRDLKVENILLNDGGNYVLCDFGSATNKFLNPQKDG-VNVVEEEIKKYTTLSYRAPEMINLYGGKPITTKADIWALGCLLYKLCFFTLPF------GESQVAICDGNFTIPDNSRYSRNIHCLIRFMLEPDPEHRPDI + GHMVIIDNKHYLFIQK-LGEGGFSYVDLVEGLHDGHFYALKRILCHEQQDREEAQREAD-MHRLFNHPNILRLVAYCLRERGAKH-EAWLLLPFFKRGTLWNEIERLKDKGNFLTEDQILWLLLGICRGLEAIH--AKGYAHRDLKPTNILLGDEGQPVLMDLGSMNQACIHVEGSRQALTLQDWAAQRCTISYRAPELFSVQSHCVIDERTDVWSLGCVLYAMMFGEGPYDMVFQKGDSVALAVQNQLSIPQSPRHSSALWQLLNSMMTVDPHQRPHI + G V +H + +++ L EGGFS V LV H G ALKR+ + D +RE M L H NI+ + + E +L+ + + G + N++ + G TE ++L + C + +H HRDLK NILL D G VL D GS ++ + +++ + T+SYRAPE+ ++ I + D+W+LGC+LY + F P+ G+S +IP + R+S + L+ M+ DP RP I + + + + + 2 + gi|270346335|pdb|2WQM|A + Chain A, Structure Of Apo Human Nek7 >gi|270346336|pdb|2WQN|A Chain A, Structure Of Adp-Bound Human Nek7 + 2WQM_A + 310 + + + 1 + 86.2705423745229 + 212 + 6.48475818195287e-17 + 53 + 311 + 36 + 288 + 0 + 0 + 74 + 129 + 32 + 272 + LEESLAEGGFSTVFLVRTH-GGIRCALKRMYVNNMPDLNV---CKREITIMKELSGHKNIVGYLDCAVNSISDNVWEVLILMEYCRAGQVVNQMN--KKLQTGFTEPEVLQIFCDTCEAVARLHQCKTPIIHRDLKVENILLNDGGNYVLCDFGSATNKFLNPQKDGVNVVEEEIKKYTTLSYRAPEMINLYGGKPITTKADIWALGCLLYKLCFFTLPFGESQV---AICD----GNFTIPDNSRYSRNIHCLIRFMLEPDPEHRPDIFQV + IEKKIGRGQFSEVYRAACLLDGVPVALKKVQIFDLMDAKARADCIKEIDLLKQLN-HPNVIKYY---ASFIEDN--ELNIVLELADAGDLSRMIKHFKKQKRLIPERTVWKYFVQLCSALEHMHSRR--VMHRDIKPANVFITATGVVKLGDLG--LGRFFSSKTTAAHSL------VGTPYYMSPERIHENG---YNFKSDIWSLGCLLYEMAALQSPFYGDKMNLYSLCKKIEQCDYPPLPSDHYSEELRQLVNMCINPDPEKRPDVTYV + +E+ + G FS V+ G+ ALK++ + ++ D C +EI ++K+L+ H N++ Y + I DN E+ I++E AG + + KK + E V + F C A+ +H + ++HRD+K N+ + G L D G +F + + + + T Y +PE I+ G K+DIW+LGCLLY++ PF ++ ++C ++ + YS + L+ + PDPE RPD+ V + + + + + + + 49615 + 11554246 + 0 + 6524204778 + 0.041 + 0.267 + 0.14 + + + + + 3 + Query_3 + sp|P06213|INSR_HUMAN Insulin receptor OS=Homo sapiens GN=INSR PE=1 SV=4 + 1382 + + + 1 + gi|116667097|pdb|2DTG|E + Chain E, Insulin Receptor (Ir) Ectodomain In Complex With Fab's + 2DTG_E + 897 + + + 1 + 1846.24740474091 + 4781 + 0 + 28 + 955 + 1 + 897 + 0 + 0 + 890 + 893 + 31 + 928 + HLYPGEVCPGMDIRNNLTRLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFPNLTVIRGSRLFFNYALVIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDWSRILDSVEDNYIVLNKDDNEECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTICKSHGCTAEGLCCHSECLGNCSQPDDPTKCVACRNFYLDGRCVETCPPPYYHFQDWRCVNFSFCQDLHHKCKNSRRQGCHQYVIHNNKCIPECPSGYTMNSSNLLCTPCLGPCPKVCHLLEGEKTIDSVTSAQELRGCTVINGSLIINIRGGNNLAAELEANLGLIEEISGYLKIRRSYALVSLSFFRKLRLIRGETLEIGNYSFYALDNQNLRQLWDWSKHNLTITQGKLFFHYNPKLCLSEIHKMEEVSGTKGRQERNDIALKTNGDQASCENELLKFSYIRTSFDKILLRWEPYWPPDFRDLLGFMLFYKEAPYQNVTEFDGQDACGSNSWTVVDIDPPLRSNDPKSQNHPGWLMRGLKPWTQYAIFVKTLVTFSDERRTYGAKSDIIYVQTDATNPSVPLDPISVSNSSSQIILKWKPPSDPNGNITHYLVFWERQAEDSELFELDYCLKGLKLPSRTWSPPFESEDSQKHNQSEYEDSAGECCSCPKTDSQILKELEESSFRKTFEDYLHNVVFVPRKTSSGTGAEDPRPSRKRRSLGDVGNVTVAVPTVAAFPNTSSTSVPTSPEEHRPFEKVVNKESLVISGLRHFTGYRIELQACNQDTPEERCSVAAYVSARTMPEAKADDIVGPVTHEIFENNVVHLMWQEPKEPNGLIVLYEVSYRRYGDEELHLCVSRKHFALERGCRLRGLSPGNYSVRIRATSLAGNGSWTEPTYFYVTDYLDVPSNIA + HLYPGEVCPGMDIRNNLTRLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFPNLTVIRGSRLFFNYALVIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDWSRILDSVEDNHIVLNKDDNEECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTICKSHGCTAEGLCCHSECLGNCSQPDDPTKCVACRNFYLDGRCVETCPPPYYHFQDWRCVNFSFCQDLHHKCKNSRRQGCHQYVIHNNKCIPECPSGYTMNSSNLLCTPCLGPCPKVCHLLEGEKTIDSVTSAQELRGCTVINGSLIINIRGGNNLAAELEANLGLIEEISGYLKIRRSYALVSLSFFRKLRLIRGETLEIGNYSFYALDNQNLRQLWDWSKHNLTITQGKLFFHYNPKLCLSEIHKMEEVSGTKGRQERNDIALKTNGDQASCENELLKFSYIRTSFDKILLRWEPYWPPDFRDLLGFMLFYKEAPYQNVTEFDGQDACGSNSWTVVDIDPPLRSNDPKSQNHPGWLMRGLKPWTQYAIFVKTLVTFSDERRTYGAKSDIIYVQTDATNPSVPLDPISVSNSSSQIILKWKPPSDPNGNITHYLVFWERQAEDSELFELDYCLKGLKLPSRTWSPPFESEDSQKHNQSEYEDSAGECCSCPKTDSQILKELEESSFRKTFEDYLHNVVFV------------PRPSRKRRSLGDVGNA-------------------GNNEEHRPFEKVVNKESLVISGLRHFTGYRIELQACNQDTPEERCSVAAYVSARTMPEAKADDIVGPVTHEIFENNVVHLMWQEPKEPNGLIVLYEVSYRRYGDEELHLCDTRKHFALERGCRLRGLSPGNYSVRIRATSLAGNGSWTEPTYFYVTDYLDVPSNIA + HLYPGEVCPGMDIRNNLTRLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFPNLTVIRGSRLFFNYALVIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDWSRILDSVEDN+IVLNKDDNEECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTICKSHGCTAEGLCCHSECLGNCSQPDDPTKCVACRNFYLDGRCVETCPPPYYHFQDWRCVNFSFCQDLHHKCKNSRRQGCHQYVIHNNKCIPECPSGYTMNSSNLLCTPCLGPCPKVCHLLEGEKTIDSVTSAQELRGCTVINGSLIINIRGGNNLAAELEANLGLIEEISGYLKIRRSYALVSLSFFRKLRLIRGETLEIGNYSFYALDNQNLRQLWDWSKHNLTITQGKLFFHYNPKLCLSEIHKMEEVSGTKGRQERNDIALKTNGDQASCENELLKFSYIRTSFDKILLRWEPYWPPDFRDLLGFMLFYKEAPYQNVTEFDGQDACGSNSWTVVDIDPPLRSNDPKSQNHPGWLMRGLKPWTQYAIFVKTLVTFSDERRTYGAKSDIIYVQTDATNPSVPLDPISVSNSSSQIILKWKPPSDPNGNITHYLVFWERQAEDSELFELDYCLKGLKLPSRTWSPPFESEDSQKHNQSEYEDSAGECCSCPKTDSQILKELEESSFRKTFEDYLHNVVFV PRPSRKRRSLGDVGN + EEHRPFEKVVNKESLVISGLRHFTGYRIELQACNQDTPEERCSVAAYVSARTMPEAKADDIVGPVTHEIFENNVVHLMWQEPKEPNGLIVLYEVSYRRYGDEELHLC +RKHFALERGCRLRGLSPGNYSVRIRATSLAGNGSWTEPTYFYVTDYLDVPSNIA + + + + + 2 + gi|114794482|pdb|2HR7|A + Chain A, Insulin Receptor (Domains 1-3) >gi|114794483|pdb|2HR7|B Chain B, Insulin Receptor (Domains 1-3) + 2HR7_A + 486 + + + 1 + 1016.91271779085 + 2628 + 0 + 28 + 512 + 1 + 485 + 0 + 0 + 483 + 485 + 0 + 485 + HLYPGEVCPGMDIRNNLTRLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFPNLTVIRGSRLFFNYALVIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDWSRILDSVEDNYIVLNKDDNEECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTICKSHGCTAEGLCCHSECLGNCSQPDDPTKCVACRNFYLDGRCVETCPPPYYHFQDWRCVNFSFCQDLHHKCKNSRRQGCHQYVIHNNKCIPECPSGYTMNSSNLLCTPCLGPCPKVCHLLEGEKTIDSVTSAQELRGCTVINGSLIINIRGGNNLAAELEANLGLIEEISGYLKIRRSYALVSLSFFRKLRLIRGETLEIGNYSFYALDNQNLRQLWDWSKHNLTITQGKLFFHYNPKLCLSEIHKMEEVSGTKGRQERNDIALKTNGDQASCENELLKFSYIRTSFDKI + HLYPGEVCPGMDIRNNLTRLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFPNLTVIRGSRLFFNYALVIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDWSRILDSVEDNHIVLNKDDNEECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTICKSHGCTAEGLCCHSECLGNCSQPDDPTKCVACRNFYLDGRCVETCPPPYYHFQDWRCVNFSFCQDLHHKCKNSRRQGCHQYVIHNNKCIPECPSGYTMNSSNLLCTPCLGPCPKVCHLLEGEKTIDSVTSAQELRGCTVINGSLIINIRGGNNLAAELEANLGLIEEISGYLKIRRSYALVSLSFFRKLRLIRGETLEIGNYSFYALDNQNLRQLWDWSKHNLTITQGKLFFHYNPKLCLSEIHKMEEVSGTKGRQERNDIALKTNGDKASCENELLKFSYIRTSFDKI + HLYPGEVCPGMDIRNNLTRLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFPNLTVIRGSRLFFNYALVIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDWSRILDSVEDN+IVLNKDDNEECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTICKSHGCTAEGLCCHSECLGNCSQPDDPTKCVACRNFYLDGRCVETCPPPYYHFQDWRCVNFSFCQDLHHKCKNSRRQGCHQYVIHNNKCIPECPSGYTMNSSNLLCTPCLGPCPKVCHLLEGEKTIDSVTSAQELRGCTVINGSLIINIRGGNNLAAELEANLGLIEEISGYLKIRRSYALVSLSFFRKLRLIRGETLEIGNYSFYALDNQNLRQLWDWSKHNLTITQGKLFFHYNPKLCLSEIHKMEEVSGTKGRQERNDIALKTNGD+ASCENELLKFSYIRTSFDKI + + + + + + + 49615 + 11554246 + 0 + 7824126603 + 0.041 + 0.267 + 0.14 + + + + + 4 + Query_4 + sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 + 348 + + + 1 + gi|16975387|pdb|1JFP|A + Chain A, Structure Of Bovine Rhodopsin (Dark Adapted) >gi|22219255|pdb|1LN6|A Chain A, Structure Of Bovine Rhodopsin (Metarhodopsin Ii) >gi|157878065|pdb|1GZM|A Chain A, Structure Of Bovine Rhodopsin In A Trigonal Crystal Form >gi|157878066|pdb|1GZM|B Chain B, Structure Of Bovine Rhodopsin In A Trigonal Crystal Form >gi|157878298|pdb|1HZX|A Chain A, Crystal Structure Of Bovine Rhodopsin >gi|157878299|pdb|1HZX|B Chain B, Crystal Structure Of Bovine Rhodopsin >gi|157878979|pdb|1L9H|A Chain A, Crystal Structure Of Bovine Rhodopsin At 2.6 Angstroms Resolution >gi|157878980|pdb|1L9H|B Chain B, Crystal Structure Of Bovine Rhodopsin At 2.6 Angstroms Resolution >gi|157880263|pdb|1U19|A Chain A, Crystal Structure Of Bovine Rhodopsin At 2.2 Angstroms Resolution >gi|157880264|pdb|1U19|B Chain B, Crystal Structure Of Bovine Rhodopsin At 2.2 Angstroms Resolution >gi|157883606|pdb|2G87|A Chain A, Crystallographic Model Of Bathorhodopsin >gi|157883607|pdb|2G87|B Chain B, Crystallographic Model Of Bathorhodopsin >gi|157883830|pdb|2HPY|A Chain A, Crystallographic Model Of Lumirhodopsin >gi|157883831|pdb|2HPY|B Chain B, Crystallographic Model Of Lumirhodopsin >gi|157883860|pdb|2I35|A Chain A, Crystal Structure Of Rhombohedral Crystal Form Of Ground- State Rhodopsin >gi|157883861|pdb|2I36|A Chain A, Crystal Structure Of Trigonal Crystal Form Of Ground-State Rhodopsin >gi|157883862|pdb|2I36|B Chain B, Crystal Structure Of Trigonal Crystal Form Of Ground-State Rhodopsin >gi|157883863|pdb|2I36|C Chain C, Crystal Structure Of Trigonal Crystal Form Of Ground-State Rhodopsin >gi|157883864|pdb|2I37|A Chain A, Crystal Structure Of A Photoactivated Rhodopsin >gi|157883865|pdb|2I37|B Chain B, Crystal Structure Of A Photoactivated Rhodopsin >gi|157883866|pdb|2I37|C Chain C, Crystal Structure Of A Photoactivated Rhodopsin >gi|159795066|pdb|2PED|A Chain A, Crystallographic Model Of 9-Cis-Rhodopsin >gi|159795067|pdb|2PED|B Chain B, Crystallographic Model Of 9-Cis-Rhodopsin >gi|192988480|pdb|3CAP|A Chain A, Crystal Structure Of Native Opsin: The G Protein-Coupled Receptor Rhodopsin In Its Ligand-Free State >gi|192988481|pdb|3CAP|B Chain B, Crystal Structure Of Native Opsin: The G Protein-Coupled Receptor Rhodopsin In Its Ligand-Free State >gi|195927457|pdb|3C9L|A Chain A, Structure Of Ground-State Bovine Rhodospin In A Hexagonal Crystal Form >gi|197107530|pdb|1F88|A Chain A, Crystal Structure Of Bovine Rhodopsin >gi|197107531|pdb|1F88|B Chain B, Crystal Structure Of Bovine Rhodopsin >gi|206582030|pdb|3DQB|A Chain A, Crystal Structure Of The Active G-Protein-Coupled Receptor Opsin In Complex With A C-Terminal Peptide Derived From The Galpha Subunit Of Transducin + 1JFP_A + 348 + + + 1 + 681.018687590916 + 1756 + 0 + 1 + 348 + 1 + 348 + 0 + 0 + 325 + 337 + 0 + 348 + MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA + MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTSAVYNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA + MNGTEGPNFYVPFSN TGVVRSPFE PQYYLAEPWQFSMLAAYMFLLI+LGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMV GGFT+TLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPL GWSRYIPEG+QCSCGIDYYT E NNESFVIYMFVVHF IP+I+IFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICW+PYA VAFYIFTHQGS+FGPIFMTIPAFFAK++A+YNPVIYIMMNKQFRNCM+TT+CCGKNPLGDDEAS TVSKTETSQVAPA + + + + + 2 + gi|195927458|pdb|3C9M|A + Chain A, Structure Of A Mutant Bovine Rhodopsin In Hexagonal Crystal Form + 3C9M_A + 348 + + + 1 + 674.085095224404 + 1738 + 0 + 1 + 348 + 1 + 348 + 0 + 0 + 324 + 335 + 0 + 348 + MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA + MCGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSCFGPIFMTIPAFFAKTSAVYNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA + M GTEGPNFYVPFSN TGVVRSPFE PQYYLAEPWQFSMLAAYMFLLI+LGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMV GGFT+TLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPL GWSRYIPEG+QCSCGIDYYT E NNESFVIYMFVVHF IP+I+IFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICW+PYA VAFYIFTHQGS FGPIFMTIPAFFAK++A+YNPVIYIMMNKQFRNCM+TT+CCGKNPLGDDEAS TVSKTETSQVAPA + + + + + + + 49615 + 11554246 + 0 + 1672994000 + 0.041 + 0.267 + 0.14 + + + + + diff -r 10dce68b584b -r 45ba7c750bc8 test-data/blastp_human_vs_pdb_seg_no_converted_ext.tabular --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/blastp_human_vs_pdb_seg_no_converted_ext.tabular Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,8 @@ +sp|Q9BS26|ERP44_HUMAN gi|193885198|pdb|2R2J|A 97.11 381 11 0 26 406 2 382 0.0 768 gi|193885198|pdb|2R2J|A 1982 370 372 0 97.64 1 1 PVTTEITSLDTENIDEILNNADVALVNFYADWCRFSQMLHPIFEEASDVIKEEFPNENQVVFARVDCDQHSDIAQRYRISKYPTLKLFRNGMMMKREYRGQRSVKALADYIRQQKSDPIQEIRDLAEITTLDRSKRNIIGYFEQKDSDNYRVFERVANILHDDCAFLSAFGDVSKPERYSGDNIIYKPPGHSAPDMVYLGAMTNFDVTYNWIQDKCVPLVREITFENGEELTEEGLPFLILFHMKEDTESLEIFQNEVARQLISEKGTINFLHADCDKFRHPLLHIQKTPADCPVIAIDSFRHMYVFGDFKDVLIPGKLKQFVFDLHSGKLHREFHHGPDPTDTAPGEQAQDVASSPPESSFQKLAPSEYRYTLLRDRDEL PLGSEITSLDTENIDEILNNADVALVNFYADWCRFSQXLHPIFEEASDVIKEEFPNENQVVFARVDCDQHSDIAQRYRISKYPTLKLFRNGXXXKREYRGQRSVKALADYIRQQKSDPIQEIRDLAEITTLDRSKRNIIGYFEQKDSDNYRVFERVANILHDDCAFLSAFGDVSKPERYSGDNIIYKPPGHSAPDXVYLGAXTNFDVTYNWIQDKCVPLVREITFENGEELTEEGLPFLILFHXKEDTESLEIFQNEVARQLISEKGTINFLHADCDKFRHPLLHIQKTPADCPVIAIDSFRHXYVFGDFKDVLIPGKLKQFVFDLHSGKLHREFHHGPDPTDTAPGEQAQDVASSPPESSFQKLAPSEYRYTLLRDRDEL 406 382 +sp|Q9BS26|ERP44_HUMAN gi|88192228|pdb|2B5E|A 25.17 290 193 8 25 306 10 283 4e-20 95.1 gi|88192228|pdb|2B5E|A;gi|206581884|pdb|3BOA|A 235 73 133 24 45.86 1 1 TPVTTEITSLDTENIDEILNNADVALVNFYADWCRFSQMLHPIFEEASDVIKEEFPNENQVVFARVDCDQHSDIAQRYRISKYPTLKLFRNGMMMKR-EYRGQRSVKALADYIRQQKSDPIQEIRDLAEITTLDRSKRNIIGYFEQKDSDNYRVFERVANILHDDCAFLSAFGDVSKPERYSGDNI---IYKPPGHSAPDMVYLGA---MTNFDVTYNWIQDKCVPLVREITFENGEELTEEGLPFLILFHMKEDTESLEIFQNEVARQLISEKGTINFLHADCDKF-RH APEDSAVVKLATDSFNEYIQSHDLVLAEFFAPWCGHCKNMAPEYVKAAETLVEK-----NITLAQIDCTENQDLCMEHNIPGFPSLKIFKNSDVNNSIDYEGPRTAEAIVQFMIKQSQPAVAVVADLPAYLANETFVTPVIVQSGKIDADFNATFYSMANKHFNDYDFVSA--------ENADDDFKLSIYLPSAMDEP-VVYNGKKADIADADVFEKWLQVEALPYFGEIDGSVFAQYVESGLPLGYLFY--NDEEELEEYKPLFTELAKKNRGLMNFVSIDARKFGRH 406 504 +sp|Q9NSY1|BMP2K_HUMAN gi|73536291|pdb|2BUJ|A 29.39 279 182 8 40 308 21 294 1e-22 105 gi|73536291|pdb|2BUJ|A;gi|73536292|pdb|2BUJ|B 262 82 130 15 46.59 1 1 GVRVFAVGRHQVTLEESLAEGGFSTVFLVR-THGGIRCALKRMYVNNMPDLNVCKREITIMKELSGHKNIVGYLDCAVNSISDNVWEVLILMEYCRAGQVVNQMNKKLQTG--FTEPEVLQIFCDTCEAVARLHQCKTPIIHRDLKVENILLNDGGNYVLCDFGSATNKFLNPQKDG-VNVVEEEIKKYTTLSYRAPEMINLYGGKPITTKADIWALGCLLYKLCFFTLPF------GESQVAICDGNFTIPDNSRYSRNIHCLIRFMLEPDPEHRPDI GHMVIIDNKHYLFIQK-LGEGGFSYVDLVEGLHDGHFYALKRILCHEQQDREEAQREAD-MHRLFNHPNILRLVAYCLRERGAKH-EAWLLLPFFKRGTLWNEIERLKDKGNFLTEDQILWLLLGICRGLEAIH--AKGYAHRDLKPTNILLGDEGQPVLMDLGSMNQACIHVEGSRQALTLQDWAAQRCTISYRAPELFSVQSHCVIDERTDVWSLGCVLYAMMFGEGPYDMVFQKGDSVALAVQNQLSIPQSPRHSSALWQLLNSMMTVDPHQRPHI 1161 317 +sp|Q9NSY1|BMP2K_HUMAN gi|270346335|pdb|2WQM|A 27.21 272 166 12 53 311 36 288 6e-17 86.3 gi|270346335|pdb|2WQM|A;gi|270346336|pdb|2WQN|A 212 74 129 32 47.43 1 1 LEESLAEGGFSTVFLVRTH-GGIRCALKRMYVNNMPDLNV---CKREITIMKELSGHKNIVGYLDCAVNSISDNVWEVLILMEYCRAGQVVNQMN--KKLQTGFTEPEVLQIFCDTCEAVARLHQCKTPIIHRDLKVENILLNDGGNYVLCDFGSATNKFLNPQKDGVNVVEEEIKKYTTLSYRAPEMINLYGGKPITTKADIWALGCLLYKLCFFTLPFGESQV---AICD----GNFTIPDNSRYSRNIHCLIRFMLEPDPEHRPDIFQV IEKKIGRGQFSEVYRAACLLDGVPVALKKVQIFDLMDAKARADCIKEIDLLKQLN-HPNVIKYY---ASFIEDN--ELNIVLELADAGDLSRMIKHFKKQKRLIPERTVWKYFVQLCSALEHMHSRR--VMHRDIKPANVFITATGVVKLGDLG--LGRFFSSKTTAAHSL------VGTPYYMSPERIHENG---YNFKSDIWSLGCLLYEMAALQSPFYGDKMNLYSLCKKIEQCDYPPLPSDHYSEELRQLVNMCINPDPEKRPDVTYV 1161 310 +sp|P06213|INSR_HUMAN gi|116667097|pdb|2DTG|E 95.91 928 7 2 28 955 1 897 0.0 1846 gi|116667097|pdb|2DTG|E 4781 890 893 31 96.23 1 1 HLYPGEVCPGMDIRNNLTRLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFPNLTVIRGSRLFFNYALVIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDWSRILDSVEDNYIVLNKDDNEECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTICKSHGCTAEGLCCHSECLGNCSQPDDPTKCVACRNFYLDGRCVETCPPPYYHFQDWRCVNFSFCQDLHHKCKNSRRQGCHQYVIHNNKCIPECPSGYTMNSSNLLCTPCLGPCPKVCHLLEGEKTIDSVTSAQELRGCTVINGSLIINIRGGNNLAAELEANLGLIEEISGYLKIRRSYALVSLSFFRKLRLIRGETLEIGNYSFYALDNQNLRQLWDWSKHNLTITQGKLFFHYNPKLCLSEIHKMEEVSGTKGRQERNDIALKTNGDQASCENELLKFSYIRTSFDKILLRWEPYWPPDFRDLLGFMLFYKEAPYQNVTEFDGQDACGSNSWTVVDIDPPLRSNDPKSQNHPGWLMRGLKPWTQYAIFVKTLVTFSDERRTYGAKSDIIYVQTDATNPSVPLDPISVSNSSSQIILKWKPPSDPNGNITHYLVFWERQAEDSELFELDYCLKGLKLPSRTWSPPFESEDSQKHNQSEYEDSAGECCSCPKTDSQILKELEESSFRKTFEDYLHNVVFVPRKTSSGTGAEDPRPSRKRRSLGDVGNVTVAVPTVAAFPNTSSTSVPTSPEEHRPFEKVVNKESLVISGLRHFTGYRIELQACNQDTPEERCSVAAYVSARTMPEAKADDIVGPVTHEIFENNVVHLMWQEPKEPNGLIVLYEVSYRRYGDEELHLCVSRKHFALERGCRLRGLSPGNYSVRIRATSLAGNGSWTEPTYFYVTDYLDVPSNIA HLYPGEVCPGMDIRNNLTRLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFPNLTVIRGSRLFFNYALVIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDWSRILDSVEDNHIVLNKDDNEECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTICKSHGCTAEGLCCHSECLGNCSQPDDPTKCVACRNFYLDGRCVETCPPPYYHFQDWRCVNFSFCQDLHHKCKNSRRQGCHQYVIHNNKCIPECPSGYTMNSSNLLCTPCLGPCPKVCHLLEGEKTIDSVTSAQELRGCTVINGSLIINIRGGNNLAAELEANLGLIEEISGYLKIRRSYALVSLSFFRKLRLIRGETLEIGNYSFYALDNQNLRQLWDWSKHNLTITQGKLFFHYNPKLCLSEIHKMEEVSGTKGRQERNDIALKTNGDQASCENELLKFSYIRTSFDKILLRWEPYWPPDFRDLLGFMLFYKEAPYQNVTEFDGQDACGSNSWTVVDIDPPLRSNDPKSQNHPGWLMRGLKPWTQYAIFVKTLVTFSDERRTYGAKSDIIYVQTDATNPSVPLDPISVSNSSSQIILKWKPPSDPNGNITHYLVFWERQAEDSELFELDYCLKGLKLPSRTWSPPFESEDSQKHNQSEYEDSAGECCSCPKTDSQILKELEESSFRKTFEDYLHNVVFV------------PRPSRKRRSLGDVGNA-------------------GNNEEHRPFEKVVNKESLVISGLRHFTGYRIELQACNQDTPEERCSVAAYVSARTMPEAKADDIVGPVTHEIFENNVVHLMWQEPKEPNGLIVLYEVSYRRYGDEELHLCDTRKHFALERGCRLRGLSPGNYSVRIRATSLAGNGSWTEPTYFYVTDYLDVPSNIA 1382 897 +sp|P06213|INSR_HUMAN gi|114794482|pdb|2HR7|A 99.59 485 2 0 28 512 1 485 0.0 1016 gi|114794482|pdb|2HR7|A;gi|114794483|pdb|2HR7|B 2628 483 485 0 100.00 1 1 HLYPGEVCPGMDIRNNLTRLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFPNLTVIRGSRLFFNYALVIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDWSRILDSVEDNYIVLNKDDNEECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTICKSHGCTAEGLCCHSECLGNCSQPDDPTKCVACRNFYLDGRCVETCPPPYYHFQDWRCVNFSFCQDLHHKCKNSRRQGCHQYVIHNNKCIPECPSGYTMNSSNLLCTPCLGPCPKVCHLLEGEKTIDSVTSAQELRGCTVINGSLIINIRGGNNLAAELEANLGLIEEISGYLKIRRSYALVSLSFFRKLRLIRGETLEIGNYSFYALDNQNLRQLWDWSKHNLTITQGKLFFHYNPKLCLSEIHKMEEVSGTKGRQERNDIALKTNGDQASCENELLKFSYIRTSFDKI HLYPGEVCPGMDIRNNLTRLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFPNLTVIRGSRLFFNYALVIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDWSRILDSVEDNHIVLNKDDNEECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTICKSHGCTAEGLCCHSECLGNCSQPDDPTKCVACRNFYLDGRCVETCPPPYYHFQDWRCVNFSFCQDLHHKCKNSRRQGCHQYVIHNNKCIPECPSGYTMNSSNLLCTPCLGPCPKVCHLLEGEKTIDSVTSAQELRGCTVINGSLIINIRGGNNLAAELEANLGLIEEISGYLKIRRSYALVSLSFFRKLRLIRGETLEIGNYSFYALDNQNLRQLWDWSKHNLTITQGKLFFHYNPKLCLSEIHKMEEVSGTKGRQERNDIALKTNGDKASCENELLKFSYIRTSFDKI 1382 486 +sp|P08100|OPSD_HUMAN gi|16975387|pdb|1JFP|A 93.39 348 23 0 1 348 1 348 0.0 681 gi|16975387|pdb|1JFP|A;gi|22219255|pdb|1LN6|A;gi|157878065|pdb|1GZM|A;gi|157878066|pdb|1GZM|B;gi|157878298|pdb|1HZX|A;gi|157878299|pdb|1HZX|B;gi|157878979|pdb|1L9H|A;gi|157878980|pdb|1L9H|B;gi|157880263|pdb|1U19|A;gi|157880264|pdb|1U19|B;gi|157883606|pdb|2G87|A;gi|157883607|pdb|2G87|B;gi|157883830|pdb|2HPY|A;gi|157883831|pdb|2HPY|B;gi|157883860|pdb|2I35|A;gi|157883861|pdb|2I36|A;gi|157883862|pdb|2I36|B;gi|157883863|pdb|2I36|C;gi|157883864|pdb|2I37|A;gi|157883865|pdb|2I37|B;gi|157883866|pdb|2I37|C;gi|159795066|pdb|2PED|A;gi|159795067|pdb|2PED|B;gi|192988480|pdb|3CAP|A;gi|192988481|pdb|3CAP|B;gi|195927457|pdb|3C9L|A;gi|197107530|pdb|1F88|A;gi|197107531|pdb|1F88|B;gi|206582030|pdb|3DQB|A 1756 325 337 0 96.84 1 1 MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTSAVYNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA 348 348 +sp|P08100|OPSD_HUMAN gi|195927458|pdb|3C9M|A 93.10 348 24 0 1 348 1 348 0.0 674 gi|195927458|pdb|3C9M|A 1738 324 335 0 96.26 1 1 MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA MCGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSCFGPIFMTIPAFFAKTSAVYNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA 348 348 diff -r 10dce68b584b -r 45ba7c750bc8 test-data/blastp_human_vs_pdb_seg_no_converted_std.tabular --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/blastp_human_vs_pdb_seg_no_converted_std.tabular Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,8 @@ +sp|Q9BS26|ERP44_HUMAN gi|193885198|pdb|2R2J|A 97.11 381 11 0 26 406 2 382 0.0 768 +sp|Q9BS26|ERP44_HUMAN gi|88192228|pdb|2B5E|A 25.17 290 193 8 25 306 10 283 4e-20 95.1 +sp|Q9NSY1|BMP2K_HUMAN gi|73536291|pdb|2BUJ|A 29.39 279 182 8 40 308 21 294 1e-22 105 +sp|Q9NSY1|BMP2K_HUMAN gi|270346335|pdb|2WQM|A 27.21 272 166 12 53 311 36 288 6e-17 86.3 +sp|P06213|INSR_HUMAN gi|116667097|pdb|2DTG|E 95.91 928 7 2 28 955 1 897 0.0 1846 +sp|P06213|INSR_HUMAN gi|114794482|pdb|2HR7|A 99.59 485 2 0 28 512 1 485 0.0 1016 +sp|P08100|OPSD_HUMAN gi|16975387|pdb|1JFP|A 93.39 348 23 0 1 348 1 348 0.0 681 +sp|P08100|OPSD_HUMAN gi|195927458|pdb|3C9M|A 93.10 348 24 0 1 348 1 348 0.0 674 diff -r 10dce68b584b -r 45ba7c750bc8 test-data/blastp_rhodopsin_vs_four_human.tabular --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/blastp_rhodopsin_vs_four_human.tabular Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,6 @@ +gi|57163783|ref|NP_001009242.1| sp|P08100|OPSD_HUMAN 96.55 348 12 0 1 348 1 348 0.0 679 +gi|3024260|sp|P56514.1|OPSD_BUFBU sp|P08100|OPSD_HUMAN 83.33 354 53 2 1 354 1 348 6e-178 605 +gi|283855846|gb|ADB45242.1| sp|P08100|OPSD_HUMAN 94.82 328 17 0 1 328 11 338 0.0 630 +gi|283855823|gb|ADB45229.1| sp|P08100|OPSD_HUMAN 94.82 328 17 0 1 328 11 338 0.0 630 +gi|223523|prf||0811197A sp|P08100|OPSD_HUMAN 93.10 348 23 1 1 347 1 348 0.0 651 +gi|12583665|dbj|BAB21486.1| sp|P08100|OPSD_HUMAN 81.09 349 65 1 1 349 1 348 2e-172 587 diff -r 10dce68b584b -r 45ba7c750bc8 test-data/blastp_sample.xml --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/blastp_sample.xml Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,293 @@ + + + + blastp + BLASTP 2.2.24+ + Stephen F. Altschul, Thomas L. Madden, Alejandro A. Schäffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. + nr + Query_1 + Sample + 516 + + + BLOSUM62 + 1e-30 + 11 + 1 + F + + + + + 1 + Query_1 + Sample + 516 + + + 1 + gi|119953746|ref|YP_950551.1| + tail tape measure protein [Streptococcus phage SMP] >gi|118430558|gb|ABK91882.1| tail tape measure protein [Streptococcus suis phage SMP] + YP_950551 + 659 + + + 1 + 949.117592429394 + 2452 + 0 + 1 + 516 + 27 + 542 + 0 + 0 + 500 + 500 + 0 + 516 + FHLLNSGGSALSVMFAKLVGIIAGISAPIWXXXXXXXXXXXXXXXXYNTNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVSGAIDWAKGLLGIKS + FHLLNSGGSALSVMFAKLVGIIAGISAPIWAVIGVIAALVAGFVLLYNTNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVSGAIDWAKGLLGIKS + FHLLNSGGSALSVMFAKLVGIIAGISAPIW YNTNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVSGAIDWAKGLLGIKS + + + + + 2 + gi|148986157|ref|ZP_01819143.1| + unknown phage protein [Streptococcus pneumoniae SP3-BS71] >gi|147921871|gb|EDK72998.1| unknown phage protein [Streptococcus pneumoniae SP3-BS71] + ZP_01819143 + 1031 + + + 1 + 174.481245259597 + 441 + 1.54640812741294e-41 + 49 + 300 + 679 + 897 + 0 + 0 + 104 + 148 + 33 + 252 + TNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWS + TNEGFRDAVTTVWNAILEVINAVVSEISNFVMSIFGTVVTWWTENQELIRTSAETVWNAIYTVISTILDILGPLLQAGWDNIQLIITTTWEIIKIVVETAINVVLGVIQAVMQIITGDWSGAWETIKGVFSTVWQAIQSIVQT-------IFSAIQSYISNILNGISGT----VSNIWNSIKDTVSN----------------------VLNAISSTVSSVWEGIKSTISSAINGARDAVSSAIEAIKGLFN + TNE FR V W AI I+ V + +FVM ++G +V WW ENQELIR +AETVWNAI TV+ T++ L P++Q WD I ++TT +IK VV+T + VVLG+I+AVMQ+I GDWSGAWET+KGV T+W+ I+S+VQ IF +++ +I + + GT V IW+ IK TVSN V NAIS+ S++W I +T+ S + + + +E IK +++ + + + + + 3 + gi|77411259|ref|ZP_00787609.1| + tail tape meausure protein [Streptococcus agalactiae CJB111] >gi|77162685|gb|EAO73646.1| tail tape meausure protein [Streptococcus agalactiae CJB111] + ZP_00787609 + 1039 + + + 1 + 165.621655013498 + 418 + 7.61538823982138e-39 + 50 + 310 + 655 + 904 + 0 + 0 + 107 + 158 + 11 + 261 + NEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVF + HEGFRTAVTEIWNAIYAFLSVIIQQISSFVMSIWGTLTTWWTENQQLILNAANTVWTAISTVIQTIMTILGPYLQASWENIKLIITTAWDIIKVVVETAINVVLGIIKAVMQIITGDWSGAWETIKQVVSTVWEAIKSLISIVLSAIAQ-------FISNSWNGIKGTMTNLL----NSIKSVVSNVWNSIKSTISSILSSIGSTVSSVWNGMKATISGVLSGISNTVSSVWNGVKSTITNAINGAKNAVSSAINAIKNLF + +E FRT V W AI + +S ++ + SFVM +WG + WW ENQ+LI A TVW AI TV++T+MT L P +Q +W+ I ++TT ++IK VV+T + VVLGIIKAVMQ+I GDWSGAWET+K V T+WE IKSL+ + + + Q F+ + W+ + GT+ ++ + IK+ VSN ++ I +I++SI +T +VWN + S + + IS TV SV + I + K S+A IK +F + + + + + 4 + gi|76786754|ref|YP_329383.1| + prophage LambdaSa04, tail tape measure protein, TP901 family [Streptococcus agalactiae A909] >gi|76561811|gb|ABA44395.1| prophage LambdaSa04, tail tape measure protein, TP901 family [Streptococcus agalactiae A909] + YP_329383 + 1039 + + + 1 + 159.073262222903 + 401 + 6.55719737745379e-37 + 50 + 310 + 655 + 904 + 0 + 0 + 103 + 156 + 11 + 261 + NEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVF + HEGFRTAVTEIWNAIYAFLTVIIQQISSFVMSIWGTLITWWTENQQLILNATNTVWTAISTVIQTIMTILAPYLQASWENIKLIITTAWDIIKVVVETAINVVLGIIKAVMQIITGDWSGAWETIKQVVSTVWEVIKSLISIVLSAIAQ-------FISNSWNGIKGTMTNLL----NSIKGVVSNVWNGIKSTISSILSSIGSTVSSIWNGMKATISGVLSGISSTVSFVWNGVKSTITNAINGAKNAVSSAINAIKNLF + +E FRT V W AI + ++ ++ + SFVM +WG ++ WW ENQ+LI TVW AI TV++T+MT L P +Q +W+ I ++TT ++IK VV+T + VVLGIIKAVMQ+I GDWSGAWET+K V T+WE IKSL+ + + + Q F+ + W+ + GT+ ++ + IK VSN + I +I++SI +T ++WN + S + + IS+TV V + I + K S+A IK +F + + + + + 5 + gi|153811333|ref|ZP_01964001.1| + hypothetical protein RUMOBE_01725 [Ruminococcus obeum ATCC 29174] >gi|149832460|gb|EDM87544.1| hypothetical protein RUMOBE_01725 [Ruminococcus obeum ATCC 29174] + ZP_01964001 + 1228 + + + 1 + 157.147264343316 + 396 + 2.33083876931167e-36 + 3 + 516 + 573 + 1059 + 0 + 0 + 167 + 247 + 113 + 557 + LLNSGGSALSVMFAKLVGIIAGISAPIWXXXXXXXXXXXXXXXXYNTNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQV---AIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLI-----------KQAISNAWEIIKTKT-----------------------SEIWNAITTFLSGIWEGIKTAASTAWEWIKTT-ISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIEN-IKSTVSNGWNNL---VSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLI-NGFVEGVKGAAGRLIDAVGGAVSGAIDWAKGLLGIKS + LVKAGG--FSGVFTKALGLI---TSPAAIVVGVIAAITAVIIHLWNTNEDFRNTITAIWQKIKDAFTT---------------FAAGISERLSALGITFSDVTSAIKTIWDGFCNLLAPVLEAAFSTIAIALQTAFNVI-----------LGIWDVFSAVFSGDWSGAWEAIKGIFSSIWDGLKEYFSTIIGAVKGVADVF---LGWFGTNWETVWNGVKTFFEGIW--------NGISSFFEGI--------------WNGISTFCTTVWNGIVTNVTAFCTTVHDTISTIFNAVKDVVSNVWETIKNVVQVAIMFIVEVVKAAFELITVPFRFIWENCRDTIISVWETIKSAVQTAINFVKDNIITPVMNAISATITTVWNAIQTTFTTVINAIKSAVQTAWNFMKDNVVTPVMNAISTTISTVWNTIKTTFTTVINAIKSAVQTAWNFMKNSVITPVMNGIKTVITTVWNAIKTAVQTVVNA---IKTTVQTVF-NAVKTTVTTIWNAIKTGTSTAWN----AVKTAVTTPINAAKSAVTSAIN------GIKS + L+ +GG S +F K +G+I ++P +NTNE+FR + A W+ IK A +T A +E + T V +AI+T+ + L P+++ A+ I + T NVI LGI + +GDWSGAWE +KG+ +IW+G+K A+ G+ +F L + + W+TVW + IW N I++ +E I WN IST + +W I T V + TT+ I T +K V S WE IK V ++ IV +V F+LI + I + WE IK+ + +WNAI T + + IK+A TAW ++K ++ VM I + I T WN IKT+ + +N IKSA + AWN +K+++ T + N IK+ ++ WN + V TV NA I + V+T F NAV I NAI G N VK A I+A AV+ AI+ GIKS + + + + + 6 + gi|56962696|ref|YP_174422.1| + hypothetical protein ABC0922 [Bacillus clausii KSM-K16] >gi|56908934|dbj|BAD63461.1| phage-related protein [Bacillus clausii KSM-K16] + YP_174422 + 593 + + + 1 + 146.746875793547 + 369 + 3.12404663750498e-33 + 48 + 433 + 123 + 465 + 0 + 0 + 112 + 187 + 49 + 389 + NTNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGL---VQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSN + QTNETFRNGVIQAWEAIKTTMETVVATIVTFVSEKLAQIKAFWDEHGAAVMQAVTNIFNGIKSIIEPVMNGILAIMQFVWPFIVSLIQMVWGNIQGVISGALNIIMGLVKAFAGLFTGDFS-----------LMWEGIKQLFSGALEAIWNVVQLLLFGR--LLKIASSLFTGLMGVFSKMWGAISNLFLTALNGIRSFFSTIFTPIQ-------NVVMTVMGFIRNAISTG----LTTASNVVQTVLTAIRTVFLTVFNAVRNV-----------VTTAISFVQNFISTGISAARTAVTSALNAIKTTFTTIFNAVRSSVTTAMTNIKTAISN-------GIQSAWQ----AVLNFVGRFREAGKNIVNSIAEGITSAIGAVKNAISN + TNE FR V AWEAIK+ + T V +V+FV + Q+ A+W+E+ + Q ++N I++++E VM ++ I+Q W I++++ V I+ V+ L +++G++KA + GD+S +WEGIK L A++ + VQ+ G L I +++ +M V +W I A+ + I T IQ N + TV I AIST LTT +QT L I+TV+ + ++ V VT ++ IS +T + NAI T + I+ ++++ +TA IKT ISN I++AW ++ N + + A +N N+I I++AI +K+ +SN + + + + + 7 + gi|50914476|ref|YP_060448.1| + unknown phage protein [Streptococcus pyogenes MGAS10394] >gi|40218580|gb|AAR83234.1| prophage pi2 protein [Streptococcus pyogenes] >gi|50261625|gb|AAT72393.1| unknown [Streptococcus pyogenes] >gi|50903550|gb|AAT87265.1| unknown phage protein [Streptococcus pyogenes MGAS10394] + YP_060448 + 1039 + + + 1 + 146.36167621763 + 368 + 4.74132513340056e-33 + 50 + 227 + 655 + 832 + 0 + 0 + 78 + 112 + 0 + 178 + NEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWD + NEGFRTAVIEIWNAIYAFISVIIQEISTFIMTIWGTLTTWWTENQALIQAAVETVWNAISTVIQTVMSLIGPYLEAAWANIQLIITTAWEIIKTVVETAITVVLGIIKAIMQAITGDWSGAWETIKGVLQRVWQAIQQIVTTILSAIGQFISNTWNGIKNTFSNILSAISGIVSSIWN + NE FRT V W AI + IS ++ + +F+M +WG + WW ENQ LI+ ETVWNAI TV++TVM+ + P ++ AW I ++TT +IKTVV+T + VVLGIIKA+MQ I GDWSGAWET+KGV +W+ I+ +V + + Q +K+ + + I +V IW+ + + + + + 8 + gi|29374987|ref|NP_814140.1| + tail protein [Enterococcus faecalis V583] >gi|29342445|gb|AAO80211.1| tail protein [Enterococcus faecalis V583] + NP_814140 + 1049 + + + 1 + 139.0428842752 + 349 + 6.84844401007043e-31 + 73 + 482 + 545 + 920 + 0 + 0 + 110 + 196 + 78 + 432 + EAVVSFVMDLWGQMVAWWNENQELIRQ-------TAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVL----NVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSIS-----------NALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGF + DSIVKTASGLKGSLVKTWNDITAKVSEIWKKFTDAGKKTFDGFKKTVENVFNGIKNFLQTVWNVIYAVVGAIIVNTINIWKGIFDG--------FKAYFQYL-------WDLIKAIATGVWEKIGDTVTGIINGFIGVIKGIFDAFKTFFQQIWDAVVYSVTIAWNGIKNTVTSVSTAIKNFVTPIFNAIKTTITNVFNAIKNTATNVWNAIKTTISNVVQTILNF---------------------------------VTPIFNTMKNTITNIFNAIRNTASSVWNSIKTTISNIVTSVKNTVINIFNALKNSITNIFNAIRNTASTVWNSIKSTVSNIVSATVNTVKNLFNGMKNTVSSIWDGVRNTISNVVNAVKNTISNVWGGITGTVSN----IFNGVKNAIDGPMNAAKNLVKNVV----DAIKGF + +++V L G +V WN+ + + + ++ + VE V + +QT W++I AVV ++ N+ K + D KA Q + W+ +K +A +WE I V I+G + + + K+ + +W ++ V W+ IK TV++ TA+ + I +I+TT V+NAI A+N+W AI TT+ +V+ TI + VT F+ +K I+N + I+ S +WN+I T +S I +K + +K +I+N+ I++ T WN+IK+++S N N +K+ + W+ +++ IS + +K+T+SN W + TV+N I + V+ D +NAA+N + N + D I GF + + + + + 9 + gi|163941333|ref|YP_001646217.1| + prophage LambdaBa01, membrane protein, putative [Bacillus weihenstephanensis KBAB4] >gi|163863530|gb|ABY44589.1| prophage LambdaBa01, membrane protein, putative [Bacillus weihenstephanensis KBAB4] + YP_001646217 + 725 + + + 1 + 138.657684699283 + 348 + 8.15996781441799e-31 + 61 + 480 + 142 + 560 + 0 + 0 + 118 + 203 + 29 + 434 + WEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIK---AVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKT----VWS-------AAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLIN + WDAIKQWTIDAWNAIGEFLVGIWDGIVQWASEAWNSISESTSAVWNSIKEFLIGIWNGIVEFVVT-WGT--AILETYVGIWTSIFNFCMEIWNGIVEYLTSVLQGIATFFTEIWTSISTFFQEIWNGLVAFITPVLQGIADFFAM-----------IWNGISTVIQTVWNFITQYLQAIWTAILYFATPLFESIKNFISECWNKISSTTSLVWETIKNFLVSCWNGLVSFVTPIFEKIKSWIISVWDTISSATMAVWNAVKNFLQACWNGLVSIVTPIFDAIKNWIVNVWNAISSTTSAVWNAIKSYLSSLWNSIVSTASSIFNSIKSAISTVWNMISSASSSVWNGIKSTLSSIWNGIKSTASSVWNGLKDAIMTPVRWVTSAVSGAFNGMKSAVLGVWDGIKSGIRTAINGIIRIINKFI-DGFNTPAELLN + W+AIK A A+ F++ +W +V W +E I ++ VWN+I+ + + ++ V T W A++ T + + ++ + +++ GI++ +V+Q I ++ W ++ IW G+ + + + G+ F +W I V+ +W++I + TA+ + SI+ WN IS+ S +W I ++S + ++ E IK+ VW A W +K A +V +VT FD IK I N W I + TS +WNAI ++LS +W I + AS+ + IK+ IS V I S + WN IK+++S+ N IKS A + WN +K AI T + + S VS +N + S V I S +RT + + FI + + +L+N + + + + + + + 6589360 + -2041834015 + 0 + 504129014857 + 0.041 + 0.267 + 0.14 + + + + + diff -r 10dce68b584b -r 45ba7c750bc8 test-data/blastp_sample_converted.tabular --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/blastp_sample_converted.tabular Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,9 @@ +Sample gi|119953746|ref|YP_950551.1| 96.90 516 16 0 1 516 27 542 0.0 949 +Sample gi|148986157|ref|ZP_01819143.1| 41.27 252 115 3 49 300 679 897 2e-41 174 +Sample gi|77411259|ref|ZP_00787609.1| 41.00 261 143 2 50 310 655 904 8e-39 165 +Sample gi|76786754|ref|YP_329383.1| 39.46 261 147 2 50 310 655 904 7e-37 159 +Sample gi|153811333|ref|ZP_01964001.1| 29.98 557 277 18 3 516 573 1059 2e-36 157 +Sample gi|56962696|ref|YP_174422.1| 28.79 389 228 8 48 433 123 465 3e-33 146 +Sample gi|50914476|ref|YP_060448.1| 43.82 178 100 0 50 227 655 832 5e-33 146 +Sample gi|29374987|ref|NP_814140.1| 25.46 432 244 8 73 482 545 920 7e-31 139 +Sample gi|163941333|ref|YP_001646217.1| 27.19 434 287 7 61 480 142 560 8e-31 138 diff -r 10dce68b584b -r 45ba7c750bc8 test-data/blastx_rhodopsin_vs_four_human.tabular --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/blastx_rhodopsin_vs_four_human.tabular Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,10 @@ +gi|57163782|ref|NM_001009242.1| sp|P08100|OPSD_HUMAN 96.55 348 12 0 1 1044 1 348 0.0 662 +gi|2734705|gb|U59921.1|BBU59921 sp|P08100|OPSD_HUMAN 85.24 332 49 0 42 1037 1 332 1e-168 575 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 96.40 111 4 0 1 333 11 121 2e-62 224 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 92.31 65 5 0 3174 3368 248 312 5e-34 129 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 96.43 56 2 0 2855 3022 177 232 2e-31 120 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 93.22 59 4 0 1404 1580 119 177 1e-30 118 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 92.00 25 2 0 4222 4296 312 336 6e-12 56.2 +gi|283855822|gb|GQ290312.1| sp|P08100|OPSD_HUMAN 95.09 326 16 0 1 978 11 336 2e-180 613 +gi|18148870|dbj|AB062417.1| sp|P08100|OPSD_HUMAN 93.39 348 23 0 1 1044 1 348 0.0 641 +gi|12583664|dbj|AB043817.1| sp|P08100|OPSD_HUMAN 81.93 332 60 0 23 1018 1 332 6e-164 559 diff -r 10dce68b584b -r 45ba7c750bc8 test-data/blastx_rhodopsin_vs_four_human.xml --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/blastx_rhodopsin_vs_four_human.xml Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,722 @@ + + + + blastx + BLASTX 2.2.25+ + Stephen F. Altschul, Thomas L. Madden, Alejandro A. Schäffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. + + Query_1 + gi|57163782|ref|NM_001009242.1| Felis catus rhodopsin (RHO), mRNA + 1047 + + + BLOSUM62 + 1e-10 + 11 + 1 + L; + + + + + 1 + Query_1 + gi|57163782|ref|NM_001009242.1| Felis catus rhodopsin (RHO), mRNA + 1047 + + + + 0 + 0 + 29 + 102080 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 2 + Query_1 + gi|57163782|ref|NM_001009242.1| Felis catus rhodopsin (RHO), mRNA + 1047 + + + + 0 + 0 + 29 + 102080 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 3 + Query_1 + gi|57163782|ref|NM_001009242.1| Felis catus rhodopsin (RHO), mRNA + 1047 + + + + 0 + 0 + 29 + 102080 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 4 + Query_1 + gi|57163782|ref|NM_001009242.1| Felis catus rhodopsin (RHO), mRNA + 1047 + + + 1 + Subject_4 + sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 + Subject_4 + 348 + + + 1 + 662.143908370966 + 1707 + 0 + 1 + 1044 + 1 + 348 + 1 + 0 + 336 + 343 + 0 + 348 + MNGTEGPNFYVPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVXXXXXXXXXXXXXXXXXKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTLPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTTGSKTETSQVAPA + MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA + MNGTEGPNFYVPFSN TGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMV GGFT+TLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPL GWSRYIPEG+QCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMI+IFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMT+PAFFAKS++IYNPVIYIMMNKQFRNCMLTT+CCGKNPLGDDEAS T SKTETSQVAPA + + + + + + + 0 + 0 + 29 + 102080 + 0.041 + 0.267 + 0.14 + + + + + 5 + Query_2 + gi|2734705|gb|U59921.1|BBU59921 Bufo bufo rhodopsin mRNA, complete cds + 1574 + + + + 0 + 0 + 32 + 155472 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 6 + Query_2 + gi|2734705|gb|U59921.1|BBU59921 Bufo bufo rhodopsin mRNA, complete cds + 1574 + + + + 0 + 0 + 32 + 155472 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 7 + Query_2 + gi|2734705|gb|U59921.1|BBU59921 Bufo bufo rhodopsin mRNA, complete cds + 1574 + + + + 0 + 0 + 32 + 155472 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 8 + Query_2 + gi|2734705|gb|U59921.1|BBU59921 Bufo bufo rhodopsin mRNA, complete cds + 1574 + + + 1 + Subject_4 + sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 + Subject_4 + 348 + + + 1 + 575.088804213644 + 1481 + 1.31349806431671e-168 + 42 + 1037 + 1 + 332 + 3 + 0 + 283 + 315 + 0 + 332 + MNGTEGPNFYIPMSNKTGVVRSPFEYPQYYLAEPWQYSILCAYMFLLILLGFPINFMTLYVTIQHKKLRTPLNYILLNLAFANHFMVLCGFTVTMYSSMNGYFILGATGCYVEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFSENHAVMGVAFTWIMALSCAVPPLLGWSRYIPEGMQCSCGVDYYTLKPEVNNESFVIYMFVVHFTIPLIIIFFCYGRLVCTVXXXXXXXXXXXXXXXXXKEVTRMVIIMVVFFLICWVPYASVAFFIFSNQGSEFGPIFMTVPAFFAKSSSIYNPVIYIMLNKQFRNCMITTLCCGKNPFGEDD + MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDE + MNGTEGPNFY+P SN TGVVRSPFEYPQYYLAEPWQ+S+L AYMFLLI+LGFPINF+TLYVT+QHKKLRTPLNYILLNLA A+ FMVL GFT T+Y+S++GYF+ G TGC +EGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRF ENHA+MGVAFTW+MAL+CA PPL GWSRYIPEG+QCSCG+DYYTLKPEVNNESFVIYMFVVHFTIP+IIIFFCYG+LV TVKEAAAQQQESATTQKAEKEVTRMVIIMV+ FLICWVPYASVAF+IF++QGS FGPIFMT+PAFFAKS++IYNPVIYIM+NKQFRNCM+TT+CCGKNP G+D+ + + + + + + + 0 + 0 + 32 + 155472 + 0.041 + 0.267 + 0.14 + + + + + 9 + Query_3 + gi|283855845|gb|GQ290303.1| Cynopterus brachyotis voucher 20020434 rhodopsin (RHO) gene, exons 1 through 5 and partial cds + 4301 + + + + 0 + 0 + 39 + 430746 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 10 + Query_3 + gi|283855845|gb|GQ290303.1| Cynopterus brachyotis voucher 20020434 rhodopsin (RHO) gene, exons 1 through 5 and partial cds + 4301 + + + + 0 + 0 + 39 + 430746 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 11 + Query_3 + gi|283855845|gb|GQ290303.1| Cynopterus brachyotis voucher 20020434 rhodopsin (RHO) gene, exons 1 through 5 and partial cds + 4301 + + + + 0 + 0 + 39 + 430746 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 12 + Query_3 + gi|283855845|gb|GQ290303.1| Cynopterus brachyotis voucher 20020434 rhodopsin (RHO) gene, exons 1 through 5 and partial cds + 4301 + + + 1 + Subject_4 + sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 + Subject_4 + 348 + + + 1 + 224.171990552935 + 570 + 1.57574304751949e-62 + 1 + 333 + 11 + 121 + 1 + 0 + 107 + 109 + 0 + 111 + VPFSNKTGVVRSPFEHPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGG + VPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGG + VPFSN TGVVRSPFE+PQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMV GGFT+TLYTSLHGYFVFGPTGCNLEGFFATLGG + + + 2 + 129.412894877266 + 324 + 5.28220874623366e-34 + 3174 + 3368 + 248 + 312 + 3 + 0 + 60 + 64 + 0 + 65 + KEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSNFGPIFMTLPAFFAKSSSIYNPVIYIMMNKQ + KEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQ + KEVTRMVIIMVIAFLICW+PYA VAFYIFTHQGSNFGPIFMT+PAFFAKS++IYNPVIYIMMNKQ + + + 3 + 120.938504207085 + 302 + 1.87871691987854e-31 + 2855 + 3022 + 177 + 232 + 2 + 0 + 54 + 56 + 0 + 56 + RYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKE + RYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKE + RYIPEG+QCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMI+IFFCYGQLVFTVKE + + + 4 + 118.242107175663 + 295 + 1.21774886471054e-30 + 1404 + 1580 + 119 + 177 + 3 + 0 + 55 + 56 + 0 + 59 + LAGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGLALTWVMALACAAPPLVGWSR + LGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSR + L GEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMG+A TWVMALACAAPPL GWSR + + + 5 + 56.2249754529693 + 134 + 5.68296036241677e-12 + 4222 + 4296 + 312 + 336 + 1 + 0 + 23 + 24 + 0 + 25 + QFRNCMLTTLCCGKNPLGDDEASTT + QFRNCMLTTICCGKNPLGDDEASAT + QFRNCMLTT+CCGKNPLGDDEAS T + + + + + + + 0 + 0 + 39 + 430746 + 0.041 + 0.267 + 0.14 + + + + + 13 + Query_4 + gi|283855822|gb|GQ290312.1| Myotis ricketti voucher GQX10 rhodopsin (RHO) mRNA, partial cds + 983 + + + + 0 + 0 + 28 + 95680 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 14 + Query_4 + gi|283855822|gb|GQ290312.1| Myotis ricketti voucher GQX10 rhodopsin (RHO) mRNA, partial cds + 983 + + + + 0 + 0 + 28 + 95680 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 15 + Query_4 + gi|283855822|gb|GQ290312.1| Myotis ricketti voucher GQX10 rhodopsin (RHO) mRNA, partial cds + 983 + + + + 0 + 0 + 28 + 95680 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 16 + Query_4 + gi|283855822|gb|GQ290312.1| Myotis ricketti voucher GQX10 rhodopsin (RHO) mRNA, partial cds + 983 + + + 1 + Subject_4 + sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 + Subject_4 + 348 + + + 1 + 613.993961381297 + 1582 + 1.57028732393616e-180 + 1 + 978 + 11 + 336 + 1 + 0 + 310 + 322 + 0 + 326 + VPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVANLFMVFGGFTTTLYTSMHGYFVFGATGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGLAFTWVMALACAAPPLAGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVXXXXXXXXXXXXXXXXXKEVTRMVIIMVVAFLICWLPYASVAFYIFTHQGSNFGPVFMTIPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTT + VPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASAT + VPFSN TGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVA+LFMV GGFT+TLYTS+HGYFVFG TGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMG+AFTWVMALACAAPPLAGWSRYIPEG+QCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMI+IFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMV+AFLICW+PYASVAFYIFTHQGSNFGP+FMTIPAFFAKS++IYNPVIYIMMNKQFRNCMLTT+CCGKNPLGDDEAS T + + + + + + + 0 + 0 + 28 + 95680 + 0.041 + 0.267 + 0.14 + + + + + 17 + Query_5 + gi|18148870|dbj|AB062417.1| Synthetic construct Bos taurus gene for rhodopsin, complete cds + 1047 + + + + 0 + 0 + 29 + 102080 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 18 + Query_5 + gi|18148870|dbj|AB062417.1| Synthetic construct Bos taurus gene for rhodopsin, complete cds + 1047 + + + + 0 + 0 + 29 + 102080 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 19 + Query_5 + gi|18148870|dbj|AB062417.1| Synthetic construct Bos taurus gene for rhodopsin, complete cds + 1047 + + + + 0 + 0 + 29 + 102080 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 20 + Query_5 + gi|18148870|dbj|AB062417.1| Synthetic construct Bos taurus gene for rhodopsin, complete cds + 1047 + + + 1 + Subject_4 + sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 + Subject_4 + 348 + + + 1 + 641.728330847346 + 1654 + 0 + 1 + 1044 + 1 + 348 + 1 + 0 + 325 + 337 + 0 + 348 + MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVXXXXXXXXXXXXXXXXXKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTSAVYNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA + MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA + MNGTEGPNFYVPFSN TGVVRSPFE PQYYLAEPWQFSMLAAYMFLLI+LGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMV GGFT+TLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPL GWSRYIPEG+QCSCGIDYYT E NNESFVIYMFVVHF IP+I+IFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICW+PYA VAFYIFTHQGS+FGPIFMTIPAFFAK++A+YNPVIYIMMNKQFRNCM+TT+CCGKNPLGDDEAS TVSKTETSQVAPA + + + + + + + 0 + 0 + 29 + 102080 + 0.041 + 0.267 + 0.14 + + + + + 21 + Query_6 + gi|12583664|dbj|AB043817.1| Conger myriaster conf gene for fresh water form rod opsin, complete cds + 1344 + + + + 0 + 0 + 31 + 132189 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 22 + Query_6 + gi|12583664|dbj|AB043817.1| Conger myriaster conf gene for fresh water form rod opsin, complete cds + 1344 + + + + 0 + 0 + 31 + 132189 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 23 + Query_6 + gi|12583664|dbj|AB043817.1| Conger myriaster conf gene for fresh water form rod opsin, complete cds + 1344 + + + + 0 + 0 + 31 + 132189 + 0.041 + 0.267 + 0.14 + + + No hits found + + + 24 + Query_6 + gi|12583664|dbj|AB043817.1| Conger myriaster conf gene for fresh water form rod opsin, complete cds + 1344 + + + 1 + Subject_4 + sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 + Subject_4 + 348 + + + 1 + 559.295621601033 + 1440 + 6.32632556748138e-164 + 23 + 1018 + 1 + 332 + 2 + 0 + 272 + 307 + 0 + 332 + MNGTEGPNFYIPMSNATGVVRSPFEYPQYYLAEPWAFSALSAYMFFLIIAGFPINFLTLYVTIEHKKLRTPLNYILLNLAVADLFMVFGGFTTTMYTSMHGYFVFGPTGCNIEGFFATLGGEIALWCLVVLAIERWMVVCKPVTNFRFGESHAIMGVMVTWTMALACALPPLFGWSRYIPEGLQCSCGIDYYTRAPGINNESFVIYMFTCHFSIPLAVISFCYGRLVCTVKXXXXXXXXXXXXXXXXXXVTRMVVIMVISFLVCWVPYASVAWYIFTHQGSTFGPIFMTIPSFFAKSSALYNPMIYICMNKQFRHCMITTLCCGKNPFEEED + MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDE + MNGTEGPNFY+P SNATGVVRSPFEYPQYYLAEPW FS L+AYMF LI+ GFPINFLTLYVT++HKKLRTPLNYILLNLAVADLFMV GGFT+T+YTS+HGYFVFGPTGCN+EGFFATLGGEIALW LVVLAIER++VVCKP++NFRFGE+HAIMGV TW MALACA PPL GWSRYIPEGLQCSCGIDYYT P +NNESFVIYMF HF+IP+ +I FCYG+LV TVKEAAAQQQES TTQ+AE+EVTRMV+IMVI+FL+CWVPYASVA+YIFTHQGS FGPIFMTIP+FFAKS+A+YNP+IYI MNKQFR+CM+TT+CCGKNP +++ + + + + + + + 0 + 0 + 31 + 132189 + 0.041 + 0.267 + 0.14 + + + + + diff -r 10dce68b584b -r 45ba7c750bc8 test-data/blastx_rhodopsin_vs_four_human_converted.tabular --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/blastx_rhodopsin_vs_four_human_converted.tabular Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,10 @@ +gi|57163782|ref|NM_001009242.1| sp|P08100|OPSD_HUMAN 96.55 348 12 0 1 1044 1 348 0.0 662 +gi|2734705|gb|U59921.1|BBU59921 sp|P08100|OPSD_HUMAN 85.24 332 49 0 42 1037 1 332 1e-168 575 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 96.40 111 4 0 1 333 11 121 2e-62 224 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 92.31 65 5 0 3174 3368 248 312 5e-34 129 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 96.43 56 2 0 2855 3022 177 232 2e-31 120 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 93.22 59 4 0 1404 1580 119 177 1e-30 118 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 92.00 25 2 0 4222 4296 312 336 6e-12 56.2 +gi|283855822|gb|GQ290312.1| sp|P08100|OPSD_HUMAN 95.09 326 16 0 1 978 11 336 2e-180 613 +gi|18148870|dbj|AB062417.1| sp|P08100|OPSD_HUMAN 93.39 348 23 0 1 1044 1 348 0.0 641 +gi|12583664|dbj|AB043817.1| sp|P08100|OPSD_HUMAN 81.93 332 60 0 23 1018 1 332 6e-164 559 diff -r 10dce68b584b -r 45ba7c750bc8 test-data/blastx_rhodopsin_vs_four_human_converted_ext.tabular --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/blastx_rhodopsin_vs_four_human_converted_ext.tabular Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,10 @@ +gi|57163782|ref|NM_001009242.1| sp|P08100|OPSD_HUMAN 96.55 348 12 0 1 1044 1 348 0.0 662 sp|P08100|OPSD_HUMAN 1707 336 343 0 98.56 1 0 MNGTEGPNFYVPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVXXXXXXXXXXXXXXXXXKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTLPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTTGSKTETSQVAPA MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA 1047 348 +gi|2734705|gb|U59921.1|BBU59921 sp|P08100|OPSD_HUMAN 85.24 332 49 0 42 1037 1 332 1e-168 575 sp|P08100|OPSD_HUMAN 1481 283 315 0 94.88 3 0 MNGTEGPNFYIPMSNKTGVVRSPFEYPQYYLAEPWQYSILCAYMFLLILLGFPINFMTLYVTIQHKKLRTPLNYILLNLAFANHFMVLCGFTVTMYSSMNGYFILGATGCYVEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFSENHAVMGVAFTWIMALSCAVPPLLGWSRYIPEGMQCSCGVDYYTLKPEVNNESFVIYMFVVHFTIPLIIIFFCYGRLVCTVXXXXXXXXXXXXXXXXXKEVTRMVIIMVVFFLICWVPYASVAFFIFSNQGSEFGPIFMTVPAFFAKSSSIYNPVIYIMLNKQFRNCMITTLCCGKNPFGEDD MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDE 1574 348 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 96.40 111 4 0 1 333 11 121 2e-62 224 sp|P08100|OPSD_HUMAN 570 107 109 0 98.20 1 0 VPFSNKTGVVRSPFEHPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGG VPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGG 4301 348 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 92.31 65 5 0 3174 3368 248 312 5e-34 129 sp|P08100|OPSD_HUMAN 324 60 64 0 98.46 3 0 KEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSNFGPIFMTLPAFFAKSSSIYNPVIYIMMNKQ KEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQ 4301 348 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 96.43 56 2 0 2855 3022 177 232 2e-31 120 sp|P08100|OPSD_HUMAN 302 54 56 0 100.00 2 0 RYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKE RYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKE 4301 348 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 93.22 59 4 0 1404 1580 119 177 1e-30 118 sp|P08100|OPSD_HUMAN 295 55 56 0 94.92 3 0 LAGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGLALTWVMALACAAPPLVGWSR LGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSR 4301 348 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 92.00 25 2 0 4222 4296 312 336 6e-12 56.2 sp|P08100|OPSD_HUMAN 134 23 24 0 96.00 1 0 QFRNCMLTTLCCGKNPLGDDEASTT QFRNCMLTTICCGKNPLGDDEASAT 4301 348 +gi|283855822|gb|GQ290312.1| sp|P08100|OPSD_HUMAN 95.09 326 16 0 1 978 11 336 2e-180 613 sp|P08100|OPSD_HUMAN 1582 310 322 0 98.77 1 0 VPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVANLFMVFGGFTTTLYTSMHGYFVFGATGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGLAFTWVMALACAAPPLAGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVXXXXXXXXXXXXXXXXXKEVTRMVIIMVVAFLICWLPYASVAFYIFTHQGSNFGPVFMTIPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTT VPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASAT 983 348 +gi|18148870|dbj|AB062417.1| sp|P08100|OPSD_HUMAN 93.39 348 23 0 1 1044 1 348 0.0 641 sp|P08100|OPSD_HUMAN 1654 325 337 0 96.84 1 0 MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVXXXXXXXXXXXXXXXXXKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTSAVYNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA 1047 348 +gi|12583664|dbj|AB043817.1| sp|P08100|OPSD_HUMAN 81.93 332 60 0 23 1018 1 332 6e-164 559 sp|P08100|OPSD_HUMAN 1440 272 307 0 92.47 2 0 MNGTEGPNFYIPMSNATGVVRSPFEYPQYYLAEPWAFSALSAYMFFLIIAGFPINFLTLYVTIEHKKLRTPLNYILLNLAVADLFMVFGGFTTTMYTSMHGYFVFGPTGCNIEGFFATLGGEIALWCLVVLAIERWMVVCKPVTNFRFGESHAIMGVMVTWTMALACALPPLFGWSRYIPEGLQCSCGIDYYTRAPGINNESFVIYMFTCHFSIPLAVISFCYGRLVCTVKXXXXXXXXXXXXXXXXXXVTRMVVIMVISFLVCWVPYASVAWYIFTHQGSTFGPIFMTIPSFFAKSSALYNPMIYICMNKQFRHCMITTLCCGKNPFEEED MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDE 1344 348 diff -r 10dce68b584b -r 45ba7c750bc8 test-data/blastx_rhodopsin_vs_four_human_ext.tabular --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/blastx_rhodopsin_vs_four_human_ext.tabular Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,10 @@ +gi|57163782|ref|NM_001009242.1| sp|P08100|OPSD_HUMAN 96.55 348 12 0 1 1044 1 348 0.0 662 sp|P08100|OPSD_HUMAN 1707 336 343 0 98.56 1 0 MNGTEGPNFYVPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTLPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTTGSKTETSQVAPA MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA 1047 348 +gi|2734705|gb|U59921.1|BBU59921 sp|P08100|OPSD_HUMAN 85.24 332 49 0 42 1037 1 332 1e-168 575 sp|P08100|OPSD_HUMAN 1481 283 315 0 94.88 3 0 MNGTEGPNFYIPMSNKTGVVRSPFEYPQYYLAEPWQYSILCAYMFLLILLGFPINFMTLYVTIQHKKLRTPLNYILLNLAFANHFMVLCGFTVTMYSSMNGYFILGATGCYVEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFSENHAVMGVAFTWIMALSCAVPPLLGWSRYIPEGMQCSCGVDYYTLKPEVNNESFVIYMFVVHFTIPLIIIFFCYGRLVCTVKEAAAQQQESATTQKAEKEVTRMVIIMVVFFLICWVPYASVAFFIFSNQGSEFGPIFMTVPAFFAKSSSIYNPVIYIMLNKQFRNCMITTLCCGKNPFGEDD MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDE 1574 348 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 96.40 111 4 0 1 333 11 121 2e-62 224 sp|P08100|OPSD_HUMAN 570 107 109 0 98.20 1 0 VPFSNKTGVVRSPFEHPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGG VPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGG 4301 348 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 92.31 65 5 0 3174 3368 248 312 5e-34 129 sp|P08100|OPSD_HUMAN 324 60 64 0 98.46 3 0 KEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSNFGPIFMTLPAFFAKSSSIYNPVIYIMMNKQ KEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQ 4301 348 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 96.43 56 2 0 2855 3022 177 232 2e-31 120 sp|P08100|OPSD_HUMAN 302 54 56 0 100.00 2 0 RYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKE RYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKE 4301 348 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 93.22 59 4 0 1404 1580 119 177 1e-30 118 sp|P08100|OPSD_HUMAN 295 55 56 0 94.92 3 0 LAGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGLALTWVMALACAAPPLVGWSR LGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSR 4301 348 +gi|283855845|gb|GQ290303.1| sp|P08100|OPSD_HUMAN 92.00 25 2 0 4222 4296 312 336 6e-12 56.2 sp|P08100|OPSD_HUMAN 134 23 24 0 96.00 1 0 QFRNCMLTTLCCGKNPLGDDEASTT QFRNCMLTTICCGKNPLGDDEASAT 4301 348 +gi|283855822|gb|GQ290312.1| sp|P08100|OPSD_HUMAN 95.09 326 16 0 1 978 11 336 2e-180 613 sp|P08100|OPSD_HUMAN 1582 310 322 0 98.77 1 0 VPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVANLFMVFGGFTTTLYTSMHGYFVFGATGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGLAFTWVMALACAAPPLAGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVVAFLICWLPYASVAFYIFTHQGSNFGPVFMTIPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTT VPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASAT 983 348 +gi|18148870|dbj|AB062417.1| sp|P08100|OPSD_HUMAN 93.39 348 23 0 1 1044 1 348 0.0 641 sp|P08100|OPSD_HUMAN 1654 325 337 0 96.84 1 0 MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTSAVYNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA 1047 348 +gi|12583664|dbj|AB043817.1| sp|P08100|OPSD_HUMAN 81.93 332 60 0 23 1018 1 332 6e-164 559 sp|P08100|OPSD_HUMAN 1440 272 307 0 92.47 2 0 MNGTEGPNFYIPMSNATGVVRSPFEYPQYYLAEPWAFSALSAYMFFLIIAGFPINFLTLYVTIEHKKLRTPLNYILLNLAVADLFMVFGGFTTTMYTSMHGYFVFGPTGCNIEGFFATLGGEIALWCLVVLAIERWMVVCKPVTNFRFGESHAIMGVMVTWTMALACALPPLFGWSRYIPEGLQCSCGIDYYTRAPGINNESFVIYMFTCHFSIPLAVISFCYGRLVCTVKEAAAQQQESETTQRAEREVTRMVVIMVISFLVCWVPYASVAWYIFTHQGSTFGPIFMTIPSFFAKSSALYNPMIYICMNKQFRHCMITTLCCGKNPFEEED MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDE 1344 348 diff -r 10dce68b584b -r 45ba7c750bc8 test-data/blastx_sample.xml --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/blastx_sample.xml Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,758 @@ + + + + blastx + BLASTX 2.2.24+ + Stephen F. Altschul, Thomas L. Madden, Alejandro A. Schäffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. + /share/BlastDB/nr + Query_1 + phage_suis + 1890 + + + BLOSUM62 + 0.001 + 11 + 1 + L; + + + + + 1 + Query_1 + phage_suis + 1890 + + + 1 + gi|119953746|ref|YP_950551.1| + tail tape measure protein [Streptococcus phage SMP] >gi|118430558|gb|ABK91882.1| tail tape measure protein [Streptococcus phage SMP] + YP_950551 + 659 + + + 1 + 988.407949172964 + 2554 + 0 + 336 + 1889 + 25 + 542 + 3 + 0 + 518 + 518 + 0 + 518 + NWFHLLNSGGSALSVMFAKLVGIIAGISAPIWXXXXXXXXXXXXXXXXYNTNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVSGAIDWAKGLLGIKS + NWFHLLNSGGSALSVMFAKLVGIIAGISAPIWAVIGVIAALVAGFVLLYNTNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVSGAIDWAKGLLGIKS + NWFHLLNSGGSALSVMFAKLVGIIAGISAPIWAVIGVIAALVAGFVLLYNTNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVSGAIDWAKGLLGIKS + + + + + 2 + gi|289551554|ref|YP_003472458.1| + Phage tail length tape-measure protein [Staphylococcus lugdunensis HKU09-01] >gi|289181085|gb|ADC88330.1| Phage tail length tape-measure protein [Staphylococcus lugdunensis HKU09-01] + YP_003472458 + 1220 + + + 1 + 256.91395450591 + 655 + 5.97108392092708e-66 + 342 + 1889 + 657 + 1106 + 3 + 0 + 170 + 254 + 66 + 516 + FHLLNSGGSALSVMFAKLVGIIAGISAPIWXXXXXXXXXXXXXXXXYNTNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVSGAIDWAKGLLGIKS + FTLLFGKASLVRTVFGLLVGVFTSLSAPVLAVIAVIGSLVAIFVYLWKTNDGFREACINAWNVIKTTVSTVVTVIVAFVKSIWGGLVAWWQQNHVLIQAAATVVWNAIKTVIMTVMNALGPSMKTAWEVIKQAVIIVWEFIKTYVQVAIAVVSGVIKTVMQLITGDWSGAWNTIKQTAMTVWNLIKS-------GATAIFNA----LKVALSAIWNAIKSAASGAWNDMKAVIVAAVNYIKNRVQAQWNTLKAITTGVWNGIKAVISAVWNAIKSFVTSSVSKVKSSVSSGFNSVRNV-------VRSVMSA---------------VKSFISSAWNGVKSIVSGAVGAVKSFVSSGFNAVRNTVSSIMSRVKGIISSI-----------WNSIKSTVSNAVHNMTSA----------------------MSSGMSRMGSAVHSGMSRVSSAVRNGISGAYNAVRGGVYRMVSAGADLARGIARGIMNMAGYVMSRARALASRAVSAIKSALRIHS + F LL S + +F LVG+ +SAP+ AVI VI +LVA FV L+ TN+ FR AW IK+ +ST V +V+FV +WG +VAWW +N LI+ A VWNAI+TV+ TVM AL P ++TAW++I V V IKT V + VV G+IK VMQ+I GDWSGAW T+K A T+W IKS G IF LK +W I + W+ +K + A+ + +Q +++ VWN I V S +W AI + V S ++ + + + ++ V +++V +A +K IS+AW +K+ S A+ +F+S + ++ S+ +K IS++ WN+IK+++SNA++N+ SA +S+G + + S V + R+ SAVR G A NA R + +S G DL G G+ AG ++ S A+ K L I S + + + + + 3 + gi|223044325|ref|ZP_03614360.1| + phage tape measure protein [Staphylococcus capitis SK14] >gi|222442293|gb|EEE48403.1| phage tape measure protein [Staphylococcus capitis SK14] + ZP_03614360 + 1320 + + + 1 + 252.67675917082 + 644 + 1.12609769207128e-64 + 393 + 1889 + 655 + 1193 + 3 + 0 + 165 + 275 + 54 + 546 + LVGIIAGISAPIWXXXXXXXXXXXXXXXXYNTNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTA---ETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLV---------------QVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVG-------PIWDWIKTT-------VSNAITAVWEIIQNIMTSIQTTW----DTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVS-----------AVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVSGAIDWAKGLLGIKS + LGGVLAALSGPVGIVIAAVAAVIAIFVALWNSSETLRNALTDAWNAIASSVGAAIQAVLGFLGDLFGRA-------QEILAPLAPMFQQVWSQIVAIVDTAVNVIAPMVKQAFNTVVAVVKVAWEIIKAVIKISMEVILSTIVALLQLLTGDWRGAWQTMSKAGAEIWKAIVEMAKNIWSILGDYLKQSWQNIVDGFSAIFGPLAGIAGSIWNGIVNIVKTVVSGLGAFLTSIWTAIVTSAQVQWSIIATVAQTIWSAIVNVIVTVVTTLVSILATIWTTIVTVASTIWTTLVTVSQTIWTIIVTTITTIVTTLGTILSAIWTGIVTVATTIWTTLVTVAQTIWTLIVTTITTIISTLVTIITTVWTTIVSVTSTIWSSLVAIAQTIWSSVLSIISGIVGVIVAIVTGNWSLLRSSTASIMSGIAGLISAVWNSITSVISSAVSNAVSTAVSGFFNMLSSIGSAMHGIVSSVLSGMMSVVNSVRSGVSNALSAVRNFIGHFTQAGTDLIMGMVNGIKNAAINVVNAAKGVASSAINAVRSVLNSHS + L G++A +S P+ VI +AA++A FV L+N++E R + AW AI S++ A++AV+ F+ DL+G+ QE++ A + VW+ I +V+T + + P+V+ A++ ++AVV +IK V+ ++V+L I A++Q++ GDW GAW+T+ IW+ I + Q +DG IF SIW+ + + VV IW I T+ ++ +W I N++ ++ TT T+W I TVAS IWT + T ++ T I I T + + T+ SA W I V I T+V + + LI I+ + T + +W I + S IW + A T W + + IS ++ I + + W+ +++S ++ ++ I WN+I S IS+A+ N ST +G+ N++S++ +A IVS +VR+G NA++A RNFI + G DLI G V G+K AA +++A G S AI+ + +L S + + + 2 + 130.568493605019 + 327 + 6.45396672852224e-28 + 384 + 1796 + 844 + 1309 + 3 + 0 + 101 + 215 + 79 + 508 + FAKLVGIIAGISAPIWXXXXXXXXXXXXXXXXYNTNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVM----QMINGDWSG-------AWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMS-VLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKS--------------------NIETAWNNIKTSISNALNNIKSAAENAWNNIKSAI--STAIENIKSTVSNG---WNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEG + FSAIFGPLAGIAGSI-------------------------------WNGIVNIVKTVVSGLGAFLTSIWTAIVTSAQVQWSIIATVAQTIWSAIVNVIVTVVTTLVSILATIWTTIVTVASTIWTTLVTVSQTIWTIIVTTITTIVTTLGTILSAIWTGIVTVATTIWTTLVTVAQTIWTLIVTTITTIISTLVTIITTVWTTIVSVTSTIWSSLVAIAQTIWSSVLSIISGIVGVIVAIVTGNWSLLRSSTASIMSGIAGLISAVWNSITSVISSAVSNAVSTAVSGFFNMLSSIGSAMHGIVSSVLSGMMSVV--------NSVRSGVSNALSAVRNFIGHFTQAGTDLIMGMVNGIKNAAINVVNAAKGVASSAINAVRSVLNSHSPSRVMMGIGGDFGEGFKIGIDDKKKSVANIAGGLGSSAVKA---VKNAVNPTDVLSDVRSTLKNSNLKIPNIQGDIKNASASANANITHTHEYKTNPSQRVVTVQMDVNNDALTHIVNG + F+ + G +AGI+ I W I + + T V + +F+ +W +V +I A+T+W+AI V+ TV+T L+ I+ T W I+ V +T+ + TV T +++ I ++ +++ W+G W TL VA TIW I + + I LV I T + S+ T+W +++A+ IW + + +S + + I+ + ++++ ++ + I+ + S +W +I++ + S V + + + ++ ++ SA I+ +V + ++ + + ++ +SNA ++ A T + G+ GIK AA K S+ + ++S + ++ K S++N + S+A A +K+A+ + + +++ST+ N N+ + NA + + + N ++ ++ + V D + V G + + + + + 4 + gi|268611153|ref|ZP_06144880.1| + hypothetical protein RflaF_16865 [Ruminococcus flavefaciens FD-1] + ZP_06144880 + 1158 + + + 1 + 239.194774013712 + 609 + 1.28842161409548e-60 + 78 + 1847 + 440 + 1042 + 3 + 0 + 183 + 291 + 85 + 639 + NLVAGLGQKDADIKGLLSNLGETIQNFVRNVKNVVLTIWDNL-PLAPWQKW----LGLIAVAAGPFLMLLGXXXXXXXXXXXXXXXXXXXXNWFHLLNSGGSALSVMFAKLVGIIAGISAPIWXXXXXXXXXXXXXXXXYNTNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVW-----------NAISTVASNIWTAISTTVMSVLTTIWGYIQT---------------YLELIKTVWSA------------------AWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVS + NLGGQLTILKSQLQELAISFGEILMPAIRAIVSKIQGFIDKLNAMDPATKETIVKIALVAAALGPLLVVVGKTMVGVGKLMQLVANLPT-------IIAGAKAAFTSFGAAIG---GISAPVVAVIAVVAALVAAFVHLWRTNEDFRNKITAIWNQIKSIFDNFCQGIVDRVNAL--------GFDFKNISEVIKAVWDGL-------CKFLAPVFE-------GVFQQVANIFKAVTD----IILNILDIFVGIFTGDWSRVWDGIKGIFVAVWNFLKDTLKNYLNVLCNLFGTNLDEVKEFWVNVWTSIKNFFVNIWNGIKNFITGVVNAIKNFFTTIWTGIKNFFVGIWTAIYNSVAEKINLIKTVITVVWNAIHTAISMVLNAIWNVISTVWQTIYDFISPLLEAFRYLFETIFEAIHVIISRVMDWIHEKITTAWENIKAVVTIVLEAIKSVIETVWNAIHTAITTVMDAISNVISTVWNAISSFISGVVNAIWSVISSIWNSIKDHITNTLNAIHAVVSAVWNAISGFISGVLNTISSVVSSIWNGIKNTVTNILNTIKTTVSNIWDSVKNAVTQKITAIKDTIVNGFNAAVNFIKNLASQAFQWGADIINGIVNGIKNCIGKVADAVKGVAN + NL L + ++ L + GE + +R + + + D L + P K + L+A A GP L+++G + ++ + + + + +G A F +G GISAP+ AVI V+AALVA FV L+ TNE+FR K+ A W IKS + +V V L + + I + + VW+ + L P+ + V V N+ K V D ++L I+ + + GDWS W+ +KG+ +W +K ++ ++ L +F T L +K W VW +I IW+ IK ++ + A+ I T I+ + +W N I TV + +W AI T + VL IW I T + L +T++ A AWE IKAV +L I ++ ++ I AI+ + I S +WNAI++F+SG+ I + S+ W IK I+N + I + + WN I IS LN I S + WN IK+ ++ + IK+TVSN W+++ + VT I + GF+ AVN +N S A G D+ING V G+K G++ DAV G + + + + 2 + 141.354081730704 + 355 + 3.65629455324605e-31 + 543 + 1856 + 547 + 938 + 3 + 0 + 103 + 183 + 52 + 441 + ISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNL---VSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVSGAI + ISAPVVAVIAVVAALVAAFVHLWRTNEDF-RNKITAIWNQIKSIFDNFCQGIVDRVNA-------------------LGFDFKNISEVIKAV-------WDGLCKFLAPVFEGVFQQVANIFKAVTDIILNILDIFVGIFTGDWSRVWDGIKGIFVAVWNFLKDTLKNYLNVLCNLFGTNLDEVKEFWVNVWTSIKNFFVNIWNGIKNFITGVVNAI-----------KNFFTTIWTGIKNFF-------VGIWTAIYNSVAEKIN----LIKTVITVVWNAIHTAISMVLNAIWNVISTVWQTIYDFISPLLEAFRYLFETIFEAIHVIISRVMDWIHEKITTAWENIKAVVTIVLEAIKSVIETVWNAIHTAITTVMDAISNVISTVWNAISSFISGVVNAIWSVISSIWNSIKDHITNTLNAIHAVVSAVWNAISGFI + IS V AV++ V L V W N++ R +WN I+++ + ++ V + K + +IKAV W G + L V +++ + ++ + D ++ I + W VW I + +W+++K T+ N + + + + ++ W VW +I NIW I + V+ I K ++ W IK F VG+ T ++ + + I+ +IKT + +WNAI T +S + I ST W+ I IS ++ + ET + I IS ++ I AW NIK+ ++ +E IKS + WN + ++TV +A ++S V + ++ N I + IS + I + A ++ AV A+SG I + + + 3 + 140.198483002952 + 352 + 8.14537447802119e-31 + 522 + 1844 + 722 + 1121 + 3 + 0 + 116 + 190 + 77 + 459 + WEAIKSAISTAVEAVVSFVMDLW--------GQMVAWWN---ENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSN--GWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLI-----NGFVEGVKGAAGRLIDAVGGAV + WNGIKNFITGVVNAIKNFFTTIWTGIKNFFVGIWTAIYNSVAEKINLIKTVITVVWNAIHTAISMVLNAIWNVISTVWQTIYDFISPLLEAFRYLFETIFEAIHVIISRVMDWIHEKITTAWENIKAVVTIVLEAIKSVIETVWNAI----HTAIT-------TVMDAISNVISTVWNAISSFISGVVNAIWSVISSIWNSIKDHITNTLNAIHAVVSAVWNAIS-----------GFISGVLNTISSVVSSIWNGIKNTVTNILNTIKTTVSNIWDSVKNAVTQKITAIKDTIVNGFNAAVNF-------IKNLASQAFQWGADII---------------NGIVNGIKNCIGKVADAVKGVANKIKSFLHFSVPD-EGTLADFESW--------------MPDFMQGLAQGINKSKKYVEKAISGVADAMTIAMNSDFNVDMSGVTGAMVGAGGTTV + W IK+ I+ V A+ +F +W G A +N E LI+ VWNAI T + V+ A+ ++ T W I ++ +L + + +T + + II VM I+ + AWE +K V + E IKS+++ + + T + TV I V+ +W+ I + +S + A+W +I +I SI+ NAI V S +W AIS G+I L I +V S+ W IK IL TI V+ +D +K A++ IK +NA F IK AS A++W I N I I N + + A + N IKS + ++ + + T+++ W + G +N ++ ++ AIS D + + F + G G ++ A G V + + + 4 + 115.160510568324 + 287 + 2.80602663410135e-23 + 501 + 1694 + 770 + 1144 + 3 + 0 + 100 + 176 + 39 + 406 + RTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWET----LKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENI-KSTVSNGWNNLVSTV---TNAGPRIVS + KTVITVVWNAIHTAISMVLNAIWNVISTVWQTIYDFISPLLEAFRYLFETIFEAIHVIISRVMDWIHEKITTAWENIKAVVTIVLEAIKSVIETVWNAIHTAITTVMDAISNVISTVWNAISSFISGVVNAIWSVISSIWNSIKDHITNTLNAIHAVVSAVWNAISGFISGVL--------NTISSVVSSIWNGIKNTVTNI-------LNTIKTTVSNIWDSVKNAVTQKITAI-------KDTIVNGFNAAVNFIKNLASQAFQWGADIINGIVNGIKNCIGKVADAVK----GVANKIKSFLHFSVPDEGTLAD-----FESWMPDFMQGLAQGINKSKKYVEKAISGVADAMTIAMNSDFNVDMSGVTGAMVGAGGTTVVNNYNNDNSRTVNQTNNSPKSLS + +T + W AI +AIS + A+ + + +W + + + E R ET++ AI ++ VM + + TAW+ I AVVT VL IK+V++T + I VM I+ S W + GV IW I S+ D + A + ++W+ + G I V+ T+S+ ++++W I+N +T+I N I T SNIW ++ V +T I + I ++AA IK + + ++ G + IK I + +K + N I +FL T A ++ + + M + I + ++ +IS + + A + +N S ++ A+ +TV N +NN S TN P+ +S + + + 5 + 90.8929372855311 + 224 + 5.66707902872949e-16 + 492 + 1148 + 811 + 1044 + 3 + 0 + 67 + 106 + 29 + 241 + EEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDT-----------GLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWD-----------WIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNI + EAFRYLFETIFEAIHVIISRVMDWIHEKITTAWENIKAVVTIVLEAIKSVIETVWNAIHTAITTVMDAISNVISTVWNAISSFISGVVNAIWSVISSIWNSIKDHITNTLNAIHAVVSAVWNAISGFISGVLNTISSVVSSIWNGIKNTV-------TNILNTIKTTVSNIWDSVKNAVTQKITAIKDTIVNGFNAAVNFIKNLASQAFQWGADIINGIVNGIKNCIGKVADAVKGVANKI + E FR + +EAI IS ++ + + W + A E I+ ETVWNAI T + TVM A+ ++ T W+ I + ++ V+N I +V+ + L + ++ AV I+G SG T+ V +IW GIK+ V I T + +IWD+V + + I D +IK S A +II I+ I+ V +A+ VA+ I + + + 6 + 51.9877801178785 + 123 + 0.000291728300853117 + 1158 + 1883 + 547 + 775 + 3 + 0 + 50 + 102 + 35 + 253 + ISTTVMSVLTTIWGYIQTYLELIKT------VWSAAWEIIKAVFAAILLTIVGLVTG-NFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTI----KSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVSGAIDWAKGLLGI + ISAPVVAVIAVVAALVAAFVHLWRTNEDFRNKITAIWNQIKSIFDNFCQGIVDRVNALGFDF-----KNISEVIKA----VWDGLCKFLAPVFEGVFQQVANIFKAVTDIILNILDIFVGIFTGDWSRVWDGIKGIFVAVWNFLKDTLKNYLNVLCNLFGTNLDEVKEFWVNVW---------------TSIKNFFVNIWNGIKNFITGVVNAIKNFFTTIWTGIKNFFVGIWTAIYNSVAEKINLIKTVITV + IS V++V+ + + ++ L +T +A W IK++F IV V FD N E+IK +W+ + FL+ ++EG+ + ++ + I N++ + W+ IK N +K +N N + + T ++ +K N W ++++ F N N +NFI+ ++ + G+K + A+ +V+ I+ K ++ + + + + + + 5 + gi|268610688|ref|ZP_06144415.1| + hypothetical protein RflaF_14482 [Ruminococcus flavefaciens FD-1] + ZP_06144415 + 1444 + + + 1 + 234.572379102704 + 597 + 3.17349283264528e-59 + 78 + 1847 + 440 + 1042 + 3 + 0 + 185 + 294 + 85 + 639 + NLVAGLGQKDADIKGLLSNLGETIQNFVRNVKNVVLTIWDNL-PLAPWQKW----LGLIAVAAGPFLMLLGXXXXXXXXXXXXXXXXXXXXNWFHLLNSGGSALSVMFAKLVGIIAGISAPIWXXXXXXXXXXXXXXXXYNTNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVS-------NAITAVWEIIQN----IMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQT---------------YLELIKTVWSA------------------AWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVS + NLGGQLTILKSQLQELAISFGEILMPAIRSIVSRIQGLIDKFNALSPATKETIVKVALVAATLGPLLVVVGKTMVGVGKLMQLVA------NLPTIIASAKAA----FTSFGAAIGGISAPVVAVIAVVAALVAAFVHLWRTNEDFRNKITAIWEQIKSIFSGFCQGIVDRINALGFDF---------------KNITEVIKAVWDGLCKFLKPIFEGQFQ-------QIANIFKAVTD----IILSVLDIFVGIFTGDWSRVWDGIKGIFVAVWNFIKDTLKNALNMICGIFGTDLGEVKEFWVGVWTSIKNFFVNIWNGIKNFISSVLGGIKNFFTTIWTGIKNFFVGIWTAIYSSVSEKINLIKTVITVVWNAIHTAISTVLNAIWSVITTVWQTIYDFISPLLEAFRYLFETIFEAIHVIISRVMDWIHDKIVERWETIKAIVTVVLEAIKSVIETVWNAIHTAISTVMDAIHNVVSTVWNAISGFISGVVNAIWSVISSIWNSIKDHITNTLNAIHAVVSAVWNAISGFISGVLNTISSVVSSIWNGIKNTVTNILNAIKTTVSNIWDSVKNAVTQKITAIKDTIVNGFNAAVNFIKNLGSQAFQWGADIINNIVSGIKNCIGKVADAVKGVAN + NL L + ++ L + GE + +R++ + + + D L+P K + L+A GP L+++G + ++ + + N ++ S +A F I GISAP+ AVI V+AALVA FV L+ TNE+FR K+ A WE IKS S + +V + L + + I+ V + + L PI + + + N+ K V D ++L ++ + + GDWS W+ +KG+ +W IK ++ A++ + IF T L +K W VW +I IW+ IK +S N T +W I+N I T+I ++ N I TV + +W AI T + +VL IW I T + L +T++ A WE IKA+ +L I ++ ++ I AIS + I S +WNAI+ F+SG+ I + S+ W IK I+N + I + + WN I IS LN I S + WN IK+ ++ + IK+TVSN W+++ + VT I + GF+ AVN +N S A G D+IN V G+K G++ DAV G + + + + 2 + 167.932852469002 + 424 + 3.64782449590402e-39 + 501 + 1856 + 770 + 1245 + 3 + 0 + 121 + 216 + 54 + 491 + RTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWET----LKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLT----TIWGYIQTYLELIKTVWSAAW----EIIKAVFAAI---LLTIVGLVTGNFDLIKQ------------AISNAW---------EIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGW---NNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVSGAI + KTVITVVWNAIHTAISTVLNAIWSVITTVWQTIYDFISPLLEAFRYLFETIFEAIHVIISRVMDWIHDKIVERWETIKAIVTVVLEAIKSVIETVWNAIHTAISTVMDAIHNVVSTVWNAISGFISGVVNAIWSVISSIWNSIKDHITNTLNAIHAVVSAVWNAISGFISGVL--------NTISSVVSSIWNGIKNTVTNI-------LNAIKTTVSNIWDSVKNAVTQKITAIKDTIVNGFNAAVNFIKNLGSQAFQWGADIINNIVSGIKNCIGKVADAVKGVANKIKSFLHFSVPDEGPLADFESWMPDFMQGLADGINANTSVVNDAVNSFAGGLAEKISSVIQNALSNVVTSVQGFMTQVFDTVKTVWTNANAAIDATMSQISSGITSGWKTIVSTIKTALENIRNVITTTWKAVSSVISAALDGIKKIVTVVWTALKNLIKTGQLDIKSVVTTTWEAVSGVVRTAVNAIKSVVQAVWDAMPDTV + +T + W AI +AIST + A+ S + +W + + + E R ET++ AI ++ VM + + W+ I A+VT VL IK+V++T + I VM I+ S W + GV IW I S+ D + A + ++W+ + G I V+ T+S+ ++++W I+N +T+I NAI T SNIW ++ V +T TI + IK + S A+ +II + + I + + V G + IK A +W + I TS + +A+ +F G+ E I + A + T++ MT + ++T W N +I ++ I S + W I S I TA+ENI++ ++ W ++++S + +IV+ V T N + + I + ++ + ++G V A ++ AV A+ + + + + 3 + 161.769659254324 + 408 + 2.61420693292496e-37 + 492 + 1832 + 811 + 1322 + 3 + 0 + 123 + 220 + 75 + 517 + EEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDT-----------GLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAI--------------------------DGLVQIFQTGLAFLKSIWDTV--WGT---------IMAVVGPIWDWIKTTVSNAITAV----------------W--EIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMS----VLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAV + EAFRYLFETIFEAIHVIISRVMDWIHDKIVERWETIKAIVTVVLEAIKSVIETVWNAIHTAISTVMDAIHNVVSTVWNAISGFISGVVNAIWSVISSIWNSIKDHITNTLNAIHAVVSAVWNAISGFISGVLNTISSVVSSIWNGIKNTVTNILNAIKTTVSNIWDSVKNAVTQKITAIKDTIVNGFNAAVNFIKNLGSQAFQWGADIINNIVSGIKNCIGKVADAVKG-VANKIKSFLHFSVPDEGPLADFESWMPDFMQGLADGINANTSVVNDAVNSFAGGLAEKISSVIQNALSNVVTSVQGFMTQVFDTVKTVWTNA----NAAIDATMSQISSGITSGWKTIVSTIKTALENIRNVITTTWKAVSSVISAALDGIKKIVTVVWTALKNLIKTGQLDIKSVVTTTWEAVSGVVRTAVNAIKSVVQAVWDAMPDTVRSAMNRVKEAVLSIWDGIKSGIGDRLGGVRDAVVNAMNAVYKAVKDKVNSSWSWGRDLMQNLINGITYMLGSLINTV + E FR + +EAI IS ++ + +++ W + A E I+ ETVWNAI T + TVM A+ +V T W+ I ++ V+N I +V+ + L + ++ AV I+G SG T+ V +IW GIK+ V + D +V F + F+K++ WG I +G + D +K V+N I + W + +Q + I V +A+++ A + IS+ + + V+T++ G++ + +KTVW+ A A A + I +T + I I A E I+ + W A+++ +S +GIK + W +K I IKS + T W + + A+N IKS + W+ + + +A+ +K V + W+ + S + + + AV + A ++ ++++ S G DL+ + G+ G LI+ V + + + 4 + 123.249701662589 + 308 + 1.03039235764918e-25 + 510 + 1859 + 905 + 1377 + 3 + 0 + 108 + 204 + 63 + 493 + VQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAV--------MQMINGDWSG-------AWETLKGVAGTIWEGIKSLVQVAI--DGLVQIFQTGLA-FLKSIWD-------TVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVT------------GNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLIN------GFVEGVKGAAGRLIDAVGGAVSGAID + ISSIWNSIKDHITNTLNAIHAVVSAVWNAISGFISGVLNTISSVVSSIWNGIKNTVTNILNAIKTTVSNIWDSVKNAVTQKITAIKDTIVNGFNAAVNFIKNLGSQAFQWGADIINNIVSGIKNCIGKVADAVKGVANKI----KSFLHFSVPDEGPLADFESWMPDFMQGLADGINANTSVVNDAVNSFAGGLAEKISSVIQNALSNVVTSVQGFMTQVFDTVKTVWTNANAAIDATMSQISSGITSGWKTIVSTIKTALENIRNVITTTWKAVSSVISAALDGIKKIVTVVWTALKNLIKTGQLD-IKSVVTTTWEAVSGVVRTAVNA-----------IKSVVQAVWDAMPDTVRSAMNRVKEAVLSIWDGIKSGIGDRLGGVRDAVVNAMNAVYKAVKDKVNSSWSWGRDLMQNLINGITYMLGSLINTVA----DVARSIWEYLHFSVPEKGALTDVEEWMPDFMKGLAKGINKSKKYVEAAVSGVAD + + + W +IK I+ + A+ + V +W + + + I ++WN I+ V ++ A+ V WD + VT + IK + G + IK + +IN SG + +KGVA I KS + ++ +G + F++ + F++ + D V + + G + + I + + NA++ V +Q MT + T TVW + + IS+ + S TI I+T LE I+ V + W+ + +V +A L I +VT G D IK ++ WE + NA IK+ W+ + T+ + M +K + + W+ IK+ I + L ++ A NA N + A+ + + S + NL++ +T +++ V + + ++ ++ G L + F++G+ + V AVSG D + + + 5 + 71.6329584896635 + 174 + 3.55787431696712e-10 + 486 + 1343 + 1138 + 1400 + 3 + 0 + 60 + 128 + 35 + 292 + TNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTV--MSVLTTIWGYIQTYLELIKTVWSAAWEIIKA----VFAAILLTIVGLVTGNFDLIKQAISN + TMSQISSGITSGWKTIVSTIKTALENIRNVITTTWKAVSSVISAALDGIKKIVTVVWTALKNLIKTGQLDIKSVVTTTWEAVSGVVRTAVNAIKSVV-----------QAVWDAMPDTVRSAMNRVKEAVLSIWDGIKSGIGDRLGGVRDAVVNAM-------NAVYKAVKDKVNSSWSWGR-----------DLMQNLINGITYMLGSLINTVADVARSIWEYLHFSVPEKGALTDVEEWMPDFMKGLAKGINKSKKYVEAAVSGVADAMTLTMQSGLNVDMDGISGAMMN + T + + + + W+ I S I TA+E + + + W + + + + I++ VW A++ +++T + +V T W+ + VV T +N IK+VV +AV + A +K +IW+GIKS + + G+ + + V+ + V W W + +++QN++ I ++ N ++ VA +IW + +V LT + ++ +++ + + + + ++A V A+ LT+ + + D I A+ N + + + 6 + 53.9137779974652 + 128 + 7.67706873813937e-05 + 894 + 1883 + 467 + 775 + 3 + 0 + 73 + 133 + 43 + 341 + IKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKT------VWSAAWEIIKAVFAAILLTIVGLVTG-NFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTI----KSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVSGAIDWAKGLLGI + IRSIVS-RIQGLIDKFNALSPATKETIVKV-ALVAATLGPLLVVVGKTMVG-VGKLMQLVANLPTIIASA-----KAAFTSFGAAIGGISAPVVAVIAVVAALVAAFVHLWRTNEDFRNKITAIWEQIKSIFSGFCQGIVDRINALGFDF-----KNITEVIKA----VWDGLCKFLKPIFEGQFQQIANIFKAVTDIILSVLDIFVGIFTGDWSRVWDGIKGIFVAVWNFIKDTLKNALNMICGIFGTDLGEVKEFWVGVW---------------TSIKNFFVNIWNGIKNFISSVLGGIKNFFTTIWTGIKNFFVGIWTAIYSSVSEKINLIKTVITV + I+S+V I GL+ F K V + A +GP+ + T+ + + +++ N+ T I + A T IS V++V+ + + ++ L +T +A WE IK++F+ IV + FD N E+IK +W+ + FL I+EG + ++ + I +V+ + W+ IK N IK +NA N I T + +K W ++++ F N N +NFIS+ + + G+K + A+ +VS I+ K ++ + + + + + + 6 + gi|153811333|ref|ZP_01964001.1| + hypothetical protein RUMOBE_01725 [Ruminococcus obeum ATCC 29174] >gi|149832460|gb|EDM87544.1| hypothetical protein RUMOBE_01725 [Ruminococcus obeum ATCC 29174] + ZP_01964001 + 1228 + + + 1 + 219.934795217844 + 559 + 8.08889755547188e-55 + 108 + 1847 + 493 + 1073 + 3 + 0 + 176 + 285 + 81 + 621 + ADIKGLLSNLGETIQNFVRNVKNVVLTIWDNL-PLAPWQKW----LGLIAVAAGPFLMLLGXXXXXXXXXXXXXXXXXXXXNWFHLLNSGGSALSVMFAKLVGIIAGISAPIWXXXXXXXXXXXXXXXXYNTNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKT-------TVSNAITAVWE-IIQNI---MTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELI----KTVWS-------AAWEIIK-AVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIW------------EGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTS-ISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVS + SQLQELAISFGEILMPKIRDIVTHIQNFVDKLNAMDEGQKETILRIGMFVAALAPMLMGLGKVITFSANVSRALGTLSAG-----LVKAGG--FSGVFTKALGLI---TSPAAIVVGVIAAITAVIIHLWNTNEDFRNTITAIWQKIKDAFTTFAAGI---------------SERLSALGITFSDVTSAIKTIWDGFCNLLAPVLEAAFSTIAIALQTAFNVI-----------LGIWDVFSAVFSGDWSGAWEAIKGIFSSIWDGLKEYFSTIIGAVKGVADVFLGWFGTNWETVWNGVKTFFEGIWNGISSFFEGIWNGISTFCTTVWNGIVTNVTAFCTTVHDTISTIFNAVKDVVSNVWETIKNVVQVAIMFIVEVVKAAFELITVPFRFIWENCRDTIISVWETIKSAVQTAINFVKDNIITPVMNAISATITTVWNAIQTTFTTVINAIKSAVQTAWNFMKDNVVTPVMNAISTTISTVWNTIKTTFTTVINAIKSAVQTAWNFMKNSVITPVMNGIKTVITTVWNAIKTAVQTVVNAIKTTVQTVFNAVKTTVTT----IWNAIKTGTSTAWNAVKTAVTTPINAAKSAVTSAINGIKSTISSVWNSVKSATS + + ++ L + GE + +R++ + D L + QK +G+ A P LM LG + + V +S L+ +GG S +F K +G+I ++P V+GVIAA+ A + L+NTNE+FR + A W+ IK A +T + +E + T V +AI+T+ + L P+++ A+ I + T NVI LGI + +GDWSGAWE +KG+ +IW+G+K I + + L + + W+TVW + IW+ I + +S T VW I+ N+ T++ T T++NA+ V SN+W I V + I ++ ELI + +W + WE IK AV AI ++T + I I+ W I+T + + NAI + + W I T ST W IKTT + V+ IKS ++TAWN +K S I+ +N IK+ WN IK+A+ T + IK+TV +N + +TVT I +A++TG A NA + ++ I+ + + G+K + ++V A S + + + 2 + 195.667221935051 + 496 + 1.63364171761813e-47 + 519 + 1760 + 709 + 1099 + 3 + 0 + 127 + 197 + 51 + 428 + AWEAIKSAISTAVEAVVSFVMDLWGQM-------VAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWE-IIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQT-----YLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKT-SEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAIS + AWEAIKGIFSSIWDGLKEYFSTIIGAVKGVADVFLGWFGTNWE-------TVWNGVKTFFEGIWNGISSFFEGIWNGISTFCTTVWNGIVTNVTAFCTTVHDTISTIFNAV-----------KDVVSNVWETIKNVVQVAIMFIVEVVKAAFELITVPFRFIWENCRDTIISVWETIKSAVQTAINFVKDNIITPVMNAISATITTVWNAIQTT----FTTVINAIKSAVQTAWNFMKDNVVTPVMNAISTTISTVWNTIKTTFTTVI-----------NAIKSAVQTAWNFMKNSVITPVMNGIKTVITTVWNAIKTAVQTVVNAIKTTVQTVFNAVKTTVTTIWNAIKTGTSTAWNAVKTAVTTPINAAKSAVTSAINGIKSTISSVWNSVKSATSSTWNAIKRAITT----PINAAKTAVGNAIS + AWEAIK S+ + + + + G + + W+ N E TVWN ++T E + + + W+ I TTV N I T V V I + + K V +WE IK++VQVAI +V++ + + + +W + +W+ IK+ V AI V + II +M +I T TVWNAI T +T + + S + T W +++ + I T S W IK F ++ + IK A+ AW +K + + N I T ++ +W IKTA T IKTT+ V +K+ + T WN IKT S A N +K+A N KSA+++AI IKST+S+ WN++ S ++ I A+ T +NAA+ + NAIS + + + 3 + 169.473650772671 + 428 + 1.25373984602686e-39 + 498 + 1640 + 746 + 1096 + 3 + 0 + 115 + 178 + 50 + 391 + FRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLK-SIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWD--------TVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIK-TVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSN + FGTNWETVWNGVKTFFEGIWNGISSFFEGIWNGISTF-----------CTTVWNGIVTNVTAFCTTVHDTISTIFNAVKDVVSNVWETIKNVVQVAIMFIVEVVKAAFELITVPFRFIWENCRDTIISVWETIKSAVQTAIN-----------FVKDNIITPVMNAISATITTVWNAIQTTFTTVINA-------IKSAVQTAWNFMKDNVVTPVMNAISTTISTVWNTIKTTFTTVINAIKSAVQTAWNFMKNSVITPVMNGIKTVITTVWNAIKTAVQTVVNAIKTTVQTVFNAVKTTVTTIWNA-----------IKTGTSTAWNAVKTAVTTPINAAKSAVTSAINGIKSTISSVWNSVKSATSSTWNAIKRAITTPINAAKTAVGN + F T + W +K+ + SF +W + + TVWN I T V T + + T ++ + VV+ V IK VV + ++ ++KA ++I + WE + ++WE IKS VQ AI+ F+K +I V I A + +W+ I+TT + I A I +++QT W+ V NAIST S +W I TT +V+ I +QT +K +V + IK V + I V + IK + + +KT + IWNA IKT STAW +KT ++ + KS + +A N IK++IS+ N++KSA + WN IK AI+T I K+ V N + + + 4 + 118.242107175663 + 295 + 3.31465838308759e-24 + 492 + 1256 + 854 + 1111 + 3 + 0 + 71 + 119 + 23 + 268 + EEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILA-VVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKG------------VAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEI + ENCRDTIISVWETIKSAVQTAINFVKDNII----------TPVMNAISATITTVWNAIQTTFTTVINAIKSAVQTAWNFMKDNVVTPVMNAISTTISTVWNTIKTTFTTVINAIKSAVQTAWNFMKNSVITPVMNGIKTVITTVWNAIKTAVQTVVNAIKTTVQTVFNAVKTTVTTIWNAIKTGTSTAWNAVKTAVTTPINAAKSAVTSAINGIKSTISSVWNSVKSATSSTWNAIKRAITTPINAAKTAVGNAISAIRSKFNFSWSL + E R + + WE IKSA+ TA+ V ++ I T TVWNAI+T TV+ A+ VQTAW+ + VVT V+N I T + T + V+ I AW +K V T+W IK+ VQ ++ + QT +K+ T+W I W+ +KT V+ I A + + + I++T +VWN++ + S+ W AI + + + + + I++ ++ +W + + + + 5 + 116.316109296076 + 290 + 1.25956884194974e-23 + 510 + 1385 + 816 + 1110 + 3 + 0 + 83 + 132 + 25 + 306 + VQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVET------------VMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVL-GIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQ-IFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWN + VSNVWETIKNVVQVAIMFIVEVVKAAFELITVPFRFIWENCRDTIISVWETIKSAVQTAINFVKDNIITPVMNAISATITTVWNAIQTTFTTVINAIKSAVQTAWNFMKDNVVTPVMNAISTTISTVWNTIKTTFTTVINAIKSAVQTAWNFMKNSVITPVMNGIKTVITTVWNAIKTAVQTVVNAIKTTVQTVFNAVKTTVTTIWNAIKTGTSTAWNAVKTAVTTPINAAKSAVTSAINGIKSTISSVWNSVKSATSSTWNAIKRA-----------ITTPINAAKTAVGNAISAIRSKFNFSWS + V WE IK+ + A+ +V V + + + E R T +VW I++ V+T VM A+ + T W+ I TTV+N IK+ V T + ++ VM I+ S W T+K T+ IKS VQ A + + + + +K++ TVW I V + + IKTTV AV + I +I+T T WNA+ T + A + V S + I I + +K+ S+ W IK +T + K A+ NA I++K + W+ + + + + + 7 + gi|262113750|emb|CAR95417.1| + hypothetical protein [Streptococcus phage phi-m46.1] + CAR95417 + 952 + + + 1 + 218.779196490092 + 556 + 1.80201837527491e-54 + 384 + 1241 + 540 + 818 + 3 + 0 + 110 + 166 + 7 + 286 + FAKLVGIIAGISAPIWXXXXXXXXXXXXXXXXYNTNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWS + FLPIVGIIVGIVAAI-------TLLIVGLKELWTNHEGFRTAVTEIWNSIYAFLSMIIQQISSFVMSVWGTLTTWWTENQQLILNAATTVWNAITTVIQTVMTILGPLIQASWENIKLIITAAWEMIKIVVETAINVVLGIIKAVMQVITGDWTGAWETIKQVLSMAWEGIKSLISLALNFIAQYISTAWTGIKNTISNVLSAISSVISSIWTAIQSTISSVLSAIGSTVSTIWNGISNTVSNILNGISNTVSSVWNGVKNTISNAINGARDAVSNAINAIKNLFN + F +VGII GI A I L+ G L+ +E FRT V W +I + +S ++ + SFVM +WG + WW ENQ+LI A TVWNAI TV++TVMT L P++Q +W+ I ++T +IK VV+T + VVLGIIKAVMQ+I GDW+GAWET+K V WEGIKSL+ +A++ + Q T +K+ V I +V+ IW I++T+S+ ++A+ + I I T + N IS S++W + T+ + + + + IK +++ + + + 2 + 171.784848228175 + 434 + 2.526199638793e-40 + 657 + 1871 + 460 + 858 + 3 + 0 + 122 + 198 + 18 + 411 + NAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNV---IKTVVD--TGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVSGAIDW-AKG + NALAAIGQPILEMLIPVFQSLADIVSQLATWFTNLSSPIKEVVIIFTGILAVVGMLLPVFLGLQVAAAAMGTTVVGMITAFLPIVGIIV-----GIVAAITLLIVGLKELWTNHEGFRTAVT-EIWNSIYAFLSMIIQQISSFVMSVWGTLTTWWTENQQLILNAATTVWNAITTVIQTVMTILGPLIQASWENIKLIITAAWEMIKIVVETAINVVLGIIKAVMQVITGDWTGAWETIKQVLSMAWEGIKSLISLALNFIAQYISTAWTGIKNTISNVLSAISSVISSIWTAIQSTISSVLSAIGSTVSTIWNGISNTVSNILNGISNTVSSVWNGVKNTISNA----INGARDAVSNAINAIKNLFNFQIRWPHIPLPHF--RVSGSANPLDWLKGGIPRISIDWYAKG + NA+ + + ++ LIP+ Q+ D++ + T N+ IK VV TG+ V+G++ V + + T+ G+ + +V G+V + LK +W G AV IW+ I +S I + + ++ ++ T W I A+ +W AI+T + +V+T + IQ E IK + +AAWE+IK V + ++G++ +I + AWE IK S W I + +S I STAW IK TISNV++ I S I + W I+++IS+ L+ I S WN I + +S + I +TVS+ WN + +T++NA ++ R NA+NA +N + I + F V G+A L GG +IDW AKG + + + + + 8 + gi|77411259|ref|ZP_00787609.1| + tail tape meausure protein [Streptococcus agalactiae CJB111] >gi|77162685|gb|EAO73646.1| tail tape meausure protein [Streptococcus agalactiae CJB111] + ZP_00787609 + 1039 + + + 1 + 215.697599882754 + 548 + 1.52550005815421e-53 + 387 + 1241 + 628 + 905 + 3 + 0 + 106 + 170 + 7 + 285 + AKLVGIIAGISAPIWXXXXXXXXXXXXXXXXYNTNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWS + APIVGIILGVIAVV-------ALLVVGIQQLWQHHEGFRTAVTEIWNAIYAFLSVIIQQISSFVMSIWGTLTTWWTENQQLILNAANTVWTAISTVIQTIMTILGPYLQASWENIKLIITTAWDIIKVVVETAINVVLGIIKAVMQIITGDWSGAWETIKQVVSTVWEAIKSLISIVLSAIAQFISNSWNGIKGTMTNLLNSIKSVVSNVWNSIKSTISSILSSIGSTVSSVWNGMKATISGVLSGISNTVSSVWNGVKSTITNAINGAKNAVSSAINAIKNLFN + A +VGII G+ A + A LV G L+ +E FRT V W AI + +S ++ + SFVM +WG + WW ENQ+LI A TVW AI TV++T+MT L P +Q +W+ I ++TT ++IK VV+T + VVLGIIKAVMQ+I GDWSGAWET+K V T+WE IKSL+ + + + Q +K + +I +VV +W+ IK+T+S+ ++++ + ++ ++ T V + IS S++W + +T+ + + + + + IK +++ + + + 2 + 172.55524738001 + 436 + 1.48099780677056e-40 + 660 + 1871 + 548 + 945 + 3 + 0 + 114 + 199 + 12 + 407 + AIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVA--IDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVSGAIDW-AKG + AMAEMGDAIAATLAPILEILASLLQAVATWFSGLSEPVKQ--FIVIVGSLVAALGLVLPIFIALQAAAMAMGTTIMGMITAAAPIVGIILGVIAVVALLVVGIQQLWQHHEGFRTAVT-EIWNAIYAFLSVIIQQISSFVMSIWGTLTTWWTENQQLILNAANTVWTAISTVIQTIMTILGPYLQASWENIKLIITTAWDIIKVVVETAINVVLGIIKAVMQIITGDWSGAWETIKQVVSTVWEAIKSLISIVLSAIAQFISNSWNGIKGTMTNLLNSIKSVVSNVWNSIKSTISSILSSIGSTVSSVWNGMKATISGVLSGISNTVSSVWNGVKSTITNA----INGAKNAVSSAINAIKNLFNFKIKWPHIPLPHF--SVSGSANPLDWLKGGLPKISIQWYAKG + A+ + + + L PI++ L+ AV T + + V V++G + A + ++ + + TI I + + I G++ + + ++ +W G AV IW+ I +S I + + +I ++ T W I A+ +WTAIST + +++T + Y+Q E IK + + AW+IIK V + ++G++ +I S AWE IK S +W AI + +S + I S +W IK T++N++ +IKS + WN+IK++IS+ L++I S + WN +K+ IS + I +TVS+ WN + ST+TNA ++ + +A+NA +N + I + F V G+A L GG +I W AKG + + + 3 + 83.5741453431014 + 205 + 9.04763716179523e-14 + 978 + 1877 + 540 + 882 + 3 + 0 + 81 + 141 + 67 + 355 + TVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVAS---------NIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGL--VTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKT-----------AASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAI-----------STAIENIKSTV----------------------SNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVSGAIDWAKGLL + TAQNTAKLAMAEMGDAIAATLAPILEILASLLQAVATWFSGLSEPVKQFIVIVGSLVAALGLVLPIFIALQAAAMAMGTTIMGMITAAAPIVG--------IILGVIAVVALLVVGIQQLWQHHEGFRTAVTEIWNAIYAFLSVIIQQISSFVMSIWGTLTTWWTENQQLILNAANTVWTAISTVIQTIMTILGPYLQASWENIKLIITTAWDIIKVVVETAINVVLGIIKAVMQIITGDWSGAWETIKQVVSTVWEAIKSLISIVLSAIAQFISNSWNGIKGTMTN----LLNSIKSVVSNVWNSIKSTISSILSSIGSTVSSVWNGMKATISGVLSGISNTVSSVWNGVKSTI + T T + + D I T++ + + ++Q + T + V I V S I+ A+ M++ TTI G I ++ II V A + L +VG+ + + + + A++ W I S I I++F+ IW + T AA+T W I T I +MT + ++ +W NIK I+ A + IK E A N + I S A E IK V SN WN + T+TN +++++++ N N+ ++ IS+ +S G ++ G+K ++ + VS + K + + + + + + 9 + gi|76786754|ref|YP_329383.1| + prophage LambdaSa04, TP901 family tail tape measure protein [Streptococcus agalactiae A909] >gi|76561811|gb|ABA44395.1| prophage LambdaSa04, tail tape measure protein, TP901 family [Streptococcus agalactiae A909] + YP_329383 + 1039 + + + 1 + 213.386402427249 + 542 + 7.57097807573937e-53 + 387 + 1241 + 628 + 905 + 3 + 0 + 105 + 169 + 7 + 285 + AKLVGIIAGISAPIWXXXXXXXXXXXXXXXXYNTNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWS + APIVGIILGVIAVV-------ALLVVGIQQLWQHHEGFRTAVTEIWNAIYAFLTVIIQQISSFVMSIWGTLITWWTENQQLILNATNTVWTAISTVIQTIMTILAPYLQASWENIKLIITTAWDIIKVVVETAINVVLGIIKAVMQIITGDWSGAWETIKQVVSTVWEVIKSLISIVLSAIAQFISNSWNGIKGTMTNLLNSIKGVVSNVWNGIKSTISSILSSIGSTVSSIWNGMKATISGVLSGISSTVSFVWNGVKSTITNAINGAKNAVSSAINAIKNLFN + A +VGII G+ A + A LV G L+ +E FRT V W AI + ++ ++ + SFVM +WG ++ WW ENQ+LI TVW AI TV++T+MT L P +Q +W+ I ++TT ++IK VV+T + VVLGIIKAVMQ+I GDWSGAWET+K V T+WE IKSL+ + + + Q +K + +I VV +W+ IK+T+S+ ++++ + +I ++ T V + IS+ S +W + +T+ + + + + + IK +++ + + + 2 + 164.851255861663 + 416 + 3.08806866621938e-38 + 660 + 1871 + 548 + 945 + 3 + 0 + 111 + 194 + 12 + 407 + AIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVA--IDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVSGAIDW-AKG + AMAEMGDAIAATLAPILEVIASLLQAVATWFSGLSEPVKQ--FIVIVGSLVAALGLVLPIFIALQAAAMAMGTTIMGMITAAAPIVGIILGVIAVVALLVVGIQQLWQHHEGFRTAVT-EIWNAIYAFLTVIIQQISSFVMSIWGTLITWWTENQQLILNATNTVWTAISTVIQTIMTILAPYLQASWENIKLIITTAWDIIKVVVETAINVVLGIIKAVMQIITGDWSGAWETIKQVVSTVWEVIKSLISIVLSAIAQFISNSWNGIKGTMTNLLNSIKGVVSNVWNGIKSTISSILSSIGSTVSSIWNGMKATISGVLSGISSTVSFVWNGVKSTITNA----INGAKNAVSSAINAIKNLFNFKIKWPHIPLPHF--SVSGSANPLDWLKGGLPKISIQWYAKG + A+ + + + L PI++ L+ AV T + + V V++G + A + ++ + + TI I + + I G++ + + ++ +W G AV IW+ I ++ I + + +I ++ T W I + +WTAIST + +++T + Y+Q E IK + + AW+IIK V + ++G++ +I S AWE IK S +W I + +S + I S +W IK T++N++ +IK + WN IK++IS+ L++I S + WN +K+ IS + I STVS WN + ST+TNA ++ + +A+NA +N + I + F V G+A L GG +I W AKG + + + 3 + 115.160510568324 + 287 + 2.80602663410135e-23 + 543 + 1391 + 637 + 900 + 3 + 0 + 70 + 130 + 19 + 283 + ISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAI + VIAVVALLVVGIQQLW--------QHHEGFRTAVTEIWNAIYAFLTVIIQQISSFVMSIWGTLITWWTENQQLILNATNTVWTAISTVIQTIMTILAPYLQASWENIKLIITTAWDIIKVVVETAINVVLGIIKAVMQIITGDWSGAWETIKQVVSTVWEVIKSLISIVLSAIAQFISNSWNGIKGTMTNLLNSIKGVVSNVWNGIKSTISSILSSIGSTV-----------SSIWNGMKATISGVLSGISSTVSFVWNGVKSTITNAINGAKNAVSSAINAI + + V +V + LW ++ E R +WNAI + ++ + V + W ++ T +I +T + +I+ +M ++ +WE +K + T W+ IK +V+ AI+ ++ I + + + W W TI VV +W+ IK+ +S ++A+ + I N I+ T + N+I V SN+W I +T+ S+L++I + S+ W +KA + +L I V+ ++ +K I+NA K S NAI + + + 4 + 82.4185466153494 + 202 + 2.01560327678347e-13 + 978 + 1847 + 540 + 850 + 3 + 0 + 74 + 133 + 45 + 323 + TVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVAS---------NIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGL--VTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKT-----------AASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAI-----------STAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVS + TAQNTAKLAMAEMGDAIAATLAPILEVIASLLQAVATWFSGLSEPVKQFIVIVGSLVAALGLVLPIFIALQAAAMAMGTTIMGMITAAAPIVG--------IILGVIAVVALLVVGIQQLWQHHEGFRTAVTEIWNAIYAFLTVIIQQISSFVMSIWGTLITWWTENQQLILNATNTVWTAISTVIQTIMTILAPYLQASWENIKLIITTAWDIIKVVVETAINVVLGIIKAVMQIITGDWSGAWETIKQVVSTVWEVIKSLIS----IVLSAIAQFISNSWNGIKGTMTNLLNSIKGVVSNVWNGIKSTISSILSSIGSTVS + T T + + D I T++ + + ++Q + T + V I V S I+ A+ M++ TTI G I ++ II V A + L +VG+ + + + + A++ W I + I I++F+ IW + T A +T W I T I +MT + ++ +W NIK I+ A + IK E A N + I S A E IK VS W + S ++ ++SA+ N+ N + ++N ++ +++ G+K ++ ++G VS + + + + + 10 + gi|50914476|ref|YP_060448.1| + unknown phage protein [Streptococcus pyogenes MGAS10394] >gi|40218580|gb|AAR83234.1| prophage pi2 protein [Streptococcus pyogenes] >gi|50261625|gb|AAT72393.1| unknown [Streptococcus pyogenes] >gi|50903550|gb|AAT87265.1| unknown phage protein [Streptococcus pyogenes MGAS10394] + YP_060448 + 1039 + + + 1 + 207.608408788489 + 527 + 4.15433379501178e-51 + 372 + 1241 + 623 + 905 + 3 + 0 + 104 + 166 + 7 + 290 + LSVMFAKLVGIIAGISAPIWXXXXXXXXXXXXXXXXYNTNEEFRTKVQAAWEAIKSAISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWS + LVVAAAPIVGTVLGIIAVI-------TLLVVWIQELWQNNEGFRTAVIEIWNAIYAFISVIIQEISTFIMTIWGTLTTWWTENQALIQAAVETVWNAISTVIQTVMSLIGPYLEAAWANIQLIITTAWEIIKTVVETAITVVLGIIKAIMQAITGDWSGAWETIKGVLQRVWQAIQQIVTTILSAIGQFISNTWNGIKNTFSNILSAISGIVSSIWNTIKSVISSVISSIVSFVSSGWSGIQQTISSILSGISSTVSSVWNGIKNSISNAINGAKNVVSSAINAIKNLFN + L V A +VG + GI A I LV L+ NE FRT V W AI + IS ++ + +F+M +WG + WW ENQ LI+ ETVWNAI TV++TVM+ + P ++ AW I ++TT +IKTVV+T + VVLGIIKA+MQ I GDWSGAWET+KGV +W+ I+ +V + + Q +K+ + + I +V IW+ IK+ +S+ I+++ + + + IQ T ++ + IS+ S++W I ++ + + + + + IK +++ + + + 2 + 155.221266463729 + 391 + 2.44682334507151e-35 + 660 + 1871 + 548 + 945 + 3 + 0 + 111 + 192 + 20 + 411 + AIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVA------IDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSGIWEGIKTAASTAWEWIKTTISNVMTTIKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTNAGPRIVSAVRTGFDNAVNAARNFISNAISVGGDLINGFVEGVKGAAGRLIDAVGGAVSGAIDW-AKG + AMAEVGGVLAEALAPVLELLAQLLQAVANWFSN-LPGPIQTFIVIMGGLITVVGLLLPGLLA-----LQAAAVAMGTTIGGLVVAAAPIVGTVLGIIAVITLLVVWIQELWQNNEGFRTAVI-EIWNAIYAFISVIIQEISTFIMTIWGTLTTWWTENQALIQAAVETVWNAISTVIQTVMSLIGPYLEAAWANIQLIITTAWEIIKTVVETAITVVLGIIKAIMQAITGDWSGAWETIKGVLQRVWQAIQQIVTTILSAIGQFISNTWNGIKNTFSNILSAISGIVSSIWNTIKSVISSVISSIVSFVSSGWSGIQQTISSILSGISSTVSSVWNGIKNSISNA----INGAKNVVSSAINAIKNLFNFKISWPHIPLPHF--SVSGSANPLDWLKGGLPKISIAWYAKG + A+ V + AL P+++ L+ AV N + + T + ++ G+I V ++ G + L+ A + I LV A + G++ + + +++ +W G AV+ IW+ I +S I + I I ++ T W I +W AIST + +V++ I Y++ I+ + + AWEIIK V + ++G++ I S AWE IK +W AI ++ I I S W IK T SN+++ I + + WN IK+ IS+ +++I S + W+ I+ IS+ + I STVS+ WN + ++++NA ++ + +A+NA +N + IS + F V G+A L GG +I W AKG + + + 3 + 121.708903358919 + 304 + 2.99798279087674e-25 + 543 + 1673 + 637 + 1004 + 3 + 0 + 89 + 168 + 29 + 387 + ISTAVEAVVSFVMDLWGQMVAWWNENQELIRQTAETVWNAIRTVVETVMTALIPIVQTAWDLILAVVTTVLNVIKTVVDTGLKVVLGIIKAVMQMINGDWSGAWETLKGVAGTIWEGIKSLVQVAIDGLVQIFQTGLAFLKSIWDTVWGTIMAVVGPIWDWIKTTVSNAITAVWEIIQNIMTSIQTTWDTVWNAISTVASNIWTAISTTVMSVLTTIWGYIQTYLELIKTVWSAAWEIIKAVFAAILLTIVGLVTGNFDLIKQAISNAWEIIKTKTSEIWNAITTFLSG--IWEGIK------TAASTAWEWIKTTISNVMTT--IKSNIETAWNNIKTSISNALNNIKSAAENAWNNIKSAISTAIENIKSTVSNGWNNLVSTVTN + IIAVITLLVVWIQELW--------QNNEGFRTAVIEIWNAIYAFISVIIQEISTFIMTIWGTLTTWWTENQALIQAAVETVWNAISTVIQTVMSLIGPYLEAAWANIQLIITTAWEIIKTVVETAITVVLGIIKAIMQAITGDWSGAWETIKGVLQRVWQAIQQIVTTILSAIGQFISNTWNGIKNTFSNILSAISGIVSSIWNTIKSVISSVISSIVSFV-----------SSGWSGIQQTISSILSGISSTVSSVWNGIKNSISNAINGAKNVVSSAINAIKNLFNFKISWPHIPLPHFSVSGSANPLDWLKGGLPKISIAWYAKGGILTKPTAFGMNEKQLMVGGEAGKEAVLPLTKQNLAAIGEGIASTMGTGGNFINVSITD + I + +V ++ +LW +N E R +WNAI + ++ + + T W + T +I+ V+T + +I+ VM +I AW ++ + T WE IK++V+ AI ++ I + + + W W TI V+ +W I+ V+ ++A+ + I N I+ T+ + +AIS + S+IW I + + SV+++I ++ S+ W I+ ++IL I V+ ++ IK +ISNA K S NAI + W I + ++ +W+K + + K I T + + ++ E K ++ E I ST+ G N + ++T+ + + + + + + + 12310662 + -87459526 + 0 + 1174893963300 + 0.041 + 0.267 + 0.14 + + + + + diff -r 10dce68b584b -r 45ba7c750bc8 test-data/blastx_sample_converted.tabular --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/blastx_sample_converted.tabular Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,33 @@ +phage_suis gi|119953746|ref|YP_950551.1| 100.00 518 0 0 336 1889 25 542 0.0 988 +phage_suis gi|289551554|ref|YP_003472458.1| 32.95 516 280 6 342 1889 657 1106 6e-66 256 +phage_suis gi|223044325|ref|ZP_03614360.1| 30.22 546 327 7 393 1889 655 1193 1e-64 252 +phage_suis gi|223044325|ref|ZP_03614360.1| 19.88 508 328 9 384 1796 844 1309 6e-28 130 +phage_suis gi|268611153|ref|ZP_06144880.1| 28.64 639 371 11 78 1847 440 1042 1e-60 239 +phage_suis gi|268611153|ref|ZP_06144880.1| 23.36 441 286 7 543 1856 547 938 4e-31 141 +phage_suis gi|268611153|ref|ZP_06144880.1| 25.27 459 266 11 522 1844 722 1121 8e-31 140 +phage_suis gi|268611153|ref|ZP_06144880.1| 24.63 406 267 8 501 1694 770 1144 3e-23 115 +phage_suis gi|268611153|ref|ZP_06144880.1| 27.80 241 145 3 492 1148 811 1044 6e-16 90.9 +phage_suis gi|268611153|ref|ZP_06144880.1| 19.76 253 168 6 1158 1883 547 775 3e-04 52.0 +phage_suis gi|268610688|ref|ZP_06144415.1| 28.95 639 369 11 78 1847 440 1042 3e-59 234 +phage_suis gi|268610688|ref|ZP_06144415.1| 24.64 491 316 9 501 1856 770 1245 4e-39 167 +phage_suis gi|268610688|ref|ZP_06144415.1| 23.79 517 319 9 492 1832 811 1322 3e-37 161 +phage_suis gi|268610688|ref|ZP_06144415.1| 21.91 493 322 11 510 1859 905 1377 1e-25 123 +phage_suis gi|268610688|ref|ZP_06144415.1| 20.55 292 197 5 486 1343 1138 1400 4e-10 71.6 +phage_suis gi|268610688|ref|ZP_06144415.1| 21.41 341 225 10 894 1883 467 775 8e-05 53.9 +phage_suis gi|153811333|ref|ZP_01964001.1| 28.34 621 364 16 108 1847 493 1073 8e-55 219 +phage_suis gi|153811333|ref|ZP_01964001.1| 29.67 428 250 9 519 1760 709 1099 2e-47 195 +phage_suis gi|153811333|ref|ZP_01964001.1| 29.41 391 226 7 498 1640 746 1096 1e-39 169 +phage_suis gi|153811333|ref|ZP_01964001.1| 26.49 268 174 3 492 1256 854 1111 3e-24 118 +phage_suis gi|153811333|ref|ZP_01964001.1| 27.12 306 198 4 510 1385 816 1110 1e-23 116 +phage_suis gi|262113750|emb|CAR95417.1| 38.46 286 169 1 384 1241 540 818 2e-54 218 +phage_suis gi|262113750|emb|CAR95417.1| 29.68 411 271 7 657 1871 460 858 3e-40 171 +phage_suis gi|77411259|ref|ZP_00787609.1| 37.19 285 172 1 387 1241 628 905 2e-53 215 +phage_suis gi|77411259|ref|ZP_00787609.1| 28.01 407 281 6 660 1871 548 945 1e-40 172 +phage_suis gi|77411259|ref|ZP_00787609.1| 22.82 355 207 7 978 1877 540 882 9e-14 83.6 +phage_suis gi|76786754|ref|YP_329383.1| 36.84 285 173 1 387 1241 628 905 8e-53 213 +phage_suis gi|76786754|ref|YP_329383.1| 27.27 407 284 6 660 1871 548 945 3e-38 164 +phage_suis gi|76786754|ref|YP_329383.1| 24.73 283 194 2 543 1391 637 900 3e-23 115 +phage_suis gi|76786754|ref|YP_329383.1| 22.91 323 204 6 978 1847 540 850 2e-13 82.4 +phage_suis gi|50914476|ref|YP_060448.1| 35.86 290 179 1 372 1241 623 905 4e-51 207 +phage_suis gi|50914476|ref|YP_060448.1| 27.01 411 280 7 660 1871 548 945 2e-35 155 +phage_suis gi|50914476|ref|YP_060448.1| 23.00 387 269 5 543 1673 637 1004 3e-25 121 diff -r 10dce68b584b -r 45ba7c750bc8 test-data/four_human_proteins.fasta --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/four_human_proteins.fasta Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,61 @@ +>sp|Q9BS26|ERP44_HUMAN Endoplasmic reticulum resident protein 44 OS=Homo sapiens GN=ERP44 PE=1 SV=1 +MHPAVFLSLPDLRCSLLLLVTWVFTPVTTEITSLDTENIDEILNNADVALVNFYADWCRF +SQMLHPIFEEASDVIKEEFPNENQVVFARVDCDQHSDIAQRYRISKYPTLKLFRNGMMMK +REYRGQRSVKALADYIRQQKSDPIQEIRDLAEITTLDRSKRNIIGYFEQKDSDNYRVFER +VANILHDDCAFLSAFGDVSKPERYSGDNIIYKPPGHSAPDMVYLGAMTNFDVTYNWIQDK +CVPLVREITFENGEELTEEGLPFLILFHMKEDTESLEIFQNEVARQLISEKGTINFLHAD +CDKFRHPLLHIQKTPADCPVIAIDSFRHMYVFGDFKDVLIPGKLKQFVFDLHSGKLHREF +HHGPDPTDTAPGEQAQDVASSPPESSFQKLAPSEYRYTLLRDRDEL +>sp|Q9NSY1|BMP2K_HUMAN BMP-2-inducible protein kinase OS=Homo sapiens GN=BMP2K PE=1 SV=2 +MKKFSRMPKSEGGSGGGAAGGGAGGAGAGAGCGSGGSSVGVRVFAVGRHQVTLEESLAEG +GFSTVFLVRTHGGIRCALKRMYVNNMPDLNVCKREITIMKELSGHKNIVGYLDCAVNSIS +DNVWEVLILMEYCRAGQVVNQMNKKLQTGFTEPEVLQIFCDTCEAVARLHQCKTPIIHRD +LKVENILLNDGGNYVLCDFGSATNKFLNPQKDGVNVVEEEIKKYTTLSYRAPEMINLYGG +KPITTKADIWALGCLLYKLCFFTLPFGESQVAICDGNFTIPDNSRYSRNIHCLIRFMLEP +DPEHRPDIFQVSYFAFKFAKKDCPVSNINNSSIPSALPEPMTASEAAARKSQIKARITDT +IGPTETSIAPRQRPKANSATTATPSVLTIQSSATPVKVLAPGEFGNHRPKGALRPGNGPE +ILLGQGPPQQPPQQHRVLQQLQQGDWRLQQLHLQHRHPHQQQQQQQQQQQQQQQQQQQQQ +QQQQQQHHHHHHHHLLQDAYMQQYQHATQQQQMLQQQFLMHSVYQPQPSASQYPTMMPQY +QQAFFQQQMLAQHQPSQQQASPEYLTSPQEFSPALVSYTSSLPAQVGTIMDSSYSANRSV +ADKEAIANFTNQKNISNPPDMSGWNPFGEDNFSKLTEEELLDREFDLLRSNRLEERASSD +KNVDSLSAPHNHPPEDPFGSVPFISHSGSPEKKAEHSSINQENGTANPIKNGKTSPASKD +QRTGKKTSVQGQVQKGNDESESDFESDPPSPKSSEEEEQDDEEVLQGEQGDFNDDDTEPE +NLGHRPLLMDSEDEEEEEKHSSDSDYEQAKAKYSDMSSVYRDRSGSGPTQDLNTILLTSA +QLSSDVAVETPKQEFDVFGAVPFFAVRAQQPQQEKNEKNLPQHRFPAAGLEQEEFDVFTK +APFSKKVNVQECHAVGPEAHTIPGYPKSVDVFGSTPFQPFLTSTSKSESNEDLFGLVPFD +EITGSQQQKVKQRSLQKLSSRQRRTKQDMSKSNGKRHHGTPTSTKKTLKPTYRTPERARR +HKKVGRRDSQSSNEFLTISDSKENISVALTDGKDRGNVLQPEESLLDPFGAKPFHSPDLS +WHPPHQGLSDIRADHNTVLPGRPRQNSLHGSFHSADVLKMDDFGAVPFTELVVQSITPHQ +SQQSQPVELDPFGAAPFPSKQ +>sp|P06213|INSR_HUMAN Insulin receptor OS=Homo sapiens GN=INSR PE=1 SV=4 +MATGGRRGAAAAPLLVAVAALLLGAAGHLYPGEVCPGMDIRNNLTRLHELENCSVIEGHL +QILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFPNLTVIRGSRLFFNYAL +VIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDWSRILDSVEDNYIVLNKDDNE +ECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTICKSHGCTAEGLCCHSECL +GNCSQPDDPTKCVACRNFYLDGRCVETCPPPYYHFQDWRCVNFSFCQDLHHKCKNSRRQG +CHQYVIHNNKCIPECPSGYTMNSSNLLCTPCLGPCPKVCHLLEGEKTIDSVTSAQELRGC +TVINGSLIINIRGGNNLAAELEANLGLIEEISGYLKIRRSYALVSLSFFRKLRLIRGETL +EIGNYSFYALDNQNLRQLWDWSKHNLTITQGKLFFHYNPKLCLSEIHKMEEVSGTKGRQE +RNDIALKTNGDQASCENELLKFSYIRTSFDKILLRWEPYWPPDFRDLLGFMLFYKEAPYQ +NVTEFDGQDACGSNSWTVVDIDPPLRSNDPKSQNHPGWLMRGLKPWTQYAIFVKTLVTFS +DERRTYGAKSDIIYVQTDATNPSVPLDPISVSNSSSQIILKWKPPSDPNGNITHYLVFWE +RQAEDSELFELDYCLKGLKLPSRTWSPPFESEDSQKHNQSEYEDSAGECCSCPKTDSQIL +KELEESSFRKTFEDYLHNVVFVPRKTSSGTGAEDPRPSRKRRSLGDVGNVTVAVPTVAAF +PNTSSTSVPTSPEEHRPFEKVVNKESLVISGLRHFTGYRIELQACNQDTPEERCSVAAYV +SARTMPEAKADDIVGPVTHEIFENNVVHLMWQEPKEPNGLIVLYEVSYRRYGDEELHLCV +SRKHFALERGCRLRGLSPGNYSVRIRATSLAGNGSWTEPTYFYVTDYLDVPSNIAKIIIG +PLIFVFLFSVVIGSIYLFLRKRQPDGPLGPLYASSNPEYLSASDVFPCSVYVPDEWEVSR +EKITLLRELGQGSFGMVYEGNARDIIKGEAETRVAVKTVNESASLRERIEFLNEASVMKG +FTCHHVVRLLGVVSKGQPTLVVMELMAHGDLKSYLRSLRPEAENNPGRPPPTLQEMIQMA +AEIADGMAYLNAKKFVHRDLAARNCMVAHDFTVKIGDFGMTRDIYETDYYRKGGKGLLPV +RWMAPESLKDGVFTTSSDMWSFGVVLWEITSLAEQPYQGLSNEQVLKFVMDGGYLDQPDN +CPERVTDLMRMCWQFNPKMRPTFLEIVNLLKDDLHPSFPEVSFFHSEENKAPESEELEME +FEDMENVPLDRSSHCQREEAGGRDGGSSLGFKRSYEEHIPYTHMNGGKKNGRILTLPRSN +PS +>sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 +MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLY +VTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLG +GEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIP +EGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQES +ATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAI +YNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA diff -r 10dce68b584b -r 45ba7c750bc8 test-data/rhodopsin_nucs.fasta --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/rhodopsin_nucs.fasta Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,161 @@ +>gi|57163782|ref|NM_001009242.1| Felis catus rhodopsin (RHO), mRNA +ATGAACGGGACGGAGGGCCCGAACTTCTACGTGCCCTTCTCCAACAAAACGGGTGTGGTACGCAGCCCCT +TCGAGTACCCACAGTACTACCTGGCTGAGCCATGGCAGTTCTCCATGCTGGCCGCCTACATGTTCCTGCT +CATCGTGCTTGGCTTCCCCATCAACTTCCTCACGCTCTACGTCACGGTCCAGCACAAGAAGCTGCGCACG +CCTCTCAACTACATCCTGCTCAACCTGGCCGTGGCTGACCTCTTCATGGTCTTCGGTGGCTTCACCACCA +CCCTCTACACCTCTCTGCATGGATACTTTGTCTTTGGGCCCACAGGATGCAATTTGGAGGGCTTCTTTGC +CACACTGGGCGGTGAAATTGCCCTGTGGTCTTTGGTGGTCCTGGCCATTGAGCGGTACGTGGTGGTGTGT +AAGCCCATGAGCAACTTCCGCTTTGGGGAGAACCATGCCATAATGGGCGTCGCTTTCACCTGGGTCATGG +CACTGGCCTGCGCTGCACCCCCCCTCGTTGGTTGGTCCAGGTACATCCCTGAAGGCATGCAGTGTTCATG +CGGGATCGACTACTACACACTCAAGCCAGAAGTCAACAACGAGTCCTTTGTCATCTACATGTTCGTGGTC +CACTTCACCATCCCCATGATCGTCATCTTCTTTTGCTACGGGCAGCTTGTCTTCACAGTCAAGGAGGCGG +CAGCCCAGCAGCAGGAGTCAGCCACCACCCAGAAGGCTGAGAAGGAGGTCACTCGCATGGTCATCATCAT +GGTCATTGCTTTCCTGATCTGTTGGGTGCCCTACGCCAGCGTGGCATTCTACATCTTCACCCACCAGGGG +TCCAACTTTGGCCCCATCTTCATGACACTCCCGGCGTTCTTCGCAAAGTCCTCCTCCATCTACAACCCTG +TCATCTACATCATGATGAACAAGCAGTTCCGGAACTGCATGCTCACTACCCTCTGCTGTGGCAAGAACCC +ACTGGGTGATGACGAGGCTTCCACAACCGGTTCCAAGACGGAGACCAGCCAGGTGGCACCGGCCTAA + +>gi|2734705|gb|U59921.1|BBU59921 Bufo bufo rhodopsin mRNA, complete cds +TCTTTCTAGTTTGGGGGGGGGGACTTTAAAGAGCCGCCAATATGAACGGAACAGAAGGCCCAAACTTTTA +CATACCCATGTCCAACAAGACTGGGGTGGTGCGAAGCCCCTTTGAATACCCTCAGTATTACCTGGCAGAG +CCATGGCAATATTCCATTCTGTGCGCGTACATGTTCCTGCTCATTCTACTTGGGTTCCCAATCAACTTCA +TGACCTTGTACGTCACCATCCAGCACAAGAAGCTCCGGACACCCTTAAACTATATCCTGCTGAATTTGGC +CTTTGCCAACCACTTCATGGTCCTGTGTGGATTCACGGTGACAATGTACTCCTCAATGAACGGATACTTC +ATCCTCGGAGCCACCGGTTGCTATGTTGAAGGCTTCTTCGCTACCCTTGGTGGTGAAATCGCCCTTTGGT +CCCTGGTGGTCTTGGCCATTGAACGATACGTGGTCGTCTGTAAGCCCATGAGCAACTTCCGATTTAGTGA +GAACCATGCCGTCATGGGCGTAGCGTTCACCTGGATAATGGCTTTGTCCTGTGCTGTTCCTCCACTCCTT +GGATGGTCCAGGTACATCCCCGAGGGCATGCAGTGCTCCTGCGGAGTCGACTACTACACCCTGAAGCCCG +AGGTCAACAACGAGTCCTTCGTCATCTACATGTTCGTCGTCCACTTCACCATCCCCCTGATTATCATTTT +CTTCTGCTATGGCCGCCTGGTGTGCACTGTGAAAGAGGCTGCAGCTCAACAGCAAGAGTCCGCCACCACC +CAGAAGGCCGAGAAAGAGGTGACCAGGATGGTGATCATCATGGTGGTCTTCTTCCTTATCTGTTGGGTCC +CCTACGCCTCTGTCGCTTTCTTCATCTTCAGCAATCAGGGCTCTGAGTTCGGCCCCATCTTCATGACCGT +CCCAGCTTTCTTTGCCAAGAGTTCTTCCATCTACAACCCCGTCATCTACATCATGCTCAACAAGCAGTTC +CGTAACTGCATGATCACCACCCTGTGCTGCGGCAAGAATCCCTTTGGAGAAGACGATGCCTCCTCTGCCG +CCACCTCCAAGACAGAGGCTTCTTCTGTTTCTTCCAGCCAGGTGTCTCCTGCATAAGACCTTCCACCAGG +CCTGTCTCAGGGTCCGCTGCCTCACACAGCTCCCACCGCCCCAACTCCGTCTCCTGCTCGCTAAGGCGGC +GAAGTTCCCCTTCCATTACATAAAACGTATCTGTTCAAGAAAGGCGACGACGAAGGAGAAGAAGAGGAGC +CCCCCCGAACCCCTTCGCTGCTGCTGAAAACGACTTGATTGCTTCTGCAACGCAACGGGGCCTTACGGCA +GCGAAGGGGTTGTCATCCGGACGCGCCAAGAATTCCTTCGAGACTGTAAATATCTTAAAGGAACCGTCCT +GCTAGTTACCGACGCCGCTCCTGTAGCCGCCGTTCCCCCGCACTCCGGCCGGTTCATACCTCTTATTTTT +TTGCAATGCAACAGAAAATAATATTTTTGTTCCCACGGCTTTTCCCGGTCAGGTCTGGTAGTGGCGGAGA +TTGGCCGACCCCTCGCACCTGTAATAAAGCGCAG + +>gi|283855845|gb|GQ290303.1| Cynopterus brachyotis voucher 20020434 rhodopsin (RHO) gene, exons 1 through 5 and partial cds +GTGCCCTTCTCCAACAAGACAGGCGTGGTGCGCAGTCCCTTCGAGCATCCACAGTACTACCTGGCCGAGC +CATGGCAGTTCTCCATGCTGGCCGCCTACATGTTTCTGCTGATCGTGCTCGGCTTCCCCATCAACTTCCT +CACGCTCTATGTCACGGTTCAGCACAAGAAGCTGCGTACGCCTCTCAACTACATCCTGCTCAACCTGGCC +GTGGCCGACCTCTTCATGGTCTTCGGAGGCTTCACCACCACCCTCTACACCTCCCTGCATGGATACTTTG +TCTTCGGGCCTACGGGATGCAATCTGGAGGGCTTTTTTGCCACCCTGGGAGGTATGAGCTGAGATGCGGG +TAAGGAGGAGGCATAGAGGCATCTGGGAACAGTCCCAAGCTTGGGGTGAAGGCTAAGAGGCCTTCTTCCT +TGTTCTGTCATTGGCGTCGTCCGAAGCCCTCACTTAATCAACAAACAGTTTGGTGGTGAGGCGCTGAGCT +CCATTTGGAGAGGGCAGGTATCGAGCACTGTTTTATCCCCCCTGGAGTGGTGCCATTGCCTTGCTTTACA +GCAAAGAAACTGAGGATGAGAGGAGTCGAGGGTCTTGCCAGGTCACATCATGGCAGAGACAGAGCTGAGT +TTCAACCCTGCATCTATGTGCAGTTTCCCTTGGAGCAGCTATGTTAGGTCAGACCCACGGTGGGCACTGG +GGAGAGAGCTGCACAAGACAGGTCCCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN +NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTTCCTGATTGCCA +GGAGTGATGTGCAGCGCAAATGTCTGAATTCCATTATTATGTGCTCCTTCTTCCTCTGAGCCAAACATCC +ATCTTCATGGCTCCTAGAATTGGGTCCCACCCACATGAGCAGGTCATTTTGTTTCCCTAGAGGGGAGAGG +TCACTGCTGTGGAGGGAGGGAAGGTTCGTCCCGCTCCATGTTTCTGTTGTCTCTGCAATGCCTTTCTCTA +GGGACTCTGCCTATTGCCCCAAGAAGGACACATTCTTCTGTAAAAACTCCCTCCTGGGTTCCCAGTCTAA +TCAAGACCTCTAAACTGATTTCCATGTCCCTCATGAACCCAAAGCTCTAACTGAATTAAACTTCTCAGGA +CTTACTCCACTCTCCTCGTCCATCATGCAGCCCCTCTGCCCAGCACCCTATCTCCTCTTCTTCCCAGTGT +CTGAGCCCACTGTACCCTGAGACTTCGCTCCAGGCCTGCCCCAGGCTGCCTTCTCAGGTGCCCTCTCCCA +CATAGGAGGAGCACGGCCTCCTTAGACAGACGTGGGGTGCAGGTTGGTGGCATGCTGACTGATAGCTGAC +TGCCTTGCAGGTGAAATTGCCCTGTGGTCCTTGGTGGTCCTGGCCATCGAGCGGTACGTGGTGGTATGCA +AGCCCATGAGCAACTTCCGCTTCGGGGAGAACCACGCCATCATGGGCCTTGCCCTCACCTGGGTCATGGC +ACTGGCCTGCGCCGCGCCCCCGCTAGTCGGCTGGTCCAGGTAATGGCACTGAACAGAAGGGAAGTGCCTC +TGAGGTCTTCTTAGGGTCCCCCAGCTGGGACTCAAACCTAGGGCTGTCTGGTTCCAGGCACGGAACTGGC +GACTCCACTGGGGTTGGGGTTTAGGGCAAGGAAGGAGAGGATCAGACCCTAATGTTGTTACGTGGGTTGG +TCCGCATGTCAAGGAGAATCCAAGACACCCAATCCTTCACCTTGGCTGTGCCCCTAATCCTCATCTAAGC +CAGGTTCAGATTCCAATCCTCTTTGGCCCAGTGCTCCGTGGGAAGCTCCCTCTGACCTTGGGCCTCAGCG +CCTGGGGTTGCTGAGCCTTCCTAGTATAGGTGGTGACATCGTAGCCCCTGGGACCTGGATCCTGCCCAGT +CTGCAGGCCATCATCTCCAAATGGGGCTGAGATGAGATGTGAGGAAAGAGGGGAGACAGTGGTTTGGAAA +ACTGGACTGGTGGCTTTTTTGGGTTTCCAGAGGACTCATCTTCCTCTGCTTCTAGAATATTCCCACTCTC +TCTTCCCTTTCCTCATTCTTCCTGGGTTATTTTTTTTTCCCTTTGCTGAATTCGAGCCCCATTCCCTCCA +GCCTCTTTCCCTGTCTTATCTAGCCCAGTCCAGTTATATTCTCATAGGCAGAGGCAACAGATGCTCCAAA +TTTTCTGAGGTCGGTTCCAACATCGCCACCCTCTAAAATCAGTGAAACATCCTAACTACATGCCTCATAG +TCCTCCTGTTTCCAAAAACTGCAAAGATCTCCTGGTTACCCTGTATGCCCATCTTTGGGCTAGAAAATCC +TCTCACCCTGTTAATAGTAAGACCCTGGTTTGTACAAACTGCCTCAAACACAGAGTTTAGGGGCTTTTCC +CTTCTCTCCGCCAACCTCTGACAGGCAGAGTCTGAGGCCTGGCCTCCAGCTGCTGCGGGGAGCAGGTCTG +GTAAAGAATCCTGTGCAGGTCAGTGGTATACAGGTCCTGTCAGGTGACAGCCTGGGCGAGAGACTGGAAA +GTATCAGGATAACACGGCTGCCAGACGAACAACAAAACAACACTGAATTCACAAGGCGCATTCGAATCCT +CTCTCAGTCCATTTGATCCTCAGTCACACAGCCGAGTAGACACTTTATCAACTCATTTAACAGAAAGGGA +AAGTGAAGCCCAGAGCGAGGCCAGCAACGTGGCAGGTCACTCTGGTCATCTAGGGCCTGTTCCCAACTCT +TTCACATGTGGGTCTCCAATATGTTCCCTCCTGTCCCAATCTCTGCCGGCCCTCAGGTACATCCCAGAGG +GCATGCAGTGCTCATGTGGAATCGACTACTACACCCTCAAGCCGGAGGTCAACAACGAGTCCTTTGTCAT +CTACATGTTCGTGGTCCACTTCACCATCCCTATGATTGTCATATTCTTTTGCTATGGACAGCTGGTCTTC +ACCGTCAAGGAGGTAAGGTCATGTGTTGGGCACTGGGGACATGCACACTGAGTGAATGGAGCCCAGCTCC +ATTCCCAGAGTTGCCACAGTCTGGACACCTGACCTTGTGTCCCTGCAGGCAGCTGCCCAGCAGCAGGAGT +CAGCCACCACCCAGAAGGCCGAGAAGGAGGTCACCCGTATGGTCATCATCATGGTCATTGCTTTCCTAAT +CTGTTGGCTGCCGTATGCCGGCGTGGCATTCTACATCTTCACCCACCAGGGCTCTAACTTTGGCCCCATC +TTCATGACCCTCCCGGCATTCTTTGCCAAGTCGTCCTCCATCTACAACCCTGTCATCTATATCATGATGA +ACAAGCAGGTGCCAGGTGGTAGGGAGGGAGGGTCTGGGTCCCCCAGGCTGCAGGCACTGCCCACAGAGGA +CAAGCCACATCCTTGACTAGGCAGACCCCAGTCTTCCCATCTGCAAAATTAGGCAGGGGAGTTCGTCTCC +CCCAGGCATCAGAGACATCGGGGAGAAATGCACATTTCTGGAGATGAATCAGCATCTCAGGGTGGGCCCA +GGAACCTGCACTTCTAAAAACCATTCCACATGACTCTGAGGCTAGCATGAGAAGTGATGATCCACATGGT +TCTGGAGGCCTGCTTTAAAAGTCAAGTGGTCAAAGTCCCAAGCCTGGGAACGGGATGGTGCCAGTCTCCA +TTAAAGAGATCAAAAGGAGCTAGAAAGTCTTGTGATGAAAGATGAAGGGATAAAGCCGTCCTTTAACACA +GATCAGTGATTTCTCTGCAGAATCCATGACCCAGTGGGAAAAAGTGGTCCCTGGAGTCAGGCATATTGGA +TTCAAATCCTAGCTCTGCTATTTTCTAGCTATGTAACCTTGGGCAAGTCATCTCCCTTCTCTGTGCTTCA +GTTTCTTCTTTCATAGAAAGGGTAAAATCCCAAACTCTTGGGTTAAATGAGATAACTTACATAGCCCTTG +ATATGCAGAGGCATTATGGAATGTCGTTAGTGACAAAGTTCCCTTGGGTTTGGTCCCTGGTATCTCTGGA +GTGAGATTGCATATGTTCCCTTCAGAGGGTCAGATTTGGGATGAGAGTGGAGGCTGCGAGGGCCTGAGTG +GGAAGGGATTGGAGGCAAATCTCACCAACCATGTCAGTTTGCTACACACACTTTGGGTGGACCCTGACCC +TGACTCATGCTTCTTGCCTTCCAGTTCCGGAACTGCATGCTCACTACCCTCTGCTGTGGCAAGAACCCAC +TGGGTGACGATGAGGCCTCCACCACTGCCTC + +>gi|283855822|gb|GQ290312.1| Myotis ricketti voucher GQX10 rhodopsin (RHO) mRNA, partial cds +GTGCCCTTCTCCAACAAGACGGGTGTGGTGCGCAGCCCCTTCGAGTACCCGCAGTACTACCTGGCTGAGC +CCTGGCAGTTCTCCATGCTGGCTGCCTACATGTTTCTGCTGATCGTGCTCGGATTCCCCATCAACTTCCT +CACGCTCTACGTCACCGTCCAGCACAAGAAGCTGCGCACGCCTCTCAACTACATCCTGCTCAACCTGGCT +GTGGCCAACCTCTTCATGGTCTTTGGAGGCTTCACCACCACCCTGTATACCTCTATGCATGGATACTTCG +TCTTCGGGGCCACGGGATGCAATCTGGAGGGCTTCTTTGCCACGCTGGGCGGTGAAATCGCCCTGTGGTC +CCTGGTGGTCCTGGCCATCGAGCGGTATGTGGTGGTCTGCAAGCCCATGAGCAACTTCCGCTTTGGGGAG +AACCACGCCATCATGGGCCTCGCCTTCACGTGGGTCATGGCACTGGCCTGCGCTGCACCCCCACTAGCCG +GCTGGTCCAGGTACATCCCAGAGGGCATGCAGTGCTCGTGTGGGATTGACTACTACACGCTCAAACCGGA +GGTCAACAACGAGTCCTTCGTCATCTACATGTTCGTGGTCCACTTCACCATCCCCATGATTGTCATTTTC +TTCTGCTACGGACAGCTGGTGTTCACAGTGAAGGAGGCGGCTGCCCAGCAGCAGGAGTCAGCCACCACCC +AGAAGGCCGAGAAGGAAGTCACGCGCATGGTCATCATCATGGTCGTTGCGTTCCTAATCTGTTGGCTGCC +CTACGCCAGCGTGGCATTCTACATCTTTACCCACCAGGGCTCTAACTTTGGCCCTGTCTTCATGACCATC +CCGGCATTCTTCGCCAAGTCATCCTCCATCTACAACCCGGTCATCTATATCATGATGAACAAGCAGTTCC +GGAACTGCATGCTCACCACCCTCTGCTGTGGCAAGAACCCACTGGGTGATGACGAAGCATCCACCACTGC +CTC + +>gi|18148870|dbj|AB062417.1| Synthetic construct Bos taurus gene for rhodopsin, complete cds +ATGAACGGGACCGAGGGCCCAAACTTCTACGTGCCTTTCTCCAACAAGACGGGCGTCGTACGCAGCCCCT +TCGAGGCGCCGCAGTACTACCTGGCTGAGCCATGGCAGTTCAGCATGCTGGCCGCCTACATGTTCCTGCT +GATCATGCTTGGCTTCCCCATCAACTTCCTCACGCTGTACGTCACAGTCCAGCACAAGAAGCTGAGGACC +CCCCTCAACTACATCCTGCTCAACCTGGCCGTGGCAGATCTCTTCATGGTGTTCGGGGGCTTCACCACCA +CCCTGTATACCTCTCTGCACGGGTACTTCGTGTTCGGTCCGACGGGCTGCAACCTCGAGGGCTTCTTTGC +CACCTTAGGCGGTGAAATTGCACTGTGGTCCTTGGTGGTGCTAGCCATCGAGCGGTACGTAGTGGTGTGC +AAGCCCATGAGCAACTTCCGCTTCGGGGAGAACCACGCCATCATGGGCGTCGCATTCACCTGGGTCATGG +CTCTGGCCTGTGCGGCCCCCCCCCTCGTCGGCTGGTCTAGATACATCCCGGAGGGGATGCAGTGCTCGTG +CGGGATCGATTACTACACGCCCCACGAGGAGACCAACAATGAGTCGTTCGTCATCTACATGTTCGTTGTA +CACTTCATCATCCCCCTGATTGTCATATTCTTCTGCTACGGGCAGCTGGTCTTCACCGTCAAGGAGGCTG +CAGCCCAGCAGCAGGAGTCGGCCACCACTCAGAAGGCCGAGAAGGAGGTCACGCGTATGGTCATCATCAT +GGTCATCGCTTTCCTCATATGCTGGCTGCCCTACGCAGGTGTGGCGTTCTACATCTTCACCCATCAGGGA +TCCGACTTTGGCCCCATCTTCATGACCATCCCGGCTTTCTTTGCCAAGACGTCTGCCGTCTATAACCCCG +TCATCTACATCATGATGAACAAGCAGTTCCGGAACTGCATGGTCACCACTCTCTGCTGTGGCAAGAACCC +CCTAGGTGACGACGAGGCCTCCACGACCGTGTCCAAGACAGAGACCAGCCAAGTGGCCCCTGCCTAA + +>gi|12583664|dbj|AB043817.1| Conger myriaster conf gene for fresh water form rod opsin, complete cds +CCGCTACTGACGAACCGCAACCATGAACGGCACTGAGGGACCTAACTTCTACATCCCCATGTCAAACGCC +ACTGGTGTAGTGAGGAGTCCATTTGAATACCCGCAGTACTACCTTGCAGAACCATGGGCTTTCTCAGCTC +TGTCTGCCTACATGTTCTTCCTGATTATCGCCGGATTCCCCATCAACTTCCTCACCCTGTATGTCACCAT +CGAACATAAGAAACTGAGGACCCCACTGAACTACATTCTGCTGAACCTGGCCGTGGCCGACCTCTTCATG +GTGTTTGGCGGATTCACCACCACGATGTACACCTCCATGCACGGCTACTTTGTCTTCGGCCCCACCGGCT +GCAACATCGAAGGGTTCTTCGCCACCCTCGGCGGCGAGATTGCCCTCTGGTGCCTCGTTGTCCTGGCCAT +TGAAAGGTGGATGGTCGTCTGCAAGCCAGTGACCAATTTCCGCTTCGGTGAGAGCCATGCCATCATGGGT +GTCATGGTGACCTGGACCATGGCATTGGCCTGTGCCCTCCCCCCTCTCTTCGGCTGGTCTCGGTACATTC +CGGAAGGTCTGCAGTGCTCGTGCGGGATCGACTACTATACCCGGGCGCCTGGGATCAACAATGAGTCCTT +TGTGATCTACATGTTTACCTGCCACTTCTCCATCCCACTCGCCGTCATCTCTTTCTGCTACGGCCGACTG +GTGTGCACCGTCAAAGAGGCCGCTGCCCAGCAACAGGAGTCCGAGACCACCCAGAGGGCTGAGCGGGAGG +TCACCCGCATGGTCGTCATCATGGTCATCTCCTTCCTGGTCTGCTGGGTGCCCTATGCCAGTGTGGCCTG +GTACATCTTTACCCACCAGGGAAGCACTTTTGGGCCCATCTTCATGACCATTCCATCCTTCTTTGCCAAG +AGTTCAGCCCTCTACAACCCCATGATCTACATCTGCATGAACAAGCAGTTCCGCCATTGCATGATCACCA +CCCTCTGCTGTGGGAAGAACCCCTTCGAGGAGGAGGATGGAGCGTCCGCCACTAGCTCTAAAACTGAGGC +TTCATCCGTGTCCTCCAGCTCTGTCTCCCCGGCATAAACCTTGTTTGACCGAACACCACGCATCAACACA +AAGACCAAGAATGCTGACTAAATGCTAACATTTCAGGGAAATCCAAAGACTTTTTACTATTTTTTTACAC +AACCATATAGGTTGCAAACAGAGGTTTAGCCCTGTTTACAGGTTGTCATCAATGTGATGTCAGTATGTAC +AATATAGTCAACTTGATAGCAAGTTGTTGGCTTATTTCAGATTGTATGGGCAATGTAATCAACCATATGT +GAAATAAATTGCAA diff -r 10dce68b584b -r 45ba7c750bc8 test-data/rhodopsin_proteins.fasta --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/rhodopsin_proteins.fasta Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,43 @@ +>gi|57163783|ref|NP_001009242.1| rhodopsin [Felis catus] +MNGTEGPNFYVPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRT +PLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVC +KPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVV +HFTIPMIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQG +SNFGPIFMTLPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTTGSKTETSQVAPA + +>gi|3024260|sp|P56514.1|OPSD_BUFBU RecName: Full=Rhodopsin +MNGTEGPNFYIPMSNKTGVVRSPFEYPQYYLAEPWQYSILCAYMFLLILLGFPINFMTLYVTIQHKKLRT +PLNYILLNLAFANHFMVLCGFTVTMYSSMNGYFILGATGCYVEGFFATLGGEIALWSLVVLAIERYVVVC +KPMSNFRFSENHAVMGVAFTWIMALSCAVPPLLGWSRYIPEGMQCSCGVDYYTLKPEVNNESFVIYMFVV +HFTIPLIIIFFCYGRLVCTVKEAAAQQQESATTQKAEKEVTRMVIIMVVFFLICWVPYASVAFFIFSNQG +SEFGPIFMTVPAFFAKSSSIYNPVIYIMLNKQFRNCMITTLCCGKNPFGEDDASSAATSKTEASSVSSSQ +VSPA + +>gi|283855846|gb|ADB45242.1| rhodopsin [Cynopterus brachyotis] +VPFSNKTGVVRSPFEHPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLA +VADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGE +NHAIMGLALTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIF +FCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSNFGPIFMTL +PAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTTAS + +>gi|283855823|gb|ADB45229.1| rhodopsin [Myotis pilosus] +VPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLA +VANLFMVFGGFTTTLYTSMHGYFVFGATGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGE +NHAIMGLAFTWVMALACAAPPLAGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIF +FCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVVAFLICWLPYASVAFYIFTHQGSNFGPVFMTI +PAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTTAS + +>gi|223523|prf||0811197A rhodopsin [Bos taurus] +MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLYVTVQHKKLRT +PLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVC +KPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYTPHEETNNESFVIYMFVVH +FIIPLIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGS +DFGPIFMTIPAFFAKTSAVYNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA + +>gi|12583665|dbj|BAB21486.1| fresh water form rod opsin [Conger myriaster] +MNGTEGPNFYIPMSNATGVVRSPFEYPQYYLAEPWAFSALSAYMFFLIIAGFPINFLTLYVTIEHKKLRT +PLNYILLNLAVADLFMVFGGFTTTMYTSMHGYFVFGPTGCNIEGFFATLGGEIALWCLVVLAIERWMVVC +KPVTNFRFGESHAIMGVMVTWTMALACALPPLFGWSRYIPEGLQCSCGIDYYTRAPGINNESFVIYMFTC +HFSIPLAVISFCYGRLVCTVKEAAAQQQESETTQRAEREVTRMVVIMVISFLVCWVPYASVAWYIFTHQG +STFGPIFMTIPSFFAKSSALYNPMIYICMNKQFRHCMITTLCCGKNPFEEEDGASATSSKTEASSVSSSS +VSPA diff -r 10dce68b584b -r 45ba7c750bc8 test-data/tblastn_four_human_vs_rhodopsin.html --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/tblastn_four_human_vs_rhodopsin.html Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,787 @@ + +BLAST Search Results + +

+
+TBLASTN 2.2.25+
+
+
+Query= sp|Q9BS26|ERP44_HUMAN Endoplasmic reticulum resident protein 44
+OS=Homo sapiens GN=ERP44 PE=1 SV=1
+
+Length=406
+
+Subject= gi|57163782|ref|NM_001009242.1| Felis catus rhodopsin (RHO), mRNA
+
+Length=1047
+
+
+***** No hits found *****
+
+
+
+Lambda     K      H
+   0.347    0.182    0.684 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 127710
+
+
+Query= sp|Q9BS26|ERP44_HUMAN Endoplasmic reticulum resident protein 44
+OS=Homo sapiens GN=ERP44 PE=1 SV=1
+
+Length=406
+
+Subject= gi|2734705|gb|U59921.1|BBU59921 Bufo bufo rhodopsin mRNA, complete
+cds
+
+Length=1574
+
+
+***** No hits found *****
+
+
+
+Lambda     K      H
+   0.347    0.182    0.684 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 127710
+
+
+Query= sp|Q9BS26|ERP44_HUMAN Endoplasmic reticulum resident protein 44
+OS=Homo sapiens GN=ERP44 PE=1 SV=1
+
+Length=406
+
+Subject= gi|283855845|gb|GQ290303.1| Cynopterus brachyotis voucher 20020434
+rhodopsin (RHO) gene, exons 1 through 5 and partial cds
+
+Length=4301
+
+
+***** No hits found *****
+
+
+
+Lambda     K      H
+   0.347    0.182    0.684 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 127710
+
+
+Query= sp|Q9BS26|ERP44_HUMAN Endoplasmic reticulum resident protein 44
+OS=Homo sapiens GN=ERP44 PE=1 SV=1
+
+Length=406
+
+Subject= gi|283855822|gb|GQ290312.1| Myotis ricketti voucher GQX10 rhodopsin
+(RHO) mRNA, partial cds
+
+Length=983
+
+
+***** No hits found *****
+
+
+
+Lambda     K      H
+   0.347    0.182    0.684 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 127710
+
+
+Query= sp|Q9BS26|ERP44_HUMAN Endoplasmic reticulum resident protein 44
+OS=Homo sapiens GN=ERP44 PE=1 SV=1
+
+Length=406
+
+Subject= gi|18148870|dbj|AB062417.1| Synthetic construct Bos taurus gene for
+rhodopsin, complete cds
+
+Length=1047
+
+
+***** No hits found *****
+
+
+
+Lambda     K      H
+   0.347    0.182    0.684 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 127710
+
+
+Query= sp|Q9BS26|ERP44_HUMAN Endoplasmic reticulum resident protein 44
+OS=Homo sapiens GN=ERP44 PE=1 SV=1
+
+Length=406
+
+Subject= gi|12583664|dbj|AB043817.1| Conger myriaster conf gene for fresh
+water form rod opsin, complete cds
+
+Length=1344
+
+
+***** No hits found *****
+
+
+
+Lambda     K      H
+   0.347    0.182    0.684 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 127710
+
+
+Query= sp|Q9NSY1|BMP2K_HUMAN BMP-2-inducible protein kinase OS=Homo sapiens
+GN=BMP2K PE=1 SV=2
+
+Length=1161
+
+Subject= gi|57163782|ref|NM_001009242.1| Felis catus rhodopsin (RHO), mRNA
+
+Length=1047
+
+
+***** No hits found *****
+
+
+
+Lambda     K      H
+   0.334    0.170    0.615 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 370988
+
+
+Query= sp|Q9NSY1|BMP2K_HUMAN BMP-2-inducible protein kinase OS=Homo sapiens
+GN=BMP2K PE=1 SV=2
+
+Length=1161
+
+Subject= gi|2734705|gb|U59921.1|BBU59921 Bufo bufo rhodopsin mRNA, complete
+cds
+
+Length=1574
+
+
+***** No hits found *****
+
+
+
+Lambda     K      H
+   0.334    0.170    0.615 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 370988
+
+
+Query= sp|Q9NSY1|BMP2K_HUMAN BMP-2-inducible protein kinase OS=Homo sapiens
+GN=BMP2K PE=1 SV=2
+
+Length=1161
+
+Subject= gi|283855845|gb|GQ290303.1| Cynopterus brachyotis voucher 20020434
+rhodopsin (RHO) gene, exons 1 through 5 and partial cds
+
+Length=4301
+
+
+***** No hits found *****
+
+
+
+Lambda     K      H
+   0.334    0.170    0.615 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 370988
+
+
+Query= sp|Q9NSY1|BMP2K_HUMAN BMP-2-inducible protein kinase OS=Homo sapiens
+GN=BMP2K PE=1 SV=2
+
+Length=1161
+
+Subject= gi|283855822|gb|GQ290312.1| Myotis ricketti voucher GQX10 rhodopsin
+(RHO) mRNA, partial cds
+
+Length=983
+
+
+***** No hits found *****
+
+
+
+Lambda     K      H
+   0.334    0.170    0.615 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 370988
+
+
+Query= sp|Q9NSY1|BMP2K_HUMAN BMP-2-inducible protein kinase OS=Homo sapiens
+GN=BMP2K PE=1 SV=2
+
+Length=1161
+
+Subject= gi|18148870|dbj|AB062417.1| Synthetic construct Bos taurus gene for
+rhodopsin, complete cds
+
+Length=1047
+
+
+***** No hits found *****
+
+
+
+Lambda     K      H
+   0.334    0.170    0.615 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 370988
+
+
+Query= sp|Q9NSY1|BMP2K_HUMAN BMP-2-inducible protein kinase OS=Homo sapiens
+GN=BMP2K PE=1 SV=2
+
+Length=1161
+
+Subject= gi|12583664|dbj|AB043817.1| Conger myriaster conf gene for fresh
+water form rod opsin, complete cds
+
+Length=1344
+
+
+***** No hits found *****
+
+
+
+Lambda     K      H
+   0.334    0.170    0.615 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 370988
+
+
+Query= sp|P06213|INSR_HUMAN Insulin receptor OS=Homo sapiens GN=INSR PE=1
+SV=4
+
+Length=1382
+
+Subject= gi|57163782|ref|NM_001009242.1| Felis catus rhodopsin (RHO), mRNA
+
+Length=1047
+
+
+***** No hits found *****
+
+
+
+Lambda     K      H
+   0.346    0.180    0.700 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 441350
+
+
+Query= sp|P06213|INSR_HUMAN Insulin receptor OS=Homo sapiens GN=INSR PE=1
+SV=4
+
+Length=1382
+
+Subject= gi|2734705|gb|U59921.1|BBU59921 Bufo bufo rhodopsin mRNA, complete
+cds
+
+Length=1574
+
+
+***** No hits found *****
+
+
+
+Lambda     K      H
+   0.346    0.180    0.700 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 441350
+
+
+Query= sp|P06213|INSR_HUMAN Insulin receptor OS=Homo sapiens GN=INSR PE=1
+SV=4
+
+Length=1382
+
+Subject= gi|283855845|gb|GQ290303.1| Cynopterus brachyotis voucher 20020434
+rhodopsin (RHO) gene, exons 1 through 5 and partial cds
+
+Length=4301
+
+
+***** No hits found *****
+
+
+
+Lambda     K      H
+   0.346    0.180    0.700 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 441350
+
+
+Query= sp|P06213|INSR_HUMAN Insulin receptor OS=Homo sapiens GN=INSR PE=1
+SV=4
+
+Length=1382
+
+Subject= gi|283855822|gb|GQ290312.1| Myotis ricketti voucher GQX10 rhodopsin
+(RHO) mRNA, partial cds
+
+Length=983
+
+
+***** No hits found *****
+
+
+
+Lambda     K      H
+   0.346    0.180    0.700 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 441350
+
+
+Query= sp|P06213|INSR_HUMAN Insulin receptor OS=Homo sapiens GN=INSR PE=1
+SV=4
+
+Length=1382
+
+Subject= gi|18148870|dbj|AB062417.1| Synthetic construct Bos taurus gene for
+rhodopsin, complete cds
+
+Length=1047
+
+
+***** No hits found *****
+
+
+
+Lambda     K      H
+   0.346    0.180    0.700 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 441350
+
+
+Query= sp|P06213|INSR_HUMAN Insulin receptor OS=Homo sapiens GN=INSR PE=1
+SV=4
+
+Length=1382
+
+Subject= gi|12583664|dbj|AB043817.1| Conger myriaster conf gene for fresh
+water form rod opsin, complete cds
+
+Length=1344
+
+
+***** No hits found *****
+
+
+
+Lambda     K      H
+   0.346    0.180    0.700 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 441350
+
+
+Query= sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1
+
+Length=348
+
+Subject= gi|57163782|ref|NM_001009242.1| Felis catus rhodopsin (RHO), mRNA
+
+Length=1047
+
+
+ Score =  732 bits (1689),  Expect = 0.0, Method: Compositional matrix adjust.
+ Identities = 336/348 (97%), Positives = 343/348 (99%), Gaps = 0/348 (0%)
+ Frame = +1
+
+Query  1     MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLY  60
+             MNGTEGPNFYVPFSN TGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLY
+Sbjct  1     MNGTEGPNFYVPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLY  180
+
+Query  61    VTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLG  120
+             VTVQHKKLRTPLNYILLNLAVADLFMV GGFT+TLYTSLHGYFVFGPTGCNLEGFFATLG
+Sbjct  181   VTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLG  360
+
+Query  121   GEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIP  180
+             GEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPL GWSRYIP
+Sbjct  361   GEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIP  540
+
+Query  181   EGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQES  240
+             EG+QCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMI+IFFCYGQLVFTVKEAAAQQQES
+Sbjct  541   EGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEAAAQQQES  720
+
+Query  241   ATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAI  300
+             ATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMT+PAFFAKS++I
+Sbjct  721   ATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTLPAFFAKSSSI  900
+
+Query  301   YNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA  348
+             YNPVIYIMMNKQFRNCMLTT+CCGKNPLGDDEAS T SKTETSQVAPA
+Sbjct  901   YNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTTGSKTETSQVAPA  1044
+
+
+
+Lambda     K      H
+   0.351    0.182    0.707 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 109230
+
+
+Query= sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1
+
+Length=348
+
+Subject= gi|2734705|gb|U59921.1|BBU59921 Bufo bufo rhodopsin mRNA, complete
+cds
+
+Length=1574
+
+
+ Score =  646 bits (1489),  Expect = 0.0, Method: Compositional matrix adjust.
+ Identities = 290/342 (85%), Positives = 320/342 (94%), Gaps = 1/342 (0%)
+ Frame = +3
+
+Query  1     MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLY  60
+             MNGTEGPNFY+P SN TGVVRSPFEYPQYYLAEPWQ+S+L AYMFLLI+LGFPINF+TLY
+Sbjct  42    MNGTEGPNFYIPMSNKTGVVRSPFEYPQYYLAEPWQYSILCAYMFLLILLGFPINFMTLY  221
+
+Query  61    VTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLG  120
+             VT+QHKKLRTPLNYILLNLA A+ FMVL GFT T+Y+S+ GYF+ G TGC +EGFFATLG
+Sbjct  222   VTIQHKKLRTPLNYILLNLAFANHFMVLCGFTVTMYSSMNGYFILGATGCYVEGFFATLG  401
+
+Query  121   GEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIP  180
+             GEIALWSLVVLAIERYVVVCKPMSNFRF ENHA+MGVAFTW+MAL+CA PPL GWSRYIP
+Sbjct  402   GEIALWSLVVLAIERYVVVCKPMSNFRFSENHAVMGVAFTWIMALSCAVPPLLGWSRYIP  581
+
+Query  181   EGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQES  240
+             EG+QCSCG+DYYTLKPEVNNESFVIYMFVVHFTIP+IIIFFCYG+LV TVKEAAAQQQES
+Sbjct  582   EGMQCSCGVDYYTLKPEVNNESFVIYMFVVHFTIPLIIIFFCYGRLVCTVKEAAAQQQES  761
+
+Query  241   ATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAI  300
+             ATTQKAEKEVTRMVIIMV+ FLICWVPYASVAF+IF+ QGS FGPIFMT+PAFFAKS++I
+Sbjct  762   ATTQKAEKEVTRMVIIMVVFFLICWVPYASVAFFIFSNQGSEFGPIFMTVPAFFAKSSSI  941
+
+Query  301   YNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEA-SATVSKTE  341
+             YNPVIYIM+NKQFRNCM+TT+CCGKNP G+D+A SA  SKTE
+Sbjct  942   YNPVIYIMLNKQFRNCMITTLCCGKNPFGEDDASSAATSKTE  1067
+
+
+
+Lambda     K      H
+   0.351    0.182    0.707 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 109230
+
+
+Query= sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1
+
+Length=348
+
+Subject= gi|283855845|gb|GQ290303.1| Cynopterus brachyotis voucher 20020434
+rhodopsin (RHO) gene, exons 1 through 5 and partial cds
+
+Length=4301
+
+
+ Score =  151 bits (342),  Expect(2) = 1e-72, Method: Compositional matrix adjust.
+ Identities = 69/74 (94%), Positives = 73/74 (99%), Gaps = 0/74 (0%)
+ Frame = +3
+
+Query  239   ESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSA  298
+             ESATTQKAEKEVTRMVIIMVIAFLICW+PYA VAFYIFTHQGSNFGPIFMT+PAFFAKS+
+Sbjct  3147  ESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSNFGPIFMTLPAFFAKSS  3326
+
+Query  299   AIYNPVIYIMMNKQ  312
+             +IYNPVIYIMMNKQ
+Sbjct  3327  SIYNPVIYIMMNKQ  3368
+
+
+ Score =  126 bits (284),  Expect(2) = 1e-72, Method: Compositional matrix adjust.
+ Identities = 54/59 (92%), Positives = 57/59 (97%), Gaps = 0/59 (0%)
+ Frame = +2
+
+Query  177   RYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAA  235
+             RYIPEG+QCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMI+IFFCYGQLVFTVKE  +
+Sbjct  2855  RYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEVRS  3031
+
+
+ Score =  229 bits (523),  Expect = 1e-64, Method: Compositional matrix adjust.
+ Identities = 107/111 (97%), Positives = 109/111 (99%), Gaps = 0/111 (0%)
+ Frame = +1
+
+Query  11   VPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRT  70
+            VPFSN TGVVRSPFE+PQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRT
+Sbjct  1    VPFSNKTGVVRSPFEHPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRT  180
+
+Query  71   PLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGG  121
+            PLNYILLNLAVADLFMV GGFT+TLYTSLHGYFVFGPTGCNLEGFFATLGG
+Sbjct  181  PLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGG  333
+
+
+ Score =  122 bits (276),  Expect = 1e-32, Method: Compositional matrix adjust.
+ Identities = 55/59 (94%), Positives = 56/59 (95%), Gaps = 0/59 (0%)
+ Frame = +3
+
+Query  119   LGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSR  177
+             L GEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMG+A TWVMALACAAPPL GWSR
+Sbjct  1404  LAGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGLALTWVMALACAAPPLVGWSR  1580
+
+
+ Score = 57.7 bits (125),  Expect = 6e-13, Method: Compositional matrix adjust.
+ Identities = 23/26 (89%), Positives = 24/26 (93%), Gaps = 0/26 (0%)
+ Frame = +1
+
+Query  312   QFRNCMLTTICCGKNPLGDDEASATV  337
+             QFRNCMLTT+CCGKNPLGDDEAS T 
+Sbjct  4222  QFRNCMLTTLCCGKNPLGDDEASTTA  4299
+
+
+
+Lambda     K      H
+   0.351    0.182    0.707 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 109230
+
+
+Query= sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1
+
+Length=348
+
+Subject= gi|283855822|gb|GQ290312.1| Myotis ricketti voucher GQX10 rhodopsin
+(RHO) mRNA, partial cds
+
+Length=983
+
+
+ Score =  658 bits (1517),  Expect = 0.0, Method: Compositional matrix adjust.
+ Identities = 310/326 (96%), Positives = 322/326 (99%), Gaps = 0/326 (0%)
+ Frame = +1
+
+Query  11   VPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRT  70
+            VPFSN TGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRT
+Sbjct  1    VPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRT  180
+
+Query  71   PLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVV  130
+            PLNYILLNLAVA+LFMV GGFT+TLYTS+HGYFVFG TGCNLEGFFATLGGEIALWSLVV
+Sbjct  181  PLNYILLNLAVANLFMVFGGFTTTLYTSMHGYFVFGATGCNLEGFFATLGGEIALWSLVV  360
+
+Query  131  LAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGID  190
+            LAIERYVVVCKPMSNFRFGENHAIMG+AFTWVMALACAAPPLAGWSRYIPEG+QCSCGID
+Sbjct  361  LAIERYVVVCKPMSNFRFGENHAIMGLAFTWVMALACAAPPLAGWSRYIPEGMQCSCGID  540
+
+Query  191  YYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEV  250
+            YYTLKPEVNNESFVIYMFVVHFTIPMI+IFFCYGQLVFTVKEAAAQQQESATTQKAEKEV
+Sbjct  541  YYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEV  720
+
+Query  251  TRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMN  310
+            TRMVIIMV+AFLICW+PYASVAFYIFTHQGSNFGP+FMTIPAFFAKS++IYNPVIYIMMN
+Sbjct  721  TRMVIIMVVAFLICWLPYASVAFYIFTHQGSNFGPVFMTIPAFFAKSSSIYNPVIYIMMN  900
+
+Query  311  KQFRNCMLTTICCGKNPLGDDEASAT  336
+            KQFRNCMLTT+CCGKNPLGDDEAS T
+Sbjct  901  KQFRNCMLTTLCCGKNPLGDDEASTT  978
+
+
+
+Lambda     K      H
+   0.351    0.182    0.707 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 109230
+
+
+Query= sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1
+
+Length=348
+
+Subject= gi|18148870|dbj|AB062417.1| Synthetic construct Bos taurus gene for
+rhodopsin, complete cds
+
+Length=1047
+
+
+ Score =  711 bits (1640),  Expect = 0.0, Method: Compositional matrix adjust.
+ Identities = 325/348 (94%), Positives = 337/348 (97%), Gaps = 0/348 (0%)
+ Frame = +1
+
+Query  1     MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLY  60
+             MNGTEGPNFYVPFSN TGVVRSPFE PQYYLAEPWQFSMLAAYMFLLI+LGFPINFLTLY
+Sbjct  1     MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLY  180
+
+Query  61    VTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLG  120
+             VTVQHKKLRTPLNYILLNLAVADLFMV GGFT+TLYTSLHGYFVFGPTGCNLEGFFATLG
+Sbjct  181   VTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLG  360
+
+Query  121   GEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIP  180
+             GEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPL GWSRYIP
+Sbjct  361   GEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIP  540
+
+Query  181   EGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQES  240
+             EG+QCSCGIDYYT   E NNESFVIYMFVVHF IP+I+IFFCYGQLVFTVKEAAAQQQES
+Sbjct  541   EGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAAQQQES  720
+
+Query  241   ATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAI  300
+             ATTQKAEKEVTRMVIIMVIAFLICW+PYA VAFYIFTHQGS+FGPIFMTIPAFFAK++A+
+Sbjct  721   ATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTSAV  900
+
+Query  301   YNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA  348
+             YNPVIYIMMNKQFRNCM+TT+CCGKNPLGDDEAS TVSKTETSQVAPA
+Sbjct  901   YNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA  1044
+
+
+
+Lambda     K      H
+   0.351    0.182    0.707 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 109230
+
+
+Query= sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1
+
+Length=348
+
+Subject= gi|12583664|dbj|AB043817.1| Conger myriaster conf gene for fresh
+water form rod opsin, complete cds
+
+Length=1344
+
+
+ Score =  626 bits (1444),  Expect = 0.0, Method: Compositional matrix adjust.
+ Identities = 281/342 (83%), Positives = 311/342 (91%), Gaps = 1/342 (0%)
+ Frame = +2
+
+Query  1     MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLY  60
+             MNGTEGPNFY+P SNATGVVRSPFEYPQYYLAEPW FS L+AYMF LI+ GFPINFLTLY
+Sbjct  23    MNGTEGPNFYIPMSNATGVVRSPFEYPQYYLAEPWAFSALSAYMFFLIIAGFPINFLTLY  202
+
+Query  61    VTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLG  120
+             VT++HKKLRTPLNYILLNLAVADLFMV GGFT+T+YTS+HGYFVFGPTGCN+EGFFATLG
+Sbjct  203   VTIEHKKLRTPLNYILLNLAVADLFMVFGGFTTTMYTSMHGYFVFGPTGCNIEGFFATLG  382
+
+Query  121   GEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIP  180
+             GEIALW LVVLAIER++VVCKP++NFRFGE HAIMGV  TW MALACA PPL GWSRYIP
+Sbjct  383   GEIALWCLVVLAIERWMVVCKPVTNFRFGESHAIMGVMVTWTMALACALPPLFGWSRYIP  562
+
+Query  181   EGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQES  240
+             EGLQCSCGIDYYT  P +NNESFVIYMF  HF+IP+ +I FCYG+LV TVKEAAAQQQES
+Sbjct  563   EGLQCSCGIDYYTRAPGINNESFVIYMFTCHFSIPLAVISFCYGRLVCTVKEAAAQQQES  742
+
+Query  241   ATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAI  300
+              TTQ+AE+EVTRMV+IMVI+FL+CWVPYASVA YIFTHQGS FGPIFMTIP+FFAKS+A+
+Sbjct  743   ETTQRAEREVTRMVVIMVISFLVCWVPYASVAWYIFTHQGSTFGPIFMTIPSFFAKSSAL  922
+
+Query  301   YNPVIYIMMNKQFRNCMLTTICCGKNPL-GDDEASATVSKTE  341
+             YNP+IYI MNKQFR CM+TT+CCGKNP   +D ASAT SKTE
+Sbjct  923   YNPMIYICMNKQFRHCMITTLCCGKNPFEEEDGASATSSKTE  1048
+
+
+
+Lambda     K      H
+   0.351    0.182    0.707 
+
+Gapped
+Lambda     K      H
+   0.299   0.0710    0.270 
+
+Effective search space used: 109230
+
+
+
+
+Matrix: BLOSUM80
+Gap Penalties: Existence: 10, Extension: 1
+Neighboring words threshold: 14
+Window for multiple hits: 25
+

+ + diff -r 10dce68b584b -r 45ba7c750bc8 test-data/tblastn_four_human_vs_rhodopsin.tabular --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/tblastn_four_human_vs_rhodopsin.tabular Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,10 @@ +sp|P08100|OPSD_HUMAN gi|57163782|ref|NM_001009242.1| 96.55 348 12 0 1 348 1 1044 0.0 732 +sp|P08100|OPSD_HUMAN gi|2734705|gb|U59921.1|BBU59921 84.80 342 51 1 1 341 42 1067 0.0 646 +sp|P08100|OPSD_HUMAN gi|283855845|gb|GQ290303.1| 93.24 74 5 0 239 312 3147 3368 1e-72 151 +sp|P08100|OPSD_HUMAN gi|283855845|gb|GQ290303.1| 91.53 59 5 0 177 235 2855 3031 1e-72 126 +sp|P08100|OPSD_HUMAN gi|283855845|gb|GQ290303.1| 96.40 111 4 0 11 121 1 333 1e-64 229 +sp|P08100|OPSD_HUMAN gi|283855845|gb|GQ290303.1| 93.22 59 4 0 119 177 1404 1580 1e-32 122 +sp|P08100|OPSD_HUMAN gi|283855845|gb|GQ290303.1| 88.46 26 3 0 312 337 4222 4299 6e-13 57.7 +sp|P08100|OPSD_HUMAN gi|283855822|gb|GQ290312.1| 95.09 326 16 0 11 336 1 978 0.0 658 +sp|P08100|OPSD_HUMAN gi|18148870|dbj|AB062417.1| 93.39 348 23 0 1 348 1 1044 0.0 711 +sp|P08100|OPSD_HUMAN gi|12583664|dbj|AB043817.1| 82.16 342 60 1 1 341 23 1048 0.0 626 diff -r 10dce68b584b -r 45ba7c750bc8 test-data/tblastn_four_human_vs_rhodopsin.xml --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/tblastn_four_human_vs_rhodopsin.xml Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,722 @@ + + + + tblastn + TBLASTN 2.2.25+ + Stephen F. Altschul, Thomas L. Madden, Alejandro A. Schäffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. + + Query_1 + sp|Q9BS26|ERP44_HUMAN Endoplasmic reticulum resident protein 44 OS=Homo sapiens GN=ERP44 PE=1 SV=1 + 406 + + + BLOSUM80 + 1e-10 + 10 + 1 + F + + + + + 1 + Query_1 + sp|Q9BS26|ERP44_HUMAN Endoplasmic reticulum resident protein 44 OS=Homo sapiens GN=ERP44 PE=1 SV=1 + 406 + + + + 0 + 0 + 19 + 127710 + 0.071 + 0.299 + 0.27 + + + No hits found + + + 2 + Query_1 + sp|Q9BS26|ERP44_HUMAN Endoplasmic reticulum resident protein 44 OS=Homo sapiens GN=ERP44 PE=1 SV=1 + 406 + + + + 0 + 0 + 19 + 127710 + 0.071 + 0.299 + 0.27 + + + No hits found + + + 3 + Query_1 + sp|Q9BS26|ERP44_HUMAN Endoplasmic reticulum resident protein 44 OS=Homo sapiens GN=ERP44 PE=1 SV=1 + 406 + + + + 0 + 0 + 19 + 127710 + 0.071 + 0.299 + 0.27 + + + No hits found + + + 4 + Query_1 + sp|Q9BS26|ERP44_HUMAN Endoplasmic reticulum resident protein 44 OS=Homo sapiens GN=ERP44 PE=1 SV=1 + 406 + + + + 0 + 0 + 19 + 127710 + 0.071 + 0.299 + 0.27 + + + No hits found + + + 5 + Query_1 + sp|Q9BS26|ERP44_HUMAN Endoplasmic reticulum resident protein 44 OS=Homo sapiens GN=ERP44 PE=1 SV=1 + 406 + + + + 0 + 0 + 19 + 127710 + 0.071 + 0.299 + 0.27 + + + No hits found + + + 6 + Query_1 + sp|Q9BS26|ERP44_HUMAN Endoplasmic reticulum resident protein 44 OS=Homo sapiens GN=ERP44 PE=1 SV=1 + 406 + + + + 0 + 0 + 19 + 127710 + 0.071 + 0.299 + 0.27 + + + No hits found + + + 7 + Query_2 + sp|Q9NSY1|BMP2K_HUMAN BMP-2-inducible protein kinase OS=Homo sapiens GN=BMP2K PE=1 SV=2 + 1161 + + + + 0 + 0 + 23 + 370988 + 0.071 + 0.299 + 0.27 + + + No hits found + + + 8 + Query_2 + sp|Q9NSY1|BMP2K_HUMAN BMP-2-inducible protein kinase OS=Homo sapiens GN=BMP2K PE=1 SV=2 + 1161 + + + + 0 + 0 + 23 + 370988 + 0.071 + 0.299 + 0.27 + + + No hits found + + + 9 + Query_2 + sp|Q9NSY1|BMP2K_HUMAN BMP-2-inducible protein kinase OS=Homo sapiens GN=BMP2K PE=1 SV=2 + 1161 + + + + 0 + 0 + 23 + 370988 + 0.071 + 0.299 + 0.27 + + + No hits found + + + 10 + Query_2 + sp|Q9NSY1|BMP2K_HUMAN BMP-2-inducible protein kinase OS=Homo sapiens GN=BMP2K PE=1 SV=2 + 1161 + + + + 0 + 0 + 23 + 370988 + 0.071 + 0.299 + 0.27 + + + No hits found + + + 11 + Query_2 + sp|Q9NSY1|BMP2K_HUMAN BMP-2-inducible protein kinase OS=Homo sapiens GN=BMP2K PE=1 SV=2 + 1161 + + + + 0 + 0 + 23 + 370988 + 0.071 + 0.299 + 0.27 + + + No hits found + + + 12 + Query_2 + sp|Q9NSY1|BMP2K_HUMAN BMP-2-inducible protein kinase OS=Homo sapiens GN=BMP2K PE=1 SV=2 + 1161 + + + + 0 + 0 + 23 + 370988 + 0.071 + 0.299 + 0.27 + + + No hits found + + + 13 + Query_3 + sp|P06213|INSR_HUMAN Insulin receptor OS=Homo sapiens GN=INSR PE=1 SV=4 + 1382 + + + + 0 + 0 + 24 + 441350 + 0.071 + 0.299 + 0.27 + + + No hits found + + + 14 + Query_3 + sp|P06213|INSR_HUMAN Insulin receptor OS=Homo sapiens GN=INSR PE=1 SV=4 + 1382 + + + + 0 + 0 + 24 + 441350 + 0.071 + 0.299 + 0.27 + + + No hits found + + + 15 + Query_3 + sp|P06213|INSR_HUMAN Insulin receptor OS=Homo sapiens GN=INSR PE=1 SV=4 + 1382 + + + + 0 + 0 + 24 + 441350 + 0.071 + 0.299 + 0.27 + + + No hits found + + + 16 + Query_3 + sp|P06213|INSR_HUMAN Insulin receptor OS=Homo sapiens GN=INSR PE=1 SV=4 + 1382 + + + + 0 + 0 + 24 + 441350 + 0.071 + 0.299 + 0.27 + + + No hits found + + + 17 + Query_3 + sp|P06213|INSR_HUMAN Insulin receptor OS=Homo sapiens GN=INSR PE=1 SV=4 + 1382 + + + + 0 + 0 + 24 + 441350 + 0.071 + 0.299 + 0.27 + + + No hits found + + + 18 + Query_3 + sp|P06213|INSR_HUMAN Insulin receptor OS=Homo sapiens GN=INSR PE=1 SV=4 + 1382 + + + + 0 + 0 + 24 + 441350 + 0.071 + 0.299 + 0.27 + + + No hits found + + + 19 + Query_4 + sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 + 348 + + + 1 + Subject_1 + gi|57163782|ref|NM_001009242.1| Felis catus rhodopsin (RHO), mRNA + Subject_1 + 1047 + + + 1 + 732.392902459534 + 1689 + 0 + 1 + 348 + 1 + 1044 + 0 + 1 + 336 + 343 + 0 + 348 + MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA + MNGTEGPNFYVPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTLPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTTGSKTETSQVAPA + MNGTEGPNFYVPFSN TGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMV GGFT+TLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPL GWSRYIPEG+QCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMI+IFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMT+PAFFAKS++IYNPVIYIMMNKQFRNCMLTT+CCGKNPLGDDEAS T SKTETSQVAPA + + + + + + + 0 + 0 + 18 + 109230 + 0.071 + 0.299 + 0.27 + + + + + 20 + Query_4 + sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 + 348 + + + 1 + Subject_2 + gi|2734705|gb|U59921.1|BBU59921 Bufo bufo rhodopsin mRNA, complete cds + Subject_2 + 1574 + + + 1 + 646.119739014374 + 1489 + 0 + 1 + 341 + 42 + 1067 + 0 + 3 + 290 + 320 + 1 + 342 + MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEA-SATVSKTE + MNGTEGPNFYIPMSNKTGVVRSPFEYPQYYLAEPWQYSILCAYMFLLILLGFPINFMTLYVTIQHKKLRTPLNYILLNLAFANHFMVLCGFTVTMYSSMNGYFILGATGCYVEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFSENHAVMGVAFTWIMALSCAVPPLLGWSRYIPEGMQCSCGVDYYTLKPEVNNESFVIYMFVVHFTIPLIIIFFCYGRLVCTVKEAAAQQQESATTQKAEKEVTRMVIIMVVFFLICWVPYASVAFFIFSNQGSEFGPIFMTVPAFFAKSSSIYNPVIYIMLNKQFRNCMITTLCCGKNPFGEDDASSAATSKTE + MNGTEGPNFY+P SN TGVVRSPFEYPQYYLAEPWQ+S+L AYMFLLI+LGFPINF+TLYVT+QHKKLRTPLNYILLNLA A+ FMVL GFT T+Y+S+ GYF+ G TGC +EGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRF ENHA+MGVAFTW+MAL+CA PPL GWSRYIPEG+QCSCG+DYYTLKPEVNNESFVIYMFVVHFTIP+IIIFFCYG+LV TVKEAAAQQQESATTQKAEKEVTRMVIIMV+ FLICWVPYASVAF+IF+ QGS FGPIFMT+PAFFAKS++IYNPVIYIM+NKQFRNCM+TT+CCGKNP G+D+A SA SKTE + + + + + + + 0 + 0 + 18 + 109230 + 0.071 + 0.299 + 0.27 + + + + + 21 + Query_4 + sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 + 348 + + + 1 + Subject_3 + gi|283855845|gb|GQ290303.1| Cynopterus brachyotis voucher 20020434 rhodopsin (RHO) gene, exons 1 through 5 and partial cds + Subject_3 + 4301 + + + 1 + 151.343146656381 + 342 + 1.39566684546685e-72 + 239 + 312 + 3147 + 3368 + 0 + 3 + 69 + 73 + 0 + 74 + ESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQ + ESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSNFGPIFMTLPAFFAKSSSIYNPVIYIMMNKQ + ESATTQKAEKEVTRMVIIMVIAFLICW+PYA VAFYIFTHQGSNFGPIFMT+PAFFAKS++IYNPVIYIMMNKQ + + + 2 + 126.323929257285 + 284 + 1.39566684546685e-72 + 177 + 235 + 2855 + 3031 + 0 + 2 + 54 + 57 + 0 + 59 + RYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAA + RYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEVRS + RYIPEG+QCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMI+IFFCYGQLVFTVKE + + + + 3 + 229.420359574251 + 523 + 9.84654801241353e-65 + 11 + 121 + 1 + 333 + 0 + 1 + 107 + 109 + 0 + 111 + VPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGG + VPFSNKTGVVRSPFEHPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGG + VPFSN TGVVRSPFE+PQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMV GGFT+TLYTSLHGYFVFGPTGCNLEGFFATLGG + + + 4 + 122.873002719478 + 276 + 1.40732096096596e-32 + 119 + 177 + 1404 + 1580 + 0 + 3 + 55 + 56 + 0 + 59 + LGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSR + LAGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGLALTWVMALACAAPPLVGWSR + L GEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMG+A TWVMALACAAPPL GWSR + + + 5 + 57.7367643183824 + 125 + 5.60065526485586e-13 + 312 + 337 + 4222 + 4299 + 0 + 1 + 23 + 24 + 0 + 26 + QFRNCMLTTICCGKNPLGDDEASATV + QFRNCMLTTLCCGKNPLGDDEASTTA + QFRNCMLTT+CCGKNPLGDDEAS T + + + + + + + 0 + 0 + 18 + 109230 + 0.071 + 0.299 + 0.27 + + + + + 22 + Query_4 + sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 + 348 + + + 1 + Subject_4 + gi|283855822|gb|GQ290312.1| Myotis ricketti voucher GQX10 rhodopsin (RHO) mRNA, partial cds + Subject_4 + 983 + + + 1 + 658.197981896696 + 1517 + 0 + 11 + 336 + 1 + 978 + 0 + 1 + 310 + 322 + 0 + 326 + VPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASAT + VPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVANLFMVFGGFTTTLYTSMHGYFVFGATGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGLAFTWVMALACAAPPLAGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVVAFLICWLPYASVAFYIFTHQGSNFGPVFMTIPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTT + VPFSN TGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVA+LFMV GGFT+TLYTS+HGYFVFG TGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMG+AFTWVMALACAAPPLAGWSRYIPEG+QCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMI+IFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMV+AFLICW+PYASVAFYIFTHQGSNFGP+FMTIPAFFAKS++IYNPVIYIMMNKQFRNCMLTT+CCGKNPLGDDEAS T + + + + + + + 0 + 0 + 18 + 109230 + 0.071 + 0.299 + 0.27 + + + + + 23 + Query_4 + sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 + 348 + + + 1 + Subject_5 + gi|18148870|dbj|AB062417.1| Synthetic construct Bos taurus gene for rhodopsin, complete cds + Subject_5 + 1047 + + + 1 + 711.255977415469 + 1640 + 0 + 1 + 348 + 1 + 1044 + 0 + 1 + 325 + 337 + 0 + 348 + MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA + MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTSAVYNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA + MNGTEGPNFYVPFSN TGVVRSPFE PQYYLAEPWQFSMLAAYMFLLI+LGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMV GGFT+TLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPL GWSRYIPEG+QCSCGIDYYT E NNESFVIYMFVVHF IP+I+IFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICW+PYA VAFYIFTHQGS+FGPIFMTIPAFFAK++A+YNPVIYIMMNKQFRNCM+TT+CCGKNPLGDDEAS TVSKTETSQVAPA + + + + + + + 0 + 0 + 18 + 109230 + 0.071 + 0.299 + 0.27 + + + + + 24 + Query_4 + sp|P08100|OPSD_HUMAN Rhodopsin OS=Homo sapiens GN=RHO PE=1 SV=1 + 348 + + + 1 + Subject_6 + gi|12583664|dbj|AB043817.1| Conger myriaster conf gene for fresh water form rod opsin, complete cds + Subject_6 + 1344 + + + 1 + 626.708277239213 + 1444 + 0 + 1 + 341 + 23 + 1048 + 0 + 2 + 281 + 311 + 1 + 342 + MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPL-GDDEASATVSKTE + MNGTEGPNFYIPMSNATGVVRSPFEYPQYYLAEPWAFSALSAYMFFLIIAGFPINFLTLYVTIEHKKLRTPLNYILLNLAVADLFMVFGGFTTTMYTSMHGYFVFGPTGCNIEGFFATLGGEIALWCLVVLAIERWMVVCKPVTNFRFGESHAIMGVMVTWTMALACALPPLFGWSRYIPEGLQCSCGIDYYTRAPGINNESFVIYMFTCHFSIPLAVISFCYGRLVCTVKEAAAQQQESETTQRAEREVTRMVVIMVISFLVCWVPYASVAWYIFTHQGSTFGPIFMTIPSFFAKSSALYNPMIYICMNKQFRHCMITTLCCGKNPFEEEDGASATSSKTE + MNGTEGPNFY+P SNATGVVRSPFEYPQYYLAEPW FS L+AYMF LI+ GFPINFLTLYVT++HKKLRTPLNYILLNLAVADLFMV GGFT+T+YTS+HGYFVFGPTGCN+EGFFATLGGEIALW LVVLAIER++VVCKP++NFRFGE HAIMGV TW MALACA PPL GWSRYIPEGLQCSCGIDYYT P +NNESFVIYMF HF+IP+ +I FCYG+LV TVKEAAAQQQES TTQ+AE+EVTRMV+IMVI+FL+CWVPYASVA YIFTHQGS FGPIFMTIP+FFAKS+A+YNP+IYI MNKQFR CM+TT+CCGKNP +D ASAT SKTE + + + + + + + 0 + 0 + 18 + 109230 + 0.071 + 0.299 + 0.27 + + + + + diff -r 10dce68b584b -r 45ba7c750bc8 test-data/tblastn_four_human_vs_rhodopsin_ext.tabular --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/tblastn_four_human_vs_rhodopsin_ext.tabular Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,10 @@ +sp|P08100|OPSD_HUMAN gi|57163782|ref|NM_001009242.1| 96.55 348 12 0 1 348 1 1044 0.0 732 gi|57163782|ref|NM_001009242.1| 1689 336 343 0 98.56 0 1 MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA MNGTEGPNFYVPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTLPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTTGSKTETSQVAPA 348 1047 +sp|P08100|OPSD_HUMAN gi|2734705|gb|U59921.1|BBU59921 84.80 342 51 1 1 341 42 1067 0.0 646 gi|2734705|gb|U59921.1|BBU59921 1489 290 320 1 93.57 0 3 MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEA-SATVSKTE MNGTEGPNFYIPMSNKTGVVRSPFEYPQYYLAEPWQYSILCAYMFLLILLGFPINFMTLYVTIQHKKLRTPLNYILLNLAFANHFMVLCGFTVTMYSSMNGYFILGATGCYVEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFSENHAVMGVAFTWIMALSCAVPPLLGWSRYIPEGMQCSCGVDYYTLKPEVNNESFVIYMFVVHFTIPLIIIFFCYGRLVCTVKEAAAQQQESATTQKAEKEVTRMVIIMVVFFLICWVPYASVAFFIFSNQGSEFGPIFMTVPAFFAKSSSIYNPVIYIMLNKQFRNCMITTLCCGKNPFGEDDASSAATSKTE 348 1574 +sp|P08100|OPSD_HUMAN gi|283855845|gb|GQ290303.1| 93.24 74 5 0 239 312 3147 3368 1e-72 151 gi|283855845|gb|GQ290303.1| 342 69 73 0 98.65 0 3 ESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQ ESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSNFGPIFMTLPAFFAKSSSIYNPVIYIMMNKQ 348 4301 +sp|P08100|OPSD_HUMAN gi|283855845|gb|GQ290303.1| 91.53 59 5 0 177 235 2855 3031 1e-72 126 gi|283855845|gb|GQ290303.1| 284 54 57 0 96.61 0 2 RYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAA RYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEVRS 348 4301 +sp|P08100|OPSD_HUMAN gi|283855845|gb|GQ290303.1| 96.40 111 4 0 11 121 1 333 1e-64 229 gi|283855845|gb|GQ290303.1| 523 107 109 0 98.20 0 1 VPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGG VPFSNKTGVVRSPFEHPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGG 348 4301 +sp|P08100|OPSD_HUMAN gi|283855845|gb|GQ290303.1| 93.22 59 4 0 119 177 1404 1580 1e-32 122 gi|283855845|gb|GQ290303.1| 276 55 56 0 94.92 0 3 LGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSR LAGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGLALTWVMALACAAPPLVGWSR 348 4301 +sp|P08100|OPSD_HUMAN gi|283855845|gb|GQ290303.1| 88.46 26 3 0 312 337 4222 4299 6e-13 57.7 gi|283855845|gb|GQ290303.1| 125 23 24 0 92.31 0 1 QFRNCMLTTICCGKNPLGDDEASATV QFRNCMLTTLCCGKNPLGDDEASTTA 348 4301 +sp|P08100|OPSD_HUMAN gi|283855822|gb|GQ290312.1| 95.09 326 16 0 11 336 1 978 0.0 658 gi|283855822|gb|GQ290312.1| 1517 310 322 0 98.77 0 1 VPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASAT VPFSNKTGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVANLFMVFGGFTTTLYTSMHGYFVFGATGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGLAFTWVMALACAAPPLAGWSRYIPEGMQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVVAFLICWLPYASVAFYIFTHQGSNFGPVFMTIPAFFAKSSSIYNPVIYIMMNKQFRNCMLTTLCCGKNPLGDDEASTT 348 983 +sp|P08100|OPSD_HUMAN gi|18148870|dbj|AB062417.1| 93.39 348 23 0 1 348 1 1044 0.0 711 gi|18148870|dbj|AB062417.1| 1640 325 337 0 96.84 0 1 MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPLGDDEASATVSKTETSQVAPA MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTSAVYNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA 348 1047 +sp|P08100|OPSD_HUMAN gi|12583664|dbj|AB043817.1| 82.16 342 60 1 1 341 23 1048 0.0 626 gi|12583664|dbj|AB043817.1| 1444 281 311 1 90.94 0 2 MNGTEGPNFYVPFSNATGVVRSPFEYPQYYLAEPWQFSMLAAYMFLLIVLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVLGGFTSTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLAGWSRYIPEGLQCSCGIDYYTLKPEVNNESFVIYMFVVHFTIPMIIIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWVPYASVAFYIFTHQGSNFGPIFMTIPAFFAKSAAIYNPVIYIMMNKQFRNCMLTTICCGKNPL-GDDEASATVSKTE MNGTEGPNFYIPMSNATGVVRSPFEYPQYYLAEPWAFSALSAYMFFLIIAGFPINFLTLYVTIEHKKLRTPLNYILLNLAVADLFMVFGGFTTTMYTSMHGYFVFGPTGCNIEGFFATLGGEIALWCLVVLAIERWMVVCKPVTNFRFGESHAIMGVMVTWTMALACALPPLFGWSRYIPEGLQCSCGIDYYTRAPGINNESFVIYMFTCHFSIPLAVISFCYGRLVCTVKEAAAQQQESETTQRAEREVTRMVVIMVISFLVCWVPYASVAWYIFTHQGSTFGPIFMTIPSFFAKSSALYNPMIYICMNKQFRHCMITTLCCGKNPFEEEDGASATSSKTE 348 1344 diff -r 10dce68b584b -r 45ba7c750bc8 test-data/tblastn_four_human_vs_rhodopsin_parse_deflines.tabular --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/test-data/tblastn_four_human_vs_rhodopsin_parse_deflines.tabular Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,10 @@ +sp|P08100|OPSD_HUMAN gi|57163782|ref|NM_001009242.1| 96.55 348 12 0 1 348 1 1044 0.0 732 +sp|P08100|OPSD_HUMAN gi|2734705|gb|U59921.1|BBU59921 84.80 342 51 1 1 341 42 1067 0.0 646 +sp|P08100|OPSD_HUMAN gi|283855845|gb|GQ290303.1| 93.24 74 5 0 239 312 3147 3368 1e-72 151 +sp|P08100|OPSD_HUMAN gi|283855845|gb|GQ290303.1| 91.53 59 5 0 177 235 2855 3031 1e-72 126 +sp|P08100|OPSD_HUMAN gi|283855845|gb|GQ290303.1| 96.40 111 4 0 11 121 1 333 1e-64 229 +sp|P08100|OPSD_HUMAN gi|283855845|gb|GQ290303.1| 93.22 59 4 0 119 177 1404 1580 1e-32 122 +sp|P08100|OPSD_HUMAN gi|283855845|gb|GQ290303.1| 88.46 26 3 0 312 337 4222 4299 6e-13 57.7 +sp|P08100|OPSD_HUMAN gi|283855822|gb|GQ290312.1| 95.09 326 16 0 11 336 1 978 0.0 658 +sp|P08100|OPSD_HUMAN gi|18148870|dbj|AB062417.1| 93.39 348 23 0 1 348 1 1044 0.0 711 +sp|P08100|OPSD_HUMAN gi|12583664|dbj|AB043817.1| 82.16 342 60 1 1 341 23 1048 0.0 626 diff -r 10dce68b584b -r 45ba7c750bc8 tools/ncbi_blast_plus/blastdb.loc.sample --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/tools/ncbi_blast_plus/blastdb.loc.sample Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,38 @@ +#This is a sample file distributed with Galaxy that is used to define a +#list of nucleotide BLAST databases, using three columns tab separated +#(longer whitespace are TAB characters): +# +# +# +#The captions typically contain spaces and might end with the build date. +#It is important that the actual database name does not have a space in it, +#and that the first tab that appears in the line is right before the path. +# +#So, for example, if your database is nt and the path to your base name +#is /depot/data2/galaxy/blastdb/nt/nt.chunk, then the blastdb.loc entry +#would look like this: +# +#nt_02_Dec_2009 nt 02 Dec 2009 /depot/data2/galaxy/blastdb/nt/nt.chunk +# +#and your /depot/data2/galaxy/blastdb/nt directory would contain all of +#your "base names" (e.g.): +# +#-rw-r--r-- 1 wychung galaxy 23437408 2008-04-09 11:26 nt.chunk.00.nhr +#-rw-r--r-- 1 wychung galaxy 3689920 2008-04-09 11:26 nt.chunk.00.nin +#-rw-r--r-- 1 wychung galaxy 251215198 2008-04-09 11:26 nt.chunk.00.nsq +#...etc... +# +#Your blastdb.loc file should include an entry per line for each "base name" +#you have stored. For example: +# +#nt_02_Dec_2009 nt 02 Dec 2009 /depot/data2/galaxy/blastdb/nt/nt.chunk +#wgs_30_Nov_2009 wgs 30 Nov 2009 /depot/data2/galaxy/blastdb/wgs/wgs.chunk +#test_20_Sep_2008 test 20 Sep 2008 /depot/data2/galaxy/blastdb/test/test +#...etc... +# +#See also blastdb_p.loc which is for any protein BLAST database. +# +#Note that for backwards compatibility with workflows, the unique ID of +#an entry must be the path that was in the original loc file, because that +#is the value stored in the workflow for that parameter. +# diff -r 10dce68b584b -r 45ba7c750bc8 tools/ncbi_blast_plus/blastdb_p.loc.sample --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/tools/ncbi_blast_plus/blastdb_p.loc.sample Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,27 @@ +#This is a sample file distributed with Galaxy that is used to define a +#list of protein BLAST databases, using three columns tab separated +#(longer whitespace are TAB characters): +# +# +# +#The captions typically contain spaces and might end with the build date. +#It is important that the actual database name does not have a space in it, +#and that the first tab that appears in the line is right before the path. +# +#So, for example, if your database is NR and the path to your base name +#is /data/blastdb/nr, then the blastdb_p.loc entry would look like this: +# +#nr NCBI NR (non redundant) /data/blastdb/nr +# +#and your /data/blastdb directory would contain all of the files associated +#with the database, /data/blastdb/nr.*. +# +#Your blastdb_p.loc file should include an entry per line for each "base name" +#you have stored. For example: +# +#nr_05Jun2010 NCBI NR (non redundant) 05 Jun 2010 /data/blastdb/05Jun2010/nr +#nr_15Aug2010 NCBI NR (non redundant) 15 Aug 2010 /data/blastdb/15Aug2010/nr +#...etc... +# +#See also blastdb.loc which is for any nucleotide BLAST database. +# diff -r 10dce68b584b -r 45ba7c750bc8 tools/ncbi_blast_plus/blastxml_to_tabular.py --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/tools/ncbi_blast_plus/blastxml_to_tabular.py Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,254 @@ +#!/usr/bin/env python +"""Convert a BLAST XML file to 12 column tabular output + +Takes three command line options, input BLAST XML filename, output tabular +BLAST filename, output format (std for standard 12 columns, or ext for the +extended 24 columns offered in the BLAST+ wrappers). + +The 12 columns output are 'qseqid sseqid pident length mismatch gapopen qstart +qend sstart send evalue bitscore' or 'std' at the BLAST+ command line, which +mean: + +====== ========= ============================================ +Column NCBI name Description +------ --------- -------------------------------------------- + 1 qseqid Query Seq-id (ID of your sequence) + 2 sseqid Subject Seq-id (ID of the database hit) + 3 pident Percentage of identical matches + 4 length Alignment length + 5 mismatch Number of mismatches + 6 gapopen Number of gap openings + 7 qstart Start of alignment in query + 8 qend End of alignment in query + 9 sstart Start of alignment in subject (database hit) + 10 send End of alignment in subject (database hit) + 11 evalue Expectation value (E-value) + 12 bitscore Bit score +====== ========= ============================================ + +The additional columns offered in the Galaxy BLAST+ wrappers are: + +====== ============= =========================================== +Column NCBI name Description +------ ------------- ------------------------------------------- + 13 sallseqid All subject Seq-id(s), separated by a ';' + 14 score Raw score + 15 nident Number of identical matches + 16 positive Number of positive-scoring matches + 17 gaps Total number of gaps + 18 ppos Percentage of positive-scoring matches + 19 qframe Query frame + 20 sframe Subject frame + 21 qseq Aligned part of query sequence + 22 sseq Aligned part of subject sequence + 23 qlen Query sequence length + 24 slen Subject sequence length +====== ============= =========================================== + +Most of these fields are given explicitly in the XML file, others some like +the percentage identity and the number of gap openings must be calculated. + +Be aware that the sequence in the extended tabular output or XML direct from +BLAST+ may or may not use XXXX masking on regions of low complexity. This +can throw the off the calculation of percentage identity and gap openings. +[In fact, both BLAST 2.2.24+ and 2.2.25+ have a subtle bug in this regard, +with these numbers changing depending on whether or not the low complexity +filter is used.] + +This script attempts to produce identical output to what BLAST+ would have done. +However, check this with "diff -b ..." since BLAST+ sometimes includes an extra +space character (probably a bug). +""" +import sys +import re + +if sys.version_info[:2] >= ( 2, 5 ): + import xml.etree.cElementTree as ElementTree +else: + from galaxy import eggs + import pkg_resources; pkg_resources.require( "elementtree" ) + from elementtree import ElementTree + +def stop_err( msg ): + sys.stderr.write("%s\n" % msg) + sys.exit(1) + +#Parse Command Line +try: + in_file, out_file, out_fmt = sys.argv[1:] +except: + stop_err("Expect 3 arguments: input BLAST XML file, output tabular file, out format (std or ext)") + +if out_fmt == "std": + extended = False +elif out_fmt == "x22": + stop_err("Format argument x22 has been replaced with ext (extended 24 columns)") +elif out_fmt == "ext": + extended = True +else: + stop_err("Format argument should be std (12 column) or ext (extended 24 columns)") + + +# get an iterable +try: + context = ElementTree.iterparse(in_file, events=("start", "end")) +except: + stop_err("Invalid data format.") +# turn it into an iterator +context = iter(context) +# get the root element +try: + event, root = context.next() +except: + stop_err( "Invalid data format." ) + + +re_default_query_id = re.compile("^Query_\d+$") +assert re_default_query_id.match("Query_101") +assert not re_default_query_id.match("Query_101a") +assert not re_default_query_id.match("MyQuery_101") +re_default_subject_id = re.compile("^Subject_\d+$") +assert re_default_subject_id.match("Subject_1") +assert not re_default_subject_id.match("Subject_") +assert not re_default_subject_id.match("Subject_12a") +assert not re_default_subject_id.match("TheSubject_1") + + +outfile = open(out_file, 'w') +blast_program = None +for event, elem in context: + if event == "end" and elem.tag == "BlastOutput_program": + blast_program = elem.text + # for every tag + if event == "end" and elem.tag == "Iteration": + #Expecting either this, from BLAST 2.2.25+ using FASTA vs FASTA + # sp|Q9BS26|ERP44_HUMAN + # Endoplasmic reticulum resident protein 44 OS=Homo sapiens GN=ERP44 PE=1 SV=1 + # 406 + # + # + #Or, from BLAST 2.2.24+ run online + # Query_1 + # Sample + # 516 + # ... + qseqid = elem.findtext("Iteration_query-ID") + if re_default_query_id.match(qseqid): + #Place holder ID, take the first word of the query definition + qseqid = elem.findtext("Iteration_query-def").split(None,1)[0] + qlen = int(elem.findtext("Iteration_query-len")) + + # for every within + for hit in elem.findall("Iteration_hits/Hit"): + #Expecting either this, + # gi|3024260|sp|P56514.1|OPSD_BUFBU + # RecName: Full=Rhodopsin + # P56514 + #or, + # Subject_1 + # gi|57163783|ref|NP_001009242.1| rhodopsin [Felis catus] + # Subject_1 + # + #apparently depending on the parse_deflines switch + sseqid = hit.findtext("Hit_id").split(None,1)[0] + hit_def = sseqid + " " + hit.findtext("Hit_def") + if re_default_subject_id.match(sseqid) \ + and sseqid == hit.findtext("Hit_accession"): + #Place holder ID, take the first word of the subject definition + hit_def = hit.findtext("Hit_def") + sseqid = hit_def.split(None,1)[0] + # for every within + for hsp in hit.findall("Hit_hsps/Hsp"): + nident = hsp.findtext("Hsp_identity") + length = hsp.findtext("Hsp_align-len") + pident = "%0.2f" % (100*float(nident)/float(length)) + + q_seq = hsp.findtext("Hsp_qseq") + h_seq = hsp.findtext("Hsp_hseq") + m_seq = hsp.findtext("Hsp_midline") + assert len(q_seq) == len(h_seq) == len(m_seq) == int(length) + gapopen = str(len(q_seq.replace('-', ' ').split())-1 + \ + len(h_seq.replace('-', ' ').split())-1) + + mismatch = m_seq.count(' ') + m_seq.count('+') \ + - q_seq.count('-') - h_seq.count('-') + #TODO - Remove this alternative mismatch calculation and test + #once satisifed there are no problems + expected_mismatch = len(q_seq) \ + - sum(1 for q,h in zip(q_seq, h_seq) \ + if q == h or q == "-" or h == "-") + xx = sum(1 for q,h in zip(q_seq, h_seq) if q=="X" and h=="X") + if not (expected_mismatch - q_seq.count("X") <= int(mismatch) <= expected_mismatch + xx): + stop_err("%s vs %s mismatches, expected %i <= %i <= %i" \ + % (qseqid, sseqid, expected_mismatch - q_seq.count("X"), + int(mismatch), expected_mismatch)) + + #TODO - Remove this alternative identity calculation and test + #once satisifed there are no problems + expected_identity = sum(1 for q,h in zip(q_seq, h_seq) if q == h) + if not (expected_identity - xx <= int(nident) <= expected_identity + q_seq.count("X")): + stop_err("%s vs %s identities, expected %i <= %i <= %i" \ + % (qseqid, sseqid, expected_identity, int(nident), + expected_identity + q_seq.count("X"))) + + + evalue = hsp.findtext("Hsp_evalue") + if evalue == "0": + evalue = "0.0" + else: + evalue = "%0.0e" % float(evalue) + + bitscore = float(hsp.findtext("Hsp_bit-score")) + if bitscore < 100: + #Seems to show one decimal place for lower scores + bitscore = "%0.1f" % bitscore + else: + #Note BLAST does not round to nearest int, it truncates + bitscore = "%i" % bitscore + + values = [qseqid, + sseqid, + pident, + length, #hsp.findtext("Hsp_align-len") + str(mismatch), + gapopen, + hsp.findtext("Hsp_query-from"), #qstart, + hsp.findtext("Hsp_query-to"), #qend, + hsp.findtext("Hsp_hit-from"), #sstart, + hsp.findtext("Hsp_hit-to"), #send, + evalue, #hsp.findtext("Hsp_evalue") in scientific notation + bitscore, #hsp.findtext("Hsp_bit-score") rounded + ] + + if extended: + sallseqid = ";".join(name.split(None,1)[0] for name in hit_def.split(">")) + #print hit_def, "-->", sallseqid + positive = hsp.findtext("Hsp_positive") + ppos = "%0.2f" % (100*float(positive)/float(length)) + qframe = hsp.findtext("Hsp_query-frame") + sframe = hsp.findtext("Hsp_hit-frame") + if blast_program == "blastp": + #Probably a bug in BLASTP that they use 0 or 1 depending on format + if qframe == "0": qframe = "1" + if sframe == "0": sframe = "1" + slen = int(hit.findtext("Hit_len")) + values.extend([sallseqid, + hsp.findtext("Hsp_score"), #score, + nident, + positive, + hsp.findtext("Hsp_gaps"), #gaps, + ppos, + qframe, + sframe, + #NOTE - for blastp, XML shows original seq, tabular uses XXX masking + q_seq, + h_seq, + str(qlen), + str(slen), + ]) + #print "\t".join(values) + outfile.write("\t".join(values) + "\n") + # prevents ElementTree from growing large datastructure + root.clear() + elem.clear() +outfile.close() diff -r 10dce68b584b -r 45ba7c750bc8 tools/ncbi_blast_plus/blastxml_to_tabular.xml --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/tools/ncbi_blast_plus/blastxml_to_tabular.xml Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,127 @@ + + Convert BLAST XML output to tabular + + blastxml_to_tabular.py $blastxml_file $tabular_file $out_format + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +**What it does** + +NCBI BLAST+ (and the older NCBI 'legacy' BLAST) can output in a range of +formats including tabular and a more detailed XML format. A complex workflow +may need both the XML and the tabular output - but running BLAST twice is +slow and wasteful. + +This tool takes the BLAST XML output and by default converts it into the +standard 12 column tabular equivalent: + +====== ========= ============================================ +Column NCBI name Description +------ --------- -------------------------------------------- + 1 qseqid Query Seq-id (ID of your sequence) + 2 sseqid Subject Seq-id (ID of the database hit) + 3 pident Percentage of identical matches + 4 length Alignment length + 5 mismatch Number of mismatches + 6 gapopen Number of gap openings + 7 qstart Start of alignment in query + 8 qend End of alignment in query + 9 sstart Start of alignment in subject (database hit) + 10 send End of alignment in subject (database hit) + 11 evalue Expectation value (E-value) + 12 bitscore Bit score +====== ========= ============================================ + +The BLAST+ tools can optionally output additional columns of information, +but this takes longer to calculate. Most (but not all) of these columns are +included by selecting the extended tabular output. The extra columns are +included *after* the standard 12 columns. This is so that you can write +workflow filtering steps that accept either the 12 or 22 column tabular +BLAST output. + +====== ============= =========================================== +Column NCBI name Description +------ ------------- ------------------------------------------- + 13 sallseqid All subject Seq-id(s), separated by a ';' + 14 score Raw score + 15 nident Number of identical matches + 16 positive Number of positive-scoring matches + 17 gaps Total number of gaps + 18 ppos Percentage of positive-scoring matches + 19 qframe Query frame + 20 sframe Subject frame + 21 qseq Aligned part of query sequence + 22 sseq Aligned part of subject sequence + 23 qlen Query sequence length + 24 slen Subject sequence length +====== ============= =========================================== + +Beware that the XML file (and thus the conversion) and the tabular output +direct from BLAST+ may differ in the presence of XXXX masking on regions +low complexity (columns 21 and 22), and thus also calculated figures like +the percentage idenity (column 3). + + + diff -r 10dce68b584b -r 45ba7c750bc8 tools/ncbi_blast_plus/ncbi_blast_plus.txt --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/tools/ncbi_blast_plus/ncbi_blast_plus.txt Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,84 @@ +Galaxy wrappers for NCBI BLAST+ suite +===================================== + +These wrappers are copyright 2010-2012 by Peter Cock, The James Hutton Institute +(formerly SCRI, Scottish Crop Research Institute), UK. All rights reserved. +See the licence text below. + +Currently tested with NCBI BLAST 2.2.26+ (i.e. version 2.2.26 of BLAST+), +and do not work with the NCBI 'legacy' BLAST suite (e.g. blastall). + +Note that these wrappers (and the associated datetypes) were originally +distributed as part of the main Galaxy repository, but as of August 2012 +moved to the Galaxy Tool Shed as 'ncbi_blast_plus' (and 'blast_datatypes'). +My thanks to Dannon Baker from the Galaxy development team for his assistance +with this. + + +Manual Installation +=================== + +For those not using Galaxy's automated installation from the Tool Shed, put +the XML and Python files under tools/ncbi_blast_plus and add the XML files +to your tool_conf.xml as normal. + +You must tell Galaxy about any system level BLAST databases using configuration +files blastdb.loc (nucleotide databases like NT) and blastdb_p.loc (protein +databases like NR). + +You will also need to install 'blast_datatypes' from the Tool Shed. This +defines the BLAST XML file format ('blastxml'). + + +History +======= + +v0.0.11 - Final revision as part of the Galaxy main repository, and the + first release via the Tool Shed +v0.0.12 - Implements genetic code option for translation searches. + - Changes to 1000 sequences at a time (to cope with + very large sets of queries where BLAST+ can become memory hungry) + - Include warning that BLAST+ with subject FASTA gives pairwise + e-values +v0.0.13 - Use the new error handling options in Galaxy (the previously + bundled hide_stderr.py script is no longer needed). + + +Developers +========== + +This script and related tools are being developed on the following hg branch: +http://bitbucket.org/peterjc/galaxy-central/src/tools + +For making the "Galaxy Tool Shed" http://community.g2.bx.psu.edu/ tarball I use +the following command from the Galaxy root folder: + +$ ./tools/ncbi_blast_plus/make_ncbi_blast_plus.sh + +This similifies ensuring a consistent set of files is bundled each time, +including all the relevant test files. + + +Licence (MIT/BSD style) +======================= + +Permission to use, copy, modify, and distribute this software and its +documentation with or without modifications and for any purpose and +without fee is hereby granted, provided that any copyright notices +appear in all copies and that both those copyright notices and this +permission notice appear in supporting documentation, and that the +names of the contributors or copyright holders not be used in +advertising or publicity pertaining to distribution of the software +without specific prior permission. + +THE CONTRIBUTORS AND COPYRIGHT HOLDERS OF THIS SOFTWARE DISCLAIM ALL +WARRANTIES WITH REGARD TO THIS SOFTWARE, INCLUDING ALL IMPLIED +WARRANTIES OF MERCHANTABILITY AND FITNESS, IN NO EVENT SHALL THE +CONTRIBUTORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY SPECIAL, INDIRECT +OR CONSEQUENTIAL DAMAGES OR ANY DAMAGES WHATSOEVER RESULTING FROM LOSS +OF USE, DATA OR PROFITS, WHETHER IN AN ACTION OF CONTRACT, NEGLIGENCE +OR OTHER TORTIOUS ACTION, ARISING OUT OF OR IN CONNECTION WITH THE USE +OR PERFORMANCE OF THIS SOFTWARE. + +NOTE: This is the licence for the Galaxy Wrapper only. BLAST+ and +associated data files are available and licenced separately. diff -r 10dce68b584b -r 45ba7c750bc8 tools/ncbi_blast_plus/ncbi_blastn_wrapper.xml --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/tools/ncbi_blast_plus/ncbi_blastn_wrapper.xml Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,215 @@ + + Search nucleotide database with nucleotide query sequence(s) + + + blastn -version + +## The command is a Cheetah template which allows some Python based syntax. +## Lines starting hash hash are comments. Galaxy will turn newlines into spaces +blastn +-query "$query" +#if $db_opts.db_opts_selector == "db": + -db "${db_opts.database.fields.path}" +#else: + -subject "$db_opts.subject" +#end if +-task $blast_type +-evalue $evalue_cutoff +-out $output1 +##Set the extended list here so if/when we add things, saved workflows are not affected +#if str($out_format)=="ext": + -outfmt "6 std sallseqid score nident positive gaps ppos qframe sframe qseq sseq qlen slen" +#else: + -outfmt $out_format +#end if +-num_threads 8 +#if $adv_opts.adv_opts_selector=="advanced": +$adv_opts.filter_query +$adv_opts.strand +## Need int(str(...)) because $adv_opts.max_hits is an InputValueWrapper object not a string +## Note -max_target_seqs overrides -num_descriptions and -num_alignments +#if (str($adv_opts.max_hits) and int(str($adv_opts.max_hits)) > 0): +-max_target_seqs $adv_opts.max_hits +#end if +#if (str($adv_opts.word_size) and int(str($adv_opts.word_size)) > 0): +-word_size $adv_opts.word_size +#end if +$adv_opts.ungapped +$adv_opts.parse_deflines +## End of advanced options: +#end if + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + blastn + + + +.. class:: warningmark + +**Note**. Database searches may take a substantial amount of time. +For large input datasets it is advisable to allow overnight processing. + +----- + +**What it does** + +Search a *nucleotide database* using a *nucleotide query*, +using the NCBI BLAST+ blastn command line tool. +Algorithms include blastn, megablast, and discontiguous megablast. + +----- + +**Output format** + +Because Galaxy focuses on processing tabular data, the default output of this +tool is tabular. The standard BLAST+ tabular output contains 12 columns: + +====== ========= ============================================ +Column NCBI name Description +------ --------- -------------------------------------------- + 1 qseqid Query Seq-id (ID of your sequence) + 2 sseqid Subject Seq-id (ID of the database hit) + 3 pident Percentage of identical matches + 4 length Alignment length + 5 mismatch Number of mismatches + 6 gapopen Number of gap openings + 7 qstart Start of alignment in query + 8 qend End of alignment in query + 9 sstart Start of alignment in subject (database hit) + 10 send End of alignment in subject (database hit) + 11 evalue Expectation value (E-value) + 12 bitscore Bit score +====== ========= ============================================ + +The BLAST+ tools can optionally output additional columns of information, +but this takes longer to calculate. Most (but not all) of these columns are +included by selecting the extended tabular output. The extra columns are +included *after* the standard 12 columns. This is so that you can write +workflow filtering steps that accept either the 12 or 24 column tabular +BLAST output. + +====== ============= =========================================== +Column NCBI name Description +------ ------------- ------------------------------------------- + 13 sallseqid All subject Seq-id(s), separated by a ';' + 14 score Raw score + 15 nident Number of identical matches + 16 positive Number of positive-scoring matches + 17 gaps Total number of gaps + 18 ppos Percentage of positive-scoring matches + 19 qframe Query frame + 20 sframe Subject frame + 21 qseq Aligned part of query sequence + 22 sseq Aligned part of subject sequence + 23 qlen Query sequence length + 24 slen Subject sequence length +====== ============= =========================================== + +The third option is BLAST XML output, which is designed to be parsed by +another program, and is understood by some Galaxy tools. + +You can also choose several plain text or HTML output formats which are designed to be read by a person (not by another program). +The HTML versions use basic webpage formatting and can include links to the hits on the NCBI website. +The pairwise output (the default on the NCBI BLAST website) shows each match as a pairwise alignment with the query. +The two query anchored outputs show a multiple sequence alignment between the query and all the matches, +and differ in how insertions are shown (marked as insertions or with gap characters added to the other sequences). + +------- + +**References** + +Zhang et al. A Greedy Algorithm for Aligning DNA Sequences. 2000. JCB: 203-214. + + + diff -r 10dce68b584b -r 45ba7c750bc8 tools/ncbi_blast_plus/ncbi_blastp_wrapper.xml --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/tools/ncbi_blast_plus/ncbi_blastp_wrapper.xml Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,282 @@ + + Search protein database with protein query sequence(s) + + + blastp -version + +## The command is a Cheetah template which allows some Python based syntax. +## Lines starting hash hash are comments. Galaxy will turn newlines into spaces +blastp +-query "$query" +#if $db_opts.db_opts_selector == "db": + -db "${db_opts.database.fields.path}" +#else: + -subject "$db_opts.subject" +#end if +-task $blast_type +-evalue $evalue_cutoff +-out $output1 +##Set the extended list here so if/when we add things, saved workflows are not affected +#if str($out_format)=="ext": + -outfmt "6 std sallseqid score nident positive gaps ppos qframe sframe qseq sseq qlen slen" +#else: + -outfmt $out_format +#end if +-num_threads 8 +#if $adv_opts.adv_opts_selector=="advanced": +$adv_opts.filter_query +-matrix $adv_opts.matrix +## Need int(str(...)) because $adv_opts.max_hits is an InputValueWrapper object not a string +## Note -max_target_seqs overrides -num_descriptions and -num_alignments +#if (str($adv_opts.max_hits) and int(str($adv_opts.max_hits)) > 0): +-max_target_seqs $adv_opts.max_hits +#end if +#if (str($adv_opts.word_size) and int(str($adv_opts.word_size)) > 0): +-word_size $adv_opts.word_size +#end if +##Ungapped disabled for now - see comments below +##$adv_opts.ungapped +$adv_opts.parse_deflines +## End of advanced options: +#end if + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + blastp + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +.. class:: warningmark + +**Note**. Database searches may take a substantial amount of time. +For large input datasets it is advisable to allow overnight processing. + +----- + +**What it does** + +Search a *protein database* using a *protein query*, +using the NCBI BLAST+ blastp command line tool. + +----- + +**Output format** + +Because Galaxy focuses on processing tabular data, the default output of this +tool is tabular. The standard BLAST+ tabular output contains 12 columns: + +====== ========= ============================================ +Column NCBI name Description +------ --------- -------------------------------------------- + 1 qseqid Query Seq-id (ID of your sequence) + 2 sseqid Subject Seq-id (ID of the database hit) + 3 pident Percentage of identical matches + 4 length Alignment length + 5 mismatch Number of mismatches + 6 gapopen Number of gap openings + 7 qstart Start of alignment in query + 8 qend End of alignment in query + 9 sstart Start of alignment in subject (database hit) + 10 send End of alignment in subject (database hit) + 11 evalue Expectation value (E-value) + 12 bitscore Bit score +====== ========= ============================================ + +The BLAST+ tools can optionally output additional columns of information, +but this takes longer to calculate. Most (but not all) of these columns are +included by selecting the extended tabular output. The extra columns are +included *after* the standard 12 columns. This is so that you can write +workflow filtering steps that accept either the 12 or 24 column tabular +BLAST output. + +====== ============= =========================================== +Column NCBI name Description +------ ------------- ------------------------------------------- + 13 sallseqid All subject Seq-id(s), separated by a ';' + 14 score Raw score + 15 nident Number of identical matches + 16 positive Number of positive-scoring matches + 17 gaps Total number of gaps + 18 ppos Percentage of positive-scoring matches + 19 qframe Query frame + 20 sframe Subject frame + 21 qseq Aligned part of query sequence + 22 sseq Aligned part of subject sequence + 23 qlen Query sequence length + 24 slen Subject sequence length +====== ============= =========================================== + +The third option is BLAST XML output, which is designed to be parsed by +another program, and is understood by some Galaxy tools. + +You can also choose several plain text or HTML output formats which are designed to be read by a person (not by another program). +The HTML versions use basic webpage formatting and can include links to the hits on the NCBI website. +The pairwise output (the default on the NCBI BLAST website) shows each match as a pairwise alignment with the query. +The two query anchored outputs show a multiple sequence alignment between the query and all the matches, +and differ in how insertions are shown (marked as insertions or with gap characters added to the other sequences). + +------- + +**References** + +Altschul et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. 1997. Nucleic Acids Res. 25:3389-3402. + +Schaffer et al. Improving the accuracy of PSI-BLAST protein database searches with composition-based statistics and other refinements. 2001. Nucleic Acids Res. 29:2994-3005. + + + diff -r 10dce68b584b -r 45ba7c750bc8 tools/ncbi_blast_plus/ncbi_blastx_wrapper.xml --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/tools/ncbi_blast_plus/ncbi_blastx_wrapper.xml Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,268 @@ + + Search protein database with translated nucleotide query sequence(s) + + + blastx -version + +## The command is a Cheetah template which allows some Python based syntax. +## Lines starting hash hash are comments. Galaxy will turn newlines into spaces +blastx +-query "$query" +#if $db_opts.db_opts_selector == "db": + -db "${db_opts.database.fields.path}" +#else: + -subject "$db_opts.subject" +#end if +-query_gencode $query_gencode +-evalue $evalue_cutoff +-out $output1 +##Set the extended list here so if/when we add things, saved workflows are not affected +#if str($out_format)=="ext": + -outfmt "6 std sallseqid score nident positive gaps ppos qframe sframe qseq sseq qlen slen" +#else: + -outfmt $out_format +#end if +-num_threads 8 +#if $adv_opts.adv_opts_selector=="advanced": +$adv_opts.filter_query +$adv_opts.strand +-matrix $adv_opts.matrix +## Need int(str(...)) because $adv_opts.max_hits is an InputValueWrapper object not a string +## Note -max_target_seqs overrides -num_descriptions and -num_alignments +#if (str($adv_opts.max_hits) and int(str($adv_opts.max_hits)) > 0): +-max_target_seqs $adv_opts.max_hits +#end if +#if (str($adv_opts.word_size) and int(str($adv_opts.word_size)) > 0): +-word_size $adv_opts.word_size +#end if +$adv_opts.ungapped +$adv_opts.parse_deflines +## End of advanced options: +#end if + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + blastx + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +.. class:: warningmark + +**Note**. Database searches may take a substantial amount of time. +For large input datasets it is advisable to allow overnight processing. + +----- + +**What it does** + +Search a *protein database* using a *translated nucleotide query*, +using the NCBI BLAST+ blastx command line tool. + +----- + +**Output format** + +Because Galaxy focuses on processing tabular data, the default output of this +tool is tabular. The standard BLAST+ tabular output contains 12 columns: + +====== ========= ============================================ +Column NCBI name Description +------ --------- -------------------------------------------- + 1 qseqid Query Seq-id (ID of your sequence) + 2 sseqid Subject Seq-id (ID of the database hit) + 3 pident Percentage of identical matches + 4 length Alignment length + 5 mismatch Number of mismatches + 6 gapopen Number of gap openings + 7 qstart Start of alignment in query + 8 qend End of alignment in query + 9 sstart Start of alignment in subject (database hit) + 10 send End of alignment in subject (database hit) + 11 evalue Expectation value (E-value) + 12 bitscore Bit score +====== ========= ============================================ + +The BLAST+ tools can optionally output additional columns of information, +but this takes longer to calculate. Most (but not all) of these columns are +included by selecting the extended tabular output. The extra columns are +included *after* the standard 12 columns. This is so that you can write +workflow filtering steps that accept either the 12 or 24 column tabular +BLAST output. + +====== ============= =========================================== +Column NCBI name Description +------ ------------- ------------------------------------------- + 13 sallseqid All subject Seq-id(s), separated by a ';' + 14 score Raw score + 15 nident Number of identical matches + 16 positive Number of positive-scoring matches + 17 gaps Total number of gaps + 18 ppos Percentage of positive-scoring matches + 19 qframe Query frame + 20 sframe Subject frame + 21 qseq Aligned part of query sequence + 22 sseq Aligned part of subject sequence + 23 qlen Query sequence length + 24 slen Subject sequence length +====== ============= =========================================== + +The third option is BLAST XML output, which is designed to be parsed by +another program, and is understood by some Galaxy tools. + +You can also choose several plain text or HTML output formats which are designed to be read by a person (not by another program). +The HTML versions use basic webpage formatting and can include links to the hits on the NCBI website. +The pairwise output (the default on the NCBI BLAST website) shows each match as a pairwise alignment with the query. +The two query anchored outputs show a multiple sequence alignment between the query and all the matches, +and differ in how insertions are shown (marked as insertions or with gap characters added to the other sequences). + +------- + +**References** + +Altschul et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. 1997. Nucleic Acids Res. 25:3389-3402. + + + diff -r 10dce68b584b -r 45ba7c750bc8 tools/ncbi_blast_plus/ncbi_tblastn_wrapper.xml --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/tools/ncbi_blast_plus/ncbi_tblastn_wrapper.xml Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,314 @@ + + Search translated nucleotide database with protein query sequence(s) + + + tblastn -version + +## The command is a Cheetah template which allows some Python based syntax. +## Lines starting hash hash are comments. Galaxy will turn newlines into spaces +tblastn +-query "$query" +#if $db_opts.db_opts_selector == "db": + -db "${db_opts.database.fields.path}" +#else: + -subject "$db_opts.subject" +#end if +-evalue $evalue_cutoff +-out $output1 +##Set the extended list here so if/when we add things, saved workflows are not affected +#if str($out_format)=="ext": + -outfmt "6 std sallseqid score nident positive gaps ppos qframe sframe qseq sseq qlen slen" +#else: + -outfmt $out_format +#end if +-num_threads 8 +#if $adv_opts.adv_opts_selector=="advanced": +-db_gencode $adv_opts.db_gencode +$adv_opts.filter_query +-matrix $adv_opts.matrix +## Need int(str(...)) because $adv_opts.max_hits is an InputValueWrapper object not a string +## Note -max_target_seqs overrides -num_descriptions and -num_alignments +#if (str($adv_opts.max_hits) and int(str($adv_opts.max_hits)) > 0): +-max_target_seqs $adv_opts.max_hits +#end if +#if (str($adv_opts.word_size) and int(str($adv_opts.word_size)) > 0): +-word_size $adv_opts.word_size +#end if +##Ungapped disabled for now - see comments below +##$adv_opts.ungapped +$adv_opts.parse_deflines +## End of advanced options: +#end if + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + tblastn + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +.. class:: warningmark + +**Note**. Database searches may take a substantial amount of time. +For large input datasets it is advisable to allow overnight processing. + +----- + +**What it does** + +Search a *translated nucleotide database* using a *protein query*, +using the NCBI BLAST+ tblastn command line tool. + +----- + +**Output format** + +Because Galaxy focuses on processing tabular data, the default output of this +tool is tabular. The standard BLAST+ tabular output contains 12 columns: + +====== ========= ============================================ +Column NCBI name Description +------ --------- -------------------------------------------- + 1 qseqid Query Seq-id (ID of your sequence) + 2 sseqid Subject Seq-id (ID of the database hit) + 3 pident Percentage of identical matches + 4 length Alignment length + 5 mismatch Number of mismatches + 6 gapopen Number of gap openings + 7 qstart Start of alignment in query + 8 qend End of alignment in query + 9 sstart Start of alignment in subject (database hit) + 10 send End of alignment in subject (database hit) + 11 evalue Expectation value (E-value) + 12 bitscore Bit score +====== ========= ============================================ + +The BLAST+ tools can optionally output additional columns of information, +but this takes longer to calculate. Most (but not all) of these columns are +included by selecting the extended tabular output. The extra columns are +included *after* the standard 12 columns. This is so that you can write +workflow filtering steps that accept either the 12 or 24 column tabular +BLAST output. + +====== ============= =========================================== +Column NCBI name Description +------ ------------- ------------------------------------------- + 13 sallseqid All subject Seq-id(s), separated by a ';' + 14 score Raw score + 15 nident Number of identical matches + 16 positive Number of positive-scoring matches + 17 gaps Total number of gaps + 18 ppos Percentage of positive-scoring matches + 19 qframe Query frame + 20 sframe Subject frame + 21 qseq Aligned part of query sequence + 22 sseq Aligned part of subject sequence + 23 qlen Query sequence length + 24 slen Subject sequence length +====== ============= =========================================== + +The third option is BLAST XML output, which is designed to be parsed by +another program, and is understood by some Galaxy tools. + +You can also choose several plain text or HTML output formats which are designed to be read by a person (not by another program). +The HTML versions use basic webpage formatting and can include links to the hits on the NCBI website. +The pairwise output (the default on the NCBI BLAST website) shows each match as a pairwise alignment with the query. +The two query anchored outputs show a multiple sequence alignment between the query and all the matches, +and differ in how insertions are shown (marked as insertions or with gap characters added to the other sequences). + +------- + +**References** + +Altschul et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. 1997. Nucleic Acids Res. 25:3389-3402. + + + diff -r 10dce68b584b -r 45ba7c750bc8 tools/ncbi_blast_plus/ncbi_tblastx_wrapper.xml --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/tools/ncbi_blast_plus/ncbi_tblastx_wrapper.xml Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,256 @@ + + Search translated nucleotide database with translated nucleotide query sequence(s) + + + tblastx -version + +## The command is a Cheetah template which allows some Python based syntax. +## Lines starting hash hash are comments. Galaxy will turn newlines into spaces +tblastx +-query "$query" +#if $db_opts.db_opts_selector == "db": + -db "${db_opts.database.fields.path}" +#else: + -subject "$db_opts.subject" +#end if +-query_gencode $query_gencode +-evalue $evalue_cutoff +-out $output1 +##Set the extended list here so if/when we add things, saved workflows are not affected +#if str($out_format)=="ext": + -outfmt "6 std sallseqid score nident positive gaps ppos qframe sframe qseq sseq qlen slen" +#else: + -outfmt $out_format +#end if +-num_threads 8 +#if $adv_opts.adv_opts_selector=="advanced": +-db_gencode $adv_opts.db_gencode +$adv_opts.filter_query +$adv_opts.strand +-matrix $adv_opts.matrix +## Need int(str(...)) because $adv_opts.max_hits is an InputValueWrapper object not a string +## Note -max_target_seqs overrides -num_descriptions and -num_alignments +#if (str($adv_opts.max_hits) and int(str($adv_opts.max_hits)) > 0): +-max_target_seqs $adv_opts.max_hits +#end if +#if (str($adv_opts.word_size) and int(str($adv_opts.word_size)) > 0): +-word_size $adv_opts.word_size +#end if +$adv_opts.parse_deflines +## End of advanced options: +#end if + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + tblastx + + + +.. class:: warningmark + +**Note**. Database searches may take a substantial amount of time. +For large input datasets it is advisable to allow overnight processing. + +----- + +**What it does** + +Search a *translated nucleotide database* using a *protein query*, +using the NCBI BLAST+ tblastx command line tool. + +----- + +**Output format** + +Because Galaxy focuses on processing tabular data, the default output of this +tool is tabular. The standard BLAST+ tabular output contains 12 columns: + +====== ========= ============================================ +Column NCBI name Description +------ --------- -------------------------------------------- + 1 qseqid Query Seq-id (ID of your sequence) + 2 sseqid Subject Seq-id (ID of the database hit) + 3 pident Percentage of identical matches + 4 length Alignment length + 5 mismatch Number of mismatches + 6 gapopen Number of gap openings + 7 qstart Start of alignment in query + 8 qend End of alignment in query + 9 sstart Start of alignment in subject (database hit) + 10 send End of alignment in subject (database hit) + 11 evalue Expectation value (E-value) + 12 bitscore Bit score +====== ========= ============================================ + +The BLAST+ tools can optionally output additional columns of information, +but this takes longer to calculate. Most (but not all) of these columns are +included by selecting the extended tabular output. The extra columns are +included *after* the standard 12 columns. This is so that you can write +workflow filtering steps that accept either the 12 or 24 column tabular +BLAST output. + +====== ============= =========================================== +Column NCBI name Description +------ ------------- ------------------------------------------- + 13 sallseqid All subject Seq-id(s), separated by a ';' + 14 score Raw score + 15 nident Number of identical matches + 16 positive Number of positive-scoring matches + 17 gaps Total number of gaps + 18 ppos Percentage of positive-scoring matches + 19 qframe Query frame + 20 sframe Subject frame + 21 qseq Aligned part of query sequence + 22 sseq Aligned part of subject sequence + 23 qlen Query sequence length + 24 slen Subject sequence length +====== ============= =========================================== + +The third option is BLAST XML output, which is designed to be parsed by +another program, and is understood by some Galaxy tools. + +You can also choose several plain text or HTML output formats which are designed to be read by a person (not by another program). +The HTML versions use basic webpage formatting and can include links to the hits on the NCBI website. +The pairwise output (the default on the NCBI BLAST website) shows each match as a pairwise alignment with the query. +The two query anchored outputs show a multiple sequence alignment between the query and all the matches, +and differ in how insertions are shown (marked as insertions or with gap characters added to the other sequences). + +------- + +**References** + +Altschul et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. 1997. Nucleic Acids Res. 25:3389-3402. + + + diff -r 10dce68b584b -r 45ba7c750bc8 tools/ncbi_blast_plus/tool_dependencies.xml --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/tools/ncbi_blast_plus/tool_dependencies.xml Thu Sep 20 10:12:43 2012 -0400 @@ -0,0 +1,21 @@ + + + + + + ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.2.26/ncbi-blast-2.2.26+-src.tar.gz + cd c++ && ./configure --prefix=$INSTALL_DIR && make && make install + + $INSTALL_DIR/bin + + + + +These links provide information for building the NCBI Blast+ package in most environments. + +System requirements +http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=Download + + + + diff -r 10dce68b584b -r 45ba7c750bc8 xml.py --- a/xml.py Thu Aug 23 09:33:16 2012 -0400 +++ /dev/null Thu Jan 01 00:00:00 1970 +0000 @@ -1,124 +0,0 @@ -""" -BlastXml class -""" - -from galaxy.datatypes.data import get_file_peek -from galaxy.datatypes.data import Text -from galaxy.datatypes.xml import GenericXml - -class BlastXml( GenericXml ): - """NCBI Blast XML Output data""" - file_ext = "blastxml" - - def set_peek( self, dataset, is_multi_byte=False ): - """Set the peek and blurb text""" - if not dataset.dataset.purged: - dataset.peek = get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte ) - dataset.blurb = 'NCBI Blast XML data' - else: - dataset.peek = 'file does not exist' - dataset.blurb = 'file purged from disk' - def sniff( self, filename ): - """ - Determines whether the file is blastxml - - >>> fname = get_test_fname( 'megablast_xml_parser_test1.blastxml' ) - >>> BlastXml().sniff( fname ) - True - >>> fname = get_test_fname( 'tblastn_four_human_vs_rhodopsin.xml' ) - >>> BlastXml().sniff( fname ) - True - >>> fname = get_test_fname( 'interval.interval' ) - >>> BlastXml().sniff( fname ) - False - """ - #TODO - Use a context manager on Python 2.5+ to close handle - handle = open(filename) - line = handle.readline() - if line.strip() != '': - handle.close() - return False - line = handle.readline() - if line.strip() not in ['', - '']: - handle.close() - return False - line = handle.readline() - if line.strip() != '': - handle.close() - return False - handle.close() - return True - - def merge(split_files, output_file): - """Merging multiple XML files is non-trivial and must be done in subclasses.""" - if len(split_files) == 1: - #For one file only, use base class method (move/copy) - return Text.merge(split_files, output_file) - out = open(output_file, "w") - h = None - for f in split_files: - h = open(f) - body = False - header = h.readline() - if not header: - out.close() - h.close() - raise ValueError("BLAST XML file %s was empty" % f) - if header.strip() != '': - out.write(header) #for diagnosis - out.close() - h.close() - raise ValueError("%s is not an XML file!" % f) - line = h.readline() - header += line - if line.strip() not in ['', - '']: - out.write(header) #for diagnosis - out.close() - h.close() - raise ValueError("%s is not a BLAST XML file!" % f) - while True: - line = h.readline() - if not line: - out.write(header) #for diagnosis - out.close() - h.close() - raise ValueError("BLAST XML file %s ended prematurely" % f) - header += line - if "" in line: - break - if len(header) > 10000: - #Something has gone wrong, don't load too much into memory! - #Write what we have to the merged file for diagnostics - out.write(header) - out.close() - h.close() - raise ValueError("BLAST XML file %s has too long a header!" % f) - if "" not in header: - out.close() - h.close() - raise ValueError("%s is not a BLAST XML file:\n%s\n..." % (f, header)) - if f == split_files[0]: - out.write(header) - old_header = header - elif old_header[:300] != header[:300]: - #Enough to check and match - out.close() - h.close() - raise ValueError("BLAST XML headers don't match for %s and %s - have:\n%s\n...\n\nAnd:\n%s\n...\n" \ - % (split_files[0], f, old_header[:300], header[:300])) - else: - out.write(" \n") - for line in h: - if "" in line: - break - #TODO - Increment and if required automatic query names - #like Query_3 to be increasing? - out.write(line) - h.close() - out.write(" \n") - out.write("\n") - out.close() - merge = staticmethod(merge) -