Repository 'proteore_id_converter'
hg clone https://toolshed.g2.bx.psu.edu/repos/proteore/proteore_id_converter

Changeset 0:f2d0b13d9615 (2018-02-16)
Next changeset 1:3b654cb3f6ad (2018-02-27)
Commit message:
planemo upload commit 5774fd6a5a746f36f6bf4671a51a39ea2b978300-dirty
added:
id_converter.xml
id_converter_UniProt.R
test-data/FKW_Lacombe_et_al_2017_OK.txt
test-data/ID_Converter_FKW_Lacombe_et_al_2017_OK.txt
test-data/human_id_mapping_file.txt
b
diff -r 000000000000 -r f2d0b13d9615 id_converter.xml
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/id_converter.xml Fri Feb 16 03:16:29 2018 -0500
[
b'@@ -0,0 +1,210 @@\n+<tool id="IDconverter" name="ID Converter" version="0.1.0">\n+    <description>convert public database identifiers (Homo sapiens only for now)\n+    </description>\n+    <requirements>\n+    </requirements>\n+    <stdio>\n+        <exit_code range="1:" />\n+    </stdio>\n+    <command interpreter="Rscript">\n+        id_converter_UniProt.R\n+        "$idti.idtypein"\n+        #if $input.ids == "text"\n+            "$input.txt"\n+            "list"\n+        #else\n+            "$input.file,$input.ncol,$input.header"\n+            "file"\n+        #end if\n+        "$idto.idtypeout"\n+        "$output"\n+        $__tool_directory__/../../utils/human_id_mapping_file.txt\n+        \n+    </command>\n+    <inputs>\n+        <conditional name="input" >\n+            <param name="ids" type="select" label="Provide your identifiers" help="Copy/paste or ID list from a file (e.g. table)" >\n+                <option value="text">Copy/paste your identifiers</option>\n+                <option value="file">Input file containing your identifiers</option>\n+            </param>\n+            <when value="text" >\n+                <param name="txt" type="text" label="Copy/paste your identifiers" help=\'IDs must be separated by spaces into the form field, for example: P31946 P62258\' >\n+                    <sanitizer>\n+                        <valid initial="string.printable">\n+                            <remove value="&apos;"/>\n+                        </valid>\n+                        <mapping initial="none">\n+                            <add source="&apos;" target="__sq__"/>\n+                        </mapping>\n+                    </sanitizer>\n+                </param>\n+            </when>\n+            <when value="file" >\n+                <param name="file" type="data" format="txt,tabular" label="Choose a file that contains your list of IDs" help="" />\n+                <param name="header" type="boolean" checked="true" truevalue="true" falsevalue="false" label="Does your input file contain header?" />\n+                <param name="ncol" type="text" label="The column number of IDs to map" help=\'For example, fill in "c1" if it is the first column, "c2" if it is the second column and so on\' />                \n+            </when>\n+        </conditional>\n+\t    <conditional name="idti" >\n+            <param name="idtypein" type="select" label="Select type/source of identifier of your list" help="Please see example of IDs in help section" >\n+\t\t        <option value="neXtProt_ID" >neXtProt ID (e.g. NX_P31946)</option>\n+\t\t        <option value="UniProt.AC" selected="True" >Uniprot accession number (e.g. P31946)</option>\n+\t\t        <option value="UniProt.ID" >Uniprot ID (e.g 1433B_HUMAN)</option>\n+\t\t        <option value="GeneID" >Entrez gene ID (e.g. 7529)</option>\n+\t\t        <option value="RefSeq" >RefSeq (NCBI) protein (e.g.  NP_003395.1)</option>\n+\t\t        <option value="GI" >GI (NCBI GI number) ID assigned to each sequence record processed by NCBI (e.g. 21328448)</option>\n+\t\t        <option value="PDB" >Protein DataBank ID (e.g. 2BR9:A)</option>\n+\t\t        <option value="GO" >GOterms (Gene Ontology) ID (e.g. GO:0070062)</option>\n+\t\t        <option value="PIR" >Protein Information Resource ID (e.g. S34755)</option>\n+\t\t        <option value="MIM" >OMIM (Online Mendelian Inheritance in Man database) ID (e.g: 601289)</option>\n+\t\t        <option value="UniGene" >Unigene ID (e.g. Hs.643544)</option>\n+\t\t        <option value="Ensembl" >Ensembl gene ID (e.g. ENSG00000166913)</option>\n+\t\t        <option value="Ensembl_TRS" >Ensembl transcript ID (e.g. ENST00000353703)</option>\n+\t\t        <option value="Ensembl_PRO" >Ensembl protein ID (e.g. ENSP00000300161)</option>\n+\t        </param>\n+\t        <when value="neXtProt_ID" >\n+\t        </when>\n+\t        <when value="UniProt.AC" >\n+\t        </when>\n+\t        <when value="UniProt.ID" >\n+\t        </when>\n+\t        <when value="GeneID" >\n+\t        </when>\n+\t        <when value="RefSeq" >\n+\t        </when>\n+\t        <when'..b'>\n+\t\t        <option value="GO" >GOterms (Gene Ontology) ID (e.g. GO:0070062)</option>\n+\t\t        <option value="PIR" >Protein Information Resource ID (e.g. S34755)</option>\n+\t\t        <option value="MIM" >OMIM (Online Mendelian Inheritance in Man database) ID (e.g: 601289)</option>\n+\t\t        <option value="UniGene" >Unigene ID (e.g. Hs.643544)</option>\n+\t\t        <option value="Ensembl" >Ensembl gene ID (e.g. ENSG00000166913)</option>\n+\t\t        <option value="Ensembl_TRS" >Ensembl transcript ID (e.g. ENST00000353703)</option>\n+\t\t        <option value="Ensembl_PRO" >Ensembl protein ID (e.g. ENSP00000300161)</option>\n+\t        </param>\n+\t    </section>\n+    </inputs>\n+    <outputs>\n+        <data name="output" format="tabular" />\n+    </outputs>\n+    <tests>\n+        <test>\n+            <conditional name="input">\n+                <param name="ids" value="file" />\n+                <param name="file" value="FKW_Lacombe_et_al_2017_OK.txt" />\n+                <param name="header" value="True" />\n+                <param name="ncol" value="c1" />\n+            </conditional>\n+            <conditional name="idti">\n+                <param name="idtypein" value="UniProt.AC" />\n+            </conditional>\n+            <section name="idto">\n+                <param name="idtypeout" value="neXtProt_ID,UniProt.ID,GeneID,MIM,Ensembl" />\n+            </section>\n+                <output name="output" file="ID_Converter_FKW_Lacombe_et_al_2017_OK.txt" />\n+        </test>\n+    </tests>\n+    <help><![CDATA[\n+This tool converts a list of IDs to another identifier type, select the source and target type from the dropdown menus above (see below supported source and target types).\n+\n+After choosing the type of input IDs, you can choose one or more types of IDs you would like to map to. \n+\n+If your input is a list of IDs or a single-column file, the tool will return a file containing the mapped IDs. Please, note that a "NA" is returned when there is no corresponding ID.\n+\n+If your input is a multiple-column file, the mapped IDs column(s) will be added at the end of the input file.\n+\n+**Available databases**\n+\n+* neXtProt ID (e.g. NX_P31946)\n+\n+* Uniprot accession number (e.g. P31946)\n+\n+* Uniprot ID (e.g 1433B_HUMAN)\n+\n+* Entrez gene ID (e.g. 7529)\n+\n+* RefSeq (NCBI) protein (e.g.  NP_003395.1)\n+\n+* GI (NCBI GI number) ID assigned to each sequence record processed by NCBI (e.g. 21328448)\n+\n+* Protein DataBank ID (e.g. 2BR9:A)\n+\n+* GOterms (Gene Ontology) ID (e.g. GO:0070062)\n+\n+* Protein Information Resource ID (e.g. S34755)\n+\n+* OMIM (Online Mendelian Inheritance in Man database) ID (e.g: 601289)\n+\n+* Unigene ID (e.g. Hs.643544)\n+\n+* Ensembl gene ID (e.g. ENSG00000166913)\n+\n+* Ensembl transcript ID (e.g. ENST00000353703)\n+\n+* Ensembl protein ID (e.g. ENSP00000300161)\n+\n+-----\n+\n+.. class:: infomark\n+\n+This tool converts human IDs using the following source files:\n+\n+* HUMAN_9606_idmapping_selected.tab\n+    Tarball downloaded from ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/idmapping/by_organism/\n+\n+* nextprot_ac_list_all.txt \n+    Downloaded from ftp://ftp.nextprot.org/pub/current_release/ac_lists/\n+\n+-----\n+\n+.. class:: warningmark\n+\n+Accession numbers with an hyphen ("-") that normally correspond to isoform are considered \n+(and will therefore be treated) as similar to its canonical form.\n+\n+For example, "Q71U36-2" will be treated as "Q71U36".\n+\n+-----\n+\n+.. class:: infomark\n+\n+**Authors**\n+\n+T.P. Lien Nguyen, Florence Combes, Yves Vandenbrouck CEA, INSERM, CNRS, Grenoble-Alpes University, BIG Institute, FR\n+\n+Sandra D\xc3\xa9rozier, Olivier Ru\xc3\xa9, Christophe Caron, Valentin Loux INRA, Paris-Saclay University, MAIAGE Unit, Migale Bioinformatics platform\n+\n+This work has been partially funded through the French National Agency for Research (ANR) IFB project.\n+\n+Contact support@proteore.org for any questions or concerns about the Galaxy implementation of this tool.\n+ \n+    ]]></help>\n+    <citations>\n+    </citations>\n+</tool>\n'
b
diff -r 000000000000 -r f2d0b13d9615 id_converter_UniProt.R
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/id_converter_UniProt.R Fri Feb 16 03:16:29 2018 -0500
[
@@ -0,0 +1,108 @@
+# Read file and return file content as data.frame
+readfile = function(filename, header) {
+  if (header == "true") {
+    # Read only first line of the file as header:
+    headers <- read.table(filename, nrows = 1, header = FALSE, sep = "\t", stringsAsFactors = FALSE, fill = TRUE, na.strings=c("", "NA"), blank.lines.skip = TRUE)
+    #Read the data of the files (skipping the first row)
+    file <- read.table(filename, skip = 1, header = FALSE, sep = "\t", stringsAsFactors = FALSE, fill = TRUE, na.strings=c("", "NA"), blank.lines.skip = TRUE)
+    # Remove empty rows
+    file <- file[!apply(is.na(file) | file == "", 1, all), , drop=FALSE]
+    #And assign the header to the data
+    names(file) <- headers
+  }
+  else {
+    file <- read.table(filename, header = FALSE, sep = "\t", stringsAsFactors = FALSE, fill = TRUE, na.strings=c("", "NA"), blank.lines.skip = TRUE)
+    # Remove empty rows
+    file <- file[!apply(is.na(file) | file == "", 1, all), , drop=FALSE]
+  }
+  return(file)
+}
+
+# Mapping IDs using file built from
+#   - HUMAN_9606_idmapping_selected.tab
+#     Tarball downloaded from ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/idmapping/by_organism/
+#   - nextprot_ac_list_all.txt 
+#     Downloaded from ftp://ftp.nextprot.org/pub/current_release/ac_lists/
+# Available databases: 
+#   UNIPROT_AC: Uniprot accession number (e.g. P31946)
+#   UNIPROT_ID: Uniprot identifiers (e.g 1433B_HUMAN)
+#   GeneID_EntrezGene: Entrez gene ID (serie of digit) (e.g. 7529)
+#   RefSeq: RefSeq (NCBI) protein (e.g.  NP_003395.1; NP_647539.1; XP_016883528.1)
+#   GI_number: GI (NCBI GI number) ID (serie of digits) assigned to each sequence record processed by NCBI (e.g; 21328448; 377656701; 67464627; 78101741) 
+#   PDB: Protein DataBank Identifiers (e.g. 2BR9:A; 3UAL:A;   3UBW:A) 
+#   GO_ID: GOterms (Gene Ontology) Identifiers (e.g. GO:0070062; GO:0005925; GO:0042470; GO:0016020; GO:0005739; GO:0005634)
+#   PIR: Protein Information Resource ID (e.g. S34755)
+#   OMIM: OMIM (Online Mendelian Inheritance in Man database) ID (serie of digits) (e.g: 601289)
+#   UniGene: Unigene Identifier (e.g. Hs.643544)
+#   Ensembl_ENSG: Ensembl gene identifiers (e.g. ENSG00000166913) 
+#   Ensembl_ENST: Ensembl transcript identifiers (e.g. ENST00000353703; ENST00000372839)
+#   Ensembl_ENSP: Ensembl protein identifiers (e.g. ENSP00000300161; ENSP00000361930)
+
+mapping = function() {
+  # Extract arguments
+  args = commandArgs(trailingOnly = TRUE)
+  #print(args)
+  if (length(args) != 6) {
+    stop("Not enough/Too many arguments", call. = FALSE)
+  }
+  else {
+    input_id_type = args[1]
+    list_id = args[2]
+    list_id_input_type = args[3]
+    options = strsplit(args[4], ",")[[1]]
+    output = args[5]
+    human_id_mapping_file = args[6]
+    
+    # Extract ID maps
+    human_id_map = read.table(human_id_mapping_file, header = TRUE, sep = "\t", stringsAsFactors = FALSE, fill = TRUE, na.strings = "")
+    
+    # Extract input IDs
+    if (list_id_input_type == "list") {
+      list_id = strsplit(args[2], " ")[[1]]
+      # Remove isoform accession number (e.g. "-2")
+      list_id = gsub("-.+", "", list_id)
+    }
+    else if (list_id_input_type == "file") {
+      filename = as.character(strsplit(list_id, ",")[[1]][1])
+      column_number = as.numeric(gsub("c", "" ,strsplit(list_id, ",")[[1]][2]))
+      header = strsplit(list_id, ",")[[1]][3]
+      file_all = readfile(filename, header)
+      print(class(file_all))
+      str(file_all)
+      print(class(file_all[,1]))
+      list_id = c()
+      list_id = sapply(strsplit(file_all[,column_number], ";"), "[", 1)
+      # Remove isoform accession number (e.g. "-2")
+      list_id = gsub("-.+", "", list_id)
+    }
+    names = c()
+    
+    # Map IDs
+    res = matrix(nrow=length(list_id), ncol=0)
+
+    for (opt in options) {
+      names = c(names, opt)
+      mapped = human_id_map[match(list_id, human_id_map[input_id_type][,]),][opt][,]
+      res = cbind(res, matrix(mapped))
+    }
+     
+    # Write output
+    if (list_id_input_type == "list") {
+      res = cbind(as.matrix(list_id), res)
+      names = c(input_id_type, names)
+      colnames(res) = names
+      write.table(res, output, row.names = FALSE, sep = "\t", quote = FALSE)
+    }
+    else if (list_id_input_type == "file") {
+      names(res) = options
+      names = c(names(file_all), names)
+      output_content = cbind(file_all, res)
+      colnames(output_content) = names
+      write.table(output_content, output, row.names = FALSE, sep = "\t", quote = FALSE)
+    }
+  }
+}
+
+mapping()
+
+#Rscript id_converter_UniProt.R "UniProt.AC" "test-data/UnipIDs.txt,c1,false" "file" "Ensembl_PRO,Ensembl,neXtProt_ID" "test-data/output.txt" ../../utils/mapping_file.txt
\ No newline at end of file
b
diff -r 000000000000 -r f2d0b13d9615 test-data/FKW_Lacombe_et_al_2017_OK.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/FKW_Lacombe_et_al_2017_OK.txt Fri Feb 16 03:16:29 2018 -0500
[
@@ -0,0 +1,154 @@
+Protein accession number (UniProt) Protein name Number of peptides (razor + unique)
+
+P15924 Desmoplakin 69
+P02538 Keratin, type II cytoskeletal 6A 53
+P02768 Serum albumin 44
+P08779 Keratin, type I cytoskeletal 16 29
+Q02413 Desmoglein-1 24
+P07355 "Annexin A2;Putative annexin A2-like protein" 22
+P14923 Junction plakoglobin 22
+P02788 Lactotransferrin 21
+Q9HC84 Mucin-5B 21
+P29508 Serpin B3 20
+P63261 Actin, cytoplasmic 2 19
+Q8N1N4 Keratin, type II cytoskeletal 78 18
+Q04695 Keratin, type I cytoskeletal 17 18
+P01876 Ig alpha-1 chain C region 16
+Q01469 Fatty acid-binding protein 5, epidermal 15
+P31944 Caspase-14 15
+P01833 Polymeric immunoglobulin receptor 15
+P06733 Alpha-enolase 15
+P25311 Zinc-alpha-2-glycoprotein 15
+Q15149 Plectin 15
+P19013 Keratin, type II cytoskeletal 4 13
+Q6KB66 Keratin, type II cytoskeletal 80 13
+Q08188 Protein-glutamine gamma-glutamyltransferase E 12
+P13646 Keratin, type I cytoskeletal 13 11
+Q86YZ3 Hornerin 11
+P04259 Keratin, type II cytoskeletal 6B 10
+P02545 "Prelamin-A/C;Lamin-A/C" 10
+P04083 Annexin A1 10
+P11021 78 kDa glucose-regulated protein 10
+P02787 Serotransferrin 9
+P04040 Catalase 9
+P31151 Protein S100-A7 9
+P31947 14-3-3 protein sigma 9
+Q96P63 Serpin B12 9
+P14618 Pyruvate kinase PKM 9
+P60174 Triosephosphate isomerase 9
+Q06830 Peroxiredoxin-1 9
+P01040 Cystatin-A 8
+P05089 Arginase-1 8
+P01834 Ig kappa chain C region 8
+P04406 Glyceraldehyde-3-phosphate dehydrogenase 8
+P0DMV9 Heat shock 70 kDa protein 1B 8
+P13639 Elongation factor 2 8
+P35579 Myosin-9 8
+P68371 Tubulin beta-4B chain 8
+Q8WVV4 Protein POF1B 8
+O75635 Serpin B7 7
+P01857 Ig gamma-1 chain C region 7
+P61626 Lysozyme C 7
+P68363 Tubulin alpha-1B chain 7
+P01009 "Alpha-1-antitrypsin;Short peptide from AAT" 6
+P07900 Heat shock protein HSP 90-alpha 6
+Q9NZH8 Interleukin-36 gamma 6
+O43707 "Alpha-actinin-4;Alpha-actinin-1" 6
+O75223 Gamma-glutamylcyclotransferase 6
+P00338 L-lactate dehydrogenase A chain 6
+P07339 Cathepsin D 6
+P62987 Ubiquitin-60S ribosomal protein L40 6
+P10599 Thioredoxin 6
+Q9UGM3 Deleted in malignant brain tumors 1 protein 6
+Q9UI42 Carboxypeptidase A4 6
+P47929 Galectin-7 5
+Q13867 Bleomycin hydrolase 5
+Q6P4A8 Phospholipase B-like 1 5
+O75369 Filamin-B 5
+P00441 Superoxide dismutase [Cu-Zn] 5
+P04792 Heat shock protein beta-1 5
+P11142 Heat shock cognate 71 kDa protein 5
+P58107 Epiplakin 5
+P60842 Eukaryotic initiation factor 4A-I 5
+P62937 Peptidyl-prolyl cis-trans isomerase A 5
+P63104 14-3-3 protein zeta/delta 5
+Q92820 Gamma-glutamyl hydrolase 5
+O75342 Arachidonate 12-lipoxygenase, 12R-type 4
+P09211 Glutathione S-transferase P 4
+P31025 Lipocalin-1 4
+P48594 Serpin B4 4
+Q14574 Desmocollin-3 4
+Q5T750 Skin-specific protein 32 4
+Q6UWP8 Suprabasin 4
+O60911 Cathepsin L2 4
+P00558 Phosphoglycerate kinase 1 4
+P04075 Fructose-bisphosphate aldolase A 4
+P07384 Calpain-1 catalytic subunit 4
+P0CG05 Ig lambda-2 chain C regions 4
+P18206 Vinculin 4
+P62258 14-3-3 protein epsilon 4
+P68871 Hemoglobin subunit beta 4
+Q9C075 Keratin, type I cytoskeletal 23 4
+A8K2U0 Alpha-2-macroglobulin-like protein 1 3
+P00738 Haptoglobin 3
+P01011 Alpha-1-antichymotrypsin 3
+P02763 Alpha-1-acid glycoprotein 1 3
+P18510 Interleukin-1 receptor antagonist protein 3
+P22528 Cornifin-B 3
+P30740 Leukocyte elastase inhibitor 3
+P80188 Neutrophil gelatinase-associated lipocalin 3
+Q15828 Cystatin-M 3
+Q9HCY8 Protein S100-A14 3
+P01623 Ig kappa chain V-III region 3
+P01877 Ig alpha-2 chain C region 3
+P06396 Gelsolin 3
+P14735 Insulin-degrading enzyme 3
+P20933 N(4)-(beta-N-acetylglucosaminyl)-L-asparaginase 3
+P25788 Proteasome subunit alpha type-3 3
+P26641 Elongation factor 1-gamma 3
+P36952 Serpin B5 3
+P40926 Malate dehydrogenase, mitochondrial 3
+Q9Y6R7 IgGFc-binding protein 3
+O95274 Ly6/PLAUR domain-containing protein 3 2
+P00491 Purine nucleoside phosphorylase 2
+P04080 Cystatin-B 2
+P09972 Fructose-bisphosphate aldolase C 2
+P19012 Keratin, type I cytoskeletal 15 2
+P20930 Filaggrin 2
+Q96FX8 p53 apoptosis effector related to PMP-22 2
+Q9UIV8 Serpin B13 2
+P01625 Ig kappa chain V-IV region Len 2
+P01765 Ig heavy chain V-III region TIL 2
+P01766 Ig heavy chain V-III region BRO 2
+P01860 Ig gamma-3 chain C region 2
+P01871 Ig mu chain C region 2
+P05090 Apolipoprotein D 2
+P06870 Kallikrein-1 2
+P07858 Cathepsin B 2
+P08865 40S ribosomal protein SA 2
+P11279 Lysosome-associated membrane glycoprotein 1 2
+P13473 Lysosome-associated membrane glycoprotein 2 2
+P19971 Thymidine phosphorylase 2
+P23284 Peptidyl-prolyl cis-trans isomerase B 2
+P23396 40S ribosomal protein S3 2
+P25705 ATP synthase subunit alpha, mitochondrial 2
+P27482 Calmodulin-like protein 3 2
+P31949 Protein S100-A11 2
+P40121 Macrophage-capping protein 2
+P42357 Histidine ammonia-lyase 2
+P47756 F-actin-capping protein subunit beta 2
+P48637 Glutathione synthetase 2
+P49720 Proteasome subunit beta type-3 2
+P50395 Rab GDP dissociation inhibitor beta 2
+P59998 Actin-related protein 2/3 complex subunit 4 2
+P61160 Actin-related protein 2 2
+P61916 Epididymal secretory protein E1 2
+P04745 Alpha-amylase 1 23
+Q9NZT1 Calmodulin-like protein 5 8
+P12273 Prolactin-inducible protein 6
+Q96DA0 Zymogen granule protein 16 homolog B 5
+P01036 Cystatin-S 5
+Q8TAX7 Mucin-7 2
+P01037 Cystatin-SN 2
+P09228 Cystatin-SA 2
+
\ No newline at end of file
b
diff -r 000000000000 -r f2d0b13d9615 test-data/ID_Converter_FKW_Lacombe_et_al_2017_OK.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/ID_Converter_FKW_Lacombe_et_al_2017_OK.txt Fri Feb 16 03:16:29 2018 -0500
b
b'@@ -0,0 +1,152 @@\n+Protein accession number (UniProt)\tProtein name\tNumber of peptides (razor + unique)\tneXtProt_ID\tUniProt.ID\tGeneID\tMIM\tEnsembl\n+P15924\tDesmoplakin\t69\tNX_P15924\tDESP_HUMAN\t1832\t125647; 605676; 607450; 607655; 609638; 612908; 615821\tENSG00000096696\n+P02538\tKeratin, type II cytoskeletal 6A\t53\tNX_P02538\tK2C6A_HUMAN\t3853\t148041; 615726\tENSG00000205420\n+P02768\tSerum albumin\t44\tNX_P02768\tALBU_HUMAN\t213\t103600; 615999; 616000\tENSG00000163631\n+P08779\tKeratin, type I cytoskeletal 16\t29\tNX_P08779\tK1C16_HUMAN\t3868\t148067; 167200; 613000\tENSG00000186832\n+Q02413\tDesmoglein-1\t24\tNX_Q02413\tDSG1_HUMAN\t1828\t125670; 148700; 615508\tENSG00000134760\n+P07355\tAnnexin A2;Putative annexin A2-like protein\t22\tNX_P07355\tANXA2_HUMAN\t302\t151740\tENSG00000182718\n+P14923\tJunction plakoglobin\t22\tNX_P14923\tPLAK_HUMAN\t3728\t173325; 601214; 611528\tENSG00000173801\n+P02788\tLactotransferrin\t21\tNX_P02788\tTRFL_HUMAN\t4057\t150210\tENSG00000012223\n+Q9HC84\tMucin-5B\t21\tNX_Q9HC84\tMUC5B_HUMAN\t727897\t178500; 600770\tENSG00000117983\n+P29508\tSerpin B3\t20\tNX_P29508\tSPB3_HUMAN\t6317\t600517\tENSG00000057149\n+P63261\tActin, cytoplasmic 2\t19\tNX_P63261\tACTG_HUMAN\t71\t102560; 604717; 614583\tENSG00000184009\n+Q8N1N4\tKeratin, type II cytoskeletal 78\t18\tNX_Q8N1N4\tK2C78_HUMAN\t196374\t611159\tENSG00000170423\n+Q04695\tKeratin, type I cytoskeletal 17\t18\tNX_Q04695\tK1C17_HUMAN\t3872\t148069; 167210; 184500\tENSG00000128422\n+P01876\tIg alpha-1 chain C region\t16\tNX_P01876\tIGHA1_HUMAN\tNA\t146900\tENSG00000211895; ENSG00000282633\n+Q01469\tFatty acid-binding protein 5, epidermal\t15\tNX_Q01469\tFABP5_HUMAN\t2171\t605168\tENSG00000164687\n+P31944\tCaspase-14\t15\tNX_P31944\tCASPE_HUMAN\t23581\t605848; 617320\tENSG00000105141\n+P01833\tPolymeric immunoglobulin receptor\t15\tNX_P01833\tPIGR_HUMAN\t5284\t173880\tENSG00000162896\n+P06733\tAlpha-enolase\t15\tNX_P06733\tENOA_HUMAN\t2023\t172430\tENSG00000074800\n+P25311\tZinc-alpha-2-glycoprotein\t15\tNX_P25311\tZA2G_HUMAN\t563\t194460\tENSG00000160862\n+Q15149\tPlectin\t15\tNX_Q15149\tPLEC_HUMAN\t5339\t131950; 226670; 601282; 612138; 613723; 616487\tENSG00000178209\n+P19013\tKeratin, type II cytoskeletal 4\t13\tNX_P19013\tK2C4_HUMAN\tNA\t123940; 193900\tENSG00000170477\n+Q6KB66\tKeratin, type II cytoskeletal 80\t13\tNX_Q6KB66\tK2C80_HUMAN\t144501\t611161\tENSG00000167767\n+Q08188\tProtein-glutamine gamma-glutamyltransferase E\t12\tNX_Q08188\tTGM3_HUMAN\t7053\t600238; 617251\tENSG00000125780\n+P13646\tKeratin, type I cytoskeletal 13\t11\tNX_P13646\tK1C13_HUMAN\t3860\t148065; 615785\tENSG00000171401\n+Q86YZ3\tHornerin\t11\tNX_Q86YZ3\tHORN_HUMAN\t388697\t616293\tENSG00000197915\n+P04259\tKeratin, type II cytoskeletal 6B\t10\tNX_P04259\tK2C6B_HUMAN\t3854\t148042; 615728\tENSG00000185479\n+P02545\tPrelamin-A/C;Lamin-A/C\t10\tNX_P02545\tLMNA_HUMAN\t4000\t115200; 150330; 151660; 159001; 176670; 181350; 212112; 248370; 275210; 605588; 610140; 613205; 616516\tENSG00000160789\n+P04083\tAnnexin A1\t10\tNX_P04083\tANXA1_HUMAN\t301\t151690\tENSG00000135046\n+P11021\t78 kDa glucose-regulated protein\t10\tNX_P11021\tGRP78_HUMAN\t3309\t138120\tENSG00000044574\n+P02787\tSerotransferrin\t9\tNX_P02787\tTRFE_HUMAN\t7018\t190000; 209300\tENSG00000091513\n+P04040\tCatalase\t9\tNX_P04040\tCATA_HUMAN\t847\t115500; 614097\tENSG00000121691\n+P31151\tProtein S100-A7\t9\tNX_P31151\tS10A7_HUMAN\t6278\t600353\tENSG00000143556\n+P31947\t14-3-3 protein sigma\t9\tNX_P31947\t1433S_HUMAN\t2810\t601290\tENSG00000175793\n+Q96P63\tSerpin B12\t9\tNX_Q96P63\tSPB12_HUMAN\t89777\t615662\tENSG00000166634\n+P14618\tPyruvate kinase PKM\t9\tNX_P14618\tKPYM_HUMAN\t5315\t179050\tENSG00000067225\n+P60174\tTriosephosphate isomerase\t9\tNX_P60174\tTPIS_HUMAN\t7167\t190450; 615512\tENSG00000111669\n+Q06830\tPeroxiredoxin-1\t9\tNX_Q06830\tPRDX1_HUMAN\t5052\t176763\tENSG00000117450\n+P01040\tCystatin-A\t8\tNX_P01040\tCYTA_HUMAN\t1475\t184600; 607936\tENSG00000121552\n+P05089\tArginase-1\t8\tNX_P05089\tARGI1_HUMAN\t383\t207800; 608313\tENSG00000118520\n+P01834\tIg kappa chain C region\t8\tNX_P01834\tIGKC_HUMAN\tNA\t147200; 614102\tNA\n+P04406\tGlyceraldehyde-3-phosphate dehydrogenase\t8\tNX_P04406\tG3P_HUMAN\t2597\t138400\tENSG00000111640\n+P0DMV9\tHeat shock 70 kDa protein 1B\t8\tNX_P0DMV9\tHS71B_HUMAN\t3303; 3304\t140550; '..b'X_P36952\tSPB5_HUMAN\t5268\t154790\tENSG00000206075\n+P40926\tMalate dehydrogenase, mitochondrial\t3\tNX_P40926\tMDHM_HUMAN\t4191\t154100; 617339\tENSG00000146701\n+Q9Y6R7\tIgGFc-binding protein\t3\tNX_Q9Y6R7\tFCGBP_HUMAN\t8857\t617553\tENSG00000281123\n+O95274\tLy6/PLAUR domain-containing protein 3\t2\tNX_O95274\tLYPD3_HUMAN\t27076\t609484\tENSG00000124466\n+P00491\tPurine nucleoside phosphorylase\t2\tNX_P00491\tPNPH_HUMAN\t4860\t164050; 613179\tENSG00000198805\n+P04080\tCystatin-B\t2\tNX_P04080\tCYTB_HUMAN\t1476\t254800; 601145\tENSG00000160213\n+P09972\tFructose-bisphosphate aldolase C\t2\tNX_P09972\tALDOC_HUMAN\t230\t103870\tENSG00000109107\n+P19012\tKeratin, type I cytoskeletal 15\t2\tNX_P19012\tK1C15_HUMAN\t3866\t148030\tENSG00000171346\n+P20930\tFilaggrin\t2\tNX_P20930\tFILA_HUMAN\t2312\t135940; 146700; 605803\tENSG00000143631\n+Q96FX8\tp53 apoptosis effector related to PMP-22\t2\tNX_Q96FX8\tPERP_HUMAN\t64065\t609301\tENSG00000112378\n+Q9UIV8\tSerpin B13\t2\tNX_Q9UIV8\tSPB13_HUMAN\t5275\t604445\tENSG00000197641\n+P01625\tIg kappa chain V-IV region Len\t2\tNA\tNA\tNA\tNA\tNA\n+P01765\tIg heavy chain V-III region TIL\t2\tNA\tNA\tNA\tNA\tNA\n+P01766\tIg heavy chain V-III region BRO\t2\tNX_P01766\tHV313_HUMAN\tNA\tNA\tENSG00000211942; ENSG00000282286\n+P01860\tIg gamma-3 chain C region\t2\tNX_P01860\tIGHG3_HUMAN\tNA\t147120\tNA\n+P01871\tIg mu chain C region\t2\tNX_P01871\tIGHM_HUMAN\tNA\t147020; 601495\tENSG00000211899; ENSG00000282657\n+P05090\tApolipoprotein D\t2\tNX_P05090\tAPOD_HUMAN\t347\t107740\tENSG00000189058\n+P06870\tKallikrein-1\t2\tNX_P06870\tKLK1_HUMAN\t3816\t147910; 615953\tENSG00000167748\n+P07858\tCathepsin B\t2\tNX_P07858\tCATB_HUMAN\t1508\t116810\tENSG00000164733\n+P08865\t40S ribosomal protein SA\t2\tNX_P08865\tRSSA_HUMAN\t3921\t150370; 271400\tENSG00000168028\n+P11279\tLysosome-associated membrane glycoprotein 1\t2\tNX_P11279\tLAMP1_HUMAN\t3916\t153330\tENSG00000185896\n+P13473\tLysosome-associated membrane glycoprotein 2\t2\tNX_P13473\tLAMP2_HUMAN\t3920\t300257; 309060\tENSG00000005893\n+P19971\tThymidine phosphorylase\t2\tNX_P19971\tTYPH_HUMAN\t1890\t131222; 603041\tENSG00000025708\n+P23284\tPeptidyl-prolyl cis-trans isomerase B\t2\tNX_P23284\tPPIB_HUMAN\t5479\t123841; 259440\tENSG00000166794\n+P23396\t40S ribosomal protein S3\t2\tNX_P23396\tRS3_HUMAN\t6188\t600454\tENSG00000149273\n+P25705\tATP synthase subunit alpha, mitochondrial\t2\tNX_P25705\tATPA_HUMAN\t498\t164360; 615228; 616045\tENSG00000152234\n+P27482\tCalmodulin-like protein 3\t2\tNX_P27482\tCALL3_HUMAN\t810\t114184\tENSG00000178363\n+P31949\tProtein S100-A11\t2\tNX_P31949\tS10AB_HUMAN\t6282\t603114\tENSG00000163191\n+P40121\tMacrophage-capping protein\t2\tNX_P40121\tCAPG_HUMAN\t822\t153615\tENSG00000042493\n+P42357\tHistidine ammonia-lyase\t2\tNX_P42357\tHUTH_HUMAN\t3034\t235800; 609457\tENSG00000084110\n+P47756\tF-actin-capping protein subunit beta\t2\tNX_P47756\tCAPZB_HUMAN\t832\t601572\tENSG00000077549\n+P48637\tGlutathione synthetase\t2\tNX_P48637\tGSHB_HUMAN\t2937\t231900; 266130; 601002\tENSG00000100983\n+P49720\tProteasome subunit beta type-3\t2\tNX_P49720\tPSB3_HUMAN\t5691\t602176\tENSG00000277791; ENSG00000275903\n+P50395\tRab GDP dissociation inhibitor beta\t2\tNX_P50395\tGDIB_HUMAN\t2665\t600767\tENSG00000057608\n+P59998\tActin-related protein 2/3 complex subunit 4\t2\tNX_P59998\tARPC4_HUMAN\t10093\t604226\tENSG00000241553\n+P61160\tActin-related protein 2\t2\tNX_P61160\tARP2_HUMAN\t10097\t604221\tENSG00000138071\n+P61916\tEpididymal secretory protein E1\t2\tNX_P61916\tNPC2_HUMAN\t10577\t601015; 607625\tENSG00000119655\n+P04745\tAlpha-amylase 1\t23\tNX_P04745\tAMY1_HUMAN\t276; 277; 278\t104700; 104701; 104702\tENSG00000174876; ENSG00000187733; ENSG00000237763\n+Q9NZT1\tCalmodulin-like protein 5\t8\tNX_Q9NZT1\tCALL5_HUMAN\t51806\t605183\tENSG00000178372\n+P12273\tProlactin-inducible protein\t6\tNX_P12273\tPIP_HUMAN\t5304\t176720\tENSG00000159763\n+Q96DA0\tZymogen granule protein 16 homolog B\t5\tNX_Q96DA0\tZG16B_HUMAN\t124220\tNA\tENSG00000162078; ENSG00000283056\n+P01036\tCystatin-S\t5\tNX_P01036\tCYTS_HUMAN\t1472\t123857\tENSG00000101441\n+Q8TAX7\tMucin-7\t2\tNX_Q8TAX7\tMUC7_HUMAN\t4589\t158375; 600807\tENSG00000171195\n+P01037\tCystatin-SN\t2\tNX_P01037\tCYTN_HUMAN\t1469\t123855\tENSG00000170373\n+P09228\tCystatin-SA\t2\tNX_P09228\tCYTT_HUMAN\t1470\t123856\tENSG00000170369\n'
b
diff -r 000000000000 -r f2d0b13d9615 test-data/human_id_mapping_file.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/human_id_mapping_file.txt Fri Feb 16 03:16:29 2018 -0500
b
b'@@ -0,0 +1,161043 @@\n+neXtProt_ID\tUniProt-AC\tUniProt-ID\tGeneID\tRefSeq\tGI\tPDB\tGO\tPIR\tMIM\tUniGene\tEnsembl\tEnsembl_TRS\tEnsembl_PRO\n+NX_P31946\tP31946\t1433B_HUMAN\t7529\tNP_003395.1; NP_647539.1; XP_016883528.1\t4507949; 377656702; 67464628; 1345590; 1034625756; 21328448; 377656701; 67464627; 78101741\t2BQ0:A; 2BQ0:B; 2C23:A; 4DNK:A; 4DNK:B; 5N10:A; 5N10:B\tGO:0005737; GO:0030659; GO:0005829; GO:0070062; GO:0005925; GO:0042470; GO:0016020; GO:0005739; GO:0005634; GO:0048471; GO:0043234; GO:0017053; GO:0045296; GO:0019899; GO:0042826; GO:0042802; GO:0051219; GO:0050815; GO:0008022; GO:0032403; GO:0019904; GO:0003714; GO:0051220; GO:0035329; GO:0000165; GO:0061024; GO:0045744; GO:0035308; GO:0045892; GO:0043085; GO:1900740; GO:0051291; GO:0006605; GO:0043488; GO:0016032\tS34755\t601289\tHs.643544\tENSG00000166913\tENST00000353703; ENST00000372839\tENSP00000300161; ENSP00000361930\n+NX_P62258\tP62258\t1433E_HUMAN\t7531\tNP_006752.1\t374074368; 62131678; 67464424; 194379794; 221045758; 5803225; 374074366; 51702210\t2BR9:A; 3UAL:A; 3UBW:A\tGO:0030424; GO:0090724; GO:0005737; GO:0030659; GO:0005829; GO:0070062; GO:0005925; GO:0005871; GO:0042470; GO:0016020; GO:0005739; GO:0005634; GO:0045296; GO:0005246; GO:0019899; GO:0042826; GO:0042802; GO:0044325; GO:0023026; GO:0051219; GO:0050815; GO:0015459; GO:0019904; GO:0046982; GO:0017112; GO:0003723; GO:0031625; GO:0034605; GO:0021987; GO:0097711; GO:0000086; GO:0035329; GO:0021766; GO:0035556; GO:0000165; GO:0061024; GO:0086013; GO:1905913; GO:1901020; GO:0043154; GO:1902309; GO:0001764; GO:0046827; GO:1900740; GO:0006605; GO:1900034; GO:0051480; GO:0010389; GO:0086091; GO:0003064; GO:0060306; GO:1901016; GO:0021762; GO:0016032\tA61235; I38947\t605066\tHs.513851\tENSG00000108953; ENSG00000274474\tENST00000264335; ENST00000571732; ENST00000616643; ENST00000627231\tENSP00000264335; ENSP00000461762; ENSP00000481059; ENSP00000487356\n+NX_Q04917\tQ04917\t1433F_HUMAN\t7533\tNP_003396.1\t4507951; 437363; 83754686; 83754699; 83754700; 1345593; 83754684; 83754685; 28862; 83754683\t2C63:A; 2C63:B; 2C63:C; 2C63:D; 2C74:A; 2C74:B\tGO:0005737; GO:0030659; GO:0005829; GO:0070062; GO:0014704; GO:0005739; GO:0005886; GO:0003779; GO:0019899; GO:0035259; GO:0042802; GO:0005159; GO:0044325; GO:0019904; GO:0046982; GO:0017080; GO:0006713; GO:0042921; GO:0006886; GO:0086010; GO:0061024; GO:0050774; GO:1900740; GO:0045893; GO:0045664; GO:2000649; GO:0002028; GO:0048167; GO:0021762\tS34756; S38509; S38532\t113508\tHs.226755\tENSG00000128245\tENST00000248975\tENSP00000248975\n+NX_P61981\tP61981\t1433G_HUMAN\t7532\tNP_036611.2\t6016838; 380764684; 635576381; 82407956; 82407958; 550545213; 635576377; 380765197; 82407950; 550545214; 119592210; 1006588564; 1006588561; 635576379; 21464101; 82407952; 48428721; 5726310; 550545212; 635576378; 1006588559; 18088513; 49456805; 1006588565; 550545215; 1006588558; 49456763; 1006588562; 82407948; 82407954; 635576376; 635576380\t2B05:A; 2B05:B; 2B05:C; 2B05:D; 2B05:E; 2B05:F; 3UZD:A; 4E2E:A; 4J6S:A; 4J6S:B; 4J6S:C; 4J6S:D; 4O46:A; 4O46:B; 4O46:C; 4O46:D; 4O46:E; 4O46:F; 5D3E:A; 5D3E:B; 5D3E:E; 5D3E:F; 5D3E:I; 5D3E:J\tGO:0030659; GO:0005829; GO:0070062; GO:0005925; GO:0016020; GO:0005739; GO:0043209; GO:0042802; GO:0005159; GO:0019904; GO:0005080; GO:0008426; GO:0030971; GO:0003723; GO:0032869; GO:0097711; GO:0000086; GO:0061024; GO:0006469; GO:1900740; GO:0006605; GO:0010389; GO:0045664; GO:0009966; GO:0048167\t\t605356\tHs.744840\tENSG00000170027\tENST00000307630\tENSP00000306330\n+NX_P31947\tP31947\t1433S_HUMAN\t2810\tNP_006133.1\t436408756; 306991738; 969812714; 350610438; 350610440; 2702355; 393715161; 394985958; 398953; 305677674; 305677670; 350610436; 528082005; 390981001; 1025734704; 187302; 12654345; 61680850; 49456807; 12804273; 12653125; 394985950; 528082006; 16306737; 528082000; 433286579; 390980999; 394985956; 499142131; 23940; 394985954; 528082007; 564730948; 499142129; 528082001; 307776567; 291463695; 62738854; 835018920; 350610430; 969812717; 528082008; 564730947; 491668340; 528082002; 61680851; 984077415; 394985952; 5454'..b'654404; Hs.726974; Hs.77961\t\t\t\n+NA\tG1EMU7\tG1EMU7_HUMAN\t\t\t341835542\t\t\t\t\t\t\t\t\n+NA\tQ496L1\tQ496L1_HUMAN\t\t\t72533283\t\tGO:0016021; GO:0022857\t\t\tHs.661910; Hs.743282\t\t\t\n+NA\tQ49A42\tQ49A42_HUMAN\t\t\t71296962\t\t\t\t\tHs.655084\t\t\t\n+NA\tQ53TT7\tQ53TT7_HUMAN\t\t\t62988840\t\t\t\t\tHs.152774\t\t\t\n+NA\tQ59EQ8\tQ59EQ8_HUMAN\t\t\t62089092\t\tGO:0003723\t\t\tHs.7527\t\t\t\n+NA\tD6R943\tD6R943_HUMAN\t\t\t\t\t\t\t\t\tENSG00000074211\tENST00000509917\tENSP00000423650\n+NA\tD6R9G9\tD6R9G9_HUMAN\t\t\t\t\tGO:0016021; GO:0055085\t\t\t\tENSG00000121073\tENST00000511763\tENSP00000422104\n+NA\tD6RAK0\tD6RAK0_HUMAN\t\t\t\t\tGO:0005096; GO:0017034; GO:0042127\t\t\t\tENSG00000109756\tENST00000510510\tENSP00000421740\n+NA\tF8LFQ0\tF8LFQ0_HUMAN\t\t\t335353537\t\t\t\t\tHs.656020; Hs.743218\t\t\t\n+NA\tF8R172\tF8R172_HUMAN\t\t\t336092798\t\t\t\t\t\t\t\t\n+NA\tF8WDZ7\tF8WDZ7_HUMAN\t\t\t\t\t\t\t\t\tENSG00000188846\tENST00000435633\tENSP00000402476\n+NA\tQ05CW4\tQ05CW4_HUMAN\t\t\t116283645\t\tGO:0005634; GO:0003677\t\t\tHs.113876\t\t\t\n+NA\tQ3ZCW6\tQ3ZCW6_HUMAN\t\t\t73909090\t\tGO:0004114; GO:0046872; GO:0007165\t\t\tHs.584830\t\t\t\n+NA\tQ59FR3\tQ59FR3_HUMAN\t10564\tNP_006411.2\t150417986; 62088374\t\t\t\t\tHs.62578\t\t\t\n+NA\tQ6N0A8\tQ6N0A8_HUMAN\t\t\t34364613\t\tGO:0005615\t\t\tHs.104879\t\t\t\n+NA\tQ96DV6\tQ96DV6_HUMAN\t\t\t15342049\t\tGO:0005840; GO:0003735; GO:0006412\t\t\tHs.408073\t\t\t\n+NA\tS4T761\tS4T761_HUMAN\t\t\t408833487\t\tGO:0042613; GO:0019882; GO:0006955\t\t\tHs.534322; Hs.696211; Hs.736560\t\t\t\n+NA\tV5LLB7\tV5LLB7_HUMAN\t\t\t558479739\t\tGO:0016021; GO:0042613; GO:0002504; GO:0006955\t\t\t\t\t\t\n+NA\tV5NXR7\tV5NXR7_HUMAN\t\t\t558853952\t\t\t\t\tHs.654404; Hs.726974; Hs.77961\t\t\t\n+NA\tA4ZN04\tA4ZN04_HUMAN\t\t\t133855370\t\tGO:0016021; GO:0031966; GO:0070469; GO:0008137\t\t\t\t\t\t\n+NA\tB0QYQ6\tB0QYQ6_HUMAN\t\t\t\t\t\t\t\t\tENSG00000189337\tENST00000376028\tENSP00000365196\n+NA\tD6R9A7\tD6R9A7_HUMAN\t\t\t\t\t\t\t\t\tENSG00000164304\tENST00000442019\tENSP00000391746\n+NA\tD6R9H3\tD6R9H3_HUMAN\t\t\t\t\t\t\t\t\tENSG00000164171\tENST00000513685\tENSP00000422095\n+NA\tD6R9L4\tD6R9L4_HUMAN\t\t\t\t\t\t\t\t\tENSG00000113448\tENST00000509368\tENSP00000423555\n+NA\tD6RDP1\tD6RDP1_HUMAN\t\t\t\t\tGO:0005525\t\t\t\tENSG00000138758\tENST00000504637\tENSP00000425262\n+NA\tD6RJD8\tD6RJD8_HUMAN\t\t\t\t\t\t\t\t\tENSG00000170180\tENST00000508337\tENSP00000425719\n+NA\tD6RJD9\tD6RJD9_HUMAN\t\t\t\t\t\t\t\t\tENSG00000154277\tENST00000512419\tENSP00000425714\n+NA\tD6RJH8\tD6RJH8_HUMAN\t\t\t\t\t\t\t\t\tENSG00000049883\tENST00000486995\tENSP00000425606\n+NA\tF8R8N1\tF8R8N1_HUMAN\t\t\t1268267595; 1079491200; 333036639\t\tGO:0042613; GO:0019882; GO:0006955\t\t\tHs.534322; Hs.696211; Hs.736560\t\t\t\n+NA\tF8W8W7\tF8W8W7_HUMAN\t\t\t\t\tGO:0005794; GO:0016021; GO:0005654; GO:0005802\t\t\t\tENSG00000152291\tENST00000282120\tENSP00000282120\n+NA\tF8WAL3\tF8WAL3_HUMAN\t\t\t\t\tGO:0005622; GO:0003676; GO:0006355\t\t\t\tENSG00000167555\tENST00000391788\tENSP00000375665\n+NA\tF8WCB7\tF8WCB7_HUMAN\t\t\t\t\t\t\t\t\tENSG00000113810\tENST00000469858\tENSP00000418434\n+NA\tF8WDX2\tF8WDX2_HUMAN\t\t\t\t\t\t\t\t\tENSG00000243646\tENST00000422891\tENSP00000414682\n+NA\tF8WDX9\tF8WDX9_HUMAN\t\t\t\t\tGO:0016021; GO:0005452\t\t\t\tENSG00000144290\tENST00000446228\tENSP00000389180\n+NA\tQ6AI50\tQ6AI50_HUMAN\t\t\t50949826\t\tGO:0003723\t\t\tHs.442199\t\t\t\n+NA\tJ9PVP5\tJ9PVP5_HUMAN\t\t\t375173855\t\t\t\t\tHs.656020; Hs.743218\t\t\t\n+NA\tA0A1W1B5G8\tA0A1W1B5G8_HUMAN\t\t\t\t\tGO:0016021\t\t\t\t\t\t\n+NA\tA0A1W2PRH2\tA0A1W2PRH2_HUMAN\t\t\t\t\tGO:0042765; GO:0016255\t\t\t\tENSG00000124155\tENST00000639235\tENSP00000492498\n+NA\tA0A1W2PRC0\tA0A1W2PRC0_HUMAN\t\t\t\t\tGO:0005622; GO:0046872; GO:0003676; GO:0006355\t\t\t\tENSG00000256771\tENST00000640599\tENSP00000492582\n+NA\tB3KT98\tB3KT98_HUMAN\t\t\t193787807\t\t\t\t\tHs.645481\t\t\t\n+NA\tB3KTZ6\tB3KTZ6_HUMAN\t23481\tNP_001269257.1\t193788364; 537361044\t\tGO:0005730; GO:0005654; GO:0006364\t\t\tHs.517543\t\t\t\n+NA\tB4DDI4\tB4DDI4_HUMAN\t\t\t194375600\t\t\t\t\tHs.744856\t\t\t\n+NA\tB4DXG9\tB4DXG9_HUMAN\t\t\t194378036\t\tGO:0005794\t\t\tHs.454625\t\t\t\n+NA\tQ9NVH7\tQ9NVH7_HUMAN\t\t\t40031793; 7022935\t\t\t\t\tHs.195060\t\t\t\n+NA\tQ9P1H8\tQ9P1H8_HUMAN\t\t\t7959811\t\tGO:0016021\t\t\t\t\t\t\n+NA\tQ59H94\tQ59H94_HUMAN\t2318\tNP_001120959.1; NP_001449.3\t62087310; 116805322; 188595687\t\tGO:0051015\t\t\tHs.58414\t\t\t\n+NA\tA0A1W2PNU5\tA0A1W2PNU5_HUMAN\t\t\t\t\tGO:0004418; GO:0033014\t\t\t\tENSG00000256269\tENST00000640813\tENSP00000491061\n+NA\tA0A1W2PRD8\tA0A1W2PRD8_HUMAN\t\t\t\t\tGO:0005887; GO:0005249\t\t\t\tENSG00000143473\tENST00000640625\tENSP00000492609\n'