Repository 'proteore_expression_rnaseq_abbased'
hg clone https://toolshed.g2.bx.psu.edu/repos/proteore/proteore_expression_rnaseq_abbased

Changeset 0:cf2fa609625b (2017-11-26)
Next changeset 1:8dd24f13f923 (2018-02-16)
Commit message:
planemo upload commit abb24d36c776520e73220d11386252d848173697-dirty
added:
expression_rnaseq_abbased.xml
get_data_HPA_v2.R
proteinatlas.csv
b
diff -r 000000000000 -r cf2fa609625b expression_rnaseq_abbased.xml
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/expression_rnaseq_abbased.xml Sun Nov 26 20:49:17 2017 -0500
[
@@ -0,0 +1,125 @@
+<tool id="rna_abbased_data" name="Expression from RNAseq/Ab-based data (Human Protein Atlas)" version="0.1.0">
+<description>
+</description>
+<requirements>
+</requirements>
+<stdio>
+  <exit_code range="1:" />
+</stdio>
+<command><![CDATA[
+
+  #if $inputtype.filetype == "copy_paste": 
+  
+    Rscript --vanilla $__tool_directory__/get_data_HPA_v2.R --inputtype copypaste --input '$inputtype.genelist' --header FALSE --proteinatlas $__tool_directory__/proteinatlas.csv --column c1 --select '$options.hpaparams' --output '$output'  
+
+  #else 
+  
+    Rscript --vanilla $__tool_directory__/get_data_HPA_v2.R --inputtype tabfile --input '$inputtype.genelist' --header '$inputtype.header' --proteinatlas $__tool_directory__/proteinatlas.csv --column '$inputtype.column' --select '$options.hpaparams' --output '$output'  
+
+  #end if
+   
+
+]]></command>
+
+<inputs>
+  <conditional name="inputtype">
+    <param name="filetype" type="select" label="Select your type of input file"> 
+      <option value="file_all">Input file containing your identifiers</option>
+      <option value="copy_paste">Copy/paste your list of IDs</option> 
+    </param>
+    <when value="copy_paste">
+      <param name="genelist" type="text" label="Enter a list of identifiers"/>
+    </when>
+    <when value="file_all">
+      <param name="genelist" type="data" format="txt,tabular" label="Choose a multiple-columns file" help="This file must imperatively have 1 column filled with IDs consistent with the database that will be used. Please use the MappingIDs component if this is not the case."/>
+      <param name="column" type="text" label="Please specify the column where you would like to apply the comparison (e.g : Enter c1)" value="c1"/> 
+      <param name="header" type="select" label="Does your file have a header?" multiple="false" optional="false"> 
+        <option value="TRUE" selected="true">Yes</option>
+          <option value="FALSE" selected="false">No</option>
+      </param>
+    </when>
+  </conditional>
+  <section name="options" title="RNAseq/Ab-based data expression options" expanded="True">   
+      <param name="hpaparams" type="select" label="Choose the expression from RNAseq/ab-based data you would like to add to your input" multiple="True" display="checkboxes"> 
+          <option value="Gene" selected="true">Gene name</option>
+          <option value="Gene.description" selected="false">Gene description</option>
+          <option value="Evidence">Evidence (at protein level, at transcript level or no evidence)</option>
+          <option value="Antibody">Antibody reference</option>
+          <option value="RNA.tissue.category">RNA tissue category</option>
+    <option value="Reliability..IH.">IH detection level</option>
+          <option value="Reliability..IF.">IF detection level</option>
+          <option value="Subcellular.location">Subcellular location</option>
+          <option value="RNA.TS.TPM">RNA tissue specificity abundance in 'Transcript Per Million'</option>
+          <option value="TPM.max.in.non.specific">RNA non-specific tissue abundance in 'Transcript Per Million'</option>
+    </param>
+  </section>
+
+</inputs>
+
+
+<outputs>
+  <data name="output" format="tabular" label="abc"/>
+</outputs>
+
+<tests>
+  <test>
+    <conditional name="inputtype">
+      <param name="filetype " value="file_all"/>
+      <param name="genelist" value="mitochondrion_enzymes_Nextprot.txt"/>
+      <param name="column" value="c1"/>
+      <param name="header" value="TRUE"/>
+    </conditional>
+    <section name="options">
+      <param name="hpaparams" value="Gene,Gene.description,Reliability..IH.,Subcellular.location,TPM.max.in.non.specific"/>
+    </section>
+    <output name="output" file="output_expression_rnaseq_abbased_data.tab"/>
+  </test>
+</tests>
+
+<help><![CDATA[
+
+This tool filters an input **tabular** file according to different databases.
+
+**Input**
+
+Input can be a file containing multiple fields but with **at least one column of Ensembl gene IDs** or a list of Ensembl gene ids. If your input file contains other kind of IDs, please refer to the MappingIDs component to create a column of Ensembl gene IDs.  
+
+**Databases**
+
+The input file will be filtered using information from different sources : 
+
+- HPA normal tissue : will filter the input according to the data contained in the Human Protein Atlas webservice. Pertinent information, such as tissular location, will be added for each gene to your input file.  
+
+- HPA cancer tissue :  will filter the input according to the data contained in the Human Protein Atlas webservice for cancer. Pertinent information, such as tumor type, will be added for each gene to your input file.  
+
+**Parameters**
+
+For HPA normal tissue :
+
+- tissue category : categories based on RNA-Seq data to estimate the transcript abundance of each protein-coding gene in tissues. For more information, please refer to http://www.proteinatlas.org/about/assays+annotation#rna .
+
+- level of detection IF : level of detection of the protein associated to the coding gene tissues based on immunofluorescency. For more information, please refer to http://www.proteinatlas.org/about/assays+annotation#if .
+
+- level of detection IH :  level of detection of the protein associated to the coding gene tissues based on immunohistochemistry. For more information, please refer to http://www.proteinatlas.org/about/assays+annotation#if .
+
+For HPA cancer tissue : 
+
+- tumors : which tumors are associated with your protein-coding genes according to the Human Protein Atlas.
+
+
+**Outputs**
+
+The output will be a tabular file. The initial columns will be kept, but lines can be deleted due to the filtering process. Additional columns will be added according to which data you chose to filter your input with.  
+
+
+**Data sources**
+
+The data for HPA normal tissue was retrieved from the Human Protein Atlas downloadable data repository (http://www.proteinatlas.org/download/proteinatlas.tab.gz).
+
+The data for HPA cancer was retrieved from the Human Protein Atlas downloadable data repository (http://www.proteinatlas.org/download/cancer.csv.zip).
+]]></help>
+
+<citations>
+</citations>
+
+</tool>
b
diff -r 000000000000 -r cf2fa609625b get_data_HPA_v2.R
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/get_data_HPA_v2.R Sun Nov 26 20:49:17 2017 -0500
[
@@ -0,0 +1,107 @@
+# Usage :
+# Rscript --vanilla get_data_HPA_v2.R --typeinput copypaste --input
+# ENSG00000283071 --header FALSE --proteinatlas proteinatlas.csv --column c1
+# --select RNA.tissue.category,Reliability..IH.,Reliability..IF. --output
+# output.txt 
+
+# INPUTS : 
+# --typeinput : "copypaste" or "tabfile"
+# --input : either a file name (e.g : input.txt) or a list of blank-separated
+# ENSG identifiers (e.g : ENSG00000283071 ENSG00000283072)
+# --header : "TRUE" or "FALSE" : indicates in case the input is a file if said
+# file has an header
+# --proteinatlas : HPA proteinatlas tab file
+# --column : column containing in input ENSG identifiers
+# --select : information from HPA to select, may be
+# : RNA.tissue.category,Reliability..IH.,Reliability..IF. (comma-separated)
+# --output : output file name
+# Useful functions
+
+'%!in%' <- function(x,y)!('%in%'(x,y))
+
+args = commandArgs(trailingOnly = TRUE)
+
+# create a list of the arguments from the command line, separated by a blank space
+hh <- paste(unlist(args),collapse=' ')
+# delete the first element of the list which is always a blank space
+listoptions <- unlist(strsplit(hh,'--'))[-1]
+# for each input, split the arguments with blank space as separator, unlist, and delete the first element which is the input name (e.g --protatlas) 
+options.args <- sapply(listoptions,function(x){
+         unlist(strsplit(x, ' '))[-1]
+        })
+# same as the step above, except that only the names are kept
+options.names <- sapply(listoptions,function(x){
+  option <-  unlist(strsplit(x, ' '))[1]
+})
+names(options.args) <- unlist(options.names)
+
+
+typeinput = as.character(options.args[1])
+proteinatlas = read.table(as.character(options.args[4]),header=TRUE,sep="\t",quote="\"",fill=TRUE,blank.lines.skip=TRUE, na.strings=c("NA"," ","")) 
+listfile = options.args[2]
+
+header = as.character(options.args[3])
+column = as.numeric(gsub("c","",options.args[5]))
+select = as.character(options.args[6])
+output = as.character(options.args[7])
+
+if (typeinput=="copypaste"){
+  sample = as.data.frame(unlist(listfile))
+  sample = sample[,column]
+}
+if (typeinput=="tabfile"){
+  
+  if (header=="TRUE"){
+    listfile = read.table(listfile,header=TRUE,sep="\t",quote="\"",fill=TRUE, na.strings=c("","NA"))
+  }else{
+    listfile = read.table(listfile,header=FALSE,sep="\t",quote="\"",fill=TRUE, na.strings=c("","NA"))
+  }
+  sample = listfile[,column]
+
+}
+
+# Select user input ensembl ids in HPA protein atlas file 
+
+if ((length(sample[sample %in% proteinatlas[,3]]))==0){
+    write.table("None of the input ENSG ids are can be found in HPA data file",file=output,sep="\t",quote=FALSE,col.names=TRUE,row.names=FALSE)
+
+}else{ 
+
+
+ to_keep = c()
+
+ if (select!="None"){
+   select = unlist(strsplit(select,","))
+   for (arg in select){
+     colnb = which(colnames(proteinatlas) %in% c(arg))
+     to_keep = c(to_keep,colnb)    
+   }
+ }
+
+  to_keep = c(3,to_keep)
+  lines = which(proteinatlas[,3] %in% sample)
+  data = proteinatlas[lines,]
+  data = data[,to_keep]
+  # if only some of the proteins were not found in proteinatlas they will be added to
+  # the file with the fields "Protein not found in proteinatlas"
+  if (length(which(sample %!in% proteinatlas[,3]))!=0){
+    proteins_not_found = as.data.frame(sample[which(sample %!in% proteinatlas[,3])])
+ proteins_not_found = cbind(proteins_not_found,matrix(rep("Protein not found in HPA",length(proteins_not_found)),nrow=length(proteins_not_found),ncol=length(colnames(data))-1))
+
+    colnames(proteins_not_found)=colnames(data) 
+
+    data = rbind(data,proteins_not_found)
+  }
+  
+  # Merge original data and data selected from proteinatlas
+
+  # Before that, if the initial ids were uniprot ids change them back from
+  # proteinatlas to uniprot ids in data 
+  data = merge(listfile, data, by.x = column, by.y=1)
+  colnames(data)[1] = "Ensembl gene ids"
+  # Write result
+  write.table(data,file=output,sep="\t",quote=FALSE,col.names=TRUE,row.names=FALSE)
+
+}
+
+
b
diff -r 000000000000 -r cf2fa609625b proteinatlas.csv
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/proteinatlas.csv Sun Nov 26 20:49:17 2017 -0500
b
b'@@ -0,0 +1,19629 @@\n+Gene\tGene synonym\tEnsembl\tGene description\tChromosome\tPosition\tProtein class\tEvidence\tHPA evidence\tUniProt evidence\tMS evidence\tAntibody\tReliability (IH)\tReliability (Mouse Brain)\tReliability (IF)\tSubcellular location\tRNA tissue category\tRNA TS\tRNA TS TPM\tTPM max in non-specific\n+TSPAN6\tT245, TM4SF6, TSPAN-6\tENSG00000000003\tTetraspanin 6\tX\t100627109-100639991\tPredicted intracellular proteins, Predicted membrane proteins\tEvidence at protein level\tEvidence at transcript level\tEvidence at protein level\tEvidence at protein level\tHPA004109\tApproved\t\tApproved\tCytosol\tMixed\t\t\tfallopian tube: 101.0\n+TNMD\tBRICD4, ChM1L, myodulin, TEM, tendin\tENSG00000000005\tTenomodulin\tX\t100584802-100599885\tPredicted membrane proteins\tEvidence at protein level\tEvidence at transcript level\tEvidence at protein level\t\tHPA034961, HPA055634\tUncertain\t\t\t\tTissue enhanced\t0\tadipose tissue: 10.1;seminal vesicle: 32.9\tbreast: 4.3\n+DPM1\tCDGIE, MPDS\tENSG00000000419\tDolichyl-phosphate mannosyltransferase polypeptide 1, catalytic subunit\t20\t50934867-50958555\tDisease related genes, Enzymes, Plasma proteins, Potential drug targets, Predicted intracellular proteins\tEvidence at protein level\tEvidence at transcript level\tEvidence at protein level\tEvidence at protein level\tHPA051818\tApproved\t\t\t\tExpressed in all\t\t\tthyroid gland: 80.6\n+SCYL3\tPACE-1, PACE1\tENSG00000000457\tSCY1-like, kinase-like 3\t1\t169849631-169894267\tEnzymes, Predicted intracellular proteins\tEvidence at protein level\tEvidence at transcript level\tEvidence at protein level\tEvidence at protein level\tHPA005624\tApproved\t\tUncertain\tNuclear bodies<br>Microtubules\tExpressed in all\t\t\tparathyroid gland: 44.0\n+C1orf112\tFLJ10706\tENSG00000000460\tChromosome 1 open reading frame 112\t1\t169662007-169854080\tPredicted intracellular proteins\tEvidence at protein level\tEvidence at protein level\tEvidence at protein level\tEvidence at protein level\tHPA023778, HPA024451\tUncertain\t\tApproved\tMitochondria\tTissue enhanced\t0\tparathyroid gland: 24.1;testis: 13.1\tlymph node: 4.1\n+FGR\tc-fgr, p55c-fgr, SRC2\tENSG00000000938\tFGR proto-oncogene, Src family tyrosine kinase\t1\t27612064-27635277\tDisease related genes, Enzymes, Plasma proteins, Potential drug targets, Predicted intracellular proteins\tEvidence at protein level\tEvidence at protein level\tEvidence at protein level\tEvidence at protein level\tHPA002024\tSupported\t\tApproved\tPlasma membrane<br>Aggresome\tTissue enhanced\t0\tappendix: 87.8;bone marrow: 137.2;spleen: 92.1\tlung: 56.3\n+CFH\tARMD4, ARMS1, FHL1, HF, HF1, HF2, HUS\tENSG00000000971\tComplement factor H\t1\t196651878-196747504\tCancer-related genes, Disease related genes, Plasma proteins, Predicted secreted proteins\tEvidence at protein level\tEvidence at protein level\tEvidence at protein level\tEvidence at protein level\tCAB016385, CAB016769, HPA038922, HPA049176, HPA053326\tSupported\t\tApproved\tVesicles\tTissue enhanced\t0\tliver: 838.9\tgallbladder: 206.0\n+FUCA2\tdJ20N2.5, MGC1314\tENSG00000001036\tFucosidase, alpha-L- 2, plasma\t6\t143494811-143511690\tEnzymes, Plasma proteins, Predicted intracellular proteins, Predicted secreted proteins\tEvidence at protein level\tEvidence at transcript level\tEvidence at protein level\tEvidence at protein level\tHPA031659, HPA031660, HPA031661\tUncertain\t\t\t\tExpressed in all\t\t\tparathyroid gland: 152.0\n+GCLC\tGCS, GLCL, GLCLC\tENSG00000001084\tGlutamate-cysteine ligase, catalytic subunit\t6\t53497341-53616970\tDisease related genes, Enzymes, Plasma proteins, Potential drug targets, Predicted intracellular proteins, Predicted membrane proteins\tEvidence at protein level\tEvidence at protein level\tEvidence at protein level\tEvidence at protein level\tCAB009569, HPA036359, HPA036360\tApproved\t\tApproved\tNucleus<br>Nucleoli<br>Cytosol\tExpressed in all\t\t\tfallopian tube: 81.9\n+NFYA\tCBF-B, HAP2, NF-YA\tENSG00000001167\tNuclear transcription factor Y, alpha\t6\t41072945-41099976\tPredicted intracellular proteins, Transcription factors\tEvidence at protein level\tEvidence at protein level\tEvidence at protein level\tEvidence at protei'..b'isease related genes, Enzymes, Potential drug targets, Predicted intracellular proteins, Predicted membrane proteins\tEvidence at protein level\tEvidence at protein level\tEvidence at protein level\t\tHPA035437, HPA047590\tApproved\t\tApproved\tNucleus\tMixed\t\t\ttestis: 6.2\n+RP11-96L14.8\t\tENSG00000282872\t\t1\t26164161-26168581\tPredicted intracellular proteins\tEvidence at transcript level\tEvidence at transcript level\t\t\t\t\t\t\t\tNot detected\t\t\ttestis: 0.7\n+RP11-49P4.7\t\tENSG00000282881\t\t1\t46532166-46533614\tPredicted membrane proteins\tNo evidence\tNo evidence\t\t\t\t\t\t\t\tNot detected\t\t\tcerebral cortex: 0.3\n+AKR1C3\t\tENSG00000282883\tAldo-keto reductase family 1, member C3\t10\t5048812-5107503\tPredicted intracellular proteins\tEvidence at protein level\tEvidence at protein level\t\tEvidence at protein level\tHPA068265\t\t\tApproved\tNucleus<br>Nucleoli fibrillar center<br>Endoplasmic reticulum<br>Cytosol\tTissue enhanced\t0\tduodenum: 254.5;gallbladder: 246.9\tsmall intestine: 168.3\n+AL365273.1\t\tENSG00000282889\tEctonucleoside triphosphate diphosphohydrolase 1 \t10\t95844477-95866383\tCD markers, Disease related genes, Enzymes, Potential drug targets, Predicted membrane proteins\tEvidence at protein level\tEvidence at transcript level\tEvidence at protein level\tEvidence at protein level\t\t\t\t\t\tMixed\t\t\tsmooth muscle: 17.8\n+AC123512.3\t\tENSG00000282896\tUncharacterized protein C12orf79 \t12\t91987578-91993403\tPredicted intracellular proteins\tEvidence at transcript level\tEvidence at transcript level\tNo evidence\t\t\t\t\t\t\tTissue enhanced\t0\tlymph node: 3.8\tappendix: 2.1\n+BLOC1S5\tdJ303A1.3, MU, MUTED\tENSG00000282913\tBiogenesis of lysosomal organelles complex-1, subunit 5, muted\t6\t8015810-8064376\tPredicted intracellular proteins\tEvidence at protein level\tEvidence at transcript level\t\tEvidence at protein level\tHPA077525\t\t\tApproved\tVesicles\tTissue enhanced\t0\tbreast: 1.5\tcervix: 1.4\n+CTC-281F24.5\t\tENSG00000282936\t\t17\t6636780-6640316\tPredicted intracellular proteins\tEvidence at transcript level\tEvidence at transcript level\t\t\t\t\t\t\t\tMixed\t\t\tcerebral cortex: 1.9\n+RABL6\t\tENSG00000282955\tRAB, member RAS oncogene family-like 6\t9\t136808197-136840522\tPredicted intracellular proteins\tEvidence at protein level\tEvidence at transcript level\t\tEvidence at protein level\tHPA044037, HPA050638\tUncertain\t\tUncertain\tNucleus<br>Centrosome<br>Cytosol\tExpressed in all\t\t\tesophagus: 20.2\n+AL513412.1\t\tENSG00000282960\t\t9\t6720949-7076451\tPredicted intracellular proteins\tEvidence at protein level\tEvidence at transcript level\t\tEvidence at protein level\t\t\t\t\t\tTissue enhanced\t0\tfallopian tube: 1.7\tendometrium: 0.9\n+RP1-34B20.21\t\tENSG00000282988\t\t6\t26195595-26199293\tPredicted intracellular proteins\tEvidence at transcript level\tEvidence at transcript level\t\t\tHPA041189\tUncertain\t\t\t\tTissue enhanced\t0\tbone marrow: 2.1\ttestis: 0.7\n+RP11-511P7.5\t\tENSG00000283013\t\t7\t150400702-150412470\tPredicted intracellular proteins\tEvidence at transcript level\tEvidence at transcript level\t\t\t\t\t\t\t\tMixed\t\t\tspleen: 8.0\n+CAPS\tCAPS1, MGC126562\tENSG00000283027\tCalcyphosine\t19\t5914407-5915322\tPredicted intracellular proteins\tEvidence at protein level\tEvidence at protein level\tEvidence at protein level\t\tHPA043520\tSupported\t\tSupported\tNucleus<br>Plasma membrane<br>Cytosol\tTissue enriched\t9\tfallopian tube: 68.8\tendometrium: 7.3\n+KLF18\t\tENSG00000283039\tKruppel-like factor 18\t1\t44137821-44141631\tPredicted intracellular proteins\tNo evidence\tNo evidence\t\t\t\t\t\t\t\tNot detected\t\t\ttestis: 0.3\n+RP11-736N17.11\t\tENSG00000283071\t\t14\t103084210-103090027\tPredicted intracellular proteins\tEvidence at transcript level\tEvidence at transcript level\t\t\t\t\t\t\t\tTissue enhanced\t0\ttestis: 1.0\tcerebral cortex: 0.5\n+CTD-2331H12.8\t\tENSG00000283088\t\t19\t52880663-52962768\tPredicted intracellular proteins\tEvidence at transcript level\tEvidence at transcript level\t\t\t\t\t\t\t\tMixed\t\t\tparathyroid gland: 7.2\n+RP11-141O19.1\t\tENSG00000283093\t\tX\t51681212-51682831\tPredicted intracellular proteins\tEvidence at transcript level\tEvidence at transcript level\t\t\t\t\t\t\t\tTissue enhanced\t0\ttestis: 3.0\tcerebral cortex: 0.8\n'