s_mart: commons/tools/PostAnalyzeTELib.py annotate

annotate commons/tools/PostAnalyzeTELib.py @ 18:94ab73e8a190

Uploaded

author	m-zytnicki
date	Mon, 29 Apr 2013 03:20:15 -0400
parents
children

rev	line source
18 94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	1 #!/usr/bin/env python
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	2
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	3 # Copyright INRA (Institut National de la Recherche Agronomique)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	4 # http://www.inra.fr
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	5 # http://urgi.versailles.inra.fr
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	6 #
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	7 # This software is governed by the CeCILL license under French law and
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	8 # abiding by the rules of distribution of free software. You can use,
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	9 # modify and/ or redistribute the software under the terms of the CeCILL
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	10 # license as circulated by CEA, CNRS and INRIA at the following URL
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	11 # "http://www.cecill.info".
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	12 #
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	13 # As a counterpart to the access to the source code and rights to copy,
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	14 # modify and redistribute granted by the license, users are provided only
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	15 # with a limited warranty and the software's author, the holder of the
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	16 # economic rights, and the successive licensors have only limited
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	17 # liability.
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	18 #
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	19 # In this respect, the user's attention is drawn to the risks associated
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	20 # with loading, using, modifying and/or developing or reproducing the
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	21 # software by the user in light of its specific status of free software,
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	22 # that may mean that it is complicated to manipulate, and that also
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	23 # therefore means that it is reserved for developers and experienced
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	24 # professionals having in-depth computer knowledge. Users are therefore
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	25 # encouraged to load and test the software's suitability as regards their
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	26 # requirements in conditions enabling the security of their systems and/or
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	27 # data to be ensured and, more generally, to use and operate it in the
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	28 # same conditions as regards security.
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	29 #
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	30 # The fact that you are presently reading this means that you have had
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	31 # knowledge of the CeCILL license and that you accept its terms.
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	32
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	33 from commons.core.LoggerFactory import LoggerFactory
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	34 from commons.core.utils.RepetOptionParser import RepetOptionParser
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	35 from commons.core.utils.FileUtils import FileUtils
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	36 from commons.core.stat.Stat import Stat
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	37 from commons.core.seq.BioseqDB import BioseqDB
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	38 from commons.launcher.LaunchBlastclust import LaunchBlastclust
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	39 from commons.tools.AnnotationStats import AnnotationStats
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	40 import os
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	41
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	42 CONSENSUS = "TE"
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	43 CLUSTER = "Cluster"
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	44 LOG_DEPTH = "repet.tools"
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	45 LOG_FORMAT = "%(message)s"
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	46
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	47 class PostAnalyzeTELib(object):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	48
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	49 def __init__(self, analysis = 1, fastaFileName = "", clusterFileName = "", pathTableName="", seqTableName="", genomeSize=0, configFileName = "", doClean = False, verbosity = 3):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	50 self._analysis = analysis
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	51 self._fastaFileName = fastaFileName
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	52 self._pathTableName = pathTableName
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	53 self._seqTableName = seqTableName
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	54 self._genomeSize = genomeSize
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	55 if self._analysis == 1:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	56 self.setBioseqDB()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	57 self._identity = 0
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	58 self._coverage = 80
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	59 self._applyCovThresholdOnBothSeq = False
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	60 self.setClusterFileName(clusterFileName)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	61 self.setStatPerClusterFileName()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	62 self.setClassifStatPerClusterFileName()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	63 self.setAnnotationStatsPerTEFileName()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	64 self.setAnnotationStatsPerClusterFileName()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	65 self._doClean = doClean
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	66 self._verbosity = verbosity
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	67 self._log = LoggerFactory.createLogger("%s.%s" % (LOG_DEPTH, self.__class__.__name__), self._verbosity, LOG_FORMAT)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	68
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	69 def setAttributesFromCmdLine(self):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	70 description = "Tool to post-analyze a TE library : clusterize, give stats on cluster, on annotation,...\n"
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	71 epilog = "\nExample 1: clustering (e.g. to detect redundancy)\n"
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	72 epilog += "\t$ python PostAnalyzeTELib.py -a 1 -i TElib.fa -L 98 -S 95 -b\n"
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	73 epilog += "Example 2: classification stats per cluster\n"
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	74 epilog += "\t$ python PostAnalyzeTELib.py -a 2 -t TElib.tab\n"
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	75 epilog += "Example 3: annotation stats per consensus\n"
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	76 epilog += "\t$ python PostAnalyzeTELib.py -a 3 -p project_chr_allTEs_nr_noSSR_join_path -s project_refTEs_seq -g 129919500\n"
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	77 epilog += "Example 4: annotation stats per cluster\n"
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	78 epilog += "\t$ python PostAnalyzeTELib.py -a 4 -t TElib.tab -p project_chr_allTEs_nr_noSSR_join_path -s project_refTEs_seq -g 129919500\n"
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	79 parser = RepetOptionParser(description = description, epilog = epilog)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	80 parser.add_option("-a", "--analysis", dest = "analysis", action = "store", type = "int", help = "analysis number [default: 1, 2, 3, 4]", default = 1)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	81 parser.add_option("-i", "--fasta", dest = "fastaFileName", action = "store", type = "string", help = "fasta file name [for analysis 1] [format: fasta]", default = "")
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	82 parser.add_option("-L", "--coverage", dest = "coverage", action = "store", type = "int", help = "length coverage threshold [for analysis 1] [format: %] [default: 80]", default = 80)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	83 parser.add_option("-S", "--identity", dest = "identity", action = "store", type = "int", help = "identity threshold [for analysis 1 with BlastClust] [format: %] [default: 0 => no threshold]", default = 0)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	84 parser.add_option("-b", "--both", dest = "bothSeq", action = "store_true", help = "require coverage on both neighbours [for analysis 1] [default: False]", default = False)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	85 parser.add_option("-t", "--cluster", dest = "clusterFileName", action = "store", type = "string", help = "cluster file name [for analysis 2 and 4] [default: <input>.tab]", default = "")
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	86 parser.add_option("-p", "--path", dest = "pathTableName", action = "store", type = "string", help = "name of the table (_path) with the annotated TE copies [for analysis 3 and 4]", default = "")
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	87 parser.add_option("-s", "--seq", dest = "seqTableName", action = "store", type = "string", help = "name of the table (_seq) with the TE reference sequences [for analysis 3 and 4]", default = "")
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	88 parser.add_option("-g", "--genome", dest = "genomeSize", action = "store", type = "int", help = "genome size [for analysis 3 and 4]", default = None)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	89 parser.add_option("-c", "--clean", dest = "doClean", action = "store_true", help = "clean temporary files [optional] [default: False]", default = False)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	90 parser.add_option("-v", "--verbosity", dest = "verbosity", action = "store", type = "int", help = "verbosity [optional] [default: 1]", default = 1)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	91 options = parser.parse_args()[0]
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	92 self._setAttributesFromOptions(options)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	93
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	94 def _setAttributesFromOptions(self, options):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	95 self.setAnalysis(options.analysis)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	96 if self._analysis == 1:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	97 self.setFastaFileName(options.fastaFileName)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	98 self.setBioseqDB()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	99 self.setIdentity(options.identity)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	100 self.setCoverage(options.coverage)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	101 self.setApplyCovThresholdOnBothSeq(options.bothSeq)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	102 self.setClusterFileName(options.clusterFileName)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	103 self.setPathTableName(options.pathTableName)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	104 self.setSeqTableName(options.seqTableName)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	105 self.setStatPerClusterFileName()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	106 self.setClassifStatPerClusterFileName()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	107 self.setAnnotationStatsPerTEFileName()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	108 self.setAnnotationStatsPerClusterFileName()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	109 self.setGenomeSize(options.genomeSize)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	110 self.setDoClean(options.doClean)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	111 self.setVerbosity(options.verbosity)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	112
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	113 def setAnalysis(self, analysis):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	114 self._analysis = analysis
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	115
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	116 def setFastaFileName(self, fastaFileName):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	117 self._fastaFileName = fastaFileName
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	118
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	119 def setBioseqDB(self):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	120 self._iBioseqDB = BioseqDB(name = self._fastaFileName)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	121
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	122 def setIdentity(self, identity):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	123 self._identity = identity
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	124
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	125 def setCoverage(self, coverage):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	126 self._coverage = coverage
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	127
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	128 def setApplyCovThresholdOnBothSeq(self, bothSeq):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	129 self._applyCovThresholdOnBothSeq = bothSeq
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	130
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	131 def setClusterFileName(self, clusterFileName):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	132 if clusterFileName == "":
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	133 self._clusterFileName = "%s.tab" % os.path.splitext(os.path.basename(self._fastaFileName))[0]
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	134 else:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	135 self._clusterFileName = clusterFileName
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	136
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	137 def setStatPerClusterFileName(self):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	138 self._statPerClusterFileName = "%s.statsPerCluster.tab" % os.path.splitext(self._clusterFileName)[0]
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	139 self._globalStatPerClusterFileName = "%s.globalStatsPerCluster.txt" % os.path.splitext(self._clusterFileName)[0]
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	140
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	141 def setClassifStatPerClusterFileName(self):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	142 self._classifStatPerClusterFileName = "%s.classifStatsPerCluster.tab" % os.path.splitext(self._clusterFileName)[0]
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	143
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	144 def setAnnotationStatsPerTEFileName(self):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	145 self._annotStatsPerTEFileName = "%s.annotStatsPerTE.tab" % self._pathTableName
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	146 self._globalAnnotStatsPerTEFileName = "%s.globalAnnotStatsPerTE.txt" % self._pathTableName
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	147
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	148 def setAnnotationStatsPerClusterFileName(self):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	149 self._annotStatsPerClusterFileName = "%s.annotStatsPerCluster.tab" % self._pathTableName
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	150
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	151 def setPathTableName(self, pathTableName):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	152 self._pathTableName = pathTableName
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	153
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	154 def setSeqTableName(self, seqTableName):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	155 self._seqTableName = seqTableName
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	156
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	157 def setGenomeSize(self, genomeSize):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	158 self._genomeSize = genomeSize
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	159
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	160 def setDoClean(self, doClean):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	161 self._doClean = doClean
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	162
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	163 def setVerbosity(self, verbosity):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	164 self._verbosity = verbosity
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	165
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	166 def _checkOptions(self):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	167 if (self._fastaFileName == "" or not FileUtils.isRessourceExists(self._fastaFileName)) and self._analysis == 1:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	168 self._logAndRaise("ERROR: Missing fasta file" )
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	169
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	170 def _logAndRaise(self, errorMsg):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	171 self._log.error(errorMsg)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	172 raise Exception(errorMsg)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	173
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	174 def run(self):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	175 LoggerFactory.setLevel(self._log, self._verbosity)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	176 self._checkOptions()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	177 self._log.info("START PostAnalyzeTELib analysis %d" % self._analysis)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	178 if self._analysis == 1:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	179 #TODO: option to choose clustering program (blastclust, MCL, uclust,...)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	180 self._log.debug("TE lib: %s" % self._fastaFileName)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	181 self._log.info("Launch blastclust...")
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	182 iLaunchBlastclust = LaunchBlastclust(clean = self._doClean)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	183 iLaunchBlastclust.setTmpFileName(self._clusterFileName)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	184 iLaunchBlastclust.setIdentityThreshold(self._identity)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	185 iLaunchBlastclust.setCoverageThreshold(self._coverage/100.0)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	186 if self._applyCovThresholdOnBothSeq:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	187 iLaunchBlastclust.setBothSequences("T")
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	188 else:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	189 iLaunchBlastclust.setBothSequences("F")
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	190 iLaunchBlastclust.setVerbosityLevel(self._verbosity - 3)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	191 iLaunchBlastclust.launchBlastclust(self._fastaFileName)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	192 self._log.info("Compute stats...")
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	193 self._giveStatsOnTEClusters()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	194 if self._analysis == 2:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	195 #TODO add global stats (e.g.: nb of cluster without PotentialChimeric, nb of clusters with LTR...) ?
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	196 self._log.debug("Consensus cluster file name: %s" % self._clusterFileName)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	197 self._log.info("Compute classification stats...")
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	198 self._giveStatsOnConsensusClusters()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	199 if self._analysis == 3:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	200 #TODO: in option, save stats in DB
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	201 self._log.info("Compute annotation stats per TE...")
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	202 iAnnotationStats = AnnotationStats(analysisName="TE", seqTableName=self._seqTableName, pathTableName=self._pathTableName,\
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	203 genomeLength=self._genomeSize, statsFileName=self._annotStatsPerTEFileName, globalStatsFileName=self._globalAnnotStatsPerTEFileName, verbosity=self._verbosity-1)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	204 iAnnotationStats.run()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	205 if self._analysis == 4:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	206 self._log.info("Compute annotation stats per cluster...")
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	207 iAnnotationStats = AnnotationStats(analysisName="Cluster", clusterFileName=self._clusterFileName, seqTableName=self._seqTableName, pathTableName=self._pathTableName,\
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	208 genomeLength=self._genomeSize, statsFileName=self._annotStatsPerClusterFileName, verbosity=self._verbosity-1)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	209 iAnnotationStats.run()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	210 self._log.info("END PostAnalyzeTELib analysis %d" % self._analysis)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	211
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	212 def _giveStatsOnConsensusClusters(self):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	213 with open(self._classifStatPerClusterFileName, "w") as f:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	214 f.write("cluster\tnoCat\tPotentialChimeric\tcomp\tincomp\tclassifs (nbTEs)\n")
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	215 with open(self._clusterFileName) as fCluster:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	216 for clusterId, line in enumerate(fCluster):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	217 dClassifNb = {}
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	218 nbIncomp =0
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	219 nbComp=0
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	220 nbChim=0
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	221 nbNoCat=0
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	222 lConsensus = line.split()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	223 for consensus in lConsensus:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	224 classifInfos = consensus.split("_")[0]
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	225
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	226 if "-incomp" in classifInfos:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	227 nbIncomp += 1
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	228 classifInfos = classifInfos.replace("-incomp","")
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	229 if "-comp" in classifInfos:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	230 nbComp += 1
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	231 classifInfos = classifInfos.replace("-comp","")
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	232 if "-chim" in classifInfos:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	233 nbChim += 1
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	234 classifInfos = classifInfos.replace("-chim","")
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	235 if "noCat" in classifInfos:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	236 nbNoCat += 1
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	237 classifInfos = classifInfos.replace("noCat","")
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	238
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	239 classif = classifInfos.split("-")[-1]
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	240 if classif != "":
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	241 if dClassifNb.get(classif, None) is None:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	242 dClassifNb[classif] = 0
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	243 dClassifNb[classif] +=1
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	244
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	245 occurences= []
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	246 for classif, occs in dClassifNb.items():
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	247 occurences.append("%s (%d)" % (classif, occs))
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	248
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	249 f.write("%d\t%d\t%d\t%d\t%d\t%s\n" % (clusterId+1, nbNoCat, nbChim\
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	250 , nbComp, nbIncomp,"\t".join(occurences)))
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	251
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	252 def _giveStatsOnTEClusters(self):
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	253 with open(self._clusterFileName) as fCluster:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	254 with open(self._statPerClusterFileName, 'w') as fStatPerCluster:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	255 fStatPerCluster.write("cluster\tsequencesNb\tsizeOfSmallestSeq\tsizeOfLargestSeq\taverageSize\tmedSize\n")
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	256 line = fCluster.readline()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	257 clusterNb = 0
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	258 clusterSeqList= line.split()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	259 minClusterSize = len(clusterSeqList)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	260 maxClusterSize = 0
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	261 totalSeqNb = 0
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	262 seqNbInBigClusters = 0
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	263 dClusterSize2ClusterNb = {1:0, 2:0, 3:0}
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	264 while line:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	265 clusterSeqList= line.split()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	266 seqNb = len(clusterSeqList)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	267 totalSeqNb += seqNb
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	268 if seqNb > 2:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	269 seqNbInBigClusters += seqNb
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	270 dClusterSize2ClusterNb[3] += 1
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	271 else:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	272 dClusterSize2ClusterNb[seqNb] += 1
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	273 if seqNb > maxClusterSize:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	274 maxClusterSize = seqNb
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	275 if seqNb < minClusterSize:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	276 minClusterSize = seqNb
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	277 line = fCluster.readline()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	278 clusterNb += 1
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	279 clusterSeqLengths = self._iBioseqDB.getSeqLengthByListOfName(clusterSeqList)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	280 iStatSeqLengths = Stat(clusterSeqLengths)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	281 fStatPerCluster.write("%d\t%d\t%d\t%d\t%d\t%d\n" %(clusterNb, seqNb, min(clusterSeqLengths), max(clusterSeqLengths), iStatSeqLengths.mean(), iStatSeqLengths.median()))
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	282
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	283 with open(self._globalStatPerClusterFileName, 'w') as fG:
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	284 fG.write("nb of clusters: %d\n" % clusterNb)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	285 fG.write("nb of clusters with 1 sequence: %d\n" % dClusterSize2ClusterNb[1])
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	286 fG.write("nb of clusters with 2 sequences: %d\n" % dClusterSize2ClusterNb[2])
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	287 fG.write("nb of clusters with >2 sequences: %d (%d sequences)\n" % (dClusterSize2ClusterNb[3], seqNbInBigClusters))
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	288 fG.write("nb of sequences: %d\n" % totalSeqNb)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	289 fG.write("nb of sequences in the largest cluster: %d\n" % maxClusterSize)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	290 fG.write("nb of sequences in the smallest cluster: %d\n" % minClusterSize)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	291 lSeqSizes = self._iBioseqDB.getListOfSequencesLength()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	292 iStat = Stat(lSeqSizes)
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	293 fG.write("size of the smallest sequence: %d\n" % min(lSeqSizes))
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	294 fG.write("size of the largest sequence: %d\n" % max(lSeqSizes))
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	295 fG.write("average sequences size: %d\n" % iStat.mean())
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	296 fG.write("median sequences size: %d\n" % iStat.median())
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	297
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	298 if __name__ == "__main__":
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	299 iLaunch = PostAnalyzeTELib()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	300 iLaunch.setAttributesFromCmdLine()
94ab73e8a190 Uploaded m-zytnicki parents: diff changeset	301 iLaunch.run()

Mercurial > repos > yufei-luo > s_mart

annotate commons/tools/PostAnalyzeTELib.py @ 18:94ab73e8a190