s_mart: SMART/Java/Python/getRandomRegions.py comparison

comparison SMART/Java/Python/getRandomRegions.py @ 46:169d364ddd91

Uploaded

author	m-zytnicki
date	Mon, 30 Sep 2013 03:19:26 -0400
parents	769e306b7933
children

comparison

equal deleted inserted replaced

-:e454402ba9d9
+:169d364ddd91
 repetitions = 100
 class RandomRegionsGenerator(object):
-def __init__(self, verbosity):
+	def __init__(self, verbosity):
-self.verbosity      = verbosity
+		self.verbosity      = verbosity
-self.strands        = False
+		self.strands        = False
-self.distribution   = "uniform"
+		self.distribution   = "uniform"
-self.transcripts    = None
+		self.transcripts    = None
-self.sequenceParser = None
+		self.sequenceParser = None
-random.seed()
+		random.seed()
-def setInput(self, fileName):
+	def setInput(self, fileName):
-self.sequenceParser = FastaParser(fileName, self.verbosity)
+		self.sequenceParser = FastaParser(fileName, self.verbosity)
-def setGenomeSize(self, size):
+	def setGenomeSize(self, size):
-self.genomeSize = size
+		self.genomeSize = size
-def setChromosomeName(self, name):
+	def setChromosomeName(self, name):
-self.chromosomeName = name
+		self.chromosomeName = name
-def setAnnotation(self, fileName, format):
+	def setAnnotation(self, fileName, format):
-parser           = TranscriptContainer(fileName, format, self.verbosity)
+		parser           = TranscriptContainer(fileName, format, self.verbosity)
-self.transcripts = []
+		self.transcripts = []
-for transcript in parser.getIterator():
+		for transcript in parser.getIterator():
-self.transcripts.append(transcript)
+			self.transcripts.append(transcript)
-self.setNumber(len(self.transcripts))
+		self.setNumber(len(self.transcripts))
-self.setSize(0)
+		self.setSize(0)
-def setOutputFile(self, fileName):
+	def setOutputFile(self, fileName):
-self.outputFileName = fileName
+		self.outputFileName = fileName
-def setSize(self, size):
+	def setSize(self, size):
-self.minSize = size
+		self.minSize = size
-self.maxSize = size
+		self.maxSize = size
-def setMinSize(self, size):
+	def setMinSize(self, size):
-self.minSize = size
+		self.minSize = size
-def setMaxSize(self, size):
+	def setMaxSize(self, size):
-self.maxSize = size
+		self.maxSize = size
-def setNumber(self, number):
+	def setNumber(self, number):
-self.number = number
+		self.number = number
-def setStrands(self, strands):
+	def setStrands(self, strands):
-self.strands = strands
+		self.strands = strands
-def setMaxDistribution(self, maxElements):
+	def setMaxDistribution(self, maxElements):
-if maxElements == None:
+		if maxElements == None:
-return
+			return
-self.maxElements = maxElements
+		self.maxElements = maxElements
-self.distribution = "gaussian"
+		self.distribution = "gaussian"
-def setDeviationDistribution(self, deviation):
+	def setDeviationDistribution(self, deviation):
-if deviation == None:
+		if deviation == None:
-return
+			return
-self.deviation = deviation
+		self.deviation = deviation
-self.distribution = "gaussian"
+		self.distribution = "gaussian"
-def getSizes(self):
+	def getSizes(self):
-if self.sequenceParser == None:
+		if self.sequenceParser == None:
-self.chromosomes    = [self.chromosomeName]
+			self.chromosomes    = [self.chromosomeName]
-self.sizes          = {self.chromosomeName: self.genomeSize}
+			self.sizes          = {self.chromosomeName: self.genomeSize}
-self.cumulatedSize  = self.genomeSize
+			self.cumulatedSize  = self.genomeSize
-self.cumulatedSizes = {self.chromosomeName: self.genomeSize}
+			self.cumulatedSizes = {self.chromosomeName: self.genomeSize}
-return
+			return
-self.chromosomes    = self.sequenceParser.getRegions()
+		self.chromosomes    = self.sequenceParser.getRegions()
-self.sizes          = {}
+		self.sizes          = {}
-self.cumulatedSize  = 0
+		self.cumulatedSize  = 0
-self.cumulatedSizes = {}
+		self.cumulatedSizes = {}
-for chromosome in self.chromosomes:
+		for chromosome in self.chromosomes:
-self.sizes[chromosome]          = self.sequenceParser.getSizeOfRegion(chromosome)
+			self.sizes[chromosome]          = self.sequenceParser.getSizeOfRegion(chromosome)
-self.cumulatedSize             += self.sizes[chromosome]
+			self.cumulatedSize             += self.sizes[chromosome]
-self.cumulatedSizes[chromosome] = self.cumulatedSize
+			self.cumulatedSizes[chromosome] = self.cumulatedSize
-def findPosition(self, size = None):
+	def findPosition(self, size = None):
-if size == None:
+		if size == None:
-size = random.randint(self.minSize, self.maxSize)
+			size = random.randint(self.minSize, self.maxSize)
-integer = random.randint(0, self.cumulatedSize)
+		integer = random.randint(0, self.cumulatedSize)
-for chromosome in self.chromosomes:
+		for chromosome in self.chromosomes:
-if self.cumulatedSizes[chromosome] > integer:
+			if self.cumulatedSizes[chromosome] > integer:
-break
+				break
-start = random.randint(1, self.sizes[chromosome] - size)
+		start = random.randint(1, self.sizes[chromosome] - size)
-return (chromosome, start, size)
+		return (chromosome, start, size)
-def createTranscript(self, chromosome, start, size, strand, cpt):
+	def createTranscript(self, chromosome, start, size, strand, cpt):
-transcript = Transcript()
+		transcript = Transcript()
-transcript.setChromosome(chromosome)
+		transcript.setChromosome(chromosome)
-transcript.setStart(start)
+		transcript.setEnd(start + size-1)
-transcript.setEnd(start + size-1)
+		transcript.setStart(start)
-transcript.setDirection(strand)
+		transcript.setDirection(strand)
-transcript.setName("rand_%d" % (cpt))
+		transcript.setName("rand_%d" % (cpt))
-return transcript
+		return transcript
-def moveTranscript(self, chromosome, start, transcript):
+	def moveTranscript(self, chromosome, start, transcript):
-while transcript.getEnd() + start - transcript.getStart() > self.cumulatedSizes[chromosome]:
+		while transcript.getEnd() + start - transcript.getStart() > self.cumulatedSizes[chromosome]:
-chromosome, start, size = self.findPosition(transcript.getEnd() - transcript.getStart())
+			chromosome, start, size = self.findPosition(transcript.getEnd() - transcript.getStart())
-transcript.setChromosome(chromosome)
+		newTranscript = Transcript()
-oldStart, oldEnd = transcript.getStart(), transcript.getEnd()
+		newTranscript.setChromosome(chromosome)
-if transcript.getNbExons() > 1:
+		newTranscript.tags = transcript.tags
-for exon in transcript.getNbExons():
+		if transcript.getNbExons() > 1:
-oldExonStart, oldExonEnd = exon.getStart(), exon.getEnd()
+			for exon in transcript.getNbExons():
-exon.setStart(oldExonStart + start - oldStart)
+				newExon = Interval()
-exon.setEnd(oldExonEnd + start - oldStart)
+				newExon.setChromosome(chromosome)
-transcript.setStart(start)
+				newExon.setEnd(exon.getEnd() + start - transcript.getStart())
-transcript.setEnd(oldEnd + start - oldStart)
+				newExon.setStart(exon.getStart() + start - transcript.getStart())
-return [transcript]
+				newTranscript.addExon(newExon)
+		newTranscript.setEnd(transcript.getEnd() + start - transcript.getStart())
+		newTranscript.setStart(start)
-def createUniformCluster(self, chromosome, start, size, strand, cpt):
+		newTranscript.setDirection(transcript.getDirection())
-transcript = self.createTranscript(chromosome, start, size, strand, cpt)
+		return [newTranscript]
-return [transcript]
+	def createUniformCluster(self, chromosome, start, size, strand, cpt):
-def findNbTranscripts(self, cpt):
+		transcript = self.createTranscript(chromosome, start, size, strand, cpt)
-return min(int(round(math.exp(random.random() * math.log(self.maxElements)))), self.number - cpt + 1)
+		return [transcript]
-def getDev(self):
+	def findNbTranscripts(self, cpt):
-deviation = 0.0
+		return min(int(round(math.exp(random.random() * math.log(self.maxElements)))), self.number - cpt + 1)
-for j in range(repetitions):
-deviation += random.randint(-self.deviation, self.deviation)
-deviation /= repetitions
+	def getDev(self):
-deviation  = int(round(deviation))
+		deviation = 0.0
-return deviation
+		for j in range(repetitions):
+			deviation += random.randint(-self.deviation, self.deviation)
+		deviation /= repetitions
-def createGaussianCluster(self, chromosome, start, size, strand, cpt):
+		deviation  = int(round(deviation))
-transcripts   = []
+		return deviation
-nbTranscripts = self.findNbTranscripts(cpt)
-for i in range(nbTranscripts):
-transcript = self.createTranscript(chromosome, start + self.getDev(), size + self.getDev(), strand, cpt + i)
+	def createGaussianCluster(self, chromosome, start, size, strand, cpt):
-transcripts.append(transcript)
+		transcripts   = []
-return transcripts
+		nbTranscripts = self.findNbTranscripts(cpt)
+		for i in range(nbTranscripts):
+			transcript = self.createTranscript(chromosome, start + self.getDev(), size + self.getDev(), strand, cpt + i)
-def writeRegions(self):
+			transcripts.append(transcript)
-writer     = Gff3Writer(self.outputFileName, self.verbosity)
+		return transcripts
-outputFile = open(self.outputFileName, "w")
-progress   = Progress(self.number, "Writing to %s" % (self.outputFileName), self.verbosity)
-i          = 0
+	def writeRegions(self):
-while i < self.number:
+		writer     = Gff3Writer(self.outputFileName, self.verbosity)
-chromosome, start, size = self.findPosition()
+		outputFile = open(self.outputFileName, "w")
-strand                  = random.choice([-1, 1]) if self.strands else 1
+		progress   = Progress(self.number, "Writing to %s" % (self.outputFileName), self.verbosity)
-if self.transcripts != None:
+		i          = 0
-transcripts = self.moveTranscript(chromosome, start, self.transcripts[i])
+		while i < self.number:
-elif self.distribution == "uniform":
+			chromosome, start, size = self.findPosition()
-transcripts = self.createUniformCluster(chromosome, start, size, strand, i+1)
+			strand                  = random.choice([-1, 1]) if self.strands else 1
-else:
+			if self.transcripts != None:
-transcripts = self.createGaussianCluster(chromosome, start, size, strand, i+1)
+				transcripts = self.moveTranscript(chromosome, start, self.transcripts[i])
-for transcript in transcripts:
+			elif self.distribution == "uniform":
-writer.addTranscript(transcript)
+				transcripts = self.createUniformCluster(chromosome, start, size, strand, i+1)
-i += 1
+			else:
-progress.inc()
+				transcripts = self.createGaussianCluster(chromosome, start, size, strand, i+1)
-progress.done()
+			for transcript in transcripts:
-outputFile.close()
+				writer.addTranscript(transcript)
-writer.write()
+				i += 1
-writer.close()
+				progress.inc()
+		progress.done()
+		outputFile.close()
-def run(self):
+		writer.write()
-self.getSizes()
+		writer.close()
-self.writeRegions()
+	def run(self):
+		self.getSizes()
+		self.writeRegions()
 if __name__ == "__main__":
-# parse command line
+	# parse command line
-description = "Get Random Regions v1.0.2: Get some random coordinates on a genome. May use uniform or gaussian distribution (in gaussion distribution, # of element per cluster follows a power law). [Category: Other]"
+	description = "Get Random Regions v1.0.2: Get some random coordinates on a genome. May use uniform or gaussian distribution (in gaussion distribution, # of element per cluster follows a power law). [Category: Other]"
-parser = OptionParser(description = description)
+	parser = OptionParser(description = description)
-parser.add_option("-r", "--reference",     dest="reference",      action="store",      default=None,  type="string", help="file that contains the sequences [format: file in FASTA format]")
+	parser.add_option("-r", "--reference",     dest="reference",      action="store",      default=None,  type="string", help="file that contains the sequences [format: file in FASTA format]")
-parser.add_option("-S", "--referenceSize", dest="referenceSize",  action="store",      default=None,  type="int",    help="size of the chromosome (when no reference is given) [format: int]")
+	parser.add_option("-S", "--referenceSize", dest="referenceSize",  action="store",      default=None,  type="int",    help="size of the chromosome (when no reference is given) [format: int]")
-parser.add_option("-c", "--chromosome",    dest="chromosome",     action="store",      default=None,  type="string", help="name of the chromosome (when no reference is given) [format: string]")
+	parser.add_option("-c", "--chromosome",    dest="chromosome",     action="store",      default=None,  type="string", help="name of the chromosome (when no reference is given) [format: string]")
-parser.add_option("-o", "--output",        dest="outputFileName", action="store",                     type="string", help="output file [compulsory] [format: output file in FASTA format]")
+	parser.add_option("-o", "--output",        dest="outputFileName", action="store",                     type="string", help="output file [compulsory] [format: output file in FASTA format]")
-parser.add_option("-i", "--input",         dest="inputFileName",  action="store",      default=None,  type="string", help="optional file containing regions to shuffle [format: file in transcript format given by -f]")
+	parser.add_option("-i", "--input",         dest="inputFileName",  action="store",      default=None,  type="string", help="optional file containing regions to shuffle [format: file in transcript format given by -f]")
-parser.add_option("-f", "--format",        dest="format",         action="store",      default=None,  type="string", help="format of the previous file [format: transcript file format]")
+	parser.add_option("-f", "--format",        dest="format",         action="store",      default=None,  type="string", help="format of the previous file [format: transcript file format]")
-parser.add_option("-s", "--size",          dest="size",           action="store",      default=None,  type="int",    help="size of the regions (if no region set is provided) [format: int]")
+	parser.add_option("-s", "--size",          dest="size",           action="store",      default=None,  type="int",    help="size of the regions (if no region set is provided) [format: int]")
-parser.add_option("-z", "--minSize",       dest="minSize",        action="store",      default=None,  type="int",    help="minimum size of the regions (if no region set nor a fixed size are provided) [format: int]")
+	parser.add_option("-z", "--minSize",       dest="minSize",        action="store",      default=None,  type="int",    help="minimum size of the regions (if no region set nor a fixed size are provided) [format: int]")
-parser.add_option("-Z", "--maxSize",       dest="maxSize",        action="store",      default=None,  type="int",    help="maximum size of the regions (if no region set nor a fixed size are provided) [format: int]")
+	parser.add_option("-Z", "--maxSize",       dest="maxSize",        action="store",      default=None,  type="int",    help="maximum size of the regions (if no region set nor a fixed size are provided) [format: int]")
-parser.add_option("-n", "--number",        dest="number",         action="store",      default=None,  type="int",    help="number of regions (if no region set is provided) [format: int]")
+	parser.add_option("-n", "--number",        dest="number",         action="store",      default=None,  type="int",    help="number of regions (if no region set is provided) [format: int]")
-parser.add_option("-t", "--strands",       dest="strands",        action="store_true", default=False,                help="use both strands (if no region set is provided) [format: boolean]")
+	parser.add_option("-t", "--strands",       dest="strands",        action="store_true", default=False,                help="use both strands (if no region set is provided) [format: boolean]")
-parser.add_option("-m", "--max",           dest="max",            action="store",      default=None,  type="int",    help="max. # reads in a cluster (for Gaussian dist.) [format: int]")
+	parser.add_option("-m", "--max",           dest="max",            action="store",      default=None,  type="int",    help="max. # reads in a cluster (for Gaussian dist.) [format: int]")
-parser.add_option("-d", "--deviation",     dest="deviation",      action="store",      default=None,  type="int",    help="deviation around the center of the cluster (for Gaussian dist.) [format: int]")
+	parser.add_option("-d", "--deviation",     dest="deviation",      action="store",      default=None,  type="int",    help="deviation around the center of the cluster (for Gaussian dist.) [format: int]")
-parser.add_option("-v", "--verbosity",     dest="verbosity",      action="store",      default=1,     type="int",    help="trace level [format: int]")
+	parser.add_option("-v", "--verbosity",     dest="verbosity",      action="store",      default=1,     type="int",    help="trace level [format: int]")
-(options, args) = parser.parse_args()
+	(options, args) = parser.parse_args()
-rrg = RandomRegionsGenerator(options.verbosity)
+	rrg = RandomRegionsGenerator(options.verbosity)
-if options.reference == None:
+	if options.reference == None:
-rrg.setGenomeSize(options.referenceSize)
+		rrg.setGenomeSize(options.referenceSize)
-rrg.setChromosomeName(options.chromosome)
+		rrg.setChromosomeName(options.chromosome)
-else:
+	else:
-rrg.setInput(options.reference)
+		rrg.setInput(options.reference)
-rrg.setOutputFile(options.outputFileName)
+	rrg.setOutputFile(options.outputFileName)
-if options.inputFileName == None:
+	if options.inputFileName == None:
-if options.size != None:
+		if options.size != None:
-rrg.setSize(options.size)
+			rrg.setSize(options.size)
-else:
+		else:
-rrg.setMinSize(options.minSize)
+			rrg.setMinSize(options.minSize)
-rrg.setMaxSize(options.maxSize)
+			rrg.setMaxSize(options.maxSize)
-rrg.setNumber(options.number)
+		rrg.setNumber(options.number)
-rrg.setStrands(options.strands)
+		rrg.setStrands(options.strands)
-else:
+	else:
-rrg.setAnnotation(options.inputFileName, options.format)
+		rrg.setAnnotation(options.inputFileName, options.format)
-rrg.setMaxDistribution(options.max)
+	rrg.setMaxDistribution(options.max)
-rrg.setDeviationDistribution(options.deviation)
+	rrg.setDeviationDistribution(options.deviation)
-rrg.run()
+	rrg.run()

Mercurial > repos > yufei-luo > s_mart

comparison SMART/Java/Python/getRandomRegions.py @ 46:169d364ddd91