Repository ctcf_analysis
Owner: mkhan1980
Synopsis: A tool for identification of CTCF sites
This tool computationally predicts CTCF sites for a nucleotide sequence located on the forward strand. The user is required to provide two files as inputs. The first is the nucleotide sequence of interest on the + strand in FASTA format (this can be obtained from UCSC genome browser or Ensembl). The second file must be a FASTA formatted file containing the chromosome number and the genomic position of the first nucleotide sequence (separated by a tab). For example, if the sequence of interest is located on chromosome 3 with a starting genomic position of 1850000, the first line of the second input file must start with a fasta tag, and the second line will be chr3  1850000

Details of Algorithm:
CTCF sites are predicted by applying the following equation
w(X,j) = log2 (((f(X,j) + sqrt(N) x b(X)) / (N + sqrt(N))) / b(X))

Where w(X,j) is the weight of nucleotide X at position j, N is the total number of binding sites or the sum of all nucleotide occurrences in the column, and b is the prior background frequency of the nucleotide X. 

The sum of weights for corresponding nucleotides at each column of the matrix then estimates the likelihood of any sequence of length m to be an instance of a CTCF binding site and takes into account the GC content of the genomic region being scanned.


Citation and further help: For further details of the algorithm, please refer to

Khan MA, Soto-Jimenez LM, Howe T, Streit A, Sosinsky A, Stern CD (2013). Computational tools and resources for prediction and analysis of gene regulatory regions in the chick genome.. Genesis, , - . doi:10.1002/dvg.22375
Type: unrestricted
Revision: 6:f1696b304b8d
This revision can be installed: True
Times cloned / installed: 443

Contents of this repository

Name Description Version Minimum Galaxy Version
1.0.0 any
1.0.0 any

Categories
Systems Biology - Systems biology tools