prada: pyPRADA_1.2/tools/bwa-0.5.7-mh/bwt_gen/bwt

annotate pyPRADA_1.2/tools/bwa-0.5.7-mh/bwt_gen/bwt_gen.c @ 0:acc2ca1a3ba4

Uploaded

author	siyuan
date	Thu, 20 Feb 2014 00:44:58 -0500
parents
children

rev	line source
0 acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1 /*
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	2
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	3 BWTConstruct.c BWT-Index Construction
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	4
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	5 This module constructs BWT and auxiliary data structures.
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	6
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	7 Copyright (C) 2004, Wong Chi Kwong.
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	8
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	9 This program is free software; you can redistribute it and/or
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	10 modify it under the terms of the GNU General Public License
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	11 as published by the Free Software Foundation; either version 2
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	12 of the License, or (at your option) any later version.
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	13
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	14 This program is distributed in the hope that it will be useful,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	15 but WITHOUT ANY WARRANTY; without even the implied warranty of
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	16 MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	17 GNU General Public License for more details.
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	18
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	19 You should have received a copy of the GNU General Public License
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	20 along with this program; if not, write to the Free Software
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	21 Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301, USA.
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	22
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	23 */
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	24
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	25 #include <stdio.h>
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	26 #include <stdlib.h>
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	27 #include <string.h>
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	28 #include "bwt_gen.h"
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	29 #include "QSufSort.h"
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	30
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	31 static unsigned int TextLengthFromBytePacked(unsigned int bytePackedLength, unsigned int bitPerChar,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	32 unsigned int lastByteLength)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	33 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	34 if (bytePackedLength > ALL_ONE_MASK / (BITS_IN_BYTE / bitPerChar)) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	35 fprintf(stderr, "TextLengthFromBytePacked(): text length > 2^32!\n");
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	36 exit(1);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	37 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	38 return (bytePackedLength - 1) * (BITS_IN_BYTE / bitPerChar) + lastByteLength;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	39 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	40
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	41 static void initializeVAL(unsigned int *startAddr, const unsigned int length, const unsigned int initValue)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	42 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	43 unsigned int i;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	44 for (i=0; i<length; i++) startAddr[i] = initValue;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	45 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	46
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	47 static void GenerateDNAOccCountTable(unsigned int *dnaDecodeTable)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	48 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	49 unsigned int i, j, c, t;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	50
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	51 for (i=0; i<DNA_OCC_CNT_TABLE_SIZE_IN_WORD; i++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	52 dnaDecodeTable[i] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	53 c = i;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	54 for (j=0; j<8; j++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	55 t = c & 0x00000003;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	56 dnaDecodeTable[i] += 1 << (t * 8);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	57 c >>= 2;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	58 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	59 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	60
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	61 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	62 // for BWTIncCreate()
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	63 static unsigned int BWTOccValueMajorSizeInWord(const unsigned int numChar)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	64 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	65 unsigned int numOfOccValue;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	66 unsigned int numOfOccIntervalPerMajor;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	67 numOfOccValue = (numChar + OCC_INTERVAL - 1) / OCC_INTERVAL + 1; // Value at both end for bi-directional encoding
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	68 numOfOccIntervalPerMajor = OCC_INTERVAL_MAJOR / OCC_INTERVAL;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	69 return (numOfOccValue + numOfOccIntervalPerMajor - 1) / numOfOccIntervalPerMajor * ALPHABET_SIZE;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	70 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	71 // for BWTIncCreate()
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	72 static unsigned int BWTOccValueMinorSizeInWord(const unsigned int numChar)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	73 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	74 unsigned int numOfOccValue;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	75 numOfOccValue = (numChar + OCC_INTERVAL - 1) / OCC_INTERVAL + 1; // Value at both end for bi-directional encoding
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	76 return (numOfOccValue + OCC_VALUE_PER_WORD - 1) / OCC_VALUE_PER_WORD * ALPHABET_SIZE;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	77 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	78 // for BWTIncCreate()
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	79 static unsigned int BWTResidentSizeInWord(const unsigned int numChar) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	80
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	81 unsigned int numCharRoundUpToOccInterval;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	82
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	83 // The $ in BWT at the position of inverseSa0 is not encoded
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	84 numCharRoundUpToOccInterval = (numChar + OCC_INTERVAL - 1) / OCC_INTERVAL * OCC_INTERVAL;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	85
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	86 return (numCharRoundUpToOccInterval + CHAR_PER_WORD - 1) / CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	87
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	88 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	89
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	90 static void BWTIncSetBuildSizeAndTextAddr(BWTInc *bwtInc)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	91 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	92 unsigned int maxBuildSize;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	93
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	94 if (bwtInc->bwt->textLength == 0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	95 // initial build
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	96 // Minus 2 because n+1 entries of seq and rank needed for n char
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	97 maxBuildSize = (bwtInc->availableWord - 2 - OCC_INTERVAL / CHAR_PER_WORD)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	98 / (2 * CHAR_PER_WORD + 1) * CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	99 if (bwtInc->initialMaxBuildSize > 0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	100 bwtInc->buildSize = min(bwtInc->initialMaxBuildSize, maxBuildSize);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	101 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	102 bwtInc->buildSize = maxBuildSize;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	103 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	104 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	105 // Minus 3 because n+1 entries of sorted rank, seq and rank needed for n char
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	106 // Minus numberOfIterationDone because bwt slightly shift to left in each iteration
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	107 maxBuildSize = (bwtInc->availableWord - bwtInc->bwt->bwtSizeInWord - bwtInc->bwt->occSizeInWord - 3
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	108 - bwtInc->numberOfIterationDone * OCC_INTERVAL / BIT_PER_CHAR)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	109 / 3;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	110 if (maxBuildSize < CHAR_PER_WORD) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	111 fprintf(stderr, "BWTIncSetBuildSizeAndTextAddr(): Not enough space allocated to continue construction!\n");
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	112 exit(1);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	113 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	114 if (bwtInc->incMaxBuildSize > 0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	115 bwtInc->buildSize = min(bwtInc->incMaxBuildSize, maxBuildSize);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	116 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	117 bwtInc->buildSize = maxBuildSize;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	118 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	119 if (bwtInc->buildSize < CHAR_PER_WORD) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	120 bwtInc->buildSize = CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	121 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	122 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	123
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	124 if (bwtInc->buildSize < CHAR_PER_WORD) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	125 fprintf(stderr, "BWTIncSetBuildSizeAndTextAddr(): Not enough space allocated to continue construction!\n");
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	126 exit(1);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	127 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	128
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	129 bwtInc->buildSize = bwtInc->buildSize / CHAR_PER_WORD * CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	130
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	131 bwtInc->packedText = bwtInc->workingMemory + 2 * (bwtInc->buildSize + 1);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	132 bwtInc->textBuffer = (unsigned char*)(bwtInc->workingMemory + bwtInc->buildSize + 1);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	133
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	134 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	135
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	136 // for ceilLog2()
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	137 unsigned int leadingZero(const unsigned int input)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	138 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	139 unsigned int l;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	140 const static unsigned int leadingZero8bit[256] = {8,7,6,6,5,5,5,5,4,4,4,4,4,4,4,4,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	141 2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	142 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	143 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	144 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	145 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	146 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	147 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0};
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	148
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	149 if (input & 0xFFFF0000) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	150 if (input & 0xFF000000) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	151 l = leadingZero8bit[input >> 24];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	152 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	153 l = 8 + leadingZero8bit[input >> 16];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	154 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	155 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	156 if (input & 0x0000FF00) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	157 l = 16 + leadingZero8bit[input >> 8];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	158 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	159 l = 24 + leadingZero8bit[input];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	160 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	161 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	162 return l;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	163
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	164 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	165 // for BitPerBytePackedChar()
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	166 static unsigned int ceilLog2(const unsigned int input)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	167 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	168 if (input <= 1) return 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	169 return BITS_IN_WORD - leadingZero(input - 1);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	170
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	171 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	172 // for ConvertBytePackedToWordPacked()
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	173 static unsigned int BitPerBytePackedChar(const unsigned int alphabetSize)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	174 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	175 unsigned int bitPerChar;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	176 bitPerChar = ceilLog2(alphabetSize);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	177 // Return the largest number of bit that does not affect packing efficiency
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	178 if (BITS_IN_BYTE / (BITS_IN_BYTE / bitPerChar) > bitPerChar)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	179 bitPerChar = BITS_IN_BYTE / (BITS_IN_BYTE / bitPerChar);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	180 return bitPerChar;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	181 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	182 // for ConvertBytePackedToWordPacked()
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	183 static unsigned int BitPerWordPackedChar(const unsigned int alphabetSize)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	184 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	185 return ceilLog2(alphabetSize);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	186 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	187
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	188 static void ConvertBytePackedToWordPacked(const unsigned char input, unsigned int output, const unsigned int alphabetSize,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	189 const unsigned int textLength)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	190 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	191 unsigned int i, j, k;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	192 unsigned int c;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	193 unsigned int bitPerBytePackedChar;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	194 unsigned int bitPerWordPackedChar;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	195 unsigned int charPerWord;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	196 unsigned int charPerByte;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	197 unsigned int bytePerIteration;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	198 unsigned int byteProcessed = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	199 unsigned int wordProcessed = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	200 unsigned int mask, shift;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	201
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	202 unsigned int buffer[BITS_IN_WORD];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	203
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	204 bitPerBytePackedChar = BitPerBytePackedChar(alphabetSize);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	205 bitPerWordPackedChar = BitPerWordPackedChar(alphabetSize);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	206 charPerByte = BITS_IN_BYTE / bitPerBytePackedChar;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	207 charPerWord = BITS_IN_WORD / bitPerWordPackedChar;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	208
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	209 bytePerIteration = charPerWord / charPerByte;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	210 mask = truncateRight(ALL_ONE_MASK, BITS_IN_WORD - bitPerWordPackedChar);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	211 shift = BITS_IN_WORD - BITS_IN_BYTE + bitPerBytePackedChar - bitPerWordPackedChar;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	212
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	213 while ((wordProcessed + 1) * charPerWord < textLength) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	214
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	215 k = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	216 for (i=0; i<bytePerIteration; i++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	217 c = (unsigned int)input[byteProcessed] << shift;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	218 for (j=0; j<charPerByte; j++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	219 buffer[k] = c & mask;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	220 c <<= bitPerBytePackedChar;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	221 k++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	222 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	223 byteProcessed++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	224 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	225
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	226 c = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	227 for (i=0; i<charPerWord; i++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	228 c \|= buffer[i] >> bitPerWordPackedChar * i;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	229 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	230 output[wordProcessed] = c;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	231 wordProcessed++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	232
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	233 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	234
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	235 k = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	236 for (i=0; i < (textLength - wordProcessed * charPerWord - 1) / charPerByte + 1; i++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	237 c = (unsigned int)input[byteProcessed] << shift;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	238 for (j=0; j<charPerByte; j++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	239 buffer[k] = c & mask;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	240 c <<= bitPerBytePackedChar;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	241 k++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	242 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	243 byteProcessed++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	244 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	245
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	246 c = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	247 for (i=0; i<textLength - wordProcessed * charPerWord; i++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	248 c \|= buffer[i] >> bitPerWordPackedChar * i;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	249 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	250 output[wordProcessed] = c;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	251 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	252
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	253 BWT BWTCreate(const unsigned int textLength, unsigned int decodeTable)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	254 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	255 BWT *bwt;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	256
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	257 bwt = (BWT*)calloc(1, sizeof(BWT));
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	258
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	259 bwt->textLength = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	260 bwt->inverseSa = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	261
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	262 bwt->cumulativeFreq = (unsigned)calloc((ALPHABET_SIZE + 1), sizeof(unsigned int));
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	263 initializeVAL(bwt->cumulativeFreq, ALPHABET_SIZE + 1, 0);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	264
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	265 bwt->bwtSizeInWord = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	266 bwt->saValueOnBoundary = NULL;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	267
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	268 // Generate decode tables
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	269 if (decodeTable == NULL) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	270 bwt->decodeTable = (unsigned*)calloc(DNA_OCC_CNT_TABLE_SIZE_IN_WORD, sizeof(unsigned int));
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	271 GenerateDNAOccCountTable(bwt->decodeTable);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	272 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	273 bwt->decodeTable = decodeTable;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	274 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	275
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	276 bwt->occMajorSizeInWord = BWTOccValueMajorSizeInWord(textLength);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	277 bwt->occValueMajor = (unsigned*)calloc(bwt->occMajorSizeInWord, sizeof(unsigned int));
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	278
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	279 bwt->occSizeInWord = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	280 bwt->occValue = NULL;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	281
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	282 bwt->saInterval = ALL_ONE_MASK;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	283 bwt->saValueSize = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	284 bwt->saValue = NULL;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	285
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	286 bwt->inverseSaInterval = ALL_ONE_MASK;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	287 bwt->inverseSaSize = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	288 bwt->inverseSa = NULL;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	289
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	290 return bwt;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	291 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	292
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	293 BWTInc *BWTIncCreate(const unsigned int textLength, const float targetNBit,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	294 const unsigned int initialMaxBuildSize, const unsigned int incMaxBuildSize)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	295 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	296 BWTInc *bwtInc;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	297 unsigned int i;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	298
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	299 if (targetNBit == 0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	300 fprintf(stderr, "BWTIncCreate() : targetNBit = 0!\n");
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	301 exit(1);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	302 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	303
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	304 bwtInc = (BWTInc*)calloc(1, sizeof(BWTInc));
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	305 bwtInc->numberOfIterationDone = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	306 bwtInc->bwt = BWTCreate(textLength, NULL);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	307 bwtInc->initialMaxBuildSize = initialMaxBuildSize;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	308 bwtInc->incMaxBuildSize = incMaxBuildSize;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	309 bwtInc->targetNBit = targetNBit;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	310 bwtInc->cumulativeCountInCurrentBuild = (unsigned*)calloc((ALPHABET_SIZE + 1), sizeof(unsigned int));
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	311 initializeVAL(bwtInc->cumulativeCountInCurrentBuild, ALPHABET_SIZE + 1, 0);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	312
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	313 // Build frequently accessed data
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	314 bwtInc->packedShift = (unsigned*)calloc(CHAR_PER_WORD, sizeof(unsigned int));
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	315 for (i=0; i<CHAR_PER_WORD; i++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	316 bwtInc->packedShift[i] = BITS_IN_WORD - (i+1) * BIT_PER_CHAR;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	317 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	318
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	319 bwtInc->targetTextLength = textLength;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	320 bwtInc->availableWord = (unsigned int)((textLength + OCC_INTERVAL - 1) / OCC_INTERVAL * OCC_INTERVAL / BITS_IN_WORD * bwtInc->targetNBit);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	321 if (bwtInc->availableWord < BWTResidentSizeInWord(textLength) + BWTOccValueMinorSizeInWord(textLength)) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	322 fprintf(stderr, "BWTIncCreate() : targetNBit is too low!\n");
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	323 exit(1);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	324 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	325 bwtInc->workingMemory = (unsigned*)calloc(bwtInc->availableWord, BYTES_IN_WORD);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	326
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	327 return bwtInc;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	328
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	329 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	330 // for BWTIncConstruct()
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	331 static void BWTIncPutPackedTextToRank(const unsigned int packedText, unsigned int __restrict rank,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	332 unsigned int* __restrict cumulativeCount, const unsigned int numChar)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	333 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	334 unsigned int i, j;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	335 unsigned int c, t;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	336 unsigned int packedMask;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	337 unsigned int rankIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	338 unsigned int lastWord, numCharInLastWord;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	339
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	340 lastWord = (numChar - 1) / CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	341 numCharInLastWord = numChar - lastWord * CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	342
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	343 packedMask = ALL_ONE_MASK >> (BITS_IN_WORD - BIT_PER_CHAR);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	344 rankIndex = numChar - 1;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	345
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	346 t = packedText[lastWord] >> (BITS_IN_WORD - numCharInLastWord * BIT_PER_CHAR);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	347 for (i=0; i<numCharInLastWord; i++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	348 c = t & packedMask;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	349 cumulativeCount[c+1]++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	350 rank[rankIndex] = c;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	351 rankIndex--;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	352 t >>= BIT_PER_CHAR;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	353 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	354
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	355 for (i=lastWord; i--;) { // loop from lastWord - 1 to 0
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	356 t = packedText[i];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	357 for (j=0; j<CHAR_PER_WORD; j++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	358 c = t & packedMask;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	359 cumulativeCount[c+1]++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	360 rank[rankIndex] = c;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	361 rankIndex--;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	362 t >>= BIT_PER_CHAR;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	363 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	364 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	365
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	366 // Convert occurrence to cumulativeCount
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	367 cumulativeCount[2] += cumulativeCount[1];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	368 cumulativeCount[3] += cumulativeCount[2];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	369 cumulativeCount[4] += cumulativeCount[3];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	370 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	371
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	372
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	373 static void ForwardDNAAllOccCountNoLimit(const unsigned int* dna, const unsigned int index,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	374 unsigned int* __restrict occCount, const unsigned int* dnaDecodeTable)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	375 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	376 static const unsigned int truncateRightMask[16] = { 0x00000000, 0xC0000000, 0xF0000000, 0xFC000000,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	377 0xFF000000, 0xFFC00000, 0xFFF00000, 0xFFFC0000,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	378 0xFFFF0000, 0xFFFFC000, 0xFFFFF000, 0xFFFFFC00,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	379 0xFFFFFF00, 0xFFFFFFC0, 0xFFFFFFF0, 0xFFFFFFFC };
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	380
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	381 unsigned int iteration, wordToCount, charToCount;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	382 unsigned int i, j, c;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	383 unsigned int sum;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	384
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	385 occCount[0] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	386 occCount[1] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	387 occCount[2] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	388 occCount[3] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	389
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	390 iteration = index / 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	391 wordToCount = (index - iteration * 256) / 16;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	392 charToCount = index - iteration * 256 - wordToCount * 16;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	393
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	394 for (i=0; i<iteration; i++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	395
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	396 sum = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	397 for (j=0; j<16; j++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	398 sum += dnaDecodeTable[*dna >> 16];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	399 sum += dnaDecodeTable[*dna & 0x0000FFFF];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	400 dna++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	401 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	402 if (!DNA_OCC_SUM_EXCEPTION(sum)) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	403 occCount[0] += sum & 0x000000FF; sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	404 occCount[1] += sum & 0x000000FF; sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	405 occCount[2] += sum & 0x000000FF; sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	406 occCount[3] += sum;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	407 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	408 // only some or all of the 3 bits are on
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	409 // in reality, only one of the four cases are possible
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	410 if (sum == 0x00000100) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	411 occCount[0] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	412 } else if (sum == 0x00010000) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	413 occCount[1] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	414 } else if (sum == 0x01000000) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	415 occCount[2] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	416 } else if (sum == 0x00000000) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	417 occCount[3] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	418 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	419 fprintf(stderr, "ForwardDNAAllOccCountNoLimit(): DNA occ sum exception!\n");
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	420 exit(1);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	421 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	422 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	423
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	424 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	425
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	426 sum = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	427 for (j=0; j<wordToCount; j++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	428 sum += dnaDecodeTable[*dna >> 16];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	429 sum += dnaDecodeTable[*dna & 0x0000FFFF];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	430 dna++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	431 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	432
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	433 if (charToCount > 0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	434 c = *dna & truncateRightMask[charToCount]; // increase count of 'a' by 16 - c;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	435 sum += dnaDecodeTable[c >> 16];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	436 sum += dnaDecodeTable[c & 0xFFFF];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	437 sum += charToCount - 16; // decrease count of 'a' by 16 - positionToProcess
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	438 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	439
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	440 occCount[0] += sum & 0x000000FF; sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	441 occCount[1] += sum & 0x000000FF; sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	442 occCount[2] += sum & 0x000000FF; sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	443 occCount[3] += sum;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	444 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	445
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	446 static void BWTIncBuildPackedBwt(const unsigned int relativeRank, unsigned int __restrict bwt, const unsigned int numChar,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	447 const unsigned int cumulativeCount, const unsigned int packedShift) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	448
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	449 unsigned int i, c, r;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	450 unsigned int previousRank, currentRank;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	451 unsigned int wordIndex, charIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	452 unsigned int inverseSa0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	453
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	454 inverseSa0 = previousRank = relativeRank[0];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	455
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	456 for (i=1; i<=numChar; i++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	457 currentRank = relativeRank[i];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	458 // previousRank > cumulativeCount[c] because $ is one of the char
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	459 c = (previousRank > cumulativeCount[1]) + (previousRank > cumulativeCount[2])
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	460 + (previousRank > cumulativeCount[3]);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	461 // set bwt for currentRank
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	462 if (c > 0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	463 // c <> 'a'
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	464 r = currentRank;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	465 if (r > inverseSa0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	466 // - 1 because $ at inverseSa0 is not encoded
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	467 r--;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	468 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	469 wordIndex = r / CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	470 charIndex = r - wordIndex * CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	471 bwt[wordIndex] \|= c << packedShift[charIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	472 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	473 previousRank = currentRank;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	474 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	475 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	476
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	477 static inline unsigned int BWTOccValueExplicit(const BWT *bwt, const unsigned int occIndexExplicit,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	478 const unsigned int character)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	479 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	480 unsigned int occIndexMajor;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	481
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	482 occIndexMajor = occIndexExplicit * OCC_INTERVAL / OCC_INTERVAL_MAJOR;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	483
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	484 if (occIndexExplicit % OCC_VALUE_PER_WORD == 0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	485 return bwt->occValueMajor[occIndexMajor * ALPHABET_SIZE + character] +
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	486 (bwt->occValue[occIndexExplicit / OCC_VALUE_PER_WORD * ALPHABET_SIZE + character] >> 16);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	487
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	488 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	489 return bwt->occValueMajor[occIndexMajor * ALPHABET_SIZE + character] +
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	490 (bwt->occValue[occIndexExplicit / OCC_VALUE_PER_WORD * ALPHABET_SIZE + character] & 0x0000FFFF);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	491 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	492 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	493
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	494
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	495 static unsigned int ForwardDNAOccCount(const unsigned int* dna, const unsigned int index, const unsigned int character,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	496 const unsigned int* dnaDecodeTable)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	497 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	498 static const unsigned int truncateRightMask[16] = { 0x00000000, 0xC0000000, 0xF0000000, 0xFC000000,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	499 0xFF000000, 0xFFC00000, 0xFFF00000, 0xFFFC0000,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	500 0xFFFF0000, 0xFFFFC000, 0xFFFFF000, 0xFFFFFC00,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	501 0xFFFFFF00, 0xFFFFFFC0, 0xFFFFFFF0, 0xFFFFFFFC };
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	502
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	503 unsigned int wordToCount, charToCount;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	504 unsigned int i, c;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	505 unsigned int sum = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	506
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	507 wordToCount = index / 16;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	508 charToCount = index - wordToCount * 16;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	509
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	510 for (i=0; i<wordToCount; i++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	511 sum += dnaDecodeTable[dna[i] >> 16];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	512 sum += dnaDecodeTable[dna[i] & 0x0000FFFF];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	513 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	514
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	515 if (charToCount > 0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	516 c = dna[i] & truncateRightMask[charToCount]; // increase count of 'a' by 16 - c;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	517 sum += dnaDecodeTable[c >> 16];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	518 sum += dnaDecodeTable[c & 0xFFFF];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	519 sum += charToCount - 16; // decrease count of 'a' by 16 - positionToProcess
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	520 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	521
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	522 return (sum >> (character * 8)) & 0x000000FF;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	523
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	524 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	525
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	526 static unsigned int BackwardDNAOccCount(const unsigned int* dna, const unsigned int index, const unsigned int character,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	527 const unsigned int* dnaDecodeTable)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	528 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	529 static const unsigned int truncateLeftMask[16] = { 0x00000000, 0x00000003, 0x0000000F, 0x0000003F,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	530 0x000000FF, 0x000003FF, 0x00000FFF, 0x00003FFF,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	531 0x0000FFFF, 0x0003FFFF, 0x000FFFFF, 0x003FFFFF,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	532 0x00FFFFFF, 0x03FFFFFF, 0x0FFFFFFF, 0x3FFFFFFF };
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	533
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	534 unsigned int wordToCount, charToCount;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	535 unsigned int i, c;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	536 unsigned int sum = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	537
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	538 wordToCount = index / 16;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	539 charToCount = index - wordToCount * 16;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	540
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	541 dna -= wordToCount + 1;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	542
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	543 if (charToCount > 0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	544 c = *dna & truncateLeftMask[charToCount]; // increase count of 'a' by 16 - c;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	545 sum += dnaDecodeTable[c >> 16];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	546 sum += dnaDecodeTable[c & 0xFFFF];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	547 sum += charToCount - 16; // decrease count of 'a' by 16 - positionToProcess
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	548 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	549
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	550 for (i=0; i<wordToCount; i++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	551 dna++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	552 sum += dnaDecodeTable[*dna >> 16];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	553 sum += dnaDecodeTable[*dna & 0x0000FFFF];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	554 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	555
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	556 return (sum >> (character * 8)) & 0x000000FF;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	557
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	558 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	559
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	560 unsigned int BWTOccValue(const BWT *bwt, unsigned int index, const unsigned int character) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	561
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	562 unsigned int occValue;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	563 unsigned int occExplicitIndex, occIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	564
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	565 // $ is supposed to be positioned at inverseSa0 but it is not encoded
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	566 // therefore index is subtracted by 1 for adjustment
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	567 if (index > bwt->inverseSa0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	568 index--;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	569 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	570
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	571 occExplicitIndex = (index + OCC_INTERVAL / 2 - 1) / OCC_INTERVAL; // Bidirectional encoding
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	572 occIndex = occExplicitIndex * OCC_INTERVAL;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	573 occValue = BWTOccValueExplicit(bwt, occExplicitIndex, character);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	574
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	575 if (occIndex == index) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	576 return occValue;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	577 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	578
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	579 if (occIndex < index) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	580 return occValue + ForwardDNAOccCount(bwt->bwtCode + occIndex / CHAR_PER_WORD, index - occIndex, character, bwt->decodeTable);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	581 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	582 return occValue - BackwardDNAOccCount(bwt->bwtCode + occIndex / CHAR_PER_WORD, occIndex - index, character, bwt->decodeTable);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	583 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	584
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	585 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	586
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	587 static unsigned int BWTIncGetAbsoluteRank(BWT bwt, unsigned int __restrict absoluteRank, unsigned int* __restrict seq,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	588 const unsigned int *packedText, const unsigned int numChar,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	589 const unsigned int* cumulativeCount, const unsigned int firstCharInLastIteration)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	590 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	591 unsigned int saIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	592 unsigned int lastWord;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	593 unsigned int packedMask;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	594 unsigned int i, j;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	595 unsigned int c, t;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	596 unsigned int rankIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	597 unsigned int shift;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	598 unsigned int seqIndexFromStart[ALPHABET_SIZE];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	599 unsigned int seqIndexFromEnd[ALPHABET_SIZE];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	600
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	601 for (i=0; i<ALPHABET_SIZE; i++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	602 seqIndexFromStart[i] = cumulativeCount[i];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	603 seqIndexFromEnd[i] = cumulativeCount[i+1] - 1;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	604 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	605
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	606 shift = BITS_IN_WORD - BIT_PER_CHAR;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	607 packedMask = ALL_ONE_MASK >> shift;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	608 saIndex = bwt->inverseSa0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	609 rankIndex = numChar - 1;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	610
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	611 lastWord = numChar / CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	612 for (i=lastWord; i--;) { // loop from lastWord - 1 to 0
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	613 t = packedText[i];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	614 for (j=0; j<CHAR_PER_WORD; j++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	615 c = t & packedMask;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	616 saIndex = bwt->cumulativeFreq[c] + BWTOccValue(bwt, saIndex, c) + 1;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	617 // A counting sort using the first character of suffix is done here
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	618 // If rank > inverseSa0 -> fill seq from end, otherwise fill seq from start -> to leave the right entry for inverseSa0
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	619 if (saIndex > bwt->inverseSa0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	620 seq[seqIndexFromEnd[c]] = rankIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	621 absoluteRank[seqIndexFromEnd[c]] = saIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	622 seqIndexFromEnd[c]--;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	623 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	624 seq[seqIndexFromStart[c]] = rankIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	625 absoluteRank[seqIndexFromStart[c]] = saIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	626 seqIndexFromStart[c]++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	627 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	628 rankIndex--;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	629 t >>= BIT_PER_CHAR;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	630 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	631 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	632
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	633 absoluteRank[seqIndexFromStart[firstCharInLastIteration]] = bwt->inverseSa0; // representing the substring of all preceding characters
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	634 seq[seqIndexFromStart[firstCharInLastIteration]] = numChar;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	635
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	636 return seqIndexFromStart[firstCharInLastIteration];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	637 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	638
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	639 static void BWTIncSortKey(unsigned int* __restrict key, unsigned int* __restrict seq, const unsigned int numItem)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	640 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	641 #define EQUAL_KEY_THRESHOLD 4 // Partition for equal key if data array size / the number of data with equal value with pivot < EQUAL_KEY_THRESHOLD
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	642
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	643 int lowIndex, highIndex, midIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	644 int lowPartitionIndex, highPartitionIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	645 int lowStack[32], highStack[32];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	646 int stackDepth;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	647 int i, j;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	648 unsigned int tempSeq, tempKey;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	649 int numberOfEqualKey;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	650
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	651 if (numItem < 2) return;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	652
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	653 stackDepth = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	654
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	655 lowIndex = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	656 highIndex = numItem - 1;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	657
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	658 for (;;) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	659
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	660 for (;;) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	661
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	662 // Sort small array of data
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	663 if (highIndex - lowIndex < BWTINC_INSERT_SORT_NUM_ITEM) { // Insertion sort on smallest arrays
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	664 for (i=lowIndex+1; i<=highIndex; i++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	665 tempSeq = seq[i];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	666 tempKey = key[i];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	667 for (j = i; j > lowIndex && key[j-1] > tempKey; j--) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	668 seq[j] = seq[j-1];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	669 key[j] = key[j-1];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	670 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	671 if (j != i) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	672 seq[j] = tempSeq;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	673 key[j] = tempKey;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	674 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	675 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	676 break;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	677 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	678
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	679 // Choose pivot as median of the lowest, middle, and highest data; sort the three data
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	680
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	681 midIndex = average(lowIndex, highIndex);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	682 if (key[lowIndex] > key[midIndex]) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	683 tempSeq = seq[lowIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	684 tempKey = key[lowIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	685 seq[lowIndex] = seq[midIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	686 key[lowIndex] = key[midIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	687 seq[midIndex] = tempSeq;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	688 key[midIndex] = tempKey;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	689 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	690 if (key[lowIndex] > key[highIndex]) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	691 tempSeq = seq[lowIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	692 tempKey = key[lowIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	693 seq[lowIndex] = seq[highIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	694 key[lowIndex] = key[highIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	695 seq[highIndex] = tempSeq;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	696 key[highIndex] = tempKey;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	697 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	698 if (key[midIndex] > key[highIndex]) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	699 tempSeq = seq[midIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	700 tempKey = key[midIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	701 seq[midIndex] = seq[highIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	702 key[midIndex] = key[highIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	703 seq[highIndex] = tempSeq;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	704 key[highIndex] = tempKey;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	705 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	706
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	707 // Partition data
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	708
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	709 numberOfEqualKey = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	710
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	711 lowPartitionIndex = lowIndex + 1;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	712 highPartitionIndex = highIndex - 1;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	713
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	714 for (;;) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	715 while (lowPartitionIndex <= highPartitionIndex && key[lowPartitionIndex] <= key[midIndex]) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	716 numberOfEqualKey += (key[lowPartitionIndex] == key[midIndex]);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	717 lowPartitionIndex++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	718 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	719 while (lowPartitionIndex < highPartitionIndex) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	720 if (key[midIndex] >= key[highPartitionIndex]) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	721 numberOfEqualKey += (key[midIndex] == key[highPartitionIndex]);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	722 break;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	723 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	724 highPartitionIndex--;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	725 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	726 if (lowPartitionIndex >= highPartitionIndex) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	727 break;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	728 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	729 tempSeq = seq[lowPartitionIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	730 tempKey = key[lowPartitionIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	731 seq[lowPartitionIndex] = seq[highPartitionIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	732 key[lowPartitionIndex] = key[highPartitionIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	733 seq[highPartitionIndex] = tempSeq;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	734 key[highPartitionIndex] = tempKey;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	735 if (highPartitionIndex == midIndex) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	736 // partition key has been moved
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	737 midIndex = lowPartitionIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	738 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	739 lowPartitionIndex++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	740 highPartitionIndex--;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	741 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	742
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	743 // Adjust the partition index
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	744 highPartitionIndex = lowPartitionIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	745 lowPartitionIndex--;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	746
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	747 // move the partition key to end of low partition
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	748 tempSeq = seq[midIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	749 tempKey = key[midIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	750 seq[midIndex] = seq[lowPartitionIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	751 key[midIndex] = key[lowPartitionIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	752 seq[lowPartitionIndex] = tempSeq;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	753 key[lowPartitionIndex] = tempKey;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	754
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	755 if (highIndex - lowIndex + BWTINC_INSERT_SORT_NUM_ITEM <= EQUAL_KEY_THRESHOLD * numberOfEqualKey) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	756
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	757 // Many keys = partition key; separate the equal key data from the lower partition
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	758
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	759 midIndex = lowIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	760
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	761 for (;;) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	762 while (midIndex < lowPartitionIndex && key[midIndex] < key[lowPartitionIndex]) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	763 midIndex++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	764 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	765 while (midIndex < lowPartitionIndex && key[lowPartitionIndex] == key[lowPartitionIndex - 1]) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	766 lowPartitionIndex--;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	767 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	768 if (midIndex >= lowPartitionIndex) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	769 break;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	770 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	771 tempSeq = seq[midIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	772 tempKey = key[midIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	773 seq[midIndex] = seq[lowPartitionIndex - 1];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	774 key[midIndex] = key[lowPartitionIndex - 1];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	775 seq[lowPartitionIndex - 1] = tempSeq;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	776 key[lowPartitionIndex - 1] = tempKey;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	777 midIndex++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	778 lowPartitionIndex--;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	779 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	780
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	781 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	782
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	783 if (lowPartitionIndex - lowIndex > highIndex - highPartitionIndex) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	784 // put the larger partition to stack
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	785 lowStack[stackDepth] = lowIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	786 highStack[stackDepth] = lowPartitionIndex - 1;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	787 stackDepth++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	788 // sort the smaller partition first
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	789 lowIndex = highPartitionIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	790 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	791 // put the larger partition to stack
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	792 lowStack[stackDepth] = highPartitionIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	793 highStack[stackDepth] = highIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	794 stackDepth++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	795 // sort the smaller partition first
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	796 if (lowPartitionIndex > lowIndex) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	797 highIndex = lowPartitionIndex - 1;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	798 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	799 // all keys in the partition equals to the partition key
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	800 break;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	801 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	802 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	803 continue;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	804 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	805
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	806 // Pop a range from stack
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	807 if (stackDepth > 0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	808 stackDepth--;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	809 lowIndex = lowStack[stackDepth];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	810 highIndex = highStack[stackDepth];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	811 continue;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	812 } else return;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	813 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	814 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	815
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	816
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	817 static void BWTIncBuildRelativeRank(unsigned int* __restrict sortedRank, unsigned int* __restrict seq,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	818 unsigned int* __restrict relativeRank, const unsigned int numItem,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	819 unsigned int oldInverseSa0, const unsigned int *cumulativeCount)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	820 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	821 unsigned int i, c;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	822 unsigned int s, r;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	823 unsigned int lastRank, lastIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	824 unsigned int oldInverseSa0RelativeRank = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	825 unsigned int freq;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	826
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	827 lastIndex = numItem;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	828 lastRank = sortedRank[numItem];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	829 if (lastRank > oldInverseSa0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	830 sortedRank[numItem]--; // to prepare for merging; $ is not encoded in bwt
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	831 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	832 s = seq[numItem];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	833 relativeRank[s] = numItem;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	834 if (lastRank == oldInverseSa0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	835 oldInverseSa0RelativeRank = numItem;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	836 oldInverseSa0++; // so that this segment of code is not run again
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	837 lastRank++; // so that oldInverseSa0 become a sorted group with 1 item
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	838 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	839
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	840 c = ALPHABET_SIZE - 1;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	841 freq = cumulativeCount[c];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	842
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	843 for (i=numItem; i--;) { // from numItem - 1 to 0
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	844 r = sortedRank[i];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	845 if (r > oldInverseSa0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	846 sortedRank[i]--; // to prepare for merging; $ is not encoded in bwt
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	847 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	848 s = seq[i];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	849 if (i < freq) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	850 if (lastIndex >= freq) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	851 lastRank++; // to trigger the group across alphabet boundary to be split
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	852 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	853 c--;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	854 freq = cumulativeCount[c];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	855 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	856 if (r == lastRank) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	857 relativeRank[s] = lastIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	858 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	859 if (i == lastIndex - 1) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	860 if (lastIndex < numItem && (int)seq[lastIndex + 1] < 0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	861 seq[lastIndex] = seq[lastIndex + 1] - 1;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	862 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	863 seq[lastIndex] = (unsigned int)-1;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	864 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	865 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	866 lastIndex = i;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	867 lastRank = r;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	868 relativeRank[s] = i;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	869 if (r == oldInverseSa0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	870 oldInverseSa0RelativeRank = i;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	871 oldInverseSa0++; // so that this segment of code is not run again
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	872 lastRank++; // so that oldInverseSa0 become a sorted group with 1 item
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	873 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	874 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	875 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	876
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	877 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	878
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	879 static void BWTIncBuildBwt(unsigned int* seq, const unsigned int *relativeRank, const unsigned int numChar,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	880 const unsigned int *cumulativeCount)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	881 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	882 unsigned int i, c;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	883 unsigned int previousRank, currentRank;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	884
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	885 previousRank = relativeRank[0];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	886
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	887 for (i=1; i<=numChar; i++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	888 currentRank = relativeRank[i];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	889 c = (previousRank >= cumulativeCount[1]) + (previousRank >= cumulativeCount[2])
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	890 + (previousRank >= cumulativeCount[3]);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	891 seq[currentRank] = c;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	892 previousRank = currentRank;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	893 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	894 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	895
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	896 static void BWTIncMergeBwt(const unsigned int sortedRank, const unsigned int oldBwt, const unsigned int *insertBwt,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	897 unsigned int* __restrict mergedBwt, const unsigned int numOldBwt, const unsigned int numInsertBwt)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	898 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	899 unsigned int bitsInWordMinusBitPerChar;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	900 unsigned int leftShift, rightShift;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	901 unsigned int o;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	902 unsigned int oIndex, iIndex, mIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	903 unsigned int mWord, mChar, oWord, oChar;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	904 unsigned int numInsert;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	905
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	906 bitsInWordMinusBitPerChar = BITS_IN_WORD - BIT_PER_CHAR;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	907
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	908 oIndex = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	909 iIndex = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	910 mIndex = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	911
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	912 mWord = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	913 mChar = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	914
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	915 mergedBwt[0] = 0; // this can be cleared as merged Bwt slightly shift to the left in each iteration
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	916
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	917 while (oIndex < numOldBwt) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	918
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	919 // copy from insertBwt
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	920 while (iIndex <= numInsertBwt && sortedRank[iIndex] <= oIndex) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	921 if (sortedRank[iIndex] != 0) { // special value to indicate that this is for new inverseSa0
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	922 mergedBwt[mWord] \|= insertBwt[iIndex] << (BITS_IN_WORD - (mChar + 1) * BIT_PER_CHAR);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	923 mIndex++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	924 mChar++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	925 if (mChar == CHAR_PER_WORD) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	926 mChar = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	927 mWord++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	928 mergedBwt[mWord] = 0; // no need to worry about crossing mergedBwt boundary
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	929 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	930 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	931 iIndex++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	932 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	933
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	934 // Copy from oldBwt to mergedBwt
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	935 if (iIndex <= numInsertBwt) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	936 o = sortedRank[iIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	937 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	938 o = numOldBwt;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	939 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	940 numInsert = o - oIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	941
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	942 oWord = oIndex / CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	943 oChar = oIndex - oWord * CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	944 if (oChar > mChar) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	945 leftShift = (oChar - mChar) * BIT_PER_CHAR;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	946 rightShift = (CHAR_PER_WORD + mChar - oChar) * BIT_PER_CHAR;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	947 mergedBwt[mWord] = mergedBwt[mWord]
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	948 \| (oldBwt[oWord] << (oChar * BIT_PER_CHAR) >> (mChar * BIT_PER_CHAR))
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	949 \| (oldBwt[oWord+1] >> rightShift);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	950 oIndex += min(numInsert, CHAR_PER_WORD - mChar);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	951 while (o > oIndex) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	952 oWord++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	953 mWord++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	954 mergedBwt[mWord] = (oldBwt[oWord] << leftShift) \| (oldBwt[oWord+1] >> rightShift);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	955 oIndex += CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	956 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	957 } else if (oChar < mChar) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	958 rightShift = (mChar - oChar) * BIT_PER_CHAR;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	959 leftShift = (CHAR_PER_WORD + oChar - mChar) * BIT_PER_CHAR;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	960 mergedBwt[mWord] = mergedBwt[mWord]
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	961 \| (oldBwt[oWord] << (oChar * BIT_PER_CHAR) >> (mChar * BIT_PER_CHAR));
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	962 oIndex += min(numInsert, CHAR_PER_WORD - mChar);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	963 while (o > oIndex) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	964 oWord++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	965 mWord++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	966 mergedBwt[mWord] = (oldBwt[oWord-1] << leftShift) \| (oldBwt[oWord] >> rightShift);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	967 oIndex += CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	968 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	969 } else { // oChar == mChar
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	970 mergedBwt[mWord] = mergedBwt[mWord] \| truncateLeft(oldBwt[oWord], mChar * BIT_PER_CHAR);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	971 oIndex += min(numInsert, CHAR_PER_WORD - mChar);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	972 while (o > oIndex) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	973 oWord++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	974 mWord++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	975 mergedBwt[mWord] = oldBwt[oWord];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	976 oIndex += CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	977 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	978 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	979 oIndex = o;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	980 mIndex += numInsert;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	981
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	982 // Clear the trailing garbage in mergedBwt
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	983 mWord = mIndex / CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	984 mChar = mIndex - mWord * CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	985 if (mChar == 0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	986 mergedBwt[mWord] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	987 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	988 mergedBwt[mWord] = truncateRight(mergedBwt[mWord], (BITS_IN_WORD - mChar * BIT_PER_CHAR));
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	989 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	990
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	991 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	992
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	993 // copy from insertBwt
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	994 while (iIndex <= numInsertBwt) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	995 if (sortedRank[iIndex] != 0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	996 mergedBwt[mWord] \|= insertBwt[iIndex] << (BITS_IN_WORD - (mChar + 1) * BIT_PER_CHAR);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	997 mIndex++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	998 mChar++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	999 if (mChar == CHAR_PER_WORD) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1000 mChar = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1001 mWord++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1002 mergedBwt[mWord] = 0; // no need to worry about crossing mergedBwt boundary
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1003 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1004 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1005 iIndex++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1006 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1007 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1008
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1009 void BWTClearTrailingBwtCode(BWT *bwt)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1010 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1011 unsigned int bwtResidentSizeInWord;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1012 unsigned int wordIndex, offset;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1013 unsigned int i;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1014
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1015 bwtResidentSizeInWord = BWTResidentSizeInWord(bwt->textLength);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1016
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1017 wordIndex = bwt->textLength / CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1018 offset = (bwt->textLength - wordIndex * CHAR_PER_WORD) * BIT_PER_CHAR;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1019 if (offset > 0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1020 bwt->bwtCode[wordIndex] = truncateRight(bwt->bwtCode[wordIndex], BITS_IN_WORD - offset);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1021 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1022 if (wordIndex < bwtResidentSizeInWord) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1023 bwt->bwtCode[wordIndex] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1024 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1025 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1026
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1027 for (i=wordIndex+1; i<bwtResidentSizeInWord; i++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1028 bwt->bwtCode[i] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1029 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1030 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1031
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1032
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1033 void BWTGenerateOccValueFromBwt(const unsigned int* bwt, unsigned int* __restrict occValue,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1034 unsigned int* __restrict occValueMajor,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1035 const unsigned int textLength, const unsigned int* decodeTable)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1036 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1037 unsigned int numberOfOccValueMajor, numberOfOccValue;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1038 unsigned int wordBetweenOccValue;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1039 unsigned int numberOfOccIntervalPerMajor;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1040 unsigned int c;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1041 unsigned int i, j;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1042 unsigned int occMajorIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1043 unsigned int occIndex, bwtIndex;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1044 unsigned int sum;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1045 unsigned int tempOccValue0[ALPHABET_SIZE], tempOccValue1[ALPHABET_SIZE];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1046
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1047 wordBetweenOccValue = OCC_INTERVAL / CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1048
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1049 // Calculate occValue
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1050 // [lh3] by default: OCC_INTERVAL_MAJOR=65536, OCC_INTERVAL=256
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1051 numberOfOccValue = (textLength + OCC_INTERVAL - 1) / OCC_INTERVAL + 1; // Value at both end for bi-directional encoding
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1052 numberOfOccIntervalPerMajor = OCC_INTERVAL_MAJOR / OCC_INTERVAL;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1053 numberOfOccValueMajor = (numberOfOccValue + numberOfOccIntervalPerMajor - 1) / numberOfOccIntervalPerMajor;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1054
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1055 tempOccValue0[0] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1056 tempOccValue0[1] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1057 tempOccValue0[2] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1058 tempOccValue0[3] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1059 occValueMajor[0] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1060 occValueMajor[1] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1061 occValueMajor[2] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1062 occValueMajor[3] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1063
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1064 occIndex = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1065 bwtIndex = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1066 for (occMajorIndex=1; occMajorIndex<numberOfOccValueMajor; occMajorIndex++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1067
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1068 for (i=0; i<numberOfOccIntervalPerMajor/2; i++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1069
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1070 sum = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1071 tempOccValue1[0] = tempOccValue0[0];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1072 tempOccValue1[1] = tempOccValue0[1];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1073 tempOccValue1[2] = tempOccValue0[2];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1074 tempOccValue1[3] = tempOccValue0[3];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1075
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1076 for (j=0; j<wordBetweenOccValue; j++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1077 c = bwt[bwtIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1078 sum += decodeTable[c >> 16];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1079 sum += decodeTable[c & 0x0000FFFF];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1080 bwtIndex++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1081 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1082 if (!DNA_OCC_SUM_EXCEPTION(sum)) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1083 tempOccValue1[0] += (sum & 0x000000FF); sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1084 tempOccValue1[1] += (sum & 0x000000FF); sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1085 tempOccValue1[2] += (sum & 0x000000FF); sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1086 tempOccValue1[3] += sum;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1087 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1088 if (sum == 0x00000100) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1089 tempOccValue1[0] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1090 } else if (sum == 0x00010000) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1091 tempOccValue1[1] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1092 } else if (sum == 0x01000000) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1093 tempOccValue1[2] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1094 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1095 tempOccValue1[3] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1096 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1097 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1098 occValue[occIndex * 4 + 0] = (tempOccValue0[0] << 16) \| tempOccValue1[0];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1099 occValue[occIndex * 4 + 1] = (tempOccValue0[1] << 16) \| tempOccValue1[1];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1100 occValue[occIndex * 4 + 2] = (tempOccValue0[2] << 16) \| tempOccValue1[2];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1101 occValue[occIndex * 4 + 3] = (tempOccValue0[3] << 16) \| tempOccValue1[3];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1102 tempOccValue0[0] = tempOccValue1[0];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1103 tempOccValue0[1] = tempOccValue1[1];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1104 tempOccValue0[2] = tempOccValue1[2];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1105 tempOccValue0[3] = tempOccValue1[3];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1106 sum = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1107
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1108 occIndex++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1109
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1110 for (j=0; j<wordBetweenOccValue; j++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1111 c = bwt[bwtIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1112 sum += decodeTable[c >> 16];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1113 sum += decodeTable[c & 0x0000FFFF];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1114 bwtIndex++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1115 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1116 if (!DNA_OCC_SUM_EXCEPTION(sum)) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1117 tempOccValue0[0] += (sum & 0x000000FF); sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1118 tempOccValue0[1] += (sum & 0x000000FF); sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1119 tempOccValue0[2] += (sum & 0x000000FF); sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1120 tempOccValue0[3] += sum;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1121 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1122 if (sum == 0x00000100) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1123 tempOccValue0[0] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1124 } else if (sum == 0x00010000) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1125 tempOccValue0[1] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1126 } else if (sum == 0x01000000) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1127 tempOccValue0[2] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1128 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1129 tempOccValue0[3] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1130 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1131 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1132 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1133
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1134 occValueMajor[occMajorIndex * 4 + 0] = occValueMajor[(occMajorIndex - 1) * 4 + 0] + tempOccValue0[0];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1135 occValueMajor[occMajorIndex * 4 + 1] = occValueMajor[(occMajorIndex - 1) * 4 + 1] + tempOccValue0[1];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1136 occValueMajor[occMajorIndex * 4 + 2] = occValueMajor[(occMajorIndex - 1) * 4 + 2] + tempOccValue0[2];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1137 occValueMajor[occMajorIndex * 4 + 3] = occValueMajor[(occMajorIndex - 1) * 4 + 3] + tempOccValue0[3];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1138 tempOccValue0[0] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1139 tempOccValue0[1] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1140 tempOccValue0[2] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1141 tempOccValue0[3] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1142
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1143 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1144
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1145 while (occIndex < (numberOfOccValue-1)/2) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1146 sum = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1147 tempOccValue1[0] = tempOccValue0[0];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1148 tempOccValue1[1] = tempOccValue0[1];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1149 tempOccValue1[2] = tempOccValue0[2];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1150 tempOccValue1[3] = tempOccValue0[3];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1151 for (j=0; j<wordBetweenOccValue; j++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1152 c = bwt[bwtIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1153 sum += decodeTable[c >> 16];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1154 sum += decodeTable[c & 0x0000FFFF];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1155 bwtIndex++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1156 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1157 if (!DNA_OCC_SUM_EXCEPTION(sum)) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1158 tempOccValue1[0] += (sum & 0x000000FF); sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1159 tempOccValue1[1] += (sum & 0x000000FF); sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1160 tempOccValue1[2] += (sum & 0x000000FF); sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1161 tempOccValue1[3] += sum;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1162 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1163 if (sum == 0x00000100) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1164 tempOccValue1[0] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1165 } else if (sum == 0x00010000) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1166 tempOccValue1[1] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1167 } else if (sum == 0x01000000) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1168 tempOccValue1[2] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1169 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1170 tempOccValue1[3] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1171 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1172 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1173 occValue[occIndex * 4 + 0] = (tempOccValue0[0] << 16) \| tempOccValue1[0];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1174 occValue[occIndex * 4 + 1] = (tempOccValue0[1] << 16) \| tempOccValue1[1];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1175 occValue[occIndex * 4 + 2] = (tempOccValue0[2] << 16) \| tempOccValue1[2];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1176 occValue[occIndex * 4 + 3] = (tempOccValue0[3] << 16) \| tempOccValue1[3];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1177 tempOccValue0[0] = tempOccValue1[0];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1178 tempOccValue0[1] = tempOccValue1[1];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1179 tempOccValue0[2] = tempOccValue1[2];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1180 tempOccValue0[3] = tempOccValue1[3];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1181 sum = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1182 occIndex++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1183
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1184 for (j=0; j<wordBetweenOccValue; j++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1185 c = bwt[bwtIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1186 sum += decodeTable[c >> 16];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1187 sum += decodeTable[c & 0x0000FFFF];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1188 bwtIndex++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1189 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1190 if (!DNA_OCC_SUM_EXCEPTION(sum)) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1191 tempOccValue0[0] += (sum & 0x000000FF); sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1192 tempOccValue0[1] += (sum & 0x000000FF); sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1193 tempOccValue0[2] += (sum & 0x000000FF); sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1194 tempOccValue0[3] += sum;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1195 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1196 if (sum == 0x00000100) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1197 tempOccValue0[0] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1198 } else if (sum == 0x00010000) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1199 tempOccValue0[1] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1200 } else if (sum == 0x01000000) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1201 tempOccValue0[2] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1202 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1203 tempOccValue0[3] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1204 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1205 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1206 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1207
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1208 sum = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1209 tempOccValue1[0] = tempOccValue0[0];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1210 tempOccValue1[1] = tempOccValue0[1];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1211 tempOccValue1[2] = tempOccValue0[2];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1212 tempOccValue1[3] = tempOccValue0[3];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1213
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1214 if (occIndex * 2 < numberOfOccValue - 1) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1215 for (j=0; j<wordBetweenOccValue; j++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1216 c = bwt[bwtIndex];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1217 sum += decodeTable[c >> 16];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1218 sum += decodeTable[c & 0x0000FFFF];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1219 bwtIndex++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1220 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1221 if (!DNA_OCC_SUM_EXCEPTION(sum)) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1222 tempOccValue1[0] += (sum & 0x000000FF); sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1223 tempOccValue1[1] += (sum & 0x000000FF); sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1224 tempOccValue1[2] += (sum & 0x000000FF); sum >>= 8;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1225 tempOccValue1[3] += sum;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1226 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1227 if (sum == 0x00000100) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1228 tempOccValue1[0] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1229 } else if (sum == 0x00010000) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1230 tempOccValue1[1] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1231 } else if (sum == 0x01000000) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1232 tempOccValue1[2] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1233 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1234 tempOccValue1[3] += 256;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1235 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1236 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1237 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1238
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1239 occValue[occIndex * 4 + 0] = (tempOccValue0[0] << 16) \| tempOccValue1[0];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1240 occValue[occIndex * 4 + 1] = (tempOccValue0[1] << 16) \| tempOccValue1[1];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1241 occValue[occIndex * 4 + 2] = (tempOccValue0[2] << 16) \| tempOccValue1[2];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1242 occValue[occIndex * 4 + 3] = (tempOccValue0[3] << 16) \| tempOccValue1[3];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1243
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1244 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1245
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1246 static void BWTIncConstruct(BWTInc *bwtInc, const unsigned int numChar)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1247 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1248 unsigned int i;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1249 unsigned int mergedBwtSizeInWord, mergedOccSizeInWord;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1250 unsigned int firstCharInThisIteration;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1251
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1252 unsigned int relativeRank, seq, sortedRank, insertBwt, *mergedBwt;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1253 unsigned int newInverseSa0RelativeRank, oldInverseSa0RelativeRank, newInverseSa0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1254
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1255 #ifdef DEBUG
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1256 if (numChar > bwtInc->buildSize) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1257 fprintf(stderr, "BWTIncConstruct(): numChar > buildSize!\n");
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1258 exit(1);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1259 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1260 #endif
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1261
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1262 mergedBwtSizeInWord = BWTResidentSizeInWord(bwtInc->bwt->textLength + numChar);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1263 mergedOccSizeInWord = BWTOccValueMinorSizeInWord(bwtInc->bwt->textLength + numChar);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1264
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1265 initializeVAL(bwtInc->cumulativeCountInCurrentBuild, ALPHABET_SIZE + 1, 0);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1266
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1267 if (bwtInc->bwt->textLength == 0) { // Initial build
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1268
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1269 // Set address
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1270 seq = bwtInc->workingMemory;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1271 relativeRank = seq + bwtInc->buildSize + 1;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1272 mergedBwt = insertBwt = bwtInc->workingMemory + bwtInc->availableWord - mergedBwtSizeInWord; // build in place
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1273
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1274 BWTIncPutPackedTextToRank(bwtInc->packedText, relativeRank, bwtInc->cumulativeCountInCurrentBuild, numChar);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1275
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1276 firstCharInThisIteration = relativeRank[0];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1277 relativeRank[numChar] = 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1278
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1279 // Sort suffix
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1280 QSufSortSuffixSort((int)relativeRank, (int)seq, (int)numChar, (int)ALPHABET_SIZE - 1, 0, FALSE);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1281 newInverseSa0 = relativeRank[0];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1282
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1283 // Clear BWT area
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1284 initializeVAL(insertBwt, mergedBwtSizeInWord, 0);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1285
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1286 // Build BWT
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1287 BWTIncBuildPackedBwt(relativeRank, insertBwt, numChar, bwtInc->cumulativeCountInCurrentBuild, bwtInc->packedShift);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1288
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1289 // so that the cumulativeCount is not deducted
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1290 bwtInc->firstCharInLastIteration = ALPHABET_SIZE;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1291
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1292 } else { // Incremental build
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1293 // Set address
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1294 sortedRank = bwtInc->workingMemory;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1295 seq = sortedRank + bwtInc->buildSize + 1;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1296 insertBwt = seq;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1297 relativeRank = seq + bwtInc->buildSize + 1;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1298
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1299 // Store the first character of this iteration
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1300 firstCharInThisIteration = bwtInc->packedText[0] >> (BITS_IN_WORD - BIT_PER_CHAR);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1301
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1302 // Count occurrence of input text
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1303 ForwardDNAAllOccCountNoLimit(bwtInc->packedText, numChar, bwtInc->cumulativeCountInCurrentBuild + 1, bwtInc->bwt->decodeTable);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1304 // Add the first character of the previous iteration to represent the inverseSa0 of the previous iteration
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1305 bwtInc->cumulativeCountInCurrentBuild[bwtInc->firstCharInLastIteration + 1]++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1306 bwtInc->cumulativeCountInCurrentBuild[2] += bwtInc->cumulativeCountInCurrentBuild[1];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1307 bwtInc->cumulativeCountInCurrentBuild[3] += bwtInc->cumulativeCountInCurrentBuild[2];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1308 bwtInc->cumulativeCountInCurrentBuild[4] += bwtInc->cumulativeCountInCurrentBuild[3];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1309
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1310 // Get rank of new suffix among processed suffix
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1311 // The seq array is built into ALPHABET_SIZE + 2 groups; ALPHABET_SIZE groups + 1 group divided into 2 by inverseSa0 + inverseSa0 as 1 group
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1312 oldInverseSa0RelativeRank = BWTIncGetAbsoluteRank(bwtInc->bwt, sortedRank, seq, bwtInc->packedText,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1313 numChar, bwtInc->cumulativeCountInCurrentBuild, bwtInc->firstCharInLastIteration);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1314
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1315 // Sort rank by ALPHABET_SIZE + 2 groups (or ALPHABET_SIZE + 1 groups when inverseSa0 sit on the border of a group)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1316 for (i=0; i<ALPHABET_SIZE; i++) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1317 if (bwtInc->cumulativeCountInCurrentBuild[i] > oldInverseSa0RelativeRank \|\|
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1318 bwtInc->cumulativeCountInCurrentBuild[i+1] <= oldInverseSa0RelativeRank) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1319 BWTIncSortKey(sortedRank + bwtInc->cumulativeCountInCurrentBuild[i], seq + bwtInc->cumulativeCountInCurrentBuild[i], bwtInc->cumulativeCountInCurrentBuild[i+1] - bwtInc->cumulativeCountInCurrentBuild[i]);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1320 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1321 if (bwtInc->cumulativeCountInCurrentBuild[i] < oldInverseSa0RelativeRank) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1322 BWTIncSortKey(sortedRank + bwtInc->cumulativeCountInCurrentBuild[i], seq + bwtInc->cumulativeCountInCurrentBuild[i], oldInverseSa0RelativeRank - bwtInc->cumulativeCountInCurrentBuild[i]);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1323 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1324 if (bwtInc->cumulativeCountInCurrentBuild[i+1] > oldInverseSa0RelativeRank + 1) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1325 BWTIncSortKey(sortedRank + oldInverseSa0RelativeRank + 1, seq + oldInverseSa0RelativeRank + 1, bwtInc->cumulativeCountInCurrentBuild[i+1] - oldInverseSa0RelativeRank - 1);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1326 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1327 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1328 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1329
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1330 // build relative rank; sortedRank is updated for merging to cater for the fact that $ is not encoded in bwt
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1331 // the cumulative freq information is used to make sure that inverseSa0 and suffix beginning with different characters are kept in different unsorted groups)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1332 BWTIncBuildRelativeRank(sortedRank, seq, relativeRank, numChar, bwtInc->bwt->inverseSa0, bwtInc->cumulativeCountInCurrentBuild);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1333 #ifdef DEBUG
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1334 if (relativeRank[numChar] != oldInverseSa0RelativeRank) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1335 fprintf(stderr, "BWTIncConstruct(): relativeRank[numChar] != oldInverseSa0RelativeRank!\n");
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1336 exit(1);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1337 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1338 #endif
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1339
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1340 // Sort suffix
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1341 QSufSortSuffixSort((int)relativeRank, (int)seq, (int)numChar, (int)numChar, 1, TRUE);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1342
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1343 newInverseSa0RelativeRank = relativeRank[0];
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1344 newInverseSa0 = sortedRank[newInverseSa0RelativeRank] + newInverseSa0RelativeRank;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1345
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1346 sortedRank[newInverseSa0RelativeRank] = 0; // a special value so that this is skipped in the merged bwt
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1347
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1348 // Build BWT
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1349 BWTIncBuildBwt(seq, relativeRank, numChar, bwtInc->cumulativeCountInCurrentBuild);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1350
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1351 // Merge BWT
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1352 mergedBwt = bwtInc->workingMemory + bwtInc->availableWord - mergedBwtSizeInWord
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1353 - bwtInc->numberOfIterationDone * OCC_INTERVAL / BIT_PER_CHAR;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1354 // minus numberOfIteration * occInterval to create a buffer for merging
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1355 BWTIncMergeBwt(sortedRank, bwtInc->bwt->bwtCode, insertBwt, mergedBwt, bwtInc->bwt->textLength, numChar);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1356
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1357 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1358
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1359 // Build auxiliary structure and update info and pointers in BWT
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1360 bwtInc->bwt->textLength += numChar;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1361 bwtInc->bwt->bwtCode = mergedBwt;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1362 bwtInc->bwt->bwtSizeInWord = mergedBwtSizeInWord;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1363 bwtInc->bwt->occSizeInWord = mergedOccSizeInWord;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1364 if (mergedBwt < bwtInc->workingMemory + mergedOccSizeInWord) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1365 fprintf(stderr, "BWTIncConstruct() : Not enough memory allocated!\n");
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1366 exit(1);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1367 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1368
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1369 bwtInc->bwt->occValue = mergedBwt - mergedOccSizeInWord;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1370
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1371 BWTClearTrailingBwtCode(bwtInc->bwt);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1372 BWTGenerateOccValueFromBwt(bwtInc->bwt->bwtCode, bwtInc->bwt->occValue, bwtInc->bwt->occValueMajor,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1373 bwtInc->bwt->textLength, bwtInc->bwt->decodeTable);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1374
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1375 bwtInc->bwt->inverseSa0 = newInverseSa0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1376
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1377 bwtInc->bwt->cumulativeFreq[1] += bwtInc->cumulativeCountInCurrentBuild[1] - (bwtInc->firstCharInLastIteration <= 0);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1378 bwtInc->bwt->cumulativeFreq[2] += bwtInc->cumulativeCountInCurrentBuild[2] - (bwtInc->firstCharInLastIteration <= 1);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1379 bwtInc->bwt->cumulativeFreq[3] += bwtInc->cumulativeCountInCurrentBuild[3] - (bwtInc->firstCharInLastIteration <= 2);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1380 bwtInc->bwt->cumulativeFreq[4] += bwtInc->cumulativeCountInCurrentBuild[4] - (bwtInc->firstCharInLastIteration <= 3);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1381
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1382 bwtInc->firstCharInLastIteration = firstCharInThisIteration;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1383
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1384 // Set build size and text address for the next build
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1385 BWTIncSetBuildSizeAndTextAddr(bwtInc);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1386 bwtInc->numberOfIterationDone++;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1387
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1388 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1389
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1390 BWTInc BWTIncConstructFromPacked(const char inputFileName, const float targetNBit,
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1391 const unsigned int initialMaxBuildSize, const unsigned int incMaxBuildSize)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1392 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1393
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1394 FILE *packedFile;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1395 unsigned int packedFileLen;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1396 unsigned int totalTextLength;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1397 unsigned int textToLoad, textSizeInByte;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1398 unsigned int processedTextLength;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1399 unsigned char lastByteLength;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1400
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1401 BWTInc *bwtInc;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1402
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1403 packedFile = (FILE*)fopen(inputFileName, "rb");
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1404
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1405 if (packedFile == NULL) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1406 fprintf(stderr, "BWTIncConstructFromPacked() : Cannot open inputFileName!\n");
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1407 exit(1);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1408 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1409
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1410 fseek(packedFile, -1, SEEK_END);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1411 packedFileLen = ftell(packedFile);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1412 if ((int)packedFileLen < 0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1413 fprintf(stderr, "BWTIncConstructFromPacked: Cannot determine file length!\n");
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1414 exit(1);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1415 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1416 fread(&lastByteLength, sizeof(unsigned char), 1, packedFile);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1417 totalTextLength = TextLengthFromBytePacked(packedFileLen, BIT_PER_CHAR, lastByteLength);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1418
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1419 bwtInc = BWTIncCreate(totalTextLength, targetNBit, initialMaxBuildSize, incMaxBuildSize);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1420
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1421 BWTIncSetBuildSizeAndTextAddr(bwtInc);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1422
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1423 if (bwtInc->buildSize > totalTextLength) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1424 textToLoad = totalTextLength;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1425 } else {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1426 textToLoad = totalTextLength - ((totalTextLength - bwtInc->buildSize + CHAR_PER_WORD - 1) / CHAR_PER_WORD * CHAR_PER_WORD);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1427 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1428 textSizeInByte = textToLoad / CHAR_PER_BYTE; // excluded the odd byte
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1429
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1430 fseek(packedFile, -2, SEEK_CUR);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1431 fseek(packedFile, -((int)textSizeInByte), SEEK_CUR);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1432 fread(bwtInc->textBuffer, sizeof(unsigned char), textSizeInByte + 1, packedFile);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1433 fseek(packedFile, -((int)textSizeInByte + 1), SEEK_CUR);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1434
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1435 ConvertBytePackedToWordPacked(bwtInc->textBuffer, bwtInc->packedText, ALPHABET_SIZE, textToLoad);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1436 BWTIncConstruct(bwtInc, textToLoad);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1437
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1438 processedTextLength = textToLoad;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1439
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1440 while (processedTextLength < totalTextLength) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1441 textToLoad = bwtInc->buildSize / CHAR_PER_WORD * CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1442 if (textToLoad > totalTextLength - processedTextLength) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1443 textToLoad = totalTextLength - processedTextLength;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1444 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1445 textSizeInByte = textToLoad / CHAR_PER_BYTE;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1446 fseek(packedFile, -((int)textSizeInByte), SEEK_CUR);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1447 fread(bwtInc->textBuffer, sizeof(unsigned char), textSizeInByte, packedFile);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1448 fseek(packedFile, -((int)textSizeInByte), SEEK_CUR);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1449 ConvertBytePackedToWordPacked(bwtInc->textBuffer, bwtInc->packedText, ALPHABET_SIZE, textToLoad);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1450 BWTIncConstruct(bwtInc, textToLoad);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1451 processedTextLength += textToLoad;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1452 if (bwtInc->numberOfIterationDone % 10 == 0) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1453 printf("[BWTIncConstructFromPacked] %u iterations done. %u characters processed.\n",
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1454 bwtInc->numberOfIterationDone, processedTextLength);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1455 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1456 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1457 return bwtInc;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1458 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1459
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1460 void BWTFree(BWT *bwt)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1461 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1462 if (bwt == 0) return;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1463 free(bwt->cumulativeFreq);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1464 free(bwt->bwtCode);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1465 free(bwt->occValue);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1466 free(bwt->occValueMajor);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1467 free(bwt->saValue);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1468 free(bwt->inverseSa);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1469 free(bwt->decodeTable);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1470 free(bwt->saIndexRange);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1471 free(bwt->saValueOnBoundary);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1472 free(bwt);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1473 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1474
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1475 void BWTIncFree(BWTInc *bwtInc)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1476 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1477 if (bwtInc == 0) return;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1478 free(bwtInc->bwt);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1479 free(bwtInc->workingMemory);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1480 free(bwtInc);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1481 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1482
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1483 static unsigned int BWTFileSizeInWord(const unsigned int numChar)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1484 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1485 // The $ in BWT at the position of inverseSa0 is not encoded
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1486 return (numChar + CHAR_PER_WORD - 1) / CHAR_PER_WORD;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1487 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1488
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1489 void BWTSaveBwtCodeAndOcc(const BWT bwt, const char bwtFileName, const char *occValueFileName)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1490 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1491 FILE *bwtFile;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1492 /* FILE occValueFile; /
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1493 unsigned int bwtLength;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1494
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1495 bwtFile = (FILE*)fopen(bwtFileName, "wb");
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1496 if (bwtFile == NULL) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1497 fprintf(stderr, "BWTSaveBwtCodeAndOcc(): Cannot open BWT code file!\n");
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1498 exit(1);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1499 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1500
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1501 fwrite(&bwt->inverseSa0, sizeof(unsigned int), 1, bwtFile);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1502 fwrite(bwt->cumulativeFreq + 1, sizeof(unsigned int), ALPHABET_SIZE, bwtFile);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1503 bwtLength = BWTFileSizeInWord(bwt->textLength);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1504 fwrite(bwt->bwtCode, sizeof(unsigned int), bwtLength, bwtFile);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1505 fclose(bwtFile);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1506 /*
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1507 occValueFile = (FILE*)fopen(occValueFileName, "wb");
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1508 if (occValueFile == NULL) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1509 fprintf(stderr, "BWTSaveBwtCodeAndOcc(): Cannot open occ value file!\n");
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1510 exit(1);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1511 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1512
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1513 fwrite(&bwt->inverseSa0, sizeof(unsigned int), 1, occValueFile);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1514 fwrite(bwt->cumulativeFreq + 1, sizeof(unsigned int), ALPHABET_SIZE, occValueFile);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1515 fwrite(bwt->occValue, sizeof(unsigned int), bwt->occSizeInWord, occValueFile);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1516 fwrite(bwt->occValueMajor, sizeof(unsigned int), bwt->occMajorSizeInWord, occValueFile);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1517 fclose(occValueFile);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1518 */
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1519 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1520
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1521 void bwt_bwtgen(const char fn_pac, const char fn_bwt)
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1522 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1523 BWTInc *bwtInc;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1524 bwtInc = BWTIncConstructFromPacked(fn_pac, 2.5, 10000000, 10000000);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1525 printf("[bwt_gen] Finished constructing BWT in %u iterations.\n", bwtInc->numberOfIterationDone);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1526 BWTSaveBwtCodeAndOcc(bwtInc->bwt, fn_bwt, 0);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1527 BWTIncFree(bwtInc);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1528 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1529
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1530 int bwt_bwtgen_main(int argc, char *argv[])
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1531 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1532 if (argc < 3) {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1533 fprintf(stderr, "Usage: bwtgen <in.pac> <out.bwt>\n");
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1534 return 1;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1535 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1536 bwt_bwtgen(argv[1], argv[2]);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1537 return 0;
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1538 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1539
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1540 #ifdef MAIN_BWT_GEN
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1541
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1542 int main(int argc, char *argv[])
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1543 {
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1544 return bwt_bwtgen_main(argc, argv);
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1545 }
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1546
acc2ca1a3ba4 Uploaded siyuan parents: diff changeset	1547 #endif

Mercurial > repos > siyuan > prada

annotate pyPRADA_1.2/tools/bwa-0.5.7-mh/bwt_gen/bwt_gen.c @ 0:acc2ca1a3ba4