/************************************************* * * MFCC computation. * * Author: Feng Zhang (zhjinf@gmail.com) * Date: 2018-10-18 * * Copyright: * See LICENSE. * ************************************************/ #include #include #include #include "ffts.h" #include "AudioFile.h" #include "mfcc.h" MFCC::MFCC(int frameLength, int sampleRate, int nbFilters, float lowerBound, float upperBound, float preEmphFactor) { // Initialize m_hammingCoeff = initHammingCoeff(frameLength); m_dctCoeff = initDctCoeff(nbFilters); int fftSize = sizeForFFT(frameLength, 512); // by default, 512 points. m_melCoeff = initMelFilters(nbFilters, lowerBound, upperBound, sampleRate, fftSize); m_frameLength = frameLength; m_nbFilters = nbFilters; m_melBankFeatures.reserve(m_nbFilters); m_MFCCs.reserve(m_nbFilters); m_melBankFeatureArray = NULL; m_mfccArray = NULL; } MFCC::~MFCC() { finalize(); } // Initialize and finalze void MFCC::finalize() { if(m_hammingCoeff) { delete [] m_hammingCoeff; m_hammingCoeff = NULL; } if(m_dctCoeff) { delete [] m_dctCoeff; m_dctCoeff = NULL; } if(m_melCoeff) { delete [] m_melCoeff; m_melCoeff = NULL; } if(m_melBankFeatureArray) { delete [] m_melBankFeatureArray; m_melBankFeatureArray = NULL; } if(m_mfccArray) { delete []m_mfccArray; m_mfccArray = NULL; } } // Initialize the Hamming Window with the frame length. float* MFCC::initHammingCoeff(int frameLength) { float* hammingCoeff = new float [ frameLength ]; for(int i=0; i newFFTSize ) { newFFTSize *= 2; } else { break; } } return newFFTSize; } float* MFCC::expandSignal(float* signal, int frameLength, int newSizeForFFT) { float* expandedSignal = new float[ newSizeForFFT ]; memset(expandedSignal, 0.0, newSizeForFFT * sizeof(float) ); for(int i=0; i> signalb_ext(fftSize); for(int i=0; i> out(fftSize); ffts_execute(fft_forward, signalb_ext.data(), out.data()); for(int i=0; i &mfccs, int cepLifter) { for(size_t i=0; i &values) { size_t length = values.size(); float average = 0.0; for(size_t i=0; i MFCC::getMFCCs(int idxStart, int idxEnd, bool isNormalize, int cepLifter) { std::vector::const_iterator first = m_MFCCs.begin() + idxStart; std::vector::const_iterator last = m_MFCCs.begin() + idxEnd + 1; std::vector mfccs(first, last); // Do the lifting on the desired feature. if(cepLifter>0) // cepLifter = 0 means no lifting { liftMFCCs(mfccs, cepLifter); } // Normalize the results. if(isNormalize) { normalize(mfccs); } return mfccs; } float* MFCC::getMFCCArray(int idxStart, int idxEnd, bool isNormalize, int cepLifter) { // Do the lifting on the desired feature. if(cepLifter>0) // cepLifter = 0 means no lifting { liftMFCCs(m_mfccArray + idxStart, idxEnd - idxStart + 1, cepLifter); } // Normalize the results. if(isNormalize) { normalize(m_mfccArray + idxStart, idxEnd - idxStart + 1); } return m_mfccArray; } std::vector MFCC::getMelBankFeatures(int idxStart, int idxEnd, bool isNormalize) { std::vector::const_iterator first = m_melBankFeatures.begin() + idxStart; std::vector::const_iterator last = m_melBankFeatures.begin() + idxEnd + 1; std::vector melBankFeatures(first, last); // Normalize the results. if(isNormalize) { normalize(melBankFeatures); } return melBankFeatures; } float* MFCC::getMelBankFeatureArray(int idxStart, int idxEnd, bool isNormalize) { // Normalize the results. if(isNormalize) { normalize(m_melBankFeatureArray + idxStart, idxEnd - idxStart + 1); } return m_melBankFeatureArray + idxStart; } float* MFCC::loadWaveData(const char* wavFileName, int msFrame, int msStep, int &nbFrames, int &frameLength, int &frameStep, int &sampleRate) { AudioFile audioFile; audioFile.load(wavFileName); sampleRate = audioFile.getSampleRate(); std::vector> buffer = audioFile.samples; std::vector wavData = buffer[0]; // only use the first channel return padScaleOriginalWaveData(wavData, sampleRate, msFrame, msStep, nbFrames, frameLength, frameStep); } float* MFCC::padScaleOriginalWaveData(const std::vector &wavData, int sampleRate, int msFrame, int msStep, int &nbFrames, int &frameLength, int &frameStep) { int length = wavData.size(); frameLength = 0.001 * msFrame * sampleRate; frameStep = 0.001 * msStep * sampleRate; nbFrames = (int)ceil(1.0*(length-frameLength)/frameStep); int paddedLength = frameLength*nbFrames; float* signal = new float[paddedLength]; memset(signal, 0.0, paddedLength*sizeof(float)); for(int i=0; i