#include "gf16mul.h" #include "test.h" const int MAX_TEST_REGIONS = 20; const int MAX_TEST_OUTPUTS = 17; // earlier GCC doesn't like `const int` used for alignment statements, so use a define instead #define REGION_ALIGNMENT 4096 const unsigned REGION_SIZE = MAX_TEST_REGIONS * 1024; // largest stride = 1024 bytes from Xor512 const int MAX_PACK_REGIONS = 8; // should be <= MAX_TEST_REGIONS (because we re-use the memory allocated for it) const int MAX_MISALIGN = 3; // maximum misaligned bytes to test finish_packed static void show_help() { std::cout << "test [-c] [-p] [-m] [-a] [-w] [-v]" << std::endl; exit(0); } int main(int argc, char** argv) { bool verbose = false; const bool fastMul = true; int seeds[] = {0x01020304 /*, 0x50607080*/ }; // 1 round seems to be enough for testing purposes const std::vector methods = Galois16Mul::availableMethods(true); std::vector gf; std::vector gfScratch; for(auto method : methods) { gf.emplace_back(method); } gfScratch.reserve(methods.size()); for(const auto& g : gf) { gfScratch.push_back(g.mutScratch_alloc()); } bool testAllFuncs = true; bool testCksum = false, testPrep = false, testMul = false, testAdd = false, testPow = false, testWord = false; for(int i=1; i outputSizeTests{1, 2, 15, 16, 17}; // must be less than MAX_TEST_OUTPUTS // allocate src/tmp regions uint16_t* src; uint16_t* tmp, * tmp2; ALIGN_ALLOC(src, REGION_SIZE*MAX_TEST_REGIONS, REGION_ALIGNMENT); ALIGN_ALLOC(tmp, REGION_SIZE*MAX_TEST_REGIONS, REGION_ALIGNMENT); ALIGN_ALLOC(tmp2, REGION_SIZE*MAX_TEST_REGIONS, REGION_ALIGNMENT); uint16_t* dst; uint16_t* ref; const unsigned allocOutputs = MAX_TEST_OUTPUTS > MAX_PACK_REGIONS ? MAX_TEST_OUTPUTS : MAX_PACK_REGIONS; ALIGN_ALLOC(dst, (REGION_SIZE+MAX_MISALIGN*2)*allocOutputs, REGION_ALIGNMENT); ALIGN_ALLOC(ref, REGION_SIZE*allocOutputs, REGION_ALIGNMENT); if(!src || !tmp || !dst || !ref) { std::cout << "Failed to allocate memory" << std::endl; return 2; } uint16_t* srcM[MAX_TEST_REGIONS]; uint16_t* tmpM[MAX_TEST_REGIONS]; for(size_t i=0; i regionSizes{g.info().stride, g.info().stride-1, REGION_SIZE, REGION_SIZE-1, REGION_SIZE+1}; for(unsigned regionSize : regionSizes) { if(verbose) std::cout << " " << g.info().name << ": regionSize=" << regionSize << std::endl; memset(tmp, seed&0xff, REGION_SIZE*2); memset(dst, seed&0xff, REGION_SIZE*2); g.copy_cksum(tmp, src, regionSize, regionSize); unsigned totalSize = regionSize + g.info().cksumSize; if(memcmp(dst, (char*)tmp+totalSize, REGION_SIZE*2 - totalSize)) { std::cout << "Cksum copy checksum wrote too much data: " << g.info().name << " (regionSize=" << regionSize << ")" << std::endl; return 1; } if(!g.copy_cksum_check(dst, tmp, regionSize)) { std::cout << "Cksum copy checksum failure: " << g.info().name << " (regionSize=" << regionSize << ")" << std::endl; std::cout << "Checksum:" << std::endl; print_mem_region((uint16_t*)((uintptr_t)tmp + regionSize), 0, g.info().cksumSize/2); if(regionSize <= g.info().stride*2) { std::cout << "Data:" << std::endl; print_mem_region(src, 0, (regionSize+1)/2); } return 1; } if(memcmp(dst, src, regionSize)) { std::cout << "Cksum copy data failure: " << g.info().name << " (regionSize=" << regionSize << ")" << std::endl; display_mem_diff(src, dst, regionSize/2); return 1; } // check that it detects failure tmp[0] ^= 0x1111; if(g.copy_cksum_check(dst, tmp, regionSize)) { std::cout << "Cksum copy failed to detect checksum error: " << g.info().name << " (regionSize=" << regionSize << ")" << std::endl; std::cout << "Checksum:" << std::endl; print_mem_region((uint16_t*)((uintptr_t)tmp + regionSize), 0, g.info().cksumSize/2); return 1; } // test with add const std::vector lastRegionSizes{1, 2, REGION_SIZE/2-1, REGION_SIZE/2, REGION_SIZE/2+1, regionSize-1, regionSize}; for(auto lastRegionSize : lastRegionSizes) { if(lastRegionSize > regionSize) continue; g.copy_cksum(tmp2, srcM[0], regionSize, regionSize); g.copy_cksum(tmp, srcM[1], lastRegionSize, regionSize); unsigned addSize = regionSize + g.info().stride; while(addSize % g.info().stride) addSize++; g.mul_add(tmp2, tmp, addSize, 1, gfScratch[gi]); if(!g.copy_cksum_check(dst, tmp2, regionSize)) { std::cout << "Cksum copy checksum (with add) failure: " << g.info().name << " (regionSize=" << regionSize << ", lastRegionSize=" << lastRegionSize << ")" << std::endl; return 1; } // the zeroed section of the second region should be the same if(memcmp((char*)dst + lastRegionSize, (char*)src + lastRegionSize, regionSize - lastRegionSize)) { std::cout << "Cksum copy data (with add) failure: " << g.info().name << " (regionSize=" << regionSize << ", lastRegionSize=" << lastRegionSize << ")" << std::endl; display_mem_diff(src + lastRegionSize/2, dst + lastRegionSize/2, (regionSize-lastRegionSize+1)/2); return 1; } } } } } // test prepare/finish if(testPrep) { std::cout << "Testing prepare/finish..." << std::endl; for(const auto& g : gf) { if(!g.needPrepare()) continue; //const unsigned regionSize = rounddown_to(REGION_SIZE, g.info().stride); const unsigned regionSize = MAX_TEST_REGIONS * g.info().stride; if(verbose) std::cout << " " << g.info().name << std::endl; memset(dst, seed&0xff, REGION_SIZE); // scramble, to ensure we're actually doing something g.prepare(dst, src, regionSize); g.finish(dst, regionSize); if(memcmp(dst, src, regionSize)) { std::cout << "Prepare/finish failure: " << g.info().name << std::endl; display_mem_diff(src, dst, regionSize/2); return 1; } // test prepare not aligned to stride for(int offset = -(int)g.info().stride+1; offset < 0; offset++) { memset(dst, seed&0xff, REGION_SIZE); // fill with non-zero to test zero-fill g.prepare(dst, src, regionSize + offset); g.finish(dst, regionSize); if(memcmp(dst, src, regionSize + offset)) { std::cout << "Prepare/finish misaligned (" << offset << ") failure: " << g.info().name << std::endl; display_mem_diff(src, dst, regionSize/2); return 1; } if(memcmp((uint8_t*)dst + regionSize + offset, zeroes, -offset)) { std::cout << "Prepare/finish misaligned zero-fill (" << offset << ") failure: " << g.info().name << std::endl; print_mem_region(dst, (regionSize-g.info().stride)>>1, regionSize>>1); return 1; } } // test in-situ prepare memcpy(dst, src, regionSize); g.prepare(dst, dst, regionSize); g.finish(dst, regionSize); if(memcmp(dst, src, regionSize)) { std::cout << "Prepare/finish in-situ failure: " << g.info().name << std::endl; display_mem_diff(src, dst, regionSize/2); return 1; } } // test prepare packed + accumulate std::cout << "Testing prepare packed..." << std::endl; for(unsigned gi = 0; gi < gf.size(); gi++) { const auto& g = gf[gi]; const unsigned stride = g.info().stride; //const unsigned regionSize = rounddown_to(REGION_SIZE, stride); const unsigned regionSize = MAX_TEST_REGIONS * g.info().stride; const std::vector srcLenOffsets{0, 1, 2, 3, stride, stride+1, regionSize/2, regionSize/2+1, regionSize/2+stride, regionSize-stride, regionSize-1}; for(const auto& srcLenOffset : srcLenOffsets) { size_t srcLen = regionSize - srcLenOffset; for(const auto& srcLenLastOffset : srcLenOffsets) { size_t srcLenLast = regionSize - srcLenLastOffset; if(srcLenLast > srcLen) continue; const std::vector chunkLenOffsets{-(int)stride, 0, (int)stride, (int)stride*2, (int)rounddown_to(regionSize/2, (int)stride), (int)rounddown_to(regionSize/2, (int)stride)+(int)stride, (int)roundup_to(regionSize/3, (int)stride), (int)(regionSize-stride)}; for(const auto& chunkLenOffset : chunkLenOffsets) { size_t chunkLen = regionSize - chunkLenOffset; for(unsigned inputPackSize = 1; inputPackSize <= MAX_PACK_REGIONS; inputPackSize++) { if(inputPackSize == 1 && srcLenLast != srcLen) continue; // pointless test if(verbose) std::cout << " " << g.info().name << ": srcLen=" << srcLen << ", srcLenLast=" << srcLenLast << ", chunkLen=" << chunkLen << ", inputPackSize=" << inputPackSize << std::endl; // generate reference memset(ref, 0, REGION_SIZE); for(unsigned inputNum = 0; inputNum < inputPackSize; inputNum++) { size_t len = (inputNum == inputPackSize-1) ? srcLenLast : srcLen; for(size_t i=0; i= 0) { memset(tmp, seed&0xff, REGION_SIZE*MAX_PACK_REGIONS); // scramble, to ensure we're actually doing something memset(dst, 0, REGION_SIZE); // pack input for(unsigned inputNum = 0; inputNum < inputPackSize; inputNum++) { size_t len = (inputNum == inputPackSize-1) ? srcLenLast : srcLen; g.prepare_packed(tmp, srcM[inputNum], len, regionSize, inputPackSize, inputNum, chunkLen); } // compute output for(size_t sliceOffset=0; sliceOffset < regionSize; sliceOffset += chunkLen) { size_t len = chunkLen; if(regionSize - sliceOffset < len) len = roundup_to(regionSize - sliceOffset, stride); g.add_multi_packed(inputPackSize, inputPackSize, (uint8_t*)dst + sliceOffset, (uint8_t*)tmp + sliceOffset*inputPackSize, len); } g.finish(dst, regionSize); // test result if(memcmp(dst, ref, regionSize)) { std::cout << "Prepare packed failure: " << g.info().name << ": srcLen=" << srcLen << ", srcLenLast=" << srcLenLast << ", chunkLen=" << chunkLen << ", inputPackSize=" << inputPackSize << std::endl; display_mem_diff(ref, dst, regionSize/2); return 1; } } // test again using checksumming variant const size_t regionSizeWithCksum = regionSize+stride; memset(tmp, seed&0xff, regionSizeWithCksum*MAX_PACK_REGIONS); memset(dst, (seed>>8)&0xff, REGION_SIZE); for(unsigned inputNum = 0; inputNum < inputPackSize; inputNum++) { size_t len = (inputNum == inputPackSize-1) ? srcLenLast : srcLen; g.prepare_packed_cksum(tmp, srcM[inputNum], len, regionSize, inputPackSize, inputNum, chunkLen); } // check that the partial prepare matches against full prepare const std::vector lastPartLens{0, (int)stride, (int)stride*2, -(int)stride}; for(const int lastPartLen : lastPartLens) if(srcLenLast >= (unsigned)abs(lastPartLen)) { memset(tmp2, seed&0xff, regionSizeWithCksum*MAX_PACK_REGIONS); for(unsigned inputNum = 0; inputNum < inputPackSize; inputNum++) { size_t len = (inputNum == inputPackSize-1) ? srcLenLast : srcLen; size_t first, last; if(lastPartLen < 0) { first = -lastPartLen; } else { first = len-lastPartLen; if(first % stride && lastPartLen) // align to stride if this is the first part first += stride - (first % stride); } if(first > len) first = len; last = len-first; g.prepare_partial_packsum(tmp2, srcM[inputNum], len, regionSize, inputPackSize, inputNum, chunkLen, 0, first); if(last) g.prepare_partial_packsum(tmp2, (char*)(srcM[inputNum]) + first, len, regionSize, inputPackSize, inputNum, chunkLen, len-last, last); } if(memcmp(tmp2, tmp, regionSizeWithCksum*MAX_PACK_REGIONS)) { std::cout << "Prepare packed-cksum differs from partial version: " << g.info().name << ": srcLen=" << srcLen << ", srcLenLast=" << srcLenLast << ", chunkLen=" << chunkLen << ", inputPackSize=" << inputPackSize << ", lastPartLen=" << lastPartLen << std::endl; display_mem_diff(tmp, tmp2, (regionSizeWithCksum*MAX_PACK_REGIONS)/2); return 1; } } memset(tmp2, 0, regionSizeWithCksum); for(size_t sliceOffset=0; sliceOffset < regionSizeWithCksum; sliceOffset += chunkLen) { size_t len = chunkLen; if(regionSizeWithCksum - sliceOffset < len) len = roundup_to(regionSizeWithCksum - sliceOffset, stride); g.add_multi_packed(inputPackSize, inputPackSize, (uint8_t*)tmp2 + sliceOffset, (uint8_t*)tmp + sliceOffset*inputPackSize, len); } int checksumResult = g.finish_packed_cksum(dst, tmp2, regionSize, 1, 0, regionSizeWithCksum); if(memcmp(dst, ref, regionSize)) { std::cout << "Prepare packed-cksum failure: " << g.info().name << ": srcLen=" << srcLen << ", srcLenLast=" << srcLenLast << ", chunkLen=" << chunkLen << ", inputPackSize=" << inputPackSize << std::endl; int from = display_mem_diff(ref, dst, regionSize/2); int to = (std::min)(from+16, (int)regionSize/2); std::cout << std::endl << "Accum-dst:" << std::endl; print_mem_region(tmp2, from, to); return 1; } if(!checksumResult) { std::cout << "Prepare/finish packed checksum failure: " << g.info().name << ": srcLen=" << srcLen << ", srcLenLast=" << srcLenLast << ", chunkLen=" << chunkLen << ", inputPackSize=" << inputPackSize << std::endl; return 1; } } } } } } std::cout << "Testing finish packed..." << std::endl; { uint16_t coeffs[MAX_PACK_REGIONS]; // used for finish-cksum for(auto& coeff : coeffs) coeff = rand() & 0xffff; for(unsigned gi = 0; gi < gf.size(); gi++) { const auto& g = gf[gi]; const unsigned stride = g.info().stride; //const unsigned alignedRegionSize = rounddown_to(REGION_SIZE, stride); const unsigned alignedRegionSize = MAX_TEST_REGIONS * g.info().stride; const std::vector srcLenOffsets{0, 2, stride-2}; for(const auto& srcLenOffset : srcLenOffsets) { size_t srcLen = alignedRegionSize - srcLenOffset; const std::vector chunkLenOffsets{-(int)stride, 0, (int)stride, (int)stride*2, (int)rounddown_to(alignedRegionSize/2, (int)stride), (int)rounddown_to(alignedRegionSize/2, (int)stride)+(int)stride, (int)roundup_to(alignedRegionSize/3, (int)stride), (int)(alignedRegionSize-stride)}; for(const auto& chunkLenOffset : chunkLenOffsets) { size_t chunkLen = alignedRegionSize - chunkLenOffset; for(unsigned numOutputs = 1; numOutputs <= MAX_PACK_REGIONS; numOutputs++) { if(verbose) std::cout << " " << g.info().name << ": srcLen=" << srcLen << ", chunkLen=" << chunkLen << ", numOutputs=" << numOutputs << std::endl; if(chunkLenOffset >= 0) { memset(dst, seed&0xff, REGION_SIZE*MAX_PACK_REGIONS); // scramble, to ensure we're actually doing something // pack input // TODO: if there's output interleaving, this won't work :( for(unsigned outputNum = 0; outputNum < numOutputs; outputNum++) { unsigned chunk = 0; for(size_t pos = 0; pos < srcLen; pos += chunkLen) { size_t len = srcLen - pos; if(len > chunkLen) len = chunkLen; g.prepare(tmp + (chunk*numOutputs*chunkLen + outputNum*roundup_to(len, stride))/2, srcM[outputNum] + pos/2, len); ++chunk; } } /* for(unsigned outputNum = 0; outputNum < numOutputs; outputNum++) { g.prepare_packed(tmp, srcM[outputNum], srcLen, alignedRegionSize, numOutputs, outputNum, chunkLen); } // TODO: need to fix the below for(unsigned outputNum = 0; outputNum < numOutputs; outputNum++) { g.mul_add_multi_packed(numOutputs, numOutputs, tmp2, tmp, chunkLen, <0s>, gfScratch[gi]); } */ // unpack output for(unsigned misalign = 0; misalign < MAX_MISALIGN; misalign++) { for(unsigned outputNum = 0; outputNum < numOutputs; outputNum++) { // because dstM is region aligned and aliased, we need to hack around the fact that misalignment overflows the regions uint8_t* outputDst = (uint8_t*)dstM[outputNum] + misalign + misalign * outputNum*2; uint16_t* odPre = (uint16_t*)(outputDst - misalign); uint16_t* odPost = (uint16_t*)(outputDst + srcLen); memcpy(odPre, guard_magic, misalign); memcpy(odPost, guard_magic, misalign); g.finish_packed(outputDst, tmp, srcLen, numOutputs, outputNum, chunkLen); // test result if(memcmp(outputDst, srcM[outputNum], srcLen)) { std::cout << "Packed finish failure: " << g.info().name << ", output " << outputNum << ": srcLen=" << srcLen << ", chunkLen=" << chunkLen << ", numOutputs=" << numOutputs << std::endl; display_mem_diff(srcM[outputNum], (uint16_t*)outputDst, (alignedRegionSize*numOutputs)/2); return 1; } if(memcmp(odPre, guard_magic, misalign)) { std::cout << "Packed finish pre-guard bytes corrupted: " << g.info().name << ", output " << outputNum << ": srcLen=" << srcLen << ", chunkLen=" << chunkLen << ", numOutputs=" << numOutputs << ", misalign=" << misalign << std::endl; print_mem_region(odPre, 0, (misalign+1)/2); return 1; } if(memcmp(odPost, guard_magic, misalign)) { std::cout << "Packed finish post-guard bytes corrupted: " << g.info().name << ", output " << outputNum << ": srcLen=" << srcLen << ", chunkLen=" << chunkLen << ", numOutputs=" << numOutputs << ", misalign=" << misalign << std::endl; print_mem_region(odPost, 0, (misalign+1)/2); return 1; } } } } // test finish with checksum const size_t regionSizeWithCksum = alignedRegionSize+stride; memset(tmp, seed&0xff, regionSizeWithCksum*numOutputs); memset(dst, seed&0xff, REGION_SIZE*numOutputs); g.prepare_packed_cksum(tmp2, src, srcLen, alignedRegionSize, 1, 0, chunkLen); for(unsigned outputNum = 0; outputNum < numOutputs; outputNum++) { for(size_t sliceOffset=0; sliceOffset < regionSizeWithCksum; sliceOffset += chunkLen) { size_t len = chunkLen; if(regionSizeWithCksum - sliceOffset < len) len = roundup_to(regionSizeWithCksum - sliceOffset, stride); //g.mul((uint8_t*)tmp + outputNum*len + sliceOffset*numOutputs, (uint8_t*)tmp2 + sliceOffset, len, coeffs[outputNum], gfScratch[gi]); uint8_t* tmpPtr = (uint8_t*)tmp + outputNum*len + sliceOffset*numOutputs; memset(tmpPtr, 0, len); g.mul_add_multi_packed(1, 1, tmpPtr, (uint8_t*)tmp2 + sliceOffset, len, coeffs + outputNum, gfScratch[gi]); } } for(unsigned misalign = 0; misalign < MAX_MISALIGN; misalign++) { for(unsigned outputNum = 0; outputNum < numOutputs; outputNum++) { uint8_t* outputDst = (uint8_t*)dstM[outputNum] + misalign + misalign * outputNum*2; uint16_t* odPre = (uint16_t*)(outputDst - misalign); uint16_t* odPost = (uint16_t*)(outputDst + srcLen); memcpy(odPre, guard_magic, misalign); memcpy(odPost, guard_magic, misalign); // compute reference for(size_t i=0; i firstLens{srcLen, 0, stride, stride*2}; if(srcLen % stride) { size_t srcLenAligned = srcLen - (srcLen % stride); firstLens.push_back(srcLenAligned); firstLens.push_back(srcLenAligned - stride); } else firstLens.push_back(srcLen - stride); for(size_t firstLen : firstLens) { int checksumResult; if(firstLen == srcLen) checksumResult = g.finish_packed_cksum(outputDst, tmp, srcLen, numOutputs, outputNum, chunkLen); else { memcpy(tmp2, tmp, regionSizeWithCksum*numOutputs); if(firstLen) g.finish_partial_packsum(outputDst, tmp2, srcLen, numOutputs, outputNum, chunkLen, 0, firstLen); checksumResult = g.finish_partial_packsum(outputDst+firstLen, tmp2, srcLen, numOutputs, outputNum, chunkLen, firstLen, srcLen-firstLen); } if(memcmp(outputDst, ref, srcLen)) { std::cout << "Packed finish-cksum failure: " << g.info().name << ", output " << outputNum << ": srcLen=" << srcLen << ", chunkLen=" << chunkLen << ", numOutputs=" << numOutputs << ", firstLen=" << firstLen << std::endl; display_mem_diff(ref, (uint16_t*)outputDst, srcLen/2); return 1; } if(memcmp(odPre, guard_magic, misalign)) { std::cout << "Packed finish pre-guard bytes corrupted: " << g.info().name << ", output " << outputNum << ": srcLen=" << srcLen << ", chunkLen=" << chunkLen << ", numOutputs=" << numOutputs << ", misalign=" << misalign << ", firstLen=" << firstLen << std::endl; print_mem_region(odPre, 0, (misalign+1)/2); return 1; } if(memcmp(odPost, guard_magic, misalign)) { std::cout << "Packed finish post-guard bytes corrupted: " << g.info().name << ", output " << outputNum << ": srcLen=" << srcLen << ", chunkLen=" << chunkLen << ", numOutputs=" << numOutputs << ", misalign=" << misalign << ", firstLen=" << firstLen << std::endl; print_mem_region(odPost, 0, (misalign+1)/2); return 1; } if(!checksumResult) { std::cout << "Prepare/finish packed checksum failure: " << g.info().name << ", output " << outputNum << ": srcLen=" << srcLen << ", chunkLen=" << chunkLen << ", numOutputs=" << numOutputs << ", misalign=" << misalign << ", firstLen=" << firstLen << std::endl; return 1; } } } } } } } } } std::cout << "Testing finish grp2..." << std::endl; for(unsigned gi = 0; gi < gf.size(); gi++) { const auto& g = gf[gi]; const std::vector regionSizes{2, g.info().stride, g.info().stride-2, g.info().stride+2, REGION_SIZE, REGION_SIZE-2}; for(unsigned regionSize : regionSizes) { if(verbose) std::cout << " " << g.info().name << ": regionSize=" << regionSize << std::endl; unsigned totalSize = regionSize + g.info().cksumSize; g.copy_cksum(tmpM[0], srcM[0], regionSize, regionSize); g.copy_cksum(tmpM[2], srcM[1], regionSize, regionSize); // interleave to tmp2 memset(tmp2, seed&0xff, REGION_SIZE*2); for(unsigned i=0; i 1) coeff = rand() & 0xffff; // compute mul reference for(size_t i=0; i= MAX_TEST_REGIONS) break; // packed muladd_multi g.prepare(dst, src2, regionSize); for(unsigned region = 0; region < maxRegions; region++) g.prepare_packed(tmp, srcM[region], regionSize, regionSize, maxRegions+blankRegions, region, regionSize); g.mul_add_multi_packed(maxRegions+blankRegions, maxRegions, dst, tmp, regionSize, coeffs, gfScratch[gi]); g.finish(dst, regionSize); if(memcmp(dst, ref, regionSize)) { std::cout << "Mul_add_multi_packed (" << maxRegions << "+" << blankRegions << ") failure: " << g.info().name << std::endl; display_mem_diff(ref, dst, regionSize/2); return 1; } // packed muladd_multi with prefetch // can't really test prefetch functionality, so just test it like above g.prepare(dst, src2, regionSize); for(unsigned region = 0; region < maxRegions; region++) g.prepare_packed(tmp, srcM[region], regionSize, regionSize, maxRegions+blankRegions, region, regionSize); g.mul_add_multi_packpf(maxRegions+blankRegions, maxRegions, dst, tmp, regionSize, coeffs, gfScratch[gi], tmp, tmp2 /*prefetch - any memory will do*/); g.finish(dst, regionSize); if(memcmp(dst, ref, regionSize)) { std::cout << "Mul_add_multi_packpf (" << maxRegions << "+" << blankRegions << ") failure: " << g.info().name << std::endl; display_mem_diff(ref, dst, regionSize/2); return 1; } } } } } } // test multi_add if(testAdd) { std::cout << "Testing multi add..." << std::endl; for(unsigned maxRegions=1; maxRegions= MAX_TEST_REGIONS) break; g.prepare(dst, src2, regionSize); for(unsigned region = 0; region < maxRegions; region++) g.prepare_packed(tmp, srcM[region], regionSize, regionSize, maxRegions+blankRegions, region, regionSize); g.add_multi_packed(maxRegions+blankRegions, maxRegions, dst, tmp, regionSize); g.finish(dst, regionSize); if(memcmp(dst, ref, regionSize)) { std::cout << "Add_multi_packed (" << maxRegions << "+" << blankRegions << ") failure: " << g.info().name << std::endl; display_mem_diff(ref, dst, regionSize/2); return 1; } // packed add_multi with prefetch // can't really test prefetch functionality, so just test it like above g.prepare(dst, src2, regionSize); for(unsigned region = 0; region < maxRegions; region++) g.prepare_packed(tmp, srcM[region], regionSize, regionSize, maxRegions+blankRegions, region, regionSize); g.add_multi_packpf(maxRegions+blankRegions, maxRegions, dst, tmp, regionSize, tmp, tmp2 /*prefetch - any memory will do*/); g.finish(dst, regionSize); if(memcmp(dst, ref, regionSize)) { std::cout << "Add_multi_packpf (" << maxRegions << "+" << blankRegions << ") failure: " << g.info().name << std::endl; display_mem_diff(ref, dst, regionSize/2); return 1; } } } } } if(testPow) { std::cout << "Testing pow..." << std::endl; for(int outputs : outputSizeTests) { for(int test=0; test<(fastMul ? 256 : 65536); test++) { int coeff = test; if(fastMul && test > 1) coeff = rand() & 0xffff; // compute pow reference for(int output=0, curCoeff=coeff; output < outputs; output++, curCoeff = gf16_mul(curCoeff, coeff)) { for(size_t i=0; i 1) coeff = rand() & 0xffff; // compute pow reference for(int output=0, curCoeff=coeff; output < outputs; output++, curCoeff = gf16_mul(curCoeff, coeff)) { for(size_t i=0; i>8) | ((w&0xff) <<8); w = g.replace_word(dst, i, w); w = (w>>8) | ((w&0xff) <<8); tmp[i] = w; #else tmp[i] = g.replace_word(dst, i, src2[i]); #endif } if(g.needPrepare()) g.finish(dst, regionSize); if(memcmp(tmp, src, regionSize)) { std::cout << "Replace_word read failure: " << g.info().name << std::endl; display_mem_diff(src, tmp, regionSize/2); return 1; } if(memcmp(dst, src2, regionSize)) { std::cout << "Replace_word write failure: " << g.info().name << std::endl; display_mem_diff(src2, dst, regionSize/2); return 1; } } } } } for(unsigned gi = 0; gi < gf.size(); gi++) { if(gfScratch[gi]) gf[gi].mutScratch_free(gfScratch[gi]); } ALIGN_FREE(src); ALIGN_FREE(tmp); ALIGN_FREE(tmp2); ALIGN_FREE(dst); ALIGN_FREE(ref); std::cout << "All tests passed" << std::endl; return 0; }