/** * @brief C++ wrappers for SIMD-accelerated Elementwise Arithmetic. * @file include/numkong/each.hpp * @author Ash Vardanian * @date February 5, 2026 */ #ifndef NK_EACH_HPP #define NK_EACH_HPP #include #include #include "numkong/each.h" #include "numkong/types.hpp" namespace ashvardanian::numkong { /** * @brief Elementwise sum: cᵢ = aᵢ + bᵢ * @param[in] a,b Input vectors * @param[in] d Number of dimensions in input vectors * @param[out] c Output vector * * @tparam in_type_ Element type * @tparam allow_simd_ Enable SIMD kernel dispatch when `prefer_simd_k` */ template void sum(in_type_ const *a, in_type_ const *b, std::size_t d, in_type_ *c) noexcept { constexpr bool simd = allow_simd_ == prefer_simd_k; if constexpr (std::is_same_v && simd) nk_each_sum_f64(&a->raw_, &b->raw_, d, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_sum_f32(&a->raw_, &b->raw_, d, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_sum_f16(&a->raw_, &b->raw_, d, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_sum_bf16(&a->raw_, &b->raw_, d, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_sum_i8(&a->raw_, &b->raw_, d, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_sum_u8(&a->raw_, &b->raw_, d, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_sum_i16(&a->raw_, &b->raw_, d, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_sum_u16(&a->raw_, &b->raw_, d, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_sum_i32(&a->raw_, &b->raw_, d, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_sum_u32(&a->raw_, &b->raw_, d, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_sum_i64(&a->raw_, &b->raw_, d, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_sum_u64(&a->raw_, &b->raw_, d, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_sum_f32c(&a->raw_, &b->raw_, d, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_sum_f64c(&a->raw_, &b->raw_, d, &c->raw_); // Scalar fallback else { for (std::size_t i = 0; i < d; i++) c[i] = saturating_add(a[i], b[i]); } } /** * @brief Elementwise scale: cᵢ = α × aᵢ + β * @param[in] a Input vector * @param[in] d Number of dimensions in input vector * @param[in] alpha,beta Scale and shift coefficients * @param[out] c Output vector * * @tparam in_type_ Element type * @tparam precision_type_ Precision type for scalar fallback computations, defaults to `in_type_` * @tparam allow_simd_ Enable SIMD kernel dispatch when `prefer_simd_k` */ template void scale(in_type_ const *a, std::size_t d, typename in_type_::scale_t const *alpha, typename in_type_::scale_t const *beta, in_type_ *c) noexcept { constexpr bool simd = allow_simd_ == prefer_simd_k && std::is_same_v; if constexpr (std::is_same_v && simd) nk_each_scale_f64(&a->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_scale_f32(&a->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_scale_f16(&a->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_scale_bf16(&a->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_scale_i8(&a->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_scale_u8(&a->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_scale_i16(&a->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_scale_u16(&a->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_scale_i32(&a->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_scale_u32(&a->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_scale_i64(&a->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_scale_u64(&a->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_scale_f32c(&a->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_scale_f64c(&a->raw_, d, alpha, beta, &c->raw_); // Scalar fallback with high-precision intermediates else { for (std::size_t i = 0; i < d; i++) c[i] = (precision_type_(a[i]) * precision_type_(*alpha) + precision_type_(*beta)).template to(); } } /** * @brief Blend: cᵢ = α × aᵢ + β × bᵢ * @param[in] a,b Input vectors * @param[in] d Number of dimensions in input vectors * @param[in] alpha,beta Weight coefficients * @param[out] c Output vector * * @tparam in_type_ Element type * @tparam precision_type_ Precision type for scalar fallback computations, defaults to `in_type_` * @tparam allow_simd_ Enable SIMD kernel dispatch when `prefer_simd_k` */ template void blend(in_type_ const *a, in_type_ const *b, std::size_t d, typename in_type_::scale_t const *alpha, typename in_type_::scale_t const *beta, in_type_ *c) noexcept { constexpr bool simd = allow_simd_ == prefer_simd_k && std::is_same_v; if constexpr (std::is_same_v && simd) nk_each_blend_f64(&a->raw_, &b->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_blend_f32(&a->raw_, &b->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_blend_f16(&a->raw_, &b->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_blend_bf16(&a->raw_, &b->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_blend_i8(&a->raw_, &b->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_blend_u8(&a->raw_, &b->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_blend_i16(&a->raw_, &b->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_blend_u16(&a->raw_, &b->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_blend_i32(&a->raw_, &b->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_blend_u32(&a->raw_, &b->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_blend_i64(&a->raw_, &b->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_blend_u64(&a->raw_, &b->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_blend_f32c(&a->raw_, &b->raw_, d, alpha, beta, &c->raw_); else if constexpr (std::is_same_v && simd) nk_each_blend_f64c(&a->raw_, &b->raw_, d, alpha, beta, &c->raw_); // Scalar fallback with high-precision intermediates else { for (std::size_t i = 0; i < d; i++) { c[i] = (precision_type_(a[i]) * precision_type_(*alpha) + precision_type_(b[i]) * precision_type_(*beta)) .template to(); } } } /** * @brief Elementwise FMA: outᵢ = α × aᵢ × bᵢ + β × cᵢ * @param[in] a,b,c Input vectors * @param[in] d Number of dimensions in input vectors * @param[in] alpha,beta Coefficients * @param[out] out Output vector * * @tparam in_type_ Element type * @tparam precision_type_ Precision type for scalar fallback computations, defaults to `in_type_` * @tparam allow_simd_ Enable SIMD kernel dispatch when `prefer_simd_k` */ template void fma(in_type_ const *a, in_type_ const *b, std::size_t d, in_type_ const *c, typename in_type_::scale_t const *alpha, typename in_type_::scale_t const *beta, in_type_ *out) noexcept { constexpr bool simd = allow_simd_ == prefer_simd_k && std::is_same_v; if constexpr (std::is_same_v && simd) nk_each_fma_f64(&a->raw_, &b->raw_, &c->raw_, d, alpha, beta, &out->raw_); else if constexpr (std::is_same_v && simd) nk_each_fma_f32(&a->raw_, &b->raw_, &c->raw_, d, alpha, beta, &out->raw_); else if constexpr (std::is_same_v && simd) nk_each_fma_f16(&a->raw_, &b->raw_, &c->raw_, d, alpha, beta, &out->raw_); else if constexpr (std::is_same_v && simd) nk_each_fma_bf16(&a->raw_, &b->raw_, &c->raw_, d, alpha, beta, &out->raw_); else if constexpr (std::is_same_v && simd) nk_each_fma_i8(&a->raw_, &b->raw_, &c->raw_, d, alpha, beta, &out->raw_); else if constexpr (std::is_same_v && simd) nk_each_fma_u8(&a->raw_, &b->raw_, &c->raw_, d, alpha, beta, &out->raw_); else if constexpr (std::is_same_v && simd) nk_each_fma_i16(&a->raw_, &b->raw_, &c->raw_, d, alpha, beta, &out->raw_); else if constexpr (std::is_same_v && simd) nk_each_fma_u16(&a->raw_, &b->raw_, &c->raw_, d, alpha, beta, &out->raw_); else if constexpr (std::is_same_v && simd) nk_each_fma_i32(&a->raw_, &b->raw_, &c->raw_, d, alpha, beta, &out->raw_); else if constexpr (std::is_same_v && simd) nk_each_fma_u32(&a->raw_, &b->raw_, &c->raw_, d, alpha, beta, &out->raw_); else if constexpr (std::is_same_v && simd) nk_each_fma_i64(&a->raw_, &b->raw_, &c->raw_, d, alpha, beta, &out->raw_); else if constexpr (std::is_same_v && simd) nk_each_fma_u64(&a->raw_, &b->raw_, &c->raw_, d, alpha, beta, &out->raw_); else if constexpr (std::is_same_v && simd) nk_each_fma_f32c(&a->raw_, &b->raw_, &c->raw_, d, alpha, beta, &out->raw_); else if constexpr (std::is_same_v && simd) nk_each_fma_f64c(&a->raw_, &b->raw_, &c->raw_, d, alpha, beta, &out->raw_); // Scalar fallback with high-precision intermediates else { for (std::size_t i = 0; i < d; i++) { out[i] = (precision_type_(a[i]) * precision_type_(b[i]) * precision_type_(*alpha) + precision_type_(c[i]) * precision_type_(*beta)) .template to(); } } } } // namespace ashvardanian::numkong #include "numkong/tensor.hpp" namespace ashvardanian::numkong { #pragma region Tensor Elementwise /** @brief Scale: output[i] = α × input[i] + β. */ template bool scale(tensor_view input, typename value_type_::scale_t alpha, typename value_type_::scale_t beta, tensor_span output) noexcept { return elementwise_into_( input, output, [&](tensor_view in, tensor_span out) { numkong::scale(in.data(), in.extent(0), &alpha, &beta, out.data()); }); } /** @brief Allocating scale: result[i] = α × input[i] + β. */ template > tensor try_scale(tensor_view input, typename value_type_::scale_t alpha, typename value_type_::scale_t beta) noexcept { using out_tensor_t = tensor; if (input.empty()) return out_tensor_t {}; auto &input_shape = input.shape(); auto result = out_tensor_t::try_empty(input_shape.extents, input_shape.rank); if (result.empty()) return result; if (!scale(input, alpha, beta, result.span())) return out_tensor_t {}; return result; } /** @brief Blend: output[i] = α × lhs[i] + β × rhs[i]. */ template bool blend(tensor_view lhs, tensor_view rhs, typename value_type_::scale_t alpha, typename value_type_::scale_t beta, tensor_span output) noexcept { return elementwise_into_( lhs, rhs, output, [&](tensor_view l, tensor_view r, tensor_span out) { numkong::blend(l.data(), r.data(), l.extent(0), &alpha, &beta, out.data()); }); } /** @brief Allocating blend: result[i] = α × lhs[i] + β × rhs[i]. */ template > tensor try_blend(tensor_view lhs, tensor_view rhs, typename value_type_::scale_t alpha, typename value_type_::scale_t beta) noexcept { using out_tensor_t = tensor; if (!shapes_match_(lhs, rhs) || lhs.empty()) return out_tensor_t {}; auto &input_shape = lhs.shape(); auto result = out_tensor_t::try_empty(input_shape.extents, input_shape.rank); if (result.empty()) return result; if (!blend(lhs, rhs, alpha, beta, result.span())) return out_tensor_t {}; return result; } /** @brief FMA: output[i] = α × lhs[i] × rhs[i] + β × addend[i]. */ template bool fma(tensor_view lhs, tensor_view rhs, tensor_view addend, typename value_type_::scale_t alpha, typename value_type_::scale_t beta, tensor_span output) noexcept { return elementwise_into_( lhs, rhs, addend, output, [&](tensor_view a, tensor_view b, tensor_view c, tensor_span out) { numkong::fma(a.data(), b.data(), a.extent(0), c.data(), &alpha, &beta, out.data()); }); } /** @brief Allocating FMA: result[i] = α × lhs[i] × rhs[i] + β × addend[i]. */ template > tensor try_fma(tensor_view lhs, tensor_view rhs, tensor_view addend, typename value_type_::scale_t alpha, typename value_type_::scale_t beta) noexcept { using out_tensor_t = tensor; if (!shapes_match_(lhs, rhs) || !shapes_match_(lhs, addend) || lhs.empty()) return out_tensor_t {}; auto &input_shape = lhs.shape(); auto result = out_tensor_t::try_empty(input_shape.extents, input_shape.rank); if (result.empty()) return result; if (!fma(lhs, rhs, addend, alpha, beta, result.span())) return out_tensor_t {}; return result; } /** @brief Elementwise addition: output[i] = lhs[i] + rhs[i]. */ template bool add(tensor_view lhs, tensor_view rhs, tensor_span output) noexcept { return elementwise_into_( lhs, rhs, output, [](tensor_view l, tensor_view r, tensor_span out) { numkong::sum(l.data(), r.data(), l.extent(0), out.data()); }); } /** @brief Allocating elementwise add: result = lhs + rhs. */ template > tensor try_add(tensor_view lhs, tensor_view rhs) noexcept { using out_tensor_t = tensor; if (!shapes_match_(lhs, rhs) || lhs.empty()) return out_tensor_t {}; auto &input_shape = lhs.shape(); auto result = out_tensor_t::try_empty(input_shape.extents, input_shape.rank); if (result.empty()) return result; if (!add(lhs, rhs, result.span())) return out_tensor_t {}; return result; } /** @brief Elementwise add scalar: output[i] = input[i] + scalar. */ template bool add(tensor_view input, typename value_type_::scale_t scalar, tensor_span output) noexcept { typename value_type_::scale_t one {1}; return scale(input, one, scalar, output); } /** @brief Allocating add scalar. */ template > tensor try_add(tensor_view input, typename value_type_::scale_t scalar) noexcept { using out_tensor_t = tensor; if (input.empty()) return out_tensor_t {}; auto &input_shape = input.shape(); auto result = out_tensor_t::try_empty(input_shape.extents, input_shape.rank); if (result.empty()) return result; if (!add(input, scalar, result.span())) return out_tensor_t {}; return result; } /** @brief Elementwise subtraction: output[i] = lhs[i] − rhs[i]. */ template bool sub(tensor_view lhs, tensor_view rhs, tensor_span output) noexcept { typename value_type_::scale_t alpha {1}, beta {-1}; return blend(lhs, rhs, alpha, beta, output); } /** @brief Allocating elementwise sub. */ template > tensor try_sub(tensor_view lhs, tensor_view rhs) noexcept { using out_tensor_t = tensor; if (!shapes_match_(lhs, rhs) || lhs.empty()) return out_tensor_t {}; auto &input_shape = lhs.shape(); auto result = out_tensor_t::try_empty(input_shape.extents, input_shape.rank); if (result.empty()) return result; if (!sub(lhs, rhs, result.span())) return out_tensor_t {}; return result; } /** @brief Elementwise sub scalar: output[i] = input[i] − scalar. */ template bool sub(tensor_view input, typename value_type_::scale_t scalar, tensor_span output) noexcept { typename value_type_::scale_t one {1}; typename value_type_::scale_t neg_scalar = -scalar; return scale(input, one, neg_scalar, output); } /** @brief Allocating sub scalar. */ template > tensor try_sub(tensor_view input, typename value_type_::scale_t scalar) noexcept { using out_tensor_t = tensor; if (input.empty()) return out_tensor_t {}; auto &input_shape = input.shape(); auto result = out_tensor_t::try_empty(input_shape.extents, input_shape.rank); if (result.empty()) return result; if (!sub(input, scalar, result.span())) return out_tensor_t {}; return result; } /** @brief Elementwise multiplication: output[i] = lhs[i] × rhs[i]. */ template bool mul(tensor_view lhs, tensor_view rhs, tensor_span output) noexcept { return elementwise_into_( lhs, rhs, output, [](tensor_view l, tensor_view r, tensor_span out) { typename value_type_::scale_t alpha {1}, beta {0}; numkong::fma(l.data(), r.data(), l.extent(0), out.data(), &alpha, &beta, out.data()); }); } /** @brief Allocating elementwise multiply. */ template > tensor try_mul(tensor_view lhs, tensor_view rhs) noexcept { using out_tensor_t = tensor; if (!shapes_match_(lhs, rhs) || lhs.empty()) return out_tensor_t {}; auto &input_shape = lhs.shape(); auto result = out_tensor_t::try_zeros(input_shape.extents, input_shape.rank); if (result.empty()) return result; if (!mul(lhs, rhs, result.span())) return out_tensor_t {}; return result; } /** @brief Elementwise multiply by scalar: output[i] = input[i] × scalar. */ template bool mul(tensor_view input, typename value_type_::scale_t scalar, tensor_span output) noexcept { typename value_type_::scale_t zero {0}; return scale(input, scalar, zero, output); } /** @brief Allocating multiply by scalar. */ template > tensor try_mul(tensor_view input, typename value_type_::scale_t scalar) noexcept { using out_tensor_t = tensor; if (input.empty()) return out_tensor_t {}; auto &input_shape = input.shape(); auto result = out_tensor_t::try_empty(input_shape.extents, input_shape.rank); if (result.empty()) return result; if (!mul(input, scalar, result.span())) return out_tensor_t {}; return result; } #pragma endregion Tensor Elementwise } // namespace ashvardanian::numkong #endif // NK_EACH_HPP