#pragma once #include #include constexpr int threads_per_bloc = 16; constexpr int T = threads_per_bloc; // // CPU // std::vector matmul1( const std::vector& A, const std::vector& B, int N, int M, int P); // // GPU // std::vector matmul2( const std::vector& A, const std::vector& B, int N, int M, int P); // // GPU by bloc // std::vector matmul3( const std::vector& A, const std::vector& B, int N, int M, int P);