/dports/math/libxsmm/libxsmm-1.16.3/src/template/ |
H A D | libxsmm_dnn_pooling_st_fwd_custom_f32_bf16_c64_avx512.tpl.c | 16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro 183 …_mm512_stream_act( output_ptr, _mm512_mul_ps( _mm512_loadu_ps( lcl_output_ptr ), recp_pool_s… 184 …_mm512_stream_act( output_ptr+16, _mm512_mul_ps( _mm512_loadu_ps( lcl_output_ptr+16 ), recp_pool_s… 185 …_mm512_stream_act( output_ptr+32, _mm512_mul_ps( _mm512_loadu_ps( lcl_output_ptr+32 ), recp_pool_s… 186 …_mm512_stream_act( output_ptr+48, _mm512_mul_ps( _mm512_loadu_ps( lcl_output_ptr+48 ), recp_pool_s… 189 _mm512_stream_act( output_ptr, _mm512_loadu_ps( lcl_output_ptr ) ); 190 _mm512_stream_act( output_ptr+16, _mm512_loadu_ps( lcl_output_ptr+16 ) ); 191 _mm512_stream_act( output_ptr+32, _mm512_loadu_ps( lcl_output_ptr+32 ) ); 192 _mm512_stream_act( output_ptr+48, _mm512_loadu_ps( lcl_output_ptr+48 ) ); [all …]
|
H A D | libxsmm_dnn_pooling_st_fwd_custom_f32_bf16_c32_avx512.tpl.c | 16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro 163 …_mm512_stream_act( output_ptr, _mm512_mul_ps( _mm512_loadu_ps( lcl_output_ptr ), recp_pool_s… 164 …_mm512_stream_act( output_ptr+16, _mm512_mul_ps( _mm512_loadu_ps( lcl_output_ptr+16 ), recp_pool_s… 167 _mm512_stream_act( output_ptr, _mm512_loadu_ps( lcl_output_ptr ) ); 168 _mm512_stream_act( output_ptr+16, _mm512_loadu_ps( lcl_output_ptr+16 ) ); 179 # undef _mm512_stream_act
|
H A D | libxsmm_dnn_fusedbatchnorm_st_bwd_custom_f32_bf16_c64_avx512.tpl.c | 16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro 165 _mm512_stream_act( del_input_add_ptr, lcl_vdeloutput ); 183 _mm512_stream_act( del_input_add_ptr+16, lcl_vdeloutput2 ); 201 _mm512_stream_act( del_input_add_ptr+32, lcl_vdeloutput3 ); 220 _mm512_stream_act( del_input_add_ptr+48, lcl_vdeloutput4 ); 368 _mm512_stream_act( del_input_ptr, lcl_vdelinput ); 369 _mm512_stream_act( del_input_ptr+16, lcl_vdelinput2 ); 370 _mm512_stream_act( del_input_ptr+32, lcl_vdelinput3 ); 371 _mm512_stream_act( del_input_ptr+48, lcl_vdelinput4 ); [all …]
|
H A D | libxsmm_dnn_fusedgroupnorm_st_bwd_custom_f32_bf16_c64_avx512.tpl.c | 16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro 164 _mm512_stream_act( del_input_add_ptr, lcl_vdeloutput ); 182 _mm512_stream_act( del_input_add_ptr+16, lcl_vdeloutput2 ); 200 _mm512_stream_act( del_input_add_ptr+32, lcl_vdeloutput3 ); 219 _mm512_stream_act( del_input_add_ptr+48, lcl_vdeloutput4 ); 343 _mm512_stream_act( del_input_ptr, lcl_vdelinput ); 344 _mm512_stream_act( del_input_ptr+16, lcl_vdelinput2 ); 345 _mm512_stream_act( del_input_ptr+32, lcl_vdelinput3 ); 346 _mm512_stream_act( del_input_ptr+48, lcl_vdelinput4 ); [all …]
|
H A D | libxsmm_dnn_pooling_st_fwd_custom_f32_bf16_c16_avx512.tpl.c | 16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro 155 _mm512_stream_act( output_ptr, _mm512_loadu_ps( lcl_output_ptr ) ); 158 …_mm512_stream_act( output_ptr, _mm512_mul_ps( _mm512_loadu_ps( lcl_output_ptr ), recp_pool_size_ps… 169 # undef _mm512_stream_act
|
H A D | libxsmm_dnn_pooling_st_bwd_custom_f32_bf16_c32_avx512.tpl.c | 16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro 150 _mm512_stream_act( dinput_ptr, _mm512_loadu_ps( lcl_dinput_ptr ) ); 151 _mm512_stream_act( dinput_ptr+16, _mm512_loadu_ps( lcl_dinput_ptr+16 ) ); 159 # undef _mm512_stream_act
|
H A D | libxsmm_dnn_pooling_st_bwd_custom_f32_bf16_c16_avx512.tpl.c | 16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro 143 _mm512_stream_act( dinput_ptr, _mm512_loadu_ps( lcl_dinput_ptr ) ); 151 # undef _mm512_stream_act
|
H A D | libxsmm_dnn_fusedgroupnorm_st_bwd_custom_f32_bf16_c32_avx512.tpl.c | 16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro 154 _mm512_stream_act( del_input_add_ptr, lcl_vdeloutput ); 173 _mm512_stream_act( del_input_add_ptr+16, lcl_vdeloutput2 ); 265 _mm512_stream_act( del_input_ptr, lcl_vdelinput ); 266 _mm512_stream_act( del_input_ptr+16, lcl_vdelinput2 ); 278 # undef _mm512_stream_act
|
H A D | libxsmm_dnn_pooling_st_bwd_custom_f32_bf16_c64_avx512.tpl.c | 16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro 160 _mm512_stream_act( dinput_ptr, _mm512_loadu_ps( lcl_dinput_ptr ) ); 168 # undef _mm512_stream_act
|
H A D | libxsmm_dnn_fusedgroupnorm_st_fwd_custom_f32_bf16_c64_avx512.tpl.c | 16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro 313 _mm512_stream_act( output_ptr, lcl_vo ); 314 _mm512_stream_act( output_ptr+16, lcl_vo2 ); 315 _mm512_stream_act( output_ptr+32, lcl_vo3 ); 316 _mm512_stream_act( output_ptr+48, lcl_vo4 ); 330 # undef _mm512_stream_act
|
H A D | libxsmm_dnn_fusedbatchnorm_st_fwd_custom_f32_bf16_c64_avx512.tpl.c | 16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro 328 _mm512_stream_act( output_ptr, lcl_vo ); 329 _mm512_stream_act( output_ptr+16, lcl_vo2 ); 330 _mm512_stream_act( output_ptr+32, lcl_vo3 ); 331 _mm512_stream_act( output_ptr+48, lcl_vo4 ); 346 # undef _mm512_stream_act
|
H A D | libxsmm_dnn_fusedbatchnorm_st_bwd_custom_f32_bf16_c32_avx512.tpl.c | 16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro 155 _mm512_stream_act( del_input_add_ptr, lcl_vdeloutput ); 174 _mm512_stream_act( del_input_add_ptr+16, lcl_vdeloutput2 ); 296 _mm512_stream_act( del_input_ptr, lcl_vdelinput ); 297 _mm512_stream_act( del_input_ptr+16, lcl_vdelinput2 ); 310 # undef _mm512_stream_act
|
H A D | libxsmm_dnn_fusedgroupnorm_st_bwd_custom_f32_bf16_c16_avx512.tpl.c | 16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro 142 _mm512_stream_act( del_input_add_ptr, lcl_vdeloutput ); 208 _mm512_stream_act( del_input_ptr, lcl_vdelinput ); 220 # undef _mm512_stream_act
|
H A D | libxsmm_dnn_fusedgroupnorm_st_fwd_custom_f32_bf16_c32_avx512.tpl.c | 16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro 258 _mm512_stream_act( output_ptr, lcl_vo ); 259 _mm512_stream_act( output_ptr+16, lcl_vo2 ); 273 # undef _mm512_stream_act
|
H A D | libxsmm_dnn_fusedbatchnorm_st_bwd_custom_f32_bf16_c16_avx512.tpl.c | 16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro 146 _mm512_stream_act( del_input_add_ptr, lcl_vdeloutput ); 236 _mm512_stream_act( del_input_ptr, lcl_vdelinput ); 249 # undef _mm512_stream_act
|
H A D | libxsmm_dnn_fusedbatchnorm_st_fwd_custom_f32_bf16_c32_avx512.tpl.c | 16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro 276 _mm512_stream_act( output_ptr, lcl_vo ); 277 _mm512_stream_act( output_ptr+16, lcl_vo2 ); 292 # undef _mm512_stream_act
|
H A D | libxsmm_dnn_fusedgroupnorm_st_fwd_custom_f32_bf16_c16_avx512.tpl.c | 16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro 215 _mm512_stream_act( output_ptr, lcl_vo ); 230 # undef _mm512_stream_act
|
H A D | libxsmm_dnn_fusedbatchnorm_st_fwd_custom_f32_bf16_c16_avx512.tpl.c | 16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro 24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro 231 _mm512_stream_act( output_ptr, lcl_vo ); 246 # undef _mm512_stream_act
|
/dports/math/libxsmm/libxsmm-1.16.3/samples/deeplearning/gxm/src/ |
H A D | SplitLoop.cpp | 25 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)A,_mm512_cvtepi32_epi16(_mm512_srai_e… macro 28 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)A,_mm512_cvtepi32_epi16(_mm512_srai_e… macro 159 _mm512_stream_act( &(((libxsmm_bfloat16*)delinp)[j]), vo ); in backPropagate() 172 _mm512_stream_act( &(((libxsmm_bfloat16*)delinp)[j]), vo ); in backPropagate() 187 _mm512_stream_act( &(((libxsmm_bfloat16*)delinp)[j]), vo ); in backPropagate()
|