Home
last modified time | relevance | path

Searched refs:_mm512_stream_act (Results 1 – 19 of 19) sorted by relevance

/dports/math/libxsmm/libxsmm-1.16.3/src/template/
H A Dlibxsmm_dnn_pooling_st_fwd_custom_f32_bf16_c64_avx512.tpl.c16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro
183_mm512_stream_act( output_ptr, _mm512_mul_ps( _mm512_loadu_ps( lcl_output_ptr ), recp_pool_s…
184_mm512_stream_act( output_ptr+16, _mm512_mul_ps( _mm512_loadu_ps( lcl_output_ptr+16 ), recp_pool_s…
185_mm512_stream_act( output_ptr+32, _mm512_mul_ps( _mm512_loadu_ps( lcl_output_ptr+32 ), recp_pool_s…
186_mm512_stream_act( output_ptr+48, _mm512_mul_ps( _mm512_loadu_ps( lcl_output_ptr+48 ), recp_pool_s…
189 _mm512_stream_act( output_ptr, _mm512_loadu_ps( lcl_output_ptr ) );
190 _mm512_stream_act( output_ptr+16, _mm512_loadu_ps( lcl_output_ptr+16 ) );
191 _mm512_stream_act( output_ptr+32, _mm512_loadu_ps( lcl_output_ptr+32 ) );
192 _mm512_stream_act( output_ptr+48, _mm512_loadu_ps( lcl_output_ptr+48 ) );
[all …]
H A Dlibxsmm_dnn_pooling_st_fwd_custom_f32_bf16_c32_avx512.tpl.c16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro
163_mm512_stream_act( output_ptr, _mm512_mul_ps( _mm512_loadu_ps( lcl_output_ptr ), recp_pool_s…
164_mm512_stream_act( output_ptr+16, _mm512_mul_ps( _mm512_loadu_ps( lcl_output_ptr+16 ), recp_pool_s…
167 _mm512_stream_act( output_ptr, _mm512_loadu_ps( lcl_output_ptr ) );
168 _mm512_stream_act( output_ptr+16, _mm512_loadu_ps( lcl_output_ptr+16 ) );
179 # undef _mm512_stream_act
H A Dlibxsmm_dnn_fusedbatchnorm_st_bwd_custom_f32_bf16_c64_avx512.tpl.c16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro
165 _mm512_stream_act( del_input_add_ptr, lcl_vdeloutput );
183 _mm512_stream_act( del_input_add_ptr+16, lcl_vdeloutput2 );
201 _mm512_stream_act( del_input_add_ptr+32, lcl_vdeloutput3 );
220 _mm512_stream_act( del_input_add_ptr+48, lcl_vdeloutput4 );
368 _mm512_stream_act( del_input_ptr, lcl_vdelinput );
369 _mm512_stream_act( del_input_ptr+16, lcl_vdelinput2 );
370 _mm512_stream_act( del_input_ptr+32, lcl_vdelinput3 );
371 _mm512_stream_act( del_input_ptr+48, lcl_vdelinput4 );
[all …]
H A Dlibxsmm_dnn_fusedgroupnorm_st_bwd_custom_f32_bf16_c64_avx512.tpl.c16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro
164 _mm512_stream_act( del_input_add_ptr, lcl_vdeloutput );
182 _mm512_stream_act( del_input_add_ptr+16, lcl_vdeloutput2 );
200 _mm512_stream_act( del_input_add_ptr+32, lcl_vdeloutput3 );
219 _mm512_stream_act( del_input_add_ptr+48, lcl_vdeloutput4 );
343 _mm512_stream_act( del_input_ptr, lcl_vdelinput );
344 _mm512_stream_act( del_input_ptr+16, lcl_vdelinput2 );
345 _mm512_stream_act( del_input_ptr+32, lcl_vdelinput3 );
346 _mm512_stream_act( del_input_ptr+48, lcl_vdelinput4 );
[all …]
H A Dlibxsmm_dnn_pooling_st_fwd_custom_f32_bf16_c16_avx512.tpl.c16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro
155 _mm512_stream_act( output_ptr, _mm512_loadu_ps( lcl_output_ptr ) );
158_mm512_stream_act( output_ptr, _mm512_mul_ps( _mm512_loadu_ps( lcl_output_ptr ), recp_pool_size_ps…
169 # undef _mm512_stream_act
H A Dlibxsmm_dnn_pooling_st_bwd_custom_f32_bf16_c32_avx512.tpl.c16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro
150 _mm512_stream_act( dinput_ptr, _mm512_loadu_ps( lcl_dinput_ptr ) );
151 _mm512_stream_act( dinput_ptr+16, _mm512_loadu_ps( lcl_dinput_ptr+16 ) );
159 # undef _mm512_stream_act
H A Dlibxsmm_dnn_pooling_st_bwd_custom_f32_bf16_c16_avx512.tpl.c16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro
143 _mm512_stream_act( dinput_ptr, _mm512_loadu_ps( lcl_dinput_ptr ) );
151 # undef _mm512_stream_act
H A Dlibxsmm_dnn_fusedgroupnorm_st_bwd_custom_f32_bf16_c32_avx512.tpl.c16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro
154 _mm512_stream_act( del_input_add_ptr, lcl_vdeloutput );
173 _mm512_stream_act( del_input_add_ptr+16, lcl_vdeloutput2 );
265 _mm512_stream_act( del_input_ptr, lcl_vdelinput );
266 _mm512_stream_act( del_input_ptr+16, lcl_vdelinput2 );
278 # undef _mm512_stream_act
H A Dlibxsmm_dnn_pooling_st_bwd_custom_f32_bf16_c64_avx512.tpl.c16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro
160 _mm512_stream_act( dinput_ptr, _mm512_loadu_ps( lcl_dinput_ptr ) );
168 # undef _mm512_stream_act
H A Dlibxsmm_dnn_fusedgroupnorm_st_fwd_custom_f32_bf16_c64_avx512.tpl.c16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro
313 _mm512_stream_act( output_ptr, lcl_vo );
314 _mm512_stream_act( output_ptr+16, lcl_vo2 );
315 _mm512_stream_act( output_ptr+32, lcl_vo3 );
316 _mm512_stream_act( output_ptr+48, lcl_vo4 );
330 # undef _mm512_stream_act
H A Dlibxsmm_dnn_fusedbatchnorm_st_fwd_custom_f32_bf16_c64_avx512.tpl.c16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro
328 _mm512_stream_act( output_ptr, lcl_vo );
329 _mm512_stream_act( output_ptr+16, lcl_vo2 );
330 _mm512_stream_act( output_ptr+32, lcl_vo3 );
331 _mm512_stream_act( output_ptr+48, lcl_vo4 );
346 # undef _mm512_stream_act
H A Dlibxsmm_dnn_fusedbatchnorm_st_bwd_custom_f32_bf16_c32_avx512.tpl.c16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro
155 _mm512_stream_act( del_input_add_ptr, lcl_vdeloutput );
174 _mm512_stream_act( del_input_add_ptr+16, lcl_vdeloutput2 );
296 _mm512_stream_act( del_input_ptr, lcl_vdelinput );
297 _mm512_stream_act( del_input_ptr+16, lcl_vdelinput2 );
310 # undef _mm512_stream_act
H A Dlibxsmm_dnn_fusedgroupnorm_st_bwd_custom_f32_bf16_c16_avx512.tpl.c16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro
142 _mm512_stream_act( del_input_add_ptr, lcl_vdeloutput );
208 _mm512_stream_act( del_input_ptr, lcl_vdelinput );
220 # undef _mm512_stream_act
H A Dlibxsmm_dnn_fusedgroupnorm_st_fwd_custom_f32_bf16_c32_avx512.tpl.c16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro
258 _mm512_stream_act( output_ptr, lcl_vo );
259 _mm512_stream_act( output_ptr+16, lcl_vo2 );
273 # undef _mm512_stream_act
H A Dlibxsmm_dnn_fusedbatchnorm_st_bwd_custom_f32_bf16_c16_avx512.tpl.c16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro
146 _mm512_stream_act( del_input_add_ptr, lcl_vdeloutput );
236 _mm512_stream_act( del_input_ptr, lcl_vdelinput );
249 # undef _mm512_stream_act
H A Dlibxsmm_dnn_fusedbatchnorm_st_fwd_custom_f32_bf16_c32_avx512.tpl.c16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro
276 _mm512_stream_act( output_ptr, lcl_vo );
277 _mm512_stream_act( output_ptr+16, lcl_vo2 );
292 # undef _mm512_stream_act
H A Dlibxsmm_dnn_fusedgroupnorm_st_fwd_custom_f32_bf16_c16_avx512.tpl.c16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro
215 _mm512_stream_act( output_ptr, lcl_vo );
230 # undef _mm512_stream_act
H A Dlibxsmm_dnn_fusedbatchnorm_st_fwd_custom_f32_bf16_c16_avx512.tpl.c16 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
19 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)(A),_mm512_cvtepi32_epi16(_mm512_srai… macro
24 # define _mm512_stream_act(A,B) LIBXSMM_INTRINSICS_MM512_STREAM_PS(A,B) macro
231 _mm512_stream_act( output_ptr, lcl_vo );
246 # undef _mm512_stream_act
/dports/math/libxsmm/libxsmm-1.16.3/samples/deeplearning/gxm/src/
H A DSplitLoop.cpp25 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)A,_mm512_cvtepi32_epi16(_mm512_srai_e… macro
28 # define _mm512_stream_act(A,B) _mm256_stream_si256((__m256i*)A,_mm512_cvtepi32_epi16(_mm512_srai_e… macro
159 _mm512_stream_act( &(((libxsmm_bfloat16*)delinp)[j]), vo ); in backPropagate()
172 _mm512_stream_act( &(((libxsmm_bfloat16*)delinp)[j]), vo ); in backPropagate()
187 _mm512_stream_act( &(((libxsmm_bfloat16*)delinp)[j]), vo ); in backPropagate()