1 // RUN: %clang_cc1 -fexperimental-new-pass-manager -ffreestanding %s -O0 -triple=x86_64-apple-darwin -target-cpu skylake-avx512 -emit-llvm -o - -Wall -Werror | FileCheck %s
2 
3 #include <immintrin.h>
4 
test_mm512_reduce_max_epi64(__m512i __W)5 long long test_mm512_reduce_max_epi64(__m512i __W){
6 // CHECK-LABEL: @test_mm512_reduce_max_epi64(
7 // CHECK:    call i64 @llvm.vector.reduce.smax.v8i64(<8 x i64> %{{.*}})
8   return _mm512_reduce_max_epi64(__W);
9 }
10 
test_mm512_reduce_max_epu64(__m512i __W)11 unsigned long long test_mm512_reduce_max_epu64(__m512i __W){
12 // CHECK-LABEL: @test_mm512_reduce_max_epu64(
13 // CHECK:    call i64 @llvm.vector.reduce.umax.v8i64(<8 x i64> %{{.*}})
14   return _mm512_reduce_max_epu64(__W);
15 }
16 
test_mm512_reduce_max_pd(__m512d __W)17 double test_mm512_reduce_max_pd(__m512d __W){
18   // CHECK-LABEL: @test_mm512_reduce_max_pd(
19   // CHECK:    shufflevector <8 x double> %{{.*}}, <8 x double> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
20   // CHECK:    shufflevector <8 x double> %{{.*}}, <8 x double> poison, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
21   // CHECK:    call <4 x double> @llvm.x86.avx.max.pd.256(<4 x double> %{{.*}}, <4 x double> %{{.*}})
22   // CHECK:    shufflevector <4 x double> %{{.*}}, <4 x double> poison, <2 x i32> <i32 0, i32 1>
23   // CHECK:    shufflevector <4 x double> %{{.*}}, <4 x double> poison, <2 x i32> <i32 2, i32 3>
24   // CHECK:    call <2 x double> @llvm.x86.sse2.max.pd(<2 x double> %{{.*}}, <2 x double> %{{.*}})
25   // CHECK:    shufflevector <2 x double> %{{.*}}, <2 x double> %{{.*}}, <2 x i32> <i32 1, i32 0>
26   // CHECK:    call <2 x double> @llvm.x86.sse2.max.pd(<2 x double> %{{.*}}, <2 x double> %{{.*}})
27   // CHECK:    extractelement <2 x double> %{{.*}}, i32 0
28   return _mm512_reduce_max_pd(__W);
29 }
30 
test_mm512_reduce_min_epi64(__m512i __W)31 long long test_mm512_reduce_min_epi64(__m512i __W){
32 // CHECK-LABEL: @test_mm512_reduce_min_epi64(
33 // CHECK:    call i64 @llvm.vector.reduce.smin.v8i64(<8 x i64> %{{.*}})
34   return _mm512_reduce_min_epi64(__W);
35 }
36 
test_mm512_reduce_min_epu64(__m512i __W)37 unsigned long long test_mm512_reduce_min_epu64(__m512i __W){
38 // CHECK-LABEL: @test_mm512_reduce_min_epu64(
39 // CHECK:    call i64 @llvm.vector.reduce.umin.v8i64(<8 x i64> %{{.*}})
40   return _mm512_reduce_min_epu64(__W);
41 }
42 
test_mm512_reduce_min_pd(__m512d __W)43 double test_mm512_reduce_min_pd(__m512d __W){
44   // CHECK-LABEL: @test_mm512_reduce_min_pd(
45   // CHECK:    shufflevector <8 x double> %{{.*}}, <8 x double> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
46   // CHECK:    shufflevector <8 x double> %{{.*}}, <8 x double> poison, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
47   // CHECK:    call <4 x double> @llvm.x86.avx.min.pd.256(<4 x double> %{{.*}}, <4 x double> %{{.*}})
48   // CHECK:    shufflevector <4 x double> %{{.*}}, <4 x double> poison, <2 x i32> <i32 0, i32 1>
49   // CHECK:    shufflevector <4 x double> %{{.*}}, <4 x double> poison, <2 x i32> <i32 2, i32 3>
50   // CHECK:    call <2 x double> @llvm.x86.sse2.min.pd(<2 x double> %{{.*}}, <2 x double> %{{.*}})
51   // CHECK:    shufflevector <2 x double> %{{.*}}, <2 x double> %{{.*}}, <2 x i32> <i32 1, i32 0>
52   // CHECK:    call <2 x double> @llvm.x86.sse2.min.pd(<2 x double> %{{.*}}, <2 x double> %{{.*}})
53   // CHECK:    extractelement <2 x double> %{{.*}}, i32 0
54   return _mm512_reduce_min_pd(__W);
55 }
56 
test_mm512_mask_reduce_max_epi64(__mmask8 __M,__m512i __W)57 long long test_mm512_mask_reduce_max_epi64(__mmask8 __M, __m512i __W){
58 // CHECK-LABEL: @test_mm512_mask_reduce_max_epi64(
59 // CHECK:    bitcast i8 %{{.*}} to <8 x i1>
60 // CHECK:    select <8 x i1> %{{.*}}, <8 x i64> %{{.*}}, <8 x i64> %{{.*}}
61 // CHECK:    call i64 @llvm.vector.reduce.smax.v8i64(<8 x i64> %{{.*}})
62   return _mm512_mask_reduce_max_epi64(__M, __W);
63 }
64 
test_mm512_mask_reduce_max_epu64(__mmask8 __M,__m512i __W)65 unsigned long test_mm512_mask_reduce_max_epu64(__mmask8 __M, __m512i __W){
66 // CHECK-LABEL: @test_mm512_mask_reduce_max_epu64(
67 // CHECK:    bitcast i8 %{{.*}} to <8 x i1>
68 // CHECK:    select <8 x i1> %{{.*}}, <8 x i64> %{{.*}}, <8 x i64> %{{.*}}
69 // CHECK:    call i64 @llvm.vector.reduce.umax.v8i64(<8 x i64> %{{.*}})
70   return _mm512_mask_reduce_max_epu64(__M, __W);
71 }
72 
test_mm512_mask_reduce_max_pd(__mmask8 __M,__m512d __W)73 double test_mm512_mask_reduce_max_pd(__mmask8 __M, __m512d __W){
74   // CHECK-LABEL: @test_mm512_mask_reduce_max_pd(
75   // CHECK:    bitcast i8 %{{.*}} to <8 x i1>
76   // CHECK:    select <8 x i1> %{{.*}}, <8 x double> %{{.*}}, <8 x double> %{{.*}}
77   // CHECK:    shufflevector <8 x double> %{{.*}}, <8 x double> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
78   // CHECK:    shufflevector <8 x double> %{{.*}}, <8 x double> poison, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
79   // CHECK:    call <4 x double> @llvm.x86.avx.max.pd.256(<4 x double> %{{.*}}, <4 x double> %{{.*}})
80   // CHECK:    shufflevector <4 x double> %{{.*}}, <4 x double> poison, <2 x i32> <i32 0, i32 1>
81   // CHECK:    shufflevector <4 x double> %{{.*}}, <4 x double> poison, <2 x i32> <i32 2, i32 3>
82   // CHECK:    call <2 x double> @llvm.x86.sse2.max.pd(<2 x double> %{{.*}}, <2 x double> %{{.*}})
83   // CHECK:    shufflevector <2 x double> %{{.*}}, <2 x double>  %{{.*}}, <2 x i32> <i32 1, i32 0>
84   // CHECK:    call <2 x double> @llvm.x86.sse2.max.pd(<2 x double> %{{.*}}, <2 x double> %{{.*}})
85   // CHECK:    extractelement <2 x double> %{{.*}}, i32 0
86   return _mm512_mask_reduce_max_pd(__M, __W);
87 }
88 
test_mm512_mask_reduce_min_epi64(__mmask8 __M,__m512i __W)89 long long test_mm512_mask_reduce_min_epi64(__mmask8 __M, __m512i __W){
90 // CHECK-LABEL: @test_mm512_mask_reduce_min_epi64(
91 // CHECK:    bitcast i8 %{{.*}} to <8 x i1>
92 // CHECK:    select <8 x i1> %{{.*}}, <8 x i64> %{{.*}}, <8 x i64> %{{.*}}
93 // CHECK:    call i64 @llvm.vector.reduce.smin.v8i64(<8 x i64> %{{.*}})
94   return _mm512_mask_reduce_min_epi64(__M, __W);
95 }
96 
test_mm512_mask_reduce_min_epu64(__mmask8 __M,__m512i __W)97 unsigned long long test_mm512_mask_reduce_min_epu64(__mmask8 __M, __m512i __W){
98 // CHECK-LABEL: @test_mm512_mask_reduce_min_epu64(
99 // CHECK:    bitcast i8 %{{.*}} to <8 x i1>
100 // CHECK:    select <8 x i1> %{{.*}}, <8 x i64> %{{.*}}, <8 x i64> %{{.*}}
101 // CHECK:    call i64 @llvm.vector.reduce.umin.v8i64(<8 x i64> %{{.*}})
102   return _mm512_mask_reduce_min_epu64(__M, __W);
103 }
104 
test_mm512_mask_reduce_min_pd(__mmask8 __M,__m512d __W)105 double test_mm512_mask_reduce_min_pd(__mmask8 __M, __m512d __W){
106   // CHECK-LABEL: @test_mm512_mask_reduce_min_pd(
107   // CHECK:    bitcast i8 %{{.*}} to <8 x i1>
108   // CHECK:    select <8 x i1> %{{.*}}, <8 x double> %{{.*}}, <8 x double> %{{.*}}
109   // CHECK:    shufflevector <8 x double> %{{.*}}, <8 x double> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
110   // CHECK:    shufflevector <8 x double> %{{.*}}, <8 x double> poison, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
111   // CHECK:    call <4 x double> @llvm.x86.avx.min.pd.256(<4 x double> %{{.*}}, <4 x double> %{{.*}})
112   // CHECK:    shufflevector <4 x double> %{{.*}}, <4 x double> poison, <2 x i32> <i32 0, i32 1>
113   // CHECK:    shufflevector <4 x double> %{{.*}}, <4 x double> poison, <2 x i32> <i32 2, i32 3>
114   // CHECK:    call <2 x double> @llvm.x86.sse2.min.pd(<2 x double> %{{.*}}, <2 x double> %{{.*}})
115   // CHECK:    shufflevector <2 x double> %{{.*}}, <2 x double>  %{{.*}}, <2 x i32> <i32 1, i32 0>
116   // CHECK:    call <2 x double> @llvm.x86.sse2.min.pd(<2 x double> %{{.*}}, <2 x double> %{{.*}})
117   // CHECK:    extractelement <2 x double> %{{.*}}, i32 0
118   return _mm512_mask_reduce_min_pd(__M, __W);
119 }
120 
test_mm512_reduce_max_epi32(__m512i __W)121 int test_mm512_reduce_max_epi32(__m512i __W){
122 // CHECK-LABEL: @test_mm512_reduce_max_epi32(
123 // CHECK:    call i32 @llvm.vector.reduce.smax.v16i32(<16 x i32> %{{.*}})
124   return _mm512_reduce_max_epi32(__W);
125 }
126 
test_mm512_reduce_max_epu32(__m512i __W)127 unsigned int test_mm512_reduce_max_epu32(__m512i __W){
128 // CHECK-LABEL: @test_mm512_reduce_max_epu32(
129 // CHECK:    call i32 @llvm.vector.reduce.umax.v16i32(<16 x i32> %{{.*}})
130   return _mm512_reduce_max_epu32(__W);
131 }
132 
test_mm512_reduce_max_ps(__m512 __W)133 float test_mm512_reduce_max_ps(__m512 __W){
134   // CHECK-LABEL: define{{.*}} float @test_mm512_reduce_max_ps(
135   // CHECK:    shufflevector <8 x double> %{{.*}}, <8 x double> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
136   // CHECK:    shufflevector <8 x double> %{{.*}}, <8 x double> poison, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
137   // CHECK:    call <8 x float> @llvm.x86.avx.max.ps.256(<8 x float> %{{.*}}, <8 x float> %{{.*}})
138   // CHECK:    shufflevector <8 x float> %{{.*}}, <8 x float> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
139   // CHECK:    shufflevector <8 x float> %{{.*}}, <8 x float> poison, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
140   // CHECK:    call <4 x float> @llvm.x86.sse.max.ps(<4 x float> %{{.*}}, <4 x float> %{{.*}})
141   // CHECK:    shufflevector <4 x float> %{{.*}}, <4 x float> %{{.*}}, <4 x i32> <i32 2, i32 3, i32 0, i32 1>
142   // CHECK:    call <4 x float> @llvm.x86.sse.max.ps(<4 x float> %{{.*}}, <4 x float> %{{.*}})
143   // CHECK:    shufflevector <4 x float> %{{.*}}, <4 x float> %{{.*}}, <4 x i32> <i32 1, i32 0, i32 3, i32 2>
144   // CHECK:    call <4 x float> @llvm.x86.sse.max.ps(<4 x float> %{{.*}}, <4 x float> %{{.*}})
145   // CHECK:    extractelement <4 x float> %{{.*}}, i32 0
146   return _mm512_reduce_max_ps(__W);
147 }
148 
test_mm512_reduce_min_epi32(__m512i __W)149 int test_mm512_reduce_min_epi32(__m512i __W){
150 // CHECK-LABEL: @test_mm512_reduce_min_epi32(
151 // CHECK:    call i32 @llvm.vector.reduce.smin.v16i32(<16 x i32> %{{.*}})
152   return _mm512_reduce_min_epi32(__W);
153 }
154 
test_mm512_reduce_min_epu32(__m512i __W)155 unsigned int test_mm512_reduce_min_epu32(__m512i __W){
156 // CHECK-LABEL: @test_mm512_reduce_min_epu32(
157 // CHECK:    call i32 @llvm.vector.reduce.umin.v16i32(<16 x i32> %{{.*}})
158   return _mm512_reduce_min_epu32(__W);
159 }
160 
test_mm512_reduce_min_ps(__m512 __W)161 float test_mm512_reduce_min_ps(__m512 __W){
162   // CHECK-LABEL: define{{.*}} float @test_mm512_reduce_min_ps(
163   // CHECK:    shufflevector <8 x double> %{{.*}}, <8 x double> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
164   // CHECK:    shufflevector <8 x double> %{{.*}}, <8 x double> poison, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
165   // CHECK:    call <8 x float> @llvm.x86.avx.min.ps.256(<8 x float> %{{.*}}, <8 x float> %{{.*}})
166   // CHECK:    shufflevector <8 x float> %{{.*}}, <8 x float> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
167   // CHECK:    shufflevector <8 x float> %{{.*}}, <8 x float> poison, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
168   // CHECK:    call <4 x float> @llvm.x86.sse.min.ps(<4 x float> %{{.*}}, <4 x float> %{{.*}})
169   // CHECK:    shufflevector <4 x float> %{{.*}}, <4 x float> %{{.*}}, <4 x i32> <i32 2, i32 3, i32 0, i32 1>
170   // CHECK:    call <4 x float> @llvm.x86.sse.min.ps(<4 x float> %{{.*}}, <4 x float> %{{.*}})
171   // CHECK:    shufflevector <4 x float> %{{.*}}, <4 x float> %{{.*}}, <4 x i32> <i32 1, i32 0, i32 3, i32 2>
172   // CHECK:    call <4 x float> @llvm.x86.sse.min.ps(<4 x float> %{{.*}}, <4 x float> %{{.*}})
173   // CHECK:    extractelement <4 x float> %{{.*}}, i32 0
174   return _mm512_reduce_min_ps(__W);
175 }
176 
test_mm512_mask_reduce_max_epi32(__mmask16 __M,__m512i __W)177 int test_mm512_mask_reduce_max_epi32(__mmask16 __M, __m512i __W){
178 // CHECK-LABEL: @test_mm512_mask_reduce_max_epi32(
179 // CHECK:    bitcast i16 %{{.*}} to <16 x i1>
180 // CHECK:    select <16 x i1> %{{.*}}, <16 x i32> %{{.*}}, <16 x i32> %{{.*}}
181 // CHECK:    call i32 @llvm.vector.reduce.smax.v16i32(<16 x i32> %{{.*}})
182   return _mm512_mask_reduce_max_epi32(__M, __W);
183 }
184 
test_mm512_mask_reduce_max_epu32(__mmask16 __M,__m512i __W)185 unsigned int test_mm512_mask_reduce_max_epu32(__mmask16 __M, __m512i __W){
186 // CHECK-LABEL: @test_mm512_mask_reduce_max_epu32(
187 // CHECK:    bitcast i16 %{{.*}} to <16 x i1>
188 // CHECK:    select <16 x i1> %{{.*}}, <16 x i32> %{{.*}}, <16 x i32> %{{.*}}
189 // CHECK:    call i32 @llvm.vector.reduce.umax.v16i32(<16 x i32> %{{.*}})
190   return _mm512_mask_reduce_max_epu32(__M, __W);
191 }
192 
test_mm512_mask_reduce_max_ps(__mmask16 __M,__m512 __W)193 float test_mm512_mask_reduce_max_ps(__mmask16 __M, __m512 __W){
194   // CHECK-LABEL: define{{.*}} float @test_mm512_mask_reduce_max_ps(
195   // CHECK:    bitcast i16 %{{.*}} to <16 x i1>
196   // CHECK:    select <16 x i1> %{{.*}}, <16 x float> %{{.*}}, <16 x float> %{{.*}}
197   // CHECK:    shufflevector <8 x double> %{{.*}}, <8 x double> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
198   // CHECK:    shufflevector <8 x double> %{{.*}}, <8 x double> poison, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
199   // CHECK:    call <8 x float> @llvm.x86.avx.max.ps.256(<8 x float> %{{.*}}, <8 x float> %{{.*}})
200   // CHECK:    shufflevector <8 x float> %{{.*}}, <8 x float> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
201   // CHECK:    shufflevector <8 x float> %{{.*}}, <8 x float> poison, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
202   // CHECK:    call <4 x float> @llvm.x86.sse.max.ps(<4 x float> %{{.*}}, <4 x float> %{{.*}})
203   // CHECK:    shufflevector <4 x float> %{{.*}}, <4 x float> %{{.*}}, <4 x i32> <i32 2, i32 3, i32 0, i32 1>
204   // CHECK:    call <4 x float> @llvm.x86.sse.max.ps(<4 x float> %{{.*}}, <4 x float> %{{.*}})
205   // CHECK:    shufflevector <4 x float> %{{.*}}, <4 x float> %{{.*}}, <4 x i32> <i32 1, i32 0, i32 3, i32 2>
206   // CHECK:    call <4 x float> @llvm.x86.sse.max.ps(<4 x float> %{{.*}}, <4 x float> %{{.*}})
207   // CHECK:    extractelement <4 x float> %{{.*}}, i32 0
208   return _mm512_mask_reduce_max_ps(__M, __W);
209 }
210 
test_mm512_mask_reduce_min_epi32(__mmask16 __M,__m512i __W)211 int test_mm512_mask_reduce_min_epi32(__mmask16 __M, __m512i __W){
212 // CHECK-LABEL: @test_mm512_mask_reduce_min_epi32(
213 // CHECK:    bitcast i16 %{{.*}} to <16 x i1>
214 // CHECK:    select <16 x i1> %{{.*}}, <16 x i32> %{{.*}}, <16 x i32> %{{.*}}
215 // CHECK:    call i32 @llvm.vector.reduce.smin.v16i32(<16 x i32> %{{.*}})
216   return _mm512_mask_reduce_min_epi32(__M, __W);
217 }
218 
test_mm512_mask_reduce_min_epu32(__mmask16 __M,__m512i __W)219 unsigned int test_mm512_mask_reduce_min_epu32(__mmask16 __M, __m512i __W){
220 // CHECK-LABEL: @test_mm512_mask_reduce_min_epu32(
221 // CHECK:    bitcast i16 %{{.*}} to <16 x i1>
222 // CHECK:    select <16 x i1> %{{.*}}, <16 x i32> %{{.*}}, <16 x i32> %{{.*}}
223 // CHECK:    call i32 @llvm.vector.reduce.umin.v16i32(<16 x i32> %{{.*}})
224   return _mm512_mask_reduce_min_epu32(__M, __W);
225 }
226 
test_mm512_mask_reduce_min_ps(__mmask16 __M,__m512 __W)227 float test_mm512_mask_reduce_min_ps(__mmask16 __M, __m512 __W){
228   // CHECK-LABEL: define{{.*}} float @test_mm512_mask_reduce_min_ps(
229   // CHECK:    bitcast i16 %{{.*}} to <16 x i1>
230   // CHECK:    select <16 x i1> %{{.*}}, <16 x float> %{{.*}}, <16 x float> %{{.*}}
231   // CHECK:    shufflevector <8 x double> %{{.*}}, <8 x double> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
232   // CHECK:    shufflevector <8 x double> %{{.*}}, <8 x double> poison, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
233   // CHECK:    call <8 x float> @llvm.x86.avx.min.ps.256(<8 x float> %{{.*}}, <8 x float> %{{.*}})
234   // CHECK:    shufflevector <8 x float> %{{.*}}, <8 x float> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
235   // CHECK:    shufflevector <8 x float> %{{.*}}, <8 x float> poison, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
236   // CHECK:    call <4 x float> @llvm.x86.sse.min.ps(<4 x float> %{{.*}}, <4 x float> %{{.*}})
237   // CHECK:    shufflevector <4 x float> %{{.*}}, <4 x float> %{{.*}}, <4 x i32> <i32 2, i32 3, i32 0, i32 1>
238   // CHECK:    call <4 x float> @llvm.x86.sse.min.ps(<4 x float> %{{.*}}, <4 x float> %{{.*}})
239   // CHECK:    shufflevector <4 x float> %{{.*}}, <4 x float> %{{.*}}, <4 x i32> <i32 1, i32 0, i32 3, i32 2>
240   // CHECK:    call <4 x float> @llvm.x86.sse.min.ps(<4 x float> %{{.*}}, <4 x float> %{{.*}})
241   // CHECK:    extractelement <4 x float> %{{.*}}, i32 0
242   return _mm512_mask_reduce_min_ps(__M, __W);
243 }
244 
245