1 /*
2  *  Copyright (c) 2014 The WebM project authors. All Rights Reserved.
3  *
4  *  Use of this source code is governed by a BSD-style license
5  *  that can be found in the LICENSE file in the root of the source
6  *  tree. An additional intellectual property rights grant can be found
7  *  in the file PATENTS.  All contributing project authors may
8  *  be found in the AUTHORS file in the root of the source tree.
9  */
10 
11 #include <arm_neon.h>
12 
13 #include "./vpx_dsp_rtcd.h"
14 
mbloop_filter_neon(uint8x8_t dblimit,uint8x8_t dlimit,uint8x8_t dthresh,uint8x8_t d3u8,uint8x8_t d4u8,uint8x8_t d5u8,uint8x8_t d6u8,uint8x8_t d7u8,uint8x8_t d16u8,uint8x8_t d17u8,uint8x8_t d18u8,uint8x8_t * d0ru8,uint8x8_t * d1ru8,uint8x8_t * d2ru8,uint8x8_t * d3ru8,uint8x8_t * d4ru8,uint8x8_t * d5ru8)15 static INLINE void mbloop_filter_neon(
16         uint8x8_t dblimit,   // mblimit
17         uint8x8_t dlimit,    // limit
18         uint8x8_t dthresh,   // thresh
19         uint8x8_t d3u8,      // p2
20         uint8x8_t d4u8,      // p2
21         uint8x8_t d5u8,      // p1
22         uint8x8_t d6u8,      // p0
23         uint8x8_t d7u8,      // q0
24         uint8x8_t d16u8,     // q1
25         uint8x8_t d17u8,     // q2
26         uint8x8_t d18u8,     // q3
27         uint8x8_t *d0ru8,    // p1
28         uint8x8_t *d1ru8,    // p1
29         uint8x8_t *d2ru8,    // p0
30         uint8x8_t *d3ru8,    // q0
31         uint8x8_t *d4ru8,    // q1
32         uint8x8_t *d5ru8) {  // q1
33     uint32_t flat;
34     uint8x8_t d0u8, d1u8, d2u8, d19u8, d20u8, d21u8, d22u8, d23u8, d24u8;
35     uint8x8_t d25u8, d26u8, d27u8, d28u8, d29u8, d30u8, d31u8;
36     int16x8_t q15s16;
37     uint16x8_t q10u16, q14u16;
38     int8x8_t d21s8, d24s8, d25s8, d26s8, d28s8, d29s8, d30s8;
39 
40     d19u8 = vabd_u8(d3u8, d4u8);
41     d20u8 = vabd_u8(d4u8, d5u8);
42     d21u8 = vabd_u8(d5u8, d6u8);
43     d22u8 = vabd_u8(d16u8, d7u8);
44     d23u8 = vabd_u8(d17u8, d16u8);
45     d24u8 = vabd_u8(d18u8, d17u8);
46 
47     d19u8 = vmax_u8(d19u8, d20u8);
48     d20u8 = vmax_u8(d21u8, d22u8);
49 
50     d25u8 = vabd_u8(d6u8, d4u8);
51 
52     d23u8 = vmax_u8(d23u8, d24u8);
53 
54     d26u8 = vabd_u8(d7u8, d17u8);
55 
56     d19u8 = vmax_u8(d19u8, d20u8);
57 
58     d24u8 = vabd_u8(d6u8, d7u8);
59     d27u8 = vabd_u8(d3u8, d6u8);
60     d28u8 = vabd_u8(d18u8, d7u8);
61 
62     d19u8 = vmax_u8(d19u8, d23u8);
63 
64     d23u8 = vabd_u8(d5u8, d16u8);
65     d24u8 = vqadd_u8(d24u8, d24u8);
66 
67 
68     d19u8 = vcge_u8(dlimit, d19u8);
69 
70 
71     d25u8 = vmax_u8(d25u8, d26u8);
72     d26u8 = vmax_u8(d27u8, d28u8);
73 
74     d23u8 = vshr_n_u8(d23u8, 1);
75 
76     d25u8 = vmax_u8(d25u8, d26u8);
77 
78     d24u8 = vqadd_u8(d24u8, d23u8);
79 
80     d20u8 = vmax_u8(d20u8, d25u8);
81 
82     d23u8 = vdup_n_u8(1);
83     d24u8 = vcge_u8(dblimit, d24u8);
84 
85     d21u8 = vcgt_u8(d21u8, dthresh);
86 
87     d20u8 = vcge_u8(d23u8, d20u8);
88 
89     d19u8 = vand_u8(d19u8, d24u8);
90 
91     d23u8 = vcgt_u8(d22u8, dthresh);
92 
93     d20u8 = vand_u8(d20u8, d19u8);
94 
95     d22u8 = vdup_n_u8(0x80);
96 
97     d23u8 = vorr_u8(d21u8, d23u8);
98 
99     q10u16 = vcombine_u16(vreinterpret_u16_u8(d20u8),
100                           vreinterpret_u16_u8(d21u8));
101 
102     d30u8 = vshrn_n_u16(q10u16, 4);
103     flat = vget_lane_u32(vreinterpret_u32_u8(d30u8), 0);
104 
105     if (flat == 0xffffffff) {  // Check for all 1's, power_branch_only
106         d27u8 = vdup_n_u8(3);
107         d21u8 = vdup_n_u8(2);
108         q14u16 = vaddl_u8(d6u8, d7u8);
109         q14u16 = vmlal_u8(q14u16, d3u8, d27u8);
110         q14u16 = vmlal_u8(q14u16, d4u8, d21u8);
111         q14u16 = vaddw_u8(q14u16, d5u8);
112         *d0ru8 = vqrshrn_n_u16(q14u16, 3);
113 
114         q14u16 = vsubw_u8(q14u16, d3u8);
115         q14u16 = vsubw_u8(q14u16, d4u8);
116         q14u16 = vaddw_u8(q14u16, d5u8);
117         q14u16 = vaddw_u8(q14u16, d16u8);
118         *d1ru8 = vqrshrn_n_u16(q14u16, 3);
119 
120         q14u16 = vsubw_u8(q14u16, d3u8);
121         q14u16 = vsubw_u8(q14u16, d5u8);
122         q14u16 = vaddw_u8(q14u16, d6u8);
123         q14u16 = vaddw_u8(q14u16, d17u8);
124         *d2ru8 = vqrshrn_n_u16(q14u16, 3);
125 
126         q14u16 = vsubw_u8(q14u16, d3u8);
127         q14u16 = vsubw_u8(q14u16, d6u8);
128         q14u16 = vaddw_u8(q14u16, d7u8);
129         q14u16 = vaddw_u8(q14u16, d18u8);
130         *d3ru8 = vqrshrn_n_u16(q14u16, 3);
131 
132         q14u16 = vsubw_u8(q14u16, d4u8);
133         q14u16 = vsubw_u8(q14u16, d7u8);
134         q14u16 = vaddw_u8(q14u16, d16u8);
135         q14u16 = vaddw_u8(q14u16, d18u8);
136         *d4ru8 = vqrshrn_n_u16(q14u16, 3);
137 
138         q14u16 = vsubw_u8(q14u16, d5u8);
139         q14u16 = vsubw_u8(q14u16, d16u8);
140         q14u16 = vaddw_u8(q14u16, d17u8);
141         q14u16 = vaddw_u8(q14u16, d18u8);
142         *d5ru8 = vqrshrn_n_u16(q14u16, 3);
143     } else {
144         d21u8 = veor_u8(d7u8,  d22u8);
145         d24u8 = veor_u8(d6u8,  d22u8);
146         d25u8 = veor_u8(d5u8,  d22u8);
147         d26u8 = veor_u8(d16u8, d22u8);
148 
149         d27u8 = vdup_n_u8(3);
150 
151         d28s8 = vsub_s8(vreinterpret_s8_u8(d21u8), vreinterpret_s8_u8(d24u8));
152         d29s8 = vqsub_s8(vreinterpret_s8_u8(d25u8), vreinterpret_s8_u8(d26u8));
153 
154         q15s16 = vmull_s8(d28s8, vreinterpret_s8_u8(d27u8));
155 
156         d29s8 = vand_s8(d29s8, vreinterpret_s8_u8(d23u8));
157 
158         q15s16 = vaddw_s8(q15s16, d29s8);
159 
160         d29u8 = vdup_n_u8(4);
161 
162         d28s8 = vqmovn_s16(q15s16);
163 
164         d28s8 = vand_s8(d28s8, vreinterpret_s8_u8(d19u8));
165 
166         d30s8 = vqadd_s8(d28s8, vreinterpret_s8_u8(d27u8));
167         d29s8 = vqadd_s8(d28s8, vreinterpret_s8_u8(d29u8));
168         d30s8 = vshr_n_s8(d30s8, 3);
169         d29s8 = vshr_n_s8(d29s8, 3);
170 
171         d24s8 = vqadd_s8(vreinterpret_s8_u8(d24u8), d30s8);
172         d21s8 = vqsub_s8(vreinterpret_s8_u8(d21u8), d29s8);
173 
174         d29s8 = vrshr_n_s8(d29s8, 1);
175         d29s8 = vbic_s8(d29s8, vreinterpret_s8_u8(d23u8));
176 
177         d25s8 = vqadd_s8(vreinterpret_s8_u8(d25u8), d29s8);
178         d26s8 = vqsub_s8(vreinterpret_s8_u8(d26u8), d29s8);
179 
180         if (flat == 0) {  // filter_branch_only
181             *d0ru8 = d4u8;
182             *d1ru8 = veor_u8(vreinterpret_u8_s8(d25s8), d22u8);
183             *d2ru8 = veor_u8(vreinterpret_u8_s8(d24s8), d22u8);
184             *d3ru8 = veor_u8(vreinterpret_u8_s8(d21s8), d22u8);
185             *d4ru8 = veor_u8(vreinterpret_u8_s8(d26s8), d22u8);
186             *d5ru8 = d17u8;
187             return;
188         }
189 
190         d21u8 = veor_u8(vreinterpret_u8_s8(d21s8), d22u8);
191         d24u8 = veor_u8(vreinterpret_u8_s8(d24s8), d22u8);
192         d25u8 = veor_u8(vreinterpret_u8_s8(d25s8), d22u8);
193         d26u8 = veor_u8(vreinterpret_u8_s8(d26s8), d22u8);
194 
195         d23u8 = vdup_n_u8(2);
196         q14u16 = vaddl_u8(d6u8, d7u8);
197         q14u16 = vmlal_u8(q14u16, d3u8, d27u8);
198         q14u16 = vmlal_u8(q14u16, d4u8, d23u8);
199 
200         d0u8 = vbsl_u8(d20u8, dblimit, d4u8);
201 
202         q14u16 = vaddw_u8(q14u16, d5u8);
203 
204         d1u8 = vbsl_u8(d20u8, dlimit, d25u8);
205 
206         d30u8 = vqrshrn_n_u16(q14u16, 3);
207 
208         q14u16 = vsubw_u8(q14u16, d3u8);
209         q14u16 = vsubw_u8(q14u16, d4u8);
210         q14u16 = vaddw_u8(q14u16, d5u8);
211         q14u16 = vaddw_u8(q14u16, d16u8);
212 
213         d2u8 = vbsl_u8(d20u8, dthresh, d24u8);
214 
215         d31u8 = vqrshrn_n_u16(q14u16, 3);
216 
217         q14u16 = vsubw_u8(q14u16, d3u8);
218         q14u16 = vsubw_u8(q14u16, d5u8);
219         q14u16 = vaddw_u8(q14u16, d6u8);
220         q14u16 = vaddw_u8(q14u16, d17u8);
221 
222         *d0ru8 = vbsl_u8(d20u8, d30u8, d0u8);
223 
224         d23u8 = vqrshrn_n_u16(q14u16, 3);
225 
226         q14u16 = vsubw_u8(q14u16, d3u8);
227         q14u16 = vsubw_u8(q14u16, d6u8);
228         q14u16 = vaddw_u8(q14u16, d7u8);
229 
230         *d1ru8 = vbsl_u8(d20u8, d31u8, d1u8);
231 
232         q14u16 = vaddw_u8(q14u16, d18u8);
233 
234         *d2ru8 = vbsl_u8(d20u8, d23u8, d2u8);
235 
236         d22u8 = vqrshrn_n_u16(q14u16, 3);
237 
238         q14u16 = vsubw_u8(q14u16, d4u8);
239         q14u16 = vsubw_u8(q14u16, d7u8);
240         q14u16 = vaddw_u8(q14u16, d16u8);
241 
242         d3u8 = vbsl_u8(d20u8, d3u8, d21u8);
243 
244         q14u16 = vaddw_u8(q14u16, d18u8);
245 
246         d4u8 = vbsl_u8(d20u8, d4u8, d26u8);
247 
248         d6u8 = vqrshrn_n_u16(q14u16, 3);
249 
250         q14u16 = vsubw_u8(q14u16, d5u8);
251         q14u16 = vsubw_u8(q14u16, d16u8);
252         q14u16 = vaddw_u8(q14u16, d17u8);
253         q14u16 = vaddw_u8(q14u16, d18u8);
254 
255         d5u8 = vbsl_u8(d20u8, d5u8, d17u8);
256 
257         d7u8 = vqrshrn_n_u16(q14u16, 3);
258 
259         *d3ru8 = vbsl_u8(d20u8, d22u8, d3u8);
260         *d4ru8 = vbsl_u8(d20u8, d6u8, d4u8);
261         *d5ru8 = vbsl_u8(d20u8, d7u8, d5u8);
262     }
263     return;
264 }
265 
vpx_lpf_horizontal_8_neon(uint8_t * src,int pitch,const uint8_t * blimit,const uint8_t * limit,const uint8_t * thresh)266 void vpx_lpf_horizontal_8_neon(
267         uint8_t *src,
268         int pitch,
269         const uint8_t *blimit,
270         const uint8_t *limit,
271         const uint8_t *thresh) {
272     int i;
273     uint8_t *s, *psrc;
274     uint8x8_t dblimit, dlimit, dthresh;
275     uint8x8_t d0u8, d1u8, d2u8, d3u8, d4u8, d5u8, d6u8, d7u8;
276     uint8x8_t d16u8, d17u8, d18u8;
277 
278     dblimit = vld1_u8(blimit);
279     dlimit = vld1_u8(limit);
280     dthresh = vld1_u8(thresh);
281 
282     psrc = src - (pitch << 2);
283     for (i = 0; i < 1; i++) {
284         s = psrc + i * 8;
285 
286         d3u8  = vld1_u8(s);
287         s += pitch;
288         d4u8  = vld1_u8(s);
289         s += pitch;
290         d5u8  = vld1_u8(s);
291         s += pitch;
292         d6u8  = vld1_u8(s);
293         s += pitch;
294         d7u8  = vld1_u8(s);
295         s += pitch;
296         d16u8 = vld1_u8(s);
297         s += pitch;
298         d17u8 = vld1_u8(s);
299         s += pitch;
300         d18u8 = vld1_u8(s);
301 
302         mbloop_filter_neon(dblimit, dlimit, dthresh,
303                            d3u8, d4u8, d5u8, d6u8, d7u8, d16u8, d17u8, d18u8,
304                            &d0u8, &d1u8, &d2u8, &d3u8, &d4u8, &d5u8);
305 
306         s -= (pitch * 6);
307         vst1_u8(s, d0u8);
308         s += pitch;
309         vst1_u8(s, d1u8);
310         s += pitch;
311         vst1_u8(s, d2u8);
312         s += pitch;
313         vst1_u8(s, d3u8);
314         s += pitch;
315         vst1_u8(s, d4u8);
316         s += pitch;
317         vst1_u8(s, d5u8);
318     }
319     return;
320 }
321 
vpx_lpf_vertical_8_neon(uint8_t * src,int pitch,const uint8_t * blimit,const uint8_t * limit,const uint8_t * thresh)322 void vpx_lpf_vertical_8_neon(
323         uint8_t *src,
324         int pitch,
325         const uint8_t *blimit,
326         const uint8_t *limit,
327         const uint8_t *thresh) {
328     int i;
329     uint8_t *s;
330     uint8x8_t dblimit, dlimit, dthresh;
331     uint8x8_t d0u8, d1u8, d2u8, d3u8, d4u8, d5u8, d6u8, d7u8;
332     uint8x8_t d16u8, d17u8, d18u8;
333     uint32x2x2_t d2tmp0, d2tmp1, d2tmp2, d2tmp3;
334     uint16x4x2_t d2tmp4, d2tmp5, d2tmp6, d2tmp7;
335     uint8x8x2_t d2tmp8, d2tmp9, d2tmp10, d2tmp11;
336     uint8x8x4_t d4Result;
337     uint8x8x2_t d2Result;
338 
339     dblimit = vld1_u8(blimit);
340     dlimit = vld1_u8(limit);
341     dthresh = vld1_u8(thresh);
342 
343     for (i = 0; i < 1; i++) {
344         s = src + (i * (pitch << 3)) - 4;
345 
346         d3u8 = vld1_u8(s);
347         s += pitch;
348         d4u8 = vld1_u8(s);
349         s += pitch;
350         d5u8 = vld1_u8(s);
351         s += pitch;
352         d6u8 = vld1_u8(s);
353         s += pitch;
354         d7u8 = vld1_u8(s);
355         s += pitch;
356         d16u8 = vld1_u8(s);
357         s += pitch;
358         d17u8 = vld1_u8(s);
359         s += pitch;
360         d18u8 = vld1_u8(s);
361 
362         d2tmp0 = vtrn_u32(vreinterpret_u32_u8(d3u8),
363                           vreinterpret_u32_u8(d7u8));
364         d2tmp1 = vtrn_u32(vreinterpret_u32_u8(d4u8),
365                           vreinterpret_u32_u8(d16u8));
366         d2tmp2 = vtrn_u32(vreinterpret_u32_u8(d5u8),
367                           vreinterpret_u32_u8(d17u8));
368         d2tmp3 = vtrn_u32(vreinterpret_u32_u8(d6u8),
369                           vreinterpret_u32_u8(d18u8));
370 
371         d2tmp4 = vtrn_u16(vreinterpret_u16_u32(d2tmp0.val[0]),
372                           vreinterpret_u16_u32(d2tmp2.val[0]));
373         d2tmp5 = vtrn_u16(vreinterpret_u16_u32(d2tmp1.val[0]),
374                           vreinterpret_u16_u32(d2tmp3.val[0]));
375         d2tmp6 = vtrn_u16(vreinterpret_u16_u32(d2tmp0.val[1]),
376                           vreinterpret_u16_u32(d2tmp2.val[1]));
377         d2tmp7 = vtrn_u16(vreinterpret_u16_u32(d2tmp1.val[1]),
378                           vreinterpret_u16_u32(d2tmp3.val[1]));
379 
380         d2tmp8 = vtrn_u8(vreinterpret_u8_u16(d2tmp4.val[0]),
381                          vreinterpret_u8_u16(d2tmp5.val[0]));
382         d2tmp9 = vtrn_u8(vreinterpret_u8_u16(d2tmp4.val[1]),
383                          vreinterpret_u8_u16(d2tmp5.val[1]));
384         d2tmp10 = vtrn_u8(vreinterpret_u8_u16(d2tmp6.val[0]),
385                           vreinterpret_u8_u16(d2tmp7.val[0]));
386         d2tmp11 = vtrn_u8(vreinterpret_u8_u16(d2tmp6.val[1]),
387                           vreinterpret_u8_u16(d2tmp7.val[1]));
388 
389         d3u8 = d2tmp8.val[0];
390         d4u8 = d2tmp8.val[1];
391         d5u8 = d2tmp9.val[0];
392         d6u8 = d2tmp9.val[1];
393         d7u8 = d2tmp10.val[0];
394         d16u8 = d2tmp10.val[1];
395         d17u8 = d2tmp11.val[0];
396         d18u8 = d2tmp11.val[1];
397 
398         mbloop_filter_neon(dblimit, dlimit, dthresh,
399                            d3u8, d4u8, d5u8, d6u8, d7u8, d16u8, d17u8, d18u8,
400                            &d0u8, &d1u8, &d2u8, &d3u8, &d4u8, &d5u8);
401 
402         d4Result.val[0] = d0u8;
403         d4Result.val[1] = d1u8;
404         d4Result.val[2] = d2u8;
405         d4Result.val[3] = d3u8;
406 
407         d2Result.val[0] = d4u8;
408         d2Result.val[1] = d5u8;
409 
410         s = src - 3;
411         vst4_lane_u8(s, d4Result, 0);
412         s += pitch;
413         vst4_lane_u8(s, d4Result, 1);
414         s += pitch;
415         vst4_lane_u8(s, d4Result, 2);
416         s += pitch;
417         vst4_lane_u8(s, d4Result, 3);
418         s += pitch;
419         vst4_lane_u8(s, d4Result, 4);
420         s += pitch;
421         vst4_lane_u8(s, d4Result, 5);
422         s += pitch;
423         vst4_lane_u8(s, d4Result, 6);
424         s += pitch;
425         vst4_lane_u8(s, d4Result, 7);
426 
427         s = src + 1;
428         vst2_lane_u8(s, d2Result, 0);
429         s += pitch;
430         vst2_lane_u8(s, d2Result, 1);
431         s += pitch;
432         vst2_lane_u8(s, d2Result, 2);
433         s += pitch;
434         vst2_lane_u8(s, d2Result, 3);
435         s += pitch;
436         vst2_lane_u8(s, d2Result, 4);
437         s += pitch;
438         vst2_lane_u8(s, d2Result, 5);
439         s += pitch;
440         vst2_lane_u8(s, d2Result, 6);
441         s += pitch;
442         vst2_lane_u8(s, d2Result, 7);
443     }
444     return;
445 }
446