1 /*
2 * Copyright (c) 2014 The WebM project authors. All Rights Reserved.
3 *
4 * Use of this source code is governed by a BSD-style license
5 * that can be found in the LICENSE file in the root of the source
6 * tree. An additional intellectual property rights grant can be found
7 * in the file PATENTS. All contributing project authors may
8 * be found in the AUTHORS file in the root of the source tree.
9 */
10
11 #include <arm_neon.h>
12
13 #include "./vpx_dsp_rtcd.h"
14
mbloop_filter_neon(uint8x8_t dblimit,uint8x8_t dlimit,uint8x8_t dthresh,uint8x8_t d3u8,uint8x8_t d4u8,uint8x8_t d5u8,uint8x8_t d6u8,uint8x8_t d7u8,uint8x8_t d16u8,uint8x8_t d17u8,uint8x8_t d18u8,uint8x8_t * d0ru8,uint8x8_t * d1ru8,uint8x8_t * d2ru8,uint8x8_t * d3ru8,uint8x8_t * d4ru8,uint8x8_t * d5ru8)15 static INLINE void mbloop_filter_neon(
16 uint8x8_t dblimit, // mblimit
17 uint8x8_t dlimit, // limit
18 uint8x8_t dthresh, // thresh
19 uint8x8_t d3u8, // p2
20 uint8x8_t d4u8, // p2
21 uint8x8_t d5u8, // p1
22 uint8x8_t d6u8, // p0
23 uint8x8_t d7u8, // q0
24 uint8x8_t d16u8, // q1
25 uint8x8_t d17u8, // q2
26 uint8x8_t d18u8, // q3
27 uint8x8_t *d0ru8, // p1
28 uint8x8_t *d1ru8, // p1
29 uint8x8_t *d2ru8, // p0
30 uint8x8_t *d3ru8, // q0
31 uint8x8_t *d4ru8, // q1
32 uint8x8_t *d5ru8) { // q1
33 uint32_t flat;
34 uint8x8_t d0u8, d1u8, d2u8, d19u8, d20u8, d21u8, d22u8, d23u8, d24u8;
35 uint8x8_t d25u8, d26u8, d27u8, d28u8, d29u8, d30u8, d31u8;
36 int16x8_t q15s16;
37 uint16x8_t q10u16, q14u16;
38 int8x8_t d21s8, d24s8, d25s8, d26s8, d28s8, d29s8, d30s8;
39
40 d19u8 = vabd_u8(d3u8, d4u8);
41 d20u8 = vabd_u8(d4u8, d5u8);
42 d21u8 = vabd_u8(d5u8, d6u8);
43 d22u8 = vabd_u8(d16u8, d7u8);
44 d23u8 = vabd_u8(d17u8, d16u8);
45 d24u8 = vabd_u8(d18u8, d17u8);
46
47 d19u8 = vmax_u8(d19u8, d20u8);
48 d20u8 = vmax_u8(d21u8, d22u8);
49
50 d25u8 = vabd_u8(d6u8, d4u8);
51
52 d23u8 = vmax_u8(d23u8, d24u8);
53
54 d26u8 = vabd_u8(d7u8, d17u8);
55
56 d19u8 = vmax_u8(d19u8, d20u8);
57
58 d24u8 = vabd_u8(d6u8, d7u8);
59 d27u8 = vabd_u8(d3u8, d6u8);
60 d28u8 = vabd_u8(d18u8, d7u8);
61
62 d19u8 = vmax_u8(d19u8, d23u8);
63
64 d23u8 = vabd_u8(d5u8, d16u8);
65 d24u8 = vqadd_u8(d24u8, d24u8);
66
67
68 d19u8 = vcge_u8(dlimit, d19u8);
69
70
71 d25u8 = vmax_u8(d25u8, d26u8);
72 d26u8 = vmax_u8(d27u8, d28u8);
73
74 d23u8 = vshr_n_u8(d23u8, 1);
75
76 d25u8 = vmax_u8(d25u8, d26u8);
77
78 d24u8 = vqadd_u8(d24u8, d23u8);
79
80 d20u8 = vmax_u8(d20u8, d25u8);
81
82 d23u8 = vdup_n_u8(1);
83 d24u8 = vcge_u8(dblimit, d24u8);
84
85 d21u8 = vcgt_u8(d21u8, dthresh);
86
87 d20u8 = vcge_u8(d23u8, d20u8);
88
89 d19u8 = vand_u8(d19u8, d24u8);
90
91 d23u8 = vcgt_u8(d22u8, dthresh);
92
93 d20u8 = vand_u8(d20u8, d19u8);
94
95 d22u8 = vdup_n_u8(0x80);
96
97 d23u8 = vorr_u8(d21u8, d23u8);
98
99 q10u16 = vcombine_u16(vreinterpret_u16_u8(d20u8),
100 vreinterpret_u16_u8(d21u8));
101
102 d30u8 = vshrn_n_u16(q10u16, 4);
103 flat = vget_lane_u32(vreinterpret_u32_u8(d30u8), 0);
104
105 if (flat == 0xffffffff) { // Check for all 1's, power_branch_only
106 d27u8 = vdup_n_u8(3);
107 d21u8 = vdup_n_u8(2);
108 q14u16 = vaddl_u8(d6u8, d7u8);
109 q14u16 = vmlal_u8(q14u16, d3u8, d27u8);
110 q14u16 = vmlal_u8(q14u16, d4u8, d21u8);
111 q14u16 = vaddw_u8(q14u16, d5u8);
112 *d0ru8 = vqrshrn_n_u16(q14u16, 3);
113
114 q14u16 = vsubw_u8(q14u16, d3u8);
115 q14u16 = vsubw_u8(q14u16, d4u8);
116 q14u16 = vaddw_u8(q14u16, d5u8);
117 q14u16 = vaddw_u8(q14u16, d16u8);
118 *d1ru8 = vqrshrn_n_u16(q14u16, 3);
119
120 q14u16 = vsubw_u8(q14u16, d3u8);
121 q14u16 = vsubw_u8(q14u16, d5u8);
122 q14u16 = vaddw_u8(q14u16, d6u8);
123 q14u16 = vaddw_u8(q14u16, d17u8);
124 *d2ru8 = vqrshrn_n_u16(q14u16, 3);
125
126 q14u16 = vsubw_u8(q14u16, d3u8);
127 q14u16 = vsubw_u8(q14u16, d6u8);
128 q14u16 = vaddw_u8(q14u16, d7u8);
129 q14u16 = vaddw_u8(q14u16, d18u8);
130 *d3ru8 = vqrshrn_n_u16(q14u16, 3);
131
132 q14u16 = vsubw_u8(q14u16, d4u8);
133 q14u16 = vsubw_u8(q14u16, d7u8);
134 q14u16 = vaddw_u8(q14u16, d16u8);
135 q14u16 = vaddw_u8(q14u16, d18u8);
136 *d4ru8 = vqrshrn_n_u16(q14u16, 3);
137
138 q14u16 = vsubw_u8(q14u16, d5u8);
139 q14u16 = vsubw_u8(q14u16, d16u8);
140 q14u16 = vaddw_u8(q14u16, d17u8);
141 q14u16 = vaddw_u8(q14u16, d18u8);
142 *d5ru8 = vqrshrn_n_u16(q14u16, 3);
143 } else {
144 d21u8 = veor_u8(d7u8, d22u8);
145 d24u8 = veor_u8(d6u8, d22u8);
146 d25u8 = veor_u8(d5u8, d22u8);
147 d26u8 = veor_u8(d16u8, d22u8);
148
149 d27u8 = vdup_n_u8(3);
150
151 d28s8 = vsub_s8(vreinterpret_s8_u8(d21u8), vreinterpret_s8_u8(d24u8));
152 d29s8 = vqsub_s8(vreinterpret_s8_u8(d25u8), vreinterpret_s8_u8(d26u8));
153
154 q15s16 = vmull_s8(d28s8, vreinterpret_s8_u8(d27u8));
155
156 d29s8 = vand_s8(d29s8, vreinterpret_s8_u8(d23u8));
157
158 q15s16 = vaddw_s8(q15s16, d29s8);
159
160 d29u8 = vdup_n_u8(4);
161
162 d28s8 = vqmovn_s16(q15s16);
163
164 d28s8 = vand_s8(d28s8, vreinterpret_s8_u8(d19u8));
165
166 d30s8 = vqadd_s8(d28s8, vreinterpret_s8_u8(d27u8));
167 d29s8 = vqadd_s8(d28s8, vreinterpret_s8_u8(d29u8));
168 d30s8 = vshr_n_s8(d30s8, 3);
169 d29s8 = vshr_n_s8(d29s8, 3);
170
171 d24s8 = vqadd_s8(vreinterpret_s8_u8(d24u8), d30s8);
172 d21s8 = vqsub_s8(vreinterpret_s8_u8(d21u8), d29s8);
173
174 d29s8 = vrshr_n_s8(d29s8, 1);
175 d29s8 = vbic_s8(d29s8, vreinterpret_s8_u8(d23u8));
176
177 d25s8 = vqadd_s8(vreinterpret_s8_u8(d25u8), d29s8);
178 d26s8 = vqsub_s8(vreinterpret_s8_u8(d26u8), d29s8);
179
180 if (flat == 0) { // filter_branch_only
181 *d0ru8 = d4u8;
182 *d1ru8 = veor_u8(vreinterpret_u8_s8(d25s8), d22u8);
183 *d2ru8 = veor_u8(vreinterpret_u8_s8(d24s8), d22u8);
184 *d3ru8 = veor_u8(vreinterpret_u8_s8(d21s8), d22u8);
185 *d4ru8 = veor_u8(vreinterpret_u8_s8(d26s8), d22u8);
186 *d5ru8 = d17u8;
187 return;
188 }
189
190 d21u8 = veor_u8(vreinterpret_u8_s8(d21s8), d22u8);
191 d24u8 = veor_u8(vreinterpret_u8_s8(d24s8), d22u8);
192 d25u8 = veor_u8(vreinterpret_u8_s8(d25s8), d22u8);
193 d26u8 = veor_u8(vreinterpret_u8_s8(d26s8), d22u8);
194
195 d23u8 = vdup_n_u8(2);
196 q14u16 = vaddl_u8(d6u8, d7u8);
197 q14u16 = vmlal_u8(q14u16, d3u8, d27u8);
198 q14u16 = vmlal_u8(q14u16, d4u8, d23u8);
199
200 d0u8 = vbsl_u8(d20u8, dblimit, d4u8);
201
202 q14u16 = vaddw_u8(q14u16, d5u8);
203
204 d1u8 = vbsl_u8(d20u8, dlimit, d25u8);
205
206 d30u8 = vqrshrn_n_u16(q14u16, 3);
207
208 q14u16 = vsubw_u8(q14u16, d3u8);
209 q14u16 = vsubw_u8(q14u16, d4u8);
210 q14u16 = vaddw_u8(q14u16, d5u8);
211 q14u16 = vaddw_u8(q14u16, d16u8);
212
213 d2u8 = vbsl_u8(d20u8, dthresh, d24u8);
214
215 d31u8 = vqrshrn_n_u16(q14u16, 3);
216
217 q14u16 = vsubw_u8(q14u16, d3u8);
218 q14u16 = vsubw_u8(q14u16, d5u8);
219 q14u16 = vaddw_u8(q14u16, d6u8);
220 q14u16 = vaddw_u8(q14u16, d17u8);
221
222 *d0ru8 = vbsl_u8(d20u8, d30u8, d0u8);
223
224 d23u8 = vqrshrn_n_u16(q14u16, 3);
225
226 q14u16 = vsubw_u8(q14u16, d3u8);
227 q14u16 = vsubw_u8(q14u16, d6u8);
228 q14u16 = vaddw_u8(q14u16, d7u8);
229
230 *d1ru8 = vbsl_u8(d20u8, d31u8, d1u8);
231
232 q14u16 = vaddw_u8(q14u16, d18u8);
233
234 *d2ru8 = vbsl_u8(d20u8, d23u8, d2u8);
235
236 d22u8 = vqrshrn_n_u16(q14u16, 3);
237
238 q14u16 = vsubw_u8(q14u16, d4u8);
239 q14u16 = vsubw_u8(q14u16, d7u8);
240 q14u16 = vaddw_u8(q14u16, d16u8);
241
242 d3u8 = vbsl_u8(d20u8, d3u8, d21u8);
243
244 q14u16 = vaddw_u8(q14u16, d18u8);
245
246 d4u8 = vbsl_u8(d20u8, d4u8, d26u8);
247
248 d6u8 = vqrshrn_n_u16(q14u16, 3);
249
250 q14u16 = vsubw_u8(q14u16, d5u8);
251 q14u16 = vsubw_u8(q14u16, d16u8);
252 q14u16 = vaddw_u8(q14u16, d17u8);
253 q14u16 = vaddw_u8(q14u16, d18u8);
254
255 d5u8 = vbsl_u8(d20u8, d5u8, d17u8);
256
257 d7u8 = vqrshrn_n_u16(q14u16, 3);
258
259 *d3ru8 = vbsl_u8(d20u8, d22u8, d3u8);
260 *d4ru8 = vbsl_u8(d20u8, d6u8, d4u8);
261 *d5ru8 = vbsl_u8(d20u8, d7u8, d5u8);
262 }
263 return;
264 }
265
vpx_lpf_horizontal_8_neon(uint8_t * src,int pitch,const uint8_t * blimit,const uint8_t * limit,const uint8_t * thresh)266 void vpx_lpf_horizontal_8_neon(
267 uint8_t *src,
268 int pitch,
269 const uint8_t *blimit,
270 const uint8_t *limit,
271 const uint8_t *thresh) {
272 int i;
273 uint8_t *s, *psrc;
274 uint8x8_t dblimit, dlimit, dthresh;
275 uint8x8_t d0u8, d1u8, d2u8, d3u8, d4u8, d5u8, d6u8, d7u8;
276 uint8x8_t d16u8, d17u8, d18u8;
277
278 dblimit = vld1_u8(blimit);
279 dlimit = vld1_u8(limit);
280 dthresh = vld1_u8(thresh);
281
282 psrc = src - (pitch << 2);
283 for (i = 0; i < 1; i++) {
284 s = psrc + i * 8;
285
286 d3u8 = vld1_u8(s);
287 s += pitch;
288 d4u8 = vld1_u8(s);
289 s += pitch;
290 d5u8 = vld1_u8(s);
291 s += pitch;
292 d6u8 = vld1_u8(s);
293 s += pitch;
294 d7u8 = vld1_u8(s);
295 s += pitch;
296 d16u8 = vld1_u8(s);
297 s += pitch;
298 d17u8 = vld1_u8(s);
299 s += pitch;
300 d18u8 = vld1_u8(s);
301
302 mbloop_filter_neon(dblimit, dlimit, dthresh,
303 d3u8, d4u8, d5u8, d6u8, d7u8, d16u8, d17u8, d18u8,
304 &d0u8, &d1u8, &d2u8, &d3u8, &d4u8, &d5u8);
305
306 s -= (pitch * 6);
307 vst1_u8(s, d0u8);
308 s += pitch;
309 vst1_u8(s, d1u8);
310 s += pitch;
311 vst1_u8(s, d2u8);
312 s += pitch;
313 vst1_u8(s, d3u8);
314 s += pitch;
315 vst1_u8(s, d4u8);
316 s += pitch;
317 vst1_u8(s, d5u8);
318 }
319 return;
320 }
321
vpx_lpf_vertical_8_neon(uint8_t * src,int pitch,const uint8_t * blimit,const uint8_t * limit,const uint8_t * thresh)322 void vpx_lpf_vertical_8_neon(
323 uint8_t *src,
324 int pitch,
325 const uint8_t *blimit,
326 const uint8_t *limit,
327 const uint8_t *thresh) {
328 int i;
329 uint8_t *s;
330 uint8x8_t dblimit, dlimit, dthresh;
331 uint8x8_t d0u8, d1u8, d2u8, d3u8, d4u8, d5u8, d6u8, d7u8;
332 uint8x8_t d16u8, d17u8, d18u8;
333 uint32x2x2_t d2tmp0, d2tmp1, d2tmp2, d2tmp3;
334 uint16x4x2_t d2tmp4, d2tmp5, d2tmp6, d2tmp7;
335 uint8x8x2_t d2tmp8, d2tmp9, d2tmp10, d2tmp11;
336 uint8x8x4_t d4Result;
337 uint8x8x2_t d2Result;
338
339 dblimit = vld1_u8(blimit);
340 dlimit = vld1_u8(limit);
341 dthresh = vld1_u8(thresh);
342
343 for (i = 0; i < 1; i++) {
344 s = src + (i * (pitch << 3)) - 4;
345
346 d3u8 = vld1_u8(s);
347 s += pitch;
348 d4u8 = vld1_u8(s);
349 s += pitch;
350 d5u8 = vld1_u8(s);
351 s += pitch;
352 d6u8 = vld1_u8(s);
353 s += pitch;
354 d7u8 = vld1_u8(s);
355 s += pitch;
356 d16u8 = vld1_u8(s);
357 s += pitch;
358 d17u8 = vld1_u8(s);
359 s += pitch;
360 d18u8 = vld1_u8(s);
361
362 d2tmp0 = vtrn_u32(vreinterpret_u32_u8(d3u8),
363 vreinterpret_u32_u8(d7u8));
364 d2tmp1 = vtrn_u32(vreinterpret_u32_u8(d4u8),
365 vreinterpret_u32_u8(d16u8));
366 d2tmp2 = vtrn_u32(vreinterpret_u32_u8(d5u8),
367 vreinterpret_u32_u8(d17u8));
368 d2tmp3 = vtrn_u32(vreinterpret_u32_u8(d6u8),
369 vreinterpret_u32_u8(d18u8));
370
371 d2tmp4 = vtrn_u16(vreinterpret_u16_u32(d2tmp0.val[0]),
372 vreinterpret_u16_u32(d2tmp2.val[0]));
373 d2tmp5 = vtrn_u16(vreinterpret_u16_u32(d2tmp1.val[0]),
374 vreinterpret_u16_u32(d2tmp3.val[0]));
375 d2tmp6 = vtrn_u16(vreinterpret_u16_u32(d2tmp0.val[1]),
376 vreinterpret_u16_u32(d2tmp2.val[1]));
377 d2tmp7 = vtrn_u16(vreinterpret_u16_u32(d2tmp1.val[1]),
378 vreinterpret_u16_u32(d2tmp3.val[1]));
379
380 d2tmp8 = vtrn_u8(vreinterpret_u8_u16(d2tmp4.val[0]),
381 vreinterpret_u8_u16(d2tmp5.val[0]));
382 d2tmp9 = vtrn_u8(vreinterpret_u8_u16(d2tmp4.val[1]),
383 vreinterpret_u8_u16(d2tmp5.val[1]));
384 d2tmp10 = vtrn_u8(vreinterpret_u8_u16(d2tmp6.val[0]),
385 vreinterpret_u8_u16(d2tmp7.val[0]));
386 d2tmp11 = vtrn_u8(vreinterpret_u8_u16(d2tmp6.val[1]),
387 vreinterpret_u8_u16(d2tmp7.val[1]));
388
389 d3u8 = d2tmp8.val[0];
390 d4u8 = d2tmp8.val[1];
391 d5u8 = d2tmp9.val[0];
392 d6u8 = d2tmp9.val[1];
393 d7u8 = d2tmp10.val[0];
394 d16u8 = d2tmp10.val[1];
395 d17u8 = d2tmp11.val[0];
396 d18u8 = d2tmp11.val[1];
397
398 mbloop_filter_neon(dblimit, dlimit, dthresh,
399 d3u8, d4u8, d5u8, d6u8, d7u8, d16u8, d17u8, d18u8,
400 &d0u8, &d1u8, &d2u8, &d3u8, &d4u8, &d5u8);
401
402 d4Result.val[0] = d0u8;
403 d4Result.val[1] = d1u8;
404 d4Result.val[2] = d2u8;
405 d4Result.val[3] = d3u8;
406
407 d2Result.val[0] = d4u8;
408 d2Result.val[1] = d5u8;
409
410 s = src - 3;
411 vst4_lane_u8(s, d4Result, 0);
412 s += pitch;
413 vst4_lane_u8(s, d4Result, 1);
414 s += pitch;
415 vst4_lane_u8(s, d4Result, 2);
416 s += pitch;
417 vst4_lane_u8(s, d4Result, 3);
418 s += pitch;
419 vst4_lane_u8(s, d4Result, 4);
420 s += pitch;
421 vst4_lane_u8(s, d4Result, 5);
422 s += pitch;
423 vst4_lane_u8(s, d4Result, 6);
424 s += pitch;
425 vst4_lane_u8(s, d4Result, 7);
426
427 s = src + 1;
428 vst2_lane_u8(s, d2Result, 0);
429 s += pitch;
430 vst2_lane_u8(s, d2Result, 1);
431 s += pitch;
432 vst2_lane_u8(s, d2Result, 2);
433 s += pitch;
434 vst2_lane_u8(s, d2Result, 3);
435 s += pitch;
436 vst2_lane_u8(s, d2Result, 4);
437 s += pitch;
438 vst2_lane_u8(s, d2Result, 5);
439 s += pitch;
440 vst2_lane_u8(s, d2Result, 6);
441 s += pitch;
442 vst2_lane_u8(s, d2Result, 7);
443 }
444 return;
445 }
446