Headers/ppc_wrappers/emmintrin.h

e5dd7070Spatrick/*===---- emmintrin.h - Implementation of SSE2 intrinsics on PowerPC -------===
e5dd7070Spatrick *
e5dd7070Spatrick * Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
e5dd7070Spatrick * See https://llvm.org/LICENSE.txt for license information.
e5dd7070Spatrick * SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
e5dd7070Spatrick *
e5dd7070Spatrick *===-----------------------------------------------------------------------===
e5dd7070Spatrick */
e5dd7070Spatrick
e5dd7070Spatrick/* Implemented from the specification included in the Intel C++ Compiler
e5dd7070Spatrick   User Guide and Reference, version 9.0.  */
e5dd7070Spatrick
e5dd7070Spatrick#ifndef NO_WARN_X86_INTRINSICS
e5dd7070Spatrick/* This header file is to help porting code using Intel intrinsics
e5dd7070Spatrick   explicitly from x86_64 to powerpc64/powerpc64le.
e5dd7070Spatrick
e5dd7070Spatrick   Since X86 SSE2 intrinsics mainly handles __m128i and __m128d type,
e5dd7070Spatrick   PowerPC VMX/VSX ISA is a good match for vector float SIMD operations.
e5dd7070Spatrick   However scalar float operations in vector (XMM) registers require
e5dd7070Spatrick   the POWER8 VSX ISA (2.07) level. There are differences for data
e5dd7070Spatrick   format and placement of float scalars in the vector register, which
e5dd7070Spatrick   require extra steps to match SSE2 scalar float semantics on POWER.
e5dd7070Spatrick
e5dd7070Spatrick   It should be noted that there's much difference between X86_64's
e5dd7070Spatrick   MXSCR and PowerISA's FPSCR/VSCR registers. It's recommended to use
e5dd7070Spatrick   portable <fenv.h> instead of access MXSCR directly.
e5dd7070Spatrick
e5dd7070Spatrick   Most SSE2 scalar float intrinsic operations can be performed more
e5dd7070Spatrick   efficiently as C language float scalar operations or optimized to
e5dd7070Spatrick   use vector SIMD operations. We recommend this for new applications.
e5dd7070Spatrick*/
*12c85518Srobert#error                                                                         \
*12c85518Srobert    "Please read comment above.  Use -DNO_WARN_X86_INTRINSICS to disable this error."
e5dd7070Spatrick#endif
e5dd7070Spatrick
e5dd7070Spatrick#ifndef EMMINTRIN_H_
e5dd7070Spatrick#define EMMINTRIN_H_
e5dd7070Spatrick
*12c85518Srobert#if defined(__powerpc64__) &&                                                  \
*12c85518Srobert    (defined(__linux__) || defined(__FreeBSD__) || defined(_AIX))
e5dd7070Spatrick
e5dd7070Spatrick#include <altivec.h>
e5dd7070Spatrick
e5dd7070Spatrick/* We need definitions from the SSE header files.  */
e5dd7070Spatrick#include <xmmintrin.h>
e5dd7070Spatrick
e5dd7070Spatrick/* SSE2 */
e5dd7070Spatricktypedef __vector double __v2df;
e5dd7070Spatricktypedef __vector long long __v2di;
e5dd7070Spatricktypedef __vector unsigned long long __v2du;
e5dd7070Spatricktypedef __vector int __v4si;
e5dd7070Spatricktypedef __vector unsigned int __v4su;
e5dd7070Spatricktypedef __vector short __v8hi;
e5dd7070Spatricktypedef __vector unsigned short __v8hu;
e5dd7070Spatricktypedef __vector signed char __v16qi;
e5dd7070Spatricktypedef __vector unsigned char __v16qu;
e5dd7070Spatrick
e5dd7070Spatrick/* The Intel API is flexible enough that we must allow aliasing with other
e5dd7070Spatrick   vector types, and their scalar components.  */
e5dd7070Spatricktypedef long long __m128i __attribute__((__vector_size__(16), __may_alias__));
e5dd7070Spatricktypedef double __m128d __attribute__((__vector_size__(16), __may_alias__));
e5dd7070Spatrick
e5dd7070Spatrick/* Unaligned version of the same types.  */
*12c85518Sroberttypedef long long __m128i_u
*12c85518Srobert    __attribute__((__vector_size__(16), __may_alias__, __aligned__(1)));
*12c85518Sroberttypedef double __m128d_u
*12c85518Srobert    __attribute__((__vector_size__(16), __may_alias__, __aligned__(1)));
e5dd7070Spatrick
e5dd7070Spatrick/* Define two value permute mask.  */
e5dd7070Spatrick#define _MM_SHUFFLE2(x, y) (((x) << 1) | (y))
e5dd7070Spatrick
e5dd7070Spatrick/* Create a vector with element 0 as F and the rest zero.  */
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_set_sd(double __F) {
e5dd7070Spatrick  return __extension__(__m128d){__F, 0.0};
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Create a vector with both elements equal to F.  */
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_set1_pd(double __F) {
e5dd7070Spatrick  return __extension__(__m128d){__F, __F};
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_set_pd1(double __F) {
e5dd7070Spatrick  return _mm_set1_pd(__F);
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Create a vector with the lower value X and upper value W.  */
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_set_pd(double __W, double __X) {
e5dd7070Spatrick  return __extension__(__m128d){__X, __W};
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Create a vector with the lower value W and upper value X.  */
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_setr_pd(double __W, double __X) {
e5dd7070Spatrick  return __extension__(__m128d){__W, __X};
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Create an undefined vector.  */
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_undefined_pd(void) {
e5dd7070Spatrick  __m128d __Y = __Y;
e5dd7070Spatrick  return __Y;
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Create a vector of zeros.  */
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_setzero_pd(void) {
e5dd7070Spatrick  return (__m128d)vec_splats(0);
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Sets the low DPFP value of A from the low value of B.  */
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_move_sd(__m128d __A, __m128d __B) {
*12c85518Srobert  __v2df __result = (__v2df)__A;
*12c85518Srobert  __result[0] = ((__v2df)__B)[0];
*12c85518Srobert  return (__m128d)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Load two DPFP values from P.  The address must be 16-byte aligned.  */
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_load_pd(double const *__P) {
e5dd7070Spatrick  return ((__m128d)vec_ld(0, (__v16qu *)__P));
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Load two DPFP values from P.  The address need not be 16-byte aligned.  */
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_loadu_pd(double const *__P) {
e5dd7070Spatrick  return (vec_vsx_ld(0, __P));
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Create a vector with all two elements equal to *P.  */
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_load1_pd(double const *__P) {
e5dd7070Spatrick  return (vec_splats(*__P));
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Create a vector with element 0 as *P and the rest zero.  */
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_load_sd(double const *__P) {
e5dd7070Spatrick  return _mm_set_sd(*__P);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_load_pd1(double const *__P) {
e5dd7070Spatrick  return _mm_load1_pd(__P);
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Load two DPFP values in reverse order.  The address must be aligned.  */
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_loadr_pd(double const *__P) {
e5dd7070Spatrick  __v2df __tmp = _mm_load_pd(__P);
e5dd7070Spatrick  return (__m128d)vec_xxpermdi(__tmp, __tmp, 2);
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Store two DPFP values.  The address must be 16-byte aligned.  */
*12c85518Srobertextern __inline void
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_store_pd(double *__P, __m128d __A) {
e5dd7070Spatrick  vec_st((__v16qu)__A, 0, (__v16qu *)__P);
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Store two DPFP values.  The address need not be 16-byte aligned.  */
*12c85518Srobertextern __inline void
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_storeu_pd(double *__P, __m128d __A) {
e5dd7070Spatrick  *(__m128d_u *)__P = __A;
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Stores the lower DPFP value.  */
*12c85518Srobertextern __inline void
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_store_sd(double *__P, __m128d __A) {
e5dd7070Spatrick  *__P = ((__v2df)__A)[0];
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline double
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtsd_f64(__m128d __A) {
e5dd7070Spatrick  return ((__v2df)__A)[0];
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline void
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_storel_pd(double *__P, __m128d __A) {
e5dd7070Spatrick  _mm_store_sd(__P, __A);
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Stores the upper DPFP value.  */
*12c85518Srobertextern __inline void
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_storeh_pd(double *__P, __m128d __A) {
e5dd7070Spatrick  *__P = ((__v2df)__A)[1];
e5dd7070Spatrick}
e5dd7070Spatrick/* Store the lower DPFP value across two words.
e5dd7070Spatrick   The address must be 16-byte aligned.  */
*12c85518Srobertextern __inline void
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_store1_pd(double *__P, __m128d __A) {
e5dd7070Spatrick  _mm_store_pd(__P, vec_splat(__A, 0));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline void
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_store_pd1(double *__P, __m128d __A) {
e5dd7070Spatrick  _mm_store1_pd(__P, __A);
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Store two DPFP values in reverse order.  The address must be aligned.  */
*12c85518Srobertextern __inline void
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_storer_pd(double *__P, __m128d __A) {
e5dd7070Spatrick  _mm_store_pd(__P, vec_xxpermdi(__A, __A, 2));
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Intel intrinsic.  */
*12c85518Srobertextern __inline long long
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtsi128_si64(__m128i __A) {
e5dd7070Spatrick  return ((__v2di)__A)[0];
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Microsoft intrinsic.  */
*12c85518Srobertextern __inline long long
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtsi128_si64x(__m128i __A) {
e5dd7070Spatrick  return ((__v2di)__A)[0];
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_add_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (__m128d)((__v2df)__A + (__v2df)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Add the lower double-precision (64-bit) floating-point element in
e5dd7070Spatrick   a and b, store the result in the lower element of dst, and copy
e5dd7070Spatrick   the upper element from a to the upper element of dst. */
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_add_sd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  __A[0] = __A[0] + __B[0];
e5dd7070Spatrick  return (__A);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_sub_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (__m128d)((__v2df)__A - (__v2df)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_sub_sd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  __A[0] = __A[0] - __B[0];
e5dd7070Spatrick  return (__A);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_mul_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (__m128d)((__v2df)__A * (__v2df)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_mul_sd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  __A[0] = __A[0] * __B[0];
e5dd7070Spatrick  return (__A);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_div_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (__m128d)((__v2df)__A / (__v2df)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_div_sd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  __A[0] = __A[0] / __B[0];
e5dd7070Spatrick  return (__A);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_sqrt_pd(__m128d __A) {
e5dd7070Spatrick  return (vec_sqrt(__A));
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Return pair {sqrt (B[0]), A[1]}.  */
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_sqrt_sd(__m128d __A, __m128d __B) {
*12c85518Srobert  __v2df __c;
*12c85518Srobert  __c = vec_sqrt((__v2df)_mm_set1_pd(__B[0]));
*12c85518Srobert  return (__m128d)_mm_setr_pd(__c[0], __A[1]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_min_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (vec_min(__A, __B));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_min_sd(__m128d __A, __m128d __B) {
*12c85518Srobert  __v2df __a, __b, __c;
*12c85518Srobert  __a = vec_splats(__A[0]);
*12c85518Srobert  __b = vec_splats(__B[0]);
*12c85518Srobert  __c = vec_min(__a, __b);
*12c85518Srobert  return (__m128d)_mm_setr_pd(__c[0], __A[1]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_max_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (vec_max(__A, __B));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_max_sd(__m128d __A, __m128d __B) {
*12c85518Srobert  __v2df __a, __b, __c;
*12c85518Srobert  __a = vec_splats(__A[0]);
*12c85518Srobert  __b = vec_splats(__B[0]);
*12c85518Srobert  __c = vec_max(__a, __b);
*12c85518Srobert  return (__m128d)_mm_setr_pd(__c[0], __A[1]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpeq_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return ((__m128d)vec_cmpeq((__v2df)__A, (__v2df)__B));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmplt_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return ((__m128d)vec_cmplt((__v2df)__A, (__v2df)__B));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmple_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return ((__m128d)vec_cmple((__v2df)__A, (__v2df)__B));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpgt_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return ((__m128d)vec_cmpgt((__v2df)__A, (__v2df)__B));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpge_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return ((__m128d)vec_cmpge((__v2df)__A, (__v2df)__B));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpneq_pd(__m128d __A, __m128d __B) {
*12c85518Srobert  __v2df __temp = (__v2df)vec_cmpeq((__v2df)__A, (__v2df)__B);
*12c85518Srobert  return ((__m128d)vec_nor(__temp, __temp));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpnlt_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return ((__m128d)vec_cmpge((__v2df)__A, (__v2df)__B));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpnle_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return ((__m128d)vec_cmpgt((__v2df)__A, (__v2df)__B));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpngt_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return ((__m128d)vec_cmple((__v2df)__A, (__v2df)__B));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpnge_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return ((__m128d)vec_cmplt((__v2df)__A, (__v2df)__B));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpord_pd(__m128d __A, __m128d __B) {
*12c85518Srobert  __v2du __c, __d;
e5dd7070Spatrick  /* Compare against self will return false (0's) if NAN.  */
*12c85518Srobert  __c = (__v2du)vec_cmpeq(__A, __A);
*12c85518Srobert  __d = (__v2du)vec_cmpeq(__B, __B);
e5dd7070Spatrick  /* A != NAN and B != NAN.  */
*12c85518Srobert  return ((__m128d)vec_and(__c, __d));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpunord_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick#if _ARCH_PWR8
*12c85518Srobert  __v2du __c, __d;
e5dd7070Spatrick  /* Compare against self will return false (0's) if NAN.  */
*12c85518Srobert  __c = (__v2du)vec_cmpeq((__v2df)__A, (__v2df)__A);
*12c85518Srobert  __d = (__v2du)vec_cmpeq((__v2df)__B, (__v2df)__B);
e5dd7070Spatrick  /* A == NAN OR B == NAN converts too:
e5dd7070Spatrick     NOT(A != NAN) OR NOT(B != NAN).  */
*12c85518Srobert  __c = vec_nor(__c, __c);
*12c85518Srobert  return ((__m128d)vec_orc(__c, __d));
e5dd7070Spatrick#else
*12c85518Srobert  __v2du __c, __d;
e5dd7070Spatrick  /* Compare against self will return false (0's) if NAN.  */
*12c85518Srobert  __c = (__v2du)vec_cmpeq((__v2df)__A, (__v2df)__A);
*12c85518Srobert  __d = (__v2du)vec_cmpeq((__v2df)__B, (__v2df)__B);
e5dd7070Spatrick  /* Convert the true ('1's) is NAN.  */
*12c85518Srobert  __c = vec_nor(__c, __c);
*12c85518Srobert  __d = vec_nor(__d, __d);
*12c85518Srobert  return ((__m128d)vec_or(__c, __d));
e5dd7070Spatrick#endif
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpeq_sd(__m128d __A, __m128d __B) {
*12c85518Srobert  __v2df __a, __b, __c;
e5dd7070Spatrick  /* PowerISA VSX does not allow partial (for just lower double)
e5dd7070Spatrick     results. So to insure we don't generate spurious exceptions
e5dd7070Spatrick     (from the upper double values) we splat the lower double
e5dd7070Spatrick     before we do the operation. */
*12c85518Srobert  __a = vec_splats(__A[0]);
*12c85518Srobert  __b = vec_splats(__B[0]);
*12c85518Srobert  __c = (__v2df)vec_cmpeq(__a, __b);
e5dd7070Spatrick  /* Then we merge the lower double result with the original upper
e5dd7070Spatrick     double from __A.  */
*12c85518Srobert  return (__m128d)_mm_setr_pd(__c[0], __A[1]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmplt_sd(__m128d __A, __m128d __B) {
*12c85518Srobert  __v2df __a, __b, __c;
*12c85518Srobert  __a = vec_splats(__A[0]);
*12c85518Srobert  __b = vec_splats(__B[0]);
*12c85518Srobert  __c = (__v2df)vec_cmplt(__a, __b);
*12c85518Srobert  return (__m128d)_mm_setr_pd(__c[0], __A[1]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmple_sd(__m128d __A, __m128d __B) {
*12c85518Srobert  __v2df __a, __b, __c;
*12c85518Srobert  __a = vec_splats(__A[0]);
*12c85518Srobert  __b = vec_splats(__B[0]);
*12c85518Srobert  __c = (__v2df)vec_cmple(__a, __b);
*12c85518Srobert  return (__m128d)_mm_setr_pd(__c[0], __A[1]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpgt_sd(__m128d __A, __m128d __B) {
*12c85518Srobert  __v2df __a, __b, __c;
*12c85518Srobert  __a = vec_splats(__A[0]);
*12c85518Srobert  __b = vec_splats(__B[0]);
*12c85518Srobert  __c = (__v2df)vec_cmpgt(__a, __b);
*12c85518Srobert  return (__m128d)_mm_setr_pd(__c[0], __A[1]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpge_sd(__m128d __A, __m128d __B) {
*12c85518Srobert  __v2df __a, __b, __c;
*12c85518Srobert  __a = vec_splats(__A[0]);
*12c85518Srobert  __b = vec_splats(__B[0]);
*12c85518Srobert  __c = (__v2df)vec_cmpge(__a, __b);
*12c85518Srobert  return (__m128d)_mm_setr_pd(__c[0], __A[1]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpneq_sd(__m128d __A, __m128d __B) {
*12c85518Srobert  __v2df __a, __b, __c;
*12c85518Srobert  __a = vec_splats(__A[0]);
*12c85518Srobert  __b = vec_splats(__B[0]);
*12c85518Srobert  __c = (__v2df)vec_cmpeq(__a, __b);
*12c85518Srobert  __c = vec_nor(__c, __c);
*12c85518Srobert  return (__m128d)_mm_setr_pd(__c[0], __A[1]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpnlt_sd(__m128d __A, __m128d __B) {
*12c85518Srobert  __v2df __a, __b, __c;
*12c85518Srobert  __a = vec_splats(__A[0]);
*12c85518Srobert  __b = vec_splats(__B[0]);
e5dd7070Spatrick  /* Not less than is just greater than or equal.  */
*12c85518Srobert  __c = (__v2df)vec_cmpge(__a, __b);
*12c85518Srobert  return (__m128d)_mm_setr_pd(__c[0], __A[1]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpnle_sd(__m128d __A, __m128d __B) {
*12c85518Srobert  __v2df __a, __b, __c;
*12c85518Srobert  __a = vec_splats(__A[0]);
*12c85518Srobert  __b = vec_splats(__B[0]);
e5dd7070Spatrick  /* Not less than or equal is just greater than.  */
*12c85518Srobert  __c = (__v2df)vec_cmpge(__a, __b);
*12c85518Srobert  return (__m128d)_mm_setr_pd(__c[0], __A[1]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpngt_sd(__m128d __A, __m128d __B) {
*12c85518Srobert  __v2df __a, __b, __c;
*12c85518Srobert  __a = vec_splats(__A[0]);
*12c85518Srobert  __b = vec_splats(__B[0]);
e5dd7070Spatrick  /* Not greater than is just less than or equal.  */
*12c85518Srobert  __c = (__v2df)vec_cmple(__a, __b);
*12c85518Srobert  return (__m128d)_mm_setr_pd(__c[0], __A[1]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpnge_sd(__m128d __A, __m128d __B) {
*12c85518Srobert  __v2df __a, __b, __c;
*12c85518Srobert  __a = vec_splats(__A[0]);
*12c85518Srobert  __b = vec_splats(__B[0]);
e5dd7070Spatrick  /* Not greater than or equal is just less than.  */
*12c85518Srobert  __c = (__v2df)vec_cmplt(__a, __b);
*12c85518Srobert  return (__m128d)_mm_setr_pd(__c[0], __A[1]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpord_sd(__m128d __A, __m128d __B) {
*12c85518Srobert  __v2df __r;
*12c85518Srobert  __r = (__v2df)_mm_cmpord_pd(vec_splats(__A[0]), vec_splats(__B[0]));
*12c85518Srobert  return (__m128d)_mm_setr_pd(__r[0], ((__v2df)__A)[1]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpunord_sd(__m128d __A, __m128d __B) {
*12c85518Srobert  __v2df __r;
*12c85518Srobert  __r = _mm_cmpunord_pd(vec_splats(__A[0]), vec_splats(__B[0]));
*12c85518Srobert  return (__m128d)_mm_setr_pd(__r[0], __A[1]);
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* FIXME
e5dd7070Spatrick   The __mm_comi??_sd and __mm_ucomi??_sd implementations below are
e5dd7070Spatrick   exactly the same because GCC for PowerPC only generates unordered
e5dd7070Spatrick   compares (scalar and vector).
e5dd7070Spatrick   Technically __mm_comieq_sp et all should be using the ordered
e5dd7070Spatrick   compare and signal for QNaNs.  The __mm_ucomieq_sd et all should
e5dd7070Spatrick   be OK.   */
*12c85518Srobertextern __inline int
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_comieq_sd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (__A[0] == __B[0]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline int
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_comilt_sd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (__A[0] < __B[0]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline int
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_comile_sd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (__A[0] <= __B[0]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline int
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_comigt_sd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (__A[0] > __B[0]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline int
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_comige_sd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (__A[0] >= __B[0]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline int
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_comineq_sd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (__A[0] != __B[0]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline int
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_ucomieq_sd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (__A[0] == __B[0]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline int
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_ucomilt_sd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (__A[0] < __B[0]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline int
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_ucomile_sd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (__A[0] <= __B[0]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline int
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_ucomigt_sd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (__A[0] > __B[0]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline int
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_ucomige_sd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (__A[0] >= __B[0]);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline int
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_ucomineq_sd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (__A[0] != __B[0]);
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Create a vector of Qi, where i is the element number.  */
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_set_epi64x(long long __q1, long long __q0) {
e5dd7070Spatrick  return __extension__(__m128i)(__v2di){__q0, __q1};
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_set_epi64(__m64 __q1, __m64 __q0) {
e5dd7070Spatrick  return _mm_set_epi64x((long long)__q1, (long long)__q0);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_set_epi32(int __q3, int __q2, int __q1, int __q0) {
e5dd7070Spatrick  return __extension__(__m128i)(__v4si){__q0, __q1, __q2, __q3};
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_set_epi16(short __q7, short __q6, short __q5, short __q4, short __q3,
*12c85518Srobert                  short __q2, short __q1, short __q0) {
*12c85518Srobert  return __extension__(__m128i)(__v8hi){__q0, __q1, __q2, __q3,
*12c85518Srobert                                        __q4, __q5, __q6, __q7};
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_set_epi8(char __q15, char __q14, char __q13, char __q12, char __q11,
*12c85518Srobert                 char __q10, char __q09, char __q08, char __q07, char __q06,
*12c85518Srobert                 char __q05, char __q04, char __q03, char __q02, char __q01,
*12c85518Srobert                 char __q00) {
e5dd7070Spatrick  return __extension__(__m128i)(__v16qi){
e5dd7070Spatrick      __q00, __q01, __q02, __q03, __q04, __q05, __q06, __q07,
*12c85518Srobert      __q08, __q09, __q10, __q11, __q12, __q13, __q14, __q15};
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Set all of the elements of the vector to A.  */
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_set1_epi64x(long long __A) {
e5dd7070Spatrick  return _mm_set_epi64x(__A, __A);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_set1_epi64(__m64 __A) {
e5dd7070Spatrick  return _mm_set_epi64(__A, __A);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_set1_epi32(int __A) {
e5dd7070Spatrick  return _mm_set_epi32(__A, __A, __A, __A);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_set1_epi16(short __A) {
e5dd7070Spatrick  return _mm_set_epi16(__A, __A, __A, __A, __A, __A, __A, __A);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_set1_epi8(char __A) {
*12c85518Srobert  return _mm_set_epi8(__A, __A, __A, __A, __A, __A, __A, __A, __A, __A, __A,
*12c85518Srobert                      __A, __A, __A, __A, __A);
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Create a vector of Qi, where i is the element number.
e5dd7070Spatrick   The parameter order is reversed from the _mm_set_epi* functions.  */
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_setr_epi64(__m64 __q0, __m64 __q1) {
e5dd7070Spatrick  return _mm_set_epi64(__q1, __q0);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_setr_epi32(int __q0, int __q1, int __q2, int __q3) {
e5dd7070Spatrick  return _mm_set_epi32(__q3, __q2, __q1, __q0);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_setr_epi16(short __q0, short __q1, short __q2, short __q3, short __q4,
*12c85518Srobert                   short __q5, short __q6, short __q7) {
e5dd7070Spatrick  return _mm_set_epi16(__q7, __q6, __q5, __q4, __q3, __q2, __q1, __q0);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_setr_epi8(char __q00, char __q01, char __q02, char __q03, char __q04,
*12c85518Srobert                  char __q05, char __q06, char __q07, char __q08, char __q09,
*12c85518Srobert                  char __q10, char __q11, char __q12, char __q13, char __q14,
*12c85518Srobert                  char __q15) {
e5dd7070Spatrick  return _mm_set_epi8(__q15, __q14, __q13, __q12, __q11, __q10, __q09, __q08,
e5dd7070Spatrick                      __q07, __q06, __q05, __q04, __q03, __q02, __q01, __q00);
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Create a vector with element 0 as *P and the rest zero.  */
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_load_si128(__m128i const *__P) {
e5dd7070Spatrick  return *__P;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_loadu_si128(__m128i_u const *__P) {
e5dd7070Spatrick  return (__m128i)(vec_vsx_ld(0, (signed int const *)__P));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_loadl_epi64(__m128i_u const *__P) {
e5dd7070Spatrick  return _mm_set_epi64((__m64)0LL, *(__m64 *)__P);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline void
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_store_si128(__m128i *__P, __m128i __B) {
e5dd7070Spatrick  vec_st((__v16qu)__B, 0, (__v16qu *)__P);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline void
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_storeu_si128(__m128i_u *__P, __m128i __B) {
e5dd7070Spatrick  *__P = __B;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline void
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_storel_epi64(__m128i_u *__P, __m128i __B) {
e5dd7070Spatrick  *(long long *)__P = ((__v2di)__B)[0];
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m64
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_movepi64_pi64(__m128i_u __B) {
e5dd7070Spatrick  return (__m64)((__v2di)__B)[0];
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_movpi64_epi64(__m64 __A) {
e5dd7070Spatrick  return _mm_set_epi64((__m64)0LL, __A);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_move_epi64(__m128i __A) {
e5dd7070Spatrick  return _mm_set_epi64((__m64)0LL, (__m64)__A[0]);
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Create an undefined vector.  */
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_undefined_si128(void) {
e5dd7070Spatrick  __m128i __Y = __Y;
e5dd7070Spatrick  return __Y;
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Create a vector of zeros.  */
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_setzero_si128(void) {
e5dd7070Spatrick  return __extension__(__m128i)(__v4si){0, 0, 0, 0};
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick#ifdef _ARCH_PWR8
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtepi32_pd(__m128i __A) {
*12c85518Srobert  __v2di __val;
e5dd7070Spatrick  /* For LE need to generate Vector Unpack Low Signed Word.
e5dd7070Spatrick     Which is generated from unpackh.  */
*12c85518Srobert  __val = (__v2di)vec_unpackh((__v4si)__A);
e5dd7070Spatrick
*12c85518Srobert  return (__m128d)vec_ctf(__val, 0);
e5dd7070Spatrick}
e5dd7070Spatrick#endif
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtepi32_ps(__m128i __A) {
e5dd7070Spatrick  return ((__m128)vec_ctf((__v4si)__A, 0));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtpd_epi32(__m128d __A) {
*12c85518Srobert  __v2df __rounded = vec_rint(__A);
*12c85518Srobert  __v4si __result, __temp;
*12c85518Srobert  const __v4si __vzero = {0, 0, 0, 0};
e5dd7070Spatrick
e5dd7070Spatrick  /* VSX Vector truncate Double-Precision to integer and Convert to
e5dd7070Spatrick   Signed Integer Word format with Saturate.  */
*12c85518Srobert  __asm__("xvcvdpsxws %x0,%x1" : "=wa"(__temp) : "wa"(__rounded) :);
e5dd7070Spatrick
e5dd7070Spatrick#ifdef _ARCH_PWR8
*12c85518Srobert#ifdef __LITTLE_ENDIAN__
*12c85518Srobert  __temp = vec_mergeo(__temp, __temp);
*12c85518Srobert#else
*12c85518Srobert  __temp = vec_mergee(__temp, __temp);
*12c85518Srobert#endif
*12c85518Srobert  __result = (__v4si)vec_vpkudum((__vector long long)__temp,
*12c85518Srobert                                 (__vector long long)__vzero);
e5dd7070Spatrick#else
e5dd7070Spatrick  {
*12c85518Srobert    const __v16qu __pkperm = {0x00, 0x01, 0x02, 0x03, 0x08, 0x09, 0x0a, 0x0b,
e5dd7070Spatrick                              0x14, 0x15, 0x16, 0x17, 0x1c, 0x1d, 0x1e, 0x1f};
*12c85518Srobert    __result = (__v4si)vec_perm((__v16qu)__temp, (__v16qu)__vzero, __pkperm);
e5dd7070Spatrick  }
e5dd7070Spatrick#endif
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m64
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtpd_pi32(__m128d __A) {
*12c85518Srobert  __m128i __result = _mm_cvtpd_epi32(__A);
e5dd7070Spatrick
*12c85518Srobert  return (__m64)__result[0];
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtpd_ps(__m128d __A) {
*12c85518Srobert  __v4sf __result;
*12c85518Srobert  __v4si __temp;
*12c85518Srobert  const __v4si __vzero = {0, 0, 0, 0};
e5dd7070Spatrick
*12c85518Srobert  __asm__("xvcvdpsp %x0,%x1" : "=wa"(__temp) : "wa"(__A) :);
e5dd7070Spatrick
e5dd7070Spatrick#ifdef _ARCH_PWR8
*12c85518Srobert#ifdef __LITTLE_ENDIAN__
*12c85518Srobert  __temp = vec_mergeo(__temp, __temp);
*12c85518Srobert#else
*12c85518Srobert  __temp = vec_mergee(__temp, __temp);
*12c85518Srobert#endif
*12c85518Srobert  __result = (__v4sf)vec_vpkudum((__vector long long)__temp,
*12c85518Srobert                                 (__vector long long)__vzero);
e5dd7070Spatrick#else
e5dd7070Spatrick  {
*12c85518Srobert    const __v16qu __pkperm = {0x00, 0x01, 0x02, 0x03, 0x08, 0x09, 0x0a, 0x0b,
e5dd7070Spatrick                              0x14, 0x15, 0x16, 0x17, 0x1c, 0x1d, 0x1e, 0x1f};
*12c85518Srobert    __result = (__v4sf)vec_perm((__v16qu)__temp, (__v16qu)__vzero, __pkperm);
e5dd7070Spatrick  }
e5dd7070Spatrick#endif
*12c85518Srobert  return ((__m128)__result);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvttpd_epi32(__m128d __A) {
*12c85518Srobert  __v4si __result;
*12c85518Srobert  __v4si __temp;
*12c85518Srobert  const __v4si __vzero = {0, 0, 0, 0};
e5dd7070Spatrick
e5dd7070Spatrick  /* VSX Vector truncate Double-Precision to integer and Convert to
e5dd7070Spatrick   Signed Integer Word format with Saturate.  */
*12c85518Srobert  __asm__("xvcvdpsxws %x0,%x1" : "=wa"(__temp) : "wa"(__A) :);
e5dd7070Spatrick
e5dd7070Spatrick#ifdef _ARCH_PWR8
*12c85518Srobert#ifdef __LITTLE_ENDIAN__
*12c85518Srobert  __temp = vec_mergeo(__temp, __temp);
*12c85518Srobert#else
*12c85518Srobert  __temp = vec_mergee(__temp, __temp);
*12c85518Srobert#endif
*12c85518Srobert  __result = (__v4si)vec_vpkudum((__vector long long)__temp,
*12c85518Srobert                                 (__vector long long)__vzero);
e5dd7070Spatrick#else
e5dd7070Spatrick  {
*12c85518Srobert    const __v16qu __pkperm = {0x00, 0x01, 0x02, 0x03, 0x08, 0x09, 0x0a, 0x0b,
e5dd7070Spatrick                              0x14, 0x15, 0x16, 0x17, 0x1c, 0x1d, 0x1e, 0x1f};
*12c85518Srobert    __result = (__v4si)vec_perm((__v16qu)__temp, (__v16qu)__vzero, __pkperm);
e5dd7070Spatrick  }
e5dd7070Spatrick#endif
e5dd7070Spatrick
*12c85518Srobert  return ((__m128i)__result);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m64
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvttpd_pi32(__m128d __A) {
*12c85518Srobert  __m128i __result = _mm_cvttpd_epi32(__A);
e5dd7070Spatrick
*12c85518Srobert  return (__m64)__result[0];
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline int
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtsi128_si32(__m128i __A) {
e5dd7070Spatrick  return ((__v4si)__A)[0];
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick#ifdef _ARCH_PWR8
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtpi32_pd(__m64 __A) {
*12c85518Srobert  __v4si __temp;
*12c85518Srobert  __v2di __tmp2;
*12c85518Srobert  __v2df __result;
e5dd7070Spatrick
*12c85518Srobert  __temp = (__v4si)vec_splats(__A);
*12c85518Srobert  __tmp2 = (__v2di)vec_unpackl(__temp);
*12c85518Srobert  __result = vec_ctf((__vector signed long long)__tmp2, 0);
*12c85518Srobert  return (__m128d)__result;
e5dd7070Spatrick}
e5dd7070Spatrick#endif
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtps_epi32(__m128 __A) {
*12c85518Srobert  __v4sf __rounded;
*12c85518Srobert  __v4si __result;
e5dd7070Spatrick
*12c85518Srobert  __rounded = vec_rint((__v4sf)__A);
*12c85518Srobert  __result = vec_cts(__rounded, 0);
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvttps_epi32(__m128 __A) {
*12c85518Srobert  __v4si __result;
e5dd7070Spatrick
*12c85518Srobert  __result = vec_cts((__v4sf)__A, 0);
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtps_pd(__m128 __A) {
e5dd7070Spatrick  /* Check if vec_doubleh is defined by <altivec.h>. If so use that. */
e5dd7070Spatrick#ifdef vec_doubleh
e5dd7070Spatrick  return (__m128d)vec_doubleh((__v4sf)__A);
e5dd7070Spatrick#else
e5dd7070Spatrick  /* Otherwise the compiler is not current and so need to generate the
e5dd7070Spatrick     equivalent code.  */
*12c85518Srobert  __v4sf __a = (__v4sf)__A;
*12c85518Srobert  __v4sf __temp;
*12c85518Srobert  __v2df __result;
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
e5dd7070Spatrick  /* The input float values are in elements {[0], [1]} but the convert
e5dd7070Spatrick     instruction needs them in elements {[1], [3]}, So we use two
e5dd7070Spatrick     shift left double vector word immediates to get the elements
e5dd7070Spatrick     lined up.  */
*12c85518Srobert  __temp = __builtin_vsx_xxsldwi(__a, __a, 3);
*12c85518Srobert  __temp = __builtin_vsx_xxsldwi(__a, __temp, 2);
e5dd7070Spatrick#else
e5dd7070Spatrick  /* The input float values are in elements {[0], [1]} but the convert
e5dd7070Spatrick     instruction needs them in elements {[0], [2]}, So we use two
e5dd7070Spatrick     shift left double vector word immediates to get the elements
e5dd7070Spatrick     lined up.  */
*12c85518Srobert  __temp = vec_vmrghw(__a, __a);
e5dd7070Spatrick#endif
*12c85518Srobert  __asm__(" xvcvspdp %x0,%x1" : "=wa"(__result) : "wa"(__temp) :);
*12c85518Srobert  return (__m128d)__result;
e5dd7070Spatrick#endif
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline int
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtsd_si32(__m128d __A) {
*12c85518Srobert  __v2df __rounded = vec_rint((__v2df)__A);
*12c85518Srobert  int __result = ((__v2df)__rounded)[0];
e5dd7070Spatrick
*12c85518Srobert  return __result;
e5dd7070Spatrick}
e5dd7070Spatrick/* Intel intrinsic.  */
*12c85518Srobertextern __inline long long
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtsd_si64(__m128d __A) {
*12c85518Srobert  __v2df __rounded = vec_rint((__v2df)__A);
*12c85518Srobert  long long __result = ((__v2df)__rounded)[0];
e5dd7070Spatrick
*12c85518Srobert  return __result;
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Microsoft intrinsic.  */
*12c85518Srobertextern __inline long long
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtsd_si64x(__m128d __A) {
e5dd7070Spatrick  return _mm_cvtsd_si64((__v2df)__A);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline int
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvttsd_si32(__m128d __A) {
*12c85518Srobert  int __result = ((__v2df)__A)[0];
e5dd7070Spatrick
*12c85518Srobert  return __result;
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Intel intrinsic.  */
*12c85518Srobertextern __inline long long
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvttsd_si64(__m128d __A) {
*12c85518Srobert  long long __result = ((__v2df)__A)[0];
e5dd7070Spatrick
*12c85518Srobert  return __result;
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Microsoft intrinsic.  */
*12c85518Srobertextern __inline long long
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvttsd_si64x(__m128d __A) {
e5dd7070Spatrick  return _mm_cvttsd_si64(__A);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtsd_ss(__m128 __A, __m128d __B) {
*12c85518Srobert  __v4sf __result = (__v4sf)__A;
e5dd7070Spatrick
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
*12c85518Srobert  __v4sf __temp_s;
e5dd7070Spatrick  /* Copy double element[0] to element [1] for conversion.  */
*12c85518Srobert  __v2df __temp_b = vec_splat((__v2df)__B, 0);
e5dd7070Spatrick
e5dd7070Spatrick  /* Pre-rotate __A left 3 (logically right 1) elements.  */
*12c85518Srobert  __result = __builtin_vsx_xxsldwi(__result, __result, 3);
e5dd7070Spatrick  /* Convert double to single float scalar in a vector.  */
*12c85518Srobert  __asm__("xscvdpsp %x0,%x1" : "=wa"(__temp_s) : "wa"(__temp_b) :);
e5dd7070Spatrick  /* Shift the resulting scalar into vector element [0].  */
*12c85518Srobert  __result = __builtin_vsx_xxsldwi(__result, __temp_s, 1);
e5dd7070Spatrick#else
*12c85518Srobert  __result[0] = ((__v2df)__B)[0];
e5dd7070Spatrick#endif
*12c85518Srobert  return (__m128)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtsi32_sd(__m128d __A, int __B) {
*12c85518Srobert  __v2df __result = (__v2df)__A;
*12c85518Srobert  double __db = __B;
*12c85518Srobert  __result[0] = __db;
*12c85518Srobert  return (__m128d)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Intel intrinsic.  */
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtsi64_sd(__m128d __A, long long __B) {
*12c85518Srobert  __v2df __result = (__v2df)__A;
*12c85518Srobert  double __db = __B;
*12c85518Srobert  __result[0] = __db;
*12c85518Srobert  return (__m128d)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Microsoft intrinsic.  */
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtsi64x_sd(__m128d __A, long long __B) {
e5dd7070Spatrick  return _mm_cvtsi64_sd(__A, __B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtss_sd(__m128d __A, __m128 __B) {
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
e5dd7070Spatrick  /* Use splat to move element [0] into position for the convert. */
*12c85518Srobert  __v4sf __temp = vec_splat((__v4sf)__B, 0);
*12c85518Srobert  __v2df __res;
e5dd7070Spatrick  /* Convert single float scalar to double in a vector.  */
*12c85518Srobert  __asm__("xscvspdp %x0,%x1" : "=wa"(__res) : "wa"(__temp) :);
*12c85518Srobert  return (__m128d)vec_mergel(__res, (__v2df)__A);
e5dd7070Spatrick#else
*12c85518Srobert  __v2df __res = (__v2df)__A;
*12c85518Srobert  __res[0] = ((__v4sf)__B)[0];
*12c85518Srobert  return (__m128d)__res;
e5dd7070Spatrick#endif
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_shuffle_pd(__m128d __A, __m128d __B, const int __mask) {
*12c85518Srobert  __vector double __result;
*12c85518Srobert  const int __litmsk = __mask & 0x3;
e5dd7070Spatrick
*12c85518Srobert  if (__litmsk == 0)
*12c85518Srobert    __result = vec_mergeh(__A, __B);
e5dd7070Spatrick#if __GNUC__ < 6
*12c85518Srobert  else if (__litmsk == 1)
*12c85518Srobert    __result = vec_xxpermdi(__B, __A, 2);
*12c85518Srobert  else if (__litmsk == 2)
*12c85518Srobert    __result = vec_xxpermdi(__B, __A, 1);
e5dd7070Spatrick#else
*12c85518Srobert  else if (__litmsk == 1)
*12c85518Srobert    __result = vec_xxpermdi(__A, __B, 2);
*12c85518Srobert  else if (__litmsk == 2)
*12c85518Srobert    __result = vec_xxpermdi(__A, __B, 1);
e5dd7070Spatrick#endif
e5dd7070Spatrick  else
*12c85518Srobert    __result = vec_mergel(__A, __B);
e5dd7070Spatrick
*12c85518Srobert  return __result;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_unpackhi_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (__m128d)vec_mergel((__v2df)__A, (__v2df)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_unpacklo_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (__m128d)vec_mergeh((__v2df)__A, (__v2df)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_loadh_pd(__m128d __A, double const *__B) {
*12c85518Srobert  __v2df __result = (__v2df)__A;
*12c85518Srobert  __result[1] = *__B;
*12c85518Srobert  return (__m128d)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_loadl_pd(__m128d __A, double const *__B) {
*12c85518Srobert  __v2df __result = (__v2df)__A;
*12c85518Srobert  __result[0] = *__B;
*12c85518Srobert  return (__m128d)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick#ifdef _ARCH_PWR8
e5dd7070Spatrick/* Intrinsic functions that require PowerISA 2.07 minimum.  */
e5dd7070Spatrick
e5dd7070Spatrick/* Creates a 2-bit mask from the most significant bits of the DPFP values.  */
*12c85518Srobertextern __inline int
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_movemask_pd(__m128d __A) {
*12c85518Srobert#ifdef _ARCH_PWR10
*12c85518Srobert  return vec_extractm((__v2du)__A);
*12c85518Srobert#else
*12c85518Srobert  __vector unsigned long long __result;
*12c85518Srobert  static const __vector unsigned int __perm_mask = {
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
e5dd7070Spatrick      0x80800040, 0x80808080, 0x80808080, 0x80808080
e5dd7070Spatrick#else
e5dd7070Spatrick      0x80808080, 0x80808080, 0x80808080, 0x80804000
e5dd7070Spatrick#endif
e5dd7070Spatrick  };
e5dd7070Spatrick
*12c85518Srobert  __result = ((__vector unsigned long long)vec_vbpermq(
*12c85518Srobert      (__vector unsigned char)__A, (__vector unsigned char)__perm_mask));
e5dd7070Spatrick
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
*12c85518Srobert  return __result[1];
e5dd7070Spatrick#else
*12c85518Srobert  return __result[0];
e5dd7070Spatrick#endif
*12c85518Srobert#endif /* !_ARCH_PWR10 */
e5dd7070Spatrick}
e5dd7070Spatrick#endif /* _ARCH_PWR8 */
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_packs_epi16(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_packs((__v8hi)__A, (__v8hi)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_packs_epi32(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_packs((__v4si)__A, (__v4si)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_packus_epi16(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_packsu((__v8hi)__A, (__v8hi)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_unpackhi_epi8(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_mergel((__v16qu)__A, (__v16qu)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_unpackhi_epi16(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_mergel((__v8hu)__A, (__v8hu)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_unpackhi_epi32(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_mergel((__v4su)__A, (__v4su)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_unpackhi_epi64(__m128i __A, __m128i __B) {
*12c85518Srobert  return (__m128i)vec_mergel((__vector long long)__A, (__vector long long)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_unpacklo_epi8(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_mergeh((__v16qu)__A, (__v16qu)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_unpacklo_epi16(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_mergeh((__v8hi)__A, (__v8hi)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_unpacklo_epi32(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_mergeh((__v4si)__A, (__v4si)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_unpacklo_epi64(__m128i __A, __m128i __B) {
*12c85518Srobert  return (__m128i)vec_mergeh((__vector long long)__A, (__vector long long)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_add_epi8(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)((__v16qu)__A + (__v16qu)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_add_epi16(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)((__v8hu)__A + (__v8hu)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_add_epi32(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)((__v4su)__A + (__v4su)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_add_epi64(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)((__v2du)__A + (__v2du)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_adds_epi8(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_adds((__v16qi)__A, (__v16qi)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_adds_epi16(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_adds((__v8hi)__A, (__v8hi)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_adds_epu8(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_adds((__v16qu)__A, (__v16qu)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_adds_epu16(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_adds((__v8hu)__A, (__v8hu)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_sub_epi8(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)((__v16qu)__A - (__v16qu)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_sub_epi16(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)((__v8hu)__A - (__v8hu)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_sub_epi32(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)((__v4su)__A - (__v4su)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_sub_epi64(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)((__v2du)__A - (__v2du)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_subs_epi8(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_subs((__v16qi)__A, (__v16qi)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_subs_epi16(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_subs((__v8hi)__A, (__v8hi)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_subs_epu8(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_subs((__v16qu)__A, (__v16qu)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_subs_epu16(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_subs((__v8hu)__A, (__v8hu)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_madd_epi16(__m128i __A, __m128i __B) {
*12c85518Srobert  __vector signed int __zero = {0, 0, 0, 0};
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)vec_vmsumshm((__v8hi)__A, (__v8hi)__B, __zero);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_mulhi_epi16(__m128i __A, __m128i __B) {
*12c85518Srobert  __vector signed int __w0, __w1;
e5dd7070Spatrick
*12c85518Srobert  __vector unsigned char __xform1 = {
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
*12c85518Srobert      0x02, 0x03, 0x12, 0x13, 0x06, 0x07, 0x16, 0x17, 0x0A,
*12c85518Srobert      0x0B, 0x1A, 0x1B, 0x0E, 0x0F, 0x1E, 0x1F
e5dd7070Spatrick#else
*12c85518Srobert      0x00, 0x01, 0x10, 0x11, 0x04, 0x05, 0x14, 0x15, 0x08,
*12c85518Srobert      0x09, 0x18, 0x19, 0x0C, 0x0D, 0x1C, 0x1D
e5dd7070Spatrick#endif
e5dd7070Spatrick  };
e5dd7070Spatrick
*12c85518Srobert  __w0 = vec_vmulesh((__v8hi)__A, (__v8hi)__B);
*12c85518Srobert  __w1 = vec_vmulosh((__v8hi)__A, (__v8hi)__B);
*12c85518Srobert  return (__m128i)vec_perm(__w0, __w1, __xform1);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_mullo_epi16(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)((__v8hi)__A * (__v8hi)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m64
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_mul_su32(__m64 __A, __m64 __B) {
*12c85518Srobert  unsigned int __a = __A;
*12c85518Srobert  unsigned int __b = __B;
e5dd7070Spatrick
*12c85518Srobert  return ((__m64)__a * (__m64)__b);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobert#ifdef _ARCH_PWR8
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_mul_epu32(__m128i __A, __m128i __B) {
e5dd7070Spatrick#if __GNUC__ < 8
*12c85518Srobert  __v2du __result;
e5dd7070Spatrick
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
e5dd7070Spatrick  /* VMX Vector Multiply Odd Unsigned Word.  */
*12c85518Srobert  __asm__("vmulouw %0,%1,%2" : "=v"(__result) : "v"(__A), "v"(__B) :);
e5dd7070Spatrick#else
e5dd7070Spatrick  /* VMX Vector Multiply Even Unsigned Word.  */
*12c85518Srobert  __asm__("vmuleuw %0,%1,%2" : "=v"(__result) : "v"(__A), "v"(__B) :);
e5dd7070Spatrick#endif
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick#else
e5dd7070Spatrick  return (__m128i)vec_mule((__v4su)__A, (__v4su)__B);
e5dd7070Spatrick#endif
e5dd7070Spatrick}
*12c85518Srobert#endif
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_slli_epi16(__m128i __A, int __B) {
*12c85518Srobert  __v8hu __lshift;
*12c85518Srobert  __v8hi __result = {0, 0, 0, 0, 0, 0, 0, 0};
e5dd7070Spatrick
*12c85518Srobert  if (__B >= 0 && __B < 16) {
e5dd7070Spatrick    if (__builtin_constant_p(__B))
*12c85518Srobert      __lshift = (__v8hu)vec_splat_s16(__B);
e5dd7070Spatrick    else
*12c85518Srobert      __lshift = vec_splats((unsigned short)__B);
e5dd7070Spatrick
*12c85518Srobert    __result = vec_sl((__v8hi)__A, __lshift);
e5dd7070Spatrick  }
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_slli_epi32(__m128i __A, int __B) {
*12c85518Srobert  __v4su __lshift;
*12c85518Srobert  __v4si __result = {0, 0, 0, 0};
e5dd7070Spatrick
*12c85518Srobert  if (__B >= 0 && __B < 32) {
e5dd7070Spatrick    if (__builtin_constant_p(__B) && __B < 16)
*12c85518Srobert      __lshift = (__v4su)vec_splat_s32(__B);
e5dd7070Spatrick    else
*12c85518Srobert      __lshift = vec_splats((unsigned int)__B);
e5dd7070Spatrick
*12c85518Srobert    __result = vec_sl((__v4si)__A, __lshift);
e5dd7070Spatrick  }
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick#ifdef _ARCH_PWR8
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_slli_epi64(__m128i __A, int __B) {
*12c85518Srobert  __v2du __lshift;
*12c85518Srobert  __v2di __result = {0, 0};
e5dd7070Spatrick
*12c85518Srobert  if (__B >= 0 && __B < 64) {
e5dd7070Spatrick    if (__builtin_constant_p(__B) && __B < 16)
*12c85518Srobert      __lshift = (__v2du)vec_splat_s32(__B);
e5dd7070Spatrick    else
*12c85518Srobert      __lshift = (__v2du)vec_splats((unsigned int)__B);
e5dd7070Spatrick
*12c85518Srobert    __result = vec_sl((__v2di)__A, __lshift);
e5dd7070Spatrick  }
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick#endif
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_srai_epi16(__m128i __A, int __B) {
*12c85518Srobert  __v8hu __rshift = {15, 15, 15, 15, 15, 15, 15, 15};
*12c85518Srobert  __v8hi __result;
e5dd7070Spatrick
*12c85518Srobert  if (__B < 16) {
e5dd7070Spatrick    if (__builtin_constant_p(__B))
*12c85518Srobert      __rshift = (__v8hu)vec_splat_s16(__B);
e5dd7070Spatrick    else
*12c85518Srobert      __rshift = vec_splats((unsigned short)__B);
e5dd7070Spatrick  }
*12c85518Srobert  __result = vec_sra((__v8hi)__A, __rshift);
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_srai_epi32(__m128i __A, int __B) {
*12c85518Srobert  __v4su __rshift = {31, 31, 31, 31};
*12c85518Srobert  __v4si __result;
e5dd7070Spatrick
*12c85518Srobert  if (__B < 32) {
*12c85518Srobert    if (__builtin_constant_p(__B)) {
e5dd7070Spatrick      if (__B < 16)
*12c85518Srobert        __rshift = (__v4su)vec_splat_s32(__B);
e5dd7070Spatrick      else
*12c85518Srobert        __rshift = (__v4su)vec_splats((unsigned int)__B);
*12c85518Srobert    } else
*12c85518Srobert      __rshift = vec_splats((unsigned int)__B);
e5dd7070Spatrick  }
*12c85518Srobert  __result = vec_sra((__v4si)__A, __rshift);
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_bslli_si128(__m128i __A, const int __N) {
*12c85518Srobert  __v16qu __result;
*12c85518Srobert  const __v16qu __zeros = {0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0};
e5dd7070Spatrick
e5dd7070Spatrick  if (__N < 16)
*12c85518Srobert    __result = vec_sld((__v16qu)__A, __zeros, __N);
e5dd7070Spatrick  else
*12c85518Srobert    __result = __zeros;
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_bsrli_si128(__m128i __A, const int __N) {
*12c85518Srobert  __v16qu __result;
*12c85518Srobert  const __v16qu __zeros = {0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0};
e5dd7070Spatrick
e5dd7070Spatrick  if (__N < 16)
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
e5dd7070Spatrick    if (__builtin_constant_p(__N))
e5dd7070Spatrick      /* Would like to use Vector Shift Left Double by Octet
e5dd7070Spatrick         Immediate here to use the immediate form and avoid
e5dd7070Spatrick         load of __N * 8 value into a separate VR.  */
*12c85518Srobert      __result = vec_sld(__zeros, (__v16qu)__A, (16 - __N));
e5dd7070Spatrick    else
e5dd7070Spatrick#endif
e5dd7070Spatrick    {
*12c85518Srobert      __v16qu __shift = vec_splats((unsigned char)(__N * 8));
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
*12c85518Srobert      __result = vec_sro((__v16qu)__A, __shift);
e5dd7070Spatrick#else
*12c85518Srobert    __result = vec_slo((__v16qu)__A, __shift);
e5dd7070Spatrick#endif
e5dd7070Spatrick    }
e5dd7070Spatrick  else
*12c85518Srobert    __result = __zeros;
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_srli_si128(__m128i __A, const int __N) {
e5dd7070Spatrick  return _mm_bsrli_si128(__A, __N);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_slli_si128(__m128i __A, const int _imm5) {
*12c85518Srobert  __v16qu __result;
*12c85518Srobert  const __v16qu __zeros = {0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0};
e5dd7070Spatrick
e5dd7070Spatrick  if (_imm5 < 16)
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
*12c85518Srobert    __result = vec_sld((__v16qu)__A, __zeros, _imm5);
e5dd7070Spatrick#else
*12c85518Srobert    __result = vec_sld(__zeros, (__v16qu)__A, (16 - _imm5));
e5dd7070Spatrick#endif
e5dd7070Spatrick  else
*12c85518Srobert    __result = __zeros;
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
e5dd7070Spatrick
*12c85518Srobert    _mm_srli_epi16(__m128i __A, int __B) {
*12c85518Srobert  __v8hu __rshift;
*12c85518Srobert  __v8hi __result = {0, 0, 0, 0, 0, 0, 0, 0};
e5dd7070Spatrick
*12c85518Srobert  if (__B < 16) {
e5dd7070Spatrick    if (__builtin_constant_p(__B))
*12c85518Srobert      __rshift = (__v8hu)vec_splat_s16(__B);
e5dd7070Spatrick    else
*12c85518Srobert      __rshift = vec_splats((unsigned short)__B);
e5dd7070Spatrick
*12c85518Srobert    __result = vec_sr((__v8hi)__A, __rshift);
e5dd7070Spatrick  }
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_srli_epi32(__m128i __A, int __B) {
*12c85518Srobert  __v4su __rshift;
*12c85518Srobert  __v4si __result = {0, 0, 0, 0};
e5dd7070Spatrick
*12c85518Srobert  if (__B < 32) {
*12c85518Srobert    if (__builtin_constant_p(__B)) {
e5dd7070Spatrick      if (__B < 16)
*12c85518Srobert        __rshift = (__v4su)vec_splat_s32(__B);
e5dd7070Spatrick      else
*12c85518Srobert        __rshift = (__v4su)vec_splats((unsigned int)__B);
*12c85518Srobert    } else
*12c85518Srobert      __rshift = vec_splats((unsigned int)__B);
e5dd7070Spatrick
*12c85518Srobert    __result = vec_sr((__v4si)__A, __rshift);
e5dd7070Spatrick  }
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick#ifdef _ARCH_PWR8
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_srli_epi64(__m128i __A, int __B) {
*12c85518Srobert  __v2du __rshift;
*12c85518Srobert  __v2di __result = {0, 0};
e5dd7070Spatrick
*12c85518Srobert  if (__B < 64) {
*12c85518Srobert    if (__builtin_constant_p(__B)) {
e5dd7070Spatrick      if (__B < 16)
*12c85518Srobert        __rshift = (__v2du)vec_splat_s32(__B);
e5dd7070Spatrick      else
*12c85518Srobert        __rshift = (__v2du)vec_splats((unsigned long long)__B);
*12c85518Srobert    } else
*12c85518Srobert      __rshift = (__v2du)vec_splats((unsigned int)__B);
e5dd7070Spatrick
*12c85518Srobert    __result = vec_sr((__v2di)__A, __rshift);
e5dd7070Spatrick  }
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick#endif
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_sll_epi16(__m128i __A, __m128i __B) {
*12c85518Srobert  __v8hu __lshift;
*12c85518Srobert  __vector __bool short __shmask;
*12c85518Srobert  const __v8hu __shmax = {15, 15, 15, 15, 15, 15, 15, 15};
*12c85518Srobert  __v8hu __result;
e5dd7070Spatrick
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
*12c85518Srobert  __lshift = vec_splat((__v8hu)__B, 0);
e5dd7070Spatrick#else
*12c85518Srobert  __lshift = vec_splat((__v8hu)__B, 3);
e5dd7070Spatrick#endif
*12c85518Srobert  __shmask = vec_cmple(__lshift, __shmax);
*12c85518Srobert  __result = vec_sl((__v8hu)__A, __lshift);
*12c85518Srobert  __result = vec_sel((__v8hu)__shmask, __result, __shmask);
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_sll_epi32(__m128i __A, __m128i __B) {
*12c85518Srobert  __v4su __lshift;
*12c85518Srobert  __vector __bool int __shmask;
*12c85518Srobert  const __v4su __shmax = {32, 32, 32, 32};
*12c85518Srobert  __v4su __result;
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
*12c85518Srobert  __lshift = vec_splat((__v4su)__B, 0);
e5dd7070Spatrick#else
*12c85518Srobert  __lshift = vec_splat((__v4su)__B, 1);
e5dd7070Spatrick#endif
*12c85518Srobert  __shmask = vec_cmplt(__lshift, __shmax);
*12c85518Srobert  __result = vec_sl((__v4su)__A, __lshift);
*12c85518Srobert  __result = vec_sel((__v4su)__shmask, __result, __shmask);
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick#ifdef _ARCH_PWR8
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_sll_epi64(__m128i __A, __m128i __B) {
*12c85518Srobert  __v2du __lshift;
*12c85518Srobert  __vector __bool long long __shmask;
*12c85518Srobert  const __v2du __shmax = {64, 64};
*12c85518Srobert  __v2du __result;
e5dd7070Spatrick
*12c85518Srobert  __lshift = vec_splat((__v2du)__B, 0);
*12c85518Srobert  __shmask = vec_cmplt(__lshift, __shmax);
*12c85518Srobert  __result = vec_sl((__v2du)__A, __lshift);
*12c85518Srobert  __result = vec_sel((__v2du)__shmask, __result, __shmask);
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick#endif
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_sra_epi16(__m128i __A, __m128i __B) {
*12c85518Srobert  const __v8hu __rshmax = {15, 15, 15, 15, 15, 15, 15, 15};
*12c85518Srobert  __v8hu __rshift;
*12c85518Srobert  __v8hi __result;
e5dd7070Spatrick
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
*12c85518Srobert  __rshift = vec_splat((__v8hu)__B, 0);
e5dd7070Spatrick#else
*12c85518Srobert  __rshift = vec_splat((__v8hu)__B, 3);
e5dd7070Spatrick#endif
*12c85518Srobert  __rshift = vec_min(__rshift, __rshmax);
*12c85518Srobert  __result = vec_sra((__v8hi)__A, __rshift);
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_sra_epi32(__m128i __A, __m128i __B) {
*12c85518Srobert  const __v4su __rshmax = {31, 31, 31, 31};
*12c85518Srobert  __v4su __rshift;
*12c85518Srobert  __v4si __result;
e5dd7070Spatrick
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
*12c85518Srobert  __rshift = vec_splat((__v4su)__B, 0);
e5dd7070Spatrick#else
*12c85518Srobert  __rshift = vec_splat((__v4su)__B, 1);
e5dd7070Spatrick#endif
*12c85518Srobert  __rshift = vec_min(__rshift, __rshmax);
*12c85518Srobert  __result = vec_sra((__v4si)__A, __rshift);
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_srl_epi16(__m128i __A, __m128i __B) {
*12c85518Srobert  __v8hu __rshift;
*12c85518Srobert  __vector __bool short __shmask;
*12c85518Srobert  const __v8hu __shmax = {15, 15, 15, 15, 15, 15, 15, 15};
*12c85518Srobert  __v8hu __result;
e5dd7070Spatrick
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
*12c85518Srobert  __rshift = vec_splat((__v8hu)__B, 0);
e5dd7070Spatrick#else
*12c85518Srobert  __rshift = vec_splat((__v8hu)__B, 3);
e5dd7070Spatrick#endif
*12c85518Srobert  __shmask = vec_cmple(__rshift, __shmax);
*12c85518Srobert  __result = vec_sr((__v8hu)__A, __rshift);
*12c85518Srobert  __result = vec_sel((__v8hu)__shmask, __result, __shmask);
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_srl_epi32(__m128i __A, __m128i __B) {
*12c85518Srobert  __v4su __rshift;
*12c85518Srobert  __vector __bool int __shmask;
*12c85518Srobert  const __v4su __shmax = {32, 32, 32, 32};
*12c85518Srobert  __v4su __result;
e5dd7070Spatrick
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
*12c85518Srobert  __rshift = vec_splat((__v4su)__B, 0);
e5dd7070Spatrick#else
*12c85518Srobert  __rshift = vec_splat((__v4su)__B, 1);
e5dd7070Spatrick#endif
*12c85518Srobert  __shmask = vec_cmplt(__rshift, __shmax);
*12c85518Srobert  __result = vec_sr((__v4su)__A, __rshift);
*12c85518Srobert  __result = vec_sel((__v4su)__shmask, __result, __shmask);
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick#ifdef _ARCH_PWR8
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_srl_epi64(__m128i __A, __m128i __B) {
*12c85518Srobert  __v2du __rshift;
*12c85518Srobert  __vector __bool long long __shmask;
*12c85518Srobert  const __v2du __shmax = {64, 64};
*12c85518Srobert  __v2du __result;
e5dd7070Spatrick
*12c85518Srobert  __rshift = vec_splat((__v2du)__B, 0);
*12c85518Srobert  __shmask = vec_cmplt(__rshift, __shmax);
*12c85518Srobert  __result = vec_sr((__v2du)__A, __rshift);
*12c85518Srobert  __result = vec_sel((__v2du)__shmask, __result, __shmask);
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick#endif
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_and_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (vec_and((__v2df)__A, (__v2df)__B));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_andnot_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (vec_andc((__v2df)__B, (__v2df)__A));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_or_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (vec_or((__v2df)__A, (__v2df)__B));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_xor_pd(__m128d __A, __m128d __B) {
e5dd7070Spatrick  return (vec_xor((__v2df)__A, (__v2df)__B));
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_and_si128(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_and((__v2di)__A, (__v2di)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_andnot_si128(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_andc((__v2di)__B, (__v2di)__A);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_or_si128(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_or((__v2di)__A, (__v2di)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_xor_si128(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_xor((__v2di)__A, (__v2di)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpeq_epi8(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_cmpeq((__v16qi)__A, (__v16qi)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpeq_epi16(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_cmpeq((__v8hi)__A, (__v8hi)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpeq_epi32(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_cmpeq((__v4si)__A, (__v4si)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmplt_epi8(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_cmplt((__v16qi)__A, (__v16qi)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmplt_epi16(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_cmplt((__v8hi)__A, (__v8hi)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmplt_epi32(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_cmplt((__v4si)__A, (__v4si)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpgt_epi8(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_cmpgt((__v16qi)__A, (__v16qi)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpgt_epi16(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_cmpgt((__v8hi)__A, (__v8hi)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cmpgt_epi32(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_cmpgt((__v4si)__A, (__v4si)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline int
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_extract_epi16(__m128i const __A, int const __N) {
e5dd7070Spatrick  return (unsigned short)((__v8hi)__A)[__N & 7];
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_insert_epi16(__m128i const __A, int const __D, int const __N) {
*12c85518Srobert  __v8hi __result = (__v8hi)__A;
e5dd7070Spatrick
*12c85518Srobert  __result[(__N & 7)] = __D;
e5dd7070Spatrick
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_max_epi16(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_max((__v8hi)__A, (__v8hi)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_max_epu8(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_max((__v16qu)__A, (__v16qu)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_min_epi16(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_min((__v8hi)__A, (__v8hi)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_min_epu8(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_min((__v16qu)__A, (__v16qu)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick#ifdef _ARCH_PWR8
e5dd7070Spatrick/* Intrinsic functions that require PowerISA 2.07 minimum.  */
e5dd7070Spatrick
*12c85518Srobert/* Return a mask created from the most significant bit of each 8-bit
*12c85518Srobert   element in A.  */
*12c85518Srobertextern __inline int
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_movemask_epi8(__m128i __A) {
*12c85518Srobert#ifdef _ARCH_PWR10
*12c85518Srobert  return vec_extractm((__v16qu)__A);
*12c85518Srobert#else
*12c85518Srobert  __vector unsigned long long __result;
*12c85518Srobert  static const __vector unsigned char __perm_mask = {
e5dd7070Spatrick      0x78, 0x70, 0x68, 0x60, 0x58, 0x50, 0x48, 0x40,
*12c85518Srobert      0x38, 0x30, 0x28, 0x20, 0x18, 0x10, 0x08, 0x00};
e5dd7070Spatrick
*12c85518Srobert  __result = ((__vector unsigned long long)vec_vbpermq(
*12c85518Srobert      (__vector unsigned char)__A, (__vector unsigned char)__perm_mask));
e5dd7070Spatrick
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
*12c85518Srobert  return __result[1];
e5dd7070Spatrick#else
*12c85518Srobert  return __result[0];
e5dd7070Spatrick#endif
*12c85518Srobert#endif /* !_ARCH_PWR10 */
e5dd7070Spatrick}
e5dd7070Spatrick#endif /* _ARCH_PWR8 */
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_mulhi_epu16(__m128i __A, __m128i __B) {
*12c85518Srobert  __v4su __w0, __w1;
*12c85518Srobert  __v16qu __xform1 = {
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
*12c85518Srobert      0x02, 0x03, 0x12, 0x13, 0x06, 0x07, 0x16, 0x17, 0x0A,
*12c85518Srobert      0x0B, 0x1A, 0x1B, 0x0E, 0x0F, 0x1E, 0x1F
e5dd7070Spatrick#else
*12c85518Srobert      0x00, 0x01, 0x10, 0x11, 0x04, 0x05, 0x14, 0x15, 0x08,
*12c85518Srobert      0x09, 0x18, 0x19, 0x0C, 0x0D, 0x1C, 0x1D
e5dd7070Spatrick#endif
e5dd7070Spatrick  };
e5dd7070Spatrick
*12c85518Srobert  __w0 = vec_vmuleuh((__v8hu)__A, (__v8hu)__B);
*12c85518Srobert  __w1 = vec_vmulouh((__v8hu)__A, (__v8hu)__B);
*12c85518Srobert  return (__m128i)vec_perm(__w0, __w1, __xform1);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_shufflehi_epi16(__m128i __A, const int __mask) {
*12c85518Srobert  unsigned long __element_selector_98 = __mask & 0x03;
*12c85518Srobert  unsigned long __element_selector_BA = (__mask >> 2) & 0x03;
*12c85518Srobert  unsigned long __element_selector_DC = (__mask >> 4) & 0x03;
*12c85518Srobert  unsigned long __element_selector_FE = (__mask >> 6) & 0x03;
*12c85518Srobert  static const unsigned short __permute_selectors[4] = {
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
e5dd7070Spatrick      0x0908, 0x0B0A, 0x0D0C, 0x0F0E
e5dd7070Spatrick#else
e5dd7070Spatrick      0x0809, 0x0A0B, 0x0C0D, 0x0E0F
e5dd7070Spatrick#endif
e5dd7070Spatrick  };
*12c85518Srobert  __v2du __pmask =
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
e5dd7070Spatrick      {0x1716151413121110UL, 0UL};
e5dd7070Spatrick#else
e5dd7070Spatrick      {0x1011121314151617UL, 0UL};
e5dd7070Spatrick#endif
*12c85518Srobert  __m64_union __t;
*12c85518Srobert  __v2du __a, __r;
e5dd7070Spatrick
*12c85518Srobert  __t.as_short[0] = __permute_selectors[__element_selector_98];
*12c85518Srobert  __t.as_short[1] = __permute_selectors[__element_selector_BA];
*12c85518Srobert  __t.as_short[2] = __permute_selectors[__element_selector_DC];
*12c85518Srobert  __t.as_short[3] = __permute_selectors[__element_selector_FE];
*12c85518Srobert  __pmask[1] = __t.as_m64;
*12c85518Srobert  __a = (__v2du)__A;
*12c85518Srobert  __r = vec_perm(__a, __a, (__vector unsigned char)__pmask);
*12c85518Srobert  return (__m128i)__r;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_shufflelo_epi16(__m128i __A, const int __mask) {
*12c85518Srobert  unsigned long __element_selector_10 = __mask & 0x03;
*12c85518Srobert  unsigned long __element_selector_32 = (__mask >> 2) & 0x03;
*12c85518Srobert  unsigned long __element_selector_54 = (__mask >> 4) & 0x03;
*12c85518Srobert  unsigned long __element_selector_76 = (__mask >> 6) & 0x03;
*12c85518Srobert  static const unsigned short __permute_selectors[4] = {
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
e5dd7070Spatrick      0x0100, 0x0302, 0x0504, 0x0706
e5dd7070Spatrick#else
e5dd7070Spatrick      0x0001, 0x0203, 0x0405, 0x0607
e5dd7070Spatrick#endif
e5dd7070Spatrick  };
*12c85518Srobert  __v2du __pmask =
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
e5dd7070Spatrick      {0UL, 0x1f1e1d1c1b1a1918UL};
e5dd7070Spatrick#else
e5dd7070Spatrick      {0UL, 0x18191a1b1c1d1e1fUL};
e5dd7070Spatrick#endif
*12c85518Srobert  __m64_union __t;
*12c85518Srobert  __v2du __a, __r;
*12c85518Srobert  __t.as_short[0] = __permute_selectors[__element_selector_10];
*12c85518Srobert  __t.as_short[1] = __permute_selectors[__element_selector_32];
*12c85518Srobert  __t.as_short[2] = __permute_selectors[__element_selector_54];
*12c85518Srobert  __t.as_short[3] = __permute_selectors[__element_selector_76];
*12c85518Srobert  __pmask[0] = __t.as_m64;
*12c85518Srobert  __a = (__v2du)__A;
*12c85518Srobert  __r = vec_perm(__a, __a, (__vector unsigned char)__pmask);
*12c85518Srobert  return (__m128i)__r;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_shuffle_epi32(__m128i __A, const int __mask) {
*12c85518Srobert  unsigned long __element_selector_10 = __mask & 0x03;
*12c85518Srobert  unsigned long __element_selector_32 = (__mask >> 2) & 0x03;
*12c85518Srobert  unsigned long __element_selector_54 = (__mask >> 4) & 0x03;
*12c85518Srobert  unsigned long __element_selector_76 = (__mask >> 6) & 0x03;
*12c85518Srobert  static const unsigned int __permute_selectors[4] = {
e5dd7070Spatrick#ifdef __LITTLE_ENDIAN__
e5dd7070Spatrick      0x03020100, 0x07060504, 0x0B0A0908, 0x0F0E0D0C
e5dd7070Spatrick#else
e5dd7070Spatrick      0x00010203, 0x04050607, 0x08090A0B, 0x0C0D0E0F
e5dd7070Spatrick#endif
e5dd7070Spatrick  };
*12c85518Srobert  __v4su __t;
e5dd7070Spatrick
*12c85518Srobert  __t[0] = __permute_selectors[__element_selector_10];
*12c85518Srobert  __t[1] = __permute_selectors[__element_selector_32];
*12c85518Srobert  __t[2] = __permute_selectors[__element_selector_54] + 0x10101010;
*12c85518Srobert  __t[3] = __permute_selectors[__element_selector_76] + 0x10101010;
*12c85518Srobert  return (__m128i)vec_perm((__v4si)__A, (__v4si)__A,
*12c85518Srobert                           (__vector unsigned char)__t);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline void
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_maskmoveu_si128(__m128i __A, __m128i __B, char *__C) {
*12c85518Srobert  __v2du __hibit = {0x7f7f7f7f7f7f7f7fUL, 0x7f7f7f7f7f7f7f7fUL};
*12c85518Srobert  __v16qu __mask, __tmp;
*12c85518Srobert  __m128i_u *__p = (__m128i_u *)__C;
e5dd7070Spatrick
*12c85518Srobert  __tmp = (__v16qu)_mm_loadu_si128(__p);
*12c85518Srobert  __mask = (__v16qu)vec_cmpgt((__v16qu)__B, (__v16qu)__hibit);
*12c85518Srobert  __tmp = vec_sel(__tmp, (__v16qu)__A, __mask);
*12c85518Srobert  _mm_storeu_si128(__p, (__m128i)__tmp);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_avg_epu8(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_avg((__v16qu)__A, (__v16qu)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_avg_epu16(__m128i __A, __m128i __B) {
e5dd7070Spatrick  return (__m128i)vec_avg((__v8hu)__A, (__v8hu)__B);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_sad_epu8(__m128i __A, __m128i __B) {
*12c85518Srobert  __v16qu __a, __b;
*12c85518Srobert  __v16qu __vabsdiff;
*12c85518Srobert  __v4si __vsum;
*12c85518Srobert  const __v4su __zero = {0, 0, 0, 0};
*12c85518Srobert  __v4si __result;
e5dd7070Spatrick
*12c85518Srobert  __a = (__v16qu)__A;
*12c85518Srobert  __b = (__v16qu)__B;
*12c85518Srobert#ifndef _ARCH_PWR9
*12c85518Srobert  __v16qu __vmin = vec_min(__a, __b);
*12c85518Srobert  __v16qu __vmax = vec_max(__a, __b);
*12c85518Srobert  __vabsdiff = vec_sub(__vmax, __vmin);
e5dd7070Spatrick#else
*12c85518Srobert  __vabsdiff = vec_absd(__a, __b);
e5dd7070Spatrick#endif
*12c85518Srobert  /* Sum four groups of bytes into integers.  */
*12c85518Srobert  __vsum = (__vector signed int)vec_sum4s(__vabsdiff, __zero);
*12c85518Srobert#ifdef __LITTLE_ENDIAN__
*12c85518Srobert  /* Sum across four integers with two integer results.  */
*12c85518Srobert  __asm__("vsum2sws %0,%1,%2" : "=v"(__result) : "v"(__vsum), "v"(__zero));
*12c85518Srobert  /* Note: vec_sum2s could be used here, but on little-endian, vector
*12c85518Srobert     shifts are added that are not needed for this use-case.
*12c85518Srobert     A vector shift to correctly position the 32-bit integer results
*12c85518Srobert     (currently at [0] and [2]) to [1] and [3] would then need to be
*12c85518Srobert     swapped back again since the desired results are two 64-bit
*12c85518Srobert     integers ([1]|[0] and [3]|[2]).  Thus, no shift is performed.  */
*12c85518Srobert#else
*12c85518Srobert  /* Sum across four integers with two integer results.  */
*12c85518Srobert  __result = vec_sum2s(__vsum, (__vector signed int)__zero);
e5dd7070Spatrick  /* Rotate the sums into the correct position.  */
*12c85518Srobert  __result = vec_sld(__result, __result, 6);
*12c85518Srobert#endif
*12c85518Srobert  return (__m128i)__result;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline void
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_stream_si32(int *__A, int __B) {
e5dd7070Spatrick  /* Use the data cache block touch for store transient.  */
*12c85518Srobert  __asm__("dcbtstt 0,%0" : : "b"(__A) : "memory");
e5dd7070Spatrick  *__A = __B;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline void
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_stream_si64(long long int *__A, long long int __B) {
e5dd7070Spatrick  /* Use the data cache block touch for store transient.  */
*12c85518Srobert  __asm__("	dcbtstt	0,%0" : : "b"(__A) : "memory");
e5dd7070Spatrick  *__A = __B;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline void
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_stream_si128(__m128i *__A, __m128i __B) {
e5dd7070Spatrick  /* Use the data cache block touch for store transient.  */
*12c85518Srobert  __asm__("dcbtstt 0,%0" : : "b"(__A) : "memory");
e5dd7070Spatrick  *__A = __B;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline void
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_stream_pd(double *__A, __m128d __B) {
e5dd7070Spatrick  /* Use the data cache block touch for store transient.  */
*12c85518Srobert  __asm__("dcbtstt 0,%0" : : "b"(__A) : "memory");
e5dd7070Spatrick  *(__m128d *)__A = __B;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline void
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_clflush(void const *__A) {
e5dd7070Spatrick  /* Use the data cache block flush.  */
*12c85518Srobert  __asm__("dcbf 0,%0" : : "b"(__A) : "memory");
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline void
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_lfence(void) {
e5dd7070Spatrick  /* Use light weight sync for load to load ordering.  */
e5dd7070Spatrick  __atomic_thread_fence(__ATOMIC_RELEASE);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline void
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_mfence(void) {
e5dd7070Spatrick  /* Use heavy weight sync for any to any ordering.  */
e5dd7070Spatrick  __atomic_thread_fence(__ATOMIC_SEQ_CST);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtsi32_si128(int __A) {
e5dd7070Spatrick  return _mm_set_epi32(0, 0, 0, __A);
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtsi64_si128(long long __A) {
e5dd7070Spatrick  return __extension__(__m128i)(__v2di){__A, 0LL};
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Microsoft intrinsic.  */
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_cvtsi64x_si128(long long __A) {
e5dd7070Spatrick  return __extension__(__m128i)(__v2di){__A, 0LL};
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick/* Casts between various SP, DP, INT vector types.  Note that these do no
e5dd7070Spatrick   conversion of values, they just change the type.  */
*12c85518Srobertextern __inline __m128
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_castpd_ps(__m128d __A) {
e5dd7070Spatrick  return (__m128)__A;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_castpd_si128(__m128d __A) {
e5dd7070Spatrick  return (__m128i)__A;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_castps_pd(__m128 __A) {
e5dd7070Spatrick  return (__m128d)__A;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128i
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_castps_si128(__m128 __A) {
e5dd7070Spatrick  return (__m128i)__A;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_castsi128_ps(__m128i __A) {
e5dd7070Spatrick  return (__m128)__A;
e5dd7070Spatrick}
e5dd7070Spatrick
*12c85518Srobertextern __inline __m128d
*12c85518Srobert    __attribute__((__gnu_inline__, __always_inline__, __artificial__))
*12c85518Srobert    _mm_castsi128_pd(__m128i __A) {
e5dd7070Spatrick  return (__m128d)__A;
e5dd7070Spatrick}
e5dd7070Spatrick
e5dd7070Spatrick#else
e5dd7070Spatrick#include_next <emmintrin.h>
*12c85518Srobert#endif /* defined(__powerpc64__) &&                                            \
*12c85518Srobert        *   (defined(__linux__) || defined(__FreeBSD__) || defined(_AIX)) */
e5dd7070Spatrick
e5dd7070Spatrick#endif /* EMMINTRIN_H_ */