mpn/arm64/hamdist.asm

f81b1c5bSmrgdnl  ARM64 Neon mpn_hamdist -- mpn bit hamming distance.
f81b1c5bSmrg
f81b1c5bSmrgdnl  Copyright 2013, 2014 Free Software Foundation, Inc.
f81b1c5bSmrg
f81b1c5bSmrgdnl  This file is part of the GNU MP Library.
f81b1c5bSmrgdnl
f81b1c5bSmrgdnl  The GNU MP Library is free software; you can redistribute it and/or modify
f81b1c5bSmrgdnl  it under the terms of either:
f81b1c5bSmrgdnl
f81b1c5bSmrgdnl    * the GNU Lesser General Public License as published by the Free
f81b1c5bSmrgdnl      Software Foundation; either version 3 of the License, or (at your
f81b1c5bSmrgdnl      option) any later version.
f81b1c5bSmrgdnl
f81b1c5bSmrgdnl  or
f81b1c5bSmrgdnl
f81b1c5bSmrgdnl    * the GNU General Public License as published by the Free Software
f81b1c5bSmrgdnl      Foundation; either version 2 of the License, or (at your option) any
f81b1c5bSmrgdnl      later version.
f81b1c5bSmrgdnl
f81b1c5bSmrgdnl  or both in parallel, as here.
f81b1c5bSmrgdnl
f81b1c5bSmrgdnl  The GNU MP Library is distributed in the hope that it will be useful, but
f81b1c5bSmrgdnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
f81b1c5bSmrgdnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
f81b1c5bSmrgdnl  for more details.
f81b1c5bSmrgdnl
f81b1c5bSmrgdnl  You should have received copies of the GNU General Public License and the
f81b1c5bSmrgdnl  GNU Lesser General Public License along with the GNU MP Library.  If not,
f81b1c5bSmrgdnl  see https://www.gnu.org/licenses/.
f81b1c5bSmrg
f81b1c5bSmrginclude(`../config.m4')
f81b1c5bSmrg
f81b1c5bSmrgC	     cycles/limb
*671ea119SmrgC Cortex-A53	 4.5
*671ea119SmrgC Cortex-A57	 1.9
*671ea119SmrgC X-Gene	 4.36
f81b1c5bSmrg
f81b1c5bSmrgC TODO
f81b1c5bSmrgC  * Consider greater unrolling.
f81b1c5bSmrgC  * Arrange to align the pointer, if that helps performance.  Use the same
f81b1c5bSmrgC    read-and-mask trick we use on PCs, for simplicity and performance.  (Sorry
f81b1c5bSmrgC    valgrind!)
f81b1c5bSmrgC  * Explore if explicit align directives, e.g., "[ptr:128]" help.
f81b1c5bSmrgC  * See rth's gmp-devel 2013-02/03 messages about final summation tricks.
f81b1c5bSmrg
*671ea119Smrgchangecom(blah)
f81b1c5bSmrg
f81b1c5bSmrgC INPUT PARAMETERS
f81b1c5bSmrgdefine(`ap', x0)
f81b1c5bSmrgdefine(`bp', x1)
f81b1c5bSmrgdefine(`n',  x2)
f81b1c5bSmrg
f81b1c5bSmrgC We sum into 16 16-bit counters in v4,v5, but at the end we sum them and end
f81b1c5bSmrgC up with 8 16-bit counters.  Therefore, we can sum to 8(2^16-1) bits, or
f81b1c5bSmrgC (8*2^16-1)/64 = 0x1fff limbs.  We use a chunksize close to that, but which
f81b1c5bSmrgC  allows the huge count code to jump deep into the code (at L(chu)).
f81b1c5bSmrg
f81b1c5bSmrgdefine(`maxsize',  0x1fff)
f81b1c5bSmrgdefine(`chunksize',0x1ff0)
f81b1c5bSmrg
f81b1c5bSmrgASM_START()
f81b1c5bSmrgPROLOGUE(mpn_hamdist)
f81b1c5bSmrg
f81b1c5bSmrg	mov	x11, #maxsize
f81b1c5bSmrg	cmp	n, x11
f81b1c5bSmrg	b.hi	L(gt8k)
f81b1c5bSmrg
f81b1c5bSmrgL(lt8k):
f81b1c5bSmrg	movi	v4.16b, #0			C clear summation register
f81b1c5bSmrg	movi	v5.16b, #0			C clear summation register
f81b1c5bSmrg
f81b1c5bSmrg	tbz	n, #0, L(xx0)
f81b1c5bSmrg	sub	n, n, #1
f81b1c5bSmrg	ld1	{v0.1d}, [ap], #8		C load 1 limb
f81b1c5bSmrg	ld1	{v16.1d}, [bp], #8		C load 1 limb
f81b1c5bSmrg	eor	v0.16b, v0.16b, v16.16b
f81b1c5bSmrg	cnt	v6.16b, v0.16b
f81b1c5bSmrg	uadalp	v4.8h,  v6.16b			C could also splat
f81b1c5bSmrg
f81b1c5bSmrgL(xx0):	tbz	n, #1, L(x00)
f81b1c5bSmrg	sub	n, n, #2
f81b1c5bSmrg	ld1	{v0.2d}, [ap], #16		C load 2 limbs
f81b1c5bSmrg	ld1	{v16.2d}, [bp], #16		C load 2 limbs
f81b1c5bSmrg	eor	v0.16b, v0.16b, v16.16b
f81b1c5bSmrg	cnt	v6.16b, v0.16b
f81b1c5bSmrg	uadalp	v4.8h,  v6.16b
f81b1c5bSmrg
f81b1c5bSmrgL(x00):	tbz	n, #2, L(000)
f81b1c5bSmrg	subs	n, n, #4
f81b1c5bSmrg	ld1	{v0.2d,v1.2d}, [ap], #32	C load 4 limbs
f81b1c5bSmrg	ld1	{v16.2d,v17.2d}, [bp], #32	C load 4 limbs
f81b1c5bSmrg	b.ls	L(sum)
f81b1c5bSmrg
f81b1c5bSmrgL(gt4):	ld1	{v2.2d,v3.2d}, [ap], #32	C load 4 limbs
f81b1c5bSmrg	ld1	{v18.2d,v19.2d}, [bp], #32	C load 4 limbs
f81b1c5bSmrg	eor	v0.16b, v0.16b, v16.16b
f81b1c5bSmrg	eor	v1.16b, v1.16b, v17.16b
f81b1c5bSmrg	sub	n, n, #4
f81b1c5bSmrg	cnt	v6.16b, v0.16b
f81b1c5bSmrg	cnt	v7.16b, v1.16b
f81b1c5bSmrg	b	L(mid)
f81b1c5bSmrg
f81b1c5bSmrgL(000):	subs	n, n, #8
f81b1c5bSmrg	b.lo	L(e0)
f81b1c5bSmrg
f81b1c5bSmrgL(chu):	ld1	{v2.2d,v3.2d}, [ap], #32	C load 4 limbs
f81b1c5bSmrg	ld1	{v0.2d,v1.2d}, [ap], #32	C load 4 limbs
f81b1c5bSmrg	ld1	{v18.2d,v19.2d}, [bp], #32	C load 4 limbs
f81b1c5bSmrg	ld1	{v16.2d,v17.2d}, [bp], #32	C load 4 limbs
f81b1c5bSmrg	eor	v2.16b, v2.16b, v18.16b
f81b1c5bSmrg	eor	v3.16b, v3.16b, v19.16b
f81b1c5bSmrg	cnt	v6.16b, v2.16b
f81b1c5bSmrg	cnt	v7.16b, v3.16b
f81b1c5bSmrg	subs	n, n, #8
f81b1c5bSmrg	b.lo	L(end)
f81b1c5bSmrg
f81b1c5bSmrgL(top):	ld1	{v2.2d,v3.2d}, [ap], #32	C load 4 limbs
f81b1c5bSmrg	ld1	{v18.2d,v19.2d}, [bp], #32	C load 4 limbs
f81b1c5bSmrg	eor	v0.16b, v0.16b, v16.16b
f81b1c5bSmrg	eor	v1.16b, v1.16b, v17.16b
f81b1c5bSmrg	uadalp	v4.8h,  v6.16b
f81b1c5bSmrg	cnt	v6.16b, v0.16b
f81b1c5bSmrg	uadalp	v5.8h,  v7.16b
f81b1c5bSmrg	cnt	v7.16b, v1.16b
f81b1c5bSmrgL(mid):	ld1	{v0.2d,v1.2d}, [ap], #32	C load 4 limbs
f81b1c5bSmrg	ld1	{v16.2d,v17.2d}, [bp], #32	C load 4 limbs
f81b1c5bSmrg	eor	v2.16b, v2.16b, v18.16b
f81b1c5bSmrg	eor	v3.16b, v3.16b, v19.16b
f81b1c5bSmrg	subs	n, n, #8
f81b1c5bSmrg	uadalp	v4.8h,  v6.16b
f81b1c5bSmrg	cnt	v6.16b, v2.16b
f81b1c5bSmrg	uadalp	v5.8h,  v7.16b
f81b1c5bSmrg	cnt	v7.16b, v3.16b
f81b1c5bSmrg	b.hs	L(top)
f81b1c5bSmrg
f81b1c5bSmrgL(end):	uadalp	v4.8h,  v6.16b
f81b1c5bSmrg	uadalp	v5.8h,  v7.16b
f81b1c5bSmrgL(sum):	eor	v0.16b, v0.16b, v16.16b
f81b1c5bSmrg	eor	v1.16b, v1.16b, v17.16b
f81b1c5bSmrg	cnt	v6.16b, v0.16b
f81b1c5bSmrg	cnt	v7.16b, v1.16b
f81b1c5bSmrg	uadalp	v4.8h,  v6.16b
f81b1c5bSmrg	uadalp	v5.8h,  v7.16b
f81b1c5bSmrg	add	v4.8h, v4.8h, v5.8h
f81b1c5bSmrg					C we have 8 16-bit counts
f81b1c5bSmrgL(e0):	uaddlp	v4.4s,  v4.8h		C we have 4 32-bit counts
f81b1c5bSmrg	uaddlp	v4.2d,  v4.4s		C we have 2 64-bit counts
f81b1c5bSmrg	mov	x0, v4.d[0]
f81b1c5bSmrg	mov	x1, v4.d[1]
f81b1c5bSmrg	add	x0, x0, x1
f81b1c5bSmrg	ret
f81b1c5bSmrg
f81b1c5bSmrgC Code for count > maxsize.  Splits operand and calls above code.
f81b1c5bSmrgdefine(`ap2', x5)			C caller-saves reg not used above
f81b1c5bSmrgdefine(`bp2', x6)			C caller-saves reg not used above
f81b1c5bSmrgL(gt8k):
f81b1c5bSmrg	mov	x8, x30
f81b1c5bSmrg	mov	x7, n			C full count (caller-saves reg not used above)
f81b1c5bSmrg	mov	x4, #0			C total sum  (caller-saves reg not used above)
f81b1c5bSmrg	mov	x9, #chunksize*8	C caller-saves reg not used above
f81b1c5bSmrg	mov	x10, #chunksize		C caller-saves reg not used above
f81b1c5bSmrg
f81b1c5bSmrg1:	add	ap2, ap, x9		C point at subsequent block
f81b1c5bSmrg	add	bp2, bp, x9		C point at subsequent block
f81b1c5bSmrg	mov	n, #chunksize-8		C count for this invocation, adjusted for entry pt
f81b1c5bSmrg	movi	v4.16b, #0		C clear chunk summation register
f81b1c5bSmrg	movi	v5.16b, #0		C clear chunk summation register
f81b1c5bSmrg	bl	L(chu)			C jump deep inside code
f81b1c5bSmrg	add	x4, x4, x0
f81b1c5bSmrg	mov	ap, ap2			C put chunk pointer in place for calls
f81b1c5bSmrg	mov	bp, bp2			C put chunk pointer in place for calls
f81b1c5bSmrg	sub	x7, x7, x10
f81b1c5bSmrg	cmp	x7, x11
f81b1c5bSmrg	b.hi	1b
f81b1c5bSmrg
f81b1c5bSmrg	mov	n, x7			C count for final invocation
f81b1c5bSmrg	bl	L(lt8k)
f81b1c5bSmrg	add	x0, x4, x0
f81b1c5bSmrg	mov	x30, x8
f81b1c5bSmrg	ret
f81b1c5bSmrgEPILOGUE()