pentium4/sse2/bdiv_q_1.asm

d25e02daSmrgdnl  Intel Pentium-4 mpn_divexact_1 -- mpn by limb exact division.
d25e02daSmrg
*f81b1c5bSmrgdnl  Rearranged from mpn/x86/pentium4/sse2/dive_1.asm by Marco Bodrato.
*f81b1c5bSmrg
d25e02daSmrgdnl  Copyright 2001, 2002, 2007, 2011 Free Software Foundation, Inc.
*f81b1c5bSmrg
d25e02daSmrgdnl  This file is part of the GNU MP Library.
d25e02daSmrgdnl
*f81b1c5bSmrgdnl  The GNU MP Library is free software; you can redistribute it and/or modify
*f81b1c5bSmrgdnl  it under the terms of either:
d25e02daSmrgdnl
*f81b1c5bSmrgdnl    * the GNU Lesser General Public License as published by the Free
*f81b1c5bSmrgdnl      Software Foundation; either version 3 of the License, or (at your
*f81b1c5bSmrgdnl      option) any later version.
d25e02daSmrgdnl
*f81b1c5bSmrgdnl  or
d25e02daSmrgdnl
*f81b1c5bSmrgdnl    * the GNU General Public License as published by the Free Software
*f81b1c5bSmrgdnl      Foundation; either version 2 of the License, or (at your option) any
*f81b1c5bSmrgdnl      later version.
*f81b1c5bSmrgdnl
*f81b1c5bSmrgdnl  or both in parallel, as here.
*f81b1c5bSmrgdnl
*f81b1c5bSmrgdnl  The GNU MP Library is distributed in the hope that it will be useful, but
*f81b1c5bSmrgdnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
*f81b1c5bSmrgdnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
*f81b1c5bSmrgdnl  for more details.
*f81b1c5bSmrgdnl
*f81b1c5bSmrgdnl  You should have received copies of the GNU General Public License and the
*f81b1c5bSmrgdnl  GNU Lesser General Public License along with the GNU MP Library.  If not,
*f81b1c5bSmrgdnl  see https://www.gnu.org/licenses/.
d25e02daSmrg
d25e02daSmrginclude(`../config.m4')
d25e02daSmrg
d25e02daSmrg
d25e02daSmrgC P4: 19.0 cycles/limb
d25e02daSmrg
d25e02daSmrgC Pairs of movd's are used to avoid unaligned loads.  Despite the loads not
d25e02daSmrgC being on the dependent chain and there being plenty of cycles available,
d25e02daSmrgC using an unaligned movq on every second iteration measured about 23 c/l.
d25e02daSmrgC
d25e02daSmrg
d25e02daSmrgdefframe(PARAM_SHIFT,  24)
d25e02daSmrgdefframe(PARAM_INVERSE,20)
d25e02daSmrgdefframe(PARAM_DIVISOR,16)
d25e02daSmrgdefframe(PARAM_SIZE,   12)
d25e02daSmrgdefframe(PARAM_SRC,    8)
d25e02daSmrgdefframe(PARAM_DST,    4)
d25e02daSmrg
d25e02daSmrg	TEXT
d25e02daSmrg
d25e02daSmrgC mp_limb_t
d25e02daSmrgC mpn_pi1_bdiv_q_1 (mp_ptr dst, mp_srcptr src, mp_size_t size, mp_limb_t divisor,
d25e02daSmrgC		    mp_limb_t inverse, int shift)
d25e02daSmrg	ALIGN(32)
d25e02daSmrgPROLOGUE(mpn_pi1_bdiv_q_1)
d25e02daSmrgdeflit(`FRAME',0)
d25e02daSmrg
d25e02daSmrg	movl	PARAM_SIZE, %edx
d25e02daSmrg
d25e02daSmrg	movl	PARAM_SRC, %eax
d25e02daSmrg
d25e02daSmrg	movl	PARAM_DIVISOR, %ecx
d25e02daSmrg
d25e02daSmrg	movd	%ecx, %mm6
d25e02daSmrg	movl	PARAM_SHIFT, %ecx
d25e02daSmrg
d25e02daSmrg	movd	%ecx, %mm7		C shift
d25e02daSmrg
d25e02daSmrg	C
d25e02daSmrg
d25e02daSmrg	movl	PARAM_INVERSE, %ecx
d25e02daSmrg	movd	%ecx, %mm5		C inv
d25e02daSmrg
d25e02daSmrg	movl	PARAM_DST, %ecx
d25e02daSmrg	pxor	%mm1, %mm1		C initial carry limb
d25e02daSmrg	pxor	%mm0, %mm0		C initial carry bit
d25e02daSmrg
d25e02daSmrg	subl	$1, %edx
d25e02daSmrg	jz	L(done)
d25e02daSmrg
d25e02daSmrg	pcmpeqd	%mm4, %mm4
d25e02daSmrg	psrlq	$32, %mm4		C 0x00000000FFFFFFFF
d25e02daSmrg
d25e02daSmrgC The dependent chain here is as follows.
d25e02daSmrgC
d25e02daSmrgC					latency
d25e02daSmrgC	psubq	 s = (src-cbit) - climb	   2
d25e02daSmrgC	pmuludq	 q = s*inverse		   8
d25e02daSmrgC	pmuludq	 prod = q*divisor	   8
d25e02daSmrgC	psrlq	 climb = high(prod)	   2
d25e02daSmrgC					  --
d25e02daSmrgC					  20
d25e02daSmrgC
d25e02daSmrgC Yet the loop measures 19.0 c/l, so obviously there's something gained
d25e02daSmrgC there over a straight reading of the chip documentation.
d25e02daSmrg
d25e02daSmrgL(top):
d25e02daSmrg	C eax	src, incrementing
d25e02daSmrg	C ebx
d25e02daSmrg	C ecx	dst, incrementing
d25e02daSmrg	C edx	counter, size-1 iterations
d25e02daSmrg	C
d25e02daSmrg	C mm0	carry bit
d25e02daSmrg	C mm1	carry limb
d25e02daSmrg	C mm4	0x00000000FFFFFFFF
d25e02daSmrg	C mm5	inverse
d25e02daSmrg	C mm6	divisor
d25e02daSmrg	C mm7	shift
d25e02daSmrg
d25e02daSmrg	movd	(%eax), %mm2
d25e02daSmrg	movd	4(%eax), %mm3
d25e02daSmrg	addl	$4, %eax
d25e02daSmrg	punpckldq %mm3, %mm2
d25e02daSmrg
d25e02daSmrg	psrlq	%mm7, %mm2
d25e02daSmrg	pand	%mm4, %mm2		C src
d25e02daSmrg	psubq	%mm0, %mm2		C src - cbit
d25e02daSmrg
d25e02daSmrg	psubq	%mm1, %mm2		C src - cbit - climb
d25e02daSmrg	movq	%mm2, %mm0
d25e02daSmrg	psrlq	$63, %mm0		C new cbit
d25e02daSmrg
d25e02daSmrg	pmuludq	%mm5, %mm2		C s*inverse
d25e02daSmrg	movd	%mm2, (%ecx)		C q
d25e02daSmrg	addl	$4, %ecx
d25e02daSmrg
d25e02daSmrg	movq	%mm6, %mm1
d25e02daSmrg	pmuludq	%mm2, %mm1		C q*divisor
d25e02daSmrg	psrlq	$32, %mm1		C new climb
d25e02daSmrg
d25e02daSmrgL(entry):
d25e02daSmrg	subl	$1, %edx
d25e02daSmrg	jnz	L(top)
d25e02daSmrg
d25e02daSmrgL(done):
d25e02daSmrg	movd	(%eax), %mm2
d25e02daSmrg	psrlq	%mm7, %mm2		C src
d25e02daSmrg	psubq	%mm0, %mm2		C src - cbit
d25e02daSmrg
d25e02daSmrg	psubq	%mm1, %mm2		C src - cbit - climb
d25e02daSmrg
d25e02daSmrg	pmuludq	%mm5, %mm2		C s*inverse
d25e02daSmrg	movd	%mm2, (%ecx)		C q
d25e02daSmrg
d25e02daSmrg	emms
d25e02daSmrg	ret
d25e02daSmrg
d25e02daSmrgEPILOGUE()
d25e02daSmrg
d25e02daSmrg	ALIGN(16)
d25e02daSmrgC mp_limb_t mpn_bdiv_q_1 (mp_ptr dst, mp_srcptr src, mp_size_t size,
d25e02daSmrgC                           mp_limb_t divisor);
d25e02daSmrgC
d25e02daSmrgPROLOGUE(mpn_bdiv_q_1)
d25e02daSmrgdeflit(`FRAME',0)
d25e02daSmrg
d25e02daSmrg	movl	PARAM_SIZE, %edx
d25e02daSmrg
d25e02daSmrg	movl	PARAM_DIVISOR, %ecx
d25e02daSmrg
d25e02daSmrg	C eax	src
d25e02daSmrg	C ebx
d25e02daSmrg	C ecx	divisor
d25e02daSmrg	C edx	size-1
d25e02daSmrg
d25e02daSmrg	movl	%ecx, %eax
d25e02daSmrg	bsfl	%ecx, %ecx		C trailing twos
d25e02daSmrg
d25e02daSmrg	shrl	%cl, %eax		C d = divisor without twos
d25e02daSmrg	movd	%eax, %mm6
d25e02daSmrg	movd	%ecx, %mm7		C shift
d25e02daSmrg
d25e02daSmrg	shrl	%eax			C d/2
d25e02daSmrg
d25e02daSmrg	andl	$127, %eax		C d/2, 7 bits
d25e02daSmrg
d25e02daSmrgifdef(`PIC',`
d25e02daSmrg	LEA(	binvert_limb_table, %ecx)
d25e02daSmrg	movzbl	(%eax,%ecx), %eax		C inv 8 bits
d25e02daSmrg',`
d25e02daSmrg	movzbl	binvert_limb_table(%eax), %eax	C inv 8 bits
d25e02daSmrg')
d25e02daSmrg
d25e02daSmrg	C
d25e02daSmrg
d25e02daSmrg	movd	%eax, %mm5		C inv
d25e02daSmrg
d25e02daSmrg	movd	%eax, %mm0		C inv
d25e02daSmrg
d25e02daSmrg	pmuludq	%mm5, %mm5		C inv*inv
d25e02daSmrg
d25e02daSmrg	C
d25e02daSmrg
d25e02daSmrg	pmuludq	%mm6, %mm5		C inv*inv*d
d25e02daSmrg	paddd	%mm0, %mm0		C 2*inv
d25e02daSmrg
d25e02daSmrg	C
d25e02daSmrg
d25e02daSmrg	psubd	%mm5, %mm0		C inv = 2*inv - inv*inv*d
d25e02daSmrg	pxor	%mm5, %mm5
d25e02daSmrg
d25e02daSmrg	paddd	%mm0, %mm5
d25e02daSmrg	pmuludq	%mm0, %mm0		C inv*inv
d25e02daSmrg
d25e02daSmrg	pcmpeqd	%mm4, %mm4
d25e02daSmrg	psrlq	$32, %mm4		C 0x00000000FFFFFFFF
d25e02daSmrg
d25e02daSmrg	C
d25e02daSmrg
d25e02daSmrg	pmuludq	%mm6, %mm0		C inv*inv*d
d25e02daSmrg	paddd	%mm5, %mm5		C 2*inv
d25e02daSmrg
d25e02daSmrg	movl	PARAM_SRC, %eax
d25e02daSmrg	movl	PARAM_DST, %ecx
d25e02daSmrg	pxor	%mm1, %mm1		C initial carry limb
d25e02daSmrg
d25e02daSmrg	C
d25e02daSmrg
d25e02daSmrg	psubd	%mm0, %mm5		C inv = 2*inv - inv*inv*d
d25e02daSmrg
d25e02daSmrg	ASSERT(e,`	C expect d*inv == 1 mod 2^GMP_LIMB_BITS
d25e02daSmrg	pushl	%eax	FRAME_pushl()
d25e02daSmrg	movq	%mm6, %mm0
d25e02daSmrg	pmuludq	%mm5, %mm0
d25e02daSmrg	movd	%mm0, %eax
d25e02daSmrg	cmpl	$1, %eax
d25e02daSmrg	popl	%eax	FRAME_popl()')
d25e02daSmrg
d25e02daSmrg	pxor	%mm0, %mm0		C initial carry bit
d25e02daSmrg	jmp	L(entry)
d25e02daSmrg
d25e02daSmrgEPILOGUE()
*f81b1c5bSmrgASM_END()