x86_64/pentium4/aorslshC_n.asm

d25e02daSmrgdnl  AMD64 mpn_addlshC_n, mpn_sublshC_n -- rp[] = up[] +- (vp[] << C), where
d25e02daSmrgdnl  C is 1, 2, 3.  Optimized for Pentium 4.
d25e02daSmrg
d25e02daSmrgdnl  Contributed to the GNU project by Torbjorn Granlund.
d25e02daSmrg
*f81b1c5bSmrgdnl  Copyright 2008, 2010-2012 Free Software Foundation, Inc.
d25e02daSmrg
d25e02daSmrgdnl  This file is part of the GNU MP Library.
*f81b1c5bSmrgdnl
d25e02daSmrgdnl  The GNU MP Library is free software; you can redistribute it and/or modify
*f81b1c5bSmrgdnl  it under the terms of either:
*f81b1c5bSmrgdnl
*f81b1c5bSmrgdnl    * the GNU Lesser General Public License as published by the Free
*f81b1c5bSmrgdnl      Software Foundation; either version 3 of the License, or (at your
*f81b1c5bSmrgdnl      option) any later version.
*f81b1c5bSmrgdnl
*f81b1c5bSmrgdnl  or
*f81b1c5bSmrgdnl
*f81b1c5bSmrgdnl    * the GNU General Public License as published by the Free Software
*f81b1c5bSmrgdnl      Foundation; either version 2 of the License, or (at your option) any
*f81b1c5bSmrgdnl      later version.
*f81b1c5bSmrgdnl
*f81b1c5bSmrgdnl  or both in parallel, as here.
*f81b1c5bSmrgdnl
d25e02daSmrgdnl  The GNU MP Library is distributed in the hope that it will be useful, but
d25e02daSmrgdnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
*f81b1c5bSmrgdnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
*f81b1c5bSmrgdnl  for more details.
*f81b1c5bSmrgdnl
*f81b1c5bSmrgdnl  You should have received copies of the GNU General Public License and the
*f81b1c5bSmrgdnl  GNU Lesser General Public License along with the GNU MP Library.  If not,
*f81b1c5bSmrgdnl  see https://www.gnu.org/licenses/.
d25e02daSmrg
d25e02daSmrgC	     cycles/limb
d25e02daSmrgC AMD K8,K9	 3.8
d25e02daSmrgC AMD K10	 3.8
d25e02daSmrgC Intel P4	 5.8
d25e02daSmrgC Intel core2	 4.75
d25e02daSmrgC Intel corei	 4.75
d25e02daSmrgC Intel atom	 ?
d25e02daSmrgC VIA nano	 4.75
d25e02daSmrg
d25e02daSmrg
d25e02daSmrgC INPUT PARAMETERS
d25e02daSmrgdefine(`rp',`%rdi')
d25e02daSmrgdefine(`up',`%rsi')
d25e02daSmrgdefine(`vp',`%rdx')
d25e02daSmrgdefine(`n', `%rcx')
d25e02daSmrg
d25e02daSmrgdefine(M, eval(m4_lshift(1,LSH)))
d25e02daSmrg
d25e02daSmrgABI_SUPPORT(DOS64)
d25e02daSmrgABI_SUPPORT(STD64)
d25e02daSmrg
d25e02daSmrgASM_START()
d25e02daSmrg	TEXT
d25e02daSmrg	ALIGN(16)
d25e02daSmrgPROLOGUE(func)
d25e02daSmrg	FUNC_ENTRY(4)
d25e02daSmrg	push	%rbx
d25e02daSmrg	push	%r12
d25e02daSmrg	push	%rbp
d25e02daSmrg
d25e02daSmrg	mov	(vp), %r9
d25e02daSmrg	shl	$LSH, %r9
d25e02daSmrg	mov	4(vp), R32(%rbp)
d25e02daSmrg
d25e02daSmrg	xor	R32(%rbx), R32(%rbx)
d25e02daSmrg
d25e02daSmrg	mov	R32(n), R32(%rax)
d25e02daSmrg	and	$3, R32(%rax)
d25e02daSmrg	jne	L(n00)		C n = 0, 4, 8, ...
d25e02daSmrg
d25e02daSmrg	mov	(up), %r8
d25e02daSmrg	mov	8(up), %r10
d25e02daSmrg	shr	$RSH, R32(%rbp)
d25e02daSmrg	ADDSUB	%r9, %r8
d25e02daSmrg	mov	8(vp), %r9
d25e02daSmrg	lea	(%rbp,%r9,M), %r9
d25e02daSmrg	setc	R8(%rax)
d25e02daSmrg	mov	12(vp), R32(%rbp)
d25e02daSmrg	lea	-16(rp), rp
d25e02daSmrg	jmp	L(L00)
d25e02daSmrg
d25e02daSmrgL(n00):	cmp	$2, R32(%rax)
d25e02daSmrg	jnc	L(n01)		C n = 1, 5, 9, ...
d25e02daSmrg	mov	(up), %r11
d25e02daSmrg	lea	-8(rp), rp
d25e02daSmrg	shr	$RSH, R32(%rbp)
d25e02daSmrg	ADDSUB	%r9, %r11
d25e02daSmrg	setc	R8(%rbx)
d25e02daSmrg	dec	n
d25e02daSmrg	jz	L(1)		C jump for n = 1
d25e02daSmrg	mov	8(up), %r8
d25e02daSmrg	mov	8(vp), %r9
d25e02daSmrg	lea	(%rbp,%r9,M), %r9
d25e02daSmrg	mov	12(vp), R32(%rbp)
d25e02daSmrg	lea	8(up), up
d25e02daSmrg	lea	8(vp), vp
d25e02daSmrg	jmp	L(L01)
d25e02daSmrg
d25e02daSmrgL(n01):	jne	L(n10)		C n = 2, 6, 10, ...
d25e02daSmrg	mov	(up), %r12
d25e02daSmrg	mov	8(up), %r11
d25e02daSmrg	shr	$RSH, R32(%rbp)
d25e02daSmrg	ADDSUB	%r9, %r12
d25e02daSmrg	mov	8(vp), %r9
d25e02daSmrg	lea	(%rbp,%r9,M), %r9
d25e02daSmrg	setc	R8(%rax)
d25e02daSmrg	mov	12(vp), R32(%rbp)
d25e02daSmrg	lea	16(up), up
d25e02daSmrg	lea	16(vp), vp
d25e02daSmrg	jmp	L(L10)
d25e02daSmrg
d25e02daSmrgL(n10):	mov	(up), %r10
d25e02daSmrg	mov	8(up), %r12
d25e02daSmrg	shr	$RSH, R32(%rbp)
d25e02daSmrg	ADDSUB	%r9, %r10
d25e02daSmrg	mov	8(vp), %r9
d25e02daSmrg	lea	(%rbp,%r9,M), %r9
d25e02daSmrg	setc	R8(%rbx)
d25e02daSmrg	mov	12(vp), R32(%rbp)
d25e02daSmrg	lea	-24(rp), rp
d25e02daSmrg	lea	-8(up), up
d25e02daSmrg	lea	-8(vp), vp
d25e02daSmrg	jmp	L(L11)
d25e02daSmrg
d25e02daSmrgL(c0):	mov	$1, R8(%rbx)
d25e02daSmrg	jmp	L(rc0)
d25e02daSmrgL(c1):	mov	$1, R8(%rax)
d25e02daSmrg	jmp	L(rc1)
d25e02daSmrgL(c2):	mov	$1, R8(%rbx)
d25e02daSmrg	jmp	L(rc2)
d25e02daSmrg
d25e02daSmrg	ALIGN(16)
d25e02daSmrgL(top):	mov	(up), %r8	C not on critical path
d25e02daSmrg	shr	$RSH, R32(%rbp)
d25e02daSmrg	ADDSUB	%r9, %r11	C not on critical path
d25e02daSmrg	mov	(vp), %r9
d25e02daSmrg	lea	(%rbp,%r9,M), %r9
d25e02daSmrg	setc	R8(%rbx)	C save carry out
d25e02daSmrg	mov	4(vp), R32(%rbp)
d25e02daSmrg	mov	%r12, (rp)
d25e02daSmrg	ADDSUB	%rax, %r11	C apply previous carry out
d25e02daSmrg	jc	L(c0)		C jump if ripple
d25e02daSmrgL(rc0):
d25e02daSmrgL(L01):	mov	8(up), %r10
d25e02daSmrg	shr	$RSH, R32(%rbp)
d25e02daSmrg	ADDSUB	%r9, %r8
d25e02daSmrg	mov	8(vp), %r9
d25e02daSmrg	lea	(%rbp,%r9,M), %r9
d25e02daSmrg	setc	R8(%rax)
d25e02daSmrg	mov	12(vp), R32(%rbp)
d25e02daSmrg	mov	%r11, 8(rp)
d25e02daSmrg	ADDSUB	%rbx, %r8
d25e02daSmrg	jc	L(c1)
d25e02daSmrgL(rc1):
d25e02daSmrgL(L00):	mov	16(up), %r12
d25e02daSmrg	shr	$RSH, R32(%rbp)
d25e02daSmrg	ADDSUB	%r9, %r10
d25e02daSmrg	mov	16(vp), %r9
d25e02daSmrg	lea	(%rbp,%r9,M), %r9
d25e02daSmrg	setc	R8(%rbx)
d25e02daSmrg	mov	20(vp), R32(%rbp)
d25e02daSmrg	mov	%r8, 16(rp)
d25e02daSmrg	ADDSUB	%rax, %r10
d25e02daSmrg	jc	L(c2)
d25e02daSmrgL(rc2):
d25e02daSmrgL(L11):	mov	24(up), %r11
d25e02daSmrg	shr	$RSH, R32(%rbp)
d25e02daSmrg	ADDSUB	%r9, %r12
d25e02daSmrg	mov	24(vp), %r9
d25e02daSmrg	lea	(%rbp,%r9,M), %r9
d25e02daSmrg	lea	32(up), up
d25e02daSmrg	lea	32(vp), vp
d25e02daSmrg	setc	R8(%rax)
d25e02daSmrg	mov	-4(vp), R32(%rbp)
d25e02daSmrg	mov	%r10, 24(rp)
d25e02daSmrg	ADDSUB	%rbx, %r12
d25e02daSmrg	jc	L(c3)
d25e02daSmrgL(rc3):	lea	32(rp), rp
d25e02daSmrgL(L10):	sub	$4, n
d25e02daSmrg	ja	L(top)
d25e02daSmrg
d25e02daSmrgL(end):
d25e02daSmrg	shr	$RSH, R32(%rbp)
d25e02daSmrg	ADDSUB	%r9, %r11
d25e02daSmrg	setc	R8(%rbx)
d25e02daSmrg	mov	%r12, (rp)
d25e02daSmrg	ADDSUB	%rax, %r11
d25e02daSmrg	jnc	L(1)
d25e02daSmrg	mov	$1, R8(%rbx)
d25e02daSmrgL(1):	mov	%r11, 8(rp)
d25e02daSmrg	lea	(%rbx,%rbp), R32(%rax)
d25e02daSmrg	pop	%rbp
d25e02daSmrg	pop	%r12
d25e02daSmrg	pop	%rbx
d25e02daSmrg	FUNC_EXIT()
d25e02daSmrg	ret
d25e02daSmrgL(c3):	mov	$1, R8(%rax)
d25e02daSmrg	jmp	L(rc3)
d25e02daSmrgEPILOGUE()
d25e02daSmrgASM_END()