x86_64/bt1/aors_n.asm

*671ea119Smrgdnl  AMD64 mpn_add_n, mpn_sub_n optimised for bobcat.
*671ea119Smrg
*671ea119Smrgdnl  Copyright 2003-2005, 2007, 2008, 2010-2013 Free Software Foundation, Inc.
*671ea119Smrg
*671ea119Smrgdnl  This file is part of the GNU MP Library.
*671ea119Smrgdnl
*671ea119Smrgdnl  The GNU MP Library is free software; you can redistribute it and/or modify
*671ea119Smrgdnl  it under the terms of either:
*671ea119Smrgdnl
*671ea119Smrgdnl    * the GNU Lesser General Public License as published by the Free
*671ea119Smrgdnl      Software Foundation; either version 3 of the License, or (at your
*671ea119Smrgdnl      option) any later version.
*671ea119Smrgdnl
*671ea119Smrgdnl  or
*671ea119Smrgdnl
*671ea119Smrgdnl    * the GNU General Public License as published by the Free Software
*671ea119Smrgdnl      Foundation; either version 2 of the License, or (at your option) any
*671ea119Smrgdnl      later version.
*671ea119Smrgdnl
*671ea119Smrgdnl  or both in parallel, as here.
*671ea119Smrgdnl
*671ea119Smrgdnl  The GNU MP Library is distributed in the hope that it will be useful, but
*671ea119Smrgdnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
*671ea119Smrgdnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
*671ea119Smrgdnl  for more details.
*671ea119Smrgdnl
*671ea119Smrgdnl  You should have received copies of the GNU General Public License and the
*671ea119Smrgdnl  GNU Lesser General Public License along with the GNU MP Library.  If not,
*671ea119Smrgdnl  see https://www.gnu.org/licenses/.
*671ea119Smrg
*671ea119Smrginclude(`../config.m4')
*671ea119Smrg
*671ea119SmrgC	    cycles/limb
*671ea119SmrgC AMD K8,K9	 1.77
*671ea119SmrgC AMD K10	 1.76\1.82
*671ea119SmrgC AMD bd1	 1.67\2.12
*671ea119SmrgC AMD bd2	 1.62\1.82
*671ea119SmrgC AMD bd3
*671ea119SmrgC AMD bd4	 1.55\2.2
*671ea119SmrgC AMD zen
*671ea119SmrgC AMD bt1	 2.54
*671ea119SmrgC AMD bt2	 2
*671ea119SmrgC Intel P4	11
*671ea119SmrgC Intel PNR	 4.76
*671ea119SmrgC Intel NHM	 5.27
*671ea119SmrgC Intel SBR	 2
*671ea119SmrgC Intel IBR	 1.94
*671ea119SmrgC Intel HWL	 1.63
*671ea119SmrgC Intel BWL	 1.51
*671ea119SmrgC Intel SKL	 1.51
*671ea119SmrgC Intel atom	 3.56
*671ea119SmrgC Intel SLM	 4
*671ea119SmrgC VIA nano
*671ea119Smrg
*671ea119SmrgC The loop of this code is the result of running a code generation and
*671ea119SmrgC optimization tool suite written by David Harvey and Torbjorn Granlund.
*671ea119Smrg
*671ea119SmrgC INPUT PARAMETERS
*671ea119Smrgdefine(`rp',	`%rdi')	C rcx
*671ea119Smrgdefine(`up',	`%rsi')	C rdx
*671ea119Smrgdefine(`vp',	`%rdx')	C r8
*671ea119Smrgdefine(`n',	`%rcx')	C r9
*671ea119Smrgdefine(`cy',	`%r8')	C rsp+40    (mpn_add_nc and mpn_sub_nc)
*671ea119Smrg
*671ea119Smrgifdef(`OPERATION_add_n', `
*671ea119Smrg	define(ADCSBB,	      adc)
*671ea119Smrg	define(func,	      mpn_add_n)
*671ea119Smrg	define(func_nc,	      mpn_add_nc)')
*671ea119Smrgifdef(`OPERATION_sub_n', `
*671ea119Smrg	define(ADCSBB,	      sbb)
*671ea119Smrg	define(func,	      mpn_sub_n)
*671ea119Smrg	define(func_nc,	      mpn_sub_nc)')
*671ea119Smrg
*671ea119SmrgMULFUNC_PROLOGUE(mpn_add_n mpn_add_nc mpn_sub_n mpn_sub_nc)
*671ea119Smrg
*671ea119SmrgABI_SUPPORT(DOS64)
*671ea119SmrgABI_SUPPORT(STD64)
*671ea119Smrg
*671ea119SmrgASM_START()
*671ea119Smrg	TEXT
*671ea119Smrg	ALIGN(16)
*671ea119SmrgPROLOGUE(func)
*671ea119Smrg	FUNC_ENTRY(4)
*671ea119Smrg	xor	%r8, %r8
*671ea119SmrgL(ent):	test	$1, R8(n)
*671ea119Smrg	jnz	L(bx1)
*671ea119Smrg
*671ea119SmrgL(bx0):	test	$2, R8(n)
*671ea119Smrg	jnz	L(b10)
*671ea119Smrg
*671ea119SmrgL(b00):	shr	$2, n
*671ea119Smrg	neg	%r8
*671ea119Smrg	mov	$3, R32(%rax)
*671ea119Smrg	mov	(up), %r10
*671ea119Smrg	mov	8(up), %r11
*671ea119Smrg	jmp	L(lo0)
*671ea119Smrg
*671ea119SmrgL(b10):	shr	$2, n
*671ea119Smrg	neg	%r8
*671ea119Smrg	mov	$1, R32(%rax)
*671ea119Smrg	mov	(up), %r8
*671ea119Smrg	mov	8(up), %r9
*671ea119Smrg	jrcxz	L(cj2)
*671ea119Smrg	jmp	L(top)
*671ea119Smrg
*671ea119SmrgL(bx1):	test	$2, R8(n)
*671ea119Smrg	jnz	L(b11)
*671ea119Smrg
*671ea119SmrgL(b01):	shr	$2, n
*671ea119Smrg	neg	%r8
*671ea119Smrg	mov	$0, R32(%rax)
*671ea119Smrg	mov	(up), %r9
*671ea119Smrg	jrcxz	L(cj1)
*671ea119Smrg	mov	8(up), %r10
*671ea119Smrg	jmp	L(lo1)
*671ea119Smrg
*671ea119Smrg	ALIGN(8)
*671ea119SmrgL(b11):	inc	n
*671ea119Smrg	shr	$2, n
*671ea119Smrg	neg	%r8
*671ea119Smrg	mov	$2, R32(%rax)
*671ea119Smrg	mov	(up), %r11
*671ea119Smrg	jmp	L(lo3)
*671ea119Smrg
*671ea119Smrg	ALIGN(4)
*671ea119SmrgL(top):	mov	8(up,%rax,8), %r10
*671ea119Smrg	ADCSBB	-8(vp,%rax,8), %r8
*671ea119Smrg	mov	%r8, -8(rp,%rax,8)
*671ea119SmrgL(lo1):	mov	16(up,%rax,8), %r11
*671ea119Smrg	ADCSBB	(vp,%rax,8), %r9
*671ea119Smrg	lea	4(%rax), %rax
*671ea119Smrg	mov	%r9, -32(rp,%rax,8)
*671ea119SmrgL(lo0):	ADCSBB	-24(vp,%rax,8), %r10
*671ea119Smrg	mov	%r10, -24(rp,%rax,8)
*671ea119SmrgL(lo3):	ADCSBB	-16(vp,%rax,8), %r11
*671ea119Smrg	dec	n
*671ea119Smrg	mov	-8(up,%rax,8), %r8
*671ea119Smrg	mov	%r11, -16(rp,%rax,8)
*671ea119SmrgL(lo2):	mov	(up,%rax,8), %r9
*671ea119Smrg	jnz	L(top)
*671ea119Smrg
*671ea119SmrgL(cj2):	ADCSBB	-8(vp,%rax,8), %r8
*671ea119Smrg	mov	%r8, -8(rp,%rax,8)
*671ea119SmrgL(cj1):	ADCSBB	(vp,%rax,8), %r9
*671ea119Smrg	mov	%r9, (rp,%rax,8)
*671ea119Smrg
*671ea119Smrg	mov	$0, R32(%rax)
*671ea119Smrg	adc	$0, R32(%rax)
*671ea119Smrg
*671ea119Smrg	FUNC_EXIT()
*671ea119Smrg	ret
*671ea119SmrgEPILOGUE()
*671ea119Smrg
*671ea119Smrg	ALIGN(16)
*671ea119SmrgPROLOGUE(func_nc)
*671ea119Smrg	FUNC_ENTRY(4)
*671ea119SmrgIFDOS(`	mov	56(%rsp), %r8	')
*671ea119Smrg	jmp	L(ent)
*671ea119SmrgEPILOGUE()