config/ia64/lib1funcs.S

*ec02198aSmrg/* Copyright (C) 2000-2020 Free Software Foundation, Inc.
63d1a8abSmrg   Contributed by James E. Wilson <wilson@cygnus.com>.
63d1a8abSmrg
63d1a8abSmrg   This file is part of GCC.
63d1a8abSmrg
63d1a8abSmrg   GCC is free software; you can redistribute it and/or modify
63d1a8abSmrg   it under the terms of the GNU General Public License as published by
63d1a8abSmrg   the Free Software Foundation; either version 3, or (at your option)
63d1a8abSmrg   any later version.
63d1a8abSmrg
63d1a8abSmrg   GCC is distributed in the hope that it will be useful,
63d1a8abSmrg   but WITHOUT ANY WARRANTY; without even the implied warranty of
63d1a8abSmrg   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
63d1a8abSmrg   GNU General Public License for more details.
63d1a8abSmrg
63d1a8abSmrg   Under Section 7 of GPL version 3, you are granted additional
63d1a8abSmrg   permissions described in the GCC Runtime Library Exception, version
63d1a8abSmrg   3.1, as published by the Free Software Foundation.
63d1a8abSmrg
63d1a8abSmrg   You should have received a copy of the GNU General Public License and
63d1a8abSmrg   a copy of the GCC Runtime Library Exception along with this program;
63d1a8abSmrg   see the files COPYING3 and COPYING.RUNTIME respectively.  If not, see
63d1a8abSmrg   <http://www.gnu.org/licenses/>.  */
63d1a8abSmrg
63d1a8abSmrg#ifdef L__divxf3
63d1a8abSmrg// Compute a 80-bit IEEE double-extended quotient.
63d1a8abSmrg//
63d1a8abSmrg// From the Intel IA-64 Optimization Guide, choose the minimum latency
63d1a8abSmrg// alternative.
63d1a8abSmrg//
63d1a8abSmrg// farg0 holds the dividend.  farg1 holds the divisor.
63d1a8abSmrg//
63d1a8abSmrg// __divtf3 is an alternate symbol name for backward compatibility.
63d1a8abSmrg
63d1a8abSmrg	.text
63d1a8abSmrg	.align 16
63d1a8abSmrg	.global __divxf3
63d1a8abSmrg	.proc __divxf3
63d1a8abSmrg__divxf3:
63d1a8abSmrg#ifdef SHARED
63d1a8abSmrg	.global __divtf3
63d1a8abSmrg__divtf3:
63d1a8abSmrg#endif
63d1a8abSmrg	cmp.eq p7, p0 = r0, r0
63d1a8abSmrg	frcpa.s0 f10, p6 = farg0, farg1
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	cmp.ne p7, p0 = r0, r0
63d1a8abSmrg	.pred.rel.mutex p6, p7
63d1a8abSmrg(p6)	fnma.s1 f11 = farg1, f10, f1
63d1a8abSmrg(p6)	fma.s1 f12 = farg0, f10, f0
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f13 = f11, f11, f0
63d1a8abSmrg(p6)	fma.s1 f14 = f11, f11, f11
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f11 = f13, f13, f11
63d1a8abSmrg(p6)	fma.s1 f13 = f14, f10, f10
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f10 = f13, f11, f10
63d1a8abSmrg(p6)	fnma.s1 f11 = farg1, f12, farg0
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f11 = f11, f10, f12
63d1a8abSmrg(p6)	fnma.s1 f12 = farg1, f10, f1
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f10 = f12, f10, f10
63d1a8abSmrg(p6)	fnma.s1 f12 = farg1, f11, farg0
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s0 fret0 = f12, f10, f11
63d1a8abSmrg(p7)	mov fret0 = f10
63d1a8abSmrg	br.ret.sptk rp
63d1a8abSmrg	.endp __divxf3
63d1a8abSmrg#endif
63d1a8abSmrg
63d1a8abSmrg#ifdef L__divdf3
63d1a8abSmrg// Compute a 64-bit IEEE double quotient.
63d1a8abSmrg//
63d1a8abSmrg// From the Intel IA-64 Optimization Guide, choose the minimum latency
63d1a8abSmrg// alternative.
63d1a8abSmrg//
63d1a8abSmrg// farg0 holds the dividend.  farg1 holds the divisor.
63d1a8abSmrg
63d1a8abSmrg	.text
63d1a8abSmrg	.align 16
63d1a8abSmrg	.global __divdf3
63d1a8abSmrg	.proc __divdf3
63d1a8abSmrg__divdf3:
63d1a8abSmrg	cmp.eq p7, p0 = r0, r0
63d1a8abSmrg	frcpa.s0 f10, p6 = farg0, farg1
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	cmp.ne p7, p0 = r0, r0
63d1a8abSmrg	.pred.rel.mutex p6, p7
63d1a8abSmrg(p6)	fmpy.s1 f11 = farg0, f10
63d1a8abSmrg(p6)	fnma.s1 f12 = farg1, f10, f1
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f11 = f12, f11, f11
63d1a8abSmrg(p6)	fmpy.s1 f13 = f12, f12
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f10 = f12, f10, f10
63d1a8abSmrg(p6)	fma.s1 f11 = f13, f11, f11
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fmpy.s1 f12 = f13, f13
63d1a8abSmrg(p6)	fma.s1 f10 = f13, f10, f10
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.d.s1 f11 = f12, f11, f11
63d1a8abSmrg(p6)	fma.s1 f10 = f12, f10, f10
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fnma.d.s1 f8 = farg1, f11, farg0
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.d fret0 = f8, f10, f11
63d1a8abSmrg(p7)	mov fret0 = f10
63d1a8abSmrg	br.ret.sptk rp
63d1a8abSmrg	;;
63d1a8abSmrg	.endp __divdf3
63d1a8abSmrg#endif
63d1a8abSmrg
63d1a8abSmrg#ifdef L__divsf3
63d1a8abSmrg// Compute a 32-bit IEEE float quotient.
63d1a8abSmrg//
63d1a8abSmrg// From the Intel IA-64 Optimization Guide, choose the minimum latency
63d1a8abSmrg// alternative.
63d1a8abSmrg//
63d1a8abSmrg// farg0 holds the dividend.  farg1 holds the divisor.
63d1a8abSmrg
63d1a8abSmrg	.text
63d1a8abSmrg	.align 16
63d1a8abSmrg	.global __divsf3
63d1a8abSmrg	.proc __divsf3
63d1a8abSmrg__divsf3:
63d1a8abSmrg	cmp.eq p7, p0 = r0, r0
63d1a8abSmrg	frcpa.s0 f10, p6 = farg0, farg1
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	cmp.ne p7, p0 = r0, r0
63d1a8abSmrg	.pred.rel.mutex p6, p7
63d1a8abSmrg(p6)	fmpy.s1 f8 = farg0, f10
63d1a8abSmrg(p6)	fnma.s1 f9 = farg1, f10, f1
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f8 = f9, f8, f8
63d1a8abSmrg(p6)	fmpy.s1 f9 = f9, f9
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f8 = f9, f8, f8
63d1a8abSmrg(p6)	fmpy.s1 f9 = f9, f9
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.d.s1 f10 = f9, f8, f8
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fnorm.s.s0 fret0 = f10
63d1a8abSmrg(p7)	mov fret0 = f10
63d1a8abSmrg	br.ret.sptk rp
63d1a8abSmrg	;;
63d1a8abSmrg	.endp __divsf3
63d1a8abSmrg#endif
63d1a8abSmrg
63d1a8abSmrg#ifdef L__divdi3
63d1a8abSmrg// Compute a 64-bit integer quotient.
63d1a8abSmrg//
63d1a8abSmrg// From the Intel IA-64 Optimization Guide, choose the minimum latency
63d1a8abSmrg// alternative.
63d1a8abSmrg//
63d1a8abSmrg// in0 holds the dividend.  in1 holds the divisor.
63d1a8abSmrg
63d1a8abSmrg	.text
63d1a8abSmrg	.align 16
63d1a8abSmrg	.global __divdi3
63d1a8abSmrg	.proc __divdi3
63d1a8abSmrg__divdi3:
63d1a8abSmrg	.regstk 2,0,0,0
63d1a8abSmrg	// Transfer inputs to FP registers.
63d1a8abSmrg	setf.sig f8 = in0
63d1a8abSmrg	setf.sig f9 = in1
63d1a8abSmrg	// Check divide by zero.
63d1a8abSmrg	cmp.ne.unc p0,p7=0,in1
63d1a8abSmrg	;;
63d1a8abSmrg	// Convert the inputs to FP, so that they won't be treated as unsigned.
63d1a8abSmrg	fcvt.xf f8 = f8
63d1a8abSmrg	fcvt.xf f9 = f9
63d1a8abSmrg(p7)	break 1
63d1a8abSmrg	;;
63d1a8abSmrg	// Compute the reciprocal approximation.
63d1a8abSmrg	frcpa.s1 f10, p6 = f8, f9
63d1a8abSmrg	;;
63d1a8abSmrg	// 3 Newton-Raphson iterations.
63d1a8abSmrg(p6)	fnma.s1 f11 = f9, f10, f1
63d1a8abSmrg(p6)	fmpy.s1 f12 = f8, f10
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fmpy.s1 f13 = f11, f11
63d1a8abSmrg(p6)	fma.s1 f12 = f11, f12, f12
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f10 = f11, f10, f10
63d1a8abSmrg(p6)	fma.s1 f11 = f13, f12, f12
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f10 = f13, f10, f10
63d1a8abSmrg(p6)	fnma.s1 f12 = f9, f11, f8
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f10 = f12, f10, f11
63d1a8abSmrg	;;
63d1a8abSmrg	// Round quotient to an integer.
63d1a8abSmrg	fcvt.fx.trunc.s1 f10 = f10
63d1a8abSmrg	;;
63d1a8abSmrg	// Transfer result to GP registers.
63d1a8abSmrg	getf.sig ret0 = f10
63d1a8abSmrg	br.ret.sptk rp
63d1a8abSmrg	;;
63d1a8abSmrg	.endp __divdi3
63d1a8abSmrg#endif
63d1a8abSmrg
63d1a8abSmrg#ifdef L__moddi3
63d1a8abSmrg// Compute a 64-bit integer modulus.
63d1a8abSmrg//
63d1a8abSmrg// From the Intel IA-64 Optimization Guide, choose the minimum latency
63d1a8abSmrg// alternative.
63d1a8abSmrg//
63d1a8abSmrg// in0 holds the dividend (a).  in1 holds the divisor (b).
63d1a8abSmrg
63d1a8abSmrg	.text
63d1a8abSmrg	.align 16
63d1a8abSmrg	.global __moddi3
63d1a8abSmrg	.proc __moddi3
63d1a8abSmrg__moddi3:
63d1a8abSmrg	.regstk 2,0,0,0
63d1a8abSmrg	// Transfer inputs to FP registers.
63d1a8abSmrg	setf.sig f14 = in0
63d1a8abSmrg	setf.sig f9 = in1
63d1a8abSmrg	// Check divide by zero.
63d1a8abSmrg	cmp.ne.unc p0,p7=0,in1
63d1a8abSmrg	;;
63d1a8abSmrg	// Convert the inputs to FP, so that they won't be treated as unsigned.
63d1a8abSmrg	fcvt.xf f8 = f14
63d1a8abSmrg	fcvt.xf f9 = f9
63d1a8abSmrg(p7)	break 1
63d1a8abSmrg	;;
63d1a8abSmrg	// Compute the reciprocal approximation.
63d1a8abSmrg	frcpa.s1 f10, p6 = f8, f9
63d1a8abSmrg	;;
63d1a8abSmrg	// 3 Newton-Raphson iterations.
63d1a8abSmrg(p6)	fmpy.s1 f12 = f8, f10
63d1a8abSmrg(p6)	fnma.s1 f11 = f9, f10, f1
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f12 = f11, f12, f12
63d1a8abSmrg(p6)	fmpy.s1 f13 = f11, f11
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f10 = f11, f10, f10
63d1a8abSmrg(p6)	fma.s1 f11 = f13, f12, f12
63d1a8abSmrg	;;
63d1a8abSmrg	sub in1 = r0, in1
63d1a8abSmrg(p6)	fma.s1 f10 = f13, f10, f10
63d1a8abSmrg(p6)	fnma.s1 f12 = f9, f11, f8
63d1a8abSmrg	;;
63d1a8abSmrg	setf.sig f9 = in1
63d1a8abSmrg(p6)	fma.s1 f10 = f12, f10, f11
63d1a8abSmrg	;;
63d1a8abSmrg	fcvt.fx.trunc.s1 f10 = f10
63d1a8abSmrg	;;
63d1a8abSmrg	// r = q * (-b) + a
63d1a8abSmrg	xma.l f10 = f10, f9, f14
63d1a8abSmrg	;;
63d1a8abSmrg	// Transfer result to GP registers.
63d1a8abSmrg	getf.sig ret0 = f10
63d1a8abSmrg	br.ret.sptk rp
63d1a8abSmrg	;;
63d1a8abSmrg	.endp __moddi3
63d1a8abSmrg#endif
63d1a8abSmrg
63d1a8abSmrg#ifdef L__udivdi3
63d1a8abSmrg// Compute a 64-bit unsigned integer quotient.
63d1a8abSmrg//
63d1a8abSmrg// From the Intel IA-64 Optimization Guide, choose the minimum latency
63d1a8abSmrg// alternative.
63d1a8abSmrg//
63d1a8abSmrg// in0 holds the dividend.  in1 holds the divisor.
63d1a8abSmrg
63d1a8abSmrg	.text
63d1a8abSmrg	.align 16
63d1a8abSmrg	.global __udivdi3
63d1a8abSmrg	.proc __udivdi3
63d1a8abSmrg__udivdi3:
63d1a8abSmrg	.regstk 2,0,0,0
63d1a8abSmrg	// Transfer inputs to FP registers.
63d1a8abSmrg	setf.sig f8 = in0
63d1a8abSmrg	setf.sig f9 = in1
63d1a8abSmrg	// Check divide by zero.
63d1a8abSmrg	cmp.ne.unc p0,p7=0,in1
63d1a8abSmrg	;;
63d1a8abSmrg	// Convert the inputs to FP, to avoid FP software-assist faults.
63d1a8abSmrg	fcvt.xuf.s1 f8 = f8
63d1a8abSmrg	fcvt.xuf.s1 f9 = f9
63d1a8abSmrg(p7)	break 1
63d1a8abSmrg	;;
63d1a8abSmrg	// Compute the reciprocal approximation.
63d1a8abSmrg	frcpa.s1 f10, p6 = f8, f9
63d1a8abSmrg	;;
63d1a8abSmrg	// 3 Newton-Raphson iterations.
63d1a8abSmrg(p6)	fnma.s1 f11 = f9, f10, f1
63d1a8abSmrg(p6)	fmpy.s1 f12 = f8, f10
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fmpy.s1 f13 = f11, f11
63d1a8abSmrg(p6)	fma.s1 f12 = f11, f12, f12
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f10 = f11, f10, f10
63d1a8abSmrg(p6)	fma.s1 f11 = f13, f12, f12
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f10 = f13, f10, f10
63d1a8abSmrg(p6)	fnma.s1 f12 = f9, f11, f8
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f10 = f12, f10, f11
63d1a8abSmrg	;;
63d1a8abSmrg	// Round quotient to an unsigned integer.
63d1a8abSmrg	fcvt.fxu.trunc.s1 f10 = f10
63d1a8abSmrg	;;
63d1a8abSmrg	// Transfer result to GP registers.
63d1a8abSmrg	getf.sig ret0 = f10
63d1a8abSmrg	br.ret.sptk rp
63d1a8abSmrg	;;
63d1a8abSmrg	.endp __udivdi3
63d1a8abSmrg#endif
63d1a8abSmrg
63d1a8abSmrg#ifdef L__umoddi3
63d1a8abSmrg// Compute a 64-bit unsigned integer modulus.
63d1a8abSmrg//
63d1a8abSmrg// From the Intel IA-64 Optimization Guide, choose the minimum latency
63d1a8abSmrg// alternative.
63d1a8abSmrg//
63d1a8abSmrg// in0 holds the dividend (a).  in1 holds the divisor (b).
63d1a8abSmrg
63d1a8abSmrg	.text
63d1a8abSmrg	.align 16
63d1a8abSmrg	.global __umoddi3
63d1a8abSmrg	.proc __umoddi3
63d1a8abSmrg__umoddi3:
63d1a8abSmrg	.regstk 2,0,0,0
63d1a8abSmrg	// Transfer inputs to FP registers.
63d1a8abSmrg	setf.sig f14 = in0
63d1a8abSmrg	setf.sig f9 = in1
63d1a8abSmrg	// Check divide by zero.
63d1a8abSmrg	cmp.ne.unc p0,p7=0,in1
63d1a8abSmrg	;;
63d1a8abSmrg	// Convert the inputs to FP, to avoid FP software assist faults.
63d1a8abSmrg	fcvt.xuf.s1 f8 = f14
63d1a8abSmrg	fcvt.xuf.s1 f9 = f9
63d1a8abSmrg(p7)	break 1;
63d1a8abSmrg	;;
63d1a8abSmrg	// Compute the reciprocal approximation.
63d1a8abSmrg	frcpa.s1 f10, p6 = f8, f9
63d1a8abSmrg	;;
63d1a8abSmrg	// 3 Newton-Raphson iterations.
63d1a8abSmrg(p6)	fmpy.s1 f12 = f8, f10
63d1a8abSmrg(p6)	fnma.s1 f11 = f9, f10, f1
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f12 = f11, f12, f12
63d1a8abSmrg(p6)	fmpy.s1 f13 = f11, f11
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f10 = f11, f10, f10
63d1a8abSmrg(p6)	fma.s1 f11 = f13, f12, f12
63d1a8abSmrg	;;
63d1a8abSmrg	sub in1 = r0, in1
63d1a8abSmrg(p6)	fma.s1 f10 = f13, f10, f10
63d1a8abSmrg(p6)	fnma.s1 f12 = f9, f11, f8
63d1a8abSmrg	;;
63d1a8abSmrg	setf.sig f9 = in1
63d1a8abSmrg(p6)	fma.s1 f10 = f12, f10, f11
63d1a8abSmrg	;;
63d1a8abSmrg	// Round quotient to an unsigned integer.
63d1a8abSmrg	fcvt.fxu.trunc.s1 f10 = f10
63d1a8abSmrg	;;
63d1a8abSmrg	// r = q * (-b) + a
63d1a8abSmrg	xma.l f10 = f10, f9, f14
63d1a8abSmrg	;;
63d1a8abSmrg	// Transfer result to GP registers.
63d1a8abSmrg	getf.sig ret0 = f10
63d1a8abSmrg	br.ret.sptk rp
63d1a8abSmrg	;;
63d1a8abSmrg	.endp __umoddi3
63d1a8abSmrg#endif
63d1a8abSmrg
63d1a8abSmrg#ifdef L__divsi3
63d1a8abSmrg// Compute a 32-bit integer quotient.
63d1a8abSmrg//
63d1a8abSmrg// From the Intel IA-64 Optimization Guide, choose the minimum latency
63d1a8abSmrg// alternative.
63d1a8abSmrg//
63d1a8abSmrg// in0 holds the dividend.  in1 holds the divisor.
63d1a8abSmrg
63d1a8abSmrg	.text
63d1a8abSmrg	.align 16
63d1a8abSmrg	.global __divsi3
63d1a8abSmrg	.proc __divsi3
63d1a8abSmrg__divsi3:
63d1a8abSmrg	.regstk 2,0,0,0
63d1a8abSmrg	// Check divide by zero.
63d1a8abSmrg	cmp.ne.unc p0,p7=0,in1
63d1a8abSmrg	sxt4 in0 = in0
63d1a8abSmrg	sxt4 in1 = in1
63d1a8abSmrg	;;
63d1a8abSmrg	setf.sig f8 = in0
63d1a8abSmrg	setf.sig f9 = in1
63d1a8abSmrg(p7)	break 1
63d1a8abSmrg	;;
63d1a8abSmrg	mov r2 = 0x0ffdd
63d1a8abSmrg	fcvt.xf f8 = f8
63d1a8abSmrg	fcvt.xf f9 = f9
63d1a8abSmrg	;;
63d1a8abSmrg	setf.exp f11 = r2
63d1a8abSmrg	frcpa.s1 f10, p6 = f8, f9
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fmpy.s1 f8 = f8, f10
63d1a8abSmrg(p6)	fnma.s1 f9 = f9, f10, f1
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f8 = f9, f8, f8
63d1a8abSmrg(p6)	fma.s1 f9 = f9, f9, f11
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f10 = f9, f8, f8
63d1a8abSmrg	;;
63d1a8abSmrg	fcvt.fx.trunc.s1 f10 = f10
63d1a8abSmrg	;;
63d1a8abSmrg	getf.sig ret0 = f10
63d1a8abSmrg	br.ret.sptk rp
63d1a8abSmrg	;;
63d1a8abSmrg	.endp __divsi3
63d1a8abSmrg#endif
63d1a8abSmrg
63d1a8abSmrg#ifdef L__modsi3
63d1a8abSmrg// Compute a 32-bit integer modulus.
63d1a8abSmrg//
63d1a8abSmrg// From the Intel IA-64 Optimization Guide, choose the minimum latency
63d1a8abSmrg// alternative.
63d1a8abSmrg//
63d1a8abSmrg// in0 holds the dividend.  in1 holds the divisor.
63d1a8abSmrg
63d1a8abSmrg	.text
63d1a8abSmrg	.align 16
63d1a8abSmrg	.global __modsi3
63d1a8abSmrg	.proc __modsi3
63d1a8abSmrg__modsi3:
63d1a8abSmrg	.regstk 2,0,0,0
63d1a8abSmrg	mov r2 = 0x0ffdd
63d1a8abSmrg	sxt4 in0 = in0
63d1a8abSmrg	sxt4 in1 = in1
63d1a8abSmrg	;;
63d1a8abSmrg	setf.sig f13 = r32
63d1a8abSmrg	setf.sig f9 = r33
63d1a8abSmrg	// Check divide by zero.
63d1a8abSmrg	cmp.ne.unc p0,p7=0,in1
63d1a8abSmrg	;;
63d1a8abSmrg	sub in1 = r0, in1
63d1a8abSmrg	fcvt.xf f8 = f13
63d1a8abSmrg	fcvt.xf f9 = f9
63d1a8abSmrg	;;
63d1a8abSmrg	setf.exp f11 = r2
63d1a8abSmrg	frcpa.s1 f10, p6 = f8, f9
63d1a8abSmrg(p7)	break 1
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fmpy.s1 f12 = f8, f10
63d1a8abSmrg(p6)	fnma.s1 f10 = f9, f10, f1
63d1a8abSmrg	;;
63d1a8abSmrg	setf.sig f9 = in1
63d1a8abSmrg(p6)	fma.s1 f12 = f10, f12, f12
63d1a8abSmrg(p6)	fma.s1 f10 = f10, f10, f11
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f10 = f10, f12, f12
63d1a8abSmrg	;;
63d1a8abSmrg	fcvt.fx.trunc.s1 f10 = f10
63d1a8abSmrg	;;
63d1a8abSmrg	xma.l f10 = f10, f9, f13
63d1a8abSmrg	;;
63d1a8abSmrg	getf.sig ret0 = f10
63d1a8abSmrg	br.ret.sptk rp
63d1a8abSmrg	;;
63d1a8abSmrg	.endp __modsi3
63d1a8abSmrg#endif
63d1a8abSmrg
63d1a8abSmrg#ifdef L__udivsi3
63d1a8abSmrg// Compute a 32-bit unsigned integer quotient.
63d1a8abSmrg//
63d1a8abSmrg// From the Intel IA-64 Optimization Guide, choose the minimum latency
63d1a8abSmrg// alternative.
63d1a8abSmrg//
63d1a8abSmrg// in0 holds the dividend.  in1 holds the divisor.
63d1a8abSmrg
63d1a8abSmrg	.text
63d1a8abSmrg	.align 16
63d1a8abSmrg	.global __udivsi3
63d1a8abSmrg	.proc __udivsi3
63d1a8abSmrg__udivsi3:
63d1a8abSmrg	.regstk 2,0,0,0
63d1a8abSmrg	mov r2 = 0x0ffdd
63d1a8abSmrg	zxt4 in0 = in0
63d1a8abSmrg	zxt4 in1 = in1
63d1a8abSmrg	;;
63d1a8abSmrg	setf.sig f8 = in0
63d1a8abSmrg	setf.sig f9 = in1
63d1a8abSmrg	// Check divide by zero.
63d1a8abSmrg	cmp.ne.unc p0,p7=0,in1
63d1a8abSmrg	;;
63d1a8abSmrg	fcvt.xf f8 = f8
63d1a8abSmrg	fcvt.xf f9 = f9
63d1a8abSmrg(p7)	break 1
63d1a8abSmrg	;;
63d1a8abSmrg	setf.exp f11 = r2
63d1a8abSmrg	frcpa.s1 f10, p6 = f8, f9
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fmpy.s1 f8 = f8, f10
63d1a8abSmrg(p6)	fnma.s1 f9 = f9, f10, f1
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f8 = f9, f8, f8
63d1a8abSmrg(p6)	fma.s1 f9 = f9, f9, f11
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f10 = f9, f8, f8
63d1a8abSmrg	;;
63d1a8abSmrg	fcvt.fxu.trunc.s1 f10 = f10
63d1a8abSmrg	;;
63d1a8abSmrg	getf.sig ret0 = f10
63d1a8abSmrg	br.ret.sptk rp
63d1a8abSmrg	;;
63d1a8abSmrg	.endp __udivsi3
63d1a8abSmrg#endif
63d1a8abSmrg
63d1a8abSmrg#ifdef L__umodsi3
63d1a8abSmrg// Compute a 32-bit unsigned integer modulus.
63d1a8abSmrg//
63d1a8abSmrg// From the Intel IA-64 Optimization Guide, choose the minimum latency
63d1a8abSmrg// alternative.
63d1a8abSmrg//
63d1a8abSmrg// in0 holds the dividend.  in1 holds the divisor.
63d1a8abSmrg
63d1a8abSmrg	.text
63d1a8abSmrg	.align 16
63d1a8abSmrg	.global __umodsi3
63d1a8abSmrg	.proc __umodsi3
63d1a8abSmrg__umodsi3:
63d1a8abSmrg	.regstk 2,0,0,0
63d1a8abSmrg	mov r2 = 0x0ffdd
63d1a8abSmrg	zxt4 in0 = in0
63d1a8abSmrg	zxt4 in1 = in1
63d1a8abSmrg	;;
63d1a8abSmrg	setf.sig f13 = in0
63d1a8abSmrg	setf.sig f9 = in1
63d1a8abSmrg	// Check divide by zero.
63d1a8abSmrg	cmp.ne.unc p0,p7=0,in1
63d1a8abSmrg	;;
63d1a8abSmrg	sub in1 = r0, in1
63d1a8abSmrg	fcvt.xf f8 = f13
63d1a8abSmrg	fcvt.xf f9 = f9
63d1a8abSmrg	;;
63d1a8abSmrg	setf.exp f11 = r2
63d1a8abSmrg	frcpa.s1 f10, p6 = f8, f9
63d1a8abSmrg(p7)	break 1;
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fmpy.s1 f12 = f8, f10
63d1a8abSmrg(p6)	fnma.s1 f10 = f9, f10, f1
63d1a8abSmrg	;;
63d1a8abSmrg	setf.sig f9 = in1
63d1a8abSmrg(p6)	fma.s1 f12 = f10, f12, f12
63d1a8abSmrg(p6)	fma.s1 f10 = f10, f10, f11
63d1a8abSmrg	;;
63d1a8abSmrg(p6)	fma.s1 f10 = f10, f12, f12
63d1a8abSmrg	;;
63d1a8abSmrg	fcvt.fxu.trunc.s1 f10 = f10
63d1a8abSmrg	;;
63d1a8abSmrg	xma.l f10 = f10, f9, f13
63d1a8abSmrg	;;
63d1a8abSmrg	getf.sig ret0 = f10
63d1a8abSmrg	br.ret.sptk rp
63d1a8abSmrg	;;
63d1a8abSmrg	.endp __umodsi3
63d1a8abSmrg#endif
63d1a8abSmrg
63d1a8abSmrg#ifdef L__save_stack_nonlocal
63d1a8abSmrg// Notes on save/restore stack nonlocal: We read ar.bsp but write
63d1a8abSmrg// ar.bspstore.  This is because ar.bsp can be read at all times
63d1a8abSmrg// (independent of the RSE mode) but since it's read-only we need to
63d1a8abSmrg// restore the value via ar.bspstore.  This is OK because
63d1a8abSmrg// ar.bsp==ar.bspstore after executing "flushrs".
63d1a8abSmrg
63d1a8abSmrg// void __ia64_save_stack_nonlocal(void *save_area, void *stack_pointer)
63d1a8abSmrg
63d1a8abSmrg	.text
63d1a8abSmrg	.align 16
63d1a8abSmrg	.global __ia64_save_stack_nonlocal
63d1a8abSmrg	.proc __ia64_save_stack_nonlocal
63d1a8abSmrg__ia64_save_stack_nonlocal:
63d1a8abSmrg	{ .mmf
63d1a8abSmrg	  alloc r18 = ar.pfs, 2, 0, 0, 0
63d1a8abSmrg	  mov r19 = ar.rsc
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	{ .mmi
63d1a8abSmrg	  flushrs
63d1a8abSmrg	  st8 [in0] = in1, 24
63d1a8abSmrg	  and r19 = 0x1c, r19
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	{ .mmi
63d1a8abSmrg	  st8 [in0] = r18, -16
63d1a8abSmrg	  mov ar.rsc = r19
63d1a8abSmrg	  or r19 = 0x3, r19
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	{ .mmi
63d1a8abSmrg	  mov r16 = ar.bsp
63d1a8abSmrg	  mov r17 = ar.rnat
63d1a8abSmrg	  adds r2 = 8, in0
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	{ .mmi
63d1a8abSmrg	  st8 [in0] = r16
63d1a8abSmrg	  st8 [r2] = r17
63d1a8abSmrg	}
63d1a8abSmrg	{ .mib
63d1a8abSmrg	  mov ar.rsc = r19
63d1a8abSmrg	  br.ret.sptk.few rp
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	.endp __ia64_save_stack_nonlocal
63d1a8abSmrg#endif
63d1a8abSmrg
63d1a8abSmrg#ifdef L__nonlocal_goto
63d1a8abSmrg// void __ia64_nonlocal_goto(void *target_label, void *save_area,
63d1a8abSmrg//			     void *static_chain);
63d1a8abSmrg
63d1a8abSmrg	.text
63d1a8abSmrg	.align 16
63d1a8abSmrg	.global __ia64_nonlocal_goto
63d1a8abSmrg	.proc __ia64_nonlocal_goto
63d1a8abSmrg__ia64_nonlocal_goto:
63d1a8abSmrg	{ .mmi
63d1a8abSmrg	  alloc r20 = ar.pfs, 3, 0, 0, 0
63d1a8abSmrg	  ld8 r12 = [in1], 8
63d1a8abSmrg	  mov.ret.sptk rp = in0, .L0
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	{ .mmf
63d1a8abSmrg	  ld8 r16 = [in1], 8
63d1a8abSmrg	  mov r19 = ar.rsc
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	{ .mmi
63d1a8abSmrg	  flushrs
63d1a8abSmrg	  ld8 r17 = [in1], 8
63d1a8abSmrg	  and r19 = 0x1c, r19
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	{ .mmi
63d1a8abSmrg	  ld8 r18 = [in1]
63d1a8abSmrg	  mov ar.rsc = r19
63d1a8abSmrg	  or r19 = 0x3, r19
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	{ .mmi
63d1a8abSmrg	  mov ar.bspstore = r16
63d1a8abSmrg	  ;;
63d1a8abSmrg	  mov ar.rnat = r17
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	{ .mmi
63d1a8abSmrg	  loadrs
63d1a8abSmrg	  invala
63d1a8abSmrg	  mov r15 = in2
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg.L0:	{ .mib
63d1a8abSmrg	  mov ar.rsc = r19
63d1a8abSmrg	  mov ar.pfs = r18
63d1a8abSmrg	  br.ret.sptk.few rp
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	.endp __ia64_nonlocal_goto
63d1a8abSmrg#endif
63d1a8abSmrg
63d1a8abSmrg#ifdef L__restore_stack_nonlocal
63d1a8abSmrg// This is mostly the same as nonlocal_goto above.
63d1a8abSmrg// ??? This has not been tested yet.
63d1a8abSmrg
63d1a8abSmrg// void __ia64_restore_stack_nonlocal(void *save_area)
63d1a8abSmrg
63d1a8abSmrg	.text
63d1a8abSmrg	.align 16
63d1a8abSmrg	.global __ia64_restore_stack_nonlocal
63d1a8abSmrg	.proc __ia64_restore_stack_nonlocal
63d1a8abSmrg__ia64_restore_stack_nonlocal:
63d1a8abSmrg	{ .mmf
63d1a8abSmrg	  alloc r20 = ar.pfs, 4, 0, 0, 0
63d1a8abSmrg	  ld8 r12 = [in0], 8
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	{ .mmb
63d1a8abSmrg	  ld8 r16=[in0], 8
63d1a8abSmrg	  mov r19 = ar.rsc
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	{ .mmi
63d1a8abSmrg	  flushrs
63d1a8abSmrg	  ld8 r17 = [in0], 8
63d1a8abSmrg	  and r19 = 0x1c, r19
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	{ .mmf
63d1a8abSmrg	  ld8 r18 = [in0]
63d1a8abSmrg	  mov ar.rsc = r19
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	{ .mmi
63d1a8abSmrg	  mov ar.bspstore = r16
63d1a8abSmrg	  ;;
63d1a8abSmrg	  mov ar.rnat = r17
63d1a8abSmrg	  or r19 = 0x3, r19
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	{ .mmf
63d1a8abSmrg	  loadrs
63d1a8abSmrg	  invala
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg.L0:	{ .mib
63d1a8abSmrg	  mov ar.rsc = r19
63d1a8abSmrg	  mov ar.pfs = r18
63d1a8abSmrg	  br.ret.sptk.few rp
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	.endp __ia64_restore_stack_nonlocal
63d1a8abSmrg#endif
63d1a8abSmrg
63d1a8abSmrg#ifdef L__trampoline
63d1a8abSmrg// Implement the nested function trampoline.  This is out of line
63d1a8abSmrg// so that we don't have to bother with flushing the icache, as
63d1a8abSmrg// well as making the on-stack trampoline smaller.
63d1a8abSmrg//
63d1a8abSmrg// The trampoline has the following form:
63d1a8abSmrg//
63d1a8abSmrg//		+-------------------+ >
63d1a8abSmrg//	TRAMP:	| __ia64_trampoline | |
63d1a8abSmrg//		+-------------------+  > fake function descriptor
63d1a8abSmrg//		| TRAMP+16          | |
63d1a8abSmrg//		+-------------------+ >
63d1a8abSmrg//		| target descriptor |
63d1a8abSmrg//		+-------------------+
63d1a8abSmrg//		| static link	    |
63d1a8abSmrg//		+-------------------+
63d1a8abSmrg
63d1a8abSmrg	.text
63d1a8abSmrg	.align 16
63d1a8abSmrg	.global __ia64_trampoline
63d1a8abSmrg	.proc __ia64_trampoline
63d1a8abSmrg__ia64_trampoline:
63d1a8abSmrg	{ .mmi
63d1a8abSmrg	  ld8 r2 = [r1], 8
63d1a8abSmrg	  ;;
63d1a8abSmrg	  ld8 r15 = [r1]
63d1a8abSmrg	}
63d1a8abSmrg	{ .mmi
63d1a8abSmrg	  ld8 r3 = [r2], 8
63d1a8abSmrg	  ;;
63d1a8abSmrg	  ld8 r1 = [r2]
63d1a8abSmrg	  mov b6 = r3
63d1a8abSmrg	}
63d1a8abSmrg	{ .bbb
63d1a8abSmrg	  br.sptk.many b6
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	.endp __ia64_trampoline
63d1a8abSmrg#endif
63d1a8abSmrg
63d1a8abSmrg#ifdef SHARED
63d1a8abSmrg// Thunks for backward compatibility.
63d1a8abSmrg#ifdef L_fixtfdi
63d1a8abSmrg	.text
63d1a8abSmrg	.align 16
63d1a8abSmrg	.global __fixtfti
63d1a8abSmrg	.proc __fixtfti
63d1a8abSmrg__fixtfti:
63d1a8abSmrg	{ .bbb
63d1a8abSmrg	  br.sptk.many __fixxfti
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	.endp __fixtfti
63d1a8abSmrg#endif
63d1a8abSmrg#ifdef L_fixunstfdi
63d1a8abSmrg	.align 16
63d1a8abSmrg	.global __fixunstfti
63d1a8abSmrg	.proc __fixunstfti
63d1a8abSmrg__fixunstfti:
63d1a8abSmrg	{ .bbb
63d1a8abSmrg	  br.sptk.many __fixunsxfti
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	.endp __fixunstfti
63d1a8abSmrg#endif
63d1a8abSmrg#ifdef L_floatditf
63d1a8abSmrg	.align 16
63d1a8abSmrg	.global __floattitf
63d1a8abSmrg	.proc __floattitf
63d1a8abSmrg__floattitf:
63d1a8abSmrg	{ .bbb
63d1a8abSmrg	  br.sptk.many __floattixf
63d1a8abSmrg	  ;;
63d1a8abSmrg	}
63d1a8abSmrg	.endp __floattitf
63d1a8abSmrg#endif
63d1a8abSmrg#endif