mpn/generic/mu_bdiv_q.c

4a1767b4Smrg/* mpn_mu_bdiv_q(qp,np,nn,dp,dn,tp) -- Compute {np,nn} / {dp,dn} mod B^nn.
4a1767b4Smrg   storing the result in {qp,nn}.  Overlap allowed between Q and N; all other
4a1767b4Smrg   overlap disallowed.
4a1767b4Smrg
4a1767b4Smrg   Contributed to the GNU project by Torbjorn Granlund.
4a1767b4Smrg
4a1767b4Smrg   THE FUNCTIONS IN THIS FILE ARE INTERNAL WITH MUTABLE INTERFACES.  IT IS ONLY
4a1767b4Smrg   SAFE TO REACH THEM THROUGH DOCUMENTED INTERFACES.  IN FACT, IT IS ALMOST
4a1767b4Smrg   GUARANTEED THAT THEY WILL CHANGE OR DISAPPEAR IN A FUTURE GMP RELEASE.
4a1767b4Smrg
*671ea119SmrgCopyright 2005-2007, 2009, 2010, 2017 Free Software Foundation, Inc.
4a1767b4Smrg
4a1767b4SmrgThis file is part of the GNU MP Library.
4a1767b4Smrg
4a1767b4SmrgThe GNU MP Library is free software; you can redistribute it and/or modify
f81b1c5bSmrgit under the terms of either:
f81b1c5bSmrg
f81b1c5bSmrg  * the GNU Lesser General Public License as published by the Free
f81b1c5bSmrg    Software Foundation; either version 3 of the License, or (at your
4a1767b4Smrg    option) any later version.
4a1767b4Smrg
f81b1c5bSmrgor
f81b1c5bSmrg
f81b1c5bSmrg  * the GNU General Public License as published by the Free Software
f81b1c5bSmrg    Foundation; either version 2 of the License, or (at your option) any
f81b1c5bSmrg    later version.
f81b1c5bSmrg
f81b1c5bSmrgor both in parallel, as here.
f81b1c5bSmrg
4a1767b4SmrgThe GNU MP Library is distributed in the hope that it will be useful, but
4a1767b4SmrgWITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
f81b1c5bSmrgor FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
f81b1c5bSmrgfor more details.
4a1767b4Smrg
f81b1c5bSmrgYou should have received copies of the GNU General Public License and the
f81b1c5bSmrgGNU Lesser General Public License along with the GNU MP Library.  If not,
f81b1c5bSmrgsee https://www.gnu.org/licenses/.  */
4a1767b4Smrg
4a1767b4Smrg
4a1767b4Smrg/*
4a1767b4Smrg   The idea of the algorithm used herein is to compute a smaller inverted value
4a1767b4Smrg   than used in the standard Barrett algorithm, and thus save time in the
4a1767b4Smrg   Newton iterations, and pay just a small price when using the inverted value
4a1767b4Smrg   for developing quotient bits.  This algorithm was presented at ICMS 2006.
4a1767b4Smrg*/
4a1767b4Smrg
4a1767b4Smrg#include "gmp-impl.h"
4a1767b4Smrg
4a1767b4Smrg
4a1767b4Smrg/* N = {np,nn}
4a1767b4Smrg   D = {dp,dn}
4a1767b4Smrg
4a1767b4Smrg   Requirements: N >= D
4a1767b4Smrg		 D >= 1
4a1767b4Smrg		 D odd
4a1767b4Smrg		 dn >= 2
4a1767b4Smrg		 nn >= 2
4a1767b4Smrg		 scratch space as determined by mpn_mu_bdiv_q_itch(nn,dn).
4a1767b4Smrg
4a1767b4Smrg   Write quotient to Q = {qp,nn}.
4a1767b4Smrg
4a1767b4Smrg   FIXME: When iterating, perhaps do the small step before loop, not after.
4a1767b4Smrg   FIXME: Try to avoid the scalar divisions when computing inverse size.
4a1767b4Smrg   FIXME: Trim allocation for (qn > dn) case, 3*dn might be possible.  In
4a1767b4Smrg	  particular, when dn==in, tp and rp could use the same space.
4a1767b4Smrg   FIXME: Trim final quotient calculation to qn limbs of precision.
4a1767b4Smrg*/
*671ea119Smrgstatic void
*671ea119Smrgmpn_mu_bdiv_q_old (mp_ptr qp,
4a1767b4Smrg	       mp_srcptr np, mp_size_t nn,
4a1767b4Smrg	       mp_srcptr dp, mp_size_t dn,
4a1767b4Smrg	       mp_ptr scratch)
4a1767b4Smrg{
4a1767b4Smrg  mp_size_t qn;
4a1767b4Smrg  mp_size_t in;
4a1767b4Smrg  int cy, c0;
4a1767b4Smrg  mp_size_t tn, wn;
4a1767b4Smrg
4a1767b4Smrg  qn = nn;
4a1767b4Smrg
4a1767b4Smrg  ASSERT (dn >= 2);
4a1767b4Smrg  ASSERT (qn >= 2);
4a1767b4Smrg
4a1767b4Smrg  if (qn > dn)
4a1767b4Smrg    {
4a1767b4Smrg      mp_size_t b;
4a1767b4Smrg
4a1767b4Smrg      /* |_______________________|   dividend
4a1767b4Smrg			|________|   divisor  */
4a1767b4Smrg
4a1767b4Smrg#define ip           scratch			/* in */
4a1767b4Smrg#define rp           (scratch + in)		/* dn or rest >= binvert_itch(in) */
4a1767b4Smrg#define tp           (scratch + in + dn)	/* dn+in or next_size(dn) */
4a1767b4Smrg#define scratch_out  (scratch + in + dn + tn)	/* mulmod_bnm1_itch(next_size(dn)) */
4a1767b4Smrg
4a1767b4Smrg      /* Compute an inverse size that is a nice partition of the quotient.  */
4a1767b4Smrg      b = (qn - 1) / dn + 1;	/* ceil(qn/dn), number of blocks */
4a1767b4Smrg      in = (qn - 1) / b + 1;	/* ceil(qn/b) = ceil(qn / ceil(qn/dn)) */
4a1767b4Smrg
4a1767b4Smrg      /* Some notes on allocation:
4a1767b4Smrg
4a1767b4Smrg	 When in = dn, R dies when mpn_mullo returns, if in < dn the low in
4a1767b4Smrg	 limbs of R dies at that point.  We could save memory by letting T live
4a1767b4Smrg	 just under R, and let the upper part of T expand into R. These changes
4a1767b4Smrg	 should reduce itch to perhaps 3dn.
4a1767b4Smrg       */
4a1767b4Smrg
4a1767b4Smrg      mpn_binvert (ip, dp, in, rp);
4a1767b4Smrg
4a1767b4Smrg      cy = 0;
4a1767b4Smrg
4a1767b4Smrg      MPN_COPY (rp, np, dn);
4a1767b4Smrg      np += dn;
4a1767b4Smrg      mpn_mullo_n (qp, rp, ip, in);
4a1767b4Smrg      qn -= in;
4a1767b4Smrg
4a1767b4Smrg      while (qn > in)
4a1767b4Smrg	{
4a1767b4Smrg	  if (BELOW_THRESHOLD (in, MUL_TO_MULMOD_BNM1_FOR_2NXN_THRESHOLD))
4a1767b4Smrg	    mpn_mul (tp, dp, dn, qp, in);	/* mulhi, need tp[dn+in-1...in] */
4a1767b4Smrg	  else
4a1767b4Smrg	    {
4a1767b4Smrg	      tn = mpn_mulmod_bnm1_next_size (dn);
4a1767b4Smrg	      mpn_mulmod_bnm1 (tp, tn, dp, dn, qp, in, scratch_out);
4a1767b4Smrg	      wn = dn + in - tn;		/* number of wrapped limbs */
4a1767b4Smrg	      if (wn > 0)
4a1767b4Smrg		{
4a1767b4Smrg		  c0 = mpn_sub_n (tp + tn, tp, rp, wn);
4a1767b4Smrg		  mpn_decr_u (tp + wn, c0);
4a1767b4Smrg		}
4a1767b4Smrg	    }
4a1767b4Smrg
4a1767b4Smrg	  qp += in;
4a1767b4Smrg	  if (dn != in)
4a1767b4Smrg	    {
4a1767b4Smrg	      /* Subtract tp[dn-1...in] from partial remainder.  */
4a1767b4Smrg	      cy += mpn_sub_n (rp, rp + in, tp + in, dn - in);
4a1767b4Smrg	      if (cy == 2)
4a1767b4Smrg		{
4a1767b4Smrg		  mpn_incr_u (tp + dn, 1);
4a1767b4Smrg		  cy = 1;
4a1767b4Smrg		}
4a1767b4Smrg	    }
4a1767b4Smrg	  /* Subtract tp[dn+in-1...dn] from dividend.  */
4a1767b4Smrg	  cy = mpn_sub_nc (rp + dn - in, np, tp + dn, in, cy);
4a1767b4Smrg	  np += in;
4a1767b4Smrg	  mpn_mullo_n (qp, rp, ip, in);
4a1767b4Smrg	  qn -= in;
4a1767b4Smrg	}
4a1767b4Smrg
4a1767b4Smrg      /* Generate last qn limbs.
4a1767b4Smrg	 FIXME: It should be possible to limit precision here, since qn is
4a1767b4Smrg	 typically somewhat smaller than dn.  No big gains expected.  */
4a1767b4Smrg
4a1767b4Smrg      if (BELOW_THRESHOLD (in, MUL_TO_MULMOD_BNM1_FOR_2NXN_THRESHOLD))
4a1767b4Smrg	mpn_mul (tp, dp, dn, qp, in);		/* mulhi, need tp[qn+in-1...in] */
4a1767b4Smrg      else
4a1767b4Smrg	{
4a1767b4Smrg	  tn = mpn_mulmod_bnm1_next_size (dn);
4a1767b4Smrg	  mpn_mulmod_bnm1 (tp, tn, dp, dn, qp, in, scratch_out);
4a1767b4Smrg	  wn = dn + in - tn;			/* number of wrapped limbs */
4a1767b4Smrg	  if (wn > 0)
4a1767b4Smrg	    {
4a1767b4Smrg	      c0 = mpn_sub_n (tp + tn, tp, rp, wn);
4a1767b4Smrg	      mpn_decr_u (tp + wn, c0);
4a1767b4Smrg	    }
4a1767b4Smrg	}
4a1767b4Smrg
4a1767b4Smrg      qp += in;
4a1767b4Smrg      if (dn != in)
4a1767b4Smrg	{
4a1767b4Smrg	  cy += mpn_sub_n (rp, rp + in, tp + in, dn - in);
4a1767b4Smrg	  if (cy == 2)
4a1767b4Smrg	    {
4a1767b4Smrg	      mpn_incr_u (tp + dn, 1);
4a1767b4Smrg	      cy = 1;
4a1767b4Smrg	    }
4a1767b4Smrg	}
4a1767b4Smrg
4a1767b4Smrg      mpn_sub_nc (rp + dn - in, np, tp + dn, qn - (dn - in), cy);
4a1767b4Smrg      mpn_mullo_n (qp, rp, ip, qn);
4a1767b4Smrg
4a1767b4Smrg#undef ip
4a1767b4Smrg#undef rp
4a1767b4Smrg#undef tp
4a1767b4Smrg#undef scratch_out
4a1767b4Smrg   }
4a1767b4Smrg  else
4a1767b4Smrg    {
4a1767b4Smrg      /* |_______________________|   dividend
4a1767b4Smrg		|________________|   divisor  */
4a1767b4Smrg
4a1767b4Smrg#define ip           scratch		/* in */
4a1767b4Smrg#define tp           (scratch + in)	/* qn+in or next_size(qn) or rest >= binvert_itch(in) */
4a1767b4Smrg#define scratch_out  (scratch + in + tn)/* mulmod_bnm1_itch(next_size(qn)) */
4a1767b4Smrg
4a1767b4Smrg      /* Compute half-sized inverse.  */
4a1767b4Smrg      in = qn - (qn >> 1);
4a1767b4Smrg
4a1767b4Smrg      mpn_binvert (ip, dp, in, tp);
4a1767b4Smrg
4a1767b4Smrg      mpn_mullo_n (qp, np, ip, in);		/* low `in' quotient limbs */
4a1767b4Smrg
4a1767b4Smrg      if (BELOW_THRESHOLD (in, MUL_TO_MULMOD_BNM1_FOR_2NXN_THRESHOLD))
4a1767b4Smrg	mpn_mul (tp, dp, qn, qp, in);		/* mulhigh */
4a1767b4Smrg      else
4a1767b4Smrg	{
4a1767b4Smrg	  tn = mpn_mulmod_bnm1_next_size (qn);
4a1767b4Smrg	  mpn_mulmod_bnm1 (tp, tn, dp, qn, qp, in, scratch_out);
4a1767b4Smrg	  wn = qn + in - tn;			/* number of wrapped limbs */
4a1767b4Smrg	  if (wn > 0)
4a1767b4Smrg	    {
4a1767b4Smrg	      c0 = mpn_cmp (tp, np, wn) < 0;
4a1767b4Smrg	      mpn_decr_u (tp + wn, c0);
4a1767b4Smrg	    }
4a1767b4Smrg	}
4a1767b4Smrg
4a1767b4Smrg      mpn_sub_n (tp, np + in, tp + in, qn - in);
4a1767b4Smrg      mpn_mullo_n (qp + in, tp, ip, qn - in);	/* high qn-in quotient limbs */
4a1767b4Smrg
4a1767b4Smrg#undef ip
4a1767b4Smrg#undef tp
4a1767b4Smrg#undef scratch_out
4a1767b4Smrg    }
4a1767b4Smrg}
4a1767b4Smrg
*671ea119Smrgvoid
*671ea119Smrgmpn_mu_bdiv_q (mp_ptr qp,
*671ea119Smrg	       mp_srcptr np, mp_size_t nn,
*671ea119Smrg	       mp_srcptr dp, mp_size_t dn,
*671ea119Smrg	       mp_ptr scratch)
*671ea119Smrg{
*671ea119Smrg  mpn_mu_bdiv_q_old (qp, np, nn, dp, dn, scratch);
*671ea119Smrg  mpn_neg (qp, qp, nn);
*671ea119Smrg}
*671ea119Smrg
4a1767b4Smrgmp_size_t
4a1767b4Smrgmpn_mu_bdiv_q_itch (mp_size_t nn, mp_size_t dn)
4a1767b4Smrg{
4a1767b4Smrg  mp_size_t qn, in, tn, itch_binvert, itch_out, itches;
4a1767b4Smrg  mp_size_t b;
4a1767b4Smrg
f81b1c5bSmrg  ASSERT_ALWAYS (DC_BDIV_Q_THRESHOLD < MU_BDIV_Q_THRESHOLD);
f81b1c5bSmrg
4a1767b4Smrg  qn = nn;
4a1767b4Smrg
4a1767b4Smrg  if (qn > dn)
4a1767b4Smrg    {
4a1767b4Smrg      b = (qn - 1) / dn + 1;	/* ceil(qn/dn), number of blocks */
4a1767b4Smrg      in = (qn - 1) / b + 1;	/* ceil(qn/b) = ceil(qn / ceil(qn/dn)) */
4a1767b4Smrg      if (BELOW_THRESHOLD (in, MUL_TO_MULMOD_BNM1_FOR_2NXN_THRESHOLD))
4a1767b4Smrg	{
4a1767b4Smrg	  tn = dn + in;
4a1767b4Smrg	  itch_out = 0;
4a1767b4Smrg	}
4a1767b4Smrg      else
4a1767b4Smrg	{
4a1767b4Smrg	  tn = mpn_mulmod_bnm1_next_size (dn);
4a1767b4Smrg	  itch_out = mpn_mulmod_bnm1_itch (tn, dn, in);
4a1767b4Smrg	}
4a1767b4Smrg      itches = dn + tn + itch_out;
4a1767b4Smrg    }
4a1767b4Smrg  else
4a1767b4Smrg    {
4a1767b4Smrg      in = qn - (qn >> 1);
4a1767b4Smrg      if (BELOW_THRESHOLD (in, MUL_TO_MULMOD_BNM1_FOR_2NXN_THRESHOLD))
4a1767b4Smrg	{
4a1767b4Smrg	  tn = qn + in;
4a1767b4Smrg	  itch_out = 0;
4a1767b4Smrg	}
4a1767b4Smrg      else
4a1767b4Smrg	{
4a1767b4Smrg	  tn = mpn_mulmod_bnm1_next_size (qn);
4a1767b4Smrg	  itch_out = mpn_mulmod_bnm1_itch (tn, qn, in);
4a1767b4Smrg	}
4a1767b4Smrg      itches = tn + itch_out;
f81b1c5bSmrg    }
f81b1c5bSmrg
f81b1c5bSmrg  itch_binvert = mpn_binvert_itch (in);
4a1767b4Smrg  return in + MAX (itches, itch_binvert);
4a1767b4Smrg}