gcc-8.0/gcc/tree-vect-loop-manip.c

*38fd1498Szrj/* Vectorizer Specific Loop Manipulations
*38fd1498Szrj   Copyright (C) 2003-2018 Free Software Foundation, Inc.
*38fd1498Szrj   Contributed by Dorit Naishlos <dorit@il.ibm.com>
*38fd1498Szrj   and Ira Rosen <irar@il.ibm.com>
*38fd1498Szrj
*38fd1498SzrjThis file is part of GCC.
*38fd1498Szrj
*38fd1498SzrjGCC is free software; you can redistribute it and/or modify it under
*38fd1498Szrjthe terms of the GNU General Public License as published by the Free
*38fd1498SzrjSoftware Foundation; either version 3, or (at your option) any later
*38fd1498Szrjversion.
*38fd1498Szrj
*38fd1498SzrjGCC is distributed in the hope that it will be useful, but WITHOUT ANY
*38fd1498SzrjWARRANTY; without even the implied warranty of MERCHANTABILITY or
*38fd1498SzrjFITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
*38fd1498Szrjfor more details.
*38fd1498Szrj
*38fd1498SzrjYou should have received a copy of the GNU General Public License
*38fd1498Szrjalong with GCC; see the file COPYING3.  If not see
*38fd1498Szrj<http://www.gnu.org/licenses/>.  */
*38fd1498Szrj
*38fd1498Szrj#include "config.h"
*38fd1498Szrj#include "system.h"
*38fd1498Szrj#include "coretypes.h"
*38fd1498Szrj#include "backend.h"
*38fd1498Szrj#include "tree.h"
*38fd1498Szrj#include "gimple.h"
*38fd1498Szrj#include "cfghooks.h"
*38fd1498Szrj#include "tree-pass.h"
*38fd1498Szrj#include "ssa.h"
*38fd1498Szrj#include "fold-const.h"
*38fd1498Szrj#include "cfganal.h"
*38fd1498Szrj#include "gimplify.h"
*38fd1498Szrj#include "gimple-iterator.h"
*38fd1498Szrj#include "gimplify-me.h"
*38fd1498Szrj#include "tree-cfg.h"
*38fd1498Szrj#include "tree-ssa-loop-manip.h"
*38fd1498Szrj#include "tree-into-ssa.h"
*38fd1498Szrj#include "tree-ssa.h"
*38fd1498Szrj#include "cfgloop.h"
*38fd1498Szrj#include "tree-scalar-evolution.h"
*38fd1498Szrj#include "tree-vectorizer.h"
*38fd1498Szrj#include "tree-ssa-loop-ivopts.h"
*38fd1498Szrj#include "gimple-fold.h"
*38fd1498Szrj#include "tree-ssa-loop-niter.h"
*38fd1498Szrj#include "internal-fn.h"
*38fd1498Szrj#include "stor-layout.h"
*38fd1498Szrj#include "optabs-query.h"
*38fd1498Szrj#include "vec-perm-indices.h"
*38fd1498Szrj
*38fd1498Szrj/*************************************************************************
*38fd1498Szrj  Simple Loop Peeling Utilities
*38fd1498Szrj
*38fd1498Szrj  Utilities to support loop peeling for vectorization purposes.
*38fd1498Szrj *************************************************************************/
*38fd1498Szrj
*38fd1498Szrj
*38fd1498Szrj/* Renames the use *OP_P.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjrename_use_op (use_operand_p op_p)
*38fd1498Szrj{
*38fd1498Szrj  tree new_name;
*38fd1498Szrj
*38fd1498Szrj  if (TREE_CODE (USE_FROM_PTR (op_p)) != SSA_NAME)
*38fd1498Szrj    return;
*38fd1498Szrj
*38fd1498Szrj  new_name = get_current_def (USE_FROM_PTR (op_p));
*38fd1498Szrj
*38fd1498Szrj  /* Something defined outside of the loop.  */
*38fd1498Szrj  if (!new_name)
*38fd1498Szrj    return;
*38fd1498Szrj
*38fd1498Szrj  /* An ordinary ssa name defined in the loop.  */
*38fd1498Szrj
*38fd1498Szrj  SET_USE (op_p, new_name);
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj
*38fd1498Szrj/* Renames the variables in basic block BB.  Allow renaming  of PHI arguments
*38fd1498Szrj   on edges incoming from outer-block header if RENAME_FROM_OUTER_LOOP is
*38fd1498Szrj   true.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjrename_variables_in_bb (basic_block bb, bool rename_from_outer_loop)
*38fd1498Szrj{
*38fd1498Szrj  gimple *stmt;
*38fd1498Szrj  use_operand_p use_p;
*38fd1498Szrj  ssa_op_iter iter;
*38fd1498Szrj  edge e;
*38fd1498Szrj  edge_iterator ei;
*38fd1498Szrj  struct loop *loop = bb->loop_father;
*38fd1498Szrj  struct loop *outer_loop = NULL;
*38fd1498Szrj
*38fd1498Szrj  if (rename_from_outer_loop)
*38fd1498Szrj    {
*38fd1498Szrj      gcc_assert (loop);
*38fd1498Szrj      outer_loop = loop_outer (loop);
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  for (gimple_stmt_iterator gsi = gsi_start_bb (bb); !gsi_end_p (gsi);
*38fd1498Szrj       gsi_next (&gsi))
*38fd1498Szrj    {
*38fd1498Szrj      stmt = gsi_stmt (gsi);
*38fd1498Szrj      FOR_EACH_SSA_USE_OPERAND (use_p, stmt, iter, SSA_OP_ALL_USES)
*38fd1498Szrj	rename_use_op (use_p);
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  FOR_EACH_EDGE (e, ei, bb->preds)
*38fd1498Szrj    {
*38fd1498Szrj      if (!flow_bb_inside_loop_p (loop, e->src))
*38fd1498Szrj	{
*38fd1498Szrj	  if (!rename_from_outer_loop)
*38fd1498Szrj	    continue;
*38fd1498Szrj	  if (e->src != outer_loop->header)
*38fd1498Szrj	    {
*38fd1498Szrj	      if (outer_loop->inner->next)
*38fd1498Szrj		{
*38fd1498Szrj		  /* If outer_loop has 2 inner loops, allow there to
*38fd1498Szrj		     be an extra basic block which decides which of the
*38fd1498Szrj		     two loops to use using LOOP_VECTORIZED.  */
*38fd1498Szrj		  if (!single_pred_p (e->src)
*38fd1498Szrj		      || single_pred (e->src) != outer_loop->header)
*38fd1498Szrj		    continue;
*38fd1498Szrj		}
*38fd1498Szrj	    }
*38fd1498Szrj	}
*38fd1498Szrj      for (gphi_iterator gsi = gsi_start_phis (bb); !gsi_end_p (gsi);
*38fd1498Szrj	   gsi_next (&gsi))
*38fd1498Szrj        rename_use_op (PHI_ARG_DEF_PTR_FROM_EDGE (gsi.phi (), e));
*38fd1498Szrj    }
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj
*38fd1498Szrjstruct adjust_info
*38fd1498Szrj{
*38fd1498Szrj  tree from, to;
*38fd1498Szrj  basic_block bb;
*38fd1498Szrj};
*38fd1498Szrj
*38fd1498Szrj/* A stack of values to be adjusted in debug stmts.  We have to
*38fd1498Szrj   process them LIFO, so that the closest substitution applies.  If we
*38fd1498Szrj   processed them FIFO, without the stack, we might substitute uses
*38fd1498Szrj   with a PHI DEF that would soon become non-dominant, and when we got
*38fd1498Szrj   to the suitable one, it wouldn't have anything to substitute any
*38fd1498Szrj   more.  */
*38fd1498Szrjstatic vec<adjust_info, va_heap> adjust_vec;
*38fd1498Szrj
*38fd1498Szrj/* Adjust any debug stmts that referenced AI->from values to use the
*38fd1498Szrj   loop-closed AI->to, if the references are dominated by AI->bb and
*38fd1498Szrj   not by the definition of AI->from.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjadjust_debug_stmts_now (adjust_info *ai)
*38fd1498Szrj{
*38fd1498Szrj  basic_block bbphi = ai->bb;
*38fd1498Szrj  tree orig_def = ai->from;
*38fd1498Szrj  tree new_def = ai->to;
*38fd1498Szrj  imm_use_iterator imm_iter;
*38fd1498Szrj  gimple *stmt;
*38fd1498Szrj  basic_block bbdef = gimple_bb (SSA_NAME_DEF_STMT (orig_def));
*38fd1498Szrj
*38fd1498Szrj  gcc_assert (dom_info_available_p (CDI_DOMINATORS));
*38fd1498Szrj
*38fd1498Szrj  /* Adjust any debug stmts that held onto non-loop-closed
*38fd1498Szrj     references.  */
*38fd1498Szrj  FOR_EACH_IMM_USE_STMT (stmt, imm_iter, orig_def)
*38fd1498Szrj    {
*38fd1498Szrj      use_operand_p use_p;
*38fd1498Szrj      basic_block bbuse;
*38fd1498Szrj
*38fd1498Szrj      if (!is_gimple_debug (stmt))
*38fd1498Szrj	continue;
*38fd1498Szrj
*38fd1498Szrj      gcc_assert (gimple_debug_bind_p (stmt));
*38fd1498Szrj
*38fd1498Szrj      bbuse = gimple_bb (stmt);
*38fd1498Szrj
*38fd1498Szrj      if ((bbuse == bbphi
*38fd1498Szrj	   || dominated_by_p (CDI_DOMINATORS, bbuse, bbphi))
*38fd1498Szrj	  && !(bbuse == bbdef
*38fd1498Szrj	       || dominated_by_p (CDI_DOMINATORS, bbuse, bbdef)))
*38fd1498Szrj	{
*38fd1498Szrj	  if (new_def)
*38fd1498Szrj	    FOR_EACH_IMM_USE_ON_STMT (use_p, imm_iter)
*38fd1498Szrj	      SET_USE (use_p, new_def);
*38fd1498Szrj	  else
*38fd1498Szrj	    {
*38fd1498Szrj	      gimple_debug_bind_reset_value (stmt);
*38fd1498Szrj	      update_stmt (stmt);
*38fd1498Szrj	    }
*38fd1498Szrj	}
*38fd1498Szrj    }
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Adjust debug stmts as scheduled before.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjadjust_vec_debug_stmts (void)
*38fd1498Szrj{
*38fd1498Szrj  if (!MAY_HAVE_DEBUG_BIND_STMTS)
*38fd1498Szrj    return;
*38fd1498Szrj
*38fd1498Szrj  gcc_assert (adjust_vec.exists ());
*38fd1498Szrj
*38fd1498Szrj  while (!adjust_vec.is_empty ())
*38fd1498Szrj    {
*38fd1498Szrj      adjust_debug_stmts_now (&adjust_vec.last ());
*38fd1498Szrj      adjust_vec.pop ();
*38fd1498Szrj    }
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Adjust any debug stmts that referenced FROM values to use the
*38fd1498Szrj   loop-closed TO, if the references are dominated by BB and not by
*38fd1498Szrj   the definition of FROM.  If adjust_vec is non-NULL, adjustments
*38fd1498Szrj   will be postponed until adjust_vec_debug_stmts is called.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjadjust_debug_stmts (tree from, tree to, basic_block bb)
*38fd1498Szrj{
*38fd1498Szrj  adjust_info ai;
*38fd1498Szrj
*38fd1498Szrj  if (MAY_HAVE_DEBUG_BIND_STMTS
*38fd1498Szrj      && TREE_CODE (from) == SSA_NAME
*38fd1498Szrj      && ! SSA_NAME_IS_DEFAULT_DEF (from)
*38fd1498Szrj      && ! virtual_operand_p (from))
*38fd1498Szrj    {
*38fd1498Szrj      ai.from = from;
*38fd1498Szrj      ai.to = to;
*38fd1498Szrj      ai.bb = bb;
*38fd1498Szrj
*38fd1498Szrj      if (adjust_vec.exists ())
*38fd1498Szrj	adjust_vec.safe_push (ai);
*38fd1498Szrj      else
*38fd1498Szrj	adjust_debug_stmts_now (&ai);
*38fd1498Szrj    }
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Change E's phi arg in UPDATE_PHI to NEW_DEF, and record information
*38fd1498Szrj   to adjust any debug stmts that referenced the old phi arg,
*38fd1498Szrj   presumably non-loop-closed references left over from other
*38fd1498Szrj   transformations.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjadjust_phi_and_debug_stmts (gimple *update_phi, edge e, tree new_def)
*38fd1498Szrj{
*38fd1498Szrj  tree orig_def = PHI_ARG_DEF_FROM_EDGE (update_phi, e);
*38fd1498Szrj
*38fd1498Szrj  SET_PHI_ARG_DEF (update_phi, e->dest_idx, new_def);
*38fd1498Szrj
*38fd1498Szrj  if (MAY_HAVE_DEBUG_BIND_STMTS)
*38fd1498Szrj    adjust_debug_stmts (orig_def, PHI_RESULT (update_phi),
*38fd1498Szrj			gimple_bb (update_phi));
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Define one loop mask MASK from loop LOOP.  INIT_MASK is the value that
*38fd1498Szrj   the mask should have during the first iteration and NEXT_MASK is the
*38fd1498Szrj   value that it should have on subsequent iterations.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjvect_set_loop_mask (struct loop *loop, tree mask, tree init_mask,
*38fd1498Szrj		    tree next_mask)
*38fd1498Szrj{
*38fd1498Szrj  gphi *phi = create_phi_node (mask, loop->header);
*38fd1498Szrj  add_phi_arg (phi, init_mask, loop_preheader_edge (loop), UNKNOWN_LOCATION);
*38fd1498Szrj  add_phi_arg (phi, next_mask, loop_latch_edge (loop), UNKNOWN_LOCATION);
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Add SEQ to the end of LOOP's preheader block.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjadd_preheader_seq (struct loop *loop, gimple_seq seq)
*38fd1498Szrj{
*38fd1498Szrj  if (seq)
*38fd1498Szrj    {
*38fd1498Szrj      edge pe = loop_preheader_edge (loop);
*38fd1498Szrj      basic_block new_bb = gsi_insert_seq_on_edge_immediate (pe, seq);
*38fd1498Szrj      gcc_assert (!new_bb);
*38fd1498Szrj    }
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Add SEQ to the beginning of LOOP's header block.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjadd_header_seq (struct loop *loop, gimple_seq seq)
*38fd1498Szrj{
*38fd1498Szrj  if (seq)
*38fd1498Szrj    {
*38fd1498Szrj      gimple_stmt_iterator gsi = gsi_after_labels (loop->header);
*38fd1498Szrj      gsi_insert_seq_before (&gsi, seq, GSI_SAME_STMT);
*38fd1498Szrj    }
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Return true if the target can interleave elements of two vectors.
*38fd1498Szrj   OFFSET is 0 if the first half of the vectors should be interleaved
*38fd1498Szrj   or 1 if the second half should.  When returning true, store the
*38fd1498Szrj   associated permutation in INDICES.  */
*38fd1498Szrj
*38fd1498Szrjstatic bool
*38fd1498Szrjinterleave_supported_p (vec_perm_indices *indices, tree vectype,
*38fd1498Szrj			unsigned int offset)
*38fd1498Szrj{
*38fd1498Szrj  poly_uint64 nelts = TYPE_VECTOR_SUBPARTS (vectype);
*38fd1498Szrj  poly_uint64 base = exact_div (nelts, 2) * offset;
*38fd1498Szrj  vec_perm_builder sel (nelts, 2, 3);
*38fd1498Szrj  for (unsigned int i = 0; i < 3; ++i)
*38fd1498Szrj    {
*38fd1498Szrj      sel.quick_push (base + i);
*38fd1498Szrj      sel.quick_push (base + i + nelts);
*38fd1498Szrj    }
*38fd1498Szrj  indices->new_vector (sel, 2, nelts);
*38fd1498Szrj  return can_vec_perm_const_p (TYPE_MODE (vectype), *indices);
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Try to use permutes to define the masks in DEST_RGM using the masks
*38fd1498Szrj   in SRC_RGM, given that the former has twice as many masks as the
*38fd1498Szrj   latter.  Return true on success, adding any new statements to SEQ.  */
*38fd1498Szrj
*38fd1498Szrjstatic bool
*38fd1498Szrjvect_maybe_permute_loop_masks (gimple_seq *seq, rgroup_masks *dest_rgm,
*38fd1498Szrj			       rgroup_masks *src_rgm)
*38fd1498Szrj{
*38fd1498Szrj  tree src_masktype = src_rgm->mask_type;
*38fd1498Szrj  tree dest_masktype = dest_rgm->mask_type;
*38fd1498Szrj  machine_mode src_mode = TYPE_MODE (src_masktype);
*38fd1498Szrj  if (dest_rgm->max_nscalars_per_iter <= src_rgm->max_nscalars_per_iter
*38fd1498Szrj      && optab_handler (vec_unpacku_hi_optab, src_mode) != CODE_FOR_nothing
*38fd1498Szrj      && optab_handler (vec_unpacku_lo_optab, src_mode) != CODE_FOR_nothing)
*38fd1498Szrj    {
*38fd1498Szrj      /* Unpacking the source masks gives at least as many mask bits as
*38fd1498Szrj	 we need.  We can then VIEW_CONVERT any excess bits away.  */
*38fd1498Szrj      tree unpack_masktype = vect_halve_mask_nunits (src_masktype);
*38fd1498Szrj      for (unsigned int i = 0; i < dest_rgm->masks.length (); ++i)
*38fd1498Szrj	{
*38fd1498Szrj	  tree src = src_rgm->masks[i / 2];
*38fd1498Szrj	  tree dest = dest_rgm->masks[i];
*38fd1498Szrj	  tree_code code = ((i & 1) == (BYTES_BIG_ENDIAN ? 0 : 1)
*38fd1498Szrj			    ? VEC_UNPACK_HI_EXPR
*38fd1498Szrj			    : VEC_UNPACK_LO_EXPR);
*38fd1498Szrj	  gassign *stmt;
*38fd1498Szrj	  if (dest_masktype == unpack_masktype)
*38fd1498Szrj	    stmt = gimple_build_assign (dest, code, src);
*38fd1498Szrj	  else
*38fd1498Szrj	    {
*38fd1498Szrj	      tree temp = make_ssa_name (unpack_masktype);
*38fd1498Szrj	      stmt = gimple_build_assign (temp, code, src);
*38fd1498Szrj	      gimple_seq_add_stmt (seq, stmt);
*38fd1498Szrj	      stmt = gimple_build_assign (dest, VIEW_CONVERT_EXPR,
*38fd1498Szrj					  build1 (VIEW_CONVERT_EXPR,
*38fd1498Szrj						  dest_masktype, temp));
*38fd1498Szrj	    }
*38fd1498Szrj	  gimple_seq_add_stmt (seq, stmt);
*38fd1498Szrj	}
*38fd1498Szrj      return true;
*38fd1498Szrj    }
*38fd1498Szrj  vec_perm_indices indices[2];
*38fd1498Szrj  if (dest_masktype == src_masktype
*38fd1498Szrj      && interleave_supported_p (&indices[0], src_masktype, 0)
*38fd1498Szrj      && interleave_supported_p (&indices[1], src_masktype, 1))
*38fd1498Szrj    {
*38fd1498Szrj      /* The destination requires twice as many mask bits as the source, so
*38fd1498Szrj	 we can use interleaving permutes to double up the number of bits.  */
*38fd1498Szrj      tree masks[2];
*38fd1498Szrj      for (unsigned int i = 0; i < 2; ++i)
*38fd1498Szrj	masks[i] = vect_gen_perm_mask_checked (src_masktype, indices[i]);
*38fd1498Szrj      for (unsigned int i = 0; i < dest_rgm->masks.length (); ++i)
*38fd1498Szrj	{
*38fd1498Szrj	  tree src = src_rgm->masks[i / 2];
*38fd1498Szrj	  tree dest = dest_rgm->masks[i];
*38fd1498Szrj	  gimple *stmt = gimple_build_assign (dest, VEC_PERM_EXPR,
*38fd1498Szrj					      src, src, masks[i & 1]);
*38fd1498Szrj	  gimple_seq_add_stmt (seq, stmt);
*38fd1498Szrj	}
*38fd1498Szrj      return true;
*38fd1498Szrj    }
*38fd1498Szrj  return false;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Helper for vect_set_loop_condition_masked.  Generate definitions for
*38fd1498Szrj   all the masks in RGM and return a mask that is nonzero when the loop
*38fd1498Szrj   needs to iterate.  Add any new preheader statements to PREHEADER_SEQ.
*38fd1498Szrj   Use LOOP_COND_GSI to insert code before the exit gcond.
*38fd1498Szrj
*38fd1498Szrj   RGM belongs to loop LOOP.  The loop originally iterated NITERS
*38fd1498Szrj   times and has been vectorized according to LOOP_VINFO.  Each iteration
*38fd1498Szrj   of the vectorized loop handles VF iterations of the scalar loop.
*38fd1498Szrj
*38fd1498Szrj   If NITERS_SKIP is nonnull, the first iteration of the vectorized loop
*38fd1498Szrj   starts with NITERS_SKIP dummy iterations of the scalar loop before
*38fd1498Szrj   the real work starts.  The mask elements for these dummy iterations
*38fd1498Szrj   must be 0, to ensure that the extra iterations do not have an effect.
*38fd1498Szrj
*38fd1498Szrj   It is known that:
*38fd1498Szrj
*38fd1498Szrj     NITERS * RGM->max_nscalars_per_iter
*38fd1498Szrj
*38fd1498Szrj   does not overflow.  However, MIGHT_WRAP_P says whether an induction
*38fd1498Szrj   variable that starts at 0 and has step:
*38fd1498Szrj
*38fd1498Szrj     VF * RGM->max_nscalars_per_iter
*38fd1498Szrj
*38fd1498Szrj   might overflow before hitting a value above:
*38fd1498Szrj
*38fd1498Szrj     (NITERS + NITERS_SKIP) * RGM->max_nscalars_per_iter
*38fd1498Szrj
*38fd1498Szrj   This means that we cannot guarantee that such an induction variable
*38fd1498Szrj   would ever hit a value that produces a set of all-false masks for RGM.  */
*38fd1498Szrj
*38fd1498Szrjstatic tree
*38fd1498Szrjvect_set_loop_masks_directly (struct loop *loop, loop_vec_info loop_vinfo,
*38fd1498Szrj			      gimple_seq *preheader_seq,
*38fd1498Szrj			      gimple_stmt_iterator loop_cond_gsi,
*38fd1498Szrj			      rgroup_masks *rgm, tree vf,
*38fd1498Szrj			      tree niters, tree niters_skip,
*38fd1498Szrj			      bool might_wrap_p)
*38fd1498Szrj{
*38fd1498Szrj  tree compare_type = LOOP_VINFO_MASK_COMPARE_TYPE (loop_vinfo);
*38fd1498Szrj  tree mask_type = rgm->mask_type;
*38fd1498Szrj  unsigned int nscalars_per_iter = rgm->max_nscalars_per_iter;
*38fd1498Szrj  poly_uint64 nscalars_per_mask = TYPE_VECTOR_SUBPARTS (mask_type);
*38fd1498Szrj
*38fd1498Szrj  /* Calculate the maximum number of scalar values that the rgroup
*38fd1498Szrj     handles in total, the number that it handles for each iteration
*38fd1498Szrj     of the vector loop, and the number that it should skip during the
*38fd1498Szrj     first iteration of the vector loop.  */
*38fd1498Szrj  tree nscalars_total = niters;
*38fd1498Szrj  tree nscalars_step = vf;
*38fd1498Szrj  tree nscalars_skip = niters_skip;
*38fd1498Szrj  if (nscalars_per_iter != 1)
*38fd1498Szrj    {
*38fd1498Szrj      /* We checked before choosing to use a fully-masked loop that these
*38fd1498Szrj	 multiplications don't overflow.  */
*38fd1498Szrj      tree factor = build_int_cst (compare_type, nscalars_per_iter);
*38fd1498Szrj      nscalars_total = gimple_build (preheader_seq, MULT_EXPR, compare_type,
*38fd1498Szrj				     nscalars_total, factor);
*38fd1498Szrj      nscalars_step = gimple_build (preheader_seq, MULT_EXPR, compare_type,
*38fd1498Szrj				    nscalars_step, factor);
*38fd1498Szrj      if (nscalars_skip)
*38fd1498Szrj	nscalars_skip = gimple_build (preheader_seq, MULT_EXPR, compare_type,
*38fd1498Szrj				      nscalars_skip, factor);
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  /* Create an induction variable that counts the number of scalars
*38fd1498Szrj     processed.  */
*38fd1498Szrj  tree index_before_incr, index_after_incr;
*38fd1498Szrj  gimple_stmt_iterator incr_gsi;
*38fd1498Szrj  bool insert_after;
*38fd1498Szrj  tree zero_index = build_int_cst (compare_type, 0);
*38fd1498Szrj  standard_iv_increment_position (loop, &incr_gsi, &insert_after);
*38fd1498Szrj  create_iv (zero_index, nscalars_step, NULL_TREE, loop, &incr_gsi,
*38fd1498Szrj	     insert_after, &index_before_incr, &index_after_incr);
*38fd1498Szrj
*38fd1498Szrj  tree test_index, test_limit, first_limit;
*38fd1498Szrj  gimple_stmt_iterator *test_gsi;
*38fd1498Szrj  if (might_wrap_p)
*38fd1498Szrj    {
*38fd1498Szrj      /* In principle the loop should stop iterating once the incremented
*38fd1498Szrj	 IV reaches a value greater than or equal to:
*38fd1498Szrj
*38fd1498Szrj	   NSCALARS_TOTAL +[infinite-prec] NSCALARS_SKIP
*38fd1498Szrj
*38fd1498Szrj	 However, there's no guarantee that this addition doesn't overflow
*38fd1498Szrj	 the comparison type, or that the IV hits a value above it before
*38fd1498Szrj	 wrapping around.  We therefore adjust the limit down by one
*38fd1498Szrj	 IV step:
*38fd1498Szrj
*38fd1498Szrj	   (NSCALARS_TOTAL +[infinite-prec] NSCALARS_SKIP)
*38fd1498Szrj	   -[infinite-prec] NSCALARS_STEP
*38fd1498Szrj
*38fd1498Szrj	 and compare the IV against this limit _before_ incrementing it.
*38fd1498Szrj	 Since the comparison type is unsigned, we actually want the
*38fd1498Szrj	 subtraction to saturate at zero:
*38fd1498Szrj
*38fd1498Szrj	   (NSCALARS_TOTAL +[infinite-prec] NSCALARS_SKIP)
*38fd1498Szrj	   -[sat] NSCALARS_STEP
*38fd1498Szrj
*38fd1498Szrj	 And since NSCALARS_SKIP < NSCALARS_STEP, we can reassociate this as:
*38fd1498Szrj
*38fd1498Szrj	   NSCALARS_TOTAL -[sat] (NSCALARS_STEP - NSCALARS_SKIP)
*38fd1498Szrj
*38fd1498Szrj	 where the rightmost subtraction can be done directly in
*38fd1498Szrj	 COMPARE_TYPE.  */
*38fd1498Szrj      test_index = index_before_incr;
*38fd1498Szrj      tree adjust = nscalars_step;
*38fd1498Szrj      if (nscalars_skip)
*38fd1498Szrj	adjust = gimple_build (preheader_seq, MINUS_EXPR, compare_type,
*38fd1498Szrj			       adjust, nscalars_skip);
*38fd1498Szrj      test_limit = gimple_build (preheader_seq, MAX_EXPR, compare_type,
*38fd1498Szrj				 nscalars_total, adjust);
*38fd1498Szrj      test_limit = gimple_build (preheader_seq, MINUS_EXPR, compare_type,
*38fd1498Szrj				 test_limit, adjust);
*38fd1498Szrj      test_gsi = &incr_gsi;
*38fd1498Szrj
*38fd1498Szrj      /* Get a safe limit for the first iteration.  */
*38fd1498Szrj      if (nscalars_skip)
*38fd1498Szrj	{
*38fd1498Szrj	  /* The first vector iteration can handle at most NSCALARS_STEP
*38fd1498Szrj	     scalars.  NSCALARS_STEP <= CONST_LIMIT, and adding
*38fd1498Szrj	     NSCALARS_SKIP to that cannot overflow.  */
*38fd1498Szrj	  tree const_limit = build_int_cst (compare_type,
*38fd1498Szrj					    LOOP_VINFO_VECT_FACTOR (loop_vinfo)
*38fd1498Szrj					    * nscalars_per_iter);
*38fd1498Szrj	  first_limit = gimple_build (preheader_seq, MIN_EXPR, compare_type,
*38fd1498Szrj				      nscalars_total, const_limit);
*38fd1498Szrj	  first_limit = gimple_build (preheader_seq, PLUS_EXPR, compare_type,
*38fd1498Szrj				      first_limit, nscalars_skip);
*38fd1498Szrj	}
*38fd1498Szrj      else
*38fd1498Szrj	/* For the first iteration it doesn't matter whether the IV hits
*38fd1498Szrj	   a value above NSCALARS_TOTAL.  That only matters for the latch
*38fd1498Szrj	   condition.  */
*38fd1498Szrj	first_limit = nscalars_total;
*38fd1498Szrj    }
*38fd1498Szrj  else
*38fd1498Szrj    {
*38fd1498Szrj      /* Test the incremented IV, which will always hit a value above
*38fd1498Szrj	 the bound before wrapping.  */
*38fd1498Szrj      test_index = index_after_incr;
*38fd1498Szrj      test_limit = nscalars_total;
*38fd1498Szrj      if (nscalars_skip)
*38fd1498Szrj	test_limit = gimple_build (preheader_seq, PLUS_EXPR, compare_type,
*38fd1498Szrj				   test_limit, nscalars_skip);
*38fd1498Szrj      test_gsi = &loop_cond_gsi;
*38fd1498Szrj
*38fd1498Szrj      first_limit = test_limit;
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  /* Provide a definition of each mask in the group.  */
*38fd1498Szrj  tree next_mask = NULL_TREE;
*38fd1498Szrj  tree mask;
*38fd1498Szrj  unsigned int i;
*38fd1498Szrj  FOR_EACH_VEC_ELT_REVERSE (rgm->masks, i, mask)
*38fd1498Szrj    {
*38fd1498Szrj      /* Previous masks will cover BIAS scalars.  This mask covers the
*38fd1498Szrj	 next batch.  */
*38fd1498Szrj      poly_uint64 bias = nscalars_per_mask * i;
*38fd1498Szrj      tree bias_tree = build_int_cst (compare_type, bias);
*38fd1498Szrj      gimple *tmp_stmt;
*38fd1498Szrj
*38fd1498Szrj      /* See whether the first iteration of the vector loop is known
*38fd1498Szrj	 to have a full mask.  */
*38fd1498Szrj      poly_uint64 const_limit;
*38fd1498Szrj      bool first_iteration_full
*38fd1498Szrj	= (poly_int_tree_p (first_limit, &const_limit)
*38fd1498Szrj	   && known_ge (const_limit, (i + 1) * nscalars_per_mask));
*38fd1498Szrj
*38fd1498Szrj      /* Rather than have a new IV that starts at BIAS and goes up to
*38fd1498Szrj	 TEST_LIMIT, prefer to use the same 0-based IV for each mask
*38fd1498Szrj	 and adjust the bound down by BIAS.  */
*38fd1498Szrj      tree this_test_limit = test_limit;
*38fd1498Szrj      if (i != 0)
*38fd1498Szrj	{
*38fd1498Szrj	  this_test_limit = gimple_build (preheader_seq, MAX_EXPR,
*38fd1498Szrj					  compare_type, this_test_limit,
*38fd1498Szrj					  bias_tree);
*38fd1498Szrj	  this_test_limit = gimple_build (preheader_seq, MINUS_EXPR,
*38fd1498Szrj					  compare_type, this_test_limit,
*38fd1498Szrj					  bias_tree);
*38fd1498Szrj	}
*38fd1498Szrj
*38fd1498Szrj      /* Create the initial mask.  First include all scalars that
*38fd1498Szrj	 are within the loop limit.  */
*38fd1498Szrj      tree init_mask = NULL_TREE;
*38fd1498Szrj      if (!first_iteration_full)
*38fd1498Szrj	{
*38fd1498Szrj	  tree start, end;
*38fd1498Szrj	  if (first_limit == test_limit)
*38fd1498Szrj	    {
*38fd1498Szrj	      /* Use a natural test between zero (the initial IV value)
*38fd1498Szrj		 and the loop limit.  The "else" block would be valid too,
*38fd1498Szrj		 but this choice can avoid the need to load BIAS_TREE into
*38fd1498Szrj		 a register.  */
*38fd1498Szrj	      start = zero_index;
*38fd1498Szrj	      end = this_test_limit;
*38fd1498Szrj	    }
*38fd1498Szrj	  else
*38fd1498Szrj	    {
*38fd1498Szrj	      /* FIRST_LIMIT is the maximum number of scalars handled by the
*38fd1498Szrj		 first iteration of the vector loop.  Test the portion
*38fd1498Szrj		 associated with this mask.  */
*38fd1498Szrj	      start = bias_tree;
*38fd1498Szrj	      end = first_limit;
*38fd1498Szrj	    }
*38fd1498Szrj
*38fd1498Szrj	  init_mask = make_temp_ssa_name (mask_type, NULL, "max_mask");
*38fd1498Szrj	  tmp_stmt = vect_gen_while (init_mask, start, end);
*38fd1498Szrj	  gimple_seq_add_stmt (preheader_seq, tmp_stmt);
*38fd1498Szrj	}
*38fd1498Szrj
*38fd1498Szrj      /* Now AND out the bits that are within the number of skipped
*38fd1498Szrj	 scalars.  */
*38fd1498Szrj      poly_uint64 const_skip;
*38fd1498Szrj      if (nscalars_skip
*38fd1498Szrj	  && !(poly_int_tree_p (nscalars_skip, &const_skip)
*38fd1498Szrj	       && known_le (const_skip, bias)))
*38fd1498Szrj	{
*38fd1498Szrj	  tree unskipped_mask = vect_gen_while_not (preheader_seq, mask_type,
*38fd1498Szrj						    bias_tree, nscalars_skip);
*38fd1498Szrj	  if (init_mask)
*38fd1498Szrj	    init_mask = gimple_build (preheader_seq, BIT_AND_EXPR, mask_type,
*38fd1498Szrj				      init_mask, unskipped_mask);
*38fd1498Szrj	  else
*38fd1498Szrj	    init_mask = unskipped_mask;
*38fd1498Szrj	}
*38fd1498Szrj
*38fd1498Szrj      if (!init_mask)
*38fd1498Szrj	/* First iteration is full.  */
*38fd1498Szrj	init_mask = build_minus_one_cst (mask_type);
*38fd1498Szrj
*38fd1498Szrj      /* Get the mask value for the next iteration of the loop.  */
*38fd1498Szrj      next_mask = make_temp_ssa_name (mask_type, NULL, "next_mask");
*38fd1498Szrj      gcall *call = vect_gen_while (next_mask, test_index, this_test_limit);
*38fd1498Szrj      gsi_insert_before (test_gsi, call, GSI_SAME_STMT);
*38fd1498Szrj
*38fd1498Szrj      vect_set_loop_mask (loop, mask, init_mask, next_mask);
*38fd1498Szrj    }
*38fd1498Szrj  return next_mask;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Make LOOP iterate NITERS times using masking and WHILE_ULT calls.
*38fd1498Szrj   LOOP_VINFO describes the vectorization of LOOP.  NITERS is the
*38fd1498Szrj   number of iterations of the original scalar loop that should be
*38fd1498Szrj   handled by the vector loop.  NITERS_MAYBE_ZERO and FINAL_IV are
*38fd1498Szrj   as for vect_set_loop_condition.
*38fd1498Szrj
*38fd1498Szrj   Insert the branch-back condition before LOOP_COND_GSI and return the
*38fd1498Szrj   final gcond.  */
*38fd1498Szrj
*38fd1498Szrjstatic gcond *
*38fd1498Szrjvect_set_loop_condition_masked (struct loop *loop, loop_vec_info loop_vinfo,
*38fd1498Szrj				tree niters, tree final_iv,
*38fd1498Szrj				bool niters_maybe_zero,
*38fd1498Szrj				gimple_stmt_iterator loop_cond_gsi)
*38fd1498Szrj{
*38fd1498Szrj  gimple_seq preheader_seq = NULL;
*38fd1498Szrj  gimple_seq header_seq = NULL;
*38fd1498Szrj
*38fd1498Szrj  tree compare_type = LOOP_VINFO_MASK_COMPARE_TYPE (loop_vinfo);
*38fd1498Szrj  unsigned int compare_precision = TYPE_PRECISION (compare_type);
*38fd1498Szrj  unsigned HOST_WIDE_INT max_vf = vect_max_vf (loop_vinfo);
*38fd1498Szrj  tree orig_niters = niters;
*38fd1498Szrj
*38fd1498Szrj  /* Type of the initial value of NITERS.  */
*38fd1498Szrj  tree ni_actual_type = TREE_TYPE (niters);
*38fd1498Szrj  unsigned int ni_actual_precision = TYPE_PRECISION (ni_actual_type);
*38fd1498Szrj
*38fd1498Szrj  /* Convert NITERS to the same size as the compare.  */
*38fd1498Szrj  if (compare_precision > ni_actual_precision
*38fd1498Szrj      && niters_maybe_zero)
*38fd1498Szrj    {
*38fd1498Szrj      /* We know that there is always at least one iteration, so if the
*38fd1498Szrj	 count is zero then it must have wrapped.  Cope with this by
*38fd1498Szrj	 subtracting 1 before the conversion and adding 1 to the result.  */
*38fd1498Szrj      gcc_assert (TYPE_UNSIGNED (ni_actual_type));
*38fd1498Szrj      niters = gimple_build (&preheader_seq, PLUS_EXPR, ni_actual_type,
*38fd1498Szrj			     niters, build_minus_one_cst (ni_actual_type));
*38fd1498Szrj      niters = gimple_convert (&preheader_seq, compare_type, niters);
*38fd1498Szrj      niters = gimple_build (&preheader_seq, PLUS_EXPR, compare_type,
*38fd1498Szrj			     niters, build_one_cst (compare_type));
*38fd1498Szrj    }
*38fd1498Szrj  else
*38fd1498Szrj    niters = gimple_convert (&preheader_seq, compare_type, niters);
*38fd1498Szrj
*38fd1498Szrj  /* Convert skip_niters to the right type.  */
*38fd1498Szrj  tree niters_skip = LOOP_VINFO_MASK_SKIP_NITERS (loop_vinfo);
*38fd1498Szrj
*38fd1498Szrj  /* Now calculate the value that the induction variable must be able
*38fd1498Szrj     to hit in order to ensure that we end the loop with an all-false mask.
*38fd1498Szrj     This involves adding the maximum number of inactive trailing scalar
*38fd1498Szrj     iterations.  */
*38fd1498Szrj  widest_int iv_limit;
*38fd1498Szrj  bool known_max_iters = max_loop_iterations (loop, &iv_limit);
*38fd1498Szrj  if (known_max_iters)
*38fd1498Szrj    {
*38fd1498Szrj      if (niters_skip)
*38fd1498Szrj	{
*38fd1498Szrj	  /* Add the maximum number of skipped iterations to the
*38fd1498Szrj	     maximum iteration count.  */
*38fd1498Szrj	  if (TREE_CODE (niters_skip) == INTEGER_CST)
*38fd1498Szrj	    iv_limit += wi::to_widest (niters_skip);
*38fd1498Szrj	  else
*38fd1498Szrj	    iv_limit += max_vf - 1;
*38fd1498Szrj	}
*38fd1498Szrj      /* IV_LIMIT is the maximum number of latch iterations, which is also
*38fd1498Szrj	 the maximum in-range IV value.  Round this value down to the previous
*38fd1498Szrj	 vector alignment boundary and then add an extra full iteration.  */
*38fd1498Szrj      poly_uint64 vf = LOOP_VINFO_VECT_FACTOR (loop_vinfo);
*38fd1498Szrj      iv_limit = (iv_limit & -(int) known_alignment (vf)) + max_vf;
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  /* Get the vectorization factor in tree form.  */
*38fd1498Szrj  tree vf = build_int_cst (compare_type,
*38fd1498Szrj			   LOOP_VINFO_VECT_FACTOR (loop_vinfo));
*38fd1498Szrj
*38fd1498Szrj  /* Iterate over all the rgroups and fill in their masks.  We could use
*38fd1498Szrj     the first mask from any rgroup for the loop condition; here we
*38fd1498Szrj     arbitrarily pick the last.  */
*38fd1498Szrj  tree test_mask = NULL_TREE;
*38fd1498Szrj  rgroup_masks *rgm;
*38fd1498Szrj  unsigned int i;
*38fd1498Szrj  vec_loop_masks *masks = &LOOP_VINFO_MASKS (loop_vinfo);
*38fd1498Szrj  FOR_EACH_VEC_ELT (*masks, i, rgm)
*38fd1498Szrj    if (!rgm->masks.is_empty ())
*38fd1498Szrj      {
*38fd1498Szrj	/* First try using permutes.  This adds a single vector
*38fd1498Szrj	   instruction to the loop for each mask, but needs no extra
*38fd1498Szrj	   loop invariants or IVs.  */
*38fd1498Szrj	unsigned int nmasks = i + 1;
*38fd1498Szrj	if ((nmasks & 1) == 0)
*38fd1498Szrj	  {
*38fd1498Szrj	    rgroup_masks *half_rgm = &(*masks)[nmasks / 2 - 1];
*38fd1498Szrj	    if (!half_rgm->masks.is_empty ()
*38fd1498Szrj		&& vect_maybe_permute_loop_masks (&header_seq, rgm, half_rgm))
*38fd1498Szrj	      continue;
*38fd1498Szrj	  }
*38fd1498Szrj
*38fd1498Szrj	/* See whether zero-based IV would ever generate all-false masks
*38fd1498Szrj	   before wrapping around.  */
*38fd1498Szrj	bool might_wrap_p
*38fd1498Szrj	  = (!known_max_iters
*38fd1498Szrj	     || (wi::min_precision (iv_limit * rgm->max_nscalars_per_iter,
*38fd1498Szrj				    UNSIGNED)
*38fd1498Szrj		 > compare_precision));
*38fd1498Szrj
*38fd1498Szrj	/* Set up all masks for this group.  */
*38fd1498Szrj	test_mask = vect_set_loop_masks_directly (loop, loop_vinfo,
*38fd1498Szrj						  &preheader_seq,
*38fd1498Szrj						  loop_cond_gsi, rgm, vf,
*38fd1498Szrj						  niters, niters_skip,
*38fd1498Szrj						  might_wrap_p);
*38fd1498Szrj      }
*38fd1498Szrj
*38fd1498Szrj  /* Emit all accumulated statements.  */
*38fd1498Szrj  add_preheader_seq (loop, preheader_seq);
*38fd1498Szrj  add_header_seq (loop, header_seq);
*38fd1498Szrj
*38fd1498Szrj  /* Get a boolean result that tells us whether to iterate.  */
*38fd1498Szrj  edge exit_edge = single_exit (loop);
*38fd1498Szrj  tree_code code = (exit_edge->flags & EDGE_TRUE_VALUE) ? EQ_EXPR : NE_EXPR;
*38fd1498Szrj  tree zero_mask = build_zero_cst (TREE_TYPE (test_mask));
*38fd1498Szrj  gcond *cond_stmt = gimple_build_cond (code, test_mask, zero_mask,
*38fd1498Szrj					NULL_TREE, NULL_TREE);
*38fd1498Szrj  gsi_insert_before (&loop_cond_gsi, cond_stmt, GSI_SAME_STMT);
*38fd1498Szrj
*38fd1498Szrj  /* The loop iterates (NITERS - 1) / VF + 1 times.
*38fd1498Szrj     Subtract one from this to get the latch count.  */
*38fd1498Szrj  tree step = build_int_cst (compare_type,
*38fd1498Szrj			     LOOP_VINFO_VECT_FACTOR (loop_vinfo));
*38fd1498Szrj  tree niters_minus_one = fold_build2 (PLUS_EXPR, compare_type, niters,
*38fd1498Szrj				       build_minus_one_cst (compare_type));
*38fd1498Szrj  loop->nb_iterations = fold_build2 (TRUNC_DIV_EXPR, compare_type,
*38fd1498Szrj				     niters_minus_one, step);
*38fd1498Szrj
*38fd1498Szrj  if (final_iv)
*38fd1498Szrj    {
*38fd1498Szrj      gassign *assign = gimple_build_assign (final_iv, orig_niters);
*38fd1498Szrj      gsi_insert_on_edge_immediate (single_exit (loop), assign);
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  return cond_stmt;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Like vect_set_loop_condition, but handle the case in which there
*38fd1498Szrj   are no loop masks.  */
*38fd1498Szrj
*38fd1498Szrjstatic gcond *
*38fd1498Szrjvect_set_loop_condition_unmasked (struct loop *loop, tree niters,
*38fd1498Szrj				  tree step, tree final_iv,
*38fd1498Szrj				  bool niters_maybe_zero,
*38fd1498Szrj				  gimple_stmt_iterator loop_cond_gsi)
*38fd1498Szrj{
*38fd1498Szrj  tree indx_before_incr, indx_after_incr;
*38fd1498Szrj  gcond *cond_stmt;
*38fd1498Szrj  gcond *orig_cond;
*38fd1498Szrj  edge pe = loop_preheader_edge (loop);
*38fd1498Szrj  edge exit_edge = single_exit (loop);
*38fd1498Szrj  gimple_stmt_iterator incr_gsi;
*38fd1498Szrj  bool insert_after;
*38fd1498Szrj  enum tree_code code;
*38fd1498Szrj  tree niters_type = TREE_TYPE (niters);
*38fd1498Szrj
*38fd1498Szrj  orig_cond = get_loop_exit_condition (loop);
*38fd1498Szrj  gcc_assert (orig_cond);
*38fd1498Szrj  loop_cond_gsi = gsi_for_stmt (orig_cond);
*38fd1498Szrj
*38fd1498Szrj  tree init, limit;
*38fd1498Szrj  if (!niters_maybe_zero && integer_onep (step))
*38fd1498Szrj    {
*38fd1498Szrj      /* In this case we can use a simple 0-based IV:
*38fd1498Szrj
*38fd1498Szrj	 A:
*38fd1498Szrj	   x = 0;
*38fd1498Szrj	   do
*38fd1498Szrj	     {
*38fd1498Szrj	       ...
*38fd1498Szrj	       x += 1;
*38fd1498Szrj	     }
*38fd1498Szrj	   while (x < NITERS);  */
*38fd1498Szrj      code = (exit_edge->flags & EDGE_TRUE_VALUE) ? GE_EXPR : LT_EXPR;
*38fd1498Szrj      init = build_zero_cst (niters_type);
*38fd1498Szrj      limit = niters;
*38fd1498Szrj    }
*38fd1498Szrj  else
*38fd1498Szrj    {
*38fd1498Szrj      /* The following works for all values of NITERS except 0:
*38fd1498Szrj
*38fd1498Szrj	 B:
*38fd1498Szrj	   x = 0;
*38fd1498Szrj	   do
*38fd1498Szrj	     {
*38fd1498Szrj	       ...
*38fd1498Szrj	       x += STEP;
*38fd1498Szrj	     }
*38fd1498Szrj	   while (x <= NITERS - STEP);
*38fd1498Szrj
*38fd1498Szrj	 so that the loop continues to iterate if x + STEP - 1 < NITERS
*38fd1498Szrj	 but stops if x + STEP - 1 >= NITERS.
*38fd1498Szrj
*38fd1498Szrj	 However, if NITERS is zero, x never hits a value above NITERS - STEP
*38fd1498Szrj	 before wrapping around.  There are two obvious ways of dealing with
*38fd1498Szrj	 this:
*38fd1498Szrj
*38fd1498Szrj	 - start at STEP - 1 and compare x before incrementing it
*38fd1498Szrj	 - start at -1 and compare x after incrementing it
*38fd1498Szrj
*38fd1498Szrj	 The latter is simpler and is what we use.  The loop in this case
*38fd1498Szrj	 looks like:
*38fd1498Szrj
*38fd1498Szrj	 C:
*38fd1498Szrj	   x = -1;
*38fd1498Szrj	   do
*38fd1498Szrj	     {
*38fd1498Szrj	       ...
*38fd1498Szrj	       x += STEP;
*38fd1498Szrj	     }
*38fd1498Szrj	   while (x < NITERS - STEP);
*38fd1498Szrj
*38fd1498Szrj	 In both cases the loop limit is NITERS - STEP.  */
*38fd1498Szrj      gimple_seq seq = NULL;
*38fd1498Szrj      limit = force_gimple_operand (niters, &seq, true, NULL_TREE);
*38fd1498Szrj      limit = gimple_build (&seq, MINUS_EXPR, TREE_TYPE (limit), limit, step);
*38fd1498Szrj      if (seq)
*38fd1498Szrj	{
*38fd1498Szrj	  basic_block new_bb = gsi_insert_seq_on_edge_immediate (pe, seq);
*38fd1498Szrj	  gcc_assert (!new_bb);
*38fd1498Szrj	}
*38fd1498Szrj      if (niters_maybe_zero)
*38fd1498Szrj	{
*38fd1498Szrj	  /* Case C.  */
*38fd1498Szrj	  code = (exit_edge->flags & EDGE_TRUE_VALUE) ? GE_EXPR : LT_EXPR;
*38fd1498Szrj	  init = build_all_ones_cst (niters_type);
*38fd1498Szrj	}
*38fd1498Szrj      else
*38fd1498Szrj	{
*38fd1498Szrj	  /* Case B.  */
*38fd1498Szrj	  code = (exit_edge->flags & EDGE_TRUE_VALUE) ? GT_EXPR : LE_EXPR;
*38fd1498Szrj	  init = build_zero_cst (niters_type);
*38fd1498Szrj	}
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  standard_iv_increment_position (loop, &incr_gsi, &insert_after);
*38fd1498Szrj  create_iv (init, step, NULL_TREE, loop,
*38fd1498Szrj             &incr_gsi, insert_after, &indx_before_incr, &indx_after_incr);
*38fd1498Szrj  indx_after_incr = force_gimple_operand_gsi (&loop_cond_gsi, indx_after_incr,
*38fd1498Szrj					      true, NULL_TREE, true,
*38fd1498Szrj					      GSI_SAME_STMT);
*38fd1498Szrj  limit = force_gimple_operand_gsi (&loop_cond_gsi, limit, true, NULL_TREE,
*38fd1498Szrj				     true, GSI_SAME_STMT);
*38fd1498Szrj
*38fd1498Szrj  cond_stmt = gimple_build_cond (code, indx_after_incr, limit, NULL_TREE,
*38fd1498Szrj				 NULL_TREE);
*38fd1498Szrj
*38fd1498Szrj  gsi_insert_before (&loop_cond_gsi, cond_stmt, GSI_SAME_STMT);
*38fd1498Szrj
*38fd1498Szrj  /* Record the number of latch iterations.  */
*38fd1498Szrj  if (limit == niters)
*38fd1498Szrj    /* Case A: the loop iterates NITERS times.  Subtract one to get the
*38fd1498Szrj       latch count.  */
*38fd1498Szrj    loop->nb_iterations = fold_build2 (MINUS_EXPR, niters_type, niters,
*38fd1498Szrj				       build_int_cst (niters_type, 1));
*38fd1498Szrj  else
*38fd1498Szrj    /* Case B or C: the loop iterates (NITERS - STEP) / STEP + 1 times.
*38fd1498Szrj       Subtract one from this to get the latch count.  */
*38fd1498Szrj    loop->nb_iterations = fold_build2 (TRUNC_DIV_EXPR, niters_type,
*38fd1498Szrj				       limit, step);
*38fd1498Szrj
*38fd1498Szrj  if (final_iv)
*38fd1498Szrj    {
*38fd1498Szrj      gassign *assign = gimple_build_assign (final_iv, MINUS_EXPR,
*38fd1498Szrj					     indx_after_incr, init);
*38fd1498Szrj      gsi_insert_on_edge_immediate (single_exit (loop), assign);
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  return cond_stmt;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* If we're using fully-masked loops, make LOOP iterate:
*38fd1498Szrj
*38fd1498Szrj      N == (NITERS - 1) / STEP + 1
*38fd1498Szrj
*38fd1498Szrj   times.  When NITERS is zero, this is equivalent to making the loop
*38fd1498Szrj   execute (1 << M) / STEP times, where M is the precision of NITERS.
*38fd1498Szrj   NITERS_MAYBE_ZERO is true if this last case might occur.
*38fd1498Szrj
*38fd1498Szrj   If we're not using fully-masked loops, make LOOP iterate:
*38fd1498Szrj
*38fd1498Szrj      N == (NITERS - STEP) / STEP + 1
*38fd1498Szrj
*38fd1498Szrj   times, where NITERS is known to be outside the range [1, STEP - 1].
*38fd1498Szrj   This is equivalent to making the loop execute NITERS / STEP times
*38fd1498Szrj   when NITERS is nonzero and (1 << M) / STEP times otherwise.
*38fd1498Szrj   NITERS_MAYBE_ZERO again indicates whether this last case might occur.
*38fd1498Szrj
*38fd1498Szrj   If FINAL_IV is nonnull, it is an SSA name that should be set to
*38fd1498Szrj   N * STEP on exit from the loop.
*38fd1498Szrj
*38fd1498Szrj   Assumption: the exit-condition of LOOP is the last stmt in the loop.  */
*38fd1498Szrj
*38fd1498Szrjvoid
*38fd1498Szrjvect_set_loop_condition (struct loop *loop, loop_vec_info loop_vinfo,
*38fd1498Szrj			 tree niters, tree step, tree final_iv,
*38fd1498Szrj			 bool niters_maybe_zero)
*38fd1498Szrj{
*38fd1498Szrj  gcond *cond_stmt;
*38fd1498Szrj  gcond *orig_cond = get_loop_exit_condition (loop);
*38fd1498Szrj  gimple_stmt_iterator loop_cond_gsi = gsi_for_stmt (orig_cond);
*38fd1498Szrj
*38fd1498Szrj  if (loop_vinfo && LOOP_VINFO_FULLY_MASKED_P (loop_vinfo))
*38fd1498Szrj    cond_stmt = vect_set_loop_condition_masked (loop, loop_vinfo, niters,
*38fd1498Szrj						final_iv, niters_maybe_zero,
*38fd1498Szrj						loop_cond_gsi);
*38fd1498Szrj  else
*38fd1498Szrj    cond_stmt = vect_set_loop_condition_unmasked (loop, niters, step,
*38fd1498Szrj						  final_iv, niters_maybe_zero,
*38fd1498Szrj						  loop_cond_gsi);
*38fd1498Szrj
*38fd1498Szrj  /* Remove old loop exit test.  */
*38fd1498Szrj  gsi_remove (&loop_cond_gsi, true);
*38fd1498Szrj  free_stmt_vec_info (orig_cond);
*38fd1498Szrj
*38fd1498Szrj  if (dump_enabled_p ())
*38fd1498Szrj    {
*38fd1498Szrj      dump_printf_loc (MSG_NOTE, vect_location, "New loop exit condition: ");
*38fd1498Szrj      dump_gimple_stmt (MSG_NOTE, TDF_SLIM, cond_stmt, 0);
*38fd1498Szrj    }
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Helper routine of slpeel_tree_duplicate_loop_to_edge_cfg.
*38fd1498Szrj   For all PHI arguments in FROM->dest and TO->dest from those
*38fd1498Szrj   edges ensure that TO->dest PHI arguments have current_def
*38fd1498Szrj   to that in from.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjslpeel_duplicate_current_defs_from_edges (edge from, edge to)
*38fd1498Szrj{
*38fd1498Szrj  gimple_stmt_iterator gsi_from, gsi_to;
*38fd1498Szrj
*38fd1498Szrj  for (gsi_from = gsi_start_phis (from->dest),
*38fd1498Szrj       gsi_to = gsi_start_phis (to->dest);
*38fd1498Szrj       !gsi_end_p (gsi_from) && !gsi_end_p (gsi_to);)
*38fd1498Szrj    {
*38fd1498Szrj      gimple *from_phi = gsi_stmt (gsi_from);
*38fd1498Szrj      gimple *to_phi = gsi_stmt (gsi_to);
*38fd1498Szrj      tree from_arg = PHI_ARG_DEF_FROM_EDGE (from_phi, from);
*38fd1498Szrj      tree to_arg = PHI_ARG_DEF_FROM_EDGE (to_phi, to);
*38fd1498Szrj      if (virtual_operand_p (from_arg))
*38fd1498Szrj	{
*38fd1498Szrj	  gsi_next (&gsi_from);
*38fd1498Szrj	  continue;
*38fd1498Szrj	}
*38fd1498Szrj      if (virtual_operand_p (to_arg))
*38fd1498Szrj	{
*38fd1498Szrj	  gsi_next (&gsi_to);
*38fd1498Szrj	  continue;
*38fd1498Szrj	}
*38fd1498Szrj      if (TREE_CODE (from_arg) != SSA_NAME)
*38fd1498Szrj	gcc_assert (operand_equal_p (from_arg, to_arg, 0));
*38fd1498Szrj      else
*38fd1498Szrj	{
*38fd1498Szrj	  if (get_current_def (to_arg) == NULL_TREE)
*38fd1498Szrj	    set_current_def (to_arg, get_current_def (from_arg));
*38fd1498Szrj	}
*38fd1498Szrj      gsi_next (&gsi_from);
*38fd1498Szrj      gsi_next (&gsi_to);
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  gphi *from_phi = get_virtual_phi (from->dest);
*38fd1498Szrj  gphi *to_phi = get_virtual_phi (to->dest);
*38fd1498Szrj  if (from_phi)
*38fd1498Szrj    set_current_def (PHI_ARG_DEF_FROM_EDGE (to_phi, to),
*38fd1498Szrj		     get_current_def (PHI_ARG_DEF_FROM_EDGE (from_phi, from)));
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj
*38fd1498Szrj/* Given LOOP this function generates a new copy of it and puts it
*38fd1498Szrj   on E which is either the entry or exit of LOOP.  If SCALAR_LOOP is
*38fd1498Szrj   non-NULL, assume LOOP and SCALAR_LOOP are equivalent and copy the
*38fd1498Szrj   basic blocks from SCALAR_LOOP instead of LOOP, but to either the
*38fd1498Szrj   entry or exit of LOOP.  */
*38fd1498Szrj
*38fd1498Szrjstruct loop *
*38fd1498Szrjslpeel_tree_duplicate_loop_to_edge_cfg (struct loop *loop,
*38fd1498Szrj					struct loop *scalar_loop, edge e)
*38fd1498Szrj{
*38fd1498Szrj  struct loop *new_loop;
*38fd1498Szrj  basic_block *new_bbs, *bbs, *pbbs;
*38fd1498Szrj  bool at_exit;
*38fd1498Szrj  bool was_imm_dom;
*38fd1498Szrj  basic_block exit_dest;
*38fd1498Szrj  edge exit, new_exit;
*38fd1498Szrj  bool duplicate_outer_loop = false;
*38fd1498Szrj
*38fd1498Szrj  exit = single_exit (loop);
*38fd1498Szrj  at_exit = (e == exit);
*38fd1498Szrj  if (!at_exit && e != loop_preheader_edge (loop))
*38fd1498Szrj    return NULL;
*38fd1498Szrj
*38fd1498Szrj  if (scalar_loop == NULL)
*38fd1498Szrj    scalar_loop = loop;
*38fd1498Szrj
*38fd1498Szrj  bbs = XNEWVEC (basic_block, scalar_loop->num_nodes + 1);
*38fd1498Szrj  pbbs = bbs + 1;
*38fd1498Szrj  get_loop_body_with_size (scalar_loop, pbbs, scalar_loop->num_nodes);
*38fd1498Szrj  /* Allow duplication of outer loops.  */
*38fd1498Szrj  if (scalar_loop->inner)
*38fd1498Szrj    duplicate_outer_loop = true;
*38fd1498Szrj  /* Check whether duplication is possible.  */
*38fd1498Szrj  if (!can_copy_bbs_p (pbbs, scalar_loop->num_nodes))
*38fd1498Szrj    {
*38fd1498Szrj      free (bbs);
*38fd1498Szrj      return NULL;
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  /* Generate new loop structure.  */
*38fd1498Szrj  new_loop = duplicate_loop (scalar_loop, loop_outer (scalar_loop));
*38fd1498Szrj  duplicate_subloops (scalar_loop, new_loop);
*38fd1498Szrj
*38fd1498Szrj  exit_dest = exit->dest;
*38fd1498Szrj  was_imm_dom = (get_immediate_dominator (CDI_DOMINATORS,
*38fd1498Szrj					  exit_dest) == loop->header ?
*38fd1498Szrj		 true : false);
*38fd1498Szrj
*38fd1498Szrj  /* Also copy the pre-header, this avoids jumping through hoops to
*38fd1498Szrj     duplicate the loop entry PHI arguments.  Create an empty
*38fd1498Szrj     pre-header unconditionally for this.  */
*38fd1498Szrj  basic_block preheader = split_edge (loop_preheader_edge (scalar_loop));
*38fd1498Szrj  edge entry_e = single_pred_edge (preheader);
*38fd1498Szrj  bbs[0] = preheader;
*38fd1498Szrj  new_bbs = XNEWVEC (basic_block, scalar_loop->num_nodes + 1);
*38fd1498Szrj
*38fd1498Szrj  exit = single_exit (scalar_loop);
*38fd1498Szrj  copy_bbs (bbs, scalar_loop->num_nodes + 1, new_bbs,
*38fd1498Szrj	    &exit, 1, &new_exit, NULL,
*38fd1498Szrj	    at_exit ? loop->latch : e->src, true);
*38fd1498Szrj  exit = single_exit (loop);
*38fd1498Szrj  basic_block new_preheader = new_bbs[0];
*38fd1498Szrj
*38fd1498Szrj  add_phi_args_after_copy (new_bbs, scalar_loop->num_nodes + 1, NULL);
*38fd1498Szrj
*38fd1498Szrj  if (scalar_loop != loop)
*38fd1498Szrj    {
*38fd1498Szrj      /* If we copied from SCALAR_LOOP rather than LOOP, SSA_NAMEs from
*38fd1498Szrj	 SCALAR_LOOP will have current_def set to SSA_NAMEs in the new_loop,
*38fd1498Szrj	 but LOOP will not.  slpeel_update_phi_nodes_for_guard{1,2} expects
*38fd1498Szrj	 the LOOP SSA_NAMEs (on the exit edge and edge from latch to
*38fd1498Szrj	 header) to have current_def set, so copy them over.  */
*38fd1498Szrj      slpeel_duplicate_current_defs_from_edges (single_exit (scalar_loop),
*38fd1498Szrj						exit);
*38fd1498Szrj      slpeel_duplicate_current_defs_from_edges (EDGE_SUCC (scalar_loop->latch,
*38fd1498Szrj							   0),
*38fd1498Szrj						EDGE_SUCC (loop->latch, 0));
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  if (at_exit) /* Add the loop copy at exit.  */
*38fd1498Szrj    {
*38fd1498Szrj      if (scalar_loop != loop)
*38fd1498Szrj	{
*38fd1498Szrj	  gphi_iterator gsi;
*38fd1498Szrj	  new_exit = redirect_edge_and_branch (new_exit, exit_dest);
*38fd1498Szrj
*38fd1498Szrj	  for (gsi = gsi_start_phis (exit_dest); !gsi_end_p (gsi);
*38fd1498Szrj	       gsi_next (&gsi))
*38fd1498Szrj	    {
*38fd1498Szrj	      gphi *phi = gsi.phi ();
*38fd1498Szrj	      tree orig_arg = PHI_ARG_DEF_FROM_EDGE (phi, e);
*38fd1498Szrj	      location_t orig_locus
*38fd1498Szrj		= gimple_phi_arg_location_from_edge (phi, e);
*38fd1498Szrj
*38fd1498Szrj	      add_phi_arg (phi, orig_arg, new_exit, orig_locus);
*38fd1498Szrj	    }
*38fd1498Szrj	}
*38fd1498Szrj      redirect_edge_and_branch_force (e, new_preheader);
*38fd1498Szrj      flush_pending_stmts (e);
*38fd1498Szrj      set_immediate_dominator (CDI_DOMINATORS, new_preheader, e->src);
*38fd1498Szrj      if (was_imm_dom || duplicate_outer_loop)
*38fd1498Szrj	set_immediate_dominator (CDI_DOMINATORS, exit_dest, new_exit->src);
*38fd1498Szrj
*38fd1498Szrj      /* And remove the non-necessary forwarder again.  Keep the other
*38fd1498Szrj         one so we have a proper pre-header for the loop at the exit edge.  */
*38fd1498Szrj      redirect_edge_pred (single_succ_edge (preheader),
*38fd1498Szrj			  single_pred (preheader));
*38fd1498Szrj      delete_basic_block (preheader);
*38fd1498Szrj      set_immediate_dominator (CDI_DOMINATORS, scalar_loop->header,
*38fd1498Szrj			       loop_preheader_edge (scalar_loop)->src);
*38fd1498Szrj    }
*38fd1498Szrj  else /* Add the copy at entry.  */
*38fd1498Szrj    {
*38fd1498Szrj      if (scalar_loop != loop)
*38fd1498Szrj	{
*38fd1498Szrj	  /* Remove the non-necessary forwarder of scalar_loop again.  */
*38fd1498Szrj	  redirect_edge_pred (single_succ_edge (preheader),
*38fd1498Szrj			      single_pred (preheader));
*38fd1498Szrj	  delete_basic_block (preheader);
*38fd1498Szrj	  set_immediate_dominator (CDI_DOMINATORS, scalar_loop->header,
*38fd1498Szrj				   loop_preheader_edge (scalar_loop)->src);
*38fd1498Szrj	  preheader = split_edge (loop_preheader_edge (loop));
*38fd1498Szrj	  entry_e = single_pred_edge (preheader);
*38fd1498Szrj	}
*38fd1498Szrj
*38fd1498Szrj      redirect_edge_and_branch_force (entry_e, new_preheader);
*38fd1498Szrj      flush_pending_stmts (entry_e);
*38fd1498Szrj      set_immediate_dominator (CDI_DOMINATORS, new_preheader, entry_e->src);
*38fd1498Szrj
*38fd1498Szrj      redirect_edge_and_branch_force (new_exit, preheader);
*38fd1498Szrj      flush_pending_stmts (new_exit);
*38fd1498Szrj      set_immediate_dominator (CDI_DOMINATORS, preheader, new_exit->src);
*38fd1498Szrj
*38fd1498Szrj      /* And remove the non-necessary forwarder again.  Keep the other
*38fd1498Szrj         one so we have a proper pre-header for the loop at the exit edge.  */
*38fd1498Szrj      redirect_edge_pred (single_succ_edge (new_preheader),
*38fd1498Szrj			  single_pred (new_preheader));
*38fd1498Szrj      delete_basic_block (new_preheader);
*38fd1498Szrj      set_immediate_dominator (CDI_DOMINATORS, new_loop->header,
*38fd1498Szrj			       loop_preheader_edge (new_loop)->src);
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  /* Skip new preheader since it's deleted if copy loop is added at entry.  */
*38fd1498Szrj  for (unsigned i = (at_exit ? 0 : 1); i < scalar_loop->num_nodes + 1; i++)
*38fd1498Szrj    rename_variables_in_bb (new_bbs[i], duplicate_outer_loop);
*38fd1498Szrj
*38fd1498Szrj  if (scalar_loop != loop)
*38fd1498Szrj    {
*38fd1498Szrj      /* Update new_loop->header PHIs, so that on the preheader
*38fd1498Szrj	 edge they are the ones from loop rather than scalar_loop.  */
*38fd1498Szrj      gphi_iterator gsi_orig, gsi_new;
*38fd1498Szrj      edge orig_e = loop_preheader_edge (loop);
*38fd1498Szrj      edge new_e = loop_preheader_edge (new_loop);
*38fd1498Szrj
*38fd1498Szrj      for (gsi_orig = gsi_start_phis (loop->header),
*38fd1498Szrj	   gsi_new = gsi_start_phis (new_loop->header);
*38fd1498Szrj	   !gsi_end_p (gsi_orig) && !gsi_end_p (gsi_new);
*38fd1498Szrj	   gsi_next (&gsi_orig), gsi_next (&gsi_new))
*38fd1498Szrj	{
*38fd1498Szrj	  gphi *orig_phi = gsi_orig.phi ();
*38fd1498Szrj	  gphi *new_phi = gsi_new.phi ();
*38fd1498Szrj	  tree orig_arg = PHI_ARG_DEF_FROM_EDGE (orig_phi, orig_e);
*38fd1498Szrj	  location_t orig_locus
*38fd1498Szrj	    = gimple_phi_arg_location_from_edge (orig_phi, orig_e);
*38fd1498Szrj
*38fd1498Szrj	  add_phi_arg (new_phi, orig_arg, new_e, orig_locus);
*38fd1498Szrj	}
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  free (new_bbs);
*38fd1498Szrj  free (bbs);
*38fd1498Szrj
*38fd1498Szrj  checking_verify_dominators (CDI_DOMINATORS);
*38fd1498Szrj
*38fd1498Szrj  return new_loop;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj
*38fd1498Szrj/* Given the condition expression COND, put it as the last statement of
*38fd1498Szrj   GUARD_BB; set both edges' probability; set dominator of GUARD_TO to
*38fd1498Szrj   DOM_BB; return the skip edge.  GUARD_TO is the target basic block to
*38fd1498Szrj   skip the loop.  PROBABILITY is the skip edge's probability.  Mark the
*38fd1498Szrj   new edge as irreducible if IRREDUCIBLE_P is true.  */
*38fd1498Szrj
*38fd1498Szrjstatic edge
*38fd1498Szrjslpeel_add_loop_guard (basic_block guard_bb, tree cond,
*38fd1498Szrj		       basic_block guard_to, basic_block dom_bb,
*38fd1498Szrj		       profile_probability probability, bool irreducible_p)
*38fd1498Szrj{
*38fd1498Szrj  gimple_stmt_iterator gsi;
*38fd1498Szrj  edge new_e, enter_e;
*38fd1498Szrj  gcond *cond_stmt;
*38fd1498Szrj  gimple_seq gimplify_stmt_list = NULL;
*38fd1498Szrj
*38fd1498Szrj  enter_e = EDGE_SUCC (guard_bb, 0);
*38fd1498Szrj  enter_e->flags &= ~EDGE_FALLTHRU;
*38fd1498Szrj  enter_e->flags |= EDGE_FALSE_VALUE;
*38fd1498Szrj  gsi = gsi_last_bb (guard_bb);
*38fd1498Szrj
*38fd1498Szrj  cond = force_gimple_operand_1 (cond, &gimplify_stmt_list, is_gimple_condexpr,
*38fd1498Szrj				 NULL_TREE);
*38fd1498Szrj  if (gimplify_stmt_list)
*38fd1498Szrj    gsi_insert_seq_after (&gsi, gimplify_stmt_list, GSI_NEW_STMT);
*38fd1498Szrj
*38fd1498Szrj  cond_stmt = gimple_build_cond_from_tree (cond, NULL_TREE, NULL_TREE);
*38fd1498Szrj  gsi = gsi_last_bb (guard_bb);
*38fd1498Szrj  gsi_insert_after (&gsi, cond_stmt, GSI_NEW_STMT);
*38fd1498Szrj
*38fd1498Szrj  /* Add new edge to connect guard block to the merge/loop-exit block.  */
*38fd1498Szrj  new_e = make_edge (guard_bb, guard_to, EDGE_TRUE_VALUE);
*38fd1498Szrj
*38fd1498Szrj  new_e->probability = probability;
*38fd1498Szrj  if (irreducible_p)
*38fd1498Szrj    new_e->flags |= EDGE_IRREDUCIBLE_LOOP;
*38fd1498Szrj
*38fd1498Szrj  enter_e->probability = probability.invert ();
*38fd1498Szrj  set_immediate_dominator (CDI_DOMINATORS, guard_to, dom_bb);
*38fd1498Szrj
*38fd1498Szrj  /* Split enter_e to preserve LOOPS_HAVE_PREHEADERS.  */
*38fd1498Szrj  if (enter_e->dest->loop_father->header == enter_e->dest)
*38fd1498Szrj    split_edge (enter_e);
*38fd1498Szrj
*38fd1498Szrj  return new_e;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj
*38fd1498Szrj/* This function verifies that the following restrictions apply to LOOP:
*38fd1498Szrj   (1) it consists of exactly 2 basic blocks - header, and an empty latch
*38fd1498Szrj       for innermost loop and 5 basic blocks for outer-loop.
*38fd1498Szrj   (2) it is single entry, single exit
*38fd1498Szrj   (3) its exit condition is the last stmt in the header
*38fd1498Szrj   (4) E is the entry/exit edge of LOOP.
*38fd1498Szrj */
*38fd1498Szrj
*38fd1498Szrjbool
*38fd1498Szrjslpeel_can_duplicate_loop_p (const struct loop *loop, const_edge e)
*38fd1498Szrj{
*38fd1498Szrj  edge exit_e = single_exit (loop);
*38fd1498Szrj  edge entry_e = loop_preheader_edge (loop);
*38fd1498Szrj  gcond *orig_cond = get_loop_exit_condition (loop);
*38fd1498Szrj  gimple_stmt_iterator loop_exit_gsi = gsi_last_bb (exit_e->src);
*38fd1498Szrj  unsigned int num_bb = loop->inner? 5 : 2;
*38fd1498Szrj
*38fd1498Szrj  /* All loops have an outer scope; the only case loop->outer is NULL is for
*38fd1498Szrj     the function itself.  */
*38fd1498Szrj  if (!loop_outer (loop)
*38fd1498Szrj      || loop->num_nodes != num_bb
*38fd1498Szrj      || !empty_block_p (loop->latch)
*38fd1498Szrj      || !single_exit (loop)
*38fd1498Szrj      /* Verify that new loop exit condition can be trivially modified.  */
*38fd1498Szrj      || (!orig_cond || orig_cond != gsi_stmt (loop_exit_gsi))
*38fd1498Szrj      || (e != exit_e && e != entry_e))
*38fd1498Szrj    return false;
*38fd1498Szrj
*38fd1498Szrj  return true;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* If the loop has a virtual PHI, but exit bb doesn't, create a virtual PHI
*38fd1498Szrj   in the exit bb and rename all the uses after the loop.  This simplifies
*38fd1498Szrj   the *guard[12] routines, which assume loop closed SSA form for all PHIs
*38fd1498Szrj   (but normally loop closed SSA form doesn't require virtual PHIs to be
*38fd1498Szrj   in the same form).  Doing this early simplifies the checking what
*38fd1498Szrj   uses should be renamed.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjcreate_lcssa_for_virtual_phi (struct loop *loop)
*38fd1498Szrj{
*38fd1498Szrj  gphi_iterator gsi;
*38fd1498Szrj  edge exit_e = single_exit (loop);
*38fd1498Szrj
*38fd1498Szrj  for (gsi = gsi_start_phis (loop->header); !gsi_end_p (gsi); gsi_next (&gsi))
*38fd1498Szrj    if (virtual_operand_p (gimple_phi_result (gsi_stmt (gsi))))
*38fd1498Szrj      {
*38fd1498Szrj	gphi *phi = gsi.phi ();
*38fd1498Szrj	for (gsi = gsi_start_phis (exit_e->dest);
*38fd1498Szrj	     !gsi_end_p (gsi); gsi_next (&gsi))
*38fd1498Szrj	  if (virtual_operand_p (gimple_phi_result (gsi_stmt (gsi))))
*38fd1498Szrj	    break;
*38fd1498Szrj	if (gsi_end_p (gsi))
*38fd1498Szrj	  {
*38fd1498Szrj	    tree new_vop = copy_ssa_name (PHI_RESULT (phi));
*38fd1498Szrj	    gphi *new_phi = create_phi_node (new_vop, exit_e->dest);
*38fd1498Szrj	    tree vop = PHI_ARG_DEF_FROM_EDGE (phi, EDGE_SUCC (loop->latch, 0));
*38fd1498Szrj	    imm_use_iterator imm_iter;
*38fd1498Szrj	    gimple *stmt;
*38fd1498Szrj	    use_operand_p use_p;
*38fd1498Szrj
*38fd1498Szrj	    SSA_NAME_OCCURS_IN_ABNORMAL_PHI (new_vop)
*38fd1498Szrj	      = SSA_NAME_OCCURS_IN_ABNORMAL_PHI (vop);
*38fd1498Szrj	    add_phi_arg (new_phi, vop, exit_e, UNKNOWN_LOCATION);
*38fd1498Szrj	    gimple_phi_set_result (new_phi, new_vop);
*38fd1498Szrj	    FOR_EACH_IMM_USE_STMT (stmt, imm_iter, vop)
*38fd1498Szrj	      if (stmt != new_phi
*38fd1498Szrj		  && !flow_bb_inside_loop_p (loop, gimple_bb (stmt)))
*38fd1498Szrj		FOR_EACH_IMM_USE_ON_STMT (use_p, imm_iter)
*38fd1498Szrj		  SET_USE (use_p, new_vop);
*38fd1498Szrj	  }
*38fd1498Szrj	break;
*38fd1498Szrj      }
*38fd1498Szrj
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Function vect_get_loop_location.
*38fd1498Szrj
*38fd1498Szrj   Extract the location of the loop in the source code.
*38fd1498Szrj   If the loop is not well formed for vectorization, an estimated
*38fd1498Szrj   location is calculated.
*38fd1498Szrj   Return the loop location if succeed and NULL if not.  */
*38fd1498Szrj
*38fd1498Szrjsource_location
*38fd1498Szrjfind_loop_location (struct loop *loop)
*38fd1498Szrj{
*38fd1498Szrj  gimple *stmt = NULL;
*38fd1498Szrj  basic_block bb;
*38fd1498Szrj  gimple_stmt_iterator si;
*38fd1498Szrj
*38fd1498Szrj  if (!loop)
*38fd1498Szrj    return UNKNOWN_LOCATION;
*38fd1498Szrj
*38fd1498Szrj  stmt = get_loop_exit_condition (loop);
*38fd1498Szrj
*38fd1498Szrj  if (stmt
*38fd1498Szrj      && LOCATION_LOCUS (gimple_location (stmt)) > BUILTINS_LOCATION)
*38fd1498Szrj    return gimple_location (stmt);
*38fd1498Szrj
*38fd1498Szrj  /* If we got here the loop is probably not "well formed",
*38fd1498Szrj     try to estimate the loop location */
*38fd1498Szrj
*38fd1498Szrj  if (!loop->header)
*38fd1498Szrj    return UNKNOWN_LOCATION;
*38fd1498Szrj
*38fd1498Szrj  bb = loop->header;
*38fd1498Szrj
*38fd1498Szrj  for (si = gsi_start_bb (bb); !gsi_end_p (si); gsi_next (&si))
*38fd1498Szrj    {
*38fd1498Szrj      stmt = gsi_stmt (si);
*38fd1498Szrj      if (LOCATION_LOCUS (gimple_location (stmt)) > BUILTINS_LOCATION)
*38fd1498Szrj        return gimple_location (stmt);
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  return UNKNOWN_LOCATION;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Return true if PHI defines an IV of the loop to be vectorized.  */
*38fd1498Szrj
*38fd1498Szrjstatic bool
*38fd1498Szrjiv_phi_p (gphi *phi)
*38fd1498Szrj{
*38fd1498Szrj  if (virtual_operand_p (PHI_RESULT (phi)))
*38fd1498Szrj    return false;
*38fd1498Szrj
*38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (phi);
*38fd1498Szrj  gcc_assert (stmt_info != NULL);
*38fd1498Szrj  if (STMT_VINFO_DEF_TYPE (stmt_info) == vect_reduction_def
*38fd1498Szrj      || STMT_VINFO_DEF_TYPE (stmt_info) == vect_double_reduction_def)
*38fd1498Szrj    return false;
*38fd1498Szrj
*38fd1498Szrj  return true;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Function vect_can_advance_ivs_p
*38fd1498Szrj
*38fd1498Szrj   In case the number of iterations that LOOP iterates is unknown at compile
*38fd1498Szrj   time, an epilog loop will be generated, and the loop induction variables
*38fd1498Szrj   (IVs) will be "advanced" to the value they are supposed to take just before
*38fd1498Szrj   the epilog loop.  Here we check that the access function of the loop IVs
*38fd1498Szrj   and the expression that represents the loop bound are simple enough.
*38fd1498Szrj   These restrictions will be relaxed in the future.  */
*38fd1498Szrj
*38fd1498Szrjbool
*38fd1498Szrjvect_can_advance_ivs_p (loop_vec_info loop_vinfo)
*38fd1498Szrj{
*38fd1498Szrj  struct loop *loop = LOOP_VINFO_LOOP (loop_vinfo);
*38fd1498Szrj  basic_block bb = loop->header;
*38fd1498Szrj  gphi_iterator gsi;
*38fd1498Szrj
*38fd1498Szrj  /* Analyze phi functions of the loop header.  */
*38fd1498Szrj
*38fd1498Szrj  if (dump_enabled_p ())
*38fd1498Szrj    dump_printf_loc (MSG_NOTE, vect_location, "vect_can_advance_ivs_p:\n");
*38fd1498Szrj  for (gsi = gsi_start_phis (bb); !gsi_end_p (gsi); gsi_next (&gsi))
*38fd1498Szrj    {
*38fd1498Szrj      tree evolution_part;
*38fd1498Szrj
*38fd1498Szrj      gphi *phi = gsi.phi ();
*38fd1498Szrj      if (dump_enabled_p ())
*38fd1498Szrj	{
*38fd1498Szrj          dump_printf_loc (MSG_NOTE, vect_location, "Analyze phi: ");
*38fd1498Szrj          dump_gimple_stmt (MSG_NOTE, TDF_SLIM, phi, 0);
*38fd1498Szrj	}
*38fd1498Szrj
*38fd1498Szrj      /* Skip virtual phi's. The data dependences that are associated with
*38fd1498Szrj	 virtual defs/uses (i.e., memory accesses) are analyzed elsewhere.
*38fd1498Szrj
*38fd1498Szrj	 Skip reduction phis.  */
*38fd1498Szrj      if (!iv_phi_p (phi))
*38fd1498Szrj	{
*38fd1498Szrj	  if (dump_enabled_p ())
*38fd1498Szrj	    dump_printf_loc (MSG_NOTE, vect_location,
*38fd1498Szrj			     "reduc or virtual phi. skip.\n");
*38fd1498Szrj	  continue;
*38fd1498Szrj	}
*38fd1498Szrj
*38fd1498Szrj      /* Analyze the evolution function.  */
*38fd1498Szrj
*38fd1498Szrj      evolution_part
*38fd1498Szrj	= STMT_VINFO_LOOP_PHI_EVOLUTION_PART (vinfo_for_stmt (phi));
*38fd1498Szrj      if (evolution_part == NULL_TREE)
*38fd1498Szrj        {
*38fd1498Szrj	  if (dump_enabled_p ())
*38fd1498Szrj	    dump_printf (MSG_MISSED_OPTIMIZATION,
*38fd1498Szrj			 "No access function or evolution.\n");
*38fd1498Szrj	  return false;
*38fd1498Szrj        }
*38fd1498Szrj
*38fd1498Szrj      /* FORNOW: We do not transform initial conditions of IVs
*38fd1498Szrj	 which evolution functions are not invariants in the loop.  */
*38fd1498Szrj
*38fd1498Szrj      if (!expr_invariant_in_loop_p (loop, evolution_part))
*38fd1498Szrj	{
*38fd1498Szrj	  if (dump_enabled_p ())
*38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
*38fd1498Szrj			     "evolution not invariant in loop.\n");
*38fd1498Szrj	  return false;
*38fd1498Szrj	}
*38fd1498Szrj
*38fd1498Szrj      /* FORNOW: We do not transform initial conditions of IVs
*38fd1498Szrj	 which evolution functions are a polynomial of degree >= 2.  */
*38fd1498Szrj
*38fd1498Szrj      if (tree_is_chrec (evolution_part))
*38fd1498Szrj	{
*38fd1498Szrj	  if (dump_enabled_p ())
*38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
*38fd1498Szrj			     "evolution is chrec.\n");
*38fd1498Szrj	  return false;
*38fd1498Szrj	}
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  return true;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj
*38fd1498Szrj/*   Function vect_update_ivs_after_vectorizer.
*38fd1498Szrj
*38fd1498Szrj     "Advance" the induction variables of LOOP to the value they should take
*38fd1498Szrj     after the execution of LOOP.  This is currently necessary because the
*38fd1498Szrj     vectorizer does not handle induction variables that are used after the
*38fd1498Szrj     loop.  Such a situation occurs when the last iterations of LOOP are
*38fd1498Szrj     peeled, because:
*38fd1498Szrj     1. We introduced new uses after LOOP for IVs that were not originally used
*38fd1498Szrj        after LOOP: the IVs of LOOP are now used by an epilog loop.
*38fd1498Szrj     2. LOOP is going to be vectorized; this means that it will iterate N/VF
*38fd1498Szrj        times, whereas the loop IVs should be bumped N times.
*38fd1498Szrj
*38fd1498Szrj     Input:
*38fd1498Szrj     - LOOP - a loop that is going to be vectorized. The last few iterations
*38fd1498Szrj              of LOOP were peeled.
*38fd1498Szrj     - NITERS - the number of iterations that LOOP executes (before it is
*38fd1498Szrj                vectorized). i.e, the number of times the ivs should be bumped.
*38fd1498Szrj     - UPDATE_E - a successor edge of LOOP->exit that is on the (only) path
*38fd1498Szrj                  coming out from LOOP on which there are uses of the LOOP ivs
*38fd1498Szrj		  (this is the path from LOOP->exit to epilog_loop->preheader).
*38fd1498Szrj
*38fd1498Szrj                  The new definitions of the ivs are placed in LOOP->exit.
*38fd1498Szrj                  The phi args associated with the edge UPDATE_E in the bb
*38fd1498Szrj                  UPDATE_E->dest are updated accordingly.
*38fd1498Szrj
*38fd1498Szrj     Assumption 1: Like the rest of the vectorizer, this function assumes
*38fd1498Szrj     a single loop exit that has a single predecessor.
*38fd1498Szrj
*38fd1498Szrj     Assumption 2: The phi nodes in the LOOP header and in update_bb are
*38fd1498Szrj     organized in the same order.
*38fd1498Szrj
*38fd1498Szrj     Assumption 3: The access function of the ivs is simple enough (see
*38fd1498Szrj     vect_can_advance_ivs_p).  This assumption will be relaxed in the future.
*38fd1498Szrj
*38fd1498Szrj     Assumption 4: Exactly one of the successors of LOOP exit-bb is on a path
*38fd1498Szrj     coming out of LOOP on which the ivs of LOOP are used (this is the path
*38fd1498Szrj     that leads to the epilog loop; other paths skip the epilog loop).  This
*38fd1498Szrj     path starts with the edge UPDATE_E, and its destination (denoted update_bb)
*38fd1498Szrj     needs to have its phis updated.
*38fd1498Szrj */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjvect_update_ivs_after_vectorizer (loop_vec_info loop_vinfo,
*38fd1498Szrj				  tree niters, edge update_e)
*38fd1498Szrj{
*38fd1498Szrj  gphi_iterator gsi, gsi1;
*38fd1498Szrj  struct loop *loop = LOOP_VINFO_LOOP (loop_vinfo);
*38fd1498Szrj  basic_block update_bb = update_e->dest;
*38fd1498Szrj  basic_block exit_bb = single_exit (loop)->dest;
*38fd1498Szrj
*38fd1498Szrj  /* Make sure there exists a single-predecessor exit bb:  */
*38fd1498Szrj  gcc_assert (single_pred_p (exit_bb));
*38fd1498Szrj  gcc_assert (single_succ_edge (exit_bb) == update_e);
*38fd1498Szrj
*38fd1498Szrj  for (gsi = gsi_start_phis (loop->header), gsi1 = gsi_start_phis (update_bb);
*38fd1498Szrj       !gsi_end_p (gsi) && !gsi_end_p (gsi1);
*38fd1498Szrj       gsi_next (&gsi), gsi_next (&gsi1))
*38fd1498Szrj    {
*38fd1498Szrj      tree init_expr;
*38fd1498Szrj      tree step_expr, off;
*38fd1498Szrj      tree type;
*38fd1498Szrj      tree var, ni, ni_name;
*38fd1498Szrj      gimple_stmt_iterator last_gsi;
*38fd1498Szrj
*38fd1498Szrj      gphi *phi = gsi.phi ();
*38fd1498Szrj      gphi *phi1 = gsi1.phi ();
*38fd1498Szrj      if (dump_enabled_p ())
*38fd1498Szrj	{
*38fd1498Szrj	  dump_printf_loc (MSG_NOTE, vect_location,
*38fd1498Szrj			   "vect_update_ivs_after_vectorizer: phi: ");
*38fd1498Szrj	  dump_gimple_stmt (MSG_NOTE, TDF_SLIM, phi, 0);
*38fd1498Szrj	}
*38fd1498Szrj
*38fd1498Szrj      /* Skip reduction and virtual phis.  */
*38fd1498Szrj      if (!iv_phi_p (phi))
*38fd1498Szrj	{
*38fd1498Szrj	  if (dump_enabled_p ())
*38fd1498Szrj	    dump_printf_loc (MSG_NOTE, vect_location,
*38fd1498Szrj			     "reduc or virtual phi. skip.\n");
*38fd1498Szrj	  continue;
*38fd1498Szrj	}
*38fd1498Szrj
*38fd1498Szrj      type = TREE_TYPE (gimple_phi_result (phi));
*38fd1498Szrj      step_expr = STMT_VINFO_LOOP_PHI_EVOLUTION_PART (vinfo_for_stmt (phi));
*38fd1498Szrj      step_expr = unshare_expr (step_expr);
*38fd1498Szrj
*38fd1498Szrj      /* FORNOW: We do not support IVs whose evolution function is a polynomial
*38fd1498Szrj         of degree >= 2 or exponential.  */
*38fd1498Szrj      gcc_assert (!tree_is_chrec (step_expr));
*38fd1498Szrj
*38fd1498Szrj      init_expr = PHI_ARG_DEF_FROM_EDGE (phi, loop_preheader_edge (loop));
*38fd1498Szrj
*38fd1498Szrj      off = fold_build2 (MULT_EXPR, TREE_TYPE (step_expr),
*38fd1498Szrj			 fold_convert (TREE_TYPE (step_expr), niters),
*38fd1498Szrj			 step_expr);
*38fd1498Szrj      if (POINTER_TYPE_P (type))
*38fd1498Szrj	ni = fold_build_pointer_plus (init_expr, off);
*38fd1498Szrj      else
*38fd1498Szrj	ni = fold_build2 (PLUS_EXPR, type,
*38fd1498Szrj			  init_expr, fold_convert (type, off));
*38fd1498Szrj
*38fd1498Szrj      var = create_tmp_var (type, "tmp");
*38fd1498Szrj
*38fd1498Szrj      last_gsi = gsi_last_bb (exit_bb);
*38fd1498Szrj      gimple_seq new_stmts = NULL;
*38fd1498Szrj      ni_name = force_gimple_operand (ni, &new_stmts, false, var);
*38fd1498Szrj      /* Exit_bb shouldn't be empty.  */
*38fd1498Szrj      if (!gsi_end_p (last_gsi))
*38fd1498Szrj	gsi_insert_seq_after (&last_gsi, new_stmts, GSI_SAME_STMT);
*38fd1498Szrj      else
*38fd1498Szrj	gsi_insert_seq_before (&last_gsi, new_stmts, GSI_SAME_STMT);
*38fd1498Szrj
*38fd1498Szrj      /* Fix phi expressions in the successor bb.  */
*38fd1498Szrj      adjust_phi_and_debug_stmts (phi1, update_e, ni_name);
*38fd1498Szrj    }
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Return a gimple value containing the misalignment (measured in vector
*38fd1498Szrj   elements) for the loop described by LOOP_VINFO, i.e. how many elements
*38fd1498Szrj   it is away from a perfectly aligned address.  Add any new statements
*38fd1498Szrj   to SEQ.  */
*38fd1498Szrj
*38fd1498Szrjstatic tree
*38fd1498Szrjget_misalign_in_elems (gimple **seq, loop_vec_info loop_vinfo)
*38fd1498Szrj{
*38fd1498Szrj  struct data_reference *dr = LOOP_VINFO_UNALIGNED_DR (loop_vinfo);
*38fd1498Szrj  gimple *dr_stmt = DR_STMT (dr);
*38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (dr_stmt);
*38fd1498Szrj  tree vectype = STMT_VINFO_VECTYPE (stmt_info);
*38fd1498Szrj
*38fd1498Szrj  unsigned int target_align = DR_TARGET_ALIGNMENT (dr);
*38fd1498Szrj  gcc_assert (target_align != 0);
*38fd1498Szrj
*38fd1498Szrj  bool negative = tree_int_cst_compare (DR_STEP (dr), size_zero_node) < 0;
*38fd1498Szrj  tree offset = (negative
*38fd1498Szrj		 ? size_int (-TYPE_VECTOR_SUBPARTS (vectype) + 1)
*38fd1498Szrj		 : size_zero_node);
*38fd1498Szrj  tree start_addr = vect_create_addr_base_for_vector_ref (dr_stmt, seq,
*38fd1498Szrj							  offset);
*38fd1498Szrj  tree type = unsigned_type_for (TREE_TYPE (start_addr));
*38fd1498Szrj  tree target_align_minus_1 = build_int_cst (type, target_align - 1);
*38fd1498Szrj  HOST_WIDE_INT elem_size
*38fd1498Szrj    = int_cst_value (TYPE_SIZE_UNIT (TREE_TYPE (vectype)));
*38fd1498Szrj  tree elem_size_log = build_int_cst (type, exact_log2 (elem_size));
*38fd1498Szrj
*38fd1498Szrj  /* Create:  misalign_in_bytes = addr & (target_align - 1).  */
*38fd1498Szrj  tree int_start_addr = fold_convert (type, start_addr);
*38fd1498Szrj  tree misalign_in_bytes = fold_build2 (BIT_AND_EXPR, type, int_start_addr,
*38fd1498Szrj					target_align_minus_1);
*38fd1498Szrj
*38fd1498Szrj  /* Create:  misalign_in_elems = misalign_in_bytes / element_size.  */
*38fd1498Szrj  tree misalign_in_elems = fold_build2 (RSHIFT_EXPR, type, misalign_in_bytes,
*38fd1498Szrj					elem_size_log);
*38fd1498Szrj
*38fd1498Szrj  return misalign_in_elems;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Function vect_gen_prolog_loop_niters
*38fd1498Szrj
*38fd1498Szrj   Generate the number of iterations which should be peeled as prolog for the
*38fd1498Szrj   loop represented by LOOP_VINFO.  It is calculated as the misalignment of
*38fd1498Szrj   DR - the data reference recorded in LOOP_VINFO_UNALIGNED_DR (LOOP_VINFO).
*38fd1498Szrj   As a result, after the execution of this loop, the data reference DR will
*38fd1498Szrj   refer to an aligned location.  The following computation is generated:
*38fd1498Szrj
*38fd1498Szrj   If the misalignment of DR is known at compile time:
*38fd1498Szrj     addr_mis = int mis = DR_MISALIGNMENT (dr);
*38fd1498Szrj   Else, compute address misalignment in bytes:
*38fd1498Szrj     addr_mis = addr & (target_align - 1)
*38fd1498Szrj
*38fd1498Szrj   prolog_niters = ((VF - addr_mis/elem_size)&(VF-1))/step
*38fd1498Szrj
*38fd1498Szrj   (elem_size = element type size; an element is the scalar element whose type
*38fd1498Szrj   is the inner type of the vectype)
*38fd1498Szrj
*38fd1498Szrj   The computations will be emitted at the end of BB.  We also compute and
*38fd1498Szrj   store upper bound (included) of the result in BOUND.
*38fd1498Szrj
*38fd1498Szrj   When the step of the data-ref in the loop is not 1 (as in interleaved data
*38fd1498Szrj   and SLP), the number of iterations of the prolog must be divided by the step
*38fd1498Szrj   (which is equal to the size of interleaved group).
*38fd1498Szrj
*38fd1498Szrj   The above formulas assume that VF == number of elements in the vector. This
*38fd1498Szrj   may not hold when there are multiple-types in the loop.
*38fd1498Szrj   In this case, for some data-references in the loop the VF does not represent
*38fd1498Szrj   the number of elements that fit in the vector.  Therefore, instead of VF we
*38fd1498Szrj   use TYPE_VECTOR_SUBPARTS.  */
*38fd1498Szrj
*38fd1498Szrjstatic tree
*38fd1498Szrjvect_gen_prolog_loop_niters (loop_vec_info loop_vinfo,
*38fd1498Szrj			     basic_block bb, int *bound)
*38fd1498Szrj{
*38fd1498Szrj  struct data_reference *dr = LOOP_VINFO_UNALIGNED_DR (loop_vinfo);
*38fd1498Szrj  tree var;
*38fd1498Szrj  tree niters_type = TREE_TYPE (LOOP_VINFO_NITERS (loop_vinfo));
*38fd1498Szrj  gimple_seq stmts = NULL, new_stmts = NULL;
*38fd1498Szrj  tree iters, iters_name;
*38fd1498Szrj  gimple *dr_stmt = DR_STMT (dr);
*38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (dr_stmt);
*38fd1498Szrj  tree vectype = STMT_VINFO_VECTYPE (stmt_info);
*38fd1498Szrj  unsigned int target_align = DR_TARGET_ALIGNMENT (dr);
*38fd1498Szrj
*38fd1498Szrj  if (LOOP_VINFO_PEELING_FOR_ALIGNMENT (loop_vinfo) > 0)
*38fd1498Szrj    {
*38fd1498Szrj      int npeel = LOOP_VINFO_PEELING_FOR_ALIGNMENT (loop_vinfo);
*38fd1498Szrj
*38fd1498Szrj      if (dump_enabled_p ())
*38fd1498Szrj        dump_printf_loc (MSG_NOTE, vect_location,
*38fd1498Szrj                         "known peeling = %d.\n", npeel);
*38fd1498Szrj
*38fd1498Szrj      iters = build_int_cst (niters_type, npeel);
*38fd1498Szrj      *bound = LOOP_VINFO_PEELING_FOR_ALIGNMENT (loop_vinfo);
*38fd1498Szrj    }
*38fd1498Szrj  else
*38fd1498Szrj    {
*38fd1498Szrj      tree misalign_in_elems = get_misalign_in_elems (&stmts, loop_vinfo);
*38fd1498Szrj      tree type = TREE_TYPE (misalign_in_elems);
*38fd1498Szrj      HOST_WIDE_INT elem_size
*38fd1498Szrj	= int_cst_value (TYPE_SIZE_UNIT (TREE_TYPE (vectype)));
*38fd1498Szrj      HOST_WIDE_INT align_in_elems = target_align / elem_size;
*38fd1498Szrj      tree align_in_elems_minus_1 = build_int_cst (type, align_in_elems - 1);
*38fd1498Szrj      tree align_in_elems_tree = build_int_cst (type, align_in_elems);
*38fd1498Szrj
*38fd1498Szrj      /* Create:  (niters_type) ((align_in_elems - misalign_in_elems)
*38fd1498Szrj				 & (align_in_elems - 1)).  */
*38fd1498Szrj      bool negative = tree_int_cst_compare (DR_STEP (dr), size_zero_node) < 0;
*38fd1498Szrj      if (negative)
*38fd1498Szrj	iters = fold_build2 (MINUS_EXPR, type, misalign_in_elems,
*38fd1498Szrj			     align_in_elems_tree);
*38fd1498Szrj      else
*38fd1498Szrj	iters = fold_build2 (MINUS_EXPR, type, align_in_elems_tree,
*38fd1498Szrj			     misalign_in_elems);
*38fd1498Szrj      iters = fold_build2 (BIT_AND_EXPR, type, iters, align_in_elems_minus_1);
*38fd1498Szrj      iters = fold_convert (niters_type, iters);
*38fd1498Szrj      *bound = align_in_elems - 1;
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  if (dump_enabled_p ())
*38fd1498Szrj    {
*38fd1498Szrj      dump_printf_loc (MSG_NOTE, vect_location,
*38fd1498Szrj                       "niters for prolog loop: ");
*38fd1498Szrj      dump_generic_expr (MSG_NOTE, TDF_SLIM, iters);
*38fd1498Szrj      dump_printf (MSG_NOTE, "\n");
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  var = create_tmp_var (niters_type, "prolog_loop_niters");
*38fd1498Szrj  iters_name = force_gimple_operand (iters, &new_stmts, false, var);
*38fd1498Szrj
*38fd1498Szrj  if (new_stmts)
*38fd1498Szrj    gimple_seq_add_seq (&stmts, new_stmts);
*38fd1498Szrj  if (stmts)
*38fd1498Szrj    {
*38fd1498Szrj      gcc_assert (single_succ_p (bb));
*38fd1498Szrj      gimple_stmt_iterator gsi = gsi_last_bb (bb);
*38fd1498Szrj      if (gsi_end_p (gsi))
*38fd1498Szrj	gsi_insert_seq_before (&gsi, stmts, GSI_SAME_STMT);
*38fd1498Szrj      else
*38fd1498Szrj	gsi_insert_seq_after (&gsi, stmts, GSI_SAME_STMT);
*38fd1498Szrj    }
*38fd1498Szrj  return iters_name;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj
*38fd1498Szrj/* Function vect_update_init_of_dr
*38fd1498Szrj
*38fd1498Szrj   If CODE is PLUS, the vector loop starts NITERS iterations after the
*38fd1498Szrj   scalar one, otherwise CODE is MINUS and the vector loop starts NITERS
*38fd1498Szrj   iterations before the scalar one (using masking to skip inactive
*38fd1498Szrj   elements).  This function updates the information recorded in DR to
*38fd1498Szrj   account for the difference.  Specifically, it updates the OFFSET
*38fd1498Szrj   field of DR.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjvect_update_init_of_dr (struct data_reference *dr, tree niters, tree_code code)
*38fd1498Szrj{
*38fd1498Szrj  tree offset = DR_OFFSET (dr);
*38fd1498Szrj
*38fd1498Szrj  niters = fold_build2 (MULT_EXPR, sizetype,
*38fd1498Szrj			fold_convert (sizetype, niters),
*38fd1498Szrj			fold_convert (sizetype, DR_STEP (dr)));
*38fd1498Szrj  offset = fold_build2 (code, sizetype,
*38fd1498Szrj			fold_convert (sizetype, offset), niters);
*38fd1498Szrj  DR_OFFSET (dr) = offset;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj
*38fd1498Szrj/* Function vect_update_inits_of_drs
*38fd1498Szrj
*38fd1498Szrj   Apply vect_update_inits_of_dr to all accesses in LOOP_VINFO.
*38fd1498Szrj   CODE and NITERS are as for vect_update_inits_of_dr.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjvect_update_inits_of_drs (loop_vec_info loop_vinfo, tree niters,
*38fd1498Szrj			  tree_code code)
*38fd1498Szrj{
*38fd1498Szrj  unsigned int i;
*38fd1498Szrj  vec<data_reference_p> datarefs = LOOP_VINFO_DATAREFS (loop_vinfo);
*38fd1498Szrj  struct data_reference *dr;
*38fd1498Szrj
*38fd1498Szrj  if (dump_enabled_p ())
*38fd1498Szrj    dump_printf_loc (MSG_NOTE, vect_location,
*38fd1498Szrj		     "=== vect_update_inits_of_dr ===\n");
*38fd1498Szrj
*38fd1498Szrj  /* Adjust niters to sizetype and insert stmts on loop preheader edge.  */
*38fd1498Szrj  if (!types_compatible_p (sizetype, TREE_TYPE (niters)))
*38fd1498Szrj    {
*38fd1498Szrj      gimple_seq seq;
*38fd1498Szrj      edge pe = loop_preheader_edge (LOOP_VINFO_LOOP (loop_vinfo));
*38fd1498Szrj      tree var = create_tmp_var (sizetype, "prolog_loop_adjusted_niters");
*38fd1498Szrj
*38fd1498Szrj      niters = fold_convert (sizetype, niters);
*38fd1498Szrj      niters = force_gimple_operand (niters, &seq, false, var);
*38fd1498Szrj      if (seq)
*38fd1498Szrj	{
*38fd1498Szrj	  basic_block new_bb = gsi_insert_seq_on_edge_immediate (pe, seq);
*38fd1498Szrj	  gcc_assert (!new_bb);
*38fd1498Szrj	}
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  FOR_EACH_VEC_ELT (datarefs, i, dr)
*38fd1498Szrj    vect_update_init_of_dr (dr, niters, code);
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* For the information recorded in LOOP_VINFO prepare the loop for peeling
*38fd1498Szrj   by masking.  This involves calculating the number of iterations to
*38fd1498Szrj   be peeled and then aligning all memory references appropriately.  */
*38fd1498Szrj
*38fd1498Szrjvoid
*38fd1498Szrjvect_prepare_for_masked_peels (loop_vec_info loop_vinfo)
*38fd1498Szrj{
*38fd1498Szrj  tree misalign_in_elems;
*38fd1498Szrj  tree type = LOOP_VINFO_MASK_COMPARE_TYPE (loop_vinfo);
*38fd1498Szrj
*38fd1498Szrj  gcc_assert (vect_use_loop_mask_for_alignment_p (loop_vinfo));
*38fd1498Szrj
*38fd1498Szrj  /* From the information recorded in LOOP_VINFO get the number of iterations
*38fd1498Szrj     that need to be skipped via masking.  */
*38fd1498Szrj  if (LOOP_VINFO_PEELING_FOR_ALIGNMENT (loop_vinfo) > 0)
*38fd1498Szrj    {
*38fd1498Szrj      poly_int64 misalign = (LOOP_VINFO_VECT_FACTOR (loop_vinfo)
*38fd1498Szrj			     - LOOP_VINFO_PEELING_FOR_ALIGNMENT (loop_vinfo));
*38fd1498Szrj      misalign_in_elems = build_int_cst (type, misalign);
*38fd1498Szrj    }
*38fd1498Szrj  else
*38fd1498Szrj    {
*38fd1498Szrj      gimple_seq seq1 = NULL, seq2 = NULL;
*38fd1498Szrj      misalign_in_elems = get_misalign_in_elems (&seq1, loop_vinfo);
*38fd1498Szrj      misalign_in_elems = fold_convert (type, misalign_in_elems);
*38fd1498Szrj      misalign_in_elems = force_gimple_operand (misalign_in_elems,
*38fd1498Szrj						&seq2, true, NULL_TREE);
*38fd1498Szrj      gimple_seq_add_seq (&seq1, seq2);
*38fd1498Szrj      if (seq1)
*38fd1498Szrj	{
*38fd1498Szrj	  edge pe = loop_preheader_edge (LOOP_VINFO_LOOP (loop_vinfo));
*38fd1498Szrj	  basic_block new_bb = gsi_insert_seq_on_edge_immediate (pe, seq1);
*38fd1498Szrj	  gcc_assert (!new_bb);
*38fd1498Szrj	}
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  if (dump_enabled_p ())
*38fd1498Szrj    {
*38fd1498Szrj      dump_printf_loc (MSG_NOTE, vect_location,
*38fd1498Szrj		       "misalignment for fully-masked loop: ");
*38fd1498Szrj      dump_generic_expr (MSG_NOTE, TDF_SLIM, misalign_in_elems);
*38fd1498Szrj      dump_printf (MSG_NOTE, "\n");
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  LOOP_VINFO_MASK_SKIP_NITERS (loop_vinfo) = misalign_in_elems;
*38fd1498Szrj
*38fd1498Szrj  vect_update_inits_of_drs (loop_vinfo, misalign_in_elems, MINUS_EXPR);
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* This function builds ni_name = number of iterations.  Statements
*38fd1498Szrj   are emitted on the loop preheader edge.  If NEW_VAR_P is not NULL, set
*38fd1498Szrj   it to TRUE if new ssa_var is generated.  */
*38fd1498Szrj
*38fd1498Szrjtree
*38fd1498Szrjvect_build_loop_niters (loop_vec_info loop_vinfo, bool *new_var_p)
*38fd1498Szrj{
*38fd1498Szrj  tree ni = unshare_expr (LOOP_VINFO_NITERS (loop_vinfo));
*38fd1498Szrj  if (TREE_CODE (ni) == INTEGER_CST)
*38fd1498Szrj    return ni;
*38fd1498Szrj  else
*38fd1498Szrj    {
*38fd1498Szrj      tree ni_name, var;
*38fd1498Szrj      gimple_seq stmts = NULL;
*38fd1498Szrj      edge pe = loop_preheader_edge (LOOP_VINFO_LOOP (loop_vinfo));
*38fd1498Szrj
*38fd1498Szrj      var = create_tmp_var (TREE_TYPE (ni), "niters");
*38fd1498Szrj      ni_name = force_gimple_operand (ni, &stmts, false, var);
*38fd1498Szrj      if (stmts)
*38fd1498Szrj	{
*38fd1498Szrj	  gsi_insert_seq_on_edge_immediate (pe, stmts);
*38fd1498Szrj	  if (new_var_p != NULL)
*38fd1498Szrj	    *new_var_p = true;
*38fd1498Szrj	}
*38fd1498Szrj
*38fd1498Szrj      return ni_name;
*38fd1498Szrj    }
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Calculate the number of iterations above which vectorized loop will be
*38fd1498Szrj   preferred than scalar loop.  NITERS_PROLOG is the number of iterations
*38fd1498Szrj   of prolog loop.  If it's integer const, the integer number is also passed
*38fd1498Szrj   in INT_NITERS_PROLOG.  BOUND_PROLOG is the upper bound (inclusive) of the
*38fd1498Szrj   number of iterations of the prolog loop.  BOUND_EPILOG is the corresponding
*38fd1498Szrj   value for the epilog loop.  If CHECK_PROFITABILITY is true, TH is the
*38fd1498Szrj   threshold below which the scalar (rather than vectorized) loop will be
*38fd1498Szrj   executed.  This function stores the upper bound (inclusive) of the result
*38fd1498Szrj   in BOUND_SCALAR.  */
*38fd1498Szrj
*38fd1498Szrjstatic tree
*38fd1498Szrjvect_gen_scalar_loop_niters (tree niters_prolog, int int_niters_prolog,
*38fd1498Szrj			     int bound_prolog, poly_int64 bound_epilog, int th,
*38fd1498Szrj			     poly_uint64 *bound_scalar,
*38fd1498Szrj			     bool check_profitability)
*38fd1498Szrj{
*38fd1498Szrj  tree type = TREE_TYPE (niters_prolog);
*38fd1498Szrj  tree niters = fold_build2 (PLUS_EXPR, type, niters_prolog,
*38fd1498Szrj			     build_int_cst (type, bound_epilog));
*38fd1498Szrj
*38fd1498Szrj  *bound_scalar = bound_prolog + bound_epilog;
*38fd1498Szrj  if (check_profitability)
*38fd1498Szrj    {
*38fd1498Szrj      /* TH indicates the minimum niters of vectorized loop, while we
*38fd1498Szrj	 compute the maximum niters of scalar loop.  */
*38fd1498Szrj      th--;
*38fd1498Szrj      /* Peeling for constant times.  */
*38fd1498Szrj      if (int_niters_prolog >= 0)
*38fd1498Szrj	{
*38fd1498Szrj	  *bound_scalar = upper_bound (int_niters_prolog + bound_epilog, th);
*38fd1498Szrj	  return build_int_cst (type, *bound_scalar);
*38fd1498Szrj	}
*38fd1498Szrj      /* Peeling an unknown number of times.  Note that both BOUND_PROLOG
*38fd1498Szrj	 and BOUND_EPILOG are inclusive upper bounds.  */
*38fd1498Szrj      if (known_ge (th, bound_prolog + bound_epilog))
*38fd1498Szrj	{
*38fd1498Szrj	  *bound_scalar = th;
*38fd1498Szrj	  return build_int_cst (type, th);
*38fd1498Szrj	}
*38fd1498Szrj      /* Need to do runtime comparison.  */
*38fd1498Szrj      else if (maybe_gt (th, bound_epilog))
*38fd1498Szrj	{
*38fd1498Szrj	  *bound_scalar = upper_bound (*bound_scalar, th);
*38fd1498Szrj	  return fold_build2 (MAX_EXPR, type,
*38fd1498Szrj			      build_int_cst (type, th), niters);
*38fd1498Szrj	}
*38fd1498Szrj    }
*38fd1498Szrj  return niters;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* NITERS is the number of times that the original scalar loop executes
*38fd1498Szrj   after peeling.  Work out the maximum number of iterations N that can
*38fd1498Szrj   be handled by the vectorized form of the loop and then either:
*38fd1498Szrj
*38fd1498Szrj   a) set *STEP_VECTOR_PTR to the vectorization factor and generate:
*38fd1498Szrj
*38fd1498Szrj	niters_vector = N
*38fd1498Szrj
*38fd1498Szrj   b) set *STEP_VECTOR_PTR to one and generate:
*38fd1498Szrj
*38fd1498Szrj        niters_vector = N / vf
*38fd1498Szrj
*38fd1498Szrj   In both cases, store niters_vector in *NITERS_VECTOR_PTR and add
*38fd1498Szrj   any new statements on the loop preheader edge.  NITERS_NO_OVERFLOW
*38fd1498Szrj   is true if NITERS doesn't overflow (i.e. if NITERS is always nonzero).  */
*38fd1498Szrj
*38fd1498Szrjvoid
*38fd1498Szrjvect_gen_vector_loop_niters (loop_vec_info loop_vinfo, tree niters,
*38fd1498Szrj			     tree *niters_vector_ptr, tree *step_vector_ptr,
*38fd1498Szrj			     bool niters_no_overflow)
*38fd1498Szrj{
*38fd1498Szrj  tree ni_minus_gap, var;
*38fd1498Szrj  tree niters_vector, step_vector, type = TREE_TYPE (niters);
*38fd1498Szrj  poly_uint64 vf = LOOP_VINFO_VECT_FACTOR (loop_vinfo);
*38fd1498Szrj  edge pe = loop_preheader_edge (LOOP_VINFO_LOOP (loop_vinfo));
*38fd1498Szrj  tree log_vf = NULL_TREE;
*38fd1498Szrj
*38fd1498Szrj  /* If epilogue loop is required because of data accesses with gaps, we
*38fd1498Szrj     subtract one iteration from the total number of iterations here for
*38fd1498Szrj     correct calculation of RATIO.  */
*38fd1498Szrj  if (LOOP_VINFO_PEELING_FOR_GAPS (loop_vinfo))
*38fd1498Szrj    {
*38fd1498Szrj      ni_minus_gap = fold_build2 (MINUS_EXPR, type, niters,
*38fd1498Szrj				  build_one_cst (type));
*38fd1498Szrj      if (!is_gimple_val (ni_minus_gap))
*38fd1498Szrj	{
*38fd1498Szrj	  var = create_tmp_var (type, "ni_gap");
*38fd1498Szrj	  gimple *stmts = NULL;
*38fd1498Szrj	  ni_minus_gap = force_gimple_operand (ni_minus_gap, &stmts,
*38fd1498Szrj					       true, var);
*38fd1498Szrj	  gsi_insert_seq_on_edge_immediate (pe, stmts);
*38fd1498Szrj	}
*38fd1498Szrj    }
*38fd1498Szrj  else
*38fd1498Szrj    ni_minus_gap = niters;
*38fd1498Szrj
*38fd1498Szrj  unsigned HOST_WIDE_INT const_vf;
*38fd1498Szrj  if (vf.is_constant (&const_vf)
*38fd1498Szrj      && !LOOP_VINFO_FULLY_MASKED_P (loop_vinfo))
*38fd1498Szrj    {
*38fd1498Szrj      /* Create: niters >> log2(vf) */
*38fd1498Szrj      /* If it's known that niters == number of latch executions + 1 doesn't
*38fd1498Szrj	 overflow, we can generate niters >> log2(vf); otherwise we generate
*38fd1498Szrj	 (niters - vf) >> log2(vf) + 1 by using the fact that we know ratio
*38fd1498Szrj	 will be at least one.  */
*38fd1498Szrj      log_vf = build_int_cst (type, exact_log2 (const_vf));
*38fd1498Szrj      if (niters_no_overflow)
*38fd1498Szrj	niters_vector = fold_build2 (RSHIFT_EXPR, type, ni_minus_gap, log_vf);
*38fd1498Szrj      else
*38fd1498Szrj	niters_vector
*38fd1498Szrj	  = fold_build2 (PLUS_EXPR, type,
*38fd1498Szrj			 fold_build2 (RSHIFT_EXPR, type,
*38fd1498Szrj				      fold_build2 (MINUS_EXPR, type,
*38fd1498Szrj						   ni_minus_gap,
*38fd1498Szrj						   build_int_cst (type, vf)),
*38fd1498Szrj				      log_vf),
*38fd1498Szrj			 build_int_cst (type, 1));
*38fd1498Szrj      step_vector = build_one_cst (type);
*38fd1498Szrj    }
*38fd1498Szrj  else
*38fd1498Szrj    {
*38fd1498Szrj      niters_vector = ni_minus_gap;
*38fd1498Szrj      step_vector = build_int_cst (type, vf);
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  if (!is_gimple_val (niters_vector))
*38fd1498Szrj    {
*38fd1498Szrj      var = create_tmp_var (type, "bnd");
*38fd1498Szrj      gimple_seq stmts = NULL;
*38fd1498Szrj      niters_vector = force_gimple_operand (niters_vector, &stmts, true, var);
*38fd1498Szrj      gsi_insert_seq_on_edge_immediate (pe, stmts);
*38fd1498Szrj      /* Peeling algorithm guarantees that vector loop bound is at least ONE,
*38fd1498Szrj	 we set range information to make niters analyzer's life easier.  */
*38fd1498Szrj      if (stmts != NULL && log_vf)
*38fd1498Szrj	set_range_info (niters_vector, VR_RANGE,
*38fd1498Szrj			wi::to_wide (build_int_cst (type, 1)),
*38fd1498Szrj			wi::to_wide (fold_build2 (RSHIFT_EXPR, type,
*38fd1498Szrj						  TYPE_MAX_VALUE (type),
*38fd1498Szrj						  log_vf)));
*38fd1498Szrj    }
*38fd1498Szrj  *niters_vector_ptr = niters_vector;
*38fd1498Szrj  *step_vector_ptr = step_vector;
*38fd1498Szrj
*38fd1498Szrj  return;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Given NITERS_VECTOR which is the number of iterations for vectorized
*38fd1498Szrj   loop specified by LOOP_VINFO after vectorization, compute the number
*38fd1498Szrj   of iterations before vectorization (niters_vector * vf) and store it
*38fd1498Szrj   to NITERS_VECTOR_MULT_VF_PTR.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjvect_gen_vector_loop_niters_mult_vf (loop_vec_info loop_vinfo,
*38fd1498Szrj				     tree niters_vector,
*38fd1498Szrj				     tree *niters_vector_mult_vf_ptr)
*38fd1498Szrj{
*38fd1498Szrj  /* We should be using a step_vector of VF if VF is variable.  */
*38fd1498Szrj  int vf = LOOP_VINFO_VECT_FACTOR (loop_vinfo).to_constant ();
*38fd1498Szrj  struct loop *loop = LOOP_VINFO_LOOP (loop_vinfo);
*38fd1498Szrj  tree type = TREE_TYPE (niters_vector);
*38fd1498Szrj  tree log_vf = build_int_cst (type, exact_log2 (vf));
*38fd1498Szrj  basic_block exit_bb = single_exit (loop)->dest;
*38fd1498Szrj
*38fd1498Szrj  gcc_assert (niters_vector_mult_vf_ptr != NULL);
*38fd1498Szrj  tree niters_vector_mult_vf = fold_build2 (LSHIFT_EXPR, type,
*38fd1498Szrj					    niters_vector, log_vf);
*38fd1498Szrj  if (!is_gimple_val (niters_vector_mult_vf))
*38fd1498Szrj    {
*38fd1498Szrj      tree var = create_tmp_var (type, "niters_vector_mult_vf");
*38fd1498Szrj      gimple_seq stmts = NULL;
*38fd1498Szrj      niters_vector_mult_vf = force_gimple_operand (niters_vector_mult_vf,
*38fd1498Szrj						    &stmts, true, var);
*38fd1498Szrj      gimple_stmt_iterator gsi = gsi_start_bb (exit_bb);
*38fd1498Szrj      gsi_insert_seq_before (&gsi, stmts, GSI_SAME_STMT);
*38fd1498Szrj    }
*38fd1498Szrj  *niters_vector_mult_vf_ptr = niters_vector_mult_vf;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Function slpeel_tree_duplicate_loop_to_edge_cfg duplciates FIRST/SECOND
*38fd1498Szrj   from SECOND/FIRST and puts it at the original loop's preheader/exit
*38fd1498Szrj   edge, the two loops are arranged as below:
*38fd1498Szrj
*38fd1498Szrj       preheader_a:
*38fd1498Szrj     first_loop:
*38fd1498Szrj       header_a:
*38fd1498Szrj	 i_1 = PHI<i_0, i_2>;
*38fd1498Szrj	 ...
*38fd1498Szrj	 i_2 = i_1 + 1;
*38fd1498Szrj	 if (cond_a)
*38fd1498Szrj	   goto latch_a;
*38fd1498Szrj	 else
*38fd1498Szrj	   goto between_bb;
*38fd1498Szrj       latch_a:
*38fd1498Szrj	 goto header_a;
*38fd1498Szrj
*38fd1498Szrj       between_bb:
*38fd1498Szrj	 ;; i_x = PHI<i_2>;   ;; LCSSA phi node to be created for FIRST,
*38fd1498Szrj
*38fd1498Szrj     second_loop:
*38fd1498Szrj       header_b:
*38fd1498Szrj	 i_3 = PHI<i_0, i_4>; ;; Use of i_0 to be replaced with i_x,
*38fd1498Szrj				 or with i_2 if no LCSSA phi is created
*38fd1498Szrj				 under condition of CREATE_LCSSA_FOR_IV_PHIS.
*38fd1498Szrj	 ...
*38fd1498Szrj	 i_4 = i_3 + 1;
*38fd1498Szrj	 if (cond_b)
*38fd1498Szrj	   goto latch_b;
*38fd1498Szrj	 else
*38fd1498Szrj	   goto exit_bb;
*38fd1498Szrj       latch_b:
*38fd1498Szrj	 goto header_b;
*38fd1498Szrj
*38fd1498Szrj       exit_bb:
*38fd1498Szrj
*38fd1498Szrj   This function creates loop closed SSA for the first loop; update the
*38fd1498Szrj   second loop's PHI nodes by replacing argument on incoming edge with the
*38fd1498Szrj   result of newly created lcssa PHI nodes.  IF CREATE_LCSSA_FOR_IV_PHIS
*38fd1498Szrj   is false, Loop closed ssa phis will only be created for non-iv phis for
*38fd1498Szrj   the first loop.
*38fd1498Szrj
*38fd1498Szrj   This function assumes exit bb of the first loop is preheader bb of the
*38fd1498Szrj   second loop, i.e, between_bb in the example code.  With PHIs updated,
*38fd1498Szrj   the second loop will execute rest iterations of the first.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjslpeel_update_phi_nodes_for_loops (loop_vec_info loop_vinfo,
*38fd1498Szrj				   struct loop *first, struct loop *second,
*38fd1498Szrj				   bool create_lcssa_for_iv_phis)
*38fd1498Szrj{
*38fd1498Szrj  gphi_iterator gsi_update, gsi_orig;
*38fd1498Szrj  struct loop *loop = LOOP_VINFO_LOOP (loop_vinfo);
*38fd1498Szrj
*38fd1498Szrj  edge first_latch_e = EDGE_SUCC (first->latch, 0);
*38fd1498Szrj  edge second_preheader_e = loop_preheader_edge (second);
*38fd1498Szrj  basic_block between_bb = single_exit (first)->dest;
*38fd1498Szrj
*38fd1498Szrj  gcc_assert (between_bb == second_preheader_e->src);
*38fd1498Szrj  gcc_assert (single_pred_p (between_bb) && single_succ_p (between_bb));
*38fd1498Szrj  /* Either the first loop or the second is the loop to be vectorized.  */
*38fd1498Szrj  gcc_assert (loop == first || loop == second);
*38fd1498Szrj
*38fd1498Szrj  for (gsi_orig = gsi_start_phis (first->header),
*38fd1498Szrj       gsi_update = gsi_start_phis (second->header);
*38fd1498Szrj       !gsi_end_p (gsi_orig) && !gsi_end_p (gsi_update);
*38fd1498Szrj       gsi_next (&gsi_orig), gsi_next (&gsi_update))
*38fd1498Szrj    {
*38fd1498Szrj      gphi *orig_phi = gsi_orig.phi ();
*38fd1498Szrj      gphi *update_phi = gsi_update.phi ();
*38fd1498Szrj
*38fd1498Szrj      tree arg = PHI_ARG_DEF_FROM_EDGE (orig_phi, first_latch_e);
*38fd1498Szrj      /* Generate lcssa PHI node for the first loop.  */
*38fd1498Szrj      gphi *vect_phi = (loop == first) ? orig_phi : update_phi;
*38fd1498Szrj      if (create_lcssa_for_iv_phis || !iv_phi_p (vect_phi))
*38fd1498Szrj	{
*38fd1498Szrj	  tree new_res = copy_ssa_name (PHI_RESULT (orig_phi));
*38fd1498Szrj	  gphi *lcssa_phi = create_phi_node (new_res, between_bb);
*38fd1498Szrj	  add_phi_arg (lcssa_phi, arg, single_exit (first), UNKNOWN_LOCATION);
*38fd1498Szrj	  arg = new_res;
*38fd1498Szrj	}
*38fd1498Szrj
*38fd1498Szrj      /* Update PHI node in the second loop by replacing arg on the loop's
*38fd1498Szrj	 incoming edge.  */
*38fd1498Szrj      adjust_phi_and_debug_stmts (update_phi, second_preheader_e, arg);
*38fd1498Szrj    }
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Function slpeel_add_loop_guard adds guard skipping from the beginning
*38fd1498Szrj   of SKIP_LOOP to the beginning of UPDATE_LOOP.  GUARD_EDGE and MERGE_EDGE
*38fd1498Szrj   are two pred edges of the merge point before UPDATE_LOOP.  The two loops
*38fd1498Szrj   appear like below:
*38fd1498Szrj
*38fd1498Szrj       guard_bb:
*38fd1498Szrj	 if (cond)
*38fd1498Szrj	   goto merge_bb;
*38fd1498Szrj	 else
*38fd1498Szrj	   goto skip_loop;
*38fd1498Szrj
*38fd1498Szrj     skip_loop:
*38fd1498Szrj       header_a:
*38fd1498Szrj	 i_1 = PHI<i_0, i_2>;
*38fd1498Szrj	 ...
*38fd1498Szrj	 i_2 = i_1 + 1;
*38fd1498Szrj	 if (cond_a)
*38fd1498Szrj	   goto latch_a;
*38fd1498Szrj	 else
*38fd1498Szrj	   goto exit_a;
*38fd1498Szrj       latch_a:
*38fd1498Szrj	 goto header_a;
*38fd1498Szrj
*38fd1498Szrj       exit_a:
*38fd1498Szrj	 i_5 = PHI<i_2>;
*38fd1498Szrj
*38fd1498Szrj       merge_bb:
*38fd1498Szrj	 ;; PHI (i_x = PHI<i_0, i_5>) to be created at merge point.
*38fd1498Szrj
*38fd1498Szrj     update_loop:
*38fd1498Szrj       header_b:
*38fd1498Szrj	 i_3 = PHI<i_5, i_4>;  ;; Use of i_5 to be replaced with i_x.
*38fd1498Szrj	 ...
*38fd1498Szrj	 i_4 = i_3 + 1;
*38fd1498Szrj	 if (cond_b)
*38fd1498Szrj	   goto latch_b;
*38fd1498Szrj	 else
*38fd1498Szrj	   goto exit_bb;
*38fd1498Szrj       latch_b:
*38fd1498Szrj	 goto header_b;
*38fd1498Szrj
*38fd1498Szrj       exit_bb:
*38fd1498Szrj
*38fd1498Szrj   This function creates PHI nodes at merge_bb and replaces the use of i_5
*38fd1498Szrj   in the update_loop's PHI node with the result of new PHI result.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjslpeel_update_phi_nodes_for_guard1 (struct loop *skip_loop,
*38fd1498Szrj				    struct loop *update_loop,
*38fd1498Szrj				    edge guard_edge, edge merge_edge)
*38fd1498Szrj{
*38fd1498Szrj  source_location merge_loc, guard_loc;
*38fd1498Szrj  edge orig_e = loop_preheader_edge (skip_loop);
*38fd1498Szrj  edge update_e = loop_preheader_edge (update_loop);
*38fd1498Szrj  gphi_iterator gsi_orig, gsi_update;
*38fd1498Szrj
*38fd1498Szrj  for ((gsi_orig = gsi_start_phis (skip_loop->header),
*38fd1498Szrj	gsi_update = gsi_start_phis (update_loop->header));
*38fd1498Szrj       !gsi_end_p (gsi_orig) && !gsi_end_p (gsi_update);
*38fd1498Szrj       gsi_next (&gsi_orig), gsi_next (&gsi_update))
*38fd1498Szrj    {
*38fd1498Szrj      gphi *orig_phi = gsi_orig.phi ();
*38fd1498Szrj      gphi *update_phi = gsi_update.phi ();
*38fd1498Szrj
*38fd1498Szrj      /* Generate new phi node at merge bb of the guard.  */
*38fd1498Szrj      tree new_res = copy_ssa_name (PHI_RESULT (orig_phi));
*38fd1498Szrj      gphi *new_phi = create_phi_node (new_res, guard_edge->dest);
*38fd1498Szrj
*38fd1498Szrj      /* Merge bb has two incoming edges: GUARD_EDGE and MERGE_EDGE.  Set the
*38fd1498Szrj	 args in NEW_PHI for these edges.  */
*38fd1498Szrj      tree merge_arg = PHI_ARG_DEF_FROM_EDGE (update_phi, update_e);
*38fd1498Szrj      tree guard_arg = PHI_ARG_DEF_FROM_EDGE (orig_phi, orig_e);
*38fd1498Szrj      merge_loc = gimple_phi_arg_location_from_edge (update_phi, update_e);
*38fd1498Szrj      guard_loc = gimple_phi_arg_location_from_edge (orig_phi, orig_e);
*38fd1498Szrj      add_phi_arg (new_phi, merge_arg, merge_edge, merge_loc);
*38fd1498Szrj      add_phi_arg (new_phi, guard_arg, guard_edge, guard_loc);
*38fd1498Szrj
*38fd1498Szrj      /* Update phi in UPDATE_PHI.  */
*38fd1498Szrj      adjust_phi_and_debug_stmts (update_phi, update_e, new_res);
*38fd1498Szrj    }
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* LCSSA_PHI is a lcssa phi of EPILOG loop which is copied from LOOP,
*38fd1498Szrj   this function searches for the corresponding lcssa phi node in exit
*38fd1498Szrj   bb of LOOP.  If it is found, return the phi result; otherwise return
*38fd1498Szrj   NULL.  */
*38fd1498Szrj
*38fd1498Szrjstatic tree
*38fd1498Szrjfind_guard_arg (struct loop *loop, struct loop *epilog ATTRIBUTE_UNUSED,
*38fd1498Szrj		gphi *lcssa_phi)
*38fd1498Szrj{
*38fd1498Szrj  gphi_iterator gsi;
*38fd1498Szrj  edge e = single_exit (loop);
*38fd1498Szrj
*38fd1498Szrj  gcc_assert (single_pred_p (e->dest));
*38fd1498Szrj  for (gsi = gsi_start_phis (e->dest); !gsi_end_p (gsi); gsi_next (&gsi))
*38fd1498Szrj    {
*38fd1498Szrj      gphi *phi = gsi.phi ();
*38fd1498Szrj      if (operand_equal_p (PHI_ARG_DEF (phi, 0),
*38fd1498Szrj			   PHI_ARG_DEF (lcssa_phi, 0), 0))
*38fd1498Szrj	return PHI_RESULT (phi);
*38fd1498Szrj    }
*38fd1498Szrj  return NULL_TREE;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* LOOP and EPILOG are two consecutive loops in CFG and EPILOG is copied
*38fd1498Szrj   from LOOP.  Function slpeel_add_loop_guard adds guard skipping from a
*38fd1498Szrj   point between the two loops to the end of EPILOG.  Edges GUARD_EDGE
*38fd1498Szrj   and MERGE_EDGE are the two pred edges of merge_bb at the end of EPILOG.
*38fd1498Szrj   The CFG looks like:
*38fd1498Szrj
*38fd1498Szrj     loop:
*38fd1498Szrj       header_a:
*38fd1498Szrj	 i_1 = PHI<i_0, i_2>;
*38fd1498Szrj	 ...
*38fd1498Szrj	 i_2 = i_1 + 1;
*38fd1498Szrj	 if (cond_a)
*38fd1498Szrj	   goto latch_a;
*38fd1498Szrj	 else
*38fd1498Szrj	   goto exit_a;
*38fd1498Szrj       latch_a:
*38fd1498Szrj	 goto header_a;
*38fd1498Szrj
*38fd1498Szrj       exit_a:
*38fd1498Szrj
*38fd1498Szrj       guard_bb:
*38fd1498Szrj	 if (cond)
*38fd1498Szrj	   goto merge_bb;
*38fd1498Szrj	 else
*38fd1498Szrj	   goto epilog_loop;
*38fd1498Szrj
*38fd1498Szrj       ;; fall_through_bb
*38fd1498Szrj
*38fd1498Szrj     epilog_loop:
*38fd1498Szrj       header_b:
*38fd1498Szrj	 i_3 = PHI<i_2, i_4>;
*38fd1498Szrj	 ...
*38fd1498Szrj	 i_4 = i_3 + 1;
*38fd1498Szrj	 if (cond_b)
*38fd1498Szrj	   goto latch_b;
*38fd1498Szrj	 else
*38fd1498Szrj	   goto merge_bb;
*38fd1498Szrj       latch_b:
*38fd1498Szrj	 goto header_b;
*38fd1498Szrj
*38fd1498Szrj       merge_bb:
*38fd1498Szrj	 ; PHI node (i_y = PHI<i_2, i_4>) to be created at merge point.
*38fd1498Szrj
*38fd1498Szrj       exit_bb:
*38fd1498Szrj	 i_x = PHI<i_4>;  ;Use of i_4 to be replaced with i_y in merge_bb.
*38fd1498Szrj
*38fd1498Szrj   For each name used out side EPILOG (i.e - for each name that has a lcssa
*38fd1498Szrj   phi in exit_bb) we create a new PHI in merge_bb.  The new PHI has two
*38fd1498Szrj   args corresponding to GUARD_EDGE and MERGE_EDGE.  Arg for MERGE_EDGE is
*38fd1498Szrj   the arg of the original PHI in exit_bb, arg for GUARD_EDGE is defined
*38fd1498Szrj   by LOOP and is found in the exit bb of LOOP.  Arg of the original PHI
*38fd1498Szrj   in exit_bb will also be updated.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjslpeel_update_phi_nodes_for_guard2 (struct loop *loop, struct loop *epilog,
*38fd1498Szrj				    edge guard_edge, edge merge_edge)
*38fd1498Szrj{
*38fd1498Szrj  gphi_iterator gsi;
*38fd1498Szrj  basic_block merge_bb = guard_edge->dest;
*38fd1498Szrj
*38fd1498Szrj  gcc_assert (single_succ_p (merge_bb));
*38fd1498Szrj  edge e = single_succ_edge (merge_bb);
*38fd1498Szrj  basic_block exit_bb = e->dest;
*38fd1498Szrj  gcc_assert (single_pred_p (exit_bb));
*38fd1498Szrj  gcc_assert (single_pred (exit_bb) == single_exit (epilog)->dest);
*38fd1498Szrj
*38fd1498Szrj  for (gsi = gsi_start_phis (exit_bb); !gsi_end_p (gsi); gsi_next (&gsi))
*38fd1498Szrj    {
*38fd1498Szrj      gphi *update_phi = gsi.phi ();
*38fd1498Szrj      tree old_arg = PHI_ARG_DEF (update_phi, 0);
*38fd1498Szrj      /* This loop-closed-phi actually doesn't represent a use out of the
*38fd1498Szrj	 loop - the phi arg is a constant.  */
*38fd1498Szrj      if (TREE_CODE (old_arg) != SSA_NAME)
*38fd1498Szrj	continue;
*38fd1498Szrj
*38fd1498Szrj      tree merge_arg = get_current_def (old_arg);
*38fd1498Szrj      if (!merge_arg)
*38fd1498Szrj	merge_arg = old_arg;
*38fd1498Szrj
*38fd1498Szrj      tree guard_arg = find_guard_arg (loop, epilog, update_phi);
*38fd1498Szrj      /* If the var is live after loop but not a reduction, we simply
*38fd1498Szrj	 use the old arg.  */
*38fd1498Szrj      if (!guard_arg)
*38fd1498Szrj	guard_arg = old_arg;
*38fd1498Szrj
*38fd1498Szrj      /* Create new phi node in MERGE_BB:  */
*38fd1498Szrj      tree new_res = copy_ssa_name (PHI_RESULT (update_phi));
*38fd1498Szrj      gphi *merge_phi = create_phi_node (new_res, merge_bb);
*38fd1498Szrj
*38fd1498Szrj      /* MERGE_BB has two incoming edges: GUARD_EDGE and MERGE_EDGE, Set
*38fd1498Szrj	 the two PHI args in merge_phi for these edges.  */
*38fd1498Szrj      add_phi_arg (merge_phi, merge_arg, merge_edge, UNKNOWN_LOCATION);
*38fd1498Szrj      add_phi_arg (merge_phi, guard_arg, guard_edge, UNKNOWN_LOCATION);
*38fd1498Szrj
*38fd1498Szrj      /* Update the original phi in exit_bb.  */
*38fd1498Szrj      adjust_phi_and_debug_stmts (update_phi, e, new_res);
*38fd1498Szrj    }
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* EPILOG loop is duplicated from the original loop for vectorizing,
*38fd1498Szrj   the arg of its loop closed ssa PHI needs to be updated.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjslpeel_update_phi_nodes_for_lcssa (struct loop *epilog)
*38fd1498Szrj{
*38fd1498Szrj  gphi_iterator gsi;
*38fd1498Szrj  basic_block exit_bb = single_exit (epilog)->dest;
*38fd1498Szrj
*38fd1498Szrj  gcc_assert (single_pred_p (exit_bb));
*38fd1498Szrj  edge e = EDGE_PRED (exit_bb, 0);
*38fd1498Szrj  for (gsi = gsi_start_phis (exit_bb); !gsi_end_p (gsi); gsi_next (&gsi))
*38fd1498Szrj    rename_use_op (PHI_ARG_DEF_PTR_FROM_EDGE (gsi.phi (), e));
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Function vect_do_peeling.
*38fd1498Szrj
*38fd1498Szrj   Input:
*38fd1498Szrj   - LOOP_VINFO: Represent a loop to be vectorized, which looks like:
*38fd1498Szrj
*38fd1498Szrj       preheader:
*38fd1498Szrj     LOOP:
*38fd1498Szrj       header_bb:
*38fd1498Szrj	 loop_body
*38fd1498Szrj	 if (exit_loop_cond) goto exit_bb
*38fd1498Szrj	 else                goto header_bb
*38fd1498Szrj       exit_bb:
*38fd1498Szrj
*38fd1498Szrj   - NITERS: The number of iterations of the loop.
*38fd1498Szrj   - NITERSM1: The number of iterations of the loop's latch.
*38fd1498Szrj   - NITERS_NO_OVERFLOW: No overflow in computing NITERS.
*38fd1498Szrj   - TH, CHECK_PROFITABILITY: Threshold of niters to vectorize loop if
*38fd1498Szrj			      CHECK_PROFITABILITY is true.
*38fd1498Szrj   Output:
*38fd1498Szrj   - *NITERS_VECTOR and *STEP_VECTOR describe how the main loop should
*38fd1498Szrj     iterate after vectorization; see vect_set_loop_condition for details.
*38fd1498Szrj   - *NITERS_VECTOR_MULT_VF_VAR is either null or an SSA name that
*38fd1498Szrj     should be set to the number of scalar iterations handled by the
*38fd1498Szrj     vector loop.  The SSA name is only used on exit from the loop.
*38fd1498Szrj
*38fd1498Szrj   This function peels prolog and epilog from the loop, adds guards skipping
*38fd1498Szrj   PROLOG and EPILOG for various conditions.  As a result, the changed CFG
*38fd1498Szrj   would look like:
*38fd1498Szrj
*38fd1498Szrj       guard_bb_1:
*38fd1498Szrj	 if (prefer_scalar_loop) goto merge_bb_1
*38fd1498Szrj	 else                    goto guard_bb_2
*38fd1498Szrj
*38fd1498Szrj       guard_bb_2:
*38fd1498Szrj         if (skip_prolog) goto merge_bb_2
*38fd1498Szrj         else             goto prolog_preheader
*38fd1498Szrj
*38fd1498Szrj       prolog_preheader:
*38fd1498Szrj     PROLOG:
*38fd1498Szrj       prolog_header_bb:
*38fd1498Szrj	 prolog_body
*38fd1498Szrj	 if (exit_prolog_cond) goto prolog_exit_bb
*38fd1498Szrj	 else                  goto prolog_header_bb
*38fd1498Szrj       prolog_exit_bb:
*38fd1498Szrj
*38fd1498Szrj       merge_bb_2:
*38fd1498Szrj
*38fd1498Szrj       vector_preheader:
*38fd1498Szrj     VECTOR LOOP:
*38fd1498Szrj       vector_header_bb:
*38fd1498Szrj	 vector_body
*38fd1498Szrj	 if (exit_vector_cond) goto vector_exit_bb
*38fd1498Szrj	 else                  goto vector_header_bb
*38fd1498Szrj       vector_exit_bb:
*38fd1498Szrj
*38fd1498Szrj       guard_bb_3:
*38fd1498Szrj	 if (skip_epilog) goto merge_bb_3
*38fd1498Szrj	 else             goto epilog_preheader
*38fd1498Szrj
*38fd1498Szrj       merge_bb_1:
*38fd1498Szrj
*38fd1498Szrj       epilog_preheader:
*38fd1498Szrj     EPILOG:
*38fd1498Szrj       epilog_header_bb:
*38fd1498Szrj	 epilog_body
*38fd1498Szrj	 if (exit_epilog_cond) goto merge_bb_3
*38fd1498Szrj	 else                  goto epilog_header_bb
*38fd1498Szrj
*38fd1498Szrj       merge_bb_3:
*38fd1498Szrj
*38fd1498Szrj   Note this function peels prolog and epilog only if it's necessary,
*38fd1498Szrj   as well as guards.
*38fd1498Szrj   Returns created epilogue or NULL.
*38fd1498Szrj
*38fd1498Szrj   TODO: Guard for prefer_scalar_loop should be emitted along with
*38fd1498Szrj   versioning conditions if loop versioning is needed.  */
*38fd1498Szrj
*38fd1498Szrj
*38fd1498Szrjstruct loop *
*38fd1498Szrjvect_do_peeling (loop_vec_info loop_vinfo, tree niters, tree nitersm1,
*38fd1498Szrj		 tree *niters_vector, tree *step_vector,
*38fd1498Szrj		 tree *niters_vector_mult_vf_var, int th,
*38fd1498Szrj		 bool check_profitability, bool niters_no_overflow)
*38fd1498Szrj{
*38fd1498Szrj  edge e, guard_e;
*38fd1498Szrj  tree type = TREE_TYPE (niters), guard_cond;
*38fd1498Szrj  basic_block guard_bb, guard_to;
*38fd1498Szrj  profile_probability prob_prolog, prob_vector, prob_epilog;
*38fd1498Szrj  int estimated_vf;
*38fd1498Szrj  int prolog_peeling = 0;
*38fd1498Szrj  if (!vect_use_loop_mask_for_alignment_p (loop_vinfo))
*38fd1498Szrj    prolog_peeling = LOOP_VINFO_PEELING_FOR_ALIGNMENT (loop_vinfo);
*38fd1498Szrj
*38fd1498Szrj  poly_uint64 vf = LOOP_VINFO_VECT_FACTOR (loop_vinfo);
*38fd1498Szrj  poly_uint64 bound_epilog = 0;
*38fd1498Szrj  if (!LOOP_VINFO_FULLY_MASKED_P (loop_vinfo)
*38fd1498Szrj      && LOOP_VINFO_PEELING_FOR_NITER (loop_vinfo))
*38fd1498Szrj    bound_epilog += vf - 1;
*38fd1498Szrj  if (LOOP_VINFO_PEELING_FOR_GAPS (loop_vinfo))
*38fd1498Szrj    bound_epilog += 1;
*38fd1498Szrj  bool epilog_peeling = maybe_ne (bound_epilog, 0U);
*38fd1498Szrj  poly_uint64 bound_scalar = bound_epilog;
*38fd1498Szrj
*38fd1498Szrj  if (!prolog_peeling && !epilog_peeling)
*38fd1498Szrj    return NULL;
*38fd1498Szrj
*38fd1498Szrj  prob_vector = profile_probability::guessed_always ().apply_scale (9, 10);
*38fd1498Szrj  estimated_vf = vect_vf_for_cost (loop_vinfo);
*38fd1498Szrj  if (estimated_vf == 2)
*38fd1498Szrj    estimated_vf = 3;
*38fd1498Szrj  prob_prolog = prob_epilog = profile_probability::guessed_always ()
*38fd1498Szrj			.apply_scale (estimated_vf - 1, estimated_vf);
*38fd1498Szrj
*38fd1498Szrj  struct loop *prolog, *epilog = NULL, *loop = LOOP_VINFO_LOOP (loop_vinfo);
*38fd1498Szrj  struct loop *first_loop = loop;
*38fd1498Szrj  bool irred_flag = loop_preheader_edge (loop)->flags & EDGE_IRREDUCIBLE_LOOP;
*38fd1498Szrj  create_lcssa_for_virtual_phi (loop);
*38fd1498Szrj  update_ssa (TODO_update_ssa_only_virtuals);
*38fd1498Szrj
*38fd1498Szrj  if (MAY_HAVE_DEBUG_BIND_STMTS)
*38fd1498Szrj    {
*38fd1498Szrj      gcc_assert (!adjust_vec.exists ());
*38fd1498Szrj      adjust_vec.create (32);
*38fd1498Szrj    }
*38fd1498Szrj  initialize_original_copy_tables ();
*38fd1498Szrj
*38fd1498Szrj  /* Record the anchor bb at which the guard should be placed if the scalar
*38fd1498Szrj     loop might be preferred.  */
*38fd1498Szrj  basic_block anchor = loop_preheader_edge (loop)->src;
*38fd1498Szrj
*38fd1498Szrj  /* Generate the number of iterations for the prolog loop.  We do this here
*38fd1498Szrj     so that we can also get the upper bound on the number of iterations.  */
*38fd1498Szrj  tree niters_prolog;
*38fd1498Szrj  int bound_prolog = 0;
*38fd1498Szrj  if (prolog_peeling)
*38fd1498Szrj    niters_prolog = vect_gen_prolog_loop_niters (loop_vinfo, anchor,
*38fd1498Szrj						 &bound_prolog);
*38fd1498Szrj  else
*38fd1498Szrj    niters_prolog = build_int_cst (type, 0);
*38fd1498Szrj
*38fd1498Szrj  /* Prolog loop may be skipped.  */
*38fd1498Szrj  bool skip_prolog = (prolog_peeling != 0);
*38fd1498Szrj  /* Skip to epilog if scalar loop may be preferred.  It's only needed
*38fd1498Szrj     when we peel for epilog loop and when it hasn't been checked with
*38fd1498Szrj     loop versioning.  */
*38fd1498Szrj  bool skip_vector = (LOOP_VINFO_NITERS_KNOWN_P (loop_vinfo)
*38fd1498Szrj		      ? maybe_lt (LOOP_VINFO_INT_NITERS (loop_vinfo),
*38fd1498Szrj				  bound_prolog + bound_epilog)
*38fd1498Szrj		      : !LOOP_REQUIRES_VERSIONING (loop_vinfo));
*38fd1498Szrj  /* Epilog loop must be executed if the number of iterations for epilog
*38fd1498Szrj     loop is known at compile time, otherwise we need to add a check at
*38fd1498Szrj     the end of vector loop and skip to the end of epilog loop.  */
*38fd1498Szrj  bool skip_epilog = (prolog_peeling < 0
*38fd1498Szrj		      || !LOOP_VINFO_NITERS_KNOWN_P (loop_vinfo)
*38fd1498Szrj		      || !vf.is_constant ());
*38fd1498Szrj  /* PEELING_FOR_GAPS is special because epilog loop must be executed.  */
*38fd1498Szrj  if (LOOP_VINFO_PEELING_FOR_GAPS (loop_vinfo))
*38fd1498Szrj    skip_epilog = false;
*38fd1498Szrj
*38fd1498Szrj  if (skip_vector)
*38fd1498Szrj    {
*38fd1498Szrj      split_edge (loop_preheader_edge (loop));
*38fd1498Szrj
*38fd1498Szrj      /* Due to the order in which we peel prolog and epilog, we first
*38fd1498Szrj	 propagate probability to the whole loop.  The purpose is to
*38fd1498Szrj	 avoid adjusting probabilities of both prolog and vector loops
*38fd1498Szrj	 separately.  Note in this case, the probability of epilog loop
*38fd1498Szrj	 needs to be scaled back later.  */
*38fd1498Szrj      basic_block bb_before_loop = loop_preheader_edge (loop)->src;
*38fd1498Szrj      if (prob_vector.initialized_p ())
*38fd1498Szrj	{
*38fd1498Szrj	  scale_bbs_frequencies (&bb_before_loop, 1, prob_vector);
*38fd1498Szrj	  scale_loop_profile (loop, prob_vector, 0);
*38fd1498Szrj	}
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  source_location loop_loc = find_loop_location (loop);
*38fd1498Szrj  struct loop *scalar_loop = LOOP_VINFO_SCALAR_LOOP (loop_vinfo);
*38fd1498Szrj  if (prolog_peeling)
*38fd1498Szrj    {
*38fd1498Szrj      e = loop_preheader_edge (loop);
*38fd1498Szrj      if (!slpeel_can_duplicate_loop_p (loop, e))
*38fd1498Szrj	{
*38fd1498Szrj	  dump_printf_loc (MSG_MISSED_OPTIMIZATION, loop_loc,
*38fd1498Szrj			   "loop can't be duplicated to preheader edge.\n");
*38fd1498Szrj	  gcc_unreachable ();
*38fd1498Szrj	}
*38fd1498Szrj      /* Peel prolog and put it on preheader edge of loop.  */
*38fd1498Szrj      prolog = slpeel_tree_duplicate_loop_to_edge_cfg (loop, scalar_loop, e);
*38fd1498Szrj      if (!prolog)
*38fd1498Szrj	{
*38fd1498Szrj	  dump_printf_loc (MSG_MISSED_OPTIMIZATION, loop_loc,
*38fd1498Szrj			   "slpeel_tree_duplicate_loop_to_edge_cfg failed.\n");
*38fd1498Szrj	  gcc_unreachable ();
*38fd1498Szrj	}
*38fd1498Szrj      slpeel_update_phi_nodes_for_loops (loop_vinfo, prolog, loop, true);
*38fd1498Szrj      first_loop = prolog;
*38fd1498Szrj      reset_original_copy_tables ();
*38fd1498Szrj
*38fd1498Szrj      /* Update the number of iterations for prolog loop.  */
*38fd1498Szrj      tree step_prolog = build_one_cst (TREE_TYPE (niters_prolog));
*38fd1498Szrj      vect_set_loop_condition (prolog, NULL, niters_prolog,
*38fd1498Szrj			       step_prolog, NULL_TREE, false);
*38fd1498Szrj
*38fd1498Szrj      /* Skip the prolog loop.  */
*38fd1498Szrj      if (skip_prolog)
*38fd1498Szrj	{
*38fd1498Szrj	  guard_cond = fold_build2 (EQ_EXPR, boolean_type_node,
*38fd1498Szrj				    niters_prolog, build_int_cst (type, 0));
*38fd1498Szrj	  guard_bb = loop_preheader_edge (prolog)->src;
*38fd1498Szrj	  basic_block bb_after_prolog = loop_preheader_edge (loop)->src;
*38fd1498Szrj	  guard_to = split_edge (loop_preheader_edge (loop));
*38fd1498Szrj	  guard_e = slpeel_add_loop_guard (guard_bb, guard_cond,
*38fd1498Szrj					   guard_to, guard_bb,
*38fd1498Szrj					   prob_prolog.invert (),
*38fd1498Szrj					   irred_flag);
*38fd1498Szrj	  e = EDGE_PRED (guard_to, 0);
*38fd1498Szrj	  e = (e != guard_e ? e : EDGE_PRED (guard_to, 1));
*38fd1498Szrj	  slpeel_update_phi_nodes_for_guard1 (prolog, loop, guard_e, e);
*38fd1498Szrj
*38fd1498Szrj	  scale_bbs_frequencies (&bb_after_prolog, 1, prob_prolog);
*38fd1498Szrj	  scale_loop_profile (prolog, prob_prolog, bound_prolog);
*38fd1498Szrj	}
*38fd1498Szrj      /* Update init address of DRs.  */
*38fd1498Szrj      vect_update_inits_of_drs (loop_vinfo, niters_prolog, PLUS_EXPR);
*38fd1498Szrj      /* Update niters for vector loop.  */
*38fd1498Szrj      LOOP_VINFO_NITERS (loop_vinfo)
*38fd1498Szrj	= fold_build2 (MINUS_EXPR, type, niters, niters_prolog);
*38fd1498Szrj      LOOP_VINFO_NITERSM1 (loop_vinfo)
*38fd1498Szrj	= fold_build2 (MINUS_EXPR, type,
*38fd1498Szrj		       LOOP_VINFO_NITERSM1 (loop_vinfo), niters_prolog);
*38fd1498Szrj      bool new_var_p = false;
*38fd1498Szrj      niters = vect_build_loop_niters (loop_vinfo, &new_var_p);
*38fd1498Szrj      /* It's guaranteed that vector loop bound before vectorization is at
*38fd1498Szrj	 least VF, so set range information for newly generated var.  */
*38fd1498Szrj      if (new_var_p)
*38fd1498Szrj	set_range_info (niters, VR_RANGE,
*38fd1498Szrj			wi::to_wide (build_int_cst (type, vf)),
*38fd1498Szrj			wi::to_wide (TYPE_MAX_VALUE (type)));
*38fd1498Szrj
*38fd1498Szrj      /* Prolog iterates at most bound_prolog times, latch iterates at
*38fd1498Szrj	 most bound_prolog - 1 times.  */
*38fd1498Szrj      record_niter_bound (prolog, bound_prolog - 1, false, true);
*38fd1498Szrj      delete_update_ssa ();
*38fd1498Szrj      adjust_vec_debug_stmts ();
*38fd1498Szrj      scev_reset ();
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  if (epilog_peeling)
*38fd1498Szrj    {
*38fd1498Szrj      e = single_exit (loop);
*38fd1498Szrj      if (!slpeel_can_duplicate_loop_p (loop, e))
*38fd1498Szrj	{
*38fd1498Szrj	  dump_printf_loc (MSG_MISSED_OPTIMIZATION, loop_loc,
*38fd1498Szrj			   "loop can't be duplicated to exit edge.\n");
*38fd1498Szrj	  gcc_unreachable ();
*38fd1498Szrj	}
*38fd1498Szrj      /* Peel epilog and put it on exit edge of loop.  */
*38fd1498Szrj      epilog = slpeel_tree_duplicate_loop_to_edge_cfg (loop, scalar_loop, e);
*38fd1498Szrj      if (!epilog)
*38fd1498Szrj	{
*38fd1498Szrj	  dump_printf_loc (MSG_MISSED_OPTIMIZATION, loop_loc,
*38fd1498Szrj			   "slpeel_tree_duplicate_loop_to_edge_cfg failed.\n");
*38fd1498Szrj	  gcc_unreachable ();
*38fd1498Szrj	}
*38fd1498Szrj      slpeel_update_phi_nodes_for_loops (loop_vinfo, loop, epilog, false);
*38fd1498Szrj
*38fd1498Szrj      /* Scalar version loop may be preferred.  In this case, add guard
*38fd1498Szrj	 and skip to epilog.  Note this only happens when the number of
*38fd1498Szrj	 iterations of loop is unknown at compile time, otherwise this
*38fd1498Szrj	 won't be vectorized.  */
*38fd1498Szrj      if (skip_vector)
*38fd1498Szrj	{
*38fd1498Szrj	  /* Additional epilogue iteration is peeled if gap exists.  */
*38fd1498Szrj	  tree t = vect_gen_scalar_loop_niters (niters_prolog, prolog_peeling,
*38fd1498Szrj						bound_prolog, bound_epilog,
*38fd1498Szrj						th, &bound_scalar,
*38fd1498Szrj						check_profitability);
*38fd1498Szrj	  /* Build guard against NITERSM1 since NITERS may overflow.  */
*38fd1498Szrj	  guard_cond = fold_build2 (LT_EXPR, boolean_type_node, nitersm1, t);
*38fd1498Szrj	  guard_bb = anchor;
*38fd1498Szrj	  guard_to = split_edge (loop_preheader_edge (epilog));
*38fd1498Szrj	  guard_e = slpeel_add_loop_guard (guard_bb, guard_cond,
*38fd1498Szrj					   guard_to, guard_bb,
*38fd1498Szrj					   prob_vector.invert (),
*38fd1498Szrj					   irred_flag);
*38fd1498Szrj	  e = EDGE_PRED (guard_to, 0);
*38fd1498Szrj	  e = (e != guard_e ? e : EDGE_PRED (guard_to, 1));
*38fd1498Szrj	  slpeel_update_phi_nodes_for_guard1 (first_loop, epilog, guard_e, e);
*38fd1498Szrj
*38fd1498Szrj	  /* Simply propagate profile info from guard_bb to guard_to which is
*38fd1498Szrj	     a merge point of control flow.  */
*38fd1498Szrj	  guard_to->count = guard_bb->count;
*38fd1498Szrj
*38fd1498Szrj	  /* Scale probability of epilog loop back.
*38fd1498Szrj	     FIXME: We should avoid scaling down and back up.  Profile may
*38fd1498Szrj	     get lost if we scale down to 0.  */
*38fd1498Szrj	  basic_block *bbs = get_loop_body (epilog);
*38fd1498Szrj	  for (unsigned int i = 0; i < epilog->num_nodes; i++)
*38fd1498Szrj	    bbs[i]->count = bbs[i]->count.apply_scale
*38fd1498Szrj				 (bbs[i]->count,
*38fd1498Szrj				  bbs[i]->count.apply_probability
*38fd1498Szrj				    (prob_vector));
*38fd1498Szrj	  free (bbs);
*38fd1498Szrj	}
*38fd1498Szrj
*38fd1498Szrj      basic_block bb_before_epilog = loop_preheader_edge (epilog)->src;
*38fd1498Szrj      tree niters_vector_mult_vf;
*38fd1498Szrj      /* If loop is peeled for non-zero constant times, now niters refers to
*38fd1498Szrj	 orig_niters - prolog_peeling, it won't overflow even the orig_niters
*38fd1498Szrj	 overflows.  */
*38fd1498Szrj      niters_no_overflow |= (prolog_peeling > 0);
*38fd1498Szrj      vect_gen_vector_loop_niters (loop_vinfo, niters,
*38fd1498Szrj				   niters_vector, step_vector,
*38fd1498Szrj				   niters_no_overflow);
*38fd1498Szrj      if (!integer_onep (*step_vector))
*38fd1498Szrj	{
*38fd1498Szrj	  /* On exit from the loop we will have an easy way of calcalating
*38fd1498Szrj	     NITERS_VECTOR / STEP * STEP.  Install a dummy definition
*38fd1498Szrj	     until then.  */
*38fd1498Szrj	  niters_vector_mult_vf = make_ssa_name (TREE_TYPE (*niters_vector));
*38fd1498Szrj	  SSA_NAME_DEF_STMT (niters_vector_mult_vf) = gimple_build_nop ();
*38fd1498Szrj	  *niters_vector_mult_vf_var = niters_vector_mult_vf;
*38fd1498Szrj	}
*38fd1498Szrj      else
*38fd1498Szrj	vect_gen_vector_loop_niters_mult_vf (loop_vinfo, *niters_vector,
*38fd1498Szrj					     &niters_vector_mult_vf);
*38fd1498Szrj      /* Update IVs of original loop as if they were advanced by
*38fd1498Szrj	 niters_vector_mult_vf steps.  */
*38fd1498Szrj      gcc_checking_assert (vect_can_advance_ivs_p (loop_vinfo));
*38fd1498Szrj      edge update_e = skip_vector ? e : loop_preheader_edge (epilog);
*38fd1498Szrj      vect_update_ivs_after_vectorizer (loop_vinfo, niters_vector_mult_vf,
*38fd1498Szrj					update_e);
*38fd1498Szrj
*38fd1498Szrj      if (skip_epilog)
*38fd1498Szrj	{
*38fd1498Szrj	  guard_cond = fold_build2 (EQ_EXPR, boolean_type_node,
*38fd1498Szrj				    niters, niters_vector_mult_vf);
*38fd1498Szrj	  guard_bb = single_exit (loop)->dest;
*38fd1498Szrj	  guard_to = split_edge (single_exit (epilog));
*38fd1498Szrj	  guard_e = slpeel_add_loop_guard (guard_bb, guard_cond, guard_to,
*38fd1498Szrj					   skip_vector ? anchor : guard_bb,
*38fd1498Szrj					   prob_epilog.invert (),
*38fd1498Szrj					   irred_flag);
*38fd1498Szrj	  slpeel_update_phi_nodes_for_guard2 (loop, epilog, guard_e,
*38fd1498Szrj					      single_exit (epilog));
*38fd1498Szrj	  /* Only need to handle basic block before epilog loop if it's not
*38fd1498Szrj	     the guard_bb, which is the case when skip_vector is true.  */
*38fd1498Szrj	  if (guard_bb != bb_before_epilog)
*38fd1498Szrj	    {
*38fd1498Szrj	      prob_epilog = prob_vector * prob_epilog + prob_vector.invert ();
*38fd1498Szrj
*38fd1498Szrj	      scale_bbs_frequencies (&bb_before_epilog, 1, prob_epilog);
*38fd1498Szrj	    }
*38fd1498Szrj	  scale_loop_profile (epilog, prob_epilog, 0);
*38fd1498Szrj	}
*38fd1498Szrj      else
*38fd1498Szrj	slpeel_update_phi_nodes_for_lcssa (epilog);
*38fd1498Szrj
*38fd1498Szrj      unsigned HOST_WIDE_INT bound;
*38fd1498Szrj      if (bound_scalar.is_constant (&bound))
*38fd1498Szrj	{
*38fd1498Szrj	  gcc_assert (bound != 0);
*38fd1498Szrj	  /* -1 to convert loop iterations to latch iterations.  */
*38fd1498Szrj	  record_niter_bound (epilog, bound - 1, false, true);
*38fd1498Szrj	}
*38fd1498Szrj
*38fd1498Szrj      delete_update_ssa ();
*38fd1498Szrj      adjust_vec_debug_stmts ();
*38fd1498Szrj      scev_reset ();
*38fd1498Szrj    }
*38fd1498Szrj  adjust_vec.release ();
*38fd1498Szrj  free_original_copy_tables ();
*38fd1498Szrj
*38fd1498Szrj  return epilog;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Function vect_create_cond_for_niters_checks.
*38fd1498Szrj
*38fd1498Szrj   Create a conditional expression that represents the run-time checks for
*38fd1498Szrj   loop's niter.  The loop is guaranteed to terminate if the run-time
*38fd1498Szrj   checks hold.
*38fd1498Szrj
*38fd1498Szrj   Input:
*38fd1498Szrj   COND_EXPR  - input conditional expression.  New conditions will be chained
*38fd1498Szrj		with logical AND operation.  If it is NULL, then the function
*38fd1498Szrj		is used to return the number of alias checks.
*38fd1498Szrj   LOOP_VINFO - field LOOP_VINFO_MAY_ALIAS_STMTS contains the list of ddrs
*38fd1498Szrj		to be checked.
*38fd1498Szrj
*38fd1498Szrj   Output:
*38fd1498Szrj   COND_EXPR - conditional expression.
*38fd1498Szrj
*38fd1498Szrj   The returned COND_EXPR is the conditional expression to be used in the
*38fd1498Szrj   if statement that controls which version of the loop gets executed at
*38fd1498Szrj   runtime.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjvect_create_cond_for_niters_checks (loop_vec_info loop_vinfo, tree *cond_expr)
*38fd1498Szrj{
*38fd1498Szrj  tree part_cond_expr = LOOP_VINFO_NITERS_ASSUMPTIONS (loop_vinfo);
*38fd1498Szrj
*38fd1498Szrj  if (*cond_expr)
*38fd1498Szrj    *cond_expr = fold_build2 (TRUTH_AND_EXPR, boolean_type_node,
*38fd1498Szrj			      *cond_expr, part_cond_expr);
*38fd1498Szrj  else
*38fd1498Szrj    *cond_expr = part_cond_expr;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Set *COND_EXPR to a tree that is true when both the original *COND_EXPR
*38fd1498Szrj   and PART_COND_EXPR are true.  Treat a null *COND_EXPR as "true".  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjchain_cond_expr (tree *cond_expr, tree part_cond_expr)
*38fd1498Szrj{
*38fd1498Szrj  if (*cond_expr)
*38fd1498Szrj    *cond_expr = fold_build2 (TRUTH_AND_EXPR, boolean_type_node,
*38fd1498Szrj			      *cond_expr, part_cond_expr);
*38fd1498Szrj  else
*38fd1498Szrj    *cond_expr = part_cond_expr;
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Function vect_create_cond_for_align_checks.
*38fd1498Szrj
*38fd1498Szrj   Create a conditional expression that represents the alignment checks for
*38fd1498Szrj   all of data references (array element references) whose alignment must be
*38fd1498Szrj   checked at runtime.
*38fd1498Szrj
*38fd1498Szrj   Input:
*38fd1498Szrj   COND_EXPR  - input conditional expression.  New conditions will be chained
*38fd1498Szrj                with logical AND operation.
*38fd1498Szrj   LOOP_VINFO - two fields of the loop information are used.
*38fd1498Szrj                LOOP_VINFO_PTR_MASK is the mask used to check the alignment.
*38fd1498Szrj                LOOP_VINFO_MAY_MISALIGN_STMTS contains the refs to be checked.
*38fd1498Szrj
*38fd1498Szrj   Output:
*38fd1498Szrj   COND_EXPR_STMT_LIST - statements needed to construct the conditional
*38fd1498Szrj                         expression.
*38fd1498Szrj   The returned value is the conditional expression to be used in the if
*38fd1498Szrj   statement that controls which version of the loop gets executed at runtime.
*38fd1498Szrj
*38fd1498Szrj   The algorithm makes two assumptions:
*38fd1498Szrj     1) The number of bytes "n" in a vector is a power of 2.
*38fd1498Szrj     2) An address "a" is aligned if a%n is zero and that this
*38fd1498Szrj        test can be done as a&(n-1) == 0.  For example, for 16
*38fd1498Szrj        byte vectors the test is a&0xf == 0.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjvect_create_cond_for_align_checks (loop_vec_info loop_vinfo,
*38fd1498Szrj                                   tree *cond_expr,
*38fd1498Szrj				   gimple_seq *cond_expr_stmt_list)
*38fd1498Szrj{
*38fd1498Szrj  vec<gimple *> may_misalign_stmts
*38fd1498Szrj    = LOOP_VINFO_MAY_MISALIGN_STMTS (loop_vinfo);
*38fd1498Szrj  gimple *ref_stmt;
*38fd1498Szrj  int mask = LOOP_VINFO_PTR_MASK (loop_vinfo);
*38fd1498Szrj  tree mask_cst;
*38fd1498Szrj  unsigned int i;
*38fd1498Szrj  tree int_ptrsize_type;
*38fd1498Szrj  char tmp_name[20];
*38fd1498Szrj  tree or_tmp_name = NULL_TREE;
*38fd1498Szrj  tree and_tmp_name;
*38fd1498Szrj  gimple *and_stmt;
*38fd1498Szrj  tree ptrsize_zero;
*38fd1498Szrj  tree part_cond_expr;
*38fd1498Szrj
*38fd1498Szrj  /* Check that mask is one less than a power of 2, i.e., mask is
*38fd1498Szrj     all zeros followed by all ones.  */
*38fd1498Szrj  gcc_assert ((mask != 0) && ((mask & (mask+1)) == 0));
*38fd1498Szrj
*38fd1498Szrj  int_ptrsize_type = signed_type_for (ptr_type_node);
*38fd1498Szrj
*38fd1498Szrj  /* Create expression (mask & (dr_1 || ... || dr_n)) where dr_i is the address
*38fd1498Szrj     of the first vector of the i'th data reference. */
*38fd1498Szrj
*38fd1498Szrj  FOR_EACH_VEC_ELT (may_misalign_stmts, i, ref_stmt)
*38fd1498Szrj    {
*38fd1498Szrj      gimple_seq new_stmt_list = NULL;
*38fd1498Szrj      tree addr_base;
*38fd1498Szrj      tree addr_tmp_name;
*38fd1498Szrj      tree new_or_tmp_name;
*38fd1498Szrj      gimple *addr_stmt, *or_stmt;
*38fd1498Szrj      stmt_vec_info stmt_vinfo = vinfo_for_stmt (ref_stmt);
*38fd1498Szrj      tree vectype = STMT_VINFO_VECTYPE (stmt_vinfo);
*38fd1498Szrj      bool negative = tree_int_cst_compare
*38fd1498Szrj	(DR_STEP (STMT_VINFO_DATA_REF (stmt_vinfo)), size_zero_node) < 0;
*38fd1498Szrj      tree offset = negative
*38fd1498Szrj	? size_int (-TYPE_VECTOR_SUBPARTS (vectype) + 1) : size_zero_node;
*38fd1498Szrj
*38fd1498Szrj      /* create: addr_tmp = (int)(address_of_first_vector) */
*38fd1498Szrj      addr_base =
*38fd1498Szrj	vect_create_addr_base_for_vector_ref (ref_stmt, &new_stmt_list,
*38fd1498Szrj					      offset);
*38fd1498Szrj      if (new_stmt_list != NULL)
*38fd1498Szrj	gimple_seq_add_seq (cond_expr_stmt_list, new_stmt_list);
*38fd1498Szrj
*38fd1498Szrj      sprintf (tmp_name, "addr2int%d", i);
*38fd1498Szrj      addr_tmp_name = make_temp_ssa_name (int_ptrsize_type, NULL, tmp_name);
*38fd1498Szrj      addr_stmt = gimple_build_assign (addr_tmp_name, NOP_EXPR, addr_base);
*38fd1498Szrj      gimple_seq_add_stmt (cond_expr_stmt_list, addr_stmt);
*38fd1498Szrj
*38fd1498Szrj      /* The addresses are OR together.  */
*38fd1498Szrj
*38fd1498Szrj      if (or_tmp_name != NULL_TREE)
*38fd1498Szrj        {
*38fd1498Szrj          /* create: or_tmp = or_tmp | addr_tmp */
*38fd1498Szrj          sprintf (tmp_name, "orptrs%d", i);
*38fd1498Szrj	  new_or_tmp_name = make_temp_ssa_name (int_ptrsize_type, NULL, tmp_name);
*38fd1498Szrj	  or_stmt = gimple_build_assign (new_or_tmp_name, BIT_IOR_EXPR,
*38fd1498Szrj					 or_tmp_name, addr_tmp_name);
*38fd1498Szrj	  gimple_seq_add_stmt (cond_expr_stmt_list, or_stmt);
*38fd1498Szrj          or_tmp_name = new_or_tmp_name;
*38fd1498Szrj        }
*38fd1498Szrj      else
*38fd1498Szrj        or_tmp_name = addr_tmp_name;
*38fd1498Szrj
*38fd1498Szrj    } /* end for i */
*38fd1498Szrj
*38fd1498Szrj  mask_cst = build_int_cst (int_ptrsize_type, mask);
*38fd1498Szrj
*38fd1498Szrj  /* create: and_tmp = or_tmp & mask  */
*38fd1498Szrj  and_tmp_name = make_temp_ssa_name (int_ptrsize_type, NULL, "andmask");
*38fd1498Szrj
*38fd1498Szrj  and_stmt = gimple_build_assign (and_tmp_name, BIT_AND_EXPR,
*38fd1498Szrj				  or_tmp_name, mask_cst);
*38fd1498Szrj  gimple_seq_add_stmt (cond_expr_stmt_list, and_stmt);
*38fd1498Szrj
*38fd1498Szrj  /* Make and_tmp the left operand of the conditional test against zero.
*38fd1498Szrj     if and_tmp has a nonzero bit then some address is unaligned.  */
*38fd1498Szrj  ptrsize_zero = build_int_cst (int_ptrsize_type, 0);
*38fd1498Szrj  part_cond_expr = fold_build2 (EQ_EXPR, boolean_type_node,
*38fd1498Szrj				and_tmp_name, ptrsize_zero);
*38fd1498Szrj  chain_cond_expr (cond_expr, part_cond_expr);
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* If LOOP_VINFO_CHECK_UNEQUAL_ADDRS contains <A1, B1>, ..., <An, Bn>,
*38fd1498Szrj   create a tree representation of: (&A1 != &B1) && ... && (&An != &Bn).
*38fd1498Szrj   Set *COND_EXPR to a tree that is true when both the original *COND_EXPR
*38fd1498Szrj   and this new condition are true.  Treat a null *COND_EXPR as "true".  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjvect_create_cond_for_unequal_addrs (loop_vec_info loop_vinfo, tree *cond_expr)
*38fd1498Szrj{
*38fd1498Szrj  vec<vec_object_pair> pairs = LOOP_VINFO_CHECK_UNEQUAL_ADDRS (loop_vinfo);
*38fd1498Szrj  unsigned int i;
*38fd1498Szrj  vec_object_pair *pair;
*38fd1498Szrj  FOR_EACH_VEC_ELT (pairs, i, pair)
*38fd1498Szrj    {
*38fd1498Szrj      tree addr1 = build_fold_addr_expr (pair->first);
*38fd1498Szrj      tree addr2 = build_fold_addr_expr (pair->second);
*38fd1498Szrj      tree part_cond_expr = fold_build2 (NE_EXPR, boolean_type_node,
*38fd1498Szrj					 addr1, addr2);
*38fd1498Szrj      chain_cond_expr (cond_expr, part_cond_expr);
*38fd1498Szrj    }
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Create an expression that is true when all lower-bound conditions for
*38fd1498Szrj   the vectorized loop are met.  Chain this condition with *COND_EXPR.  */
*38fd1498Szrj
*38fd1498Szrjstatic void
*38fd1498Szrjvect_create_cond_for_lower_bounds (loop_vec_info loop_vinfo, tree *cond_expr)
*38fd1498Szrj{
*38fd1498Szrj  vec<vec_lower_bound> lower_bounds = LOOP_VINFO_LOWER_BOUNDS (loop_vinfo);
*38fd1498Szrj  for (unsigned int i = 0; i < lower_bounds.length (); ++i)
*38fd1498Szrj    {
*38fd1498Szrj      tree expr = lower_bounds[i].expr;
*38fd1498Szrj      tree type = unsigned_type_for (TREE_TYPE (expr));
*38fd1498Szrj      expr = fold_convert (type, expr);
*38fd1498Szrj      poly_uint64 bound = lower_bounds[i].min_value;
*38fd1498Szrj      if (!lower_bounds[i].unsigned_p)
*38fd1498Szrj	{
*38fd1498Szrj	  expr = fold_build2 (PLUS_EXPR, type, expr,
*38fd1498Szrj			      build_int_cstu (type, bound - 1));
*38fd1498Szrj	  bound += bound - 1;
*38fd1498Szrj	}
*38fd1498Szrj      tree part_cond_expr = fold_build2 (GE_EXPR, boolean_type_node, expr,
*38fd1498Szrj					 build_int_cstu (type, bound));
*38fd1498Szrj      chain_cond_expr (cond_expr, part_cond_expr);
*38fd1498Szrj    }
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj/* Function vect_create_cond_for_alias_checks.
*38fd1498Szrj
*38fd1498Szrj   Create a conditional expression that represents the run-time checks for
*38fd1498Szrj   overlapping of address ranges represented by a list of data references
*38fd1498Szrj   relations passed as input.
*38fd1498Szrj
*38fd1498Szrj   Input:
*38fd1498Szrj   COND_EXPR  - input conditional expression.  New conditions will be chained
*38fd1498Szrj                with logical AND operation.  If it is NULL, then the function
*38fd1498Szrj                is used to return the number of alias checks.
*38fd1498Szrj   LOOP_VINFO - field LOOP_VINFO_MAY_ALIAS_STMTS contains the list of ddrs
*38fd1498Szrj	        to be checked.
*38fd1498Szrj
*38fd1498Szrj   Output:
*38fd1498Szrj   COND_EXPR - conditional expression.
*38fd1498Szrj
*38fd1498Szrj   The returned COND_EXPR is the conditional expression to be used in the if
*38fd1498Szrj   statement that controls which version of the loop gets executed at runtime.
*38fd1498Szrj*/
*38fd1498Szrj
*38fd1498Szrjvoid
*38fd1498Szrjvect_create_cond_for_alias_checks (loop_vec_info loop_vinfo, tree * cond_expr)
*38fd1498Szrj{
*38fd1498Szrj  vec<dr_with_seg_len_pair_t> comp_alias_ddrs =
*38fd1498Szrj    LOOP_VINFO_COMP_ALIAS_DDRS (loop_vinfo);
*38fd1498Szrj
*38fd1498Szrj  if (comp_alias_ddrs.is_empty ())
*38fd1498Szrj    return;
*38fd1498Szrj
*38fd1498Szrj  create_runtime_alias_checks (LOOP_VINFO_LOOP (loop_vinfo),
*38fd1498Szrj			       &comp_alias_ddrs, cond_expr);
*38fd1498Szrj  if (dump_enabled_p ())
*38fd1498Szrj    dump_printf_loc (MSG_NOTE, vect_location,
*38fd1498Szrj		     "created %u versioning for alias checks.\n",
*38fd1498Szrj		     comp_alias_ddrs.length ());
*38fd1498Szrj}
*38fd1498Szrj
*38fd1498Szrj
*38fd1498Szrj/* Function vect_loop_versioning.
*38fd1498Szrj
*38fd1498Szrj   If the loop has data references that may or may not be aligned or/and
*38fd1498Szrj   has data reference relations whose independence was not proven then
*38fd1498Szrj   two versions of the loop need to be generated, one which is vectorized
*38fd1498Szrj   and one which isn't.  A test is then generated to control which of the
*38fd1498Szrj   loops is executed.  The test checks for the alignment of all of the
*38fd1498Szrj   data references that may or may not be aligned.  An additional
*38fd1498Szrj   sequence of runtime tests is generated for each pairs of DDRs whose
*38fd1498Szrj   independence was not proven.  The vectorized version of loop is
*38fd1498Szrj   executed only if both alias and alignment tests are passed.
*38fd1498Szrj
*38fd1498Szrj   The test generated to check which version of loop is executed
*38fd1498Szrj   is modified to also check for profitability as indicated by the
*38fd1498Szrj   cost model threshold TH.
*38fd1498Szrj
*38fd1498Szrj   The versioning precondition(s) are placed in *COND_EXPR and
*38fd1498Szrj   *COND_EXPR_STMT_LIST.  */
*38fd1498Szrj
*38fd1498Szrjvoid
*38fd1498Szrjvect_loop_versioning (loop_vec_info loop_vinfo,
*38fd1498Szrj		      unsigned int th, bool check_profitability,
*38fd1498Szrj		      poly_uint64 versioning_threshold)
*38fd1498Szrj{
*38fd1498Szrj  struct loop *loop = LOOP_VINFO_LOOP (loop_vinfo), *nloop;
*38fd1498Szrj  struct loop *scalar_loop = LOOP_VINFO_SCALAR_LOOP (loop_vinfo);
*38fd1498Szrj  basic_block condition_bb;
*38fd1498Szrj  gphi_iterator gsi;
*38fd1498Szrj  gimple_stmt_iterator cond_exp_gsi;
*38fd1498Szrj  basic_block merge_bb;
*38fd1498Szrj  basic_block new_exit_bb;
*38fd1498Szrj  edge new_exit_e, e;
*38fd1498Szrj  gphi *orig_phi, *new_phi;
*38fd1498Szrj  tree cond_expr = NULL_TREE;
*38fd1498Szrj  gimple_seq cond_expr_stmt_list = NULL;
*38fd1498Szrj  tree arg;
*38fd1498Szrj  profile_probability prob = profile_probability::likely ();
*38fd1498Szrj  gimple_seq gimplify_stmt_list = NULL;
*38fd1498Szrj  tree scalar_loop_iters = LOOP_VINFO_NITERSM1 (loop_vinfo);
*38fd1498Szrj  bool version_align = LOOP_REQUIRES_VERSIONING_FOR_ALIGNMENT (loop_vinfo);
*38fd1498Szrj  bool version_alias = LOOP_REQUIRES_VERSIONING_FOR_ALIAS (loop_vinfo);
*38fd1498Szrj  bool version_niter = LOOP_REQUIRES_VERSIONING_FOR_NITERS (loop_vinfo);
*38fd1498Szrj
*38fd1498Szrj  if (check_profitability)
*38fd1498Szrj    cond_expr = fold_build2 (GE_EXPR, boolean_type_node, scalar_loop_iters,
*38fd1498Szrj			     build_int_cst (TREE_TYPE (scalar_loop_iters),
*38fd1498Szrj					    th - 1));
*38fd1498Szrj  if (maybe_ne (versioning_threshold, 0U))
*38fd1498Szrj    {
*38fd1498Szrj      tree expr = fold_build2 (GE_EXPR, boolean_type_node, scalar_loop_iters,
*38fd1498Szrj			       build_int_cst (TREE_TYPE (scalar_loop_iters),
*38fd1498Szrj					      versioning_threshold - 1));
*38fd1498Szrj      if (cond_expr)
*38fd1498Szrj	cond_expr = fold_build2 (BIT_AND_EXPR, boolean_type_node,
*38fd1498Szrj				 expr, cond_expr);
*38fd1498Szrj      else
*38fd1498Szrj	cond_expr = expr;
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  if (version_niter)
*38fd1498Szrj    vect_create_cond_for_niters_checks (loop_vinfo, &cond_expr);
*38fd1498Szrj
*38fd1498Szrj  if (cond_expr)
*38fd1498Szrj    cond_expr = force_gimple_operand_1 (cond_expr, &cond_expr_stmt_list,
*38fd1498Szrj					is_gimple_condexpr, NULL_TREE);
*38fd1498Szrj
*38fd1498Szrj  if (version_align)
*38fd1498Szrj    vect_create_cond_for_align_checks (loop_vinfo, &cond_expr,
*38fd1498Szrj				       &cond_expr_stmt_list);
*38fd1498Szrj
*38fd1498Szrj  if (version_alias)
*38fd1498Szrj    {
*38fd1498Szrj      vect_create_cond_for_unequal_addrs (loop_vinfo, &cond_expr);
*38fd1498Szrj      vect_create_cond_for_lower_bounds (loop_vinfo, &cond_expr);
*38fd1498Szrj      vect_create_cond_for_alias_checks (loop_vinfo, &cond_expr);
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  cond_expr = force_gimple_operand_1 (unshare_expr (cond_expr),
*38fd1498Szrj				      &gimplify_stmt_list,
*38fd1498Szrj				      is_gimple_condexpr, NULL_TREE);
*38fd1498Szrj  gimple_seq_add_seq (&cond_expr_stmt_list, gimplify_stmt_list);
*38fd1498Szrj
*38fd1498Szrj  initialize_original_copy_tables ();
*38fd1498Szrj  if (scalar_loop)
*38fd1498Szrj    {
*38fd1498Szrj      edge scalar_e;
*38fd1498Szrj      basic_block preheader, scalar_preheader;
*38fd1498Szrj
*38fd1498Szrj      /* We don't want to scale SCALAR_LOOP's frequencies, we need to
*38fd1498Szrj	 scale LOOP's frequencies instead.  */
*38fd1498Szrj      nloop = loop_version (scalar_loop, cond_expr, &condition_bb,
*38fd1498Szrj			    prob, prob.invert (), prob, prob.invert (), true);
*38fd1498Szrj      scale_loop_frequencies (loop, prob);
*38fd1498Szrj      /* CONDITION_BB was created above SCALAR_LOOP's preheader,
*38fd1498Szrj	 while we need to move it above LOOP's preheader.  */
*38fd1498Szrj      e = loop_preheader_edge (loop);
*38fd1498Szrj      scalar_e = loop_preheader_edge (scalar_loop);
*38fd1498Szrj      gcc_assert (empty_block_p (e->src)
*38fd1498Szrj		  && single_pred_p (e->src));
*38fd1498Szrj      gcc_assert (empty_block_p (scalar_e->src)
*38fd1498Szrj		  && single_pred_p (scalar_e->src));
*38fd1498Szrj      gcc_assert (single_pred_p (condition_bb));
*38fd1498Szrj      preheader = e->src;
*38fd1498Szrj      scalar_preheader = scalar_e->src;
*38fd1498Szrj      scalar_e = find_edge (condition_bb, scalar_preheader);
*38fd1498Szrj      e = single_pred_edge (preheader);
*38fd1498Szrj      redirect_edge_and_branch_force (single_pred_edge (condition_bb),
*38fd1498Szrj				      scalar_preheader);
*38fd1498Szrj      redirect_edge_and_branch_force (scalar_e, preheader);
*38fd1498Szrj      redirect_edge_and_branch_force (e, condition_bb);
*38fd1498Szrj      set_immediate_dominator (CDI_DOMINATORS, condition_bb,
*38fd1498Szrj			       single_pred (condition_bb));
*38fd1498Szrj      set_immediate_dominator (CDI_DOMINATORS, scalar_preheader,
*38fd1498Szrj			       single_pred (scalar_preheader));
*38fd1498Szrj      set_immediate_dominator (CDI_DOMINATORS, preheader,
*38fd1498Szrj			       condition_bb);
*38fd1498Szrj    }
*38fd1498Szrj  else
*38fd1498Szrj    nloop = loop_version (loop, cond_expr, &condition_bb,
*38fd1498Szrj			  prob, prob.invert (), prob, prob.invert (), true);
*38fd1498Szrj
*38fd1498Szrj  if (version_niter)
*38fd1498Szrj    {
*38fd1498Szrj      /* The versioned loop could be infinite, we need to clear existing
*38fd1498Szrj	 niter information which is copied from the original loop.  */
*38fd1498Szrj      gcc_assert (loop_constraint_set_p (loop, LOOP_C_FINITE));
*38fd1498Szrj      vect_free_loop_info_assumptions (nloop);
*38fd1498Szrj      /* And set constraint LOOP_C_INFINITE for niter analyzer.  */
*38fd1498Szrj      loop_constraint_set (loop, LOOP_C_INFINITE);
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  if (LOCATION_LOCUS (vect_location) != UNKNOWN_LOCATION
*38fd1498Szrj      && dump_enabled_p ())
*38fd1498Szrj    {
*38fd1498Szrj      if (version_alias)
*38fd1498Szrj        dump_printf_loc (MSG_OPTIMIZED_LOCATIONS, vect_location,
*38fd1498Szrj                         "loop versioned for vectorization because of "
*38fd1498Szrj			 "possible aliasing\n");
*38fd1498Szrj      if (version_align)
*38fd1498Szrj        dump_printf_loc (MSG_OPTIMIZED_LOCATIONS, vect_location,
*38fd1498Szrj                         "loop versioned for vectorization to enhance "
*38fd1498Szrj			 "alignment\n");
*38fd1498Szrj
*38fd1498Szrj    }
*38fd1498Szrj  free_original_copy_tables ();
*38fd1498Szrj
*38fd1498Szrj  /* Loop versioning violates an assumption we try to maintain during
*38fd1498Szrj     vectorization - that the loop exit block has a single predecessor.
*38fd1498Szrj     After versioning, the exit block of both loop versions is the same
*38fd1498Szrj     basic block (i.e. it has two predecessors). Just in order to simplify
*38fd1498Szrj     following transformations in the vectorizer, we fix this situation
*38fd1498Szrj     here by adding a new (empty) block on the exit-edge of the loop,
*38fd1498Szrj     with the proper loop-exit phis to maintain loop-closed-form.
*38fd1498Szrj     If loop versioning wasn't done from loop, but scalar_loop instead,
*38fd1498Szrj     merge_bb will have already just a single successor.  */
*38fd1498Szrj
*38fd1498Szrj  merge_bb = single_exit (loop)->dest;
*38fd1498Szrj  if (scalar_loop == NULL || EDGE_COUNT (merge_bb->preds) >= 2)
*38fd1498Szrj    {
*38fd1498Szrj      gcc_assert (EDGE_COUNT (merge_bb->preds) >= 2);
*38fd1498Szrj      new_exit_bb = split_edge (single_exit (loop));
*38fd1498Szrj      new_exit_e = single_exit (loop);
*38fd1498Szrj      e = EDGE_SUCC (new_exit_bb, 0);
*38fd1498Szrj
*38fd1498Szrj      for (gsi = gsi_start_phis (merge_bb); !gsi_end_p (gsi); gsi_next (&gsi))
*38fd1498Szrj	{
*38fd1498Szrj	  tree new_res;
*38fd1498Szrj	  orig_phi = gsi.phi ();
*38fd1498Szrj	  new_res = copy_ssa_name (PHI_RESULT (orig_phi));
*38fd1498Szrj	  new_phi = create_phi_node (new_res, new_exit_bb);
*38fd1498Szrj	  arg = PHI_ARG_DEF_FROM_EDGE (orig_phi, e);
*38fd1498Szrj	  add_phi_arg (new_phi, arg, new_exit_e,
*38fd1498Szrj		       gimple_phi_arg_location_from_edge (orig_phi, e));
*38fd1498Szrj	  adjust_phi_and_debug_stmts (orig_phi, e, PHI_RESULT (new_phi));
*38fd1498Szrj	}
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  /* End loop-exit-fixes after versioning.  */
*38fd1498Szrj
*38fd1498Szrj  if (cond_expr_stmt_list)
*38fd1498Szrj    {
*38fd1498Szrj      cond_exp_gsi = gsi_last_bb (condition_bb);
*38fd1498Szrj      gsi_insert_seq_before (&cond_exp_gsi, cond_expr_stmt_list,
*38fd1498Szrj			     GSI_SAME_STMT);
*38fd1498Szrj    }
*38fd1498Szrj  update_ssa (TODO_update_ssa);
*38fd1498Szrj}