gcc-8.0/gcc/tree-vect-data-refs.c

38fd1498Szrj/* Data References Analysis and Manipulation Utilities for Vectorization.
38fd1498Szrj   Copyright (C) 2003-2018 Free Software Foundation, Inc.
38fd1498Szrj   Contributed by Dorit Naishlos <dorit@il.ibm.com>
38fd1498Szrj   and Ira Rosen <irar@il.ibm.com>
38fd1498Szrj
38fd1498SzrjThis file is part of GCC.
38fd1498Szrj
38fd1498SzrjGCC is free software; you can redistribute it and/or modify it under
38fd1498Szrjthe terms of the GNU General Public License as published by the Free
38fd1498SzrjSoftware Foundation; either version 3, or (at your option) any later
38fd1498Szrjversion.
38fd1498Szrj
38fd1498SzrjGCC is distributed in the hope that it will be useful, but WITHOUT ANY
38fd1498SzrjWARRANTY; without even the implied warranty of MERCHANTABILITY or
38fd1498SzrjFITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
38fd1498Szrjfor more details.
38fd1498Szrj
38fd1498SzrjYou should have received a copy of the GNU General Public License
38fd1498Szrjalong with GCC; see the file COPYING3.  If not see
38fd1498Szrj<http://www.gnu.org/licenses/>.  */
38fd1498Szrj
38fd1498Szrj#include "config.h"
38fd1498Szrj#include "system.h"
38fd1498Szrj#include "coretypes.h"
38fd1498Szrj#include "backend.h"
38fd1498Szrj#include "target.h"
38fd1498Szrj#include "rtl.h"
38fd1498Szrj#include "tree.h"
38fd1498Szrj#include "gimple.h"
38fd1498Szrj#include "predict.h"
38fd1498Szrj#include "memmodel.h"
38fd1498Szrj#include "tm_p.h"
38fd1498Szrj#include "ssa.h"
38fd1498Szrj#include "optabs-tree.h"
38fd1498Szrj#include "cgraph.h"
38fd1498Szrj#include "dumpfile.h"
38fd1498Szrj#include "alias.h"
38fd1498Szrj#include "fold-const.h"
38fd1498Szrj#include "stor-layout.h"
38fd1498Szrj#include "tree-eh.h"
38fd1498Szrj#include "gimplify.h"
38fd1498Szrj#include "gimple-iterator.h"
38fd1498Szrj#include "gimplify-me.h"
38fd1498Szrj#include "tree-ssa-loop-ivopts.h"
38fd1498Szrj#include "tree-ssa-loop-manip.h"
38fd1498Szrj#include "tree-ssa-loop.h"
38fd1498Szrj#include "cfgloop.h"
38fd1498Szrj#include "tree-scalar-evolution.h"
38fd1498Szrj#include "tree-vectorizer.h"
38fd1498Szrj#include "expr.h"
38fd1498Szrj#include "builtins.h"
38fd1498Szrj#include "params.h"
38fd1498Szrj#include "tree-cfg.h"
38fd1498Szrj#include "tree-hash-traits.h"
38fd1498Szrj#include "vec-perm-indices.h"
38fd1498Szrj#include "internal-fn.h"
38fd1498Szrj
38fd1498Szrj/* Return true if load- or store-lanes optab OPTAB is implemented for
38fd1498Szrj   COUNT vectors of type VECTYPE.  NAME is the name of OPTAB.  */
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjvect_lanes_optab_supported_p (const char *name, convert_optab optab,
38fd1498Szrj			      tree vectype, unsigned HOST_WIDE_INT count)
38fd1498Szrj{
38fd1498Szrj  machine_mode mode, array_mode;
38fd1498Szrj  bool limit_p;
38fd1498Szrj
38fd1498Szrj  mode = TYPE_MODE (vectype);
38fd1498Szrj  if (!targetm.array_mode (mode, count).exists (&array_mode))
38fd1498Szrj    {
38fd1498Szrj      poly_uint64 bits = count * GET_MODE_BITSIZE (mode);
38fd1498Szrj      limit_p = !targetm.array_mode_supported_p (mode, count);
38fd1498Szrj      if (!int_mode_for_size (bits, limit_p).exists (&array_mode))
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			     "no array mode for %s["
38fd1498Szrj			     HOST_WIDE_INT_PRINT_DEC "]\n",
38fd1498Szrj			     GET_MODE_NAME (mode), count);
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (convert_optab_handler (optab, array_mode, mode) == CODE_FOR_nothing)
38fd1498Szrj    {
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj	dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj                         "cannot use %s<%s><%s>\n", name,
38fd1498Szrj                         GET_MODE_NAME (array_mode), GET_MODE_NAME (mode));
38fd1498Szrj      return false;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                     "can use %s<%s><%s>\n", name, GET_MODE_NAME (array_mode),
38fd1498Szrj                     GET_MODE_NAME (mode));
38fd1498Szrj
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Return the smallest scalar part of STMT.
38fd1498Szrj   This is used to determine the vectype of the stmt.  We generally set the
38fd1498Szrj   vectype according to the type of the result (lhs).  For stmts whose
38fd1498Szrj   result-type is different than the type of the arguments (e.g., demotion,
38fd1498Szrj   promotion), vectype will be reset appropriately (later).  Note that we have
38fd1498Szrj   to visit the smallest datatype in this function, because that determines the
38fd1498Szrj   VF.  If the smallest datatype in the loop is present only as the rhs of a
38fd1498Szrj   promotion operation - we'd miss it.
38fd1498Szrj   Such a case, where a variable of this datatype does not appear in the lhs
38fd1498Szrj   anywhere in the loop, can only occur if it's an invariant: e.g.:
38fd1498Szrj   'int_x = (int) short_inv', which we'd expect to have been optimized away by
38fd1498Szrj   invariant motion.  However, we cannot rely on invariant motion to always
38fd1498Szrj   take invariants out of the loop, and so in the case of promotion we also
38fd1498Szrj   have to check the rhs.
38fd1498Szrj   LHS_SIZE_UNIT and RHS_SIZE_UNIT contain the sizes of the corresponding
38fd1498Szrj   types.  */
38fd1498Szrj
38fd1498Szrjtree
38fd1498Szrjvect_get_smallest_scalar_type (gimple *stmt, HOST_WIDE_INT *lhs_size_unit,
38fd1498Szrj                               HOST_WIDE_INT *rhs_size_unit)
38fd1498Szrj{
38fd1498Szrj  tree scalar_type = gimple_expr_type (stmt);
38fd1498Szrj  HOST_WIDE_INT lhs, rhs;
38fd1498Szrj
38fd1498Szrj  /* During the analysis phase, this function is called on arbitrary
38fd1498Szrj     statements that might not have scalar results.  */
38fd1498Szrj  if (!tree_fits_uhwi_p (TYPE_SIZE_UNIT (scalar_type)))
38fd1498Szrj    return scalar_type;
38fd1498Szrj
38fd1498Szrj  lhs = rhs = TREE_INT_CST_LOW (TYPE_SIZE_UNIT (scalar_type));
38fd1498Szrj
38fd1498Szrj  if (is_gimple_assign (stmt)
38fd1498Szrj      && (gimple_assign_cast_p (stmt)
38fd1498Szrj          || gimple_assign_rhs_code (stmt) == DOT_PROD_EXPR
38fd1498Szrj          || gimple_assign_rhs_code (stmt) == WIDEN_SUM_EXPR
38fd1498Szrj          || gimple_assign_rhs_code (stmt) == WIDEN_MULT_EXPR
38fd1498Szrj          || gimple_assign_rhs_code (stmt) == WIDEN_LSHIFT_EXPR
38fd1498Szrj          || gimple_assign_rhs_code (stmt) == FLOAT_EXPR))
38fd1498Szrj    {
38fd1498Szrj      tree rhs_type = TREE_TYPE (gimple_assign_rhs1 (stmt));
38fd1498Szrj
38fd1498Szrj      rhs = TREE_INT_CST_LOW (TYPE_SIZE_UNIT (rhs_type));
38fd1498Szrj      if (rhs < lhs)
38fd1498Szrj        scalar_type = rhs_type;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  *lhs_size_unit = lhs;
38fd1498Szrj  *rhs_size_unit = rhs;
38fd1498Szrj  return scalar_type;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Insert DDR into LOOP_VINFO list of ddrs that may alias and need to be
38fd1498Szrj   tested at run-time.  Return TRUE if DDR was successfully inserted.
38fd1498Szrj   Return false if versioning is not supported.  */
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjvect_mark_for_runtime_alias_test (ddr_p ddr, loop_vec_info loop_vinfo)
38fd1498Szrj{
38fd1498Szrj  struct loop *loop = LOOP_VINFO_LOOP (loop_vinfo);
38fd1498Szrj
38fd1498Szrj  if ((unsigned) PARAM_VALUE (PARAM_VECT_MAX_VERSION_FOR_ALIAS_CHECKS) == 0)
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  if (!runtime_alias_check_p (ddr, loop,
38fd1498Szrj			      optimize_loop_nest_for_speed_p (loop)))
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  LOOP_VINFO_MAY_ALIAS_DDRS (loop_vinfo).safe_push (ddr);
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Record that loop LOOP_VINFO needs to check that VALUE is nonzero.  */
38fd1498Szrj
38fd1498Szrjstatic void
38fd1498Szrjvect_check_nonzero_value (loop_vec_info loop_vinfo, tree value)
38fd1498Szrj{
38fd1498Szrj  vec<tree> checks = LOOP_VINFO_CHECK_NONZERO (loop_vinfo);
38fd1498Szrj  for (unsigned int i = 0; i < checks.length(); ++i)
38fd1498Szrj    if (checks[i] == value)
38fd1498Szrj      return;
38fd1498Szrj
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    {
38fd1498Szrj      dump_printf_loc (MSG_NOTE, vect_location, "need run-time check that ");
38fd1498Szrj      dump_generic_expr (MSG_NOTE, TDF_SLIM, value);
38fd1498Szrj      dump_printf (MSG_NOTE, " is nonzero\n");
38fd1498Szrj    }
38fd1498Szrj  LOOP_VINFO_CHECK_NONZERO (loop_vinfo).safe_push (value);
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Return true if we know that the order of vectorized STMT_A and
38fd1498Szrj   vectorized STMT_B will be the same as the order of STMT_A and STMT_B.
38fd1498Szrj   At least one of the statements is a write.  */
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjvect_preserves_scalar_order_p (gimple *stmt_a, gimple *stmt_b)
38fd1498Szrj{
38fd1498Szrj  stmt_vec_info stmtinfo_a = vinfo_for_stmt (stmt_a);
38fd1498Szrj  stmt_vec_info stmtinfo_b = vinfo_for_stmt (stmt_b);
38fd1498Szrj
38fd1498Szrj  /* Single statements are always kept in their original order.  */
38fd1498Szrj  if (!STMT_VINFO_GROUPED_ACCESS (stmtinfo_a)
38fd1498Szrj      && !STMT_VINFO_GROUPED_ACCESS (stmtinfo_b))
38fd1498Szrj    return true;
38fd1498Szrj
38fd1498Szrj  /* STMT_A and STMT_B belong to overlapping groups.  All loads in a
*e215fc28Szrj     SLP group are emitted at the position of the last scalar load and
*e215fc28Szrj     all loads in an interleaving group are emitted at the position
*e215fc28Szrj     of the first scalar load.
*e215fc28Szrj     Stores in a group are emitted at the position of the last scalar store.
58e805e6Szrj     Compute that position and check whether the resulting order matches
*e215fc28Szrj     the current one.
*e215fc28Szrj     We have not yet decided between SLP and interleaving so we have
*e215fc28Szrj     to conservatively assume both.  */
*e215fc28Szrj  gimple *il_a;
*e215fc28Szrj  gimple *last_a = il_a = GROUP_FIRST_ELEMENT (stmtinfo_a);
58e805e6Szrj  if (last_a)
*e215fc28Szrj    {
58e805e6Szrj      for (gimple *s = GROUP_NEXT_ELEMENT (vinfo_for_stmt (last_a)); s;
58e805e6Szrj	   s = GROUP_NEXT_ELEMENT (vinfo_for_stmt (s)))
58e805e6Szrj	last_a = get_later_stmt (last_a, s);
*e215fc28Szrj      if (!DR_IS_WRITE (STMT_VINFO_DATA_REF (stmtinfo_a)))
*e215fc28Szrj	{
*e215fc28Szrj	  for (gimple *s = GROUP_NEXT_ELEMENT (vinfo_for_stmt (il_a)); s;
*e215fc28Szrj	       s = GROUP_NEXT_ELEMENT (vinfo_for_stmt (s)))
*e215fc28Szrj	    if (get_later_stmt (il_a, s) == il_a)
*e215fc28Szrj	      il_a = s;
*e215fc28Szrj	}
58e805e6Szrj      else
*e215fc28Szrj	il_a = last_a;
*e215fc28Szrj    }
*e215fc28Szrj  else
*e215fc28Szrj    last_a = il_a = stmt_a;
*e215fc28Szrj  gimple *il_b;
*e215fc28Szrj  gimple *last_b = il_b = GROUP_FIRST_ELEMENT (stmtinfo_b);
58e805e6Szrj  if (last_b)
*e215fc28Szrj    {
58e805e6Szrj      for (gimple *s = GROUP_NEXT_ELEMENT (vinfo_for_stmt (last_b)); s;
58e805e6Szrj	   s = GROUP_NEXT_ELEMENT (vinfo_for_stmt (s)))
58e805e6Szrj	last_b = get_later_stmt (last_b, s);
*e215fc28Szrj      if (!DR_IS_WRITE (STMT_VINFO_DATA_REF (stmtinfo_b)))
*e215fc28Szrj	{
*e215fc28Szrj	  for (gimple *s = GROUP_NEXT_ELEMENT (vinfo_for_stmt (il_b)); s;
*e215fc28Szrj	       s = GROUP_NEXT_ELEMENT (vinfo_for_stmt (s)))
*e215fc28Szrj	    if (get_later_stmt (il_b, s) == il_b)
*e215fc28Szrj	      il_b = s;
*e215fc28Szrj	}
58e805e6Szrj      else
*e215fc28Szrj	il_b = last_b;
*e215fc28Szrj    }
*e215fc28Szrj  else
*e215fc28Szrj    last_b = il_b = stmt_b;
*e215fc28Szrj  bool a_after_b = (get_later_stmt (stmt_a, stmt_b) == stmt_a);
*e215fc28Szrj  return (/* SLP */
*e215fc28Szrj	  (get_later_stmt (last_a, last_b) == last_a) == a_after_b
*e215fc28Szrj	  /* Interleaving */
*e215fc28Szrj	  && (get_later_stmt (il_a, il_b) == il_a) == a_after_b
*e215fc28Szrj	  /* Mixed */
*e215fc28Szrj	  && (get_later_stmt (il_a, last_b) == il_a) == a_after_b
*e215fc28Szrj	  && (get_later_stmt (last_a, il_b) == last_a) == a_after_b);
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* A subroutine of vect_analyze_data_ref_dependence.  Handle
38fd1498Szrj   DDR_COULD_BE_INDEPENDENT_P ddr DDR that has a known set of dependence
38fd1498Szrj   distances.  These distances are conservatively correct but they don't
38fd1498Szrj   reflect a guaranteed dependence.
38fd1498Szrj
38fd1498Szrj   Return true if this function does all the work necessary to avoid
38fd1498Szrj   an alias or false if the caller should use the dependence distances
38fd1498Szrj   to limit the vectorization factor in the usual way.  LOOP_DEPTH is
38fd1498Szrj   the depth of the loop described by LOOP_VINFO and the other arguments
38fd1498Szrj   are as for vect_analyze_data_ref_dependence.  */
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjvect_analyze_possibly_independent_ddr (data_dependence_relation *ddr,
38fd1498Szrj				       loop_vec_info loop_vinfo,
38fd1498Szrj				       int loop_depth, unsigned int *max_vf)
38fd1498Szrj{
38fd1498Szrj  struct loop *loop = LOOP_VINFO_LOOP (loop_vinfo);
38fd1498Szrj  lambda_vector dist_v;
38fd1498Szrj  unsigned int i;
38fd1498Szrj  FOR_EACH_VEC_ELT (DDR_DIST_VECTS (ddr), i, dist_v)
38fd1498Szrj    {
38fd1498Szrj      int dist = dist_v[loop_depth];
38fd1498Szrj      if (dist != 0 && !(dist > 0 && DDR_REVERSED_P (ddr)))
38fd1498Szrj	{
38fd1498Szrj	  /* If the user asserted safelen >= DIST consecutive iterations
38fd1498Szrj	     can be executed concurrently, assume independence.
38fd1498Szrj
38fd1498Szrj	     ??? An alternative would be to add the alias check even
38fd1498Szrj	     in this case, and vectorize the fallback loop with the
38fd1498Szrj	     maximum VF set to safelen.  However, if the user has
38fd1498Szrj	     explicitly given a length, it's less likely that that
38fd1498Szrj	     would be a win.  */
38fd1498Szrj	  if (loop->safelen >= 2 && abs_hwi (dist) <= loop->safelen)
38fd1498Szrj	    {
38fd1498Szrj	      if ((unsigned int) loop->safelen < *max_vf)
38fd1498Szrj		*max_vf = loop->safelen;
38fd1498Szrj	      LOOP_VINFO_NO_DATA_DEPENDENCIES (loop_vinfo) = false;
38fd1498Szrj	      continue;
38fd1498Szrj	    }
38fd1498Szrj
38fd1498Szrj	  /* For dependence distances of 2 or more, we have the option
38fd1498Szrj	     of limiting VF or checking for an alias at runtime.
38fd1498Szrj	     Prefer to check at runtime if we can, to avoid limiting
38fd1498Szrj	     the VF unnecessarily when the bases are in fact independent.
38fd1498Szrj
38fd1498Szrj	     Note that the alias checks will be removed if the VF ends up
38fd1498Szrj	     being small enough.  */
38fd1498Szrj	  return vect_mark_for_runtime_alias_test (ddr, loop_vinfo);
38fd1498Szrj	}
38fd1498Szrj    }
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Function vect_analyze_data_ref_dependence.
38fd1498Szrj
38fd1498Szrj   Return TRUE if there (might) exist a dependence between a memory-reference
38fd1498Szrj   DRA and a memory-reference DRB.  When versioning for alias may check a
38fd1498Szrj   dependence at run-time, return FALSE.  Adjust *MAX_VF according to
38fd1498Szrj   the data dependence.  */
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjvect_analyze_data_ref_dependence (struct data_dependence_relation *ddr,
38fd1498Szrj				  loop_vec_info loop_vinfo,
38fd1498Szrj				  unsigned int *max_vf)
38fd1498Szrj{
38fd1498Szrj  unsigned int i;
38fd1498Szrj  struct loop *loop = LOOP_VINFO_LOOP (loop_vinfo);
38fd1498Szrj  struct data_reference *dra = DDR_A (ddr);
38fd1498Szrj  struct data_reference *drb = DDR_B (ddr);
38fd1498Szrj  stmt_vec_info stmtinfo_a = vinfo_for_stmt (DR_STMT (dra));
38fd1498Szrj  stmt_vec_info stmtinfo_b = vinfo_for_stmt (DR_STMT (drb));
38fd1498Szrj  lambda_vector dist_v;
38fd1498Szrj  unsigned int loop_depth;
38fd1498Szrj
38fd1498Szrj  /* In loop analysis all data references should be vectorizable.  */
38fd1498Szrj  if (!STMT_VINFO_VECTORIZABLE (stmtinfo_a)
38fd1498Szrj      || !STMT_VINFO_VECTORIZABLE (stmtinfo_b))
38fd1498Szrj    gcc_unreachable ();
38fd1498Szrj
38fd1498Szrj  /* Independent data accesses.  */
38fd1498Szrj  if (DDR_ARE_DEPENDENT (ddr) == chrec_known)
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  if (dra == drb
38fd1498Szrj      || (DR_IS_READ (dra) && DR_IS_READ (drb)))
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  /* We do not have to consider dependences between accesses that belong
38fd1498Szrj     to the same group, unless the stride could be smaller than the
38fd1498Szrj     group size.  */
38fd1498Szrj  if (GROUP_FIRST_ELEMENT (stmtinfo_a)
38fd1498Szrj      && GROUP_FIRST_ELEMENT (stmtinfo_a) == GROUP_FIRST_ELEMENT (stmtinfo_b)
38fd1498Szrj      && !STMT_VINFO_STRIDED_P (stmtinfo_a))
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  /* Even if we have an anti-dependence then, as the vectorized loop covers at
38fd1498Szrj     least two scalar iterations, there is always also a true dependence.
38fd1498Szrj     As the vectorizer does not re-order loads and stores we can ignore
38fd1498Szrj     the anti-dependence if TBAA can disambiguate both DRs similar to the
38fd1498Szrj     case with known negative distance anti-dependences (positive
38fd1498Szrj     distance anti-dependences would violate TBAA constraints).  */
38fd1498Szrj  if (((DR_IS_READ (dra) && DR_IS_WRITE (drb))
38fd1498Szrj       || (DR_IS_WRITE (dra) && DR_IS_READ (drb)))
38fd1498Szrj      && !alias_sets_conflict_p (get_alias_set (DR_REF (dra)),
38fd1498Szrj				 get_alias_set (DR_REF (drb))))
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  /* Unknown data dependence.  */
38fd1498Szrj  if (DDR_ARE_DEPENDENT (ddr) == chrec_dont_know)
38fd1498Szrj    {
38fd1498Szrj      /* If user asserted safelen consecutive iterations can be
38fd1498Szrj	 executed concurrently, assume independence.  */
38fd1498Szrj      if (loop->safelen >= 2)
38fd1498Szrj	{
38fd1498Szrj	  if ((unsigned int) loop->safelen < *max_vf)
38fd1498Szrj	    *max_vf = loop->safelen;
38fd1498Szrj	  LOOP_VINFO_NO_DATA_DEPENDENCIES (loop_vinfo) = false;
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      if (STMT_VINFO_GATHER_SCATTER_P (stmtinfo_a)
38fd1498Szrj	  || STMT_VINFO_GATHER_SCATTER_P (stmtinfo_b))
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    {
38fd1498Szrj	      dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			       "versioning for alias not supported for: "
38fd1498Szrj			       "can't determine dependence between ");
38fd1498Szrj	      dump_generic_expr (MSG_MISSED_OPTIMIZATION, TDF_SLIM,
38fd1498Szrj				 DR_REF (dra));
38fd1498Szrj	      dump_printf (MSG_MISSED_OPTIMIZATION, " and ");
38fd1498Szrj	      dump_generic_expr (MSG_MISSED_OPTIMIZATION, TDF_SLIM,
38fd1498Szrj				 DR_REF (drb));
38fd1498Szrj	      dump_printf (MSG_MISSED_OPTIMIZATION, "\n");
38fd1498Szrj	    }
38fd1498Szrj	  return true;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj	{
38fd1498Szrj	  dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			   "versioning for alias required: "
38fd1498Szrj			   "can't determine dependence between ");
38fd1498Szrj	  dump_generic_expr (MSG_MISSED_OPTIMIZATION, TDF_SLIM,
38fd1498Szrj			     DR_REF (dra));
38fd1498Szrj	  dump_printf (MSG_MISSED_OPTIMIZATION, " and ");
38fd1498Szrj	  dump_generic_expr (MSG_MISSED_OPTIMIZATION, TDF_SLIM,
38fd1498Szrj			     DR_REF (drb));
38fd1498Szrj	  dump_printf (MSG_MISSED_OPTIMIZATION, "\n");
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      /* Add to list of ddrs that need to be tested at run-time.  */
38fd1498Szrj      return !vect_mark_for_runtime_alias_test (ddr, loop_vinfo);
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* Known data dependence.  */
38fd1498Szrj  if (DDR_NUM_DIST_VECTS (ddr) == 0)
38fd1498Szrj    {
38fd1498Szrj      /* If user asserted safelen consecutive iterations can be
38fd1498Szrj	 executed concurrently, assume independence.  */
38fd1498Szrj      if (loop->safelen >= 2)
38fd1498Szrj	{
38fd1498Szrj	  if ((unsigned int) loop->safelen < *max_vf)
38fd1498Szrj	    *max_vf = loop->safelen;
38fd1498Szrj	  LOOP_VINFO_NO_DATA_DEPENDENCIES (loop_vinfo) = false;
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      if (STMT_VINFO_GATHER_SCATTER_P (stmtinfo_a)
38fd1498Szrj	  || STMT_VINFO_GATHER_SCATTER_P (stmtinfo_b))
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    {
38fd1498Szrj	      dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			       "versioning for alias not supported for: "
38fd1498Szrj			       "bad dist vector for ");
38fd1498Szrj	      dump_generic_expr (MSG_MISSED_OPTIMIZATION, TDF_SLIM,
38fd1498Szrj				 DR_REF (dra));
38fd1498Szrj	      dump_printf (MSG_MISSED_OPTIMIZATION, " and ");
38fd1498Szrj	      dump_generic_expr (MSG_MISSED_OPTIMIZATION, TDF_SLIM,
38fd1498Szrj				 DR_REF (drb));
38fd1498Szrj	      dump_printf (MSG_MISSED_OPTIMIZATION, "\n");
38fd1498Szrj	    }
38fd1498Szrj	  return true;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj        {
38fd1498Szrj          dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj                           "versioning for alias required: "
38fd1498Szrj                           "bad dist vector for ");
38fd1498Szrj          dump_generic_expr (MSG_MISSED_OPTIMIZATION, TDF_SLIM, DR_REF (dra));
38fd1498Szrj          dump_printf (MSG_MISSED_OPTIMIZATION,  " and ");
38fd1498Szrj          dump_generic_expr (MSG_MISSED_OPTIMIZATION, TDF_SLIM, DR_REF (drb));
38fd1498Szrj          dump_printf (MSG_MISSED_OPTIMIZATION, "\n");
38fd1498Szrj        }
38fd1498Szrj      /* Add to list of ddrs that need to be tested at run-time.  */
38fd1498Szrj      return !vect_mark_for_runtime_alias_test (ddr, loop_vinfo);
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  loop_depth = index_in_loop_nest (loop->num, DDR_LOOP_NEST (ddr));
38fd1498Szrj
38fd1498Szrj  if (DDR_COULD_BE_INDEPENDENT_P (ddr)
38fd1498Szrj      && vect_analyze_possibly_independent_ddr (ddr, loop_vinfo,
38fd1498Szrj						loop_depth, max_vf))
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  FOR_EACH_VEC_ELT (DDR_DIST_VECTS (ddr), i, dist_v)
38fd1498Szrj    {
38fd1498Szrj      int dist = dist_v[loop_depth];
38fd1498Szrj
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj	dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                         "dependence distance  = %d.\n", dist);
38fd1498Szrj
38fd1498Szrj      if (dist == 0)
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    {
38fd1498Szrj	      dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj	                       "dependence distance == 0 between ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (dra));
38fd1498Szrj	      dump_printf (MSG_NOTE, " and ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (drb));
38fd1498Szrj	      dump_printf (MSG_MISSED_OPTIMIZATION, "\n");
38fd1498Szrj	    }
38fd1498Szrj
38fd1498Szrj	  /* When we perform grouped accesses and perform implicit CSE
38fd1498Szrj	     by detecting equal accesses and doing disambiguation with
38fd1498Szrj	     runtime alias tests like for
38fd1498Szrj	        .. = a[i];
38fd1498Szrj		.. = a[i+1];
38fd1498Szrj		a[i] = ..;
38fd1498Szrj		a[i+1] = ..;
38fd1498Szrj		*p = ..;
38fd1498Szrj		.. = a[i];
38fd1498Szrj		.. = a[i+1];
38fd1498Szrj	     where we will end up loading { a[i], a[i+1] } once, make
38fd1498Szrj	     sure that inserting group loads before the first load and
38fd1498Szrj	     stores after the last store will do the right thing.
38fd1498Szrj	     Similar for groups like
38fd1498Szrj	        a[i] = ...;
38fd1498Szrj		... = a[i];
38fd1498Szrj		a[i+1] = ...;
38fd1498Szrj	     where loads from the group interleave with the store.  */
38fd1498Szrj	  if (!vect_preserves_scalar_order_p (DR_STMT (dra), DR_STMT (drb)))
38fd1498Szrj	    {
38fd1498Szrj	      if (dump_enabled_p ())
38fd1498Szrj		dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj				 "READ_WRITE dependence in interleaving.\n");
38fd1498Szrj	      return true;
38fd1498Szrj	    }
38fd1498Szrj
38fd1498Szrj	  if (loop->safelen < 2)
38fd1498Szrj	    {
38fd1498Szrj	      tree indicator = dr_zero_step_indicator (dra);
38fd1498Szrj	      if (TREE_CODE (indicator) != INTEGER_CST)
38fd1498Szrj		vect_check_nonzero_value (loop_vinfo, indicator);
38fd1498Szrj	      else if (integer_zerop (indicator))
38fd1498Szrj		{
38fd1498Szrj		  if (dump_enabled_p ())
38fd1498Szrj		    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj				 "access also has a zero step\n");
38fd1498Szrj		  return true;
38fd1498Szrj		}
38fd1498Szrj	    }
38fd1498Szrj	  continue;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      if (dist > 0 && DDR_REVERSED_P (ddr))
38fd1498Szrj	{
38fd1498Szrj	  /* If DDR_REVERSED_P the order of the data-refs in DDR was
38fd1498Szrj	     reversed (to make distance vector positive), and the actual
38fd1498Szrj	     distance is negative.  */
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj	                     "dependence distance negative.\n");
38fd1498Szrj	  /* Record a negative dependence distance to later limit the
38fd1498Szrj	     amount of stmt copying / unrolling we can perform.
38fd1498Szrj	     Only need to handle read-after-write dependence.  */
38fd1498Szrj	  if (DR_IS_READ (drb)
38fd1498Szrj	      && (STMT_VINFO_MIN_NEG_DIST (stmtinfo_b) == 0
38fd1498Szrj		  || STMT_VINFO_MIN_NEG_DIST (stmtinfo_b) > (unsigned)dist))
38fd1498Szrj	    STMT_VINFO_MIN_NEG_DIST (stmtinfo_b) = dist;
38fd1498Szrj	  continue;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      unsigned int abs_dist = abs (dist);
38fd1498Szrj      if (abs_dist >= 2 && abs_dist < *max_vf)
38fd1498Szrj	{
38fd1498Szrj	  /* The dependence distance requires reduction of the maximal
38fd1498Szrj	     vectorization factor.  */
38fd1498Szrj	  *max_vf = abs (dist);
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj	                     "adjusting maximal vectorization factor to %i\n",
38fd1498Szrj	                     *max_vf);
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      if (abs_dist >= *max_vf)
38fd1498Szrj	{
38fd1498Szrj	  /* Dependence distance does not create dependence, as far as
38fd1498Szrj	     vectorization is concerned, in this case.  */
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj	                     "dependence distance >= VF.\n");
38fd1498Szrj	  continue;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj	{
38fd1498Szrj	  dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj	               "not vectorized, possible dependence "
38fd1498Szrj	               "between data-refs ");
38fd1498Szrj	  dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (dra));
38fd1498Szrj	  dump_printf (MSG_NOTE,  " and ");
38fd1498Szrj	  dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (drb));
38fd1498Szrj	  dump_printf (MSG_NOTE,  "\n");
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      return true;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  return false;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Function vect_analyze_data_ref_dependences.
38fd1498Szrj
38fd1498Szrj   Examine all the data references in the loop, and make sure there do not
38fd1498Szrj   exist any data dependences between them.  Set *MAX_VF according to
38fd1498Szrj   the maximum vectorization factor the data dependences allow.  */
38fd1498Szrj
38fd1498Szrjbool
38fd1498Szrjvect_analyze_data_ref_dependences (loop_vec_info loop_vinfo,
38fd1498Szrj				   unsigned int *max_vf)
38fd1498Szrj{
38fd1498Szrj  unsigned int i;
38fd1498Szrj  struct data_dependence_relation *ddr;
38fd1498Szrj
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                     "=== vect_analyze_data_ref_dependences ===\n");
38fd1498Szrj
38fd1498Szrj  LOOP_VINFO_DDRS (loop_vinfo)
38fd1498Szrj    .create (LOOP_VINFO_DATAREFS (loop_vinfo).length ()
38fd1498Szrj	     * LOOP_VINFO_DATAREFS (loop_vinfo).length ());
38fd1498Szrj  LOOP_VINFO_NO_DATA_DEPENDENCIES (loop_vinfo) = true;
38fd1498Szrj  /* We need read-read dependences to compute STMT_VINFO_SAME_ALIGN_REFS.  */
38fd1498Szrj  if (!compute_all_dependences (LOOP_VINFO_DATAREFS (loop_vinfo),
38fd1498Szrj				&LOOP_VINFO_DDRS (loop_vinfo),
38fd1498Szrj				LOOP_VINFO_LOOP_NEST (loop_vinfo), true))
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  /* For epilogues we either have no aliases or alias versioning
38fd1498Szrj     was applied to original loop.  Therefore we may just get max_vf
38fd1498Szrj     using VF of original loop.  */
38fd1498Szrj  if (LOOP_VINFO_EPILOGUE_P (loop_vinfo))
38fd1498Szrj    *max_vf = LOOP_VINFO_ORIG_MAX_VECT_FACTOR (loop_vinfo);
38fd1498Szrj  else
38fd1498Szrj    FOR_EACH_VEC_ELT (LOOP_VINFO_DDRS (loop_vinfo), i, ddr)
38fd1498Szrj      if (vect_analyze_data_ref_dependence (ddr, loop_vinfo, max_vf))
38fd1498Szrj	return false;
38fd1498Szrj
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Function vect_slp_analyze_data_ref_dependence.
38fd1498Szrj
38fd1498Szrj   Return TRUE if there (might) exist a dependence between a memory-reference
38fd1498Szrj   DRA and a memory-reference DRB.  When versioning for alias may check a
38fd1498Szrj   dependence at run-time, return FALSE.  Adjust *MAX_VF according to
38fd1498Szrj   the data dependence.  */
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjvect_slp_analyze_data_ref_dependence (struct data_dependence_relation *ddr)
38fd1498Szrj{
38fd1498Szrj  struct data_reference *dra = DDR_A (ddr);
38fd1498Szrj  struct data_reference *drb = DDR_B (ddr);
38fd1498Szrj
38fd1498Szrj  /* We need to check dependences of statements marked as unvectorizable
38fd1498Szrj     as well, they still can prohibit vectorization.  */
38fd1498Szrj
38fd1498Szrj  /* Independent data accesses.  */
38fd1498Szrj  if (DDR_ARE_DEPENDENT (ddr) == chrec_known)
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  if (dra == drb)
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  /* Read-read is OK.  */
38fd1498Szrj  if (DR_IS_READ (dra) && DR_IS_READ (drb))
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  /* If dra and drb are part of the same interleaving chain consider
38fd1498Szrj     them independent.  */
38fd1498Szrj  if (STMT_VINFO_GROUPED_ACCESS (vinfo_for_stmt (DR_STMT (dra)))
38fd1498Szrj      && (GROUP_FIRST_ELEMENT (vinfo_for_stmt (DR_STMT (dra)))
38fd1498Szrj	  == GROUP_FIRST_ELEMENT (vinfo_for_stmt (DR_STMT (drb)))))
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  /* Unknown data dependence.  */
38fd1498Szrj  if (DDR_ARE_DEPENDENT (ddr) == chrec_dont_know)
38fd1498Szrj    {
38fd1498Szrj      if  (dump_enabled_p ())
38fd1498Szrj	{
38fd1498Szrj	  dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			   "can't determine dependence between ");
38fd1498Szrj	  dump_generic_expr (MSG_MISSED_OPTIMIZATION, TDF_SLIM, DR_REF (dra));
38fd1498Szrj	  dump_printf (MSG_MISSED_OPTIMIZATION,  " and ");
38fd1498Szrj	  dump_generic_expr (MSG_MISSED_OPTIMIZATION, TDF_SLIM, DR_REF (drb));
38fd1498Szrj	  dump_printf (MSG_MISSED_OPTIMIZATION,  "\n");
38fd1498Szrj	}
38fd1498Szrj    }
38fd1498Szrj  else if (dump_enabled_p ())
38fd1498Szrj    {
38fd1498Szrj      dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj		       "determined dependence between ");
38fd1498Szrj      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (dra));
38fd1498Szrj      dump_printf (MSG_NOTE, " and ");
38fd1498Szrj      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (drb));
38fd1498Szrj      dump_printf (MSG_NOTE,  "\n");
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Analyze dependences involved in the transform of SLP NODE.  STORES
38fd1498Szrj   contain the vector of scalar stores of this instance if we are
38fd1498Szrj   disambiguating the loads.  */
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjvect_slp_analyze_node_dependences (slp_instance instance, slp_tree node,
38fd1498Szrj				   vec<gimple *> stores, gimple *last_store)
38fd1498Szrj{
38fd1498Szrj  /* This walks over all stmts involved in the SLP load/store done
38fd1498Szrj     in NODE verifying we can sink them up to the last stmt in the
38fd1498Szrj     group.  */
38fd1498Szrj  gimple *last_access = vect_find_last_scalar_stmt_in_slp (node);
38fd1498Szrj  for (unsigned k = 0; k < SLP_INSTANCE_GROUP_SIZE (instance); ++k)
38fd1498Szrj    {
38fd1498Szrj      gimple *access = SLP_TREE_SCALAR_STMTS (node)[k];
38fd1498Szrj      if (access == last_access)
38fd1498Szrj	continue;
38fd1498Szrj      data_reference *dr_a = STMT_VINFO_DATA_REF (vinfo_for_stmt (access));
38fd1498Szrj      for (gimple_stmt_iterator gsi = gsi_for_stmt (access);
38fd1498Szrj	   gsi_stmt (gsi) != last_access; gsi_next (&gsi))
38fd1498Szrj	{
38fd1498Szrj	  gimple *stmt = gsi_stmt (gsi);
38fd1498Szrj	  if (! gimple_vuse (stmt)
38fd1498Szrj	      || (DR_IS_READ (dr_a) && ! gimple_vdef (stmt)))
38fd1498Szrj	    continue;
38fd1498Szrj
38fd1498Szrj	  /* If we couldn't record a (single) data reference for this
38fd1498Szrj	     stmt we have to give up.  */
38fd1498Szrj	  /* ???  Here and below if dependence analysis fails we can resort
38fd1498Szrj	     to the alias oracle which can handle more kinds of stmts.  */
38fd1498Szrj	  data_reference *dr_b = STMT_VINFO_DATA_REF (vinfo_for_stmt (stmt));
38fd1498Szrj	  if (!dr_b)
38fd1498Szrj	    return false;
38fd1498Szrj
38fd1498Szrj	  bool dependent = false;
38fd1498Szrj	  /* If we run into a store of this same instance (we've just
38fd1498Szrj	     marked those) then delay dependence checking until we run
38fd1498Szrj	     into the last store because this is where it will have
38fd1498Szrj	     been sunk to (and we verify if we can do that as well).  */
38fd1498Szrj	  if (gimple_visited_p (stmt))
38fd1498Szrj	    {
38fd1498Szrj	      if (stmt != last_store)
38fd1498Szrj		continue;
38fd1498Szrj	      unsigned i;
38fd1498Szrj	      gimple *store;
38fd1498Szrj	      FOR_EACH_VEC_ELT (stores, i, store)
38fd1498Szrj		{
38fd1498Szrj		  data_reference *store_dr
38fd1498Szrj		    = STMT_VINFO_DATA_REF (vinfo_for_stmt (store));
38fd1498Szrj		  ddr_p ddr = initialize_data_dependence_relation
38fd1498Szrj				(dr_a, store_dr, vNULL);
38fd1498Szrj		  dependent = vect_slp_analyze_data_ref_dependence (ddr);
38fd1498Szrj		  free_dependence_relation (ddr);
38fd1498Szrj		  if (dependent)
38fd1498Szrj		    break;
38fd1498Szrj		}
38fd1498Szrj	    }
38fd1498Szrj	  else
38fd1498Szrj	    {
38fd1498Szrj	      ddr_p ddr = initialize_data_dependence_relation (dr_a,
38fd1498Szrj							       dr_b, vNULL);
38fd1498Szrj	      dependent = vect_slp_analyze_data_ref_dependence (ddr);
38fd1498Szrj	      free_dependence_relation (ddr);
38fd1498Szrj	    }
38fd1498Szrj	  if (dependent)
38fd1498Szrj	    return false;
38fd1498Szrj	}
38fd1498Szrj    }
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Function vect_analyze_data_ref_dependences.
38fd1498Szrj
38fd1498Szrj   Examine all the data references in the basic-block, and make sure there
38fd1498Szrj   do not exist any data dependences between them.  Set *MAX_VF according to
38fd1498Szrj   the maximum vectorization factor the data dependences allow.  */
38fd1498Szrj
38fd1498Szrjbool
38fd1498Szrjvect_slp_analyze_instance_dependence (slp_instance instance)
38fd1498Szrj{
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                     "=== vect_slp_analyze_instance_dependence ===\n");
38fd1498Szrj
38fd1498Szrj  /* The stores of this instance are at the root of the SLP tree.  */
38fd1498Szrj  slp_tree store = SLP_INSTANCE_TREE (instance);
38fd1498Szrj  if (! STMT_VINFO_DATA_REF (vinfo_for_stmt (SLP_TREE_SCALAR_STMTS (store)[0])))
38fd1498Szrj    store = NULL;
38fd1498Szrj
38fd1498Szrj  /* Verify we can sink stores to the vectorized stmt insert location.  */
38fd1498Szrj  gimple *last_store = NULL;
38fd1498Szrj  if (store)
38fd1498Szrj    {
38fd1498Szrj      if (! vect_slp_analyze_node_dependences (instance, store, vNULL, NULL))
38fd1498Szrj	return false;
38fd1498Szrj
38fd1498Szrj      /* Mark stores in this instance and remember the last one.  */
38fd1498Szrj      last_store = vect_find_last_scalar_stmt_in_slp (store);
38fd1498Szrj      for (unsigned k = 0; k < SLP_INSTANCE_GROUP_SIZE (instance); ++k)
38fd1498Szrj	gimple_set_visited (SLP_TREE_SCALAR_STMTS (store)[k], true);
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  bool res = true;
38fd1498Szrj
38fd1498Szrj  /* Verify we can sink loads to the vectorized stmt insert location,
38fd1498Szrj     special-casing stores of this instance.  */
38fd1498Szrj  slp_tree load;
38fd1498Szrj  unsigned int i;
38fd1498Szrj  FOR_EACH_VEC_ELT (SLP_INSTANCE_LOADS (instance), i, load)
38fd1498Szrj    if (! vect_slp_analyze_node_dependences (instance, load,
38fd1498Szrj					     store
38fd1498Szrj					     ? SLP_TREE_SCALAR_STMTS (store)
38fd1498Szrj					     : vNULL, last_store))
38fd1498Szrj      {
38fd1498Szrj	res = false;
38fd1498Szrj	break;
38fd1498Szrj      }
38fd1498Szrj
38fd1498Szrj  /* Unset the visited flag.  */
38fd1498Szrj  if (store)
38fd1498Szrj    for (unsigned k = 0; k < SLP_INSTANCE_GROUP_SIZE (instance); ++k)
38fd1498Szrj      gimple_set_visited (SLP_TREE_SCALAR_STMTS (store)[k], false);
38fd1498Szrj
38fd1498Szrj  return res;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Record in VINFO the base alignment guarantee given by DRB.  STMT is
38fd1498Szrj   the statement that contains DRB, which is useful for recording in the
38fd1498Szrj   dump file.  */
38fd1498Szrj
38fd1498Szrjstatic void
38fd1498Szrjvect_record_base_alignment (vec_info *vinfo, gimple *stmt,
38fd1498Szrj			    innermost_loop_behavior *drb)
38fd1498Szrj{
38fd1498Szrj  bool existed;
38fd1498Szrj  innermost_loop_behavior *&entry
38fd1498Szrj    = vinfo->base_alignments.get_or_insert (drb->base_address, &existed);
38fd1498Szrj  if (!existed || entry->base_alignment < drb->base_alignment)
38fd1498Szrj    {
38fd1498Szrj      entry = drb;
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj	{
38fd1498Szrj	  dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj			   "recording new base alignment for ");
38fd1498Szrj	  dump_generic_expr (MSG_NOTE, TDF_SLIM, drb->base_address);
38fd1498Szrj	  dump_printf (MSG_NOTE, "\n");
38fd1498Szrj	  dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj			   "  alignment:    %d\n", drb->base_alignment);
38fd1498Szrj	  dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj			   "  misalignment: %d\n", drb->base_misalignment);
38fd1498Szrj	  dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj			   "  based on:     ");
38fd1498Szrj	  dump_gimple_stmt (MSG_NOTE, TDF_SLIM, stmt, 0);
38fd1498Szrj	}
38fd1498Szrj    }
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* If the region we're going to vectorize is reached, all unconditional
38fd1498Szrj   data references occur at least once.  We can therefore pool the base
38fd1498Szrj   alignment guarantees from each unconditional reference.  Do this by
38fd1498Szrj   going through all the data references in VINFO and checking whether
38fd1498Szrj   the containing statement makes the reference unconditionally.  If so,
38fd1498Szrj   record the alignment of the base address in VINFO so that it can be
38fd1498Szrj   used for all other references with the same base.  */
38fd1498Szrj
38fd1498Szrjvoid
38fd1498Szrjvect_record_base_alignments (vec_info *vinfo)
38fd1498Szrj{
38fd1498Szrj  loop_vec_info loop_vinfo = dyn_cast <loop_vec_info> (vinfo);
38fd1498Szrj  struct loop *loop = loop_vinfo ? LOOP_VINFO_LOOP (loop_vinfo) : NULL;
38fd1498Szrj  data_reference *dr;
38fd1498Szrj  unsigned int i;
38fd1498Szrj  FOR_EACH_VEC_ELT (vinfo->datarefs, i, dr)
38fd1498Szrj    if (!DR_IS_CONDITIONAL_IN_STMT (dr))
38fd1498Szrj      {
38fd1498Szrj	gimple *stmt = DR_STMT (dr);
38fd1498Szrj	vect_record_base_alignment (vinfo, stmt, &DR_INNERMOST (dr));
38fd1498Szrj
38fd1498Szrj	/* If DR is nested in the loop that is being vectorized, we can also
38fd1498Szrj	   record the alignment of the base wrt the outer loop.  */
38fd1498Szrj	if (loop && nested_in_vect_loop_p (loop, stmt))
38fd1498Szrj	  {
38fd1498Szrj	    stmt_vec_info stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj	    vect_record_base_alignment
38fd1498Szrj	      (vinfo, stmt, &STMT_VINFO_DR_WRT_VEC_LOOP (stmt_info));
38fd1498Szrj	  }
38fd1498Szrj      }
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Return the target alignment for the vectorized form of DR.  */
38fd1498Szrj
38fd1498Szrjstatic unsigned int
38fd1498Szrjvect_calculate_target_alignment (struct data_reference *dr)
38fd1498Szrj{
38fd1498Szrj  gimple *stmt = DR_STMT (dr);
38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj  tree vectype = STMT_VINFO_VECTYPE (stmt_info);
38fd1498Szrj  return targetm.vectorize.preferred_vector_alignment (vectype);
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Function vect_compute_data_ref_alignment
38fd1498Szrj
38fd1498Szrj   Compute the misalignment of the data reference DR.
38fd1498Szrj
38fd1498Szrj   Output:
38fd1498Szrj   1. If during the misalignment computation it is found that the data reference
38fd1498Szrj      cannot be vectorized then false is returned.
38fd1498Szrj   2. DR_MISALIGNMENT (DR) is defined.
38fd1498Szrj
38fd1498Szrj   FOR NOW: No analysis is actually performed. Misalignment is calculated
38fd1498Szrj   only for trivial cases. TODO.  */
38fd1498Szrj
38fd1498Szrjbool
38fd1498Szrjvect_compute_data_ref_alignment (struct data_reference *dr)
38fd1498Szrj{
38fd1498Szrj  gimple *stmt = DR_STMT (dr);
38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj  vec_base_alignments *base_alignments = &stmt_info->vinfo->base_alignments;
38fd1498Szrj  loop_vec_info loop_vinfo = STMT_VINFO_LOOP_VINFO (stmt_info);
38fd1498Szrj  struct loop *loop = NULL;
38fd1498Szrj  tree ref = DR_REF (dr);
38fd1498Szrj  tree vectype = STMT_VINFO_VECTYPE (stmt_info);
38fd1498Szrj
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                     "vect_compute_data_ref_alignment:\n");
38fd1498Szrj
38fd1498Szrj  if (loop_vinfo)
38fd1498Szrj    loop = LOOP_VINFO_LOOP (loop_vinfo);
38fd1498Szrj
38fd1498Szrj  /* Initialize misalignment to unknown.  */
38fd1498Szrj  SET_DR_MISALIGNMENT (dr, DR_MISALIGNMENT_UNKNOWN);
38fd1498Szrj
38fd1498Szrj  innermost_loop_behavior *drb = vect_dr_behavior (dr);
38fd1498Szrj  bool step_preserves_misalignment_p;
38fd1498Szrj
38fd1498Szrj  unsigned HOST_WIDE_INT vector_alignment
38fd1498Szrj    = vect_calculate_target_alignment (dr) / BITS_PER_UNIT;
38fd1498Szrj  DR_TARGET_ALIGNMENT (dr) = vector_alignment;
38fd1498Szrj
38fd1498Szrj  /* No step for BB vectorization.  */
38fd1498Szrj  if (!loop)
38fd1498Szrj    {
38fd1498Szrj      gcc_assert (integer_zerop (drb->step));
38fd1498Szrj      step_preserves_misalignment_p = true;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* In case the dataref is in an inner-loop of the loop that is being
38fd1498Szrj     vectorized (LOOP), we use the base and misalignment information
38fd1498Szrj     relative to the outer-loop (LOOP).  This is ok only if the misalignment
38fd1498Szrj     stays the same throughout the execution of the inner-loop, which is why
38fd1498Szrj     we have to check that the stride of the dataref in the inner-loop evenly
38fd1498Szrj     divides by the vector alignment.  */
38fd1498Szrj  else if (nested_in_vect_loop_p (loop, stmt))
38fd1498Szrj    {
38fd1498Szrj      step_preserves_misalignment_p
38fd1498Szrj	= (DR_STEP_ALIGNMENT (dr) % vector_alignment) == 0;
38fd1498Szrj
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj	{
38fd1498Szrj	  if (step_preserves_misalignment_p)
38fd1498Szrj	    dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj			     "inner step divides the vector alignment.\n");
38fd1498Szrj	  else
38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			     "inner step doesn't divide the vector"
38fd1498Szrj			     " alignment.\n");
38fd1498Szrj	}
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* Similarly we can only use base and misalignment information relative to
38fd1498Szrj     an innermost loop if the misalignment stays the same throughout the
38fd1498Szrj     execution of the loop.  As above, this is the case if the stride of
38fd1498Szrj     the dataref evenly divides by the alignment.  */
38fd1498Szrj  else
38fd1498Szrj    {
38fd1498Szrj      poly_uint64 vf = LOOP_VINFO_VECT_FACTOR (loop_vinfo);
38fd1498Szrj      step_preserves_misalignment_p
38fd1498Szrj	= multiple_p (DR_STEP_ALIGNMENT (dr) * vf, vector_alignment);
38fd1498Szrj
38fd1498Szrj      if (!step_preserves_misalignment_p && dump_enabled_p ())
38fd1498Szrj	dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			 "step doesn't divide the vector alignment.\n");
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  unsigned int base_alignment = drb->base_alignment;
38fd1498Szrj  unsigned int base_misalignment = drb->base_misalignment;
38fd1498Szrj
38fd1498Szrj  /* Calculate the maximum of the pooled base address alignment and the
38fd1498Szrj     alignment that we can compute for DR itself.  */
38fd1498Szrj  innermost_loop_behavior **entry = base_alignments->get (drb->base_address);
38fd1498Szrj  if (entry && base_alignment < (*entry)->base_alignment)
38fd1498Szrj    {
38fd1498Szrj      base_alignment = (*entry)->base_alignment;
38fd1498Szrj      base_misalignment = (*entry)->base_misalignment;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (drb->offset_alignment < vector_alignment
38fd1498Szrj      || !step_preserves_misalignment_p
38fd1498Szrj      /* We need to know whether the step wrt the vectorized loop is
38fd1498Szrj	 negative when computing the starting misalignment below.  */
38fd1498Szrj      || TREE_CODE (drb->step) != INTEGER_CST)
38fd1498Szrj    {
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj	{
38fd1498Szrj	  dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj	                   "Unknown alignment for access: ");
38fd1498Szrj	  dump_generic_expr (MSG_MISSED_OPTIMIZATION, TDF_SLIM, ref);
38fd1498Szrj	  dump_printf (MSG_MISSED_OPTIMIZATION, "\n");
38fd1498Szrj	}
38fd1498Szrj      return true;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (base_alignment < vector_alignment)
38fd1498Szrj    {
38fd1498Szrj      unsigned int max_alignment;
38fd1498Szrj      tree base = get_base_for_alignment (drb->base_address, &max_alignment);
38fd1498Szrj      if (max_alignment < vector_alignment
38fd1498Szrj	  || !vect_can_force_dr_alignment_p (base,
38fd1498Szrj					     vector_alignment * BITS_PER_UNIT))
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    {
38fd1498Szrj	      dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj	                       "can't force alignment of ref: ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM, ref);
38fd1498Szrj	      dump_printf (MSG_NOTE, "\n");
38fd1498Szrj	    }
38fd1498Szrj	  return true;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      /* Force the alignment of the decl.
38fd1498Szrj	 NOTE: This is the only change to the code we make during
38fd1498Szrj	 the analysis phase, before deciding to vectorize the loop.  */
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj        {
38fd1498Szrj          dump_printf_loc (MSG_NOTE, vect_location, "force alignment of ");
38fd1498Szrj          dump_generic_expr (MSG_NOTE, TDF_SLIM, ref);
38fd1498Szrj          dump_printf (MSG_NOTE, "\n");
38fd1498Szrj        }
38fd1498Szrj
38fd1498Szrj      DR_VECT_AUX (dr)->base_decl = base;
38fd1498Szrj      DR_VECT_AUX (dr)->base_misaligned = true;
38fd1498Szrj      base_misalignment = 0;
38fd1498Szrj    }
38fd1498Szrj  poly_int64 misalignment
38fd1498Szrj    = base_misalignment + wi::to_poly_offset (drb->init).force_shwi ();
38fd1498Szrj
38fd1498Szrj  /* If this is a backward running DR then first access in the larger
38fd1498Szrj     vectype actually is N-1 elements before the address in the DR.
38fd1498Szrj     Adjust misalign accordingly.  */
38fd1498Szrj  if (tree_int_cst_sgn (drb->step) < 0)
38fd1498Szrj    /* PLUS because STEP is negative.  */
38fd1498Szrj    misalignment += ((TYPE_VECTOR_SUBPARTS (vectype) - 1)
38fd1498Szrj		     * TREE_INT_CST_LOW (drb->step));
38fd1498Szrj
38fd1498Szrj  unsigned int const_misalignment;
38fd1498Szrj  if (!known_misalignment (misalignment, vector_alignment,
38fd1498Szrj			   &const_misalignment))
38fd1498Szrj    {
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj	{
38fd1498Szrj	  dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			   "Non-constant misalignment for access: ");
38fd1498Szrj	  dump_generic_expr (MSG_MISSED_OPTIMIZATION, TDF_SLIM, ref);
38fd1498Szrj	  dump_printf (MSG_MISSED_OPTIMIZATION, "\n");
38fd1498Szrj	}
38fd1498Szrj      return true;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  SET_DR_MISALIGNMENT (dr, const_misalignment);
38fd1498Szrj
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    {
38fd1498Szrj      dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj                       "misalign = %d bytes of ref ", DR_MISALIGNMENT (dr));
38fd1498Szrj      dump_generic_expr (MSG_MISSED_OPTIMIZATION, TDF_SLIM, ref);
38fd1498Szrj      dump_printf (MSG_MISSED_OPTIMIZATION, "\n");
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Function vect_update_misalignment_for_peel.
38fd1498Szrj   Sets DR's misalignment
38fd1498Szrj   - to 0 if it has the same alignment as DR_PEEL,
38fd1498Szrj   - to the misalignment computed using NPEEL if DR's salignment is known,
38fd1498Szrj   - to -1 (unknown) otherwise.
38fd1498Szrj
38fd1498Szrj   DR - the data reference whose misalignment is to be adjusted.
38fd1498Szrj   DR_PEEL - the data reference whose misalignment is being made
38fd1498Szrj             zero in the vector loop by the peel.
38fd1498Szrj   NPEEL - the number of iterations in the peel loop if the misalignment
38fd1498Szrj           of DR_PEEL is known at compile time.  */
38fd1498Szrj
38fd1498Szrjstatic void
38fd1498Szrjvect_update_misalignment_for_peel (struct data_reference *dr,
38fd1498Szrj                                   struct data_reference *dr_peel, int npeel)
38fd1498Szrj{
38fd1498Szrj  unsigned int i;
38fd1498Szrj  vec<dr_p> same_aligned_drs;
38fd1498Szrj  struct data_reference *current_dr;
38fd1498Szrj  int dr_size = vect_get_scalar_dr_size (dr);
38fd1498Szrj  int dr_peel_size = vect_get_scalar_dr_size (dr_peel);
38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (DR_STMT (dr));
38fd1498Szrj  stmt_vec_info peel_stmt_info = vinfo_for_stmt (DR_STMT (dr_peel));
38fd1498Szrj
38fd1498Szrj /* For interleaved data accesses the step in the loop must be multiplied by
38fd1498Szrj     the size of the interleaving group.  */
38fd1498Szrj  if (STMT_VINFO_GROUPED_ACCESS (stmt_info))
38fd1498Szrj    dr_size *= GROUP_SIZE (vinfo_for_stmt (GROUP_FIRST_ELEMENT (stmt_info)));
38fd1498Szrj  if (STMT_VINFO_GROUPED_ACCESS (peel_stmt_info))
38fd1498Szrj    dr_peel_size *= GROUP_SIZE (peel_stmt_info);
38fd1498Szrj
38fd1498Szrj  /* It can be assumed that the data refs with the same alignment as dr_peel
38fd1498Szrj     are aligned in the vector loop.  */
38fd1498Szrj  same_aligned_drs
38fd1498Szrj    = STMT_VINFO_SAME_ALIGN_REFS (vinfo_for_stmt (DR_STMT (dr_peel)));
38fd1498Szrj  FOR_EACH_VEC_ELT (same_aligned_drs, i, current_dr)
38fd1498Szrj    {
38fd1498Szrj      if (current_dr != dr)
38fd1498Szrj        continue;
38fd1498Szrj      gcc_assert (!known_alignment_for_access_p (dr)
38fd1498Szrj		  || !known_alignment_for_access_p (dr_peel)
38fd1498Szrj		  || (DR_MISALIGNMENT (dr) / dr_size
38fd1498Szrj		      == DR_MISALIGNMENT (dr_peel) / dr_peel_size));
38fd1498Szrj      SET_DR_MISALIGNMENT (dr, 0);
38fd1498Szrj      return;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (known_alignment_for_access_p (dr)
38fd1498Szrj      && known_alignment_for_access_p (dr_peel))
38fd1498Szrj    {
38fd1498Szrj      bool negative = tree_int_cst_compare (DR_STEP (dr), size_zero_node) < 0;
38fd1498Szrj      int misal = DR_MISALIGNMENT (dr);
38fd1498Szrj      misal += negative ? -npeel * dr_size : npeel * dr_size;
38fd1498Szrj      misal &= DR_TARGET_ALIGNMENT (dr) - 1;
38fd1498Szrj      SET_DR_MISALIGNMENT (dr, misal);
38fd1498Szrj      return;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    dump_printf_loc (MSG_NOTE, vect_location, "Setting misalignment " \
38fd1498Szrj		     "to unknown (-1).\n");
38fd1498Szrj  SET_DR_MISALIGNMENT (dr, DR_MISALIGNMENT_UNKNOWN);
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Function verify_data_ref_alignment
38fd1498Szrj
38fd1498Szrj   Return TRUE if DR can be handled with respect to alignment.  */
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjverify_data_ref_alignment (data_reference_p dr)
38fd1498Szrj{
38fd1498Szrj  enum dr_alignment_support supportable_dr_alignment
38fd1498Szrj    = vect_supportable_dr_alignment (dr, false);
38fd1498Szrj  if (!supportable_dr_alignment)
38fd1498Szrj    {
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj	{
38fd1498Szrj	  if (DR_IS_READ (dr))
38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			     "not vectorized: unsupported unaligned load.");
38fd1498Szrj	  else
38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			     "not vectorized: unsupported unaligned "
38fd1498Szrj			     "store.");
38fd1498Szrj
38fd1498Szrj	  dump_generic_expr (MSG_MISSED_OPTIMIZATION, TDF_SLIM,
38fd1498Szrj			     DR_REF (dr));
38fd1498Szrj	  dump_printf (MSG_MISSED_OPTIMIZATION, "\n");
38fd1498Szrj	}
38fd1498Szrj      return false;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (supportable_dr_alignment != dr_aligned && dump_enabled_p ())
38fd1498Szrj    dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj		     "Vectorizing an unaligned access.\n");
38fd1498Szrj
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Function vect_verify_datarefs_alignment
38fd1498Szrj
38fd1498Szrj   Return TRUE if all data references in the loop can be
38fd1498Szrj   handled with respect to alignment.  */
38fd1498Szrj
38fd1498Szrjbool
38fd1498Szrjvect_verify_datarefs_alignment (loop_vec_info vinfo)
38fd1498Szrj{
38fd1498Szrj  vec<data_reference_p> datarefs = vinfo->datarefs;
38fd1498Szrj  struct data_reference *dr;
38fd1498Szrj  unsigned int i;
38fd1498Szrj
38fd1498Szrj  FOR_EACH_VEC_ELT (datarefs, i, dr)
38fd1498Szrj    {
38fd1498Szrj      gimple *stmt = DR_STMT (dr);
38fd1498Szrj      stmt_vec_info stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj
38fd1498Szrj      if (!STMT_VINFO_RELEVANT_P (stmt_info))
38fd1498Szrj	continue;
38fd1498Szrj
38fd1498Szrj      /* For interleaving, only the alignment of the first access matters.   */
38fd1498Szrj      if (STMT_VINFO_GROUPED_ACCESS (stmt_info)
38fd1498Szrj	  && GROUP_FIRST_ELEMENT (stmt_info) != stmt)
38fd1498Szrj	continue;
38fd1498Szrj
38fd1498Szrj      /* Strided accesses perform only component accesses, alignment is
38fd1498Szrj	 irrelevant for them.  */
38fd1498Szrj      if (STMT_VINFO_STRIDED_P (stmt_info)
38fd1498Szrj	  && !STMT_VINFO_GROUPED_ACCESS (stmt_info))
38fd1498Szrj	continue;
38fd1498Szrj
38fd1498Szrj      if (! verify_data_ref_alignment (dr))
38fd1498Szrj	return false;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Given an memory reference EXP return whether its alignment is less
38fd1498Szrj   than its size.  */
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjnot_size_aligned (tree exp)
38fd1498Szrj{
38fd1498Szrj  if (!tree_fits_uhwi_p (TYPE_SIZE (TREE_TYPE (exp))))
38fd1498Szrj    return true;
38fd1498Szrj
38fd1498Szrj  return (tree_to_uhwi (TYPE_SIZE (TREE_TYPE (exp)))
38fd1498Szrj	  > get_object_alignment (exp));
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Function vector_alignment_reachable_p
38fd1498Szrj
38fd1498Szrj   Return true if vector alignment for DR is reachable by peeling
38fd1498Szrj   a few loop iterations.  Return false otherwise.  */
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjvector_alignment_reachable_p (struct data_reference *dr)
38fd1498Szrj{
38fd1498Szrj  gimple *stmt = DR_STMT (dr);
38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj  tree vectype = STMT_VINFO_VECTYPE (stmt_info);
38fd1498Szrj
38fd1498Szrj  if (STMT_VINFO_GROUPED_ACCESS (stmt_info))
38fd1498Szrj    {
38fd1498Szrj      /* For interleaved access we peel only if number of iterations in
38fd1498Szrj	 the prolog loop ({VF - misalignment}), is a multiple of the
38fd1498Szrj	 number of the interleaved accesses.  */
38fd1498Szrj      int elem_size, mis_in_elements;
38fd1498Szrj
38fd1498Szrj      /* FORNOW: handle only known alignment.  */
38fd1498Szrj      if (!known_alignment_for_access_p (dr))
38fd1498Szrj	return false;
38fd1498Szrj
38fd1498Szrj      poly_uint64 nelements = TYPE_VECTOR_SUBPARTS (vectype);
38fd1498Szrj      poly_uint64 vector_size = GET_MODE_SIZE (TYPE_MODE (vectype));
38fd1498Szrj      elem_size = vector_element_size (vector_size, nelements);
38fd1498Szrj      mis_in_elements = DR_MISALIGNMENT (dr) / elem_size;
38fd1498Szrj
38fd1498Szrj      if (!multiple_p (nelements - mis_in_elements, GROUP_SIZE (stmt_info)))
38fd1498Szrj	return false;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* If misalignment is known at the compile time then allow peeling
38fd1498Szrj     only if natural alignment is reachable through peeling.  */
38fd1498Szrj  if (known_alignment_for_access_p (dr) && !aligned_access_p (dr))
38fd1498Szrj    {
38fd1498Szrj      HOST_WIDE_INT elmsize =
38fd1498Szrj		int_cst_value (TYPE_SIZE_UNIT (TREE_TYPE (vectype)));
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj	{
38fd1498Szrj	  dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj	                   "data size =" HOST_WIDE_INT_PRINT_DEC, elmsize);
38fd1498Szrj	  dump_printf (MSG_NOTE,
38fd1498Szrj	               ". misalignment = %d.\n", DR_MISALIGNMENT (dr));
38fd1498Szrj	}
38fd1498Szrj      if (DR_MISALIGNMENT (dr) % elmsize)
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj	                     "data size does not divide the misalignment.\n");
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (!known_alignment_for_access_p (dr))
38fd1498Szrj    {
38fd1498Szrj      tree type = TREE_TYPE (DR_REF (dr));
38fd1498Szrj      bool is_packed = not_size_aligned (DR_REF (dr));
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj	dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj	                 "Unknown misalignment, %snaturally aligned\n",
38fd1498Szrj			 is_packed ? "not " : "");
38fd1498Szrj      return targetm.vectorize.vector_alignment_reachable (type, is_packed);
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Calculate the cost of the memory access represented by DR.  */
38fd1498Szrj
38fd1498Szrjstatic void
38fd1498Szrjvect_get_data_access_cost (struct data_reference *dr,
38fd1498Szrj                           unsigned int *inside_cost,
38fd1498Szrj                           unsigned int *outside_cost,
38fd1498Szrj			   stmt_vector_for_cost *body_cost_vec)
38fd1498Szrj{
38fd1498Szrj  gimple *stmt = DR_STMT (dr);
38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj  loop_vec_info loop_vinfo = STMT_VINFO_LOOP_VINFO (stmt_info);
38fd1498Szrj  int ncopies;
38fd1498Szrj
38fd1498Szrj  if (PURE_SLP_STMT (stmt_info))
38fd1498Szrj    ncopies = 1;
38fd1498Szrj  else
38fd1498Szrj    ncopies = vect_get_num_copies (loop_vinfo, STMT_VINFO_VECTYPE (stmt_info));
38fd1498Szrj
38fd1498Szrj  if (DR_IS_READ (dr))
38fd1498Szrj    vect_get_load_cost (dr, ncopies, true, inside_cost, outside_cost,
38fd1498Szrj			NULL, body_cost_vec, false);
38fd1498Szrj  else
38fd1498Szrj    vect_get_store_cost (dr, ncopies, inside_cost, body_cost_vec);
38fd1498Szrj
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                     "vect_get_data_access_cost: inside_cost = %d, "
38fd1498Szrj                     "outside_cost = %d.\n", *inside_cost, *outside_cost);
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrjtypedef struct _vect_peel_info
38fd1498Szrj{
38fd1498Szrj  struct data_reference *dr;
38fd1498Szrj  int npeel;
38fd1498Szrj  unsigned int count;
38fd1498Szrj} *vect_peel_info;
38fd1498Szrj
38fd1498Szrjtypedef struct _vect_peel_extended_info
38fd1498Szrj{
38fd1498Szrj  struct _vect_peel_info peel_info;
38fd1498Szrj  unsigned int inside_cost;
38fd1498Szrj  unsigned int outside_cost;
38fd1498Szrj} *vect_peel_extended_info;
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Peeling hashtable helpers.  */
38fd1498Szrj
38fd1498Szrjstruct peel_info_hasher : free_ptr_hash <_vect_peel_info>
38fd1498Szrj{
38fd1498Szrj  static inline hashval_t hash (const _vect_peel_info *);
38fd1498Szrj  static inline bool equal (const _vect_peel_info *, const _vect_peel_info *);
38fd1498Szrj};
38fd1498Szrj
38fd1498Szrjinline hashval_t
38fd1498Szrjpeel_info_hasher::hash (const _vect_peel_info *peel_info)
38fd1498Szrj{
38fd1498Szrj  return (hashval_t) peel_info->npeel;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrjinline bool
38fd1498Szrjpeel_info_hasher::equal (const _vect_peel_info *a, const _vect_peel_info *b)
38fd1498Szrj{
38fd1498Szrj  return (a->npeel == b->npeel);
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Insert DR into peeling hash table with NPEEL as key.  */
38fd1498Szrj
38fd1498Szrjstatic void
38fd1498Szrjvect_peeling_hash_insert (hash_table<peel_info_hasher> *peeling_htab,
38fd1498Szrj			  loop_vec_info loop_vinfo, struct data_reference *dr,
38fd1498Szrj                          int npeel)
38fd1498Szrj{
38fd1498Szrj  struct _vect_peel_info elem, *slot;
38fd1498Szrj  _vect_peel_info **new_slot;
38fd1498Szrj  bool supportable_dr_alignment = vect_supportable_dr_alignment (dr, true);
38fd1498Szrj
38fd1498Szrj  elem.npeel = npeel;
38fd1498Szrj  slot = peeling_htab->find (&elem);
38fd1498Szrj  if (slot)
38fd1498Szrj    slot->count++;
38fd1498Szrj  else
38fd1498Szrj    {
38fd1498Szrj      slot = XNEW (struct _vect_peel_info);
38fd1498Szrj      slot->npeel = npeel;
38fd1498Szrj      slot->dr = dr;
38fd1498Szrj      slot->count = 1;
38fd1498Szrj      new_slot = peeling_htab->find_slot (slot, INSERT);
38fd1498Szrj      *new_slot = slot;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (!supportable_dr_alignment
38fd1498Szrj      && unlimited_cost_model (LOOP_VINFO_LOOP (loop_vinfo)))
38fd1498Szrj    slot->count += VECT_MAX_COST;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Traverse peeling hash table to find peeling option that aligns maximum
38fd1498Szrj   number of data accesses.  */
38fd1498Szrj
38fd1498Szrjint
38fd1498Szrjvect_peeling_hash_get_most_frequent (_vect_peel_info **slot,
38fd1498Szrj				     _vect_peel_extended_info *max)
38fd1498Szrj{
38fd1498Szrj  vect_peel_info elem = *slot;
38fd1498Szrj
38fd1498Szrj  if (elem->count > max->peel_info.count
38fd1498Szrj      || (elem->count == max->peel_info.count
38fd1498Szrj          && max->peel_info.npeel > elem->npeel))
38fd1498Szrj    {
38fd1498Szrj      max->peel_info.npeel = elem->npeel;
38fd1498Szrj      max->peel_info.count = elem->count;
38fd1498Szrj      max->peel_info.dr = elem->dr;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  return 1;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Get the costs of peeling NPEEL iterations checking data access costs
38fd1498Szrj   for all data refs.  If UNKNOWN_MISALIGNMENT is true, we assume DR0's
38fd1498Szrj   misalignment will be zero after peeling.  */
38fd1498Szrj
38fd1498Szrjstatic void
38fd1498Szrjvect_get_peeling_costs_all_drs (vec<data_reference_p> datarefs,
38fd1498Szrj				struct data_reference *dr0,
38fd1498Szrj				unsigned int *inside_cost,
38fd1498Szrj				unsigned int *outside_cost,
38fd1498Szrj				stmt_vector_for_cost *body_cost_vec,
38fd1498Szrj				unsigned int npeel,
38fd1498Szrj				bool unknown_misalignment)
38fd1498Szrj{
38fd1498Szrj  unsigned i;
38fd1498Szrj  data_reference *dr;
38fd1498Szrj
38fd1498Szrj  FOR_EACH_VEC_ELT (datarefs, i, dr)
38fd1498Szrj    {
38fd1498Szrj      gimple *stmt = DR_STMT (dr);
38fd1498Szrj      stmt_vec_info stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj      if (!STMT_VINFO_RELEVANT_P (stmt_info))
38fd1498Szrj	continue;
38fd1498Szrj
38fd1498Szrj      /* For interleaving, only the alignment of the first access
38fd1498Szrj         matters.  */
38fd1498Szrj      if (STMT_VINFO_GROUPED_ACCESS (stmt_info)
38fd1498Szrj          && GROUP_FIRST_ELEMENT (stmt_info) != stmt)
38fd1498Szrj        continue;
38fd1498Szrj
38fd1498Szrj      /* Strided accesses perform only component accesses, alignment is
38fd1498Szrj         irrelevant for them.  */
38fd1498Szrj      if (STMT_VINFO_STRIDED_P (stmt_info)
38fd1498Szrj	  && !STMT_VINFO_GROUPED_ACCESS (stmt_info))
38fd1498Szrj	continue;
38fd1498Szrj
38fd1498Szrj      int save_misalignment;
38fd1498Szrj      save_misalignment = DR_MISALIGNMENT (dr);
38fd1498Szrj      if (npeel == 0)
38fd1498Szrj	;
38fd1498Szrj      else if (unknown_misalignment && dr == dr0)
38fd1498Szrj	SET_DR_MISALIGNMENT (dr, 0);
38fd1498Szrj      else
38fd1498Szrj	vect_update_misalignment_for_peel (dr, dr0, npeel);
38fd1498Szrj      vect_get_data_access_cost (dr, inside_cost, outside_cost,
38fd1498Szrj				 body_cost_vec);
38fd1498Szrj      SET_DR_MISALIGNMENT (dr, save_misalignment);
38fd1498Szrj    }
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Traverse peeling hash table and calculate cost for each peeling option.
38fd1498Szrj   Find the one with the lowest cost.  */
38fd1498Szrj
38fd1498Szrjint
38fd1498Szrjvect_peeling_hash_get_lowest_cost (_vect_peel_info **slot,
38fd1498Szrj				   _vect_peel_extended_info *min)
38fd1498Szrj{
38fd1498Szrj  vect_peel_info elem = *slot;
38fd1498Szrj  int dummy;
38fd1498Szrj  unsigned int inside_cost = 0, outside_cost = 0;
38fd1498Szrj  gimple *stmt = DR_STMT (elem->dr);
38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj  loop_vec_info loop_vinfo = STMT_VINFO_LOOP_VINFO (stmt_info);
38fd1498Szrj  stmt_vector_for_cost prologue_cost_vec, body_cost_vec,
38fd1498Szrj		       epilogue_cost_vec;
38fd1498Szrj
38fd1498Szrj  prologue_cost_vec.create (2);
38fd1498Szrj  body_cost_vec.create (2);
38fd1498Szrj  epilogue_cost_vec.create (2);
38fd1498Szrj
38fd1498Szrj  vect_get_peeling_costs_all_drs (LOOP_VINFO_DATAREFS (loop_vinfo),
38fd1498Szrj				  elem->dr, &inside_cost, &outside_cost,
38fd1498Szrj				  &body_cost_vec, elem->npeel, false);
38fd1498Szrj
38fd1498Szrj  body_cost_vec.release ();
38fd1498Szrj
38fd1498Szrj  outside_cost += vect_get_known_peeling_cost
38fd1498Szrj    (loop_vinfo, elem->npeel, &dummy,
38fd1498Szrj     &LOOP_VINFO_SCALAR_ITERATION_COST (loop_vinfo),
38fd1498Szrj     &prologue_cost_vec, &epilogue_cost_vec);
38fd1498Szrj
38fd1498Szrj  /* Prologue and epilogue costs are added to the target model later.
38fd1498Szrj     These costs depend only on the scalar iteration cost, the
38fd1498Szrj     number of peeling iterations finally chosen, and the number of
38fd1498Szrj     misaligned statements.  So discard the information found here.  */
38fd1498Szrj  prologue_cost_vec.release ();
38fd1498Szrj  epilogue_cost_vec.release ();
38fd1498Szrj
38fd1498Szrj  if (inside_cost < min->inside_cost
38fd1498Szrj      || (inside_cost == min->inside_cost
38fd1498Szrj	  && outside_cost < min->outside_cost))
38fd1498Szrj    {
38fd1498Szrj      min->inside_cost = inside_cost;
38fd1498Szrj      min->outside_cost = outside_cost;
38fd1498Szrj      min->peel_info.dr = elem->dr;
38fd1498Szrj      min->peel_info.npeel = elem->npeel;
38fd1498Szrj      min->peel_info.count = elem->count;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  return 1;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Choose best peeling option by traversing peeling hash table and either
38fd1498Szrj   choosing an option with the lowest cost (if cost model is enabled) or the
38fd1498Szrj   option that aligns as many accesses as possible.  */
38fd1498Szrj
38fd1498Szrjstatic struct _vect_peel_extended_info
38fd1498Szrjvect_peeling_hash_choose_best_peeling (hash_table<peel_info_hasher> *peeling_htab,
38fd1498Szrj				       loop_vec_info loop_vinfo)
38fd1498Szrj{
38fd1498Szrj   struct _vect_peel_extended_info res;
38fd1498Szrj
38fd1498Szrj   res.peel_info.dr = NULL;
38fd1498Szrj
38fd1498Szrj   if (!unlimited_cost_model (LOOP_VINFO_LOOP (loop_vinfo)))
38fd1498Szrj     {
38fd1498Szrj       res.inside_cost = INT_MAX;
38fd1498Szrj       res.outside_cost = INT_MAX;
38fd1498Szrj       peeling_htab->traverse <_vect_peel_extended_info *,
38fd1498Szrj	   		       vect_peeling_hash_get_lowest_cost> (&res);
38fd1498Szrj     }
38fd1498Szrj   else
38fd1498Szrj     {
38fd1498Szrj       res.peel_info.count = 0;
38fd1498Szrj       peeling_htab->traverse <_vect_peel_extended_info *,
38fd1498Szrj	   		       vect_peeling_hash_get_most_frequent> (&res);
38fd1498Szrj       res.inside_cost = 0;
38fd1498Szrj       res.outside_cost = 0;
38fd1498Szrj     }
38fd1498Szrj
38fd1498Szrj   return res;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Return true if the new peeling NPEEL is supported.  */
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjvect_peeling_supportable (loop_vec_info loop_vinfo, struct data_reference *dr0,
38fd1498Szrj			  unsigned npeel)
38fd1498Szrj{
38fd1498Szrj  unsigned i;
38fd1498Szrj  struct data_reference *dr = NULL;
38fd1498Szrj  vec<data_reference_p> datarefs = LOOP_VINFO_DATAREFS (loop_vinfo);
38fd1498Szrj  gimple *stmt;
38fd1498Szrj  stmt_vec_info stmt_info;
38fd1498Szrj  enum dr_alignment_support supportable_dr_alignment;
38fd1498Szrj
38fd1498Szrj  /* Ensure that all data refs can be vectorized after the peel.  */
38fd1498Szrj  FOR_EACH_VEC_ELT (datarefs, i, dr)
38fd1498Szrj    {
38fd1498Szrj      int save_misalignment;
38fd1498Szrj
38fd1498Szrj      if (dr == dr0)
38fd1498Szrj	continue;
38fd1498Szrj
38fd1498Szrj      stmt = DR_STMT (dr);
38fd1498Szrj      stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj      /* For interleaving, only the alignment of the first access
38fd1498Szrj	 matters.  */
38fd1498Szrj      if (STMT_VINFO_GROUPED_ACCESS (stmt_info)
38fd1498Szrj	  && GROUP_FIRST_ELEMENT (stmt_info) != stmt)
38fd1498Szrj	continue;
38fd1498Szrj
38fd1498Szrj      /* Strided accesses perform only component accesses, alignment is
38fd1498Szrj	 irrelevant for them.  */
38fd1498Szrj      if (STMT_VINFO_STRIDED_P (stmt_info)
38fd1498Szrj	  && !STMT_VINFO_GROUPED_ACCESS (stmt_info))
38fd1498Szrj	continue;
38fd1498Szrj
38fd1498Szrj      save_misalignment = DR_MISALIGNMENT (dr);
38fd1498Szrj      vect_update_misalignment_for_peel (dr, dr0, npeel);
38fd1498Szrj      supportable_dr_alignment = vect_supportable_dr_alignment (dr, false);
38fd1498Szrj      SET_DR_MISALIGNMENT (dr, save_misalignment);
38fd1498Szrj
38fd1498Szrj      if (!supportable_dr_alignment)
38fd1498Szrj	return false;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Function vect_enhance_data_refs_alignment
38fd1498Szrj
38fd1498Szrj   This pass will use loop versioning and loop peeling in order to enhance
38fd1498Szrj   the alignment of data references in the loop.
38fd1498Szrj
38fd1498Szrj   FOR NOW: we assume that whatever versioning/peeling takes place, only the
38fd1498Szrj   original loop is to be vectorized.  Any other loops that are created by
38fd1498Szrj   the transformations performed in this pass - are not supposed to be
38fd1498Szrj   vectorized.  This restriction will be relaxed.
38fd1498Szrj
38fd1498Szrj   This pass will require a cost model to guide it whether to apply peeling
38fd1498Szrj   or versioning or a combination of the two.  For example, the scheme that
38fd1498Szrj   intel uses when given a loop with several memory accesses, is as follows:
38fd1498Szrj   choose one memory access ('p') which alignment you want to force by doing
38fd1498Szrj   peeling.  Then, either (1) generate a loop in which 'p' is aligned and all
38fd1498Szrj   other accesses are not necessarily aligned, or (2) use loop versioning to
38fd1498Szrj   generate one loop in which all accesses are aligned, and another loop in
38fd1498Szrj   which only 'p' is necessarily aligned.
38fd1498Szrj
38fd1498Szrj   ("Automatic Intra-Register Vectorization for the Intel Architecture",
38fd1498Szrj   Aart J.C. Bik, Milind Girkar, Paul M. Grey and Ximmin Tian, International
38fd1498Szrj   Journal of Parallel Programming, Vol. 30, No. 2, April 2002.)
38fd1498Szrj
38fd1498Szrj   Devising a cost model is the most critical aspect of this work.  It will
38fd1498Szrj   guide us on which access to peel for, whether to use loop versioning, how
38fd1498Szrj   many versions to create, etc.  The cost model will probably consist of
38fd1498Szrj   generic considerations as well as target specific considerations (on
38fd1498Szrj   powerpc for example, misaligned stores are more painful than misaligned
38fd1498Szrj   loads).
38fd1498Szrj
38fd1498Szrj   Here are the general steps involved in alignment enhancements:
38fd1498Szrj
38fd1498Szrj     -- original loop, before alignment analysis:
38fd1498Szrj	for (i=0; i<N; i++){
38fd1498Szrj	  x = q[i];			# DR_MISALIGNMENT(q) = unknown
38fd1498Szrj	  p[i] = y;			# DR_MISALIGNMENT(p) = unknown
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj     -- After vect_compute_data_refs_alignment:
38fd1498Szrj	for (i=0; i<N; i++){
38fd1498Szrj	  x = q[i];			# DR_MISALIGNMENT(q) = 3
38fd1498Szrj	  p[i] = y;			# DR_MISALIGNMENT(p) = unknown
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj     -- Possibility 1: we do loop versioning:
38fd1498Szrj     if (p is aligned) {
38fd1498Szrj	for (i=0; i<N; i++){	# loop 1A
38fd1498Szrj	  x = q[i];			# DR_MISALIGNMENT(q) = 3
38fd1498Szrj	  p[i] = y;			# DR_MISALIGNMENT(p) = 0
38fd1498Szrj	}
38fd1498Szrj     }
38fd1498Szrj     else {
38fd1498Szrj	for (i=0; i<N; i++){	# loop 1B
38fd1498Szrj	  x = q[i];			# DR_MISALIGNMENT(q) = 3
38fd1498Szrj	  p[i] = y;			# DR_MISALIGNMENT(p) = unaligned
38fd1498Szrj	}
38fd1498Szrj     }
38fd1498Szrj
38fd1498Szrj     -- Possibility 2: we do loop peeling:
38fd1498Szrj     for (i = 0; i < 3; i++){	# (scalar loop, not to be vectorized).
38fd1498Szrj	x = q[i];
38fd1498Szrj	p[i] = y;
38fd1498Szrj     }
38fd1498Szrj     for (i = 3; i < N; i++){	# loop 2A
38fd1498Szrj	x = q[i];			# DR_MISALIGNMENT(q) = 0
38fd1498Szrj	p[i] = y;			# DR_MISALIGNMENT(p) = unknown
38fd1498Szrj     }
38fd1498Szrj
38fd1498Szrj     -- Possibility 3: combination of loop peeling and versioning:
38fd1498Szrj     for (i = 0; i < 3; i++){	# (scalar loop, not to be vectorized).
38fd1498Szrj	x = q[i];
38fd1498Szrj	p[i] = y;
38fd1498Szrj     }
38fd1498Szrj     if (p is aligned) {
38fd1498Szrj	for (i = 3; i<N; i++){	# loop 3A
38fd1498Szrj	  x = q[i];			# DR_MISALIGNMENT(q) = 0
38fd1498Szrj	  p[i] = y;			# DR_MISALIGNMENT(p) = 0
38fd1498Szrj	}
38fd1498Szrj     }
38fd1498Szrj     else {
38fd1498Szrj	for (i = 3; i<N; i++){	# loop 3B
38fd1498Szrj	  x = q[i];			# DR_MISALIGNMENT(q) = 0
38fd1498Szrj	  p[i] = y;			# DR_MISALIGNMENT(p) = unaligned
38fd1498Szrj	}
38fd1498Szrj     }
38fd1498Szrj
38fd1498Szrj     These loops are later passed to loop_transform to be vectorized.  The
38fd1498Szrj     vectorizer will use the alignment information to guide the transformation
38fd1498Szrj     (whether to generate regular loads/stores, or with special handling for
38fd1498Szrj     misalignment).  */
38fd1498Szrj
38fd1498Szrjbool
38fd1498Szrjvect_enhance_data_refs_alignment (loop_vec_info loop_vinfo)
38fd1498Szrj{
38fd1498Szrj  vec<data_reference_p> datarefs = LOOP_VINFO_DATAREFS (loop_vinfo);
38fd1498Szrj  struct loop *loop = LOOP_VINFO_LOOP (loop_vinfo);
38fd1498Szrj  enum dr_alignment_support supportable_dr_alignment;
38fd1498Szrj  struct data_reference *dr0 = NULL, *first_store = NULL;
38fd1498Szrj  struct data_reference *dr;
38fd1498Szrj  unsigned int i, j;
38fd1498Szrj  bool do_peeling = false;
38fd1498Szrj  bool do_versioning = false;
38fd1498Szrj  bool stat;
38fd1498Szrj  gimple *stmt;
38fd1498Szrj  stmt_vec_info stmt_info;
38fd1498Szrj  unsigned int npeel = 0;
38fd1498Szrj  bool one_misalignment_known = false;
38fd1498Szrj  bool one_misalignment_unknown = false;
38fd1498Szrj  bool one_dr_unsupportable = false;
38fd1498Szrj  struct data_reference *unsupportable_dr = NULL;
38fd1498Szrj  poly_uint64 vf = LOOP_VINFO_VECT_FACTOR (loop_vinfo);
38fd1498Szrj  unsigned possible_npeel_number = 1;
38fd1498Szrj  tree vectype;
38fd1498Szrj  unsigned int mis, same_align_drs_max = 0;
38fd1498Szrj  hash_table<peel_info_hasher> peeling_htab (1);
38fd1498Szrj
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                     "=== vect_enhance_data_refs_alignment ===\n");
38fd1498Szrj
38fd1498Szrj  /* Reset data so we can safely be called multiple times.  */
38fd1498Szrj  LOOP_VINFO_MAY_MISALIGN_STMTS (loop_vinfo).truncate (0);
38fd1498Szrj  LOOP_VINFO_PEELING_FOR_ALIGNMENT (loop_vinfo) = 0;
38fd1498Szrj
38fd1498Szrj  /* While cost model enhancements are expected in the future, the high level
38fd1498Szrj     view of the code at this time is as follows:
38fd1498Szrj
38fd1498Szrj     A) If there is a misaligned access then see if peeling to align
38fd1498Szrj        this access can make all data references satisfy
38fd1498Szrj        vect_supportable_dr_alignment.  If so, update data structures
38fd1498Szrj        as needed and return true.
38fd1498Szrj
38fd1498Szrj     B) If peeling wasn't possible and there is a data reference with an
38fd1498Szrj        unknown misalignment that does not satisfy vect_supportable_dr_alignment
38fd1498Szrj        then see if loop versioning checks can be used to make all data
38fd1498Szrj        references satisfy vect_supportable_dr_alignment.  If so, update
38fd1498Szrj        data structures as needed and return true.
38fd1498Szrj
38fd1498Szrj     C) If neither peeling nor versioning were successful then return false if
38fd1498Szrj        any data reference does not satisfy vect_supportable_dr_alignment.
38fd1498Szrj
38fd1498Szrj     D) Return true (all data references satisfy vect_supportable_dr_alignment).
38fd1498Szrj
38fd1498Szrj     Note, Possibility 3 above (which is peeling and versioning together) is not
38fd1498Szrj     being done at this time.  */
38fd1498Szrj
38fd1498Szrj  /* (1) Peeling to force alignment.  */
38fd1498Szrj
38fd1498Szrj  /* (1.1) Decide whether to perform peeling, and how many iterations to peel:
38fd1498Szrj     Considerations:
38fd1498Szrj     + How many accesses will become aligned due to the peeling
38fd1498Szrj     - How many accesses will become unaligned due to the peeling,
38fd1498Szrj       and the cost of misaligned accesses.
38fd1498Szrj     - The cost of peeling (the extra runtime checks, the increase
38fd1498Szrj       in code size).  */
38fd1498Szrj
38fd1498Szrj  FOR_EACH_VEC_ELT (datarefs, i, dr)
38fd1498Szrj    {
38fd1498Szrj      stmt = DR_STMT (dr);
38fd1498Szrj      stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj
38fd1498Szrj      if (!STMT_VINFO_RELEVANT_P (stmt_info))
38fd1498Szrj	continue;
38fd1498Szrj
38fd1498Szrj      /* For interleaving, only the alignment of the first access
38fd1498Szrj         matters.  */
38fd1498Szrj      if (STMT_VINFO_GROUPED_ACCESS (stmt_info)
38fd1498Szrj          && GROUP_FIRST_ELEMENT (stmt_info) != stmt)
38fd1498Szrj        continue;
38fd1498Szrj
38fd1498Szrj      /* For invariant accesses there is nothing to enhance.  */
38fd1498Szrj      if (integer_zerop (DR_STEP (dr)))
38fd1498Szrj	continue;
38fd1498Szrj
38fd1498Szrj      /* Strided accesses perform only component accesses, alignment is
38fd1498Szrj	 irrelevant for them.  */
38fd1498Szrj      if (STMT_VINFO_STRIDED_P (stmt_info)
38fd1498Szrj	  && !STMT_VINFO_GROUPED_ACCESS (stmt_info))
38fd1498Szrj	continue;
38fd1498Szrj
38fd1498Szrj      supportable_dr_alignment = vect_supportable_dr_alignment (dr, true);
38fd1498Szrj      do_peeling = vector_alignment_reachable_p (dr);
38fd1498Szrj      if (do_peeling)
38fd1498Szrj        {
38fd1498Szrj          if (known_alignment_for_access_p (dr))
38fd1498Szrj            {
38fd1498Szrj	      unsigned int npeel_tmp = 0;
38fd1498Szrj	      bool negative = tree_int_cst_compare (DR_STEP (dr),
38fd1498Szrj						    size_zero_node) < 0;
38fd1498Szrj
38fd1498Szrj	      vectype = STMT_VINFO_VECTYPE (stmt_info);
38fd1498Szrj	      unsigned int target_align = DR_TARGET_ALIGNMENT (dr);
38fd1498Szrj	      unsigned int dr_size = vect_get_scalar_dr_size (dr);
38fd1498Szrj	      mis = (negative ? DR_MISALIGNMENT (dr) : -DR_MISALIGNMENT (dr));
38fd1498Szrj	      if (DR_MISALIGNMENT (dr) != 0)
38fd1498Szrj		npeel_tmp = (mis & (target_align - 1)) / dr_size;
38fd1498Szrj
38fd1498Szrj              /* For multiple types, it is possible that the bigger type access
38fd1498Szrj                 will have more than one peeling option.  E.g., a loop with two
38fd1498Szrj                 types: one of size (vector size / 4), and the other one of
38fd1498Szrj                 size (vector size / 8).  Vectorization factor will 8.  If both
38fd1498Szrj                 accesses are misaligned by 3, the first one needs one scalar
38fd1498Szrj                 iteration to be aligned, and the second one needs 5.  But the
38fd1498Szrj		 first one will be aligned also by peeling 5 scalar
38fd1498Szrj                 iterations, and in that case both accesses will be aligned.
38fd1498Szrj                 Hence, except for the immediate peeling amount, we also want
38fd1498Szrj                 to try to add full vector size, while we don't exceed
38fd1498Szrj                 vectorization factor.
38fd1498Szrj                 We do this automatically for cost model, since we calculate
38fd1498Szrj		 cost for every peeling option.  */
38fd1498Szrj              if (unlimited_cost_model (LOOP_VINFO_LOOP (loop_vinfo)))
38fd1498Szrj		{
38fd1498Szrj		  poly_uint64 nscalars = (STMT_SLP_TYPE (stmt_info)
38fd1498Szrj					  ? vf * GROUP_SIZE (stmt_info) : vf);
38fd1498Szrj		  possible_npeel_number
38fd1498Szrj		    = vect_get_num_vectors (nscalars, vectype);
38fd1498Szrj
38fd1498Szrj		  /* NPEEL_TMP is 0 when there is no misalignment, but also
38fd1498Szrj		     allow peeling NELEMENTS.  */
38fd1498Szrj		  if (DR_MISALIGNMENT (dr) == 0)
38fd1498Szrj		    possible_npeel_number++;
38fd1498Szrj		}
38fd1498Szrj
38fd1498Szrj	      /* Save info about DR in the hash table.  Also include peeling
38fd1498Szrj	         amounts according to the explanation above.  */
38fd1498Szrj              for (j = 0; j < possible_npeel_number; j++)
38fd1498Szrj                {
38fd1498Szrj                  vect_peeling_hash_insert (&peeling_htab, loop_vinfo,
38fd1498Szrj					    dr, npeel_tmp);
38fd1498Szrj		  npeel_tmp += target_align / dr_size;
38fd1498Szrj                }
38fd1498Szrj
38fd1498Szrj	      one_misalignment_known = true;
38fd1498Szrj            }
38fd1498Szrj          else
38fd1498Szrj            {
38fd1498Szrj              /* If we don't know any misalignment values, we prefer
38fd1498Szrj                 peeling for data-ref that has the maximum number of data-refs
38fd1498Szrj                 with the same alignment, unless the target prefers to align
38fd1498Szrj                 stores over load.  */
38fd1498Szrj	      unsigned same_align_drs
38fd1498Szrj		= STMT_VINFO_SAME_ALIGN_REFS (stmt_info).length ();
38fd1498Szrj	      if (!dr0
38fd1498Szrj		  || same_align_drs_max < same_align_drs)
38fd1498Szrj		{
38fd1498Szrj		  same_align_drs_max = same_align_drs;
38fd1498Szrj		  dr0 = dr;
38fd1498Szrj		}
38fd1498Szrj	      /* For data-refs with the same number of related
38fd1498Szrj		 accesses prefer the one where the misalign
38fd1498Szrj		 computation will be invariant in the outermost loop.  */
38fd1498Szrj	      else if (same_align_drs_max == same_align_drs)
38fd1498Szrj		{
38fd1498Szrj		  struct loop *ivloop0, *ivloop;
38fd1498Szrj		  ivloop0 = outermost_invariant_loop_for_expr
38fd1498Szrj		    (loop, DR_BASE_ADDRESS (dr0));
38fd1498Szrj		  ivloop = outermost_invariant_loop_for_expr
38fd1498Szrj		    (loop, DR_BASE_ADDRESS (dr));
38fd1498Szrj		  if ((ivloop && !ivloop0)
38fd1498Szrj		      || (ivloop && ivloop0
38fd1498Szrj			  && flow_loop_nested_p (ivloop, ivloop0)))
38fd1498Szrj		    dr0 = dr;
38fd1498Szrj		}
38fd1498Szrj
38fd1498Szrj	      one_misalignment_unknown = true;
38fd1498Szrj
38fd1498Szrj	      /* Check for data refs with unsupportable alignment that
38fd1498Szrj	         can be peeled.  */
38fd1498Szrj	      if (!supportable_dr_alignment)
38fd1498Szrj	      {
38fd1498Szrj		one_dr_unsupportable = true;
38fd1498Szrj		unsupportable_dr = dr;
38fd1498Szrj	      }
38fd1498Szrj
38fd1498Szrj	      if (!first_store && DR_IS_WRITE (dr))
38fd1498Szrj		first_store = dr;
38fd1498Szrj            }
38fd1498Szrj        }
38fd1498Szrj      else
38fd1498Szrj        {
38fd1498Szrj          if (!aligned_access_p (dr))
38fd1498Szrj            {
38fd1498Szrj              if (dump_enabled_p ())
38fd1498Szrj                dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj                                 "vector alignment may not be reachable\n");
38fd1498Szrj              break;
38fd1498Szrj            }
38fd1498Szrj        }
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* Check if we can possibly peel the loop.  */
38fd1498Szrj  if (!vect_can_advance_ivs_p (loop_vinfo)
38fd1498Szrj      || !slpeel_can_duplicate_loop_p (loop, single_exit (loop))
38fd1498Szrj      || loop->inner)
38fd1498Szrj    do_peeling = false;
38fd1498Szrj
38fd1498Szrj  struct _vect_peel_extended_info peel_for_known_alignment;
38fd1498Szrj  struct _vect_peel_extended_info peel_for_unknown_alignment;
38fd1498Szrj  struct _vect_peel_extended_info best_peel;
38fd1498Szrj
38fd1498Szrj  peel_for_unknown_alignment.inside_cost = INT_MAX;
38fd1498Szrj  peel_for_unknown_alignment.outside_cost = INT_MAX;
38fd1498Szrj  peel_for_unknown_alignment.peel_info.count = 0;
38fd1498Szrj
38fd1498Szrj  if (do_peeling
38fd1498Szrj      && one_misalignment_unknown)
38fd1498Szrj    {
38fd1498Szrj      /* Check if the target requires to prefer stores over loads, i.e., if
38fd1498Szrj         misaligned stores are more expensive than misaligned loads (taking
38fd1498Szrj         drs with same alignment into account).  */
38fd1498Szrj      unsigned int load_inside_cost = 0;
38fd1498Szrj      unsigned int load_outside_cost = 0;
38fd1498Szrj      unsigned int store_inside_cost = 0;
38fd1498Szrj      unsigned int store_outside_cost = 0;
38fd1498Szrj      unsigned int estimated_npeels = vect_vf_for_cost (loop_vinfo) / 2;
38fd1498Szrj
38fd1498Szrj      stmt_vector_for_cost dummy;
38fd1498Szrj      dummy.create (2);
38fd1498Szrj      vect_get_peeling_costs_all_drs (datarefs, dr0,
38fd1498Szrj				      &load_inside_cost,
38fd1498Szrj				      &load_outside_cost,
38fd1498Szrj				      &dummy, estimated_npeels, true);
38fd1498Szrj      dummy.release ();
38fd1498Szrj
38fd1498Szrj      if (first_store)
38fd1498Szrj	{
38fd1498Szrj	  dummy.create (2);
38fd1498Szrj	  vect_get_peeling_costs_all_drs (datarefs, first_store,
38fd1498Szrj					  &store_inside_cost,
38fd1498Szrj					  &store_outside_cost,
38fd1498Szrj					  &dummy, estimated_npeels, true);
38fd1498Szrj	  dummy.release ();
38fd1498Szrj	}
38fd1498Szrj      else
38fd1498Szrj	{
38fd1498Szrj	  store_inside_cost = INT_MAX;
38fd1498Szrj	  store_outside_cost = INT_MAX;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      if (load_inside_cost > store_inside_cost
38fd1498Szrj	  || (load_inside_cost == store_inside_cost
38fd1498Szrj	      && load_outside_cost > store_outside_cost))
38fd1498Szrj	{
38fd1498Szrj	  dr0 = first_store;
38fd1498Szrj	  peel_for_unknown_alignment.inside_cost = store_inside_cost;
38fd1498Szrj	  peel_for_unknown_alignment.outside_cost = store_outside_cost;
38fd1498Szrj	}
38fd1498Szrj      else
38fd1498Szrj	{
38fd1498Szrj	  peel_for_unknown_alignment.inside_cost = load_inside_cost;
38fd1498Szrj	  peel_for_unknown_alignment.outside_cost = load_outside_cost;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      stmt_vector_for_cost prologue_cost_vec, epilogue_cost_vec;
38fd1498Szrj      prologue_cost_vec.create (2);
38fd1498Szrj      epilogue_cost_vec.create (2);
38fd1498Szrj
38fd1498Szrj      int dummy2;
38fd1498Szrj      peel_for_unknown_alignment.outside_cost += vect_get_known_peeling_cost
38fd1498Szrj	(loop_vinfo, estimated_npeels, &dummy2,
38fd1498Szrj	 &LOOP_VINFO_SCALAR_ITERATION_COST (loop_vinfo),
38fd1498Szrj	 &prologue_cost_vec, &epilogue_cost_vec);
38fd1498Szrj
38fd1498Szrj      prologue_cost_vec.release ();
38fd1498Szrj      epilogue_cost_vec.release ();
38fd1498Szrj
38fd1498Szrj      peel_for_unknown_alignment.peel_info.count = 1
38fd1498Szrj	+ STMT_VINFO_SAME_ALIGN_REFS
38fd1498Szrj	(vinfo_for_stmt (DR_STMT (dr0))).length ();
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  peel_for_unknown_alignment.peel_info.npeel = 0;
38fd1498Szrj  peel_for_unknown_alignment.peel_info.dr = dr0;
38fd1498Szrj
38fd1498Szrj  best_peel = peel_for_unknown_alignment;
38fd1498Szrj
38fd1498Szrj  peel_for_known_alignment.inside_cost = INT_MAX;
38fd1498Szrj  peel_for_known_alignment.outside_cost = INT_MAX;
38fd1498Szrj  peel_for_known_alignment.peel_info.count = 0;
38fd1498Szrj  peel_for_known_alignment.peel_info.dr = NULL;
38fd1498Szrj
38fd1498Szrj  if (do_peeling && one_misalignment_known)
38fd1498Szrj    {
38fd1498Szrj      /* Peeling is possible, but there is no data access that is not supported
38fd1498Szrj         unless aligned.  So we try to choose the best possible peeling from
38fd1498Szrj	 the hash table.  */
38fd1498Szrj      peel_for_known_alignment = vect_peeling_hash_choose_best_peeling
38fd1498Szrj	(&peeling_htab, loop_vinfo);
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* Compare costs of peeling for known and unknown alignment. */
38fd1498Szrj  if (peel_for_known_alignment.peel_info.dr != NULL
38fd1498Szrj      && peel_for_unknown_alignment.inside_cost
38fd1498Szrj      >= peel_for_known_alignment.inside_cost)
38fd1498Szrj    {
38fd1498Szrj      best_peel = peel_for_known_alignment;
38fd1498Szrj
38fd1498Szrj      /* If the best peeling for known alignment has NPEEL == 0, perform no
38fd1498Szrj         peeling at all except if there is an unsupportable dr that we can
38fd1498Szrj         align.  */
38fd1498Szrj      if (best_peel.peel_info.npeel == 0 && !one_dr_unsupportable)
38fd1498Szrj	do_peeling = false;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* If there is an unsupportable data ref, prefer this over all choices so far
38fd1498Szrj     since we'd have to discard a chosen peeling except when it accidentally
38fd1498Szrj     aligned the unsupportable data ref.  */
38fd1498Szrj  if (one_dr_unsupportable)
38fd1498Szrj    dr0 = unsupportable_dr;
38fd1498Szrj  else if (do_peeling)
38fd1498Szrj    {
38fd1498Szrj      /* Calculate the penalty for no peeling, i.e. leaving everything as-is.
38fd1498Szrj	 TODO: Use nopeel_outside_cost or get rid of it?  */
38fd1498Szrj      unsigned nopeel_inside_cost = 0;
38fd1498Szrj      unsigned nopeel_outside_cost = 0;
38fd1498Szrj
38fd1498Szrj      stmt_vector_for_cost dummy;
38fd1498Szrj      dummy.create (2);
38fd1498Szrj      vect_get_peeling_costs_all_drs (datarefs, NULL, &nopeel_inside_cost,
38fd1498Szrj				      &nopeel_outside_cost, &dummy, 0, false);
38fd1498Szrj      dummy.release ();
38fd1498Szrj
38fd1498Szrj      /* Add epilogue costs.  As we do not peel for alignment here, no prologue
38fd1498Szrj	 costs will be recorded.  */
38fd1498Szrj      stmt_vector_for_cost prologue_cost_vec, epilogue_cost_vec;
38fd1498Szrj      prologue_cost_vec.create (2);
38fd1498Szrj      epilogue_cost_vec.create (2);
38fd1498Szrj
38fd1498Szrj      int dummy2;
38fd1498Szrj      nopeel_outside_cost += vect_get_known_peeling_cost
38fd1498Szrj	(loop_vinfo, 0, &dummy2,
38fd1498Szrj	 &LOOP_VINFO_SCALAR_ITERATION_COST (loop_vinfo),
38fd1498Szrj	 &prologue_cost_vec, &epilogue_cost_vec);
38fd1498Szrj
38fd1498Szrj      prologue_cost_vec.release ();
38fd1498Szrj      epilogue_cost_vec.release ();
38fd1498Szrj
38fd1498Szrj      npeel = best_peel.peel_info.npeel;
38fd1498Szrj      dr0 = best_peel.peel_info.dr;
38fd1498Szrj
38fd1498Szrj      /* If no peeling is not more expensive than the best peeling we
38fd1498Szrj	 have so far, don't perform any peeling.  */
38fd1498Szrj      if (nopeel_inside_cost <= best_peel.inside_cost)
38fd1498Szrj	do_peeling = false;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (do_peeling)
38fd1498Szrj    {
38fd1498Szrj      stmt = DR_STMT (dr0);
38fd1498Szrj      stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj      vectype = STMT_VINFO_VECTYPE (stmt_info);
38fd1498Szrj
38fd1498Szrj      if (known_alignment_for_access_p (dr0))
38fd1498Szrj        {
38fd1498Szrj	  bool negative = tree_int_cst_compare (DR_STEP (dr0),
38fd1498Szrj						size_zero_node) < 0;
38fd1498Szrj          if (!npeel)
38fd1498Szrj            {
38fd1498Szrj              /* Since it's known at compile time, compute the number of
38fd1498Szrj                 iterations in the peeled loop (the peeling factor) for use in
38fd1498Szrj                 updating DR_MISALIGNMENT values.  The peeling factor is the
38fd1498Szrj                 vectorization factor minus the misalignment as an element
38fd1498Szrj                 count.  */
38fd1498Szrj	      mis = negative ? DR_MISALIGNMENT (dr0) : -DR_MISALIGNMENT (dr0);
38fd1498Szrj	      unsigned int target_align = DR_TARGET_ALIGNMENT (dr0);
38fd1498Szrj	      npeel = ((mis & (target_align - 1))
38fd1498Szrj		       / vect_get_scalar_dr_size (dr0));
38fd1498Szrj            }
38fd1498Szrj
38fd1498Szrj	  /* For interleaved data access every iteration accesses all the
38fd1498Szrj	     members of the group, therefore we divide the number of iterations
38fd1498Szrj	     by the group size.  */
38fd1498Szrj	  stmt_info = vinfo_for_stmt (DR_STMT (dr0));
38fd1498Szrj	  if (STMT_VINFO_GROUPED_ACCESS (stmt_info))
38fd1498Szrj	    npeel /= GROUP_SIZE (stmt_info);
38fd1498Szrj
38fd1498Szrj          if (dump_enabled_p ())
38fd1498Szrj            dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                             "Try peeling by %d\n", npeel);
38fd1498Szrj        }
38fd1498Szrj
38fd1498Szrj      /* Ensure that all datarefs can be vectorized after the peel.  */
38fd1498Szrj      if (!vect_peeling_supportable (loop_vinfo, dr0, npeel))
38fd1498Szrj	do_peeling = false;
38fd1498Szrj
38fd1498Szrj      /* Check if all datarefs are supportable and log.  */
38fd1498Szrj      if (do_peeling && known_alignment_for_access_p (dr0) && npeel == 0)
38fd1498Szrj        {
38fd1498Szrj          stat = vect_verify_datarefs_alignment (loop_vinfo);
38fd1498Szrj          if (!stat)
38fd1498Szrj            do_peeling = false;
38fd1498Szrj          else
38fd1498Szrj	    return stat;
38fd1498Szrj        }
38fd1498Szrj
38fd1498Szrj      /* Cost model #1 - honor --param vect-max-peeling-for-alignment.  */
38fd1498Szrj      if (do_peeling)
38fd1498Szrj        {
38fd1498Szrj          unsigned max_allowed_peel
38fd1498Szrj            = PARAM_VALUE (PARAM_VECT_MAX_PEELING_FOR_ALIGNMENT);
38fd1498Szrj          if (max_allowed_peel != (unsigned)-1)
38fd1498Szrj            {
38fd1498Szrj              unsigned max_peel = npeel;
38fd1498Szrj              if (max_peel == 0)
38fd1498Szrj                {
38fd1498Szrj		  unsigned int target_align = DR_TARGET_ALIGNMENT (dr0);
38fd1498Szrj		  max_peel = target_align / vect_get_scalar_dr_size (dr0) - 1;
38fd1498Szrj                }
38fd1498Szrj              if (max_peel > max_allowed_peel)
38fd1498Szrj                {
38fd1498Szrj                  do_peeling = false;
38fd1498Szrj                  if (dump_enabled_p ())
38fd1498Szrj                    dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                        "Disable peeling, max peels reached: %d\n", max_peel);
38fd1498Szrj                }
38fd1498Szrj            }
38fd1498Szrj        }
38fd1498Szrj
38fd1498Szrj      /* Cost model #2 - if peeling may result in a remaining loop not
38fd1498Szrj	 iterating enough to be vectorized then do not peel.  Since this
38fd1498Szrj	 is a cost heuristic rather than a correctness decision, use the
38fd1498Szrj	 most likely runtime value for variable vectorization factors.  */
38fd1498Szrj      if (do_peeling
38fd1498Szrj	  && LOOP_VINFO_NITERS_KNOWN_P (loop_vinfo))
38fd1498Szrj	{
38fd1498Szrj	  unsigned int assumed_vf = vect_vf_for_cost (loop_vinfo);
38fd1498Szrj	  unsigned int max_peel = npeel == 0 ? assumed_vf - 1 : npeel;
38fd1498Szrj	  if ((unsigned HOST_WIDE_INT) LOOP_VINFO_INT_NITERS (loop_vinfo)
38fd1498Szrj	      < assumed_vf + max_peel)
38fd1498Szrj	    do_peeling = false;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      if (do_peeling)
38fd1498Szrj        {
38fd1498Szrj          /* (1.2) Update the DR_MISALIGNMENT of each data reference DR_i.
38fd1498Szrj             If the misalignment of DR_i is identical to that of dr0 then set
38fd1498Szrj             DR_MISALIGNMENT (DR_i) to zero.  If the misalignment of DR_i and
38fd1498Szrj             dr0 are known at compile time then increment DR_MISALIGNMENT (DR_i)
38fd1498Szrj             by the peeling factor times the element size of DR_i (MOD the
38fd1498Szrj             vectorization factor times the size).  Otherwise, the
38fd1498Szrj             misalignment of DR_i must be set to unknown.  */
38fd1498Szrj	  FOR_EACH_VEC_ELT (datarefs, i, dr)
38fd1498Szrj	    if (dr != dr0)
38fd1498Szrj	      {
38fd1498Szrj		/* Strided accesses perform only component accesses, alignment
38fd1498Szrj		   is irrelevant for them.  */
38fd1498Szrj		stmt_info = vinfo_for_stmt (DR_STMT (dr));
38fd1498Szrj		if (STMT_VINFO_STRIDED_P (stmt_info)
38fd1498Szrj		    && !STMT_VINFO_GROUPED_ACCESS (stmt_info))
38fd1498Szrj		  continue;
38fd1498Szrj
38fd1498Szrj		vect_update_misalignment_for_peel (dr, dr0, npeel);
38fd1498Szrj	      }
38fd1498Szrj
38fd1498Szrj          LOOP_VINFO_UNALIGNED_DR (loop_vinfo) = dr0;
38fd1498Szrj          if (npeel)
38fd1498Szrj            LOOP_VINFO_PEELING_FOR_ALIGNMENT (loop_vinfo) = npeel;
38fd1498Szrj          else
38fd1498Szrj            LOOP_VINFO_PEELING_FOR_ALIGNMENT (loop_vinfo)
38fd1498Szrj	      = DR_MISALIGNMENT (dr0);
38fd1498Szrj	  SET_DR_MISALIGNMENT (dr0, 0);
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj            {
38fd1498Szrj              dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                               "Alignment of access forced using peeling.\n");
38fd1498Szrj              dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                               "Peeling for alignment will be applied.\n");
38fd1498Szrj            }
38fd1498Szrj
38fd1498Szrj	  /* The inside-loop cost will be accounted for in vectorizable_load
38fd1498Szrj	     and vectorizable_store correctly with adjusted alignments.
38fd1498Szrj	     Drop the body_cst_vec on the floor here.  */
38fd1498Szrj	  stat = vect_verify_datarefs_alignment (loop_vinfo);
38fd1498Szrj	  gcc_assert (stat);
38fd1498Szrj          return stat;
38fd1498Szrj        }
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* (2) Versioning to force alignment.  */
38fd1498Szrj
38fd1498Szrj  /* Try versioning if:
38fd1498Szrj     1) optimize loop for speed
38fd1498Szrj     2) there is at least one unsupported misaligned data ref with an unknown
38fd1498Szrj        misalignment, and
38fd1498Szrj     3) all misaligned data refs with a known misalignment are supported, and
38fd1498Szrj     4) the number of runtime alignment checks is within reason.  */
38fd1498Szrj
38fd1498Szrj  do_versioning =
38fd1498Szrj	optimize_loop_nest_for_speed_p (loop)
38fd1498Szrj	&& (!loop->inner); /* FORNOW */
38fd1498Szrj
38fd1498Szrj  if (do_versioning)
38fd1498Szrj    {
38fd1498Szrj      FOR_EACH_VEC_ELT (datarefs, i, dr)
38fd1498Szrj        {
38fd1498Szrj	  stmt = DR_STMT (dr);
38fd1498Szrj	  stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj
38fd1498Szrj	  /* For interleaving, only the alignment of the first access
38fd1498Szrj	     matters.  */
38fd1498Szrj	  if (aligned_access_p (dr)
38fd1498Szrj	      || (STMT_VINFO_GROUPED_ACCESS (stmt_info)
38fd1498Szrj		  && GROUP_FIRST_ELEMENT (stmt_info) != stmt))
38fd1498Szrj	    continue;
38fd1498Szrj
38fd1498Szrj	  if (STMT_VINFO_STRIDED_P (stmt_info))
38fd1498Szrj	    {
38fd1498Szrj	      /* Strided loads perform only component accesses, alignment is
38fd1498Szrj		 irrelevant for them.  */
38fd1498Szrj	      if (!STMT_VINFO_GROUPED_ACCESS (stmt_info))
38fd1498Szrj		continue;
38fd1498Szrj	      do_versioning = false;
38fd1498Szrj	      break;
38fd1498Szrj	    }
38fd1498Szrj
38fd1498Szrj	  supportable_dr_alignment = vect_supportable_dr_alignment (dr, false);
38fd1498Szrj
38fd1498Szrj          if (!supportable_dr_alignment)
38fd1498Szrj            {
38fd1498Szrj	      gimple *stmt;
38fd1498Szrj              int mask;
38fd1498Szrj              tree vectype;
38fd1498Szrj
38fd1498Szrj              if (known_alignment_for_access_p (dr)
38fd1498Szrj                  || LOOP_VINFO_MAY_MISALIGN_STMTS (loop_vinfo).length ()
38fd1498Szrj                     >= (unsigned) PARAM_VALUE (PARAM_VECT_MAX_VERSION_FOR_ALIGNMENT_CHECKS))
38fd1498Szrj                {
38fd1498Szrj                  do_versioning = false;
38fd1498Szrj                  break;
38fd1498Szrj                }
38fd1498Szrj
38fd1498Szrj              stmt = DR_STMT (dr);
38fd1498Szrj              vectype = STMT_VINFO_VECTYPE (vinfo_for_stmt (stmt));
38fd1498Szrj              gcc_assert (vectype);
38fd1498Szrj
38fd1498Szrj	      /* At present we don't support versioning for alignment
38fd1498Szrj		 with variable VF, since there's no guarantee that the
38fd1498Szrj		 VF is a power of two.  We could relax this if we added
38fd1498Szrj		 a way of enforcing a power-of-two size.  */
38fd1498Szrj	      unsigned HOST_WIDE_INT size;
38fd1498Szrj	      if (!GET_MODE_SIZE (TYPE_MODE (vectype)).is_constant (&size))
38fd1498Szrj		{
38fd1498Szrj		  do_versioning = false;
38fd1498Szrj		  break;
38fd1498Szrj		}
38fd1498Szrj
38fd1498Szrj              /* The rightmost bits of an aligned address must be zeros.
38fd1498Szrj                 Construct the mask needed for this test.  For example,
38fd1498Szrj                 GET_MODE_SIZE for the vector mode V4SI is 16 bytes so the
38fd1498Szrj                 mask must be 15 = 0xf. */
38fd1498Szrj	      mask = size - 1;
38fd1498Szrj
38fd1498Szrj              /* FORNOW: use the same mask to test all potentially unaligned
38fd1498Szrj                 references in the loop.  The vectorizer currently supports
38fd1498Szrj                 a single vector size, see the reference to
38fd1498Szrj                 GET_MODE_NUNITS (TYPE_MODE (vectype)) where the
38fd1498Szrj                 vectorization factor is computed.  */
38fd1498Szrj              gcc_assert (!LOOP_VINFO_PTR_MASK (loop_vinfo)
38fd1498Szrj                          || LOOP_VINFO_PTR_MASK (loop_vinfo) == mask);
38fd1498Szrj              LOOP_VINFO_PTR_MASK (loop_vinfo) = mask;
38fd1498Szrj              LOOP_VINFO_MAY_MISALIGN_STMTS (loop_vinfo).safe_push (
38fd1498Szrj		      DR_STMT (dr));
38fd1498Szrj            }
38fd1498Szrj        }
38fd1498Szrj
38fd1498Szrj      /* Versioning requires at least one misaligned data reference.  */
38fd1498Szrj      if (!LOOP_REQUIRES_VERSIONING_FOR_ALIGNMENT (loop_vinfo))
38fd1498Szrj        do_versioning = false;
38fd1498Szrj      else if (!do_versioning)
38fd1498Szrj        LOOP_VINFO_MAY_MISALIGN_STMTS (loop_vinfo).truncate (0);
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (do_versioning)
38fd1498Szrj    {
38fd1498Szrj      vec<gimple *> may_misalign_stmts
38fd1498Szrj        = LOOP_VINFO_MAY_MISALIGN_STMTS (loop_vinfo);
38fd1498Szrj      gimple *stmt;
38fd1498Szrj
38fd1498Szrj      /* It can now be assumed that the data references in the statements
38fd1498Szrj         in LOOP_VINFO_MAY_MISALIGN_STMTS will be aligned in the version
38fd1498Szrj         of the loop being vectorized.  */
38fd1498Szrj      FOR_EACH_VEC_ELT (may_misalign_stmts, i, stmt)
38fd1498Szrj        {
38fd1498Szrj          stmt_vec_info stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj          dr = STMT_VINFO_DATA_REF (stmt_info);
38fd1498Szrj	  SET_DR_MISALIGNMENT (dr, 0);
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj            dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                             "Alignment of access forced using versioning.\n");
38fd1498Szrj        }
38fd1498Szrj
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj        dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                         "Versioning for alignment will be applied.\n");
38fd1498Szrj
38fd1498Szrj      /* Peeling and versioning can't be done together at this time.  */
38fd1498Szrj      gcc_assert (! (do_peeling && do_versioning));
38fd1498Szrj
38fd1498Szrj      stat = vect_verify_datarefs_alignment (loop_vinfo);
38fd1498Szrj      gcc_assert (stat);
38fd1498Szrj      return stat;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* This point is reached if neither peeling nor versioning is being done.  */
38fd1498Szrj  gcc_assert (! (do_peeling || do_versioning));
38fd1498Szrj
38fd1498Szrj  stat = vect_verify_datarefs_alignment (loop_vinfo);
38fd1498Szrj  return stat;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Function vect_find_same_alignment_drs.
38fd1498Szrj
38fd1498Szrj   Update group and alignment relations according to the chosen
38fd1498Szrj   vectorization factor.  */
38fd1498Szrj
38fd1498Szrjstatic void
38fd1498Szrjvect_find_same_alignment_drs (struct data_dependence_relation *ddr)
38fd1498Szrj{
38fd1498Szrj  struct data_reference *dra = DDR_A (ddr);
38fd1498Szrj  struct data_reference *drb = DDR_B (ddr);
38fd1498Szrj  stmt_vec_info stmtinfo_a = vinfo_for_stmt (DR_STMT (dra));
38fd1498Szrj  stmt_vec_info stmtinfo_b = vinfo_for_stmt (DR_STMT (drb));
38fd1498Szrj
38fd1498Szrj  if (DDR_ARE_DEPENDENT (ddr) == chrec_known)
38fd1498Szrj    return;
38fd1498Szrj
38fd1498Szrj  if (dra == drb)
38fd1498Szrj    return;
38fd1498Szrj
38fd1498Szrj  if (!operand_equal_p (DR_BASE_ADDRESS (dra), DR_BASE_ADDRESS (drb), 0)
38fd1498Szrj      || !operand_equal_p (DR_OFFSET (dra), DR_OFFSET (drb), 0)
38fd1498Szrj      || !operand_equal_p (DR_STEP (dra), DR_STEP (drb), 0))
38fd1498Szrj    return;
38fd1498Szrj
38fd1498Szrj  /* Two references with distance zero have the same alignment.  */
38fd1498Szrj  poly_offset_int diff = (wi::to_poly_offset (DR_INIT (dra))
38fd1498Szrj			  - wi::to_poly_offset (DR_INIT (drb)));
38fd1498Szrj  if (maybe_ne (diff, 0))
38fd1498Szrj    {
38fd1498Szrj      /* Get the wider of the two alignments.  */
38fd1498Szrj      unsigned int align_a = (vect_calculate_target_alignment (dra)
38fd1498Szrj			      / BITS_PER_UNIT);
38fd1498Szrj      unsigned int align_b = (vect_calculate_target_alignment (drb)
38fd1498Szrj			      / BITS_PER_UNIT);
38fd1498Szrj      unsigned int max_align = MAX (align_a, align_b);
38fd1498Szrj
38fd1498Szrj      /* Require the gap to be a multiple of the larger vector alignment.  */
38fd1498Szrj      if (!multiple_p (diff, max_align))
38fd1498Szrj	return;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  STMT_VINFO_SAME_ALIGN_REFS (stmtinfo_a).safe_push (drb);
38fd1498Szrj  STMT_VINFO_SAME_ALIGN_REFS (stmtinfo_b).safe_push (dra);
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    {
38fd1498Szrj      dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj		       "accesses have the same alignment: ");
38fd1498Szrj      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (dra));
38fd1498Szrj      dump_printf (MSG_NOTE,  " and ");
38fd1498Szrj      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (drb));
38fd1498Szrj      dump_printf (MSG_NOTE, "\n");
38fd1498Szrj    }
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Function vect_analyze_data_refs_alignment
38fd1498Szrj
38fd1498Szrj   Analyze the alignment of the data-references in the loop.
38fd1498Szrj   Return FALSE if a data reference is found that cannot be vectorized.  */
38fd1498Szrj
38fd1498Szrjbool
38fd1498Szrjvect_analyze_data_refs_alignment (loop_vec_info vinfo)
38fd1498Szrj{
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                     "=== vect_analyze_data_refs_alignment ===\n");
38fd1498Szrj
38fd1498Szrj  /* Mark groups of data references with same alignment using
38fd1498Szrj     data dependence information.  */
38fd1498Szrj  vec<ddr_p> ddrs = vinfo->ddrs;
38fd1498Szrj  struct data_dependence_relation *ddr;
38fd1498Szrj  unsigned int i;
38fd1498Szrj
38fd1498Szrj  FOR_EACH_VEC_ELT (ddrs, i, ddr)
38fd1498Szrj    vect_find_same_alignment_drs (ddr);
38fd1498Szrj
38fd1498Szrj  vec<data_reference_p> datarefs = vinfo->datarefs;
38fd1498Szrj  struct data_reference *dr;
38fd1498Szrj
38fd1498Szrj  vect_record_base_alignments (vinfo);
38fd1498Szrj  FOR_EACH_VEC_ELT (datarefs, i, dr)
38fd1498Szrj    {
38fd1498Szrj      stmt_vec_info stmt_info = vinfo_for_stmt (DR_STMT (dr));
38fd1498Szrj      if (STMT_VINFO_VECTORIZABLE (stmt_info)
38fd1498Szrj	  && !vect_compute_data_ref_alignment (dr))
38fd1498Szrj	{
38fd1498Szrj	  /* Strided accesses perform only component accesses, misalignment
38fd1498Szrj	     information is irrelevant for them.  */
38fd1498Szrj	  if (STMT_VINFO_STRIDED_P (stmt_info)
38fd1498Szrj	      && !STMT_VINFO_GROUPED_ACCESS (stmt_info))
38fd1498Szrj	    continue;
38fd1498Szrj
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			     "not vectorized: can't calculate alignment "
38fd1498Szrj			     "for data ref.\n");
38fd1498Szrj
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Analyze alignment of DRs of stmts in NODE.  */
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjvect_slp_analyze_and_verify_node_alignment (slp_tree node)
38fd1498Szrj{
38fd1498Szrj  /* We vectorize from the first scalar stmt in the node unless
38fd1498Szrj     the node is permuted in which case we start from the first
38fd1498Szrj     element in the group.  */
38fd1498Szrj  gimple *first_stmt = SLP_TREE_SCALAR_STMTS (node)[0];
38fd1498Szrj  data_reference_p first_dr = STMT_VINFO_DATA_REF (vinfo_for_stmt (first_stmt));
38fd1498Szrj  if (SLP_TREE_LOAD_PERMUTATION (node).exists ())
38fd1498Szrj    first_stmt = GROUP_FIRST_ELEMENT (vinfo_for_stmt (first_stmt));
38fd1498Szrj
38fd1498Szrj  data_reference_p dr = STMT_VINFO_DATA_REF (vinfo_for_stmt (first_stmt));
38fd1498Szrj  if (! vect_compute_data_ref_alignment (dr)
38fd1498Szrj      /* For creating the data-ref pointer we need alignment of the
38fd1498Szrj	 first element anyway.  */
38fd1498Szrj      || (dr != first_dr
38fd1498Szrj	  && ! vect_compute_data_ref_alignment (first_dr))
38fd1498Szrj      || ! verify_data_ref_alignment (dr))
38fd1498Szrj    {
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj	dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			 "not vectorized: bad data alignment in basic "
38fd1498Szrj			 "block.\n");
38fd1498Szrj      return false;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Function vect_slp_analyze_instance_alignment
38fd1498Szrj
38fd1498Szrj   Analyze the alignment of the data-references in the SLP instance.
38fd1498Szrj   Return FALSE if a data reference is found that cannot be vectorized.  */
38fd1498Szrj
38fd1498Szrjbool
38fd1498Szrjvect_slp_analyze_and_verify_instance_alignment (slp_instance instance)
38fd1498Szrj{
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                     "=== vect_slp_analyze_and_verify_instance_alignment ===\n");
38fd1498Szrj
38fd1498Szrj  slp_tree node;
38fd1498Szrj  unsigned i;
38fd1498Szrj  FOR_EACH_VEC_ELT (SLP_INSTANCE_LOADS (instance), i, node)
38fd1498Szrj    if (! vect_slp_analyze_and_verify_node_alignment (node))
38fd1498Szrj      return false;
38fd1498Szrj
38fd1498Szrj  node = SLP_INSTANCE_TREE (instance);
38fd1498Szrj  if (STMT_VINFO_DATA_REF (vinfo_for_stmt (SLP_TREE_SCALAR_STMTS (node)[0]))
38fd1498Szrj      && ! vect_slp_analyze_and_verify_node_alignment
38fd1498Szrj	     (SLP_INSTANCE_TREE (instance)))
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Analyze groups of accesses: check that DR belongs to a group of
38fd1498Szrj   accesses of legal size, step, etc.  Detect gaps, single element
38fd1498Szrj   interleaving, and other special cases. Set grouped access info.
38fd1498Szrj   Collect groups of strided stores for further use in SLP analysis.
38fd1498Szrj   Worker for vect_analyze_group_access.  */
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjvect_analyze_group_access_1 (struct data_reference *dr)
38fd1498Szrj{
38fd1498Szrj  tree step = DR_STEP (dr);
38fd1498Szrj  tree scalar_type = TREE_TYPE (DR_REF (dr));
38fd1498Szrj  HOST_WIDE_INT type_size = TREE_INT_CST_LOW (TYPE_SIZE_UNIT (scalar_type));
38fd1498Szrj  gimple *stmt = DR_STMT (dr);
38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj  loop_vec_info loop_vinfo = STMT_VINFO_LOOP_VINFO (stmt_info);
38fd1498Szrj  bb_vec_info bb_vinfo = STMT_VINFO_BB_VINFO (stmt_info);
38fd1498Szrj  HOST_WIDE_INT dr_step = -1;
38fd1498Szrj  HOST_WIDE_INT groupsize, last_accessed_element = 1;
38fd1498Szrj  bool slp_impossible = false;
38fd1498Szrj
38fd1498Szrj  /* For interleaving, GROUPSIZE is STEP counted in elements, i.e., the
38fd1498Szrj     size of the interleaving group (including gaps).  */
38fd1498Szrj  if (tree_fits_shwi_p (step))
38fd1498Szrj    {
38fd1498Szrj      dr_step = tree_to_shwi (step);
38fd1498Szrj      /* Check that STEP is a multiple of type size.  Otherwise there is
38fd1498Szrj         a non-element-sized gap at the end of the group which we
38fd1498Szrj	 cannot represent in GROUP_GAP or GROUP_SIZE.
38fd1498Szrj	 ???  As we can handle non-constant step fine here we should
38fd1498Szrj	 simply remove uses of GROUP_GAP between the last and first
38fd1498Szrj	 element and instead rely on DR_STEP.  GROUP_SIZE then would
38fd1498Szrj	 simply not include that gap.  */
38fd1498Szrj      if ((dr_step % type_size) != 0)
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    {
38fd1498Szrj	      dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj	                       "Step ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM, step);
38fd1498Szrj	      dump_printf (MSG_NOTE,
38fd1498Szrj			   " is not a multiple of the element size for ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (dr));
38fd1498Szrj	      dump_printf (MSG_NOTE, "\n");
38fd1498Szrj	    }
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj      groupsize = absu_hwi (dr_step) / type_size;
38fd1498Szrj    }
38fd1498Szrj  else
38fd1498Szrj    groupsize = 0;
38fd1498Szrj
38fd1498Szrj  /* Not consecutive access is possible only if it is a part of interleaving.  */
38fd1498Szrj  if (!GROUP_FIRST_ELEMENT (vinfo_for_stmt (stmt)))
38fd1498Szrj    {
38fd1498Szrj      /* Check if it this DR is a part of interleaving, and is a single
38fd1498Szrj	 element of the group that is accessed in the loop.  */
38fd1498Szrj
38fd1498Szrj      /* Gaps are supported only for loads. STEP must be a multiple of the type
38fd1498Szrj	 size.  */
38fd1498Szrj      if (DR_IS_READ (dr)
38fd1498Szrj	  && (dr_step % type_size) == 0
38fd1498Szrj	  && groupsize > 0)
38fd1498Szrj	{
38fd1498Szrj	  GROUP_FIRST_ELEMENT (vinfo_for_stmt (stmt)) = stmt;
38fd1498Szrj	  GROUP_SIZE (vinfo_for_stmt (stmt)) = groupsize;
38fd1498Szrj	  GROUP_GAP (stmt_info) = groupsize - 1;
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    {
38fd1498Szrj	      dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj	                       "Detected single element interleaving ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (dr));
38fd1498Szrj	      dump_printf (MSG_NOTE, " step ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM, step);
38fd1498Szrj	      dump_printf (MSG_NOTE, "\n");
38fd1498Szrj	    }
38fd1498Szrj
38fd1498Szrj	  return true;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj        {
38fd1498Szrj 	  dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj	                   "not consecutive access ");
38fd1498Szrj	  dump_gimple_stmt (MSG_MISSED_OPTIMIZATION, TDF_SLIM, stmt, 0);
38fd1498Szrj        }
38fd1498Szrj
38fd1498Szrj      if (bb_vinfo)
38fd1498Szrj        {
38fd1498Szrj          /* Mark the statement as unvectorizable.  */
38fd1498Szrj          STMT_VINFO_VECTORIZABLE (vinfo_for_stmt (DR_STMT (dr))) = false;
38fd1498Szrj          return true;
38fd1498Szrj        }
38fd1498Szrj
38fd1498Szrj      dump_printf_loc (MSG_NOTE, vect_location, "using strided accesses\n");
38fd1498Szrj      STMT_VINFO_STRIDED_P (stmt_info) = true;
38fd1498Szrj      return true;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (GROUP_FIRST_ELEMENT (vinfo_for_stmt (stmt)) == stmt)
38fd1498Szrj    {
38fd1498Szrj      /* First stmt in the interleaving chain. Check the chain.  */
38fd1498Szrj      gimple *next = GROUP_NEXT_ELEMENT (vinfo_for_stmt (stmt));
38fd1498Szrj      struct data_reference *data_ref = dr;
38fd1498Szrj      unsigned int count = 1;
38fd1498Szrj      tree prev_init = DR_INIT (data_ref);
38fd1498Szrj      gimple *prev = stmt;
38fd1498Szrj      HOST_WIDE_INT diff, gaps = 0;
38fd1498Szrj
38fd1498Szrj      /* By construction, all group members have INTEGER_CST DR_INITs.  */
38fd1498Szrj      while (next)
38fd1498Szrj        {
38fd1498Szrj          /* Skip same data-refs.  In case that two or more stmts share
38fd1498Szrj             data-ref (supported only for loads), we vectorize only the first
38fd1498Szrj             stmt, and the rest get their vectorized loads from the first
38fd1498Szrj             one.  */
38fd1498Szrj          if (!tree_int_cst_compare (DR_INIT (data_ref),
38fd1498Szrj                                     DR_INIT (STMT_VINFO_DATA_REF (
38fd1498Szrj						   vinfo_for_stmt (next)))))
38fd1498Szrj            {
38fd1498Szrj              if (DR_IS_WRITE (data_ref))
38fd1498Szrj                {
38fd1498Szrj                  if (dump_enabled_p ())
38fd1498Szrj                    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj                                     "Two store stmts share the same dr.\n");
38fd1498Szrj                  return false;
38fd1498Szrj                }
38fd1498Szrj
38fd1498Szrj	      if (dump_enabled_p ())
38fd1498Szrj		dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj				 "Two or more load stmts share the same dr.\n");
38fd1498Szrj
38fd1498Szrj              /* For load use the same data-ref load.  */
38fd1498Szrj              GROUP_SAME_DR_STMT (vinfo_for_stmt (next)) = prev;
38fd1498Szrj
38fd1498Szrj              prev = next;
38fd1498Szrj              next = GROUP_NEXT_ELEMENT (vinfo_for_stmt (next));
38fd1498Szrj              continue;
38fd1498Szrj            }
38fd1498Szrj
38fd1498Szrj          prev = next;
38fd1498Szrj          data_ref = STMT_VINFO_DATA_REF (vinfo_for_stmt (next));
38fd1498Szrj
38fd1498Szrj	  /* All group members have the same STEP by construction.  */
38fd1498Szrj	  gcc_checking_assert (operand_equal_p (DR_STEP (data_ref), step, 0));
38fd1498Szrj
38fd1498Szrj          /* Check that the distance between two accesses is equal to the type
38fd1498Szrj             size. Otherwise, we have gaps.  */
38fd1498Szrj          diff = (TREE_INT_CST_LOW (DR_INIT (data_ref))
38fd1498Szrj                  - TREE_INT_CST_LOW (prev_init)) / type_size;
38fd1498Szrj	  if (diff != 1)
38fd1498Szrj	    {
38fd1498Szrj	      /* FORNOW: SLP of accesses with gaps is not supported.  */
38fd1498Szrj	      slp_impossible = true;
38fd1498Szrj	      if (DR_IS_WRITE (data_ref))
38fd1498Szrj		{
38fd1498Szrj                  if (dump_enabled_p ())
38fd1498Szrj                    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj                                     "interleaved store with gaps\n");
38fd1498Szrj		  return false;
38fd1498Szrj		}
38fd1498Szrj
38fd1498Szrj              gaps += diff - 1;
38fd1498Szrj	    }
38fd1498Szrj
38fd1498Szrj	  last_accessed_element += diff;
38fd1498Szrj
38fd1498Szrj          /* Store the gap from the previous member of the group. If there is no
38fd1498Szrj             gap in the access, GROUP_GAP is always 1.  */
38fd1498Szrj          GROUP_GAP (vinfo_for_stmt (next)) = diff;
38fd1498Szrj
38fd1498Szrj          prev_init = DR_INIT (data_ref);
38fd1498Szrj          next = GROUP_NEXT_ELEMENT (vinfo_for_stmt (next));
38fd1498Szrj          /* Count the number of data-refs in the chain.  */
38fd1498Szrj          count++;
38fd1498Szrj        }
38fd1498Szrj
38fd1498Szrj      if (groupsize == 0)
38fd1498Szrj        groupsize = count + gaps;
38fd1498Szrj
38fd1498Szrj      /* This could be UINT_MAX but as we are generating code in a very
38fd1498Szrj         inefficient way we have to cap earlier.  See PR78699 for example.  */
38fd1498Szrj      if (groupsize > 4096)
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			     "group is too large\n");
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      /* Check that the size of the interleaving is equal to count for stores,
38fd1498Szrj         i.e., that there are no gaps.  */
38fd1498Szrj      if (groupsize != count
38fd1498Szrj	  && !DR_IS_READ (dr))
38fd1498Szrj        {
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			     "interleaved store with gaps\n");
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      /* If there is a gap after the last load in the group it is the
38fd1498Szrj	 difference between the groupsize and the last accessed
38fd1498Szrj	 element.
38fd1498Szrj	 When there is no gap, this difference should be 0.  */
38fd1498Szrj      GROUP_GAP (vinfo_for_stmt (stmt)) = groupsize - last_accessed_element;
38fd1498Szrj
38fd1498Szrj      GROUP_SIZE (vinfo_for_stmt (stmt)) = groupsize;
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj	{
38fd1498Szrj	  dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj			   "Detected interleaving ");
38fd1498Szrj	  if (DR_IS_READ (dr))
38fd1498Szrj	    dump_printf (MSG_NOTE, "load ");
38fd1498Szrj	  else
38fd1498Szrj	    dump_printf (MSG_NOTE, "store ");
38fd1498Szrj	  dump_printf (MSG_NOTE, "of size %u starting with ",
38fd1498Szrj		       (unsigned)groupsize);
38fd1498Szrj	  dump_gimple_stmt (MSG_NOTE, TDF_SLIM, stmt, 0);
38fd1498Szrj	  if (GROUP_GAP (vinfo_for_stmt (stmt)) != 0)
38fd1498Szrj	    dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj			     "There is a gap of %u elements after the group\n",
38fd1498Szrj			     GROUP_GAP (vinfo_for_stmt (stmt)));
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      /* SLP: create an SLP data structure for every interleaving group of
38fd1498Szrj	 stores for further analysis in vect_analyse_slp.  */
38fd1498Szrj      if (DR_IS_WRITE (dr) && !slp_impossible)
38fd1498Szrj        {
38fd1498Szrj          if (loop_vinfo)
38fd1498Szrj            LOOP_VINFO_GROUPED_STORES (loop_vinfo).safe_push (stmt);
38fd1498Szrj          if (bb_vinfo)
38fd1498Szrj            BB_VINFO_GROUPED_STORES (bb_vinfo).safe_push (stmt);
38fd1498Szrj        }
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Analyze groups of accesses: check that DR belongs to a group of
38fd1498Szrj   accesses of legal size, step, etc.  Detect gaps, single element
38fd1498Szrj   interleaving, and other special cases. Set grouped access info.
38fd1498Szrj   Collect groups of strided stores for further use in SLP analysis.  */
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjvect_analyze_group_access (struct data_reference *dr)
38fd1498Szrj{
38fd1498Szrj  if (!vect_analyze_group_access_1 (dr))
38fd1498Szrj    {
38fd1498Szrj      /* Dissolve the group if present.  */
38fd1498Szrj      gimple *next;
38fd1498Szrj      gimple *stmt = GROUP_FIRST_ELEMENT (vinfo_for_stmt (DR_STMT (dr)));
38fd1498Szrj      while (stmt)
38fd1498Szrj	{
38fd1498Szrj	  stmt_vec_info vinfo = vinfo_for_stmt (stmt);
38fd1498Szrj	  next = GROUP_NEXT_ELEMENT (vinfo);
38fd1498Szrj	  GROUP_FIRST_ELEMENT (vinfo) = NULL;
38fd1498Szrj	  GROUP_NEXT_ELEMENT (vinfo) = NULL;
38fd1498Szrj	  stmt = next;
38fd1498Szrj	}
38fd1498Szrj      return false;
38fd1498Szrj    }
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Analyze the access pattern of the data-reference DR.
38fd1498Szrj   In case of non-consecutive accesses call vect_analyze_group_access() to
38fd1498Szrj   analyze groups of accesses.  */
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjvect_analyze_data_ref_access (struct data_reference *dr)
38fd1498Szrj{
38fd1498Szrj  tree step = DR_STEP (dr);
38fd1498Szrj  tree scalar_type = TREE_TYPE (DR_REF (dr));
38fd1498Szrj  gimple *stmt = DR_STMT (dr);
38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj  loop_vec_info loop_vinfo = STMT_VINFO_LOOP_VINFO (stmt_info);
38fd1498Szrj  struct loop *loop = NULL;
38fd1498Szrj
38fd1498Szrj  if (STMT_VINFO_GATHER_SCATTER_P (stmt_info))
38fd1498Szrj    return true;
38fd1498Szrj
38fd1498Szrj  if (loop_vinfo)
38fd1498Szrj    loop = LOOP_VINFO_LOOP (loop_vinfo);
38fd1498Szrj
38fd1498Szrj  if (loop_vinfo && !step)
38fd1498Szrj    {
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj	dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj	                 "bad data-ref access in loop\n");
38fd1498Szrj      return false;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* Allow loads with zero step in inner-loop vectorization.  */
38fd1498Szrj  if (loop_vinfo && integer_zerop (step))
38fd1498Szrj    {
38fd1498Szrj      GROUP_FIRST_ELEMENT (vinfo_for_stmt (stmt)) = NULL;
38fd1498Szrj      if (!nested_in_vect_loop_p (loop, stmt))
38fd1498Szrj	return DR_IS_READ (dr);
38fd1498Szrj      /* Allow references with zero step for outer loops marked
38fd1498Szrj	 with pragma omp simd only - it guarantees absence of
38fd1498Szrj	 loop-carried dependencies between inner loop iterations.  */
38fd1498Szrj      if (loop->safelen < 2)
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj			     "zero step in inner loop of nest\n");
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (loop && nested_in_vect_loop_p (loop, stmt))
38fd1498Szrj    {
38fd1498Szrj      /* Interleaved accesses are not yet supported within outer-loop
38fd1498Szrj        vectorization for references in the inner-loop.  */
38fd1498Szrj      GROUP_FIRST_ELEMENT (vinfo_for_stmt (stmt)) = NULL;
38fd1498Szrj
38fd1498Szrj      /* For the rest of the analysis we use the outer-loop step.  */
38fd1498Szrj      step = STMT_VINFO_DR_STEP (stmt_info);
38fd1498Szrj      if (integer_zerop (step))
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj	                     "zero step in outer loop.\n");
38fd1498Szrj	  return DR_IS_READ (dr);
38fd1498Szrj	}
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* Consecutive?  */
38fd1498Szrj  if (TREE_CODE (step) == INTEGER_CST)
38fd1498Szrj    {
38fd1498Szrj      HOST_WIDE_INT dr_step = TREE_INT_CST_LOW (step);
38fd1498Szrj      if (!tree_int_cst_compare (step, TYPE_SIZE_UNIT (scalar_type))
38fd1498Szrj	  || (dr_step < 0
38fd1498Szrj	      && !compare_tree_int (TYPE_SIZE_UNIT (scalar_type), -dr_step)))
38fd1498Szrj	{
38fd1498Szrj	  /* Mark that it is not interleaving.  */
38fd1498Szrj	  GROUP_FIRST_ELEMENT (vinfo_for_stmt (stmt)) = NULL;
38fd1498Szrj	  return true;
38fd1498Szrj	}
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (loop && nested_in_vect_loop_p (loop, stmt))
38fd1498Szrj    {
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj	dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj	                 "grouped access in outer loop.\n");
38fd1498Szrj      return false;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj  /* Assume this is a DR handled by non-constant strided load case.  */
38fd1498Szrj  if (TREE_CODE (step) != INTEGER_CST)
38fd1498Szrj    return (STMT_VINFO_STRIDED_P (stmt_info)
38fd1498Szrj	    && (!STMT_VINFO_GROUPED_ACCESS (stmt_info)
38fd1498Szrj		|| vect_analyze_group_access (dr)));
38fd1498Szrj
38fd1498Szrj  /* Not consecutive access - check if it's a part of interleaving group.  */
38fd1498Szrj  return vect_analyze_group_access (dr);
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Compare two data-references DRA and DRB to group them into chunks
38fd1498Szrj   suitable for grouping.  */
38fd1498Szrj
38fd1498Szrjstatic int
38fd1498Szrjdr_group_sort_cmp (const void *dra_, const void *drb_)
38fd1498Szrj{
38fd1498Szrj  data_reference_p dra = *(data_reference_p *)const_cast<void *>(dra_);
38fd1498Szrj  data_reference_p drb = *(data_reference_p *)const_cast<void *>(drb_);
38fd1498Szrj  int cmp;
38fd1498Szrj
38fd1498Szrj  /* Stabilize sort.  */
38fd1498Szrj  if (dra == drb)
38fd1498Szrj    return 0;
38fd1498Szrj
38fd1498Szrj  /* DRs in different loops never belong to the same group.  */
38fd1498Szrj  loop_p loopa = gimple_bb (DR_STMT (dra))->loop_father;
38fd1498Szrj  loop_p loopb = gimple_bb (DR_STMT (drb))->loop_father;
38fd1498Szrj  if (loopa != loopb)
38fd1498Szrj    return loopa->num < loopb->num ? -1 : 1;
38fd1498Szrj
38fd1498Szrj  /* Ordering of DRs according to base.  */
38fd1498Szrj  cmp = data_ref_compare_tree (DR_BASE_ADDRESS (dra),
38fd1498Szrj			       DR_BASE_ADDRESS (drb));
38fd1498Szrj  if (cmp != 0)
38fd1498Szrj    return cmp;
38fd1498Szrj
38fd1498Szrj  /* And according to DR_OFFSET.  */
38fd1498Szrj  cmp = data_ref_compare_tree (DR_OFFSET (dra), DR_OFFSET (drb));
38fd1498Szrj  if (cmp != 0)
38fd1498Szrj    return cmp;
38fd1498Szrj
38fd1498Szrj  /* Put reads before writes.  */
38fd1498Szrj  if (DR_IS_READ (dra) != DR_IS_READ (drb))
38fd1498Szrj    return DR_IS_READ (dra) ? -1 : 1;
38fd1498Szrj
38fd1498Szrj  /* Then sort after access size.  */
38fd1498Szrj  cmp = data_ref_compare_tree (TYPE_SIZE_UNIT (TREE_TYPE (DR_REF (dra))),
38fd1498Szrj			       TYPE_SIZE_UNIT (TREE_TYPE (DR_REF (drb))));
38fd1498Szrj  if (cmp != 0)
38fd1498Szrj    return cmp;
38fd1498Szrj
38fd1498Szrj  /* And after step.  */
38fd1498Szrj  cmp = data_ref_compare_tree (DR_STEP (dra), DR_STEP (drb));
38fd1498Szrj  if (cmp != 0)
38fd1498Szrj    return cmp;
38fd1498Szrj
38fd1498Szrj  /* Then sort after DR_INIT.  In case of identical DRs sort after stmt UID.  */
38fd1498Szrj  cmp = data_ref_compare_tree (DR_INIT (dra), DR_INIT (drb));
38fd1498Szrj  if (cmp == 0)
38fd1498Szrj    return gimple_uid (DR_STMT (dra)) < gimple_uid (DR_STMT (drb)) ? -1 : 1;
38fd1498Szrj  return cmp;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* If OP is the result of a conversion, return the unconverted value,
38fd1498Szrj   otherwise return null.  */
38fd1498Szrj
38fd1498Szrjstatic tree
38fd1498Szrjstrip_conversion (tree op)
38fd1498Szrj{
38fd1498Szrj  if (TREE_CODE (op) != SSA_NAME)
38fd1498Szrj    return NULL_TREE;
38fd1498Szrj  gimple *stmt = SSA_NAME_DEF_STMT (op);
38fd1498Szrj  if (!is_gimple_assign (stmt)
38fd1498Szrj      || !CONVERT_EXPR_CODE_P (gimple_assign_rhs_code (stmt)))
38fd1498Szrj    return NULL_TREE;
38fd1498Szrj  return gimple_assign_rhs1 (stmt);
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Return true if vectorizable_* routines can handle statements STMT1
38fd1498Szrj   and STMT2 being in a single group.  */
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjcan_group_stmts_p (gimple *stmt1, gimple *stmt2)
38fd1498Szrj{
38fd1498Szrj  if (gimple_assign_single_p (stmt1))
38fd1498Szrj    return gimple_assign_single_p (stmt2);
38fd1498Szrj
38fd1498Szrj  if (is_gimple_call (stmt1) && gimple_call_internal_p (stmt1))
38fd1498Szrj    {
38fd1498Szrj      /* Check for two masked loads or two masked stores.  */
38fd1498Szrj      if (!is_gimple_call (stmt2) || !gimple_call_internal_p (stmt2))
38fd1498Szrj	return false;
38fd1498Szrj      internal_fn ifn = gimple_call_internal_fn (stmt1);
38fd1498Szrj      if (ifn != IFN_MASK_LOAD && ifn != IFN_MASK_STORE)
38fd1498Szrj	return false;
38fd1498Szrj      if (ifn != gimple_call_internal_fn (stmt2))
38fd1498Szrj	return false;
38fd1498Szrj
38fd1498Szrj      /* Check that the masks are the same.  Cope with casts of masks,
38fd1498Szrj	 like those created by build_mask_conversion.  */
38fd1498Szrj      tree mask1 = gimple_call_arg (stmt1, 2);
38fd1498Szrj      tree mask2 = gimple_call_arg (stmt2, 2);
38fd1498Szrj      if (!operand_equal_p (mask1, mask2, 0))
38fd1498Szrj	{
38fd1498Szrj	  mask1 = strip_conversion (mask1);
38fd1498Szrj	  if (!mask1)
38fd1498Szrj	    return false;
38fd1498Szrj	  mask2 = strip_conversion (mask2);
38fd1498Szrj	  if (!mask2)
38fd1498Szrj	    return false;
38fd1498Szrj	  if (!operand_equal_p (mask1, mask2, 0))
38fd1498Szrj	    return false;
38fd1498Szrj	}
38fd1498Szrj      return true;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  return false;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Function vect_analyze_data_ref_accesses.
38fd1498Szrj
38fd1498Szrj   Analyze the access pattern of all the data references in the loop.
38fd1498Szrj
38fd1498Szrj   FORNOW: the only access pattern that is considered vectorizable is a
38fd1498Szrj	   simple step 1 (consecutive) access.
38fd1498Szrj
38fd1498Szrj   FORNOW: handle only arrays and pointer accesses.  */
38fd1498Szrj
38fd1498Szrjbool
38fd1498Szrjvect_analyze_data_ref_accesses (vec_info *vinfo)
38fd1498Szrj{
38fd1498Szrj  unsigned int i;
38fd1498Szrj  vec<data_reference_p> datarefs = vinfo->datarefs;
38fd1498Szrj  struct data_reference *dr;
38fd1498Szrj
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                     "=== vect_analyze_data_ref_accesses ===\n");
38fd1498Szrj
38fd1498Szrj  if (datarefs.is_empty ())
38fd1498Szrj    return true;
38fd1498Szrj
38fd1498Szrj  /* Sort the array of datarefs to make building the interleaving chains
38fd1498Szrj     linear.  Don't modify the original vector's order, it is needed for
38fd1498Szrj     determining what dependencies are reversed.  */
38fd1498Szrj  vec<data_reference_p> datarefs_copy = datarefs.copy ();
38fd1498Szrj  datarefs_copy.qsort (dr_group_sort_cmp);
38fd1498Szrj
38fd1498Szrj  /* Build the interleaving chains.  */
38fd1498Szrj  for (i = 0; i < datarefs_copy.length () - 1;)
38fd1498Szrj    {
38fd1498Szrj      data_reference_p dra = datarefs_copy[i];
38fd1498Szrj      stmt_vec_info stmtinfo_a = vinfo_for_stmt (DR_STMT (dra));
38fd1498Szrj      stmt_vec_info lastinfo = NULL;
38fd1498Szrj      if (!STMT_VINFO_VECTORIZABLE (stmtinfo_a)
38fd1498Szrj	  || STMT_VINFO_GATHER_SCATTER_P (stmtinfo_a))
38fd1498Szrj	{
38fd1498Szrj	  ++i;
38fd1498Szrj	  continue;
38fd1498Szrj	}
38fd1498Szrj      for (i = i + 1; i < datarefs_copy.length (); ++i)
38fd1498Szrj	{
38fd1498Szrj	  data_reference_p drb = datarefs_copy[i];
38fd1498Szrj	  stmt_vec_info stmtinfo_b = vinfo_for_stmt (DR_STMT (drb));
38fd1498Szrj	  if (!STMT_VINFO_VECTORIZABLE (stmtinfo_b)
38fd1498Szrj	      || STMT_VINFO_GATHER_SCATTER_P (stmtinfo_b))
38fd1498Szrj	    break;
38fd1498Szrj
38fd1498Szrj	  /* ???  Imperfect sorting (non-compatible types, non-modulo
38fd1498Szrj	     accesses, same accesses) can lead to a group to be artificially
38fd1498Szrj	     split here as we don't just skip over those.  If it really
38fd1498Szrj	     matters we can push those to a worklist and re-iterate
38fd1498Szrj	     over them.  The we can just skip ahead to the next DR here.  */
38fd1498Szrj
38fd1498Szrj	  /* DRs in a different loop should not be put into the same
38fd1498Szrj	     interleaving group.  */
38fd1498Szrj	  if (gimple_bb (DR_STMT (dra))->loop_father
38fd1498Szrj	      != gimple_bb (DR_STMT (drb))->loop_father)
38fd1498Szrj	    break;
38fd1498Szrj
38fd1498Szrj	  /* Check that the data-refs have same first location (except init)
38fd1498Szrj	     and they are both either store or load (not load and store,
38fd1498Szrj	     not masked loads or stores).  */
38fd1498Szrj	  if (DR_IS_READ (dra) != DR_IS_READ (drb)
38fd1498Szrj	      || data_ref_compare_tree (DR_BASE_ADDRESS (dra),
38fd1498Szrj					DR_BASE_ADDRESS (drb)) != 0
38fd1498Szrj	      || data_ref_compare_tree (DR_OFFSET (dra), DR_OFFSET (drb)) != 0
38fd1498Szrj	      || !can_group_stmts_p (DR_STMT (dra), DR_STMT (drb)))
38fd1498Szrj	    break;
38fd1498Szrj
38fd1498Szrj	  /* Check that the data-refs have the same constant size.  */
38fd1498Szrj	  tree sza = TYPE_SIZE_UNIT (TREE_TYPE (DR_REF (dra)));
38fd1498Szrj	  tree szb = TYPE_SIZE_UNIT (TREE_TYPE (DR_REF (drb)));
38fd1498Szrj	  if (!tree_fits_uhwi_p (sza)
38fd1498Szrj	      || !tree_fits_uhwi_p (szb)
38fd1498Szrj	      || !tree_int_cst_equal (sza, szb))
38fd1498Szrj	    break;
38fd1498Szrj
38fd1498Szrj	  /* Check that the data-refs have the same step.  */
38fd1498Szrj	  if (data_ref_compare_tree (DR_STEP (dra), DR_STEP (drb)) != 0)
38fd1498Szrj	    break;
38fd1498Szrj
38fd1498Szrj	  /* Check the types are compatible.
38fd1498Szrj	     ???  We don't distinguish this during sorting.  */
38fd1498Szrj	  if (!types_compatible_p (TREE_TYPE (DR_REF (dra)),
38fd1498Szrj				   TREE_TYPE (DR_REF (drb))))
38fd1498Szrj	    break;
38fd1498Szrj
38fd1498Szrj	  /* Check that the DR_INITs are compile-time constants.  */
38fd1498Szrj	  if (TREE_CODE (DR_INIT (dra)) != INTEGER_CST
38fd1498Szrj	      || TREE_CODE (DR_INIT (drb)) != INTEGER_CST)
38fd1498Szrj	    break;
38fd1498Szrj
38fd1498Szrj	  /* Sorting has ensured that DR_INIT (dra) <= DR_INIT (drb).  */
38fd1498Szrj	  HOST_WIDE_INT init_a = TREE_INT_CST_LOW (DR_INIT (dra));
38fd1498Szrj	  HOST_WIDE_INT init_b = TREE_INT_CST_LOW (DR_INIT (drb));
38fd1498Szrj	  HOST_WIDE_INT init_prev
38fd1498Szrj	    = TREE_INT_CST_LOW (DR_INIT (datarefs_copy[i-1]));
38fd1498Szrj	  gcc_assert (init_a <= init_b
38fd1498Szrj		      && init_a <= init_prev
38fd1498Szrj		      && init_prev <= init_b);
38fd1498Szrj
38fd1498Szrj	  /* Do not place the same access in the interleaving chain twice.  */
38fd1498Szrj	  if (init_b == init_prev)
38fd1498Szrj	    {
38fd1498Szrj	      gcc_assert (gimple_uid (DR_STMT (datarefs_copy[i-1]))
38fd1498Szrj			  < gimple_uid (DR_STMT (drb)));
38fd1498Szrj	      /* ???  For now we simply "drop" the later reference which is
38fd1498Szrj	         otherwise the same rather than finishing off this group.
38fd1498Szrj		 In the end we'd want to re-process duplicates forming
38fd1498Szrj		 multiple groups from the refs, likely by just collecting
38fd1498Szrj		 all candidates (including duplicates and split points
38fd1498Szrj		 below) in a vector and then process them together.  */
38fd1498Szrj	      continue;
38fd1498Szrj	    }
38fd1498Szrj
38fd1498Szrj	  /* If init_b == init_a + the size of the type * k, we have an
38fd1498Szrj	     interleaving, and DRA is accessed before DRB.  */
38fd1498Szrj	  HOST_WIDE_INT type_size_a = tree_to_uhwi (sza);
38fd1498Szrj	  if (type_size_a == 0
38fd1498Szrj	      || (init_b - init_a) % type_size_a != 0)
38fd1498Szrj	    break;
38fd1498Szrj
38fd1498Szrj	  /* If we have a store, the accesses are adjacent.  This splits
38fd1498Szrj	     groups into chunks we support (we don't support vectorization
38fd1498Szrj	     of stores with gaps).  */
38fd1498Szrj	  if (!DR_IS_READ (dra) && init_b - init_prev != type_size_a)
38fd1498Szrj	    break;
38fd1498Szrj
38fd1498Szrj	  /* If the step (if not zero or non-constant) is greater than the
38fd1498Szrj	     difference between data-refs' inits this splits groups into
38fd1498Szrj	     suitable sizes.  */
38fd1498Szrj	  if (tree_fits_shwi_p (DR_STEP (dra)))
38fd1498Szrj	    {
38fd1498Szrj	      HOST_WIDE_INT step = tree_to_shwi (DR_STEP (dra));
38fd1498Szrj	      if (step != 0 && step <= (init_b - init_a))
38fd1498Szrj		break;
38fd1498Szrj	    }
38fd1498Szrj
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    {
38fd1498Szrj	      dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj			       "Detected interleaving ");
38fd1498Szrj	      if (DR_IS_READ (dra))
38fd1498Szrj		dump_printf (MSG_NOTE, "load ");
38fd1498Szrj	      else
38fd1498Szrj		dump_printf (MSG_NOTE, "store ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (dra));
38fd1498Szrj	      dump_printf (MSG_NOTE,  " and ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (drb));
38fd1498Szrj	      dump_printf (MSG_NOTE, "\n");
38fd1498Szrj	    }
38fd1498Szrj
38fd1498Szrj	  /* Link the found element into the group list.  */
38fd1498Szrj	  if (!GROUP_FIRST_ELEMENT (stmtinfo_a))
38fd1498Szrj	    {
38fd1498Szrj	      GROUP_FIRST_ELEMENT (stmtinfo_a) = DR_STMT (dra);
38fd1498Szrj	      lastinfo = stmtinfo_a;
38fd1498Szrj	    }
38fd1498Szrj	  GROUP_FIRST_ELEMENT (stmtinfo_b) = DR_STMT (dra);
38fd1498Szrj	  GROUP_NEXT_ELEMENT (lastinfo) = DR_STMT (drb);
38fd1498Szrj	  lastinfo = stmtinfo_b;
38fd1498Szrj	}
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  FOR_EACH_VEC_ELT (datarefs_copy, i, dr)
38fd1498Szrj    if (STMT_VINFO_VECTORIZABLE (vinfo_for_stmt (DR_STMT (dr)))
38fd1498Szrj        && !vect_analyze_data_ref_access (dr))
38fd1498Szrj      {
38fd1498Szrj	if (dump_enabled_p ())
38fd1498Szrj	  dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj	                   "not vectorized: complicated access pattern.\n");
38fd1498Szrj
38fd1498Szrj        if (is_a <bb_vec_info> (vinfo))
38fd1498Szrj          {
38fd1498Szrj            /* Mark the statement as not vectorizable.  */
38fd1498Szrj            STMT_VINFO_VECTORIZABLE (vinfo_for_stmt (DR_STMT (dr))) = false;
38fd1498Szrj            continue;
38fd1498Szrj          }
38fd1498Szrj        else
38fd1498Szrj	  {
38fd1498Szrj	    datarefs_copy.release ();
38fd1498Szrj	    return false;
38fd1498Szrj	  }
38fd1498Szrj      }
38fd1498Szrj
38fd1498Szrj  datarefs_copy.release ();
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Function vect_vfa_segment_size.
38fd1498Szrj
38fd1498Szrj   Input:
38fd1498Szrj     DR: The data reference.
38fd1498Szrj     LENGTH_FACTOR: segment length to consider.
38fd1498Szrj
38fd1498Szrj   Return a value suitable for the dr_with_seg_len::seg_len field.
38fd1498Szrj   This is the "distance travelled" by the pointer from the first
38fd1498Szrj   iteration in the segment to the last.  Note that it does not include
38fd1498Szrj   the size of the access; in effect it only describes the first byte.  */
38fd1498Szrj
38fd1498Szrjstatic tree
38fd1498Szrjvect_vfa_segment_size (struct data_reference *dr, tree length_factor)
38fd1498Szrj{
38fd1498Szrj  length_factor = size_binop (MINUS_EXPR,
38fd1498Szrj			      fold_convert (sizetype, length_factor),
38fd1498Szrj			      size_one_node);
38fd1498Szrj  return size_binop (MULT_EXPR, fold_convert (sizetype, DR_STEP (dr)),
38fd1498Szrj		     length_factor);
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Return a value that, when added to abs (vect_vfa_segment_size (dr)),
38fd1498Szrj   gives the worst-case number of bytes covered by the segment.  */
38fd1498Szrj
38fd1498Szrjstatic unsigned HOST_WIDE_INT
38fd1498Szrjvect_vfa_access_size (data_reference *dr)
38fd1498Szrj{
38fd1498Szrj  stmt_vec_info stmt_vinfo = vinfo_for_stmt (DR_STMT (dr));
38fd1498Szrj  tree ref_type = TREE_TYPE (DR_REF (dr));
38fd1498Szrj  unsigned HOST_WIDE_INT ref_size = tree_to_uhwi (TYPE_SIZE_UNIT (ref_type));
38fd1498Szrj  unsigned HOST_WIDE_INT access_size = ref_size;
38fd1498Szrj  if (GROUP_FIRST_ELEMENT (stmt_vinfo))
38fd1498Szrj    {
38fd1498Szrj      gcc_assert (GROUP_FIRST_ELEMENT (stmt_vinfo) == DR_STMT (dr));
38fd1498Szrj      access_size *= GROUP_SIZE (stmt_vinfo) - GROUP_GAP (stmt_vinfo);
38fd1498Szrj    }
38fd1498Szrj  if (STMT_VINFO_VEC_STMT (stmt_vinfo)
38fd1498Szrj      && (vect_supportable_dr_alignment (dr, false)
38fd1498Szrj	  == dr_explicit_realign_optimized))
38fd1498Szrj    {
38fd1498Szrj      /* We might access a full vector's worth.  */
38fd1498Szrj      tree vectype = STMT_VINFO_VECTYPE (stmt_vinfo);
38fd1498Szrj      access_size += tree_to_uhwi (TYPE_SIZE_UNIT (vectype)) - ref_size;
38fd1498Szrj    }
38fd1498Szrj  return access_size;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Get the minimum alignment for all the scalar accesses that DR describes.  */
38fd1498Szrj
38fd1498Szrjstatic unsigned int
38fd1498Szrjvect_vfa_align (const data_reference *dr)
38fd1498Szrj{
38fd1498Szrj  return TYPE_ALIGN_UNIT (TREE_TYPE (DR_REF (dr)));
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Function vect_no_alias_p.
38fd1498Szrj
38fd1498Szrj   Given data references A and B with equal base and offset, see whether
38fd1498Szrj   the alias relation can be decided at compilation time.  Return 1 if
38fd1498Szrj   it can and the references alias, 0 if it can and the references do
38fd1498Szrj   not alias, and -1 if we cannot decide at compile time.  SEGMENT_LENGTH_A,
38fd1498Szrj   SEGMENT_LENGTH_B, ACCESS_SIZE_A and ACCESS_SIZE_B are the equivalent
38fd1498Szrj   of dr_with_seg_len::{seg_len,access_size} for A and B.  */
38fd1498Szrj
38fd1498Szrjstatic int
38fd1498Szrjvect_compile_time_alias (struct data_reference *a, struct data_reference *b,
38fd1498Szrj			 tree segment_length_a, tree segment_length_b,
38fd1498Szrj			 unsigned HOST_WIDE_INT access_size_a,
38fd1498Szrj			 unsigned HOST_WIDE_INT access_size_b)
38fd1498Szrj{
38fd1498Szrj  poly_offset_int offset_a = wi::to_poly_offset (DR_INIT (a));
38fd1498Szrj  poly_offset_int offset_b = wi::to_poly_offset (DR_INIT (b));
38fd1498Szrj  poly_uint64 const_length_a;
38fd1498Szrj  poly_uint64 const_length_b;
38fd1498Szrj
38fd1498Szrj  /* For negative step, we need to adjust address range by TYPE_SIZE_UNIT
38fd1498Szrj     bytes, e.g., int a[3] -> a[1] range is [a+4, a+16) instead of
38fd1498Szrj     [a, a+12) */
38fd1498Szrj  if (tree_int_cst_compare (DR_STEP (a), size_zero_node) < 0)
38fd1498Szrj    {
38fd1498Szrj      const_length_a = (-wi::to_poly_wide (segment_length_a)).force_uhwi ();
38fd1498Szrj      offset_a = (offset_a + access_size_a) - const_length_a;
38fd1498Szrj    }
38fd1498Szrj  else
38fd1498Szrj    const_length_a = tree_to_poly_uint64 (segment_length_a);
38fd1498Szrj  if (tree_int_cst_compare (DR_STEP (b), size_zero_node) < 0)
38fd1498Szrj    {
38fd1498Szrj      const_length_b = (-wi::to_poly_wide (segment_length_b)).force_uhwi ();
38fd1498Szrj      offset_b = (offset_b + access_size_b) - const_length_b;
38fd1498Szrj    }
38fd1498Szrj  else
38fd1498Szrj    const_length_b = tree_to_poly_uint64 (segment_length_b);
38fd1498Szrj
38fd1498Szrj  const_length_a += access_size_a;
38fd1498Szrj  const_length_b += access_size_b;
38fd1498Szrj
38fd1498Szrj  if (ranges_known_overlap_p (offset_a, const_length_a,
38fd1498Szrj			      offset_b, const_length_b))
38fd1498Szrj    return 1;
38fd1498Szrj
38fd1498Szrj  if (!ranges_maybe_overlap_p (offset_a, const_length_a,
38fd1498Szrj			       offset_b, const_length_b))
38fd1498Szrj    return 0;
38fd1498Szrj
38fd1498Szrj  return -1;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Return true if the minimum nonzero dependence distance for loop LOOP_DEPTH
38fd1498Szrj   in DDR is >= VF.  */
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjdependence_distance_ge_vf (data_dependence_relation *ddr,
38fd1498Szrj			   unsigned int loop_depth, poly_uint64 vf)
38fd1498Szrj{
38fd1498Szrj  if (DDR_ARE_DEPENDENT (ddr) != NULL_TREE
38fd1498Szrj      || DDR_NUM_DIST_VECTS (ddr) == 0)
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  /* If the dependence is exact, we should have limited the VF instead.  */
38fd1498Szrj  gcc_checking_assert (DDR_COULD_BE_INDEPENDENT_P (ddr));
38fd1498Szrj
38fd1498Szrj  unsigned int i;
38fd1498Szrj  lambda_vector dist_v;
38fd1498Szrj  FOR_EACH_VEC_ELT (DDR_DIST_VECTS (ddr), i, dist_v)
38fd1498Szrj    {
38fd1498Szrj      HOST_WIDE_INT dist = dist_v[loop_depth];
38fd1498Szrj      if (dist != 0
38fd1498Szrj	  && !(dist > 0 && DDR_REVERSED_P (ddr))
38fd1498Szrj	  && maybe_lt ((unsigned HOST_WIDE_INT) abs_hwi (dist), vf))
38fd1498Szrj	return false;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    {
38fd1498Szrj      dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj		       "dependence distance between ");
38fd1498Szrj      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (DDR_A (ddr)));
38fd1498Szrj      dump_printf (MSG_NOTE,  " and ");
38fd1498Szrj      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (DDR_B (ddr)));
38fd1498Szrj      dump_printf (MSG_NOTE,  " is >= VF\n");
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Dump LOWER_BOUND using flags DUMP_KIND.  Dumps are known to be enabled.  */
38fd1498Szrj
38fd1498Szrjstatic void
38fd1498Szrjdump_lower_bound (int dump_kind, const vec_lower_bound &lower_bound)
38fd1498Szrj{
38fd1498Szrj  dump_printf (dump_kind, "%s (", lower_bound.unsigned_p ? "unsigned" : "abs");
38fd1498Szrj  dump_generic_expr (dump_kind, TDF_SLIM, lower_bound.expr);
38fd1498Szrj  dump_printf (dump_kind, ") >= ");
38fd1498Szrj  dump_dec (dump_kind, lower_bound.min_value);
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Record that the vectorized loop requires the vec_lower_bound described
38fd1498Szrj   by EXPR, UNSIGNED_P and MIN_VALUE.  */
38fd1498Szrj
38fd1498Szrjstatic void
38fd1498Szrjvect_check_lower_bound (loop_vec_info loop_vinfo, tree expr, bool unsigned_p,
38fd1498Szrj			poly_uint64 min_value)
38fd1498Szrj{
38fd1498Szrj  vec<vec_lower_bound> lower_bounds = LOOP_VINFO_LOWER_BOUNDS (loop_vinfo);
38fd1498Szrj  for (unsigned int i = 0; i < lower_bounds.length (); ++i)
38fd1498Szrj    if (operand_equal_p (lower_bounds[i].expr, expr, 0))
38fd1498Szrj      {
38fd1498Szrj	unsigned_p &= lower_bounds[i].unsigned_p;
38fd1498Szrj	min_value = upper_bound (lower_bounds[i].min_value, min_value);
38fd1498Szrj	if (lower_bounds[i].unsigned_p != unsigned_p
38fd1498Szrj	    || maybe_lt (lower_bounds[i].min_value, min_value))
38fd1498Szrj	  {
38fd1498Szrj	    lower_bounds[i].unsigned_p = unsigned_p;
38fd1498Szrj	    lower_bounds[i].min_value = min_value;
38fd1498Szrj	    if (dump_enabled_p ())
38fd1498Szrj	      {
38fd1498Szrj		dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj				 "updating run-time check to ");
38fd1498Szrj		dump_lower_bound (MSG_NOTE, lower_bounds[i]);
38fd1498Szrj		dump_printf (MSG_NOTE, "\n");
38fd1498Szrj	      }
38fd1498Szrj	  }
38fd1498Szrj	return;
38fd1498Szrj      }
38fd1498Szrj
38fd1498Szrj  vec_lower_bound lower_bound (expr, unsigned_p, min_value);
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    {
38fd1498Szrj      dump_printf_loc (MSG_NOTE, vect_location, "need a run-time check that ");
38fd1498Szrj      dump_lower_bound (MSG_NOTE, lower_bound);
38fd1498Szrj      dump_printf (MSG_NOTE, "\n");
38fd1498Szrj    }
38fd1498Szrj  LOOP_VINFO_LOWER_BOUNDS (loop_vinfo).safe_push (lower_bound);
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Return true if it's unlikely that the step of the vectorized form of DR
38fd1498Szrj   will span fewer than GAP bytes.  */
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjvect_small_gap_p (loop_vec_info loop_vinfo, data_reference *dr, poly_int64 gap)
38fd1498Szrj{
38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (DR_STMT (dr));
38fd1498Szrj  HOST_WIDE_INT count
38fd1498Szrj    = estimated_poly_value (LOOP_VINFO_VECT_FACTOR (loop_vinfo));
38fd1498Szrj  if (GROUP_FIRST_ELEMENT (stmt_info))
38fd1498Szrj    count *= GROUP_SIZE (vinfo_for_stmt (GROUP_FIRST_ELEMENT (stmt_info)));
38fd1498Szrj  return estimated_poly_value (gap) <= count * vect_get_scalar_dr_size (dr);
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Return true if we know that there is no alias between DR_A and DR_B
38fd1498Szrj   when abs (DR_STEP (DR_A)) >= N for some N.  When returning true, set
38fd1498Szrj   *LOWER_BOUND_OUT to this N.  */
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjvectorizable_with_step_bound_p (data_reference *dr_a, data_reference *dr_b,
38fd1498Szrj				poly_uint64 *lower_bound_out)
38fd1498Szrj{
38fd1498Szrj  /* Check that there is a constant gap of known sign between DR_A
38fd1498Szrj     and DR_B.  */
38fd1498Szrj  poly_int64 init_a, init_b;
38fd1498Szrj  if (!operand_equal_p (DR_BASE_ADDRESS (dr_a), DR_BASE_ADDRESS (dr_b), 0)
38fd1498Szrj      || !operand_equal_p (DR_OFFSET (dr_a), DR_OFFSET (dr_b), 0)
38fd1498Szrj      || !operand_equal_p (DR_STEP (dr_a), DR_STEP (dr_b), 0)
38fd1498Szrj      || !poly_int_tree_p (DR_INIT (dr_a), &init_a)
38fd1498Szrj      || !poly_int_tree_p (DR_INIT (dr_b), &init_b)
38fd1498Szrj      || !ordered_p (init_a, init_b))
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  /* Sort DR_A and DR_B by the address they access.  */
38fd1498Szrj  if (maybe_lt (init_b, init_a))
38fd1498Szrj    {
38fd1498Szrj      std::swap (init_a, init_b);
38fd1498Szrj      std::swap (dr_a, dr_b);
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* If the two accesses could be dependent within a scalar iteration,
38fd1498Szrj     make sure that we'd retain their order.  */
38fd1498Szrj  if (maybe_gt (init_a + vect_get_scalar_dr_size (dr_a), init_b)
38fd1498Szrj      && !vect_preserves_scalar_order_p (DR_STMT (dr_a), DR_STMT (dr_b)))
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  /* There is no alias if abs (DR_STEP) is greater than or equal to
38fd1498Szrj     the bytes spanned by the combination of the two accesses.  */
38fd1498Szrj  *lower_bound_out = init_b + vect_get_scalar_dr_size (dr_b) - init_a;
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Function vect_prune_runtime_alias_test_list.
38fd1498Szrj
38fd1498Szrj   Prune a list of ddrs to be tested at run-time by versioning for alias.
38fd1498Szrj   Merge several alias checks into one if possible.
38fd1498Szrj   Return FALSE if resulting list of ddrs is longer then allowed by
38fd1498Szrj   PARAM_VECT_MAX_VERSION_FOR_ALIAS_CHECKS, otherwise return TRUE.  */
38fd1498Szrj
38fd1498Szrjbool
38fd1498Szrjvect_prune_runtime_alias_test_list (loop_vec_info loop_vinfo)
38fd1498Szrj{
38fd1498Szrj  typedef pair_hash <tree_operand_hash, tree_operand_hash> tree_pair_hash;
38fd1498Szrj  hash_set <tree_pair_hash> compared_objects;
38fd1498Szrj
38fd1498Szrj  vec<ddr_p> may_alias_ddrs = LOOP_VINFO_MAY_ALIAS_DDRS (loop_vinfo);
38fd1498Szrj  vec<dr_with_seg_len_pair_t> &comp_alias_ddrs
38fd1498Szrj    = LOOP_VINFO_COMP_ALIAS_DDRS (loop_vinfo);
38fd1498Szrj  vec<vec_object_pair> &check_unequal_addrs
38fd1498Szrj    = LOOP_VINFO_CHECK_UNEQUAL_ADDRS (loop_vinfo);
38fd1498Szrj  poly_uint64 vect_factor = LOOP_VINFO_VECT_FACTOR (loop_vinfo);
38fd1498Szrj  tree scalar_loop_iters = LOOP_VINFO_NITERS (loop_vinfo);
38fd1498Szrj
38fd1498Szrj  ddr_p ddr;
38fd1498Szrj  unsigned int i;
38fd1498Szrj  tree length_factor;
38fd1498Szrj
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                     "=== vect_prune_runtime_alias_test_list ===\n");
38fd1498Szrj
38fd1498Szrj  /* Step values are irrelevant for aliasing if the number of vector
38fd1498Szrj     iterations is equal to the number of scalar iterations (which can
38fd1498Szrj     happen for fully-SLP loops).  */
38fd1498Szrj  bool ignore_step_p = known_eq (LOOP_VINFO_VECT_FACTOR (loop_vinfo), 1U);
38fd1498Szrj
38fd1498Szrj  if (!ignore_step_p)
38fd1498Szrj    {
38fd1498Szrj      /* Convert the checks for nonzero steps into bound tests.  */
38fd1498Szrj      tree value;
38fd1498Szrj      FOR_EACH_VEC_ELT (LOOP_VINFO_CHECK_NONZERO (loop_vinfo), i, value)
38fd1498Szrj	vect_check_lower_bound (loop_vinfo, value, true, 1);
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (may_alias_ddrs.is_empty ())
38fd1498Szrj    return true;
38fd1498Szrj
38fd1498Szrj  comp_alias_ddrs.create (may_alias_ddrs.length ());
38fd1498Szrj
38fd1498Szrj  unsigned int loop_depth
38fd1498Szrj    = index_in_loop_nest (LOOP_VINFO_LOOP (loop_vinfo)->num,
38fd1498Szrj			  LOOP_VINFO_LOOP_NEST (loop_vinfo));
38fd1498Szrj
38fd1498Szrj  /* First, we collect all data ref pairs for aliasing checks.  */
38fd1498Szrj  FOR_EACH_VEC_ELT (may_alias_ddrs, i, ddr)
38fd1498Szrj    {
38fd1498Szrj      int comp_res;
38fd1498Szrj      poly_uint64 lower_bound;
38fd1498Szrj      struct data_reference *dr_a, *dr_b;
38fd1498Szrj      gimple *dr_group_first_a, *dr_group_first_b;
38fd1498Szrj      tree segment_length_a, segment_length_b;
38fd1498Szrj      unsigned HOST_WIDE_INT access_size_a, access_size_b;
38fd1498Szrj      unsigned int align_a, align_b;
38fd1498Szrj      gimple *stmt_a, *stmt_b;
38fd1498Szrj
38fd1498Szrj      /* Ignore the alias if the VF we chose ended up being no greater
38fd1498Szrj	 than the dependence distance.  */
38fd1498Szrj      if (dependence_distance_ge_vf (ddr, loop_depth, vect_factor))
38fd1498Szrj	continue;
38fd1498Szrj
38fd1498Szrj      if (DDR_OBJECT_A (ddr))
38fd1498Szrj	{
38fd1498Szrj	  vec_object_pair new_pair (DDR_OBJECT_A (ddr), DDR_OBJECT_B (ddr));
38fd1498Szrj	  if (!compared_objects.add (new_pair))
38fd1498Szrj	    {
38fd1498Szrj	      if (dump_enabled_p ())
38fd1498Szrj		{
38fd1498Szrj		  dump_printf_loc (MSG_NOTE, vect_location, "checking that ");
38fd1498Szrj		  dump_generic_expr (MSG_NOTE, TDF_SLIM, new_pair.first);
38fd1498Szrj		  dump_printf (MSG_NOTE, " and ");
38fd1498Szrj		  dump_generic_expr (MSG_NOTE, TDF_SLIM, new_pair.second);
38fd1498Szrj		  dump_printf (MSG_NOTE, " have different addresses\n");
38fd1498Szrj		}
38fd1498Szrj	      LOOP_VINFO_CHECK_UNEQUAL_ADDRS (loop_vinfo).safe_push (new_pair);
38fd1498Szrj	    }
38fd1498Szrj	  continue;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      dr_a = DDR_A (ddr);
38fd1498Szrj      stmt_a = DR_STMT (DDR_A (ddr));
38fd1498Szrj
38fd1498Szrj      dr_b = DDR_B (ddr);
38fd1498Szrj      stmt_b = DR_STMT (DDR_B (ddr));
38fd1498Szrj
38fd1498Szrj      /* Skip the pair if inter-iteration dependencies are irrelevant
38fd1498Szrj	 and intra-iteration dependencies are guaranteed to be honored.  */
38fd1498Szrj      if (ignore_step_p
38fd1498Szrj	  && (vect_preserves_scalar_order_p (stmt_a, stmt_b)
38fd1498Szrj	      || vectorizable_with_step_bound_p (dr_a, dr_b, &lower_bound)))
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    {
38fd1498Szrj	      dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj			       "no need for alias check between ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (dr_a));
38fd1498Szrj	      dump_printf (MSG_NOTE, " and ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (dr_b));
38fd1498Szrj	      dump_printf (MSG_NOTE, " when VF is 1\n");
38fd1498Szrj	    }
38fd1498Szrj	  continue;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      /* See whether we can handle the alias using a bounds check on
38fd1498Szrj	 the step, and whether that's likely to be the best approach.
38fd1498Szrj	 (It might not be, for example, if the minimum step is much larger
38fd1498Szrj	 than the number of bytes handled by one vector iteration.)  */
38fd1498Szrj      if (!ignore_step_p
38fd1498Szrj	  && TREE_CODE (DR_STEP (dr_a)) != INTEGER_CST
38fd1498Szrj	  && vectorizable_with_step_bound_p (dr_a, dr_b, &lower_bound)
38fd1498Szrj	  && (vect_small_gap_p (loop_vinfo, dr_a, lower_bound)
38fd1498Szrj	      || vect_small_gap_p (loop_vinfo, dr_b, lower_bound)))
38fd1498Szrj	{
38fd1498Szrj	  bool unsigned_p = dr_known_forward_stride_p (dr_a);
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    {
38fd1498Szrj	      dump_printf_loc (MSG_NOTE, vect_location, "no alias between ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (dr_a));
38fd1498Szrj	      dump_printf (MSG_NOTE, " and ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (dr_b));
38fd1498Szrj	      dump_printf (MSG_NOTE, " when the step ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_STEP (dr_a));
38fd1498Szrj	      dump_printf (MSG_NOTE, " is outside ");
38fd1498Szrj	      if (unsigned_p)
38fd1498Szrj		dump_printf (MSG_NOTE, "[0");
38fd1498Szrj	      else
38fd1498Szrj		{
38fd1498Szrj		  dump_printf (MSG_NOTE, "(");
38fd1498Szrj		  dump_dec (MSG_NOTE, poly_int64 (-lower_bound));
38fd1498Szrj		}
38fd1498Szrj	      dump_printf (MSG_NOTE, ", ");
38fd1498Szrj	      dump_dec (MSG_NOTE, lower_bound);
38fd1498Szrj	      dump_printf (MSG_NOTE, ")\n");
38fd1498Szrj	    }
38fd1498Szrj	  vect_check_lower_bound (loop_vinfo, DR_STEP (dr_a), unsigned_p,
38fd1498Szrj				  lower_bound);
38fd1498Szrj	  continue;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      dr_group_first_a = GROUP_FIRST_ELEMENT (vinfo_for_stmt (stmt_a));
38fd1498Szrj      if (dr_group_first_a)
38fd1498Szrj	{
38fd1498Szrj	  stmt_a = dr_group_first_a;
38fd1498Szrj	  dr_a = STMT_VINFO_DATA_REF (vinfo_for_stmt (stmt_a));
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      dr_group_first_b = GROUP_FIRST_ELEMENT (vinfo_for_stmt (stmt_b));
38fd1498Szrj      if (dr_group_first_b)
38fd1498Szrj	{
38fd1498Szrj	  stmt_b = dr_group_first_b;
38fd1498Szrj	  dr_b = STMT_VINFO_DATA_REF (vinfo_for_stmt (stmt_b));
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      if (ignore_step_p)
38fd1498Szrj	{
38fd1498Szrj	  segment_length_a = size_zero_node;
38fd1498Szrj	  segment_length_b = size_zero_node;
38fd1498Szrj	}
38fd1498Szrj      else
38fd1498Szrj	{
38fd1498Szrj	  if (!operand_equal_p (DR_STEP (dr_a), DR_STEP (dr_b), 0))
38fd1498Szrj	    length_factor = scalar_loop_iters;
38fd1498Szrj	  else
38fd1498Szrj	    length_factor = size_int (vect_factor);
38fd1498Szrj	  segment_length_a = vect_vfa_segment_size (dr_a, length_factor);
38fd1498Szrj	  segment_length_b = vect_vfa_segment_size (dr_b, length_factor);
38fd1498Szrj	}
38fd1498Szrj      access_size_a = vect_vfa_access_size (dr_a);
38fd1498Szrj      access_size_b = vect_vfa_access_size (dr_b);
38fd1498Szrj      align_a = vect_vfa_align (dr_a);
38fd1498Szrj      align_b = vect_vfa_align (dr_b);
38fd1498Szrj
38fd1498Szrj      comp_res = data_ref_compare_tree (DR_BASE_ADDRESS (dr_a),
38fd1498Szrj					DR_BASE_ADDRESS (dr_b));
38fd1498Szrj      if (comp_res == 0)
38fd1498Szrj	comp_res = data_ref_compare_tree (DR_OFFSET (dr_a),
38fd1498Szrj					  DR_OFFSET (dr_b));
38fd1498Szrj
38fd1498Szrj      /* See whether the alias is known at compilation time.  */
38fd1498Szrj      if (comp_res == 0
38fd1498Szrj	  && TREE_CODE (DR_STEP (dr_a)) == INTEGER_CST
38fd1498Szrj	  && TREE_CODE (DR_STEP (dr_b)) == INTEGER_CST
38fd1498Szrj	  && poly_int_tree_p (segment_length_a)
38fd1498Szrj	  && poly_int_tree_p (segment_length_b))
38fd1498Szrj	{
38fd1498Szrj	  int res = vect_compile_time_alias (dr_a, dr_b,
38fd1498Szrj					     segment_length_a,
38fd1498Szrj					     segment_length_b,
38fd1498Szrj					     access_size_a,
38fd1498Szrj					     access_size_b);
38fd1498Szrj	  if (res >= 0 && dump_enabled_p ())
38fd1498Szrj	    {
38fd1498Szrj	      dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj			       "can tell at compile time that ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (dr_a));
38fd1498Szrj	      dump_printf (MSG_NOTE, " and ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_REF (dr_b));
38fd1498Szrj	      if (res == 0)
38fd1498Szrj		dump_printf (MSG_NOTE, " do not alias\n");
38fd1498Szrj	      else
38fd1498Szrj		dump_printf (MSG_NOTE, " alias\n");
38fd1498Szrj	    }
38fd1498Szrj
38fd1498Szrj	  if (res == 0)
38fd1498Szrj	    continue;
38fd1498Szrj
38fd1498Szrj	  if (res == 1)
38fd1498Szrj	    {
38fd1498Szrj	      if (dump_enabled_p ())
38fd1498Szrj		dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj				 "not vectorized: compilation time alias.\n");
38fd1498Szrj	      return false;
38fd1498Szrj	    }
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      dr_with_seg_len_pair_t dr_with_seg_len_pair
38fd1498Szrj	(dr_with_seg_len (dr_a, segment_length_a, access_size_a, align_a),
38fd1498Szrj	 dr_with_seg_len (dr_b, segment_length_b, access_size_b, align_b));
38fd1498Szrj
38fd1498Szrj      /* Canonicalize pairs by sorting the two DR members.  */
38fd1498Szrj      if (comp_res > 0)
38fd1498Szrj	std::swap (dr_with_seg_len_pair.first, dr_with_seg_len_pair.second);
38fd1498Szrj
38fd1498Szrj      comp_alias_ddrs.safe_push (dr_with_seg_len_pair);
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  prune_runtime_alias_test_list (&comp_alias_ddrs, vect_factor);
38fd1498Szrj
38fd1498Szrj  unsigned int count = (comp_alias_ddrs.length ()
38fd1498Szrj			+ check_unequal_addrs.length ());
38fd1498Szrj
38fd1498Szrj  dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj		   "improved number of alias checks from %d to %d\n",
38fd1498Szrj		   may_alias_ddrs.length (), count);
38fd1498Szrj  if ((int) count > PARAM_VALUE (PARAM_VECT_MAX_VERSION_FOR_ALIAS_CHECKS))
38fd1498Szrj    {
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj	dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			 "number of versioning for alias "
38fd1498Szrj			 "run-time tests exceeds %d "
38fd1498Szrj			 "(--param vect-max-version-for-alias-checks)\n",
38fd1498Szrj			 PARAM_VALUE (PARAM_VECT_MAX_VERSION_FOR_ALIAS_CHECKS));
38fd1498Szrj      return false;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Check whether we can use an internal function for a gather load
38fd1498Szrj   or scatter store.  READ_P is true for loads and false for stores.
38fd1498Szrj   MASKED_P is true if the load or store is conditional.  MEMORY_TYPE is
38fd1498Szrj   the type of the memory elements being loaded or stored.  OFFSET_BITS
38fd1498Szrj   is the number of bits in each scalar offset and OFFSET_SIGN is the
38fd1498Szrj   sign of the offset.  SCALE is the amount by which the offset should
38fd1498Szrj   be multiplied *after* it has been converted to address width.
38fd1498Szrj
38fd1498Szrj   Return true if the function is supported, storing the function
38fd1498Szrj   id in *IFN_OUT and the type of a vector element in *ELEMENT_TYPE_OUT.  */
38fd1498Szrj
38fd1498Szrjbool
38fd1498Szrjvect_gather_scatter_fn_p (bool read_p, bool masked_p, tree vectype,
38fd1498Szrj			  tree memory_type, unsigned int offset_bits,
38fd1498Szrj			  signop offset_sign, int scale,
38fd1498Szrj			  internal_fn *ifn_out, tree *element_type_out)
38fd1498Szrj{
38fd1498Szrj  unsigned int memory_bits = tree_to_uhwi (TYPE_SIZE (memory_type));
38fd1498Szrj  unsigned int element_bits = tree_to_uhwi (TYPE_SIZE (TREE_TYPE (vectype)));
38fd1498Szrj  if (offset_bits > element_bits)
38fd1498Szrj    /* Internal functions require the offset to be the same width as
38fd1498Szrj       the vector elements.  We can extend narrower offsets, but it isn't
38fd1498Szrj       safe to truncate wider offsets.  */
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  if (element_bits != memory_bits)
38fd1498Szrj    /* For now the vector elements must be the same width as the
38fd1498Szrj       memory elements.  */
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  /* Work out which function we need.  */
38fd1498Szrj  internal_fn ifn;
38fd1498Szrj  if (read_p)
38fd1498Szrj    ifn = masked_p ? IFN_MASK_GATHER_LOAD : IFN_GATHER_LOAD;
38fd1498Szrj  else
38fd1498Szrj    ifn = masked_p ? IFN_MASK_SCATTER_STORE : IFN_SCATTER_STORE;
38fd1498Szrj
38fd1498Szrj  /* Test whether the target supports this combination.  */
38fd1498Szrj  if (!internal_gather_scatter_fn_supported_p (ifn, vectype, memory_type,
38fd1498Szrj					       offset_sign, scale))
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  *ifn_out = ifn;
38fd1498Szrj  *element_type_out = TREE_TYPE (vectype);
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* CALL is a call to an internal gather load or scatter store function.
38fd1498Szrj   Describe the operation in INFO.  */
38fd1498Szrj
38fd1498Szrjstatic void
38fd1498Szrjvect_describe_gather_scatter_call (gcall *call, gather_scatter_info *info)
38fd1498Szrj{
38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (call);
38fd1498Szrj  tree vectype = STMT_VINFO_VECTYPE (stmt_info);
38fd1498Szrj  data_reference *dr = STMT_VINFO_DATA_REF (stmt_info);
38fd1498Szrj
38fd1498Szrj  info->ifn = gimple_call_internal_fn (call);
38fd1498Szrj  info->decl = NULL_TREE;
38fd1498Szrj  info->base = gimple_call_arg (call, 0);
38fd1498Szrj  info->offset = gimple_call_arg (call, 1);
38fd1498Szrj  info->offset_dt = vect_unknown_def_type;
38fd1498Szrj  info->offset_vectype = NULL_TREE;
38fd1498Szrj  info->scale = TREE_INT_CST_LOW (gimple_call_arg (call, 2));
38fd1498Szrj  info->element_type = TREE_TYPE (vectype);
38fd1498Szrj  info->memory_type = TREE_TYPE (DR_REF (dr));
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Return true if a non-affine read or write in STMT is suitable for a
38fd1498Szrj   gather load or scatter store.  Describe the operation in *INFO if so.  */
38fd1498Szrj
38fd1498Szrjbool
38fd1498Szrjvect_check_gather_scatter (gimple *stmt, loop_vec_info loop_vinfo,
38fd1498Szrj			   gather_scatter_info *info)
38fd1498Szrj{
38fd1498Szrj  HOST_WIDE_INT scale = 1;
38fd1498Szrj  poly_int64 pbitpos, pbitsize;
38fd1498Szrj  struct loop *loop = LOOP_VINFO_LOOP (loop_vinfo);
38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj  struct data_reference *dr = STMT_VINFO_DATA_REF (stmt_info);
38fd1498Szrj  tree offtype = NULL_TREE;
38fd1498Szrj  tree decl = NULL_TREE, base, off;
38fd1498Szrj  tree vectype = STMT_VINFO_VECTYPE (stmt_info);
38fd1498Szrj  tree memory_type = TREE_TYPE (DR_REF (dr));
38fd1498Szrj  machine_mode pmode;
38fd1498Szrj  int punsignedp, reversep, pvolatilep = 0;
38fd1498Szrj  internal_fn ifn;
38fd1498Szrj  tree element_type;
38fd1498Szrj  bool masked_p = false;
38fd1498Szrj
38fd1498Szrj  /* See whether this is already a call to a gather/scatter internal function.
38fd1498Szrj     If not, see whether it's a masked load or store.  */
38fd1498Szrj  gcall *call = dyn_cast <gcall *> (stmt);
38fd1498Szrj  if (call && gimple_call_internal_p (call))
38fd1498Szrj    {
38fd1498Szrj      ifn = gimple_call_internal_fn (stmt);
38fd1498Szrj      if (internal_gather_scatter_fn_p (ifn))
38fd1498Szrj	{
38fd1498Szrj	  vect_describe_gather_scatter_call (call, info);
38fd1498Szrj	  return true;
38fd1498Szrj	}
38fd1498Szrj      masked_p = (ifn == IFN_MASK_LOAD || ifn == IFN_MASK_STORE);
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* True if we should aim to use internal functions rather than
38fd1498Szrj     built-in functions.  */
38fd1498Szrj  bool use_ifn_p = (DR_IS_READ (dr)
38fd1498Szrj		    ? supports_vec_gather_load_p ()
38fd1498Szrj		    : supports_vec_scatter_store_p ());
38fd1498Szrj
38fd1498Szrj  base = DR_REF (dr);
38fd1498Szrj  /* For masked loads/stores, DR_REF (dr) is an artificial MEM_REF,
38fd1498Szrj     see if we can use the def stmt of the address.  */
38fd1498Szrj  if (masked_p
38fd1498Szrj      && TREE_CODE (base) == MEM_REF
38fd1498Szrj      && TREE_CODE (TREE_OPERAND (base, 0)) == SSA_NAME
38fd1498Szrj      && integer_zerop (TREE_OPERAND (base, 1))
38fd1498Szrj      && !expr_invariant_in_loop_p (loop, TREE_OPERAND (base, 0)))
38fd1498Szrj    {
38fd1498Szrj      gimple *def_stmt = SSA_NAME_DEF_STMT (TREE_OPERAND (base, 0));
38fd1498Szrj      if (is_gimple_assign (def_stmt)
38fd1498Szrj	  && gimple_assign_rhs_code (def_stmt) == ADDR_EXPR)
38fd1498Szrj	base = TREE_OPERAND (gimple_assign_rhs1 (def_stmt), 0);
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* The gather and scatter builtins need address of the form
38fd1498Szrj     loop_invariant + vector * {1, 2, 4, 8}
38fd1498Szrj     or
38fd1498Szrj     loop_invariant + sign_extend (vector) * { 1, 2, 4, 8 }.
38fd1498Szrj     Unfortunately DR_BASE_ADDRESS/DR_OFFSET can be a mixture
38fd1498Szrj     of loop invariants/SSA_NAMEs defined in the loop, with casts,
38fd1498Szrj     multiplications and additions in it.  To get a vector, we need
38fd1498Szrj     a single SSA_NAME that will be defined in the loop and will
38fd1498Szrj     contain everything that is not loop invariant and that can be
38fd1498Szrj     vectorized.  The following code attempts to find such a preexistng
38fd1498Szrj     SSA_NAME OFF and put the loop invariants into a tree BASE
38fd1498Szrj     that can be gimplified before the loop.  */
38fd1498Szrj  base = get_inner_reference (base, &pbitsize, &pbitpos, &off, &pmode,
38fd1498Szrj			      &punsignedp, &reversep, &pvolatilep);
38fd1498Szrj  gcc_assert (base && !reversep);
38fd1498Szrj  poly_int64 pbytepos = exact_div (pbitpos, BITS_PER_UNIT);
38fd1498Szrj
38fd1498Szrj  if (TREE_CODE (base) == MEM_REF)
38fd1498Szrj    {
38fd1498Szrj      if (!integer_zerop (TREE_OPERAND (base, 1)))
38fd1498Szrj	{
38fd1498Szrj	  if (off == NULL_TREE)
38fd1498Szrj	    off = wide_int_to_tree (sizetype, mem_ref_offset (base));
38fd1498Szrj	  else
38fd1498Szrj	    off = size_binop (PLUS_EXPR, off,
38fd1498Szrj			      fold_convert (sizetype, TREE_OPERAND (base, 1)));
38fd1498Szrj	}
38fd1498Szrj      base = TREE_OPERAND (base, 0);
38fd1498Szrj    }
38fd1498Szrj  else
38fd1498Szrj    base = build_fold_addr_expr (base);
38fd1498Szrj
38fd1498Szrj  if (off == NULL_TREE)
38fd1498Szrj    off = size_zero_node;
38fd1498Szrj
38fd1498Szrj  /* If base is not loop invariant, either off is 0, then we start with just
38fd1498Szrj     the constant offset in the loop invariant BASE and continue with base
38fd1498Szrj     as OFF, otherwise give up.
38fd1498Szrj     We could handle that case by gimplifying the addition of base + off
38fd1498Szrj     into some SSA_NAME and use that as off, but for now punt.  */
38fd1498Szrj  if (!expr_invariant_in_loop_p (loop, base))
38fd1498Szrj    {
38fd1498Szrj      if (!integer_zerop (off))
38fd1498Szrj	return false;
38fd1498Szrj      off = base;
38fd1498Szrj      base = size_int (pbytepos);
38fd1498Szrj    }
38fd1498Szrj  /* Otherwise put base + constant offset into the loop invariant BASE
38fd1498Szrj     and continue with OFF.  */
38fd1498Szrj  else
38fd1498Szrj    {
38fd1498Szrj      base = fold_convert (sizetype, base);
38fd1498Szrj      base = size_binop (PLUS_EXPR, base, size_int (pbytepos));
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* OFF at this point may be either a SSA_NAME or some tree expression
38fd1498Szrj     from get_inner_reference.  Try to peel off loop invariants from it
38fd1498Szrj     into BASE as long as possible.  */
38fd1498Szrj  STRIP_NOPS (off);
38fd1498Szrj  while (offtype == NULL_TREE)
38fd1498Szrj    {
38fd1498Szrj      enum tree_code code;
38fd1498Szrj      tree op0, op1, add = NULL_TREE;
38fd1498Szrj
38fd1498Szrj      if (TREE_CODE (off) == SSA_NAME)
38fd1498Szrj	{
38fd1498Szrj	  gimple *def_stmt = SSA_NAME_DEF_STMT (off);
38fd1498Szrj
38fd1498Szrj	  if (expr_invariant_in_loop_p (loop, off))
38fd1498Szrj	    return false;
38fd1498Szrj
38fd1498Szrj	  if (gimple_code (def_stmt) != GIMPLE_ASSIGN)
38fd1498Szrj	    break;
38fd1498Szrj
38fd1498Szrj	  op0 = gimple_assign_rhs1 (def_stmt);
38fd1498Szrj	  code = gimple_assign_rhs_code (def_stmt);
38fd1498Szrj	  op1 = gimple_assign_rhs2 (def_stmt);
38fd1498Szrj	}
38fd1498Szrj      else
38fd1498Szrj	{
38fd1498Szrj	  if (get_gimple_rhs_class (TREE_CODE (off)) == GIMPLE_TERNARY_RHS)
38fd1498Szrj	    return false;
38fd1498Szrj	  code = TREE_CODE (off);
38fd1498Szrj	  extract_ops_from_tree (off, &code, &op0, &op1);
38fd1498Szrj	}
38fd1498Szrj      switch (code)
38fd1498Szrj	{
38fd1498Szrj	case POINTER_PLUS_EXPR:
38fd1498Szrj	case PLUS_EXPR:
38fd1498Szrj	  if (expr_invariant_in_loop_p (loop, op0))
38fd1498Szrj	    {
38fd1498Szrj	      add = op0;
38fd1498Szrj	      off = op1;
38fd1498Szrj	    do_add:
38fd1498Szrj	      add = fold_convert (sizetype, add);
38fd1498Szrj	      if (scale != 1)
38fd1498Szrj		add = size_binop (MULT_EXPR, add, size_int (scale));
38fd1498Szrj	      base = size_binop (PLUS_EXPR, base, add);
38fd1498Szrj	      continue;
38fd1498Szrj	    }
38fd1498Szrj	  if (expr_invariant_in_loop_p (loop, op1))
38fd1498Szrj	    {
38fd1498Szrj	      add = op1;
38fd1498Szrj	      off = op0;
38fd1498Szrj	      goto do_add;
38fd1498Szrj	    }
38fd1498Szrj	  break;
38fd1498Szrj	case MINUS_EXPR:
38fd1498Szrj	  if (expr_invariant_in_loop_p (loop, op1))
38fd1498Szrj	    {
38fd1498Szrj	      add = fold_convert (sizetype, op1);
38fd1498Szrj	      add = size_binop (MINUS_EXPR, size_zero_node, add);
38fd1498Szrj	      off = op0;
38fd1498Szrj	      goto do_add;
38fd1498Szrj	    }
38fd1498Szrj	  break;
38fd1498Szrj	case MULT_EXPR:
38fd1498Szrj	  if (scale == 1 && tree_fits_shwi_p (op1))
38fd1498Szrj	    {
38fd1498Szrj	      int new_scale = tree_to_shwi (op1);
38fd1498Szrj	      /* Only treat this as a scaling operation if the target
38fd1498Szrj		 supports it.  */
38fd1498Szrj	      if (use_ifn_p
38fd1498Szrj		  && !vect_gather_scatter_fn_p (DR_IS_READ (dr), masked_p,
38fd1498Szrj						vectype, memory_type, 1,
38fd1498Szrj						TYPE_SIGN (TREE_TYPE (op0)),
38fd1498Szrj						new_scale, &ifn,
38fd1498Szrj						&element_type))
38fd1498Szrj		break;
38fd1498Szrj	      scale = new_scale;
38fd1498Szrj	      off = op0;
38fd1498Szrj	      continue;
38fd1498Szrj	    }
38fd1498Szrj	  break;
38fd1498Szrj	case SSA_NAME:
38fd1498Szrj	  off = op0;
38fd1498Szrj	  continue;
38fd1498Szrj	CASE_CONVERT:
38fd1498Szrj	  if (!POINTER_TYPE_P (TREE_TYPE (op0))
38fd1498Szrj	      && !INTEGRAL_TYPE_P (TREE_TYPE (op0)))
38fd1498Szrj	    break;
38fd1498Szrj	  if (TYPE_PRECISION (TREE_TYPE (op0))
38fd1498Szrj	      == TYPE_PRECISION (TREE_TYPE (off)))
38fd1498Szrj	    {
38fd1498Szrj	      off = op0;
38fd1498Szrj	      continue;
38fd1498Szrj	    }
38fd1498Szrj
38fd1498Szrj	  /* The internal functions need the offset to be the same width
38fd1498Szrj	     as the elements of VECTYPE.  Don't include operations that
38fd1498Szrj	     cast the offset from that width to a different width.  */
38fd1498Szrj	  if (use_ifn_p
38fd1498Szrj	      && (int_size_in_bytes (TREE_TYPE (vectype))
38fd1498Szrj		  == int_size_in_bytes (TREE_TYPE (off))))
38fd1498Szrj	    break;
38fd1498Szrj
38fd1498Szrj	  if (TYPE_PRECISION (TREE_TYPE (op0))
38fd1498Szrj	      < TYPE_PRECISION (TREE_TYPE (off)))
38fd1498Szrj	    {
38fd1498Szrj	      off = op0;
38fd1498Szrj	      offtype = TREE_TYPE (off);
38fd1498Szrj	      STRIP_NOPS (off);
38fd1498Szrj	      continue;
38fd1498Szrj	    }
38fd1498Szrj	  break;
38fd1498Szrj	default:
38fd1498Szrj	  break;
38fd1498Szrj	}
38fd1498Szrj      break;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* If at the end OFF still isn't a SSA_NAME or isn't
38fd1498Szrj     defined in the loop, punt.  */
38fd1498Szrj  if (TREE_CODE (off) != SSA_NAME
38fd1498Szrj      || expr_invariant_in_loop_p (loop, off))
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  if (offtype == NULL_TREE)
38fd1498Szrj    offtype = TREE_TYPE (off);
38fd1498Szrj
38fd1498Szrj  if (use_ifn_p)
38fd1498Szrj    {
38fd1498Szrj      if (!vect_gather_scatter_fn_p (DR_IS_READ (dr), masked_p, vectype,
38fd1498Szrj				     memory_type, TYPE_PRECISION (offtype),
38fd1498Szrj				     TYPE_SIGN (offtype), scale, &ifn,
38fd1498Szrj				     &element_type))
38fd1498Szrj	return false;
38fd1498Szrj    }
38fd1498Szrj  else
38fd1498Szrj    {
38fd1498Szrj      if (DR_IS_READ (dr))
38fd1498Szrj	{
38fd1498Szrj	  if (targetm.vectorize.builtin_gather)
38fd1498Szrj	    decl = targetm.vectorize.builtin_gather (vectype, offtype, scale);
38fd1498Szrj	}
38fd1498Szrj      else
38fd1498Szrj	{
38fd1498Szrj	  if (targetm.vectorize.builtin_scatter)
38fd1498Szrj	    decl = targetm.vectorize.builtin_scatter (vectype, offtype, scale);
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      if (!decl)
38fd1498Szrj	return false;
38fd1498Szrj
38fd1498Szrj      ifn = IFN_LAST;
38fd1498Szrj      element_type = TREE_TYPE (vectype);
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  info->ifn = ifn;
38fd1498Szrj  info->decl = decl;
38fd1498Szrj  info->base = base;
38fd1498Szrj  info->offset = off;
38fd1498Szrj  info->offset_dt = vect_unknown_def_type;
38fd1498Szrj  info->offset_vectype = NULL_TREE;
38fd1498Szrj  info->scale = scale;
38fd1498Szrj  info->element_type = element_type;
38fd1498Szrj  info->memory_type = memory_type;
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Function vect_analyze_data_refs.
38fd1498Szrj
38fd1498Szrj  Find all the data references in the loop or basic block.
38fd1498Szrj
38fd1498Szrj   The general structure of the analysis of data refs in the vectorizer is as
38fd1498Szrj   follows:
38fd1498Szrj   1- vect_analyze_data_refs(loop/bb): call
38fd1498Szrj      compute_data_dependences_for_loop/bb to find and analyze all data-refs
38fd1498Szrj      in the loop/bb and their dependences.
38fd1498Szrj   2- vect_analyze_dependences(): apply dependence testing using ddrs.
38fd1498Szrj   3- vect_analyze_drs_alignment(): check that ref_stmt.alignment is ok.
38fd1498Szrj   4- vect_analyze_drs_access(): check that ref_stmt.step is ok.
38fd1498Szrj
38fd1498Szrj*/
38fd1498Szrj
38fd1498Szrjbool
38fd1498Szrjvect_analyze_data_refs (vec_info *vinfo, poly_uint64 *min_vf)
38fd1498Szrj{
38fd1498Szrj  struct loop *loop = NULL;
38fd1498Szrj  unsigned int i;
38fd1498Szrj  struct data_reference *dr;
38fd1498Szrj  tree scalar_type;
38fd1498Szrj
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj		     "=== vect_analyze_data_refs ===\n");
38fd1498Szrj
38fd1498Szrj  if (loop_vec_info loop_vinfo = dyn_cast <loop_vec_info> (vinfo))
38fd1498Szrj    loop = LOOP_VINFO_LOOP (loop_vinfo);
38fd1498Szrj
38fd1498Szrj  /* Go through the data-refs, check that the analysis succeeded.  Update
38fd1498Szrj     pointer from stmt_vec_info struct to DR and vectype.  */
38fd1498Szrj
38fd1498Szrj  vec<data_reference_p> datarefs = vinfo->datarefs;
38fd1498Szrj  FOR_EACH_VEC_ELT (datarefs, i, dr)
38fd1498Szrj    {
38fd1498Szrj      gimple *stmt;
38fd1498Szrj      stmt_vec_info stmt_info;
38fd1498Szrj      tree base, offset, init;
38fd1498Szrj      enum { SG_NONE, GATHER, SCATTER } gatherscatter = SG_NONE;
38fd1498Szrj      bool simd_lane_access = false;
38fd1498Szrj      poly_uint64 vf;
38fd1498Szrj
38fd1498Szrjagain:
38fd1498Szrj      if (!dr || !DR_REF (dr))
38fd1498Szrj        {
38fd1498Szrj          if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj	                     "not vectorized: unhandled data-ref\n");
38fd1498Szrj          return false;
38fd1498Szrj        }
38fd1498Szrj
38fd1498Szrj      stmt = DR_STMT (dr);
38fd1498Szrj      stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj
38fd1498Szrj      /* Discard clobbers from the dataref vector.  We will remove
38fd1498Szrj         clobber stmts during vectorization.  */
38fd1498Szrj      if (gimple_clobber_p (stmt))
38fd1498Szrj	{
38fd1498Szrj	  free_data_ref (dr);
38fd1498Szrj	  if (i == datarefs.length () - 1)
38fd1498Szrj	    {
38fd1498Szrj	      datarefs.pop ();
38fd1498Szrj	      break;
38fd1498Szrj	    }
38fd1498Szrj	  datarefs.ordered_remove (i);
38fd1498Szrj	  dr = datarefs[i];
38fd1498Szrj	  goto again;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      /* Check that analysis of the data-ref succeeded.  */
38fd1498Szrj      if (!DR_BASE_ADDRESS (dr) || !DR_OFFSET (dr) || !DR_INIT (dr)
38fd1498Szrj	  || !DR_STEP (dr))
38fd1498Szrj        {
38fd1498Szrj	  bool maybe_gather
38fd1498Szrj	    = DR_IS_READ (dr)
38fd1498Szrj	      && !TREE_THIS_VOLATILE (DR_REF (dr))
38fd1498Szrj	      && (targetm.vectorize.builtin_gather != NULL
38fd1498Szrj		  || supports_vec_gather_load_p ());
38fd1498Szrj	  bool maybe_scatter
38fd1498Szrj	    = DR_IS_WRITE (dr)
38fd1498Szrj	      && !TREE_THIS_VOLATILE (DR_REF (dr))
38fd1498Szrj	      && (targetm.vectorize.builtin_scatter != NULL
38fd1498Szrj		  || supports_vec_scatter_store_p ());
38fd1498Szrj	  bool maybe_simd_lane_access
38fd1498Szrj	    = is_a <loop_vec_info> (vinfo) && loop->simduid;
38fd1498Szrj
38fd1498Szrj	  /* If target supports vector gather loads or scatter stores, or if
38fd1498Szrj	     this might be a SIMD lane access, see if they can't be used.  */
38fd1498Szrj	  if (is_a <loop_vec_info> (vinfo)
38fd1498Szrj	      && (maybe_gather || maybe_scatter || maybe_simd_lane_access)
38fd1498Szrj	      && !nested_in_vect_loop_p (loop, stmt))
38fd1498Szrj	    {
38fd1498Szrj	      struct data_reference *newdr
38fd1498Szrj		= create_data_ref (NULL, loop_containing_stmt (stmt),
38fd1498Szrj				   DR_REF (dr), stmt, !maybe_scatter,
38fd1498Szrj				   DR_IS_CONDITIONAL_IN_STMT (dr));
38fd1498Szrj	      gcc_assert (newdr != NULL && DR_REF (newdr));
38fd1498Szrj	      if (DR_BASE_ADDRESS (newdr)
38fd1498Szrj		  && DR_OFFSET (newdr)
38fd1498Szrj		  && DR_INIT (newdr)
38fd1498Szrj		  && DR_STEP (newdr)
38fd1498Szrj		  && integer_zerop (DR_STEP (newdr)))
38fd1498Szrj		{
38fd1498Szrj		  if (maybe_simd_lane_access)
38fd1498Szrj		    {
38fd1498Szrj		      tree off = DR_OFFSET (newdr);
38fd1498Szrj		      STRIP_NOPS (off);
38fd1498Szrj		      if (TREE_CODE (DR_INIT (newdr)) == INTEGER_CST
38fd1498Szrj			  && TREE_CODE (off) == MULT_EXPR
38fd1498Szrj			  && tree_fits_uhwi_p (TREE_OPERAND (off, 1)))
38fd1498Szrj			{
38fd1498Szrj			  tree step = TREE_OPERAND (off, 1);
38fd1498Szrj			  off = TREE_OPERAND (off, 0);
38fd1498Szrj			  STRIP_NOPS (off);
38fd1498Szrj			  if (CONVERT_EXPR_P (off)
38fd1498Szrj			      && TYPE_PRECISION (TREE_TYPE (TREE_OPERAND (off,
38fd1498Szrj									  0)))
38fd1498Szrj				 < TYPE_PRECISION (TREE_TYPE (off)))
38fd1498Szrj			    off = TREE_OPERAND (off, 0);
38fd1498Szrj			  if (TREE_CODE (off) == SSA_NAME)
38fd1498Szrj			    {
38fd1498Szrj			      gimple *def = SSA_NAME_DEF_STMT (off);
38fd1498Szrj			      tree reft = TREE_TYPE (DR_REF (newdr));
38fd1498Szrj			      if (is_gimple_call (def)
38fd1498Szrj				  && gimple_call_internal_p (def)
38fd1498Szrj				  && (gimple_call_internal_fn (def)
38fd1498Szrj				      == IFN_GOMP_SIMD_LANE))
38fd1498Szrj				{
38fd1498Szrj				  tree arg = gimple_call_arg (def, 0);
38fd1498Szrj				  gcc_assert (TREE_CODE (arg) == SSA_NAME);
38fd1498Szrj				  arg = SSA_NAME_VAR (arg);
38fd1498Szrj				  if (arg == loop->simduid
38fd1498Szrj				      /* For now.  */
38fd1498Szrj				      && tree_int_cst_equal
38fd1498Szrj					   (TYPE_SIZE_UNIT (reft),
38fd1498Szrj					    step))
38fd1498Szrj				    {
38fd1498Szrj				      DR_OFFSET (newdr) = ssize_int (0);
38fd1498Szrj				      DR_STEP (newdr) = step;
38fd1498Szrj				      DR_OFFSET_ALIGNMENT (newdr)
38fd1498Szrj					= BIGGEST_ALIGNMENT;
38fd1498Szrj				      DR_STEP_ALIGNMENT (newdr)
38fd1498Szrj					= highest_pow2_factor (step);
38fd1498Szrj				      dr = newdr;
38fd1498Szrj				      simd_lane_access = true;
38fd1498Szrj				    }
38fd1498Szrj				}
38fd1498Szrj			    }
38fd1498Szrj			}
38fd1498Szrj		    }
38fd1498Szrj		  if (!simd_lane_access && (maybe_gather || maybe_scatter))
38fd1498Szrj		    {
38fd1498Szrj		      dr = newdr;
38fd1498Szrj		      if (maybe_gather)
38fd1498Szrj			gatherscatter = GATHER;
38fd1498Szrj		      else
38fd1498Szrj			gatherscatter = SCATTER;
38fd1498Szrj		    }
38fd1498Szrj		}
38fd1498Szrj	      if (gatherscatter == SG_NONE && !simd_lane_access)
38fd1498Szrj		free_data_ref (newdr);
38fd1498Szrj	    }
38fd1498Szrj
38fd1498Szrj	  if (gatherscatter == SG_NONE && !simd_lane_access)
38fd1498Szrj	    {
38fd1498Szrj	      if (dump_enabled_p ())
38fd1498Szrj		{
38fd1498Szrj		  dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj                                   "not vectorized: data ref analysis "
38fd1498Szrj                                   "failed ");
38fd1498Szrj		  dump_gimple_stmt (MSG_MISSED_OPTIMIZATION, TDF_SLIM, stmt, 0);
38fd1498Szrj		}
38fd1498Szrj
38fd1498Szrj	      if (is_a <bb_vec_info> (vinfo))
38fd1498Szrj		break;
38fd1498Szrj
38fd1498Szrj	      return false;
38fd1498Szrj	    }
38fd1498Szrj        }
38fd1498Szrj
38fd1498Szrj      if (TREE_CODE (DR_BASE_ADDRESS (dr)) == INTEGER_CST)
38fd1498Szrj        {
38fd1498Szrj          if (dump_enabled_p ())
38fd1498Szrj            dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj                             "not vectorized: base addr of dr is a "
38fd1498Szrj                             "constant\n");
38fd1498Szrj
38fd1498Szrj          if (is_a <bb_vec_info> (vinfo))
38fd1498Szrj	    break;
38fd1498Szrj
38fd1498Szrj	  if (gatherscatter != SG_NONE || simd_lane_access)
38fd1498Szrj	    free_data_ref (dr);
38fd1498Szrj	  return false;
38fd1498Szrj        }
38fd1498Szrj
38fd1498Szrj      if (TREE_THIS_VOLATILE (DR_REF (dr)))
38fd1498Szrj        {
38fd1498Szrj          if (dump_enabled_p ())
38fd1498Szrj            {
38fd1498Szrj              dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj                               "not vectorized: volatile type ");
38fd1498Szrj              dump_gimple_stmt (MSG_MISSED_OPTIMIZATION, TDF_SLIM, stmt, 0);
38fd1498Szrj            }
38fd1498Szrj
38fd1498Szrj          if (is_a <bb_vec_info> (vinfo))
38fd1498Szrj	    break;
38fd1498Szrj
38fd1498Szrj          return false;
38fd1498Szrj        }
38fd1498Szrj
38fd1498Szrj      if (stmt_can_throw_internal (stmt))
38fd1498Szrj        {
38fd1498Szrj          if (dump_enabled_p ())
38fd1498Szrj            {
38fd1498Szrj              dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj                               "not vectorized: statement can throw an "
38fd1498Szrj                               "exception ");
38fd1498Szrj              dump_gimple_stmt (MSG_MISSED_OPTIMIZATION, TDF_SLIM, stmt, 0);
38fd1498Szrj            }
38fd1498Szrj
38fd1498Szrj          if (is_a <bb_vec_info> (vinfo))
38fd1498Szrj	    break;
38fd1498Szrj
38fd1498Szrj	  if (gatherscatter != SG_NONE || simd_lane_access)
38fd1498Szrj	    free_data_ref (dr);
38fd1498Szrj          return false;
38fd1498Szrj        }
38fd1498Szrj
38fd1498Szrj      if (TREE_CODE (DR_REF (dr)) == COMPONENT_REF
38fd1498Szrj	  && DECL_BIT_FIELD (TREE_OPERAND (DR_REF (dr), 1)))
38fd1498Szrj	{
38fd1498Szrj          if (dump_enabled_p ())
38fd1498Szrj            {
38fd1498Szrj              dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj                               "not vectorized: statement is bitfield "
38fd1498Szrj                               "access ");
38fd1498Szrj              dump_gimple_stmt (MSG_MISSED_OPTIMIZATION, TDF_SLIM, stmt, 0);
38fd1498Szrj            }
38fd1498Szrj
38fd1498Szrj          if (is_a <bb_vec_info> (vinfo))
38fd1498Szrj	    break;
38fd1498Szrj
38fd1498Szrj	  if (gatherscatter != SG_NONE || simd_lane_access)
38fd1498Szrj	    free_data_ref (dr);
38fd1498Szrj          return false;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      base = unshare_expr (DR_BASE_ADDRESS (dr));
38fd1498Szrj      offset = unshare_expr (DR_OFFSET (dr));
38fd1498Szrj      init = unshare_expr (DR_INIT (dr));
38fd1498Szrj
38fd1498Szrj      if (is_gimple_call (stmt)
38fd1498Szrj	  && (!gimple_call_internal_p (stmt)
38fd1498Szrj	      || (gimple_call_internal_fn (stmt) != IFN_MASK_LOAD
38fd1498Szrj		  && gimple_call_internal_fn (stmt) != IFN_MASK_STORE)))
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    {
38fd1498Szrj	      dump_printf_loc (MSG_MISSED_OPTIMIZATION,  vect_location,
38fd1498Szrj	                       "not vectorized: dr in a call ");
38fd1498Szrj	      dump_gimple_stmt (MSG_MISSED_OPTIMIZATION, TDF_SLIM, stmt, 0);
38fd1498Szrj	    }
38fd1498Szrj
38fd1498Szrj	  if (is_a <bb_vec_info> (vinfo))
38fd1498Szrj	    break;
38fd1498Szrj
38fd1498Szrj	  if (gatherscatter != SG_NONE || simd_lane_access)
38fd1498Szrj	    free_data_ref (dr);
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      /* Update DR field in stmt_vec_info struct.  */
38fd1498Szrj
38fd1498Szrj      /* If the dataref is in an inner-loop of the loop that is considered for
38fd1498Szrj	 for vectorization, we also want to analyze the access relative to
38fd1498Szrj	 the outer-loop (DR contains information only relative to the
38fd1498Szrj	 inner-most enclosing loop).  We do that by building a reference to the
38fd1498Szrj	 first location accessed by the inner-loop, and analyze it relative to
38fd1498Szrj	 the outer-loop.  */
38fd1498Szrj      if (loop && nested_in_vect_loop_p (loop, stmt))
38fd1498Szrj	{
38fd1498Szrj	  /* Build a reference to the first location accessed by the
38fd1498Szrj	     inner loop: *(BASE + INIT + OFFSET).  By construction,
38fd1498Szrj	     this address must be invariant in the inner loop, so we
38fd1498Szrj	     can consider it as being used in the outer loop.  */
38fd1498Szrj	  tree init_offset = fold_build2 (PLUS_EXPR, TREE_TYPE (offset),
38fd1498Szrj					  init, offset);
38fd1498Szrj	  tree init_addr = fold_build_pointer_plus (base, init_offset);
38fd1498Szrj	  tree init_ref = build_fold_indirect_ref (init_addr);
38fd1498Szrj
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    {
38fd1498Szrj	      dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                               "analyze in outer loop: ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM, init_ref);
38fd1498Szrj	      dump_printf (MSG_NOTE, "\n");
38fd1498Szrj	    }
38fd1498Szrj
38fd1498Szrj	  if (!dr_analyze_innermost (&STMT_VINFO_DR_WRT_VEC_LOOP (stmt_info),
38fd1498Szrj				     init_ref, loop))
38fd1498Szrj	    /* dr_analyze_innermost already explained the failure.  */
38fd1498Szrj	    return false;
38fd1498Szrj
38fd1498Szrj          if (dump_enabled_p ())
38fd1498Szrj	    {
38fd1498Szrj	      dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                               "\touter base_address: ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM,
38fd1498Szrj                                 STMT_VINFO_DR_BASE_ADDRESS (stmt_info));
38fd1498Szrj	      dump_printf (MSG_NOTE, "\n\touter offset from base address: ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM,
38fd1498Szrj                                 STMT_VINFO_DR_OFFSET (stmt_info));
38fd1498Szrj	      dump_printf (MSG_NOTE,
38fd1498Szrj                           "\n\touter constant offset from base address: ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM,
38fd1498Szrj                                 STMT_VINFO_DR_INIT (stmt_info));
38fd1498Szrj	      dump_printf (MSG_NOTE, "\n\touter step: ");
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM,
38fd1498Szrj                                 STMT_VINFO_DR_STEP (stmt_info));
38fd1498Szrj	      dump_printf (MSG_NOTE, "\n\touter base alignment: %d\n",
38fd1498Szrj			   STMT_VINFO_DR_BASE_ALIGNMENT (stmt_info));
38fd1498Szrj	      dump_printf (MSG_NOTE, "\n\touter base misalignment: %d\n",
38fd1498Szrj			   STMT_VINFO_DR_BASE_MISALIGNMENT (stmt_info));
38fd1498Szrj	      dump_printf (MSG_NOTE, "\n\touter offset alignment: %d\n",
38fd1498Szrj			   STMT_VINFO_DR_OFFSET_ALIGNMENT (stmt_info));
38fd1498Szrj	      dump_printf (MSG_NOTE, "\n\touter step alignment: %d\n",
38fd1498Szrj			   STMT_VINFO_DR_STEP_ALIGNMENT (stmt_info));
38fd1498Szrj	    }
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      if (STMT_VINFO_DATA_REF (stmt_info))
38fd1498Szrj        {
38fd1498Szrj          if (dump_enabled_p ())
38fd1498Szrj            {
38fd1498Szrj              dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj                               "not vectorized: more than one data ref "
38fd1498Szrj                               "in stmt: ");
38fd1498Szrj              dump_gimple_stmt (MSG_MISSED_OPTIMIZATION, TDF_SLIM, stmt, 0);
38fd1498Szrj            }
38fd1498Szrj
38fd1498Szrj          if (is_a <bb_vec_info> (vinfo))
38fd1498Szrj	    break;
38fd1498Szrj
38fd1498Szrj	  if (gatherscatter != SG_NONE || simd_lane_access)
38fd1498Szrj	    free_data_ref (dr);
38fd1498Szrj          return false;
38fd1498Szrj        }
38fd1498Szrj
38fd1498Szrj      STMT_VINFO_DATA_REF (stmt_info) = dr;
38fd1498Szrj      if (simd_lane_access)
38fd1498Szrj	{
38fd1498Szrj	  STMT_VINFO_SIMD_LANE_ACCESS_P (stmt_info) = true;
38fd1498Szrj	  free_data_ref (datarefs[i]);
38fd1498Szrj	  datarefs[i] = dr;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      if (TREE_CODE (DR_BASE_ADDRESS (dr)) == ADDR_EXPR
38fd1498Szrj	  && VAR_P (TREE_OPERAND (DR_BASE_ADDRESS (dr), 0))
38fd1498Szrj	  && DECL_NONALIASED (TREE_OPERAND (DR_BASE_ADDRESS (dr), 0)))
38fd1498Szrj	{
38fd1498Szrj          if (dump_enabled_p ())
38fd1498Szrj            {
38fd1498Szrj              dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj                               "not vectorized: base object not addressable "
38fd1498Szrj			       "for stmt: ");
38fd1498Szrj              dump_gimple_stmt (MSG_MISSED_OPTIMIZATION, TDF_SLIM, stmt, 0);
38fd1498Szrj            }
38fd1498Szrj          if (is_a <bb_vec_info> (vinfo))
38fd1498Szrj	    {
38fd1498Szrj	      /* In BB vectorization the ref can still participate
38fd1498Szrj	         in dependence analysis, we just can't vectorize it.  */
38fd1498Szrj	      STMT_VINFO_VECTORIZABLE (stmt_info) = false;
38fd1498Szrj	      continue;
38fd1498Szrj	    }
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      /* Set vectype for STMT.  */
38fd1498Szrj      scalar_type = TREE_TYPE (DR_REF (dr));
38fd1498Szrj      STMT_VINFO_VECTYPE (stmt_info)
38fd1498Szrj	= get_vectype_for_scalar_type (scalar_type);
38fd1498Szrj      if (!STMT_VINFO_VECTYPE (stmt_info))
38fd1498Szrj        {
38fd1498Szrj          if (dump_enabled_p ())
38fd1498Szrj            {
38fd1498Szrj              dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj                               "not vectorized: no vectype for stmt: ");
38fd1498Szrj              dump_gimple_stmt (MSG_MISSED_OPTIMIZATION, TDF_SLIM, stmt, 0);
38fd1498Szrj              dump_printf (MSG_MISSED_OPTIMIZATION, " scalar_type: ");
38fd1498Szrj              dump_generic_expr (MSG_MISSED_OPTIMIZATION, TDF_DETAILS,
38fd1498Szrj                                 scalar_type);
38fd1498Szrj              dump_printf (MSG_MISSED_OPTIMIZATION, "\n");
38fd1498Szrj            }
38fd1498Szrj
38fd1498Szrj          if (is_a <bb_vec_info> (vinfo))
38fd1498Szrj	    {
38fd1498Szrj	      /* No vector type is fine, the ref can still participate
38fd1498Szrj	         in dependence analysis, we just can't vectorize it.  */
38fd1498Szrj	      STMT_VINFO_VECTORIZABLE (stmt_info) = false;
38fd1498Szrj	      continue;
38fd1498Szrj	    }
38fd1498Szrj
38fd1498Szrj	  if (gatherscatter != SG_NONE || simd_lane_access)
38fd1498Szrj	    {
38fd1498Szrj	      STMT_VINFO_DATA_REF (stmt_info) = NULL;
38fd1498Szrj	      if (gatherscatter != SG_NONE)
38fd1498Szrj		free_data_ref (dr);
38fd1498Szrj	    }
38fd1498Szrj	  return false;
38fd1498Szrj        }
38fd1498Szrj      else
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    {
38fd1498Szrj	      dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj			       "got vectype for stmt: ");
38fd1498Szrj	      dump_gimple_stmt (MSG_NOTE, TDF_SLIM, stmt, 0);
38fd1498Szrj	      dump_generic_expr (MSG_NOTE, TDF_SLIM,
38fd1498Szrj				 STMT_VINFO_VECTYPE (stmt_info));
38fd1498Szrj	      dump_printf (MSG_NOTE, "\n");
38fd1498Szrj	    }
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      /* Adjust the minimal vectorization factor according to the
38fd1498Szrj	 vector type.  */
38fd1498Szrj      vf = TYPE_VECTOR_SUBPARTS (STMT_VINFO_VECTYPE (stmt_info));
38fd1498Szrj      *min_vf = upper_bound (*min_vf, vf);
38fd1498Szrj
38fd1498Szrj      if (gatherscatter != SG_NONE)
38fd1498Szrj	{
38fd1498Szrj	  gather_scatter_info gs_info;
38fd1498Szrj	  if (!vect_check_gather_scatter (stmt, as_a <loop_vec_info> (vinfo),
38fd1498Szrj					  &gs_info)
38fd1498Szrj	      || !get_vectype_for_scalar_type (TREE_TYPE (gs_info.offset)))
38fd1498Szrj	    {
38fd1498Szrj	      STMT_VINFO_DATA_REF (stmt_info) = NULL;
38fd1498Szrj	      free_data_ref (dr);
38fd1498Szrj	      if (dump_enabled_p ())
38fd1498Szrj		{
38fd1498Szrj		  dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj				   (gatherscatter == GATHER) ?
38fd1498Szrj				   "not vectorized: not suitable for gather "
38fd1498Szrj				   "load " :
38fd1498Szrj				   "not vectorized: not suitable for scatter "
38fd1498Szrj				   "store ");
38fd1498Szrj		  dump_gimple_stmt (MSG_MISSED_OPTIMIZATION, TDF_SLIM, stmt, 0);
38fd1498Szrj		}
38fd1498Szrj	      return false;
38fd1498Szrj	    }
38fd1498Szrj
38fd1498Szrj	  free_data_ref (datarefs[i]);
38fd1498Szrj	  datarefs[i] = dr;
38fd1498Szrj	  STMT_VINFO_GATHER_SCATTER_P (stmt_info) = gatherscatter;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      else if (is_a <loop_vec_info> (vinfo)
38fd1498Szrj	       && TREE_CODE (DR_STEP (dr)) != INTEGER_CST)
38fd1498Szrj	{
38fd1498Szrj	  if (nested_in_vect_loop_p (loop, stmt))
38fd1498Szrj	    {
38fd1498Szrj	      if (dump_enabled_p ())
38fd1498Szrj		{
38fd1498Szrj		  dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj                                   "not vectorized: not suitable for strided "
38fd1498Szrj                                   "load ");
38fd1498Szrj		  dump_gimple_stmt (MSG_MISSED_OPTIMIZATION, TDF_SLIM, stmt, 0);
38fd1498Szrj		}
38fd1498Szrj	      return false;
38fd1498Szrj	    }
38fd1498Szrj	  STMT_VINFO_STRIDED_P (stmt_info) = true;
38fd1498Szrj	}
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* If we stopped analysis at the first dataref we could not analyze
38fd1498Szrj     when trying to vectorize a basic-block mark the rest of the datarefs
38fd1498Szrj     as not vectorizable and truncate the vector of datarefs.  That
38fd1498Szrj     avoids spending useless time in analyzing their dependence.  */
38fd1498Szrj  if (i != datarefs.length ())
38fd1498Szrj    {
38fd1498Szrj      gcc_assert (is_a <bb_vec_info> (vinfo));
38fd1498Szrj      for (unsigned j = i; j < datarefs.length (); ++j)
38fd1498Szrj	{
38fd1498Szrj	  data_reference_p dr = datarefs[j];
38fd1498Szrj          STMT_VINFO_VECTORIZABLE (vinfo_for_stmt (DR_STMT (dr))) = false;
38fd1498Szrj	  free_data_ref (dr);
38fd1498Szrj	}
38fd1498Szrj      datarefs.truncate (i);
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  return true;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Function vect_get_new_vect_var.
38fd1498Szrj
38fd1498Szrj   Returns a name for a new variable.  The current naming scheme appends the
38fd1498Szrj   prefix "vect_" or "vect_p" (depending on the value of VAR_KIND) to
38fd1498Szrj   the name of vectorizer generated variables, and appends that to NAME if
38fd1498Szrj   provided.  */
38fd1498Szrj
38fd1498Szrjtree
38fd1498Szrjvect_get_new_vect_var (tree type, enum vect_var_kind var_kind, const char *name)
38fd1498Szrj{
38fd1498Szrj  const char *prefix;
38fd1498Szrj  tree new_vect_var;
38fd1498Szrj
38fd1498Szrj  switch (var_kind)
38fd1498Szrj  {
38fd1498Szrj  case vect_simple_var:
38fd1498Szrj    prefix = "vect";
38fd1498Szrj    break;
38fd1498Szrj  case vect_scalar_var:
38fd1498Szrj    prefix = "stmp";
38fd1498Szrj    break;
38fd1498Szrj  case vect_mask_var:
38fd1498Szrj    prefix = "mask";
38fd1498Szrj    break;
38fd1498Szrj  case vect_pointer_var:
38fd1498Szrj    prefix = "vectp";
38fd1498Szrj    break;
38fd1498Szrj  default:
38fd1498Szrj    gcc_unreachable ();
38fd1498Szrj  }
38fd1498Szrj
38fd1498Szrj  if (name)
38fd1498Szrj    {
38fd1498Szrj      char* tmp = concat (prefix, "_", name, NULL);
38fd1498Szrj      new_vect_var = create_tmp_reg (type, tmp);
38fd1498Szrj      free (tmp);
38fd1498Szrj    }
38fd1498Szrj  else
38fd1498Szrj    new_vect_var = create_tmp_reg (type, prefix);
38fd1498Szrj
38fd1498Szrj  return new_vect_var;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Like vect_get_new_vect_var but return an SSA name.  */
38fd1498Szrj
38fd1498Szrjtree
38fd1498Szrjvect_get_new_ssa_name (tree type, enum vect_var_kind var_kind, const char *name)
38fd1498Szrj{
38fd1498Szrj  const char *prefix;
38fd1498Szrj  tree new_vect_var;
38fd1498Szrj
38fd1498Szrj  switch (var_kind)
38fd1498Szrj  {
38fd1498Szrj  case vect_simple_var:
38fd1498Szrj    prefix = "vect";
38fd1498Szrj    break;
38fd1498Szrj  case vect_scalar_var:
38fd1498Szrj    prefix = "stmp";
38fd1498Szrj    break;
38fd1498Szrj  case vect_pointer_var:
38fd1498Szrj    prefix = "vectp";
38fd1498Szrj    break;
38fd1498Szrj  default:
38fd1498Szrj    gcc_unreachable ();
38fd1498Szrj  }
38fd1498Szrj
38fd1498Szrj  if (name)
38fd1498Szrj    {
38fd1498Szrj      char* tmp = concat (prefix, "_", name, NULL);
38fd1498Szrj      new_vect_var = make_temp_ssa_name (type, NULL, tmp);
38fd1498Szrj      free (tmp);
38fd1498Szrj    }
38fd1498Szrj  else
38fd1498Szrj    new_vect_var = make_temp_ssa_name (type, NULL, prefix);
38fd1498Szrj
38fd1498Szrj  return new_vect_var;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Duplicate ptr info and set alignment/misaligment on NAME from DR.  */
38fd1498Szrj
38fd1498Szrjstatic void
38fd1498Szrjvect_duplicate_ssa_name_ptr_info (tree name, data_reference *dr)
38fd1498Szrj{
38fd1498Szrj  duplicate_ssa_name_ptr_info (name, DR_PTR_INFO (dr));
38fd1498Szrj  int misalign = DR_MISALIGNMENT (dr);
38fd1498Szrj  if (misalign == DR_MISALIGNMENT_UNKNOWN)
38fd1498Szrj    mark_ptr_info_alignment_unknown (SSA_NAME_PTR_INFO (name));
38fd1498Szrj  else
38fd1498Szrj    set_ptr_info_alignment (SSA_NAME_PTR_INFO (name),
38fd1498Szrj			    DR_TARGET_ALIGNMENT (dr), misalign);
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Function vect_create_addr_base_for_vector_ref.
38fd1498Szrj
38fd1498Szrj   Create an expression that computes the address of the first memory location
38fd1498Szrj   that will be accessed for a data reference.
38fd1498Szrj
38fd1498Szrj   Input:
38fd1498Szrj   STMT: The statement containing the data reference.
38fd1498Szrj   NEW_STMT_LIST: Must be initialized to NULL_TREE or a statement list.
38fd1498Szrj   OFFSET: Optional. If supplied, it is be added to the initial address.
38fd1498Szrj   LOOP:    Specify relative to which loop-nest should the address be computed.
38fd1498Szrj            For example, when the dataref is in an inner-loop nested in an
38fd1498Szrj	    outer-loop that is now being vectorized, LOOP can be either the
38fd1498Szrj	    outer-loop, or the inner-loop.  The first memory location accessed
38fd1498Szrj	    by the following dataref ('in' points to short):
38fd1498Szrj
38fd1498Szrj		for (i=0; i<N; i++)
38fd1498Szrj		   for (j=0; j<M; j++)
38fd1498Szrj		     s += in[i+j]
38fd1498Szrj
38fd1498Szrj	    is as follows:
38fd1498Szrj	    if LOOP=i_loop:	&in		(relative to i_loop)
38fd1498Szrj	    if LOOP=j_loop: 	&in+i*2B	(relative to j_loop)
38fd1498Szrj   BYTE_OFFSET: Optional, defaulted to NULL.  If supplied, it is added to the
38fd1498Szrj	    initial address.  Unlike OFFSET, which is number of elements to
38fd1498Szrj	    be added, BYTE_OFFSET is measured in bytes.
38fd1498Szrj
38fd1498Szrj   Output:
38fd1498Szrj   1. Return an SSA_NAME whose value is the address of the memory location of
38fd1498Szrj      the first vector of the data reference.
38fd1498Szrj   2. If new_stmt_list is not NULL_TREE after return then the caller must insert
38fd1498Szrj      these statement(s) which define the returned SSA_NAME.
38fd1498Szrj
38fd1498Szrj   FORNOW: We are only handling array accesses with step 1.  */
38fd1498Szrj
38fd1498Szrjtree
38fd1498Szrjvect_create_addr_base_for_vector_ref (gimple *stmt,
38fd1498Szrj				      gimple_seq *new_stmt_list,
38fd1498Szrj				      tree offset,
38fd1498Szrj				      tree byte_offset)
38fd1498Szrj{
38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj  struct data_reference *dr = STMT_VINFO_DATA_REF (stmt_info);
38fd1498Szrj  const char *base_name;
38fd1498Szrj  tree addr_base;
38fd1498Szrj  tree dest;
38fd1498Szrj  gimple_seq seq = NULL;
38fd1498Szrj  tree vect_ptr_type;
38fd1498Szrj  tree step = TYPE_SIZE_UNIT (TREE_TYPE (DR_REF (dr)));
38fd1498Szrj  loop_vec_info loop_vinfo = STMT_VINFO_LOOP_VINFO (stmt_info);
38fd1498Szrj  innermost_loop_behavior *drb = vect_dr_behavior (dr);
38fd1498Szrj
38fd1498Szrj  tree data_ref_base = unshare_expr (drb->base_address);
38fd1498Szrj  tree base_offset = unshare_expr (drb->offset);
38fd1498Szrj  tree init = unshare_expr (drb->init);
38fd1498Szrj
38fd1498Szrj  if (loop_vinfo)
38fd1498Szrj    base_name = get_name (data_ref_base);
38fd1498Szrj  else
38fd1498Szrj    {
38fd1498Szrj      base_offset = ssize_int (0);
38fd1498Szrj      init = ssize_int (0);
38fd1498Szrj      base_name = get_name (DR_REF (dr));
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* Create base_offset */
38fd1498Szrj  base_offset = size_binop (PLUS_EXPR,
38fd1498Szrj			    fold_convert (sizetype, base_offset),
38fd1498Szrj			    fold_convert (sizetype, init));
38fd1498Szrj
38fd1498Szrj  if (offset)
38fd1498Szrj    {
38fd1498Szrj      offset = fold_build2 (MULT_EXPR, sizetype,
38fd1498Szrj			    fold_convert (sizetype, offset), step);
38fd1498Szrj      base_offset = fold_build2 (PLUS_EXPR, sizetype,
38fd1498Szrj				 base_offset, offset);
38fd1498Szrj    }
38fd1498Szrj  if (byte_offset)
38fd1498Szrj    {
38fd1498Szrj      byte_offset = fold_convert (sizetype, byte_offset);
38fd1498Szrj      base_offset = fold_build2 (PLUS_EXPR, sizetype,
38fd1498Szrj				 base_offset, byte_offset);
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* base + base_offset */
38fd1498Szrj  if (loop_vinfo)
38fd1498Szrj    addr_base = fold_build_pointer_plus (data_ref_base, base_offset);
38fd1498Szrj  else
38fd1498Szrj    {
38fd1498Szrj      addr_base = build1 (ADDR_EXPR,
38fd1498Szrj			  build_pointer_type (TREE_TYPE (DR_REF (dr))),
38fd1498Szrj			  unshare_expr (DR_REF (dr)));
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  vect_ptr_type = build_pointer_type (STMT_VINFO_VECTYPE (stmt_info));
38fd1498Szrj  dest = vect_get_new_vect_var (vect_ptr_type, vect_pointer_var, base_name);
38fd1498Szrj  addr_base = force_gimple_operand (addr_base, &seq, true, dest);
38fd1498Szrj  gimple_seq_add_seq (new_stmt_list, seq);
38fd1498Szrj
38fd1498Szrj  if (DR_PTR_INFO (dr)
38fd1498Szrj      && TREE_CODE (addr_base) == SSA_NAME
38fd1498Szrj      && !SSA_NAME_PTR_INFO (addr_base))
38fd1498Szrj    {
38fd1498Szrj      vect_duplicate_ssa_name_ptr_info (addr_base, dr);
38fd1498Szrj      if (offset || byte_offset)
38fd1498Szrj	mark_ptr_info_alignment_unknown (SSA_NAME_PTR_INFO (addr_base));
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    {
38fd1498Szrj      dump_printf_loc (MSG_NOTE, vect_location, "created ");
38fd1498Szrj      dump_generic_expr (MSG_NOTE, TDF_SLIM, addr_base);
38fd1498Szrj      dump_printf (MSG_NOTE, "\n");
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  return addr_base;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Function vect_create_data_ref_ptr.
38fd1498Szrj
38fd1498Szrj   Create a new pointer-to-AGGR_TYPE variable (ap), that points to the first
38fd1498Szrj   location accessed in the loop by STMT, along with the def-use update
38fd1498Szrj   chain to appropriately advance the pointer through the loop iterations.
38fd1498Szrj   Also set aliasing information for the pointer.  This pointer is used by
38fd1498Szrj   the callers to this function to create a memory reference expression for
38fd1498Szrj   vector load/store access.
38fd1498Szrj
38fd1498Szrj   Input:
38fd1498Szrj   1. STMT: a stmt that references memory. Expected to be of the form
38fd1498Szrj         GIMPLE_ASSIGN <name, data-ref> or
38fd1498Szrj	 GIMPLE_ASSIGN <data-ref, name>.
38fd1498Szrj   2. AGGR_TYPE: the type of the reference, which should be either a vector
38fd1498Szrj        or an array.
38fd1498Szrj   3. AT_LOOP: the loop where the vector memref is to be created.
38fd1498Szrj   4. OFFSET (optional): an offset to be added to the initial address accessed
38fd1498Szrj        by the data-ref in STMT.
38fd1498Szrj   5. BSI: location where the new stmts are to be placed if there is no loop
38fd1498Szrj   6. ONLY_INIT: indicate if ap is to be updated in the loop, or remain
38fd1498Szrj        pointing to the initial address.
38fd1498Szrj   7. BYTE_OFFSET (optional, defaults to NULL): a byte offset to be added
38fd1498Szrj	to the initial address accessed by the data-ref in STMT.  This is
38fd1498Szrj	similar to OFFSET, but OFFSET is counted in elements, while BYTE_OFFSET
38fd1498Szrj	in bytes.
38fd1498Szrj   8. IV_STEP (optional, defaults to NULL): the amount that should be added
38fd1498Szrj	to the IV during each iteration of the loop.  NULL says to move
38fd1498Szrj	by one copy of AGGR_TYPE up or down, depending on the step of the
38fd1498Szrj	data reference.
38fd1498Szrj
38fd1498Szrj   Output:
38fd1498Szrj   1. Declare a new ptr to vector_type, and have it point to the base of the
38fd1498Szrj      data reference (initial addressed accessed by the data reference).
38fd1498Szrj      For example, for vector of type V8HI, the following code is generated:
38fd1498Szrj
38fd1498Szrj      v8hi *ap;
38fd1498Szrj      ap = (v8hi *)initial_address;
38fd1498Szrj
38fd1498Szrj      if OFFSET is not supplied:
38fd1498Szrj         initial_address = &a[init];
38fd1498Szrj      if OFFSET is supplied:
38fd1498Szrj         initial_address = &a[init + OFFSET];
38fd1498Szrj      if BYTE_OFFSET is supplied:
38fd1498Szrj	 initial_address = &a[init] + BYTE_OFFSET;
38fd1498Szrj
38fd1498Szrj      Return the initial_address in INITIAL_ADDRESS.
38fd1498Szrj
38fd1498Szrj   2. If ONLY_INIT is true, just return the initial pointer.  Otherwise, also
38fd1498Szrj      update the pointer in each iteration of the loop.
38fd1498Szrj
38fd1498Szrj      Return the increment stmt that updates the pointer in PTR_INCR.
38fd1498Szrj
38fd1498Szrj   3. Set INV_P to true if the access pattern of the data reference in the
38fd1498Szrj      vectorized loop is invariant.  Set it to false otherwise.
38fd1498Szrj
38fd1498Szrj   4. Return the pointer.  */
38fd1498Szrj
38fd1498Szrjtree
38fd1498Szrjvect_create_data_ref_ptr (gimple *stmt, tree aggr_type, struct loop *at_loop,
38fd1498Szrj			  tree offset, tree *initial_address,
38fd1498Szrj			  gimple_stmt_iterator *gsi, gimple **ptr_incr,
38fd1498Szrj			  bool only_init, bool *inv_p, tree byte_offset,
38fd1498Szrj			  tree iv_step)
38fd1498Szrj{
38fd1498Szrj  const char *base_name;
38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj  loop_vec_info loop_vinfo = STMT_VINFO_LOOP_VINFO (stmt_info);
38fd1498Szrj  struct loop *loop = NULL;
38fd1498Szrj  bool nested_in_vect_loop = false;
38fd1498Szrj  struct loop *containing_loop = NULL;
38fd1498Szrj  tree aggr_ptr_type;
38fd1498Szrj  tree aggr_ptr;
38fd1498Szrj  tree new_temp;
38fd1498Szrj  gimple_seq new_stmt_list = NULL;
38fd1498Szrj  edge pe = NULL;
38fd1498Szrj  basic_block new_bb;
38fd1498Szrj  tree aggr_ptr_init;
38fd1498Szrj  struct data_reference *dr = STMT_VINFO_DATA_REF (stmt_info);
38fd1498Szrj  tree aptr;
38fd1498Szrj  gimple_stmt_iterator incr_gsi;
38fd1498Szrj  bool insert_after;
38fd1498Szrj  tree indx_before_incr, indx_after_incr;
38fd1498Szrj  gimple *incr;
38fd1498Szrj  tree step;
38fd1498Szrj  bb_vec_info bb_vinfo = STMT_VINFO_BB_VINFO (stmt_info);
38fd1498Szrj
38fd1498Szrj  gcc_assert (iv_step != NULL_TREE
38fd1498Szrj	      || TREE_CODE (aggr_type) == ARRAY_TYPE
38fd1498Szrj	      || TREE_CODE (aggr_type) == VECTOR_TYPE);
38fd1498Szrj
38fd1498Szrj  if (loop_vinfo)
38fd1498Szrj    {
38fd1498Szrj      loop = LOOP_VINFO_LOOP (loop_vinfo);
38fd1498Szrj      nested_in_vect_loop = nested_in_vect_loop_p (loop, stmt);
38fd1498Szrj      containing_loop = (gimple_bb (stmt))->loop_father;
38fd1498Szrj      pe = loop_preheader_edge (loop);
38fd1498Szrj    }
38fd1498Szrj  else
38fd1498Szrj    {
38fd1498Szrj      gcc_assert (bb_vinfo);
38fd1498Szrj      only_init = true;
38fd1498Szrj      *ptr_incr = NULL;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* Check the step (evolution) of the load in LOOP, and record
38fd1498Szrj     whether it's invariant.  */
38fd1498Szrj  step = vect_dr_behavior (dr)->step;
38fd1498Szrj  if (integer_zerop (step))
38fd1498Szrj    *inv_p = true;
38fd1498Szrj  else
38fd1498Szrj    *inv_p = false;
38fd1498Szrj
38fd1498Szrj  /* Create an expression for the first address accessed by this load
38fd1498Szrj     in LOOP.  */
38fd1498Szrj  base_name = get_name (DR_BASE_ADDRESS (dr));
38fd1498Szrj
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    {
38fd1498Szrj      tree dr_base_type = TREE_TYPE (DR_BASE_OBJECT (dr));
38fd1498Szrj      dump_printf_loc (MSG_NOTE, vect_location,
38fd1498Szrj                       "create %s-pointer variable to type: ",
38fd1498Szrj		       get_tree_code_name (TREE_CODE (aggr_type)));
38fd1498Szrj      dump_generic_expr (MSG_NOTE, TDF_SLIM, aggr_type);
38fd1498Szrj      if (TREE_CODE (dr_base_type) == ARRAY_TYPE)
38fd1498Szrj        dump_printf (MSG_NOTE, "  vectorizing an array ref: ");
38fd1498Szrj      else if (TREE_CODE (dr_base_type) == VECTOR_TYPE)
38fd1498Szrj        dump_printf (MSG_NOTE, "  vectorizing a vector ref: ");
38fd1498Szrj      else if (TREE_CODE (dr_base_type) == RECORD_TYPE)
38fd1498Szrj        dump_printf (MSG_NOTE, "  vectorizing a record based array ref: ");
38fd1498Szrj      else
38fd1498Szrj        dump_printf (MSG_NOTE, "  vectorizing a pointer ref: ");
38fd1498Szrj      dump_generic_expr (MSG_NOTE, TDF_SLIM, DR_BASE_OBJECT (dr));
38fd1498Szrj      dump_printf (MSG_NOTE, "\n");
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* (1) Create the new aggregate-pointer variable.
38fd1498Szrj     Vector and array types inherit the alias set of their component
38fd1498Szrj     type by default so we need to use a ref-all pointer if the data
38fd1498Szrj     reference does not conflict with the created aggregated data
38fd1498Szrj     reference because it is not addressable.  */
38fd1498Szrj  bool need_ref_all = false;
38fd1498Szrj  if (!alias_sets_conflict_p (get_alias_set (aggr_type),
38fd1498Szrj			      get_alias_set (DR_REF (dr))))
38fd1498Szrj    need_ref_all = true;
38fd1498Szrj  /* Likewise for any of the data references in the stmt group.  */
38fd1498Szrj  else if (STMT_VINFO_GROUP_SIZE (stmt_info) > 1)
38fd1498Szrj    {
38fd1498Szrj      gimple *orig_stmt = STMT_VINFO_GROUP_FIRST_ELEMENT (stmt_info);
38fd1498Szrj      do
38fd1498Szrj	{
38fd1498Szrj	  stmt_vec_info sinfo = vinfo_for_stmt (orig_stmt);
38fd1498Szrj	  struct data_reference *sdr = STMT_VINFO_DATA_REF (sinfo);
38fd1498Szrj	  if (!alias_sets_conflict_p (get_alias_set (aggr_type),
38fd1498Szrj				      get_alias_set (DR_REF (sdr))))
38fd1498Szrj	    {
38fd1498Szrj	      need_ref_all = true;
38fd1498Szrj	      break;
38fd1498Szrj	    }
38fd1498Szrj	  orig_stmt = STMT_VINFO_GROUP_NEXT_ELEMENT (sinfo);
38fd1498Szrj	}
38fd1498Szrj      while (orig_stmt);
38fd1498Szrj    }
38fd1498Szrj  aggr_ptr_type = build_pointer_type_for_mode (aggr_type, ptr_mode,
38fd1498Szrj					       need_ref_all);
38fd1498Szrj  aggr_ptr = vect_get_new_vect_var (aggr_ptr_type, vect_pointer_var, base_name);
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj  /* Note: If the dataref is in an inner-loop nested in LOOP, and we are
38fd1498Szrj     vectorizing LOOP (i.e., outer-loop vectorization), we need to create two
38fd1498Szrj     def-use update cycles for the pointer: one relative to the outer-loop
38fd1498Szrj     (LOOP), which is what steps (3) and (4) below do.  The other is relative
38fd1498Szrj     to the inner-loop (which is the inner-most loop containing the dataref),
38fd1498Szrj     and this is done be step (5) below.
38fd1498Szrj
38fd1498Szrj     When vectorizing inner-most loops, the vectorized loop (LOOP) is also the
38fd1498Szrj     inner-most loop, and so steps (3),(4) work the same, and step (5) is
38fd1498Szrj     redundant.  Steps (3),(4) create the following:
38fd1498Szrj
38fd1498Szrj	vp0 = &base_addr;
38fd1498Szrj	LOOP:	vp1 = phi(vp0,vp2)
38fd1498Szrj		...
38fd1498Szrj		...
38fd1498Szrj		vp2 = vp1 + step
38fd1498Szrj		goto LOOP
38fd1498Szrj
38fd1498Szrj     If there is an inner-loop nested in loop, then step (5) will also be
38fd1498Szrj     applied, and an additional update in the inner-loop will be created:
38fd1498Szrj
38fd1498Szrj	vp0 = &base_addr;
38fd1498Szrj	LOOP:   vp1 = phi(vp0,vp2)
38fd1498Szrj		...
38fd1498Szrj        inner:     vp3 = phi(vp1,vp4)
38fd1498Szrj	           vp4 = vp3 + inner_step
38fd1498Szrj	           if () goto inner
38fd1498Szrj		...
38fd1498Szrj		vp2 = vp1 + step
38fd1498Szrj		if () goto LOOP   */
38fd1498Szrj
38fd1498Szrj  /* (2) Calculate the initial address of the aggregate-pointer, and set
38fd1498Szrj     the aggregate-pointer to point to it before the loop.  */
38fd1498Szrj
38fd1498Szrj  /* Create: (&(base[init_val+offset]+byte_offset) in the loop preheader.  */
38fd1498Szrj
38fd1498Szrj  new_temp = vect_create_addr_base_for_vector_ref (stmt, &new_stmt_list,
38fd1498Szrj						   offset, byte_offset);
38fd1498Szrj  if (new_stmt_list)
38fd1498Szrj    {
38fd1498Szrj      if (pe)
38fd1498Szrj        {
38fd1498Szrj          new_bb = gsi_insert_seq_on_edge_immediate (pe, new_stmt_list);
38fd1498Szrj          gcc_assert (!new_bb);
38fd1498Szrj        }
38fd1498Szrj      else
38fd1498Szrj        gsi_insert_seq_before (gsi, new_stmt_list, GSI_SAME_STMT);
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  *initial_address = new_temp;
38fd1498Szrj  aggr_ptr_init = new_temp;
38fd1498Szrj
38fd1498Szrj  /* (3) Handle the updating of the aggregate-pointer inside the loop.
38fd1498Szrj     This is needed when ONLY_INIT is false, and also when AT_LOOP is the
38fd1498Szrj     inner-loop nested in LOOP (during outer-loop vectorization).  */
38fd1498Szrj
38fd1498Szrj  /* No update in loop is required.  */
38fd1498Szrj  if (only_init && (!loop_vinfo || at_loop == loop))
38fd1498Szrj    aptr = aggr_ptr_init;
38fd1498Szrj  else
38fd1498Szrj    {
38fd1498Szrj      if (iv_step == NULL_TREE)
38fd1498Szrj	{
38fd1498Szrj	  /* The step of the aggregate pointer is the type size.  */
38fd1498Szrj	  iv_step = TYPE_SIZE_UNIT (aggr_type);
38fd1498Szrj	  /* One exception to the above is when the scalar step of the load in
38fd1498Szrj	     LOOP is zero. In this case the step here is also zero.  */
38fd1498Szrj	  if (*inv_p)
38fd1498Szrj	    iv_step = size_zero_node;
38fd1498Szrj	  else if (tree_int_cst_sgn (step) == -1)
38fd1498Szrj	    iv_step = fold_build1 (NEGATE_EXPR, TREE_TYPE (iv_step), iv_step);
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      standard_iv_increment_position (loop, &incr_gsi, &insert_after);
38fd1498Szrj
38fd1498Szrj      create_iv (aggr_ptr_init,
38fd1498Szrj		 fold_convert (aggr_ptr_type, iv_step),
38fd1498Szrj		 aggr_ptr, loop, &incr_gsi, insert_after,
38fd1498Szrj		 &indx_before_incr, &indx_after_incr);
38fd1498Szrj      incr = gsi_stmt (incr_gsi);
38fd1498Szrj      set_vinfo_for_stmt (incr, new_stmt_vec_info (incr, loop_vinfo));
38fd1498Szrj
38fd1498Szrj      /* Copy the points-to information if it exists. */
38fd1498Szrj      if (DR_PTR_INFO (dr))
38fd1498Szrj	{
38fd1498Szrj	  vect_duplicate_ssa_name_ptr_info (indx_before_incr, dr);
38fd1498Szrj	  vect_duplicate_ssa_name_ptr_info (indx_after_incr, dr);
38fd1498Szrj	}
38fd1498Szrj      if (ptr_incr)
38fd1498Szrj	*ptr_incr = incr;
38fd1498Szrj
38fd1498Szrj      aptr = indx_before_incr;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (!nested_in_vect_loop || only_init)
38fd1498Szrj    return aptr;
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj  /* (4) Handle the updating of the aggregate-pointer inside the inner-loop
38fd1498Szrj     nested in LOOP, if exists.  */
38fd1498Szrj
38fd1498Szrj  gcc_assert (nested_in_vect_loop);
38fd1498Szrj  if (!only_init)
38fd1498Szrj    {
38fd1498Szrj      standard_iv_increment_position (containing_loop, &incr_gsi,
38fd1498Szrj				      &insert_after);
38fd1498Szrj      create_iv (aptr, fold_convert (aggr_ptr_type, DR_STEP (dr)), aggr_ptr,
38fd1498Szrj		 containing_loop, &incr_gsi, insert_after, &indx_before_incr,
38fd1498Szrj		 &indx_after_incr);
38fd1498Szrj      incr = gsi_stmt (incr_gsi);
38fd1498Szrj      set_vinfo_for_stmt (incr, new_stmt_vec_info (incr, loop_vinfo));
38fd1498Szrj
38fd1498Szrj      /* Copy the points-to information if it exists. */
38fd1498Szrj      if (DR_PTR_INFO (dr))
38fd1498Szrj	{
38fd1498Szrj	  vect_duplicate_ssa_name_ptr_info (indx_before_incr, dr);
38fd1498Szrj	  vect_duplicate_ssa_name_ptr_info (indx_after_incr, dr);
38fd1498Szrj	}
38fd1498Szrj      if (ptr_incr)
38fd1498Szrj	*ptr_incr = incr;
38fd1498Szrj
38fd1498Szrj      return indx_before_incr;
38fd1498Szrj    }
38fd1498Szrj  else
38fd1498Szrj    gcc_unreachable ();
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Function bump_vector_ptr
38fd1498Szrj
38fd1498Szrj   Increment a pointer (to a vector type) by vector-size. If requested,
38fd1498Szrj   i.e. if PTR-INCR is given, then also connect the new increment stmt
38fd1498Szrj   to the existing def-use update-chain of the pointer, by modifying
38fd1498Szrj   the PTR_INCR as illustrated below:
38fd1498Szrj
38fd1498Szrj   The pointer def-use update-chain before this function:
38fd1498Szrj                        DATAREF_PTR = phi (p_0, p_2)
38fd1498Szrj                        ....
38fd1498Szrj        PTR_INCR:       p_2 = DATAREF_PTR + step
38fd1498Szrj
38fd1498Szrj   The pointer def-use update-chain after this function:
38fd1498Szrj                        DATAREF_PTR = phi (p_0, p_2)
38fd1498Szrj                        ....
38fd1498Szrj                        NEW_DATAREF_PTR = DATAREF_PTR + BUMP
38fd1498Szrj                        ....
38fd1498Szrj        PTR_INCR:       p_2 = NEW_DATAREF_PTR + step
38fd1498Szrj
38fd1498Szrj   Input:
38fd1498Szrj   DATAREF_PTR - ssa_name of a pointer (to vector type) that is being updated
38fd1498Szrj                 in the loop.
38fd1498Szrj   PTR_INCR - optional. The stmt that updates the pointer in each iteration of
38fd1498Szrj	      the loop.  The increment amount across iterations is expected
38fd1498Szrj	      to be vector_size.
38fd1498Szrj   BSI - location where the new update stmt is to be placed.
38fd1498Szrj   STMT - the original scalar memory-access stmt that is being vectorized.
38fd1498Szrj   BUMP - optional. The offset by which to bump the pointer. If not given,
38fd1498Szrj	  the offset is assumed to be vector_size.
38fd1498Szrj
38fd1498Szrj   Output: Return NEW_DATAREF_PTR as illustrated above.
38fd1498Szrj
38fd1498Szrj*/
38fd1498Szrj
38fd1498Szrjtree
38fd1498Szrjbump_vector_ptr (tree dataref_ptr, gimple *ptr_incr, gimple_stmt_iterator *gsi,
38fd1498Szrj		 gimple *stmt, tree bump)
38fd1498Szrj{
38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj  struct data_reference *dr = STMT_VINFO_DATA_REF (stmt_info);
38fd1498Szrj  tree vectype = STMT_VINFO_VECTYPE (stmt_info);
38fd1498Szrj  tree update = TYPE_SIZE_UNIT (vectype);
38fd1498Szrj  gassign *incr_stmt;
38fd1498Szrj  ssa_op_iter iter;
38fd1498Szrj  use_operand_p use_p;
38fd1498Szrj  tree new_dataref_ptr;
38fd1498Szrj
38fd1498Szrj  if (bump)
38fd1498Szrj    update = bump;
38fd1498Szrj
38fd1498Szrj  if (TREE_CODE (dataref_ptr) == SSA_NAME)
38fd1498Szrj    new_dataref_ptr = copy_ssa_name (dataref_ptr);
38fd1498Szrj  else
38fd1498Szrj    new_dataref_ptr = make_ssa_name (TREE_TYPE (dataref_ptr));
38fd1498Szrj  incr_stmt = gimple_build_assign (new_dataref_ptr, POINTER_PLUS_EXPR,
38fd1498Szrj				   dataref_ptr, update);
38fd1498Szrj  vect_finish_stmt_generation (stmt, incr_stmt, gsi);
38fd1498Szrj
38fd1498Szrj  /* Copy the points-to information if it exists. */
38fd1498Szrj  if (DR_PTR_INFO (dr))
38fd1498Szrj    {
38fd1498Szrj      duplicate_ssa_name_ptr_info (new_dataref_ptr, DR_PTR_INFO (dr));
38fd1498Szrj      mark_ptr_info_alignment_unknown (SSA_NAME_PTR_INFO (new_dataref_ptr));
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (!ptr_incr)
38fd1498Szrj    return new_dataref_ptr;
38fd1498Szrj
38fd1498Szrj  /* Update the vector-pointer's cross-iteration increment.  */
38fd1498Szrj  FOR_EACH_SSA_USE_OPERAND (use_p, ptr_incr, iter, SSA_OP_USE)
38fd1498Szrj    {
38fd1498Szrj      tree use = USE_FROM_PTR (use_p);
38fd1498Szrj
38fd1498Szrj      if (use == dataref_ptr)
38fd1498Szrj        SET_USE (use_p, new_dataref_ptr);
38fd1498Szrj      else
38fd1498Szrj        gcc_assert (operand_equal_p (use, update, 0));
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  return new_dataref_ptr;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Copy memory reference info such as base/clique from the SRC reference
38fd1498Szrj   to the DEST MEM_REF.  */
38fd1498Szrj
38fd1498Szrjvoid
38fd1498Szrjvect_copy_ref_info (tree dest, tree src)
38fd1498Szrj{
38fd1498Szrj  if (TREE_CODE (dest) != MEM_REF)
38fd1498Szrj    return;
38fd1498Szrj
38fd1498Szrj  tree src_base = src;
38fd1498Szrj  while (handled_component_p (src_base))
38fd1498Szrj    src_base = TREE_OPERAND (src_base, 0);
38fd1498Szrj  if (TREE_CODE (src_base) != MEM_REF
38fd1498Szrj      && TREE_CODE (src_base) != TARGET_MEM_REF)
38fd1498Szrj    return;
38fd1498Szrj
38fd1498Szrj  MR_DEPENDENCE_CLIQUE (dest) = MR_DEPENDENCE_CLIQUE (src_base);
38fd1498Szrj  MR_DEPENDENCE_BASE (dest) = MR_DEPENDENCE_BASE (src_base);
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Function vect_create_destination_var.
38fd1498Szrj
38fd1498Szrj   Create a new temporary of type VECTYPE.  */
38fd1498Szrj
38fd1498Szrjtree
38fd1498Szrjvect_create_destination_var (tree scalar_dest, tree vectype)
38fd1498Szrj{
38fd1498Szrj  tree vec_dest;
38fd1498Szrj  const char *name;
38fd1498Szrj  char *new_name;
38fd1498Szrj  tree type;
38fd1498Szrj  enum vect_var_kind kind;
38fd1498Szrj
38fd1498Szrj  kind = vectype
38fd1498Szrj    ? VECTOR_BOOLEAN_TYPE_P (vectype)
38fd1498Szrj    ? vect_mask_var
38fd1498Szrj    : vect_simple_var
38fd1498Szrj    : vect_scalar_var;
38fd1498Szrj  type = vectype ? vectype : TREE_TYPE (scalar_dest);
38fd1498Szrj
38fd1498Szrj  gcc_assert (TREE_CODE (scalar_dest) == SSA_NAME);
38fd1498Szrj
38fd1498Szrj  name = get_name (scalar_dest);
38fd1498Szrj  if (name)
38fd1498Szrj    new_name = xasprintf ("%s_%u", name, SSA_NAME_VERSION (scalar_dest));
38fd1498Szrj  else
38fd1498Szrj    new_name = xasprintf ("_%u", SSA_NAME_VERSION (scalar_dest));
38fd1498Szrj  vec_dest = vect_get_new_vect_var (type, kind, new_name);
38fd1498Szrj  free (new_name);
38fd1498Szrj
38fd1498Szrj  return vec_dest;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Function vect_grouped_store_supported.
38fd1498Szrj
38fd1498Szrj   Returns TRUE if interleave high and interleave low permutations
38fd1498Szrj   are supported, and FALSE otherwise.  */
38fd1498Szrj
38fd1498Szrjbool
38fd1498Szrjvect_grouped_store_supported (tree vectype, unsigned HOST_WIDE_INT count)
38fd1498Szrj{
38fd1498Szrj  machine_mode mode = TYPE_MODE (vectype);
38fd1498Szrj
38fd1498Szrj  /* vect_permute_store_chain requires the group size to be equal to 3 or
38fd1498Szrj     be a power of two.  */
38fd1498Szrj  if (count != 3 && exact_log2 (count) == -1)
38fd1498Szrj    {
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj	dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			 "the size of the group of accesses"
38fd1498Szrj			 " is not a power of 2 or not eqaul to 3\n");
38fd1498Szrj      return false;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* Check that the permutation is supported.  */
38fd1498Szrj  if (VECTOR_MODE_P (mode))
38fd1498Szrj    {
38fd1498Szrj      unsigned int i;
38fd1498Szrj      if (count == 3)
38fd1498Szrj	{
38fd1498Szrj	  unsigned int j0 = 0, j1 = 0, j2 = 0;
38fd1498Szrj	  unsigned int i, j;
38fd1498Szrj
38fd1498Szrj	  unsigned int nelt;
38fd1498Szrj	  if (!GET_MODE_NUNITS (mode).is_constant (&nelt))
38fd1498Szrj	    {
38fd1498Szrj	      if (dump_enabled_p ())
38fd1498Szrj		dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj				 "cannot handle groups of 3 stores for"
38fd1498Szrj				 " variable-length vectors\n");
38fd1498Szrj	      return false;
38fd1498Szrj	    }
38fd1498Szrj
38fd1498Szrj	  vec_perm_builder sel (nelt, nelt, 1);
38fd1498Szrj	  sel.quick_grow (nelt);
38fd1498Szrj	  vec_perm_indices indices;
38fd1498Szrj	  for (j = 0; j < 3; j++)
38fd1498Szrj	    {
38fd1498Szrj	      int nelt0 = ((3 - j) * nelt) % 3;
38fd1498Szrj	      int nelt1 = ((3 - j) * nelt + 1) % 3;
38fd1498Szrj	      int nelt2 = ((3 - j) * nelt + 2) % 3;
38fd1498Szrj	      for (i = 0; i < nelt; i++)
38fd1498Szrj		{
38fd1498Szrj		  if (3 * i + nelt0 < nelt)
38fd1498Szrj		    sel[3 * i + nelt0] = j0++;
38fd1498Szrj		  if (3 * i + nelt1 < nelt)
38fd1498Szrj		    sel[3 * i + nelt1] = nelt + j1++;
38fd1498Szrj		  if (3 * i + nelt2 < nelt)
38fd1498Szrj		    sel[3 * i + nelt2] = 0;
38fd1498Szrj		}
38fd1498Szrj	      indices.new_vector (sel, 2, nelt);
38fd1498Szrj	      if (!can_vec_perm_const_p (mode, indices))
38fd1498Szrj		{
38fd1498Szrj		  if (dump_enabled_p ())
38fd1498Szrj		    dump_printf (MSG_MISSED_OPTIMIZATION,
38fd1498Szrj				 "permutation op not supported by target.\n");
38fd1498Szrj		  return false;
38fd1498Szrj		}
38fd1498Szrj
38fd1498Szrj	      for (i = 0; i < nelt; i++)
38fd1498Szrj		{
38fd1498Szrj		  if (3 * i + nelt0 < nelt)
38fd1498Szrj		    sel[3 * i + nelt0] = 3 * i + nelt0;
38fd1498Szrj		  if (3 * i + nelt1 < nelt)
38fd1498Szrj		    sel[3 * i + nelt1] = 3 * i + nelt1;
38fd1498Szrj		  if (3 * i + nelt2 < nelt)
38fd1498Szrj		    sel[3 * i + nelt2] = nelt + j2++;
38fd1498Szrj		}
38fd1498Szrj	      indices.new_vector (sel, 2, nelt);
38fd1498Szrj	      if (!can_vec_perm_const_p (mode, indices))
38fd1498Szrj		{
38fd1498Szrj		  if (dump_enabled_p ())
38fd1498Szrj		    dump_printf (MSG_MISSED_OPTIMIZATION,
38fd1498Szrj				 "permutation op not supported by target.\n");
38fd1498Szrj		  return false;
38fd1498Szrj		}
38fd1498Szrj	    }
38fd1498Szrj	  return true;
38fd1498Szrj	}
38fd1498Szrj      else
38fd1498Szrj	{
38fd1498Szrj	  /* If length is not equal to 3 then only power of 2 is supported.  */
38fd1498Szrj	  gcc_assert (pow2p_hwi (count));
38fd1498Szrj	  poly_uint64 nelt = GET_MODE_NUNITS (mode);
38fd1498Szrj
38fd1498Szrj	  /* The encoding has 2 interleaved stepped patterns.  */
38fd1498Szrj	  vec_perm_builder sel (nelt, 2, 3);
38fd1498Szrj	  sel.quick_grow (6);
38fd1498Szrj	  for (i = 0; i < 3; i++)
38fd1498Szrj	    {
38fd1498Szrj	      sel[i * 2] = i;
38fd1498Szrj	      sel[i * 2 + 1] = i + nelt;
38fd1498Szrj	    }
38fd1498Szrj	  vec_perm_indices indices (sel, 2, nelt);
38fd1498Szrj	  if (can_vec_perm_const_p (mode, indices))
38fd1498Szrj	    {
38fd1498Szrj	      for (i = 0; i < 6; i++)
38fd1498Szrj		sel[i] += exact_div (nelt, 2);
38fd1498Szrj	      indices.new_vector (sel, 2, nelt);
38fd1498Szrj	      if (can_vec_perm_const_p (mode, indices))
38fd1498Szrj		return true;
38fd1498Szrj	    }
38fd1498Szrj	}
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    dump_printf (MSG_MISSED_OPTIMIZATION,
38fd1498Szrj		 "permutaion op not supported by target.\n");
38fd1498Szrj  return false;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Return TRUE if vec_{mask_}store_lanes is available for COUNT vectors of
38fd1498Szrj   type VECTYPE.  MASKED_P says whether the masked form is needed.  */
38fd1498Szrj
38fd1498Szrjbool
38fd1498Szrjvect_store_lanes_supported (tree vectype, unsigned HOST_WIDE_INT count,
38fd1498Szrj			    bool masked_p)
38fd1498Szrj{
38fd1498Szrj  if (masked_p)
38fd1498Szrj    return vect_lanes_optab_supported_p ("vec_mask_store_lanes",
38fd1498Szrj					 vec_mask_store_lanes_optab,
38fd1498Szrj					 vectype, count);
38fd1498Szrj  else
38fd1498Szrj    return vect_lanes_optab_supported_p ("vec_store_lanes",
38fd1498Szrj					 vec_store_lanes_optab,
38fd1498Szrj					 vectype, count);
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Function vect_permute_store_chain.
38fd1498Szrj
38fd1498Szrj   Given a chain of interleaved stores in DR_CHAIN of LENGTH that must be
38fd1498Szrj   a power of 2 or equal to 3, generate interleave_high/low stmts to reorder
38fd1498Szrj   the data correctly for the stores.  Return the final references for stores
38fd1498Szrj   in RESULT_CHAIN.
38fd1498Szrj
38fd1498Szrj   E.g., LENGTH is 4 and the scalar type is short, i.e., VF is 8.
38fd1498Szrj   The input is 4 vectors each containing 8 elements.  We assign a number to
38fd1498Szrj   each element, the input sequence is:
38fd1498Szrj
38fd1498Szrj   1st vec:   0  1  2  3  4  5  6  7
38fd1498Szrj   2nd vec:   8  9 10 11 12 13 14 15
38fd1498Szrj   3rd vec:  16 17 18 19 20 21 22 23
38fd1498Szrj   4th vec:  24 25 26 27 28 29 30 31
38fd1498Szrj
38fd1498Szrj   The output sequence should be:
38fd1498Szrj
38fd1498Szrj   1st vec:  0  8 16 24  1  9 17 25
38fd1498Szrj   2nd vec:  2 10 18 26  3 11 19 27
38fd1498Szrj   3rd vec:  4 12 20 28  5 13 21 30
38fd1498Szrj   4th vec:  6 14 22 30  7 15 23 31
38fd1498Szrj
38fd1498Szrj   i.e., we interleave the contents of the four vectors in their order.
38fd1498Szrj
38fd1498Szrj   We use interleave_high/low instructions to create such output.  The input of
38fd1498Szrj   each interleave_high/low operation is two vectors:
38fd1498Szrj   1st vec    2nd vec
38fd1498Szrj   0 1 2 3    4 5 6 7
38fd1498Szrj   the even elements of the result vector are obtained left-to-right from the
38fd1498Szrj   high/low elements of the first vector.  The odd elements of the result are
38fd1498Szrj   obtained left-to-right from the high/low elements of the second vector.
38fd1498Szrj   The output of interleave_high will be:   0 4 1 5
38fd1498Szrj   and of interleave_low:                   2 6 3 7
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj   The permutation is done in log LENGTH stages.  In each stage interleave_high
38fd1498Szrj   and interleave_low stmts are created for each pair of vectors in DR_CHAIN,
38fd1498Szrj   where the first argument is taken from the first half of DR_CHAIN and the
38fd1498Szrj   second argument from it's second half.
38fd1498Szrj   In our example,
38fd1498Szrj
38fd1498Szrj   I1: interleave_high (1st vec, 3rd vec)
38fd1498Szrj   I2: interleave_low (1st vec, 3rd vec)
38fd1498Szrj   I3: interleave_high (2nd vec, 4th vec)
38fd1498Szrj   I4: interleave_low (2nd vec, 4th vec)
38fd1498Szrj
38fd1498Szrj   The output for the first stage is:
38fd1498Szrj
38fd1498Szrj   I1:  0 16  1 17  2 18  3 19
38fd1498Szrj   I2:  4 20  5 21  6 22  7 23
38fd1498Szrj   I3:  8 24  9 25 10 26 11 27
38fd1498Szrj   I4: 12 28 13 29 14 30 15 31
38fd1498Szrj
38fd1498Szrj   The output of the second stage, i.e. the final result is:
38fd1498Szrj
38fd1498Szrj   I1:  0  8 16 24  1  9 17 25
38fd1498Szrj   I2:  2 10 18 26  3 11 19 27
38fd1498Szrj   I3:  4 12 20 28  5 13 21 30
38fd1498Szrj   I4:  6 14 22 30  7 15 23 31.  */
38fd1498Szrj
38fd1498Szrjvoid
38fd1498Szrjvect_permute_store_chain (vec<tree> dr_chain,
38fd1498Szrj			  unsigned int length,
38fd1498Szrj			  gimple *stmt,
38fd1498Szrj			  gimple_stmt_iterator *gsi,
38fd1498Szrj			  vec<tree> *result_chain)
38fd1498Szrj{
38fd1498Szrj  tree vect1, vect2, high, low;
38fd1498Szrj  gimple *perm_stmt;
38fd1498Szrj  tree vectype = STMT_VINFO_VECTYPE (vinfo_for_stmt (stmt));
38fd1498Szrj  tree perm_mask_low, perm_mask_high;
38fd1498Szrj  tree data_ref;
38fd1498Szrj  tree perm3_mask_low, perm3_mask_high;
38fd1498Szrj  unsigned int i, j, n, log_length = exact_log2 (length);
38fd1498Szrj
38fd1498Szrj  result_chain->quick_grow (length);
38fd1498Szrj  memcpy (result_chain->address (), dr_chain.address (),
38fd1498Szrj	  length * sizeof (tree));
38fd1498Szrj
38fd1498Szrj  if (length == 3)
38fd1498Szrj    {
38fd1498Szrj      /* vect_grouped_store_supported ensures that this is constant.  */
38fd1498Szrj      unsigned int nelt = TYPE_VECTOR_SUBPARTS (vectype).to_constant ();
38fd1498Szrj      unsigned int j0 = 0, j1 = 0, j2 = 0;
38fd1498Szrj
38fd1498Szrj      vec_perm_builder sel (nelt, nelt, 1);
38fd1498Szrj      sel.quick_grow (nelt);
38fd1498Szrj      vec_perm_indices indices;
38fd1498Szrj      for (j = 0; j < 3; j++)
38fd1498Szrj        {
38fd1498Szrj	  int nelt0 = ((3 - j) * nelt) % 3;
38fd1498Szrj	  int nelt1 = ((3 - j) * nelt + 1) % 3;
38fd1498Szrj	  int nelt2 = ((3 - j) * nelt + 2) % 3;
38fd1498Szrj
38fd1498Szrj	  for (i = 0; i < nelt; i++)
38fd1498Szrj	    {
38fd1498Szrj	      if (3 * i + nelt0 < nelt)
38fd1498Szrj		sel[3 * i + nelt0] = j0++;
38fd1498Szrj	      if (3 * i + nelt1 < nelt)
38fd1498Szrj		sel[3 * i + nelt1] = nelt + j1++;
38fd1498Szrj	      if (3 * i + nelt2 < nelt)
38fd1498Szrj		sel[3 * i + nelt2] = 0;
38fd1498Szrj	    }
38fd1498Szrj	  indices.new_vector (sel, 2, nelt);
38fd1498Szrj	  perm3_mask_low = vect_gen_perm_mask_checked (vectype, indices);
38fd1498Szrj
38fd1498Szrj	  for (i = 0; i < nelt; i++)
38fd1498Szrj	    {
38fd1498Szrj	      if (3 * i + nelt0 < nelt)
38fd1498Szrj		sel[3 * i + nelt0] = 3 * i + nelt0;
38fd1498Szrj	      if (3 * i + nelt1 < nelt)
38fd1498Szrj		sel[3 * i + nelt1] = 3 * i + nelt1;
38fd1498Szrj	      if (3 * i + nelt2 < nelt)
38fd1498Szrj		sel[3 * i + nelt2] = nelt + j2++;
38fd1498Szrj	    }
38fd1498Szrj	  indices.new_vector (sel, 2, nelt);
38fd1498Szrj	  perm3_mask_high = vect_gen_perm_mask_checked (vectype, indices);
38fd1498Szrj
38fd1498Szrj	  vect1 = dr_chain[0];
38fd1498Szrj	  vect2 = dr_chain[1];
38fd1498Szrj
38fd1498Szrj	  /* Create interleaving stmt:
38fd1498Szrj	     low = VEC_PERM_EXPR <vect1, vect2,
38fd1498Szrj				  {j, nelt, *, j + 1, nelt + j + 1, *,
38fd1498Szrj				   j + 2, nelt + j + 2, *, ...}>  */
38fd1498Szrj	  data_ref = make_temp_ssa_name (vectype, NULL, "vect_shuffle3_low");
38fd1498Szrj	  perm_stmt = gimple_build_assign (data_ref, VEC_PERM_EXPR, vect1,
38fd1498Szrj					   vect2, perm3_mask_low);
38fd1498Szrj	  vect_finish_stmt_generation (stmt, perm_stmt, gsi);
38fd1498Szrj
38fd1498Szrj	  vect1 = data_ref;
38fd1498Szrj	  vect2 = dr_chain[2];
38fd1498Szrj	  /* Create interleaving stmt:
38fd1498Szrj	     low = VEC_PERM_EXPR <vect1, vect2,
38fd1498Szrj				  {0, 1, nelt + j, 3, 4, nelt + j + 1,
38fd1498Szrj				   6, 7, nelt + j + 2, ...}>  */
38fd1498Szrj	  data_ref = make_temp_ssa_name (vectype, NULL, "vect_shuffle3_high");
38fd1498Szrj	  perm_stmt = gimple_build_assign (data_ref, VEC_PERM_EXPR, vect1,
38fd1498Szrj					   vect2, perm3_mask_high);
38fd1498Szrj	  vect_finish_stmt_generation (stmt, perm_stmt, gsi);
38fd1498Szrj	  (*result_chain)[j] = data_ref;
38fd1498Szrj	}
38fd1498Szrj    }
38fd1498Szrj  else
38fd1498Szrj    {
38fd1498Szrj      /* If length is not equal to 3 then only power of 2 is supported.  */
38fd1498Szrj      gcc_assert (pow2p_hwi (length));
38fd1498Szrj
38fd1498Szrj      /* The encoding has 2 interleaved stepped patterns.  */
38fd1498Szrj      poly_uint64 nelt = TYPE_VECTOR_SUBPARTS (vectype);
38fd1498Szrj      vec_perm_builder sel (nelt, 2, 3);
38fd1498Szrj      sel.quick_grow (6);
38fd1498Szrj      for (i = 0; i < 3; i++)
38fd1498Szrj	{
38fd1498Szrj	  sel[i * 2] = i;
38fd1498Szrj	  sel[i * 2 + 1] = i + nelt;
38fd1498Szrj	}
38fd1498Szrj	vec_perm_indices indices (sel, 2, nelt);
38fd1498Szrj	perm_mask_high = vect_gen_perm_mask_checked (vectype, indices);
38fd1498Szrj
38fd1498Szrj	for (i = 0; i < 6; i++)
38fd1498Szrj	  sel[i] += exact_div (nelt, 2);
38fd1498Szrj	indices.new_vector (sel, 2, nelt);
38fd1498Szrj	perm_mask_low = vect_gen_perm_mask_checked (vectype, indices);
38fd1498Szrj
38fd1498Szrj	for (i = 0, n = log_length; i < n; i++)
38fd1498Szrj	  {
38fd1498Szrj	    for (j = 0; j < length/2; j++)
38fd1498Szrj	      {
38fd1498Szrj		vect1 = dr_chain[j];
38fd1498Szrj		vect2 = dr_chain[j+length/2];
38fd1498Szrj
38fd1498Szrj		/* Create interleaving stmt:
38fd1498Szrj		   high = VEC_PERM_EXPR <vect1, vect2, {0, nelt, 1, nelt+1,
38fd1498Szrj							...}>  */
38fd1498Szrj		high = make_temp_ssa_name (vectype, NULL, "vect_inter_high");
38fd1498Szrj		perm_stmt = gimple_build_assign (high, VEC_PERM_EXPR, vect1,
38fd1498Szrj						 vect2, perm_mask_high);
38fd1498Szrj		vect_finish_stmt_generation (stmt, perm_stmt, gsi);
38fd1498Szrj		(*result_chain)[2*j] = high;
38fd1498Szrj
38fd1498Szrj		/* Create interleaving stmt:
38fd1498Szrj		   low = VEC_PERM_EXPR <vect1, vect2,
38fd1498Szrj					{nelt/2, nelt*3/2, nelt/2+1, nelt*3/2+1,
38fd1498Szrj					 ...}>  */
38fd1498Szrj		low = make_temp_ssa_name (vectype, NULL, "vect_inter_low");
38fd1498Szrj		perm_stmt = gimple_build_assign (low, VEC_PERM_EXPR, vect1,
38fd1498Szrj						 vect2, perm_mask_low);
38fd1498Szrj		vect_finish_stmt_generation (stmt, perm_stmt, gsi);
38fd1498Szrj		(*result_chain)[2*j+1] = low;
38fd1498Szrj	      }
38fd1498Szrj	    memcpy (dr_chain.address (), result_chain->address (),
38fd1498Szrj		    length * sizeof (tree));
38fd1498Szrj	  }
38fd1498Szrj    }
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Function vect_setup_realignment
38fd1498Szrj
38fd1498Szrj   This function is called when vectorizing an unaligned load using
38fd1498Szrj   the dr_explicit_realign[_optimized] scheme.
38fd1498Szrj   This function generates the following code at the loop prolog:
38fd1498Szrj
38fd1498Szrj      p = initial_addr;
38fd1498Szrj   x  msq_init = *(floor(p));   # prolog load
38fd1498Szrj      realignment_token = call target_builtin;
38fd1498Szrj    loop:
38fd1498Szrj   x  msq = phi (msq_init, ---)
38fd1498Szrj
38fd1498Szrj   The stmts marked with x are generated only for the case of
38fd1498Szrj   dr_explicit_realign_optimized.
38fd1498Szrj
38fd1498Szrj   The code above sets up a new (vector) pointer, pointing to the first
38fd1498Szrj   location accessed by STMT, and a "floor-aligned" load using that pointer.
38fd1498Szrj   It also generates code to compute the "realignment-token" (if the relevant
38fd1498Szrj   target hook was defined), and creates a phi-node at the loop-header bb
38fd1498Szrj   whose arguments are the result of the prolog-load (created by this
38fd1498Szrj   function) and the result of a load that takes place in the loop (to be
38fd1498Szrj   created by the caller to this function).
38fd1498Szrj
38fd1498Szrj   For the case of dr_explicit_realign_optimized:
38fd1498Szrj   The caller to this function uses the phi-result (msq) to create the
38fd1498Szrj   realignment code inside the loop, and sets up the missing phi argument,
38fd1498Szrj   as follows:
38fd1498Szrj    loop:
38fd1498Szrj      msq = phi (msq_init, lsq)
38fd1498Szrj      lsq = *(floor(p'));        # load in loop
38fd1498Szrj      result = realign_load (msq, lsq, realignment_token);
38fd1498Szrj
38fd1498Szrj   For the case of dr_explicit_realign:
38fd1498Szrj    loop:
38fd1498Szrj      msq = *(floor(p)); 	# load in loop
38fd1498Szrj      p' = p + (VS-1);
38fd1498Szrj      lsq = *(floor(p'));	# load in loop
38fd1498Szrj      result = realign_load (msq, lsq, realignment_token);
38fd1498Szrj
38fd1498Szrj   Input:
38fd1498Szrj   STMT - (scalar) load stmt to be vectorized. This load accesses
38fd1498Szrj          a memory location that may be unaligned.
38fd1498Szrj   BSI - place where new code is to be inserted.
38fd1498Szrj   ALIGNMENT_SUPPORT_SCHEME - which of the two misalignment handling schemes
38fd1498Szrj			      is used.
38fd1498Szrj
38fd1498Szrj   Output:
38fd1498Szrj   REALIGNMENT_TOKEN - the result of a call to the builtin_mask_for_load
38fd1498Szrj                       target hook, if defined.
38fd1498Szrj   Return value - the result of the loop-header phi node.  */
38fd1498Szrj
38fd1498Szrjtree
38fd1498Szrjvect_setup_realignment (gimple *stmt, gimple_stmt_iterator *gsi,
38fd1498Szrj                        tree *realignment_token,
38fd1498Szrj			enum dr_alignment_support alignment_support_scheme,
38fd1498Szrj			tree init_addr,
38fd1498Szrj			struct loop **at_loop)
38fd1498Szrj{
38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj  tree vectype = STMT_VINFO_VECTYPE (stmt_info);
38fd1498Szrj  loop_vec_info loop_vinfo = STMT_VINFO_LOOP_VINFO (stmt_info);
38fd1498Szrj  struct data_reference *dr = STMT_VINFO_DATA_REF (stmt_info);
38fd1498Szrj  struct loop *loop = NULL;
38fd1498Szrj  edge pe = NULL;
38fd1498Szrj  tree scalar_dest = gimple_assign_lhs (stmt);
38fd1498Szrj  tree vec_dest;
38fd1498Szrj  gimple *inc;
38fd1498Szrj  tree ptr;
38fd1498Szrj  tree data_ref;
38fd1498Szrj  basic_block new_bb;
38fd1498Szrj  tree msq_init = NULL_TREE;
38fd1498Szrj  tree new_temp;
38fd1498Szrj  gphi *phi_stmt;
38fd1498Szrj  tree msq = NULL_TREE;
38fd1498Szrj  gimple_seq stmts = NULL;
38fd1498Szrj  bool inv_p;
38fd1498Szrj  bool compute_in_loop = false;
38fd1498Szrj  bool nested_in_vect_loop = false;
38fd1498Szrj  struct loop *containing_loop = (gimple_bb (stmt))->loop_father;
38fd1498Szrj  struct loop *loop_for_initial_load = NULL;
38fd1498Szrj
38fd1498Szrj  if (loop_vinfo)
38fd1498Szrj    {
38fd1498Szrj      loop = LOOP_VINFO_LOOP (loop_vinfo);
38fd1498Szrj      nested_in_vect_loop = nested_in_vect_loop_p (loop, stmt);
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  gcc_assert (alignment_support_scheme == dr_explicit_realign
38fd1498Szrj	      || alignment_support_scheme == dr_explicit_realign_optimized);
38fd1498Szrj
38fd1498Szrj  /* We need to generate three things:
38fd1498Szrj     1. the misalignment computation
38fd1498Szrj     2. the extra vector load (for the optimized realignment scheme).
38fd1498Szrj     3. the phi node for the two vectors from which the realignment is
38fd1498Szrj      done (for the optimized realignment scheme).  */
38fd1498Szrj
38fd1498Szrj  /* 1. Determine where to generate the misalignment computation.
38fd1498Szrj
38fd1498Szrj     If INIT_ADDR is NULL_TREE, this indicates that the misalignment
38fd1498Szrj     calculation will be generated by this function, outside the loop (in the
38fd1498Szrj     preheader).  Otherwise, INIT_ADDR had already been computed for us by the
38fd1498Szrj     caller, inside the loop.
38fd1498Szrj
38fd1498Szrj     Background: If the misalignment remains fixed throughout the iterations of
38fd1498Szrj     the loop, then both realignment schemes are applicable, and also the
38fd1498Szrj     misalignment computation can be done outside LOOP.  This is because we are
38fd1498Szrj     vectorizing LOOP, and so the memory accesses in LOOP advance in steps that
38fd1498Szrj     are a multiple of VS (the Vector Size), and therefore the misalignment in
38fd1498Szrj     different vectorized LOOP iterations is always the same.
38fd1498Szrj     The problem arises only if the memory access is in an inner-loop nested
38fd1498Szrj     inside LOOP, which is now being vectorized using outer-loop vectorization.
38fd1498Szrj     This is the only case when the misalignment of the memory access may not
38fd1498Szrj     remain fixed throughout the iterations of the inner-loop (as explained in
38fd1498Szrj     detail in vect_supportable_dr_alignment).  In this case, not only is the
38fd1498Szrj     optimized realignment scheme not applicable, but also the misalignment
38fd1498Szrj     computation (and generation of the realignment token that is passed to
38fd1498Szrj     REALIGN_LOAD) have to be done inside the loop.
38fd1498Szrj
38fd1498Szrj     In short, INIT_ADDR indicates whether we are in a COMPUTE_IN_LOOP mode
38fd1498Szrj     or not, which in turn determines if the misalignment is computed inside
38fd1498Szrj     the inner-loop, or outside LOOP.  */
38fd1498Szrj
38fd1498Szrj  if (init_addr != NULL_TREE || !loop_vinfo)
38fd1498Szrj    {
38fd1498Szrj      compute_in_loop = true;
38fd1498Szrj      gcc_assert (alignment_support_scheme == dr_explicit_realign);
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj  /* 2. Determine where to generate the extra vector load.
38fd1498Szrj
38fd1498Szrj     For the optimized realignment scheme, instead of generating two vector
38fd1498Szrj     loads in each iteration, we generate a single extra vector load in the
38fd1498Szrj     preheader of the loop, and in each iteration reuse the result of the
38fd1498Szrj     vector load from the previous iteration.  In case the memory access is in
38fd1498Szrj     an inner-loop nested inside LOOP, which is now being vectorized using
38fd1498Szrj     outer-loop vectorization, we need to determine whether this initial vector
38fd1498Szrj     load should be generated at the preheader of the inner-loop, or can be
38fd1498Szrj     generated at the preheader of LOOP.  If the memory access has no evolution
38fd1498Szrj     in LOOP, it can be generated in the preheader of LOOP. Otherwise, it has
38fd1498Szrj     to be generated inside LOOP (in the preheader of the inner-loop).  */
38fd1498Szrj
38fd1498Szrj  if (nested_in_vect_loop)
38fd1498Szrj    {
38fd1498Szrj      tree outerloop_step = STMT_VINFO_DR_STEP (stmt_info);
38fd1498Szrj      bool invariant_in_outerloop =
38fd1498Szrj            (tree_int_cst_compare (outerloop_step, size_zero_node) == 0);
38fd1498Szrj      loop_for_initial_load = (invariant_in_outerloop ? loop : loop->inner);
38fd1498Szrj    }
38fd1498Szrj  else
38fd1498Szrj    loop_for_initial_load = loop;
38fd1498Szrj  if (at_loop)
38fd1498Szrj    *at_loop = loop_for_initial_load;
38fd1498Szrj
38fd1498Szrj  if (loop_for_initial_load)
38fd1498Szrj    pe = loop_preheader_edge (loop_for_initial_load);
38fd1498Szrj
38fd1498Szrj  /* 3. For the case of the optimized realignment, create the first vector
38fd1498Szrj      load at the loop preheader.  */
38fd1498Szrj
38fd1498Szrj  if (alignment_support_scheme == dr_explicit_realign_optimized)
38fd1498Szrj    {
38fd1498Szrj      /* Create msq_init = *(floor(p1)) in the loop preheader  */
38fd1498Szrj      gassign *new_stmt;
38fd1498Szrj
38fd1498Szrj      gcc_assert (!compute_in_loop);
38fd1498Szrj      vec_dest = vect_create_destination_var (scalar_dest, vectype);
38fd1498Szrj      ptr = vect_create_data_ref_ptr (stmt, vectype, loop_for_initial_load,
38fd1498Szrj				      NULL_TREE, &init_addr, NULL, &inc,
38fd1498Szrj				      true, &inv_p);
38fd1498Szrj      if (TREE_CODE (ptr) == SSA_NAME)
38fd1498Szrj	new_temp = copy_ssa_name (ptr);
38fd1498Szrj      else
38fd1498Szrj	new_temp = make_ssa_name (TREE_TYPE (ptr));
38fd1498Szrj      unsigned int align = DR_TARGET_ALIGNMENT (dr);
38fd1498Szrj      new_stmt = gimple_build_assign
38fd1498Szrj		   (new_temp, BIT_AND_EXPR, ptr,
38fd1498Szrj		    build_int_cst (TREE_TYPE (ptr), -(HOST_WIDE_INT) align));
38fd1498Szrj      new_bb = gsi_insert_on_edge_immediate (pe, new_stmt);
38fd1498Szrj      gcc_assert (!new_bb);
38fd1498Szrj      data_ref
38fd1498Szrj	= build2 (MEM_REF, TREE_TYPE (vec_dest), new_temp,
38fd1498Szrj		  build_int_cst (reference_alias_ptr_type (DR_REF (dr)), 0));
38fd1498Szrj      vect_copy_ref_info (data_ref, DR_REF (dr));
38fd1498Szrj      new_stmt = gimple_build_assign (vec_dest, data_ref);
38fd1498Szrj      new_temp = make_ssa_name (vec_dest, new_stmt);
38fd1498Szrj      gimple_assign_set_lhs (new_stmt, new_temp);
38fd1498Szrj      if (pe)
38fd1498Szrj        {
38fd1498Szrj          new_bb = gsi_insert_on_edge_immediate (pe, new_stmt);
38fd1498Szrj          gcc_assert (!new_bb);
38fd1498Szrj        }
38fd1498Szrj      else
38fd1498Szrj         gsi_insert_before (gsi, new_stmt, GSI_SAME_STMT);
38fd1498Szrj
38fd1498Szrj      msq_init = gimple_assign_lhs (new_stmt);
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* 4. Create realignment token using a target builtin, if available.
38fd1498Szrj      It is done either inside the containing loop, or before LOOP (as
38fd1498Szrj      determined above).  */
38fd1498Szrj
38fd1498Szrj  if (targetm.vectorize.builtin_mask_for_load)
38fd1498Szrj    {
38fd1498Szrj      gcall *new_stmt;
38fd1498Szrj      tree builtin_decl;
38fd1498Szrj
38fd1498Szrj      /* Compute INIT_ADDR - the initial addressed accessed by this memref.  */
38fd1498Szrj      if (!init_addr)
38fd1498Szrj	{
38fd1498Szrj	  /* Generate the INIT_ADDR computation outside LOOP.  */
38fd1498Szrj	  init_addr = vect_create_addr_base_for_vector_ref (stmt, &stmts,
38fd1498Szrj							    NULL_TREE);
38fd1498Szrj          if (loop)
38fd1498Szrj            {
38fd1498Szrj   	      pe = loop_preheader_edge (loop);
38fd1498Szrj	      new_bb = gsi_insert_seq_on_edge_immediate (pe, stmts);
38fd1498Szrj	      gcc_assert (!new_bb);
38fd1498Szrj            }
38fd1498Szrj          else
38fd1498Szrj             gsi_insert_seq_before (gsi, stmts, GSI_SAME_STMT);
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      builtin_decl = targetm.vectorize.builtin_mask_for_load ();
38fd1498Szrj      new_stmt = gimple_build_call (builtin_decl, 1, init_addr);
38fd1498Szrj      vec_dest =
38fd1498Szrj	vect_create_destination_var (scalar_dest,
38fd1498Szrj				     gimple_call_return_type (new_stmt));
38fd1498Szrj      new_temp = make_ssa_name (vec_dest, new_stmt);
38fd1498Szrj      gimple_call_set_lhs (new_stmt, new_temp);
38fd1498Szrj
38fd1498Szrj      if (compute_in_loop)
38fd1498Szrj	gsi_insert_before (gsi, new_stmt, GSI_SAME_STMT);
38fd1498Szrj      else
38fd1498Szrj	{
38fd1498Szrj	  /* Generate the misalignment computation outside LOOP.  */
38fd1498Szrj	  pe = loop_preheader_edge (loop);
38fd1498Szrj	  new_bb = gsi_insert_on_edge_immediate (pe, new_stmt);
38fd1498Szrj	  gcc_assert (!new_bb);
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      *realignment_token = gimple_call_lhs (new_stmt);
38fd1498Szrj
38fd1498Szrj      /* The result of the CALL_EXPR to this builtin is determined from
38fd1498Szrj         the value of the parameter and no global variables are touched
38fd1498Szrj         which makes the builtin a "const" function.  Requiring the
38fd1498Szrj         builtin to have the "const" attribute makes it unnecessary
38fd1498Szrj         to call mark_call_clobbered.  */
38fd1498Szrj      gcc_assert (TREE_READONLY (builtin_decl));
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (alignment_support_scheme == dr_explicit_realign)
38fd1498Szrj    return msq;
38fd1498Szrj
38fd1498Szrj  gcc_assert (!compute_in_loop);
38fd1498Szrj  gcc_assert (alignment_support_scheme == dr_explicit_realign_optimized);
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj  /* 5. Create msq = phi <msq_init, lsq> in loop  */
38fd1498Szrj
38fd1498Szrj  pe = loop_preheader_edge (containing_loop);
38fd1498Szrj  vec_dest = vect_create_destination_var (scalar_dest, vectype);
38fd1498Szrj  msq = make_ssa_name (vec_dest);
38fd1498Szrj  phi_stmt = create_phi_node (msq, containing_loop->header);
38fd1498Szrj  add_phi_arg (phi_stmt, msq_init, pe, UNKNOWN_LOCATION);
38fd1498Szrj
38fd1498Szrj  return msq;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Function vect_grouped_load_supported.
38fd1498Szrj
38fd1498Szrj   COUNT is the size of the load group (the number of statements plus the
38fd1498Szrj   number of gaps).  SINGLE_ELEMENT_P is true if there is actually
38fd1498Szrj   only one statement, with a gap of COUNT - 1.
38fd1498Szrj
38fd1498Szrj   Returns true if a suitable permute exists.  */
38fd1498Szrj
38fd1498Szrjbool
38fd1498Szrjvect_grouped_load_supported (tree vectype, bool single_element_p,
38fd1498Szrj			     unsigned HOST_WIDE_INT count)
38fd1498Szrj{
38fd1498Szrj  machine_mode mode = TYPE_MODE (vectype);
38fd1498Szrj
38fd1498Szrj  /* If this is single-element interleaving with an element distance
38fd1498Szrj     that leaves unused vector loads around punt - we at least create
38fd1498Szrj     very sub-optimal code in that case (and blow up memory,
38fd1498Szrj     see PR65518).  */
38fd1498Szrj  if (single_element_p && maybe_gt (count, TYPE_VECTOR_SUBPARTS (vectype)))
38fd1498Szrj    {
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj	dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			 "single-element interleaving not supported "
38fd1498Szrj			 "for not adjacent vector loads\n");
38fd1498Szrj      return false;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* vect_permute_load_chain requires the group size to be equal to 3 or
38fd1498Szrj     be a power of two.  */
38fd1498Szrj  if (count != 3 && exact_log2 (count) == -1)
38fd1498Szrj    {
38fd1498Szrj      if (dump_enabled_p ())
38fd1498Szrj	dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			 "the size of the group of accesses"
38fd1498Szrj			 " is not a power of 2 or not equal to 3\n");
38fd1498Szrj      return false;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* Check that the permutation is supported.  */
38fd1498Szrj  if (VECTOR_MODE_P (mode))
38fd1498Szrj    {
38fd1498Szrj      unsigned int i, j;
38fd1498Szrj      if (count == 3)
38fd1498Szrj	{
38fd1498Szrj	  unsigned int nelt;
38fd1498Szrj	  if (!GET_MODE_NUNITS (mode).is_constant (&nelt))
38fd1498Szrj	    {
38fd1498Szrj	      if (dump_enabled_p ())
38fd1498Szrj		dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj				 "cannot handle groups of 3 loads for"
38fd1498Szrj				 " variable-length vectors\n");
38fd1498Szrj	      return false;
38fd1498Szrj	    }
38fd1498Szrj
38fd1498Szrj	  vec_perm_builder sel (nelt, nelt, 1);
38fd1498Szrj	  sel.quick_grow (nelt);
38fd1498Szrj	  vec_perm_indices indices;
38fd1498Szrj	  unsigned int k;
38fd1498Szrj	  for (k = 0; k < 3; k++)
38fd1498Szrj	    {
38fd1498Szrj	      for (i = 0; i < nelt; i++)
38fd1498Szrj		if (3 * i + k < 2 * nelt)
38fd1498Szrj		  sel[i] = 3 * i + k;
38fd1498Szrj		else
38fd1498Szrj		  sel[i] = 0;
38fd1498Szrj	      indices.new_vector (sel, 2, nelt);
38fd1498Szrj	      if (!can_vec_perm_const_p (mode, indices))
38fd1498Szrj		{
38fd1498Szrj		  if (dump_enabled_p ())
38fd1498Szrj		    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj				     "shuffle of 3 loads is not supported by"
38fd1498Szrj				     " target\n");
38fd1498Szrj		  return false;
38fd1498Szrj		}
38fd1498Szrj	      for (i = 0, j = 0; i < nelt; i++)
38fd1498Szrj		if (3 * i + k < 2 * nelt)
38fd1498Szrj		  sel[i] = i;
38fd1498Szrj		else
38fd1498Szrj		  sel[i] = nelt + ((nelt + k) % 3) + 3 * (j++);
38fd1498Szrj	      indices.new_vector (sel, 2, nelt);
38fd1498Szrj	      if (!can_vec_perm_const_p (mode, indices))
38fd1498Szrj		{
38fd1498Szrj		  if (dump_enabled_p ())
38fd1498Szrj		    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj				     "shuffle of 3 loads is not supported by"
38fd1498Szrj				     " target\n");
38fd1498Szrj		  return false;
38fd1498Szrj		}
38fd1498Szrj	    }
38fd1498Szrj	  return true;
38fd1498Szrj	}
38fd1498Szrj      else
38fd1498Szrj	{
38fd1498Szrj	  /* If length is not equal to 3 then only power of 2 is supported.  */
38fd1498Szrj	  gcc_assert (pow2p_hwi (count));
38fd1498Szrj	  poly_uint64 nelt = GET_MODE_NUNITS (mode);
38fd1498Szrj
38fd1498Szrj	  /* The encoding has a single stepped pattern.  */
38fd1498Szrj	  vec_perm_builder sel (nelt, 1, 3);
38fd1498Szrj	  sel.quick_grow (3);
38fd1498Szrj	  for (i = 0; i < 3; i++)
38fd1498Szrj	    sel[i] = i * 2;
38fd1498Szrj	  vec_perm_indices indices (sel, 2, nelt);
38fd1498Szrj	  if (can_vec_perm_const_p (mode, indices))
38fd1498Szrj	    {
38fd1498Szrj	      for (i = 0; i < 3; i++)
38fd1498Szrj		sel[i] = i * 2 + 1;
38fd1498Szrj	      indices.new_vector (sel, 2, nelt);
38fd1498Szrj	      if (can_vec_perm_const_p (mode, indices))
38fd1498Szrj		return true;
38fd1498Szrj	    }
38fd1498Szrj        }
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  if (dump_enabled_p ())
38fd1498Szrj    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj		     "extract even/odd not supported by target\n");
38fd1498Szrj  return false;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Return TRUE if vec_{masked_}load_lanes is available for COUNT vectors of
38fd1498Szrj   type VECTYPE.  MASKED_P says whether the masked form is needed.  */
38fd1498Szrj
38fd1498Szrjbool
38fd1498Szrjvect_load_lanes_supported (tree vectype, unsigned HOST_WIDE_INT count,
38fd1498Szrj			   bool masked_p)
38fd1498Szrj{
38fd1498Szrj  if (masked_p)
38fd1498Szrj    return vect_lanes_optab_supported_p ("vec_mask_load_lanes",
38fd1498Szrj					 vec_mask_load_lanes_optab,
38fd1498Szrj					 vectype, count);
38fd1498Szrj  else
38fd1498Szrj    return vect_lanes_optab_supported_p ("vec_load_lanes",
38fd1498Szrj					 vec_load_lanes_optab,
38fd1498Szrj					 vectype, count);
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Function vect_permute_load_chain.
38fd1498Szrj
38fd1498Szrj   Given a chain of interleaved loads in DR_CHAIN of LENGTH that must be
38fd1498Szrj   a power of 2 or equal to 3, generate extract_even/odd stmts to reorder
38fd1498Szrj   the input data correctly.  Return the final references for loads in
38fd1498Szrj   RESULT_CHAIN.
38fd1498Szrj
38fd1498Szrj   E.g., LENGTH is 4 and the scalar type is short, i.e., VF is 8.
38fd1498Szrj   The input is 4 vectors each containing 8 elements. We assign a number to each
38fd1498Szrj   element, the input sequence is:
38fd1498Szrj
38fd1498Szrj   1st vec:   0  1  2  3  4  5  6  7
38fd1498Szrj   2nd vec:   8  9 10 11 12 13 14 15
38fd1498Szrj   3rd vec:  16 17 18 19 20 21 22 23
38fd1498Szrj   4th vec:  24 25 26 27 28 29 30 31
38fd1498Szrj
38fd1498Szrj   The output sequence should be:
38fd1498Szrj
38fd1498Szrj   1st vec:  0 4  8 12 16 20 24 28
38fd1498Szrj   2nd vec:  1 5  9 13 17 21 25 29
38fd1498Szrj   3rd vec:  2 6 10 14 18 22 26 30
38fd1498Szrj   4th vec:  3 7 11 15 19 23 27 31
38fd1498Szrj
38fd1498Szrj   i.e., the first output vector should contain the first elements of each
38fd1498Szrj   interleaving group, etc.
38fd1498Szrj
38fd1498Szrj   We use extract_even/odd instructions to create such output.  The input of
38fd1498Szrj   each extract_even/odd operation is two vectors
38fd1498Szrj   1st vec    2nd vec
38fd1498Szrj   0 1 2 3    4 5 6 7
38fd1498Szrj
38fd1498Szrj   and the output is the vector of extracted even/odd elements.  The output of
38fd1498Szrj   extract_even will be:   0 2 4 6
38fd1498Szrj   and of extract_odd:     1 3 5 7
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj   The permutation is done in log LENGTH stages.  In each stage extract_even
38fd1498Szrj   and extract_odd stmts are created for each pair of vectors in DR_CHAIN in
38fd1498Szrj   their order.  In our example,
38fd1498Szrj
38fd1498Szrj   E1: extract_even (1st vec, 2nd vec)
38fd1498Szrj   E2: extract_odd (1st vec, 2nd vec)
38fd1498Szrj   E3: extract_even (3rd vec, 4th vec)
38fd1498Szrj   E4: extract_odd (3rd vec, 4th vec)
38fd1498Szrj
38fd1498Szrj   The output for the first stage will be:
38fd1498Szrj
38fd1498Szrj   E1:  0  2  4  6  8 10 12 14
38fd1498Szrj   E2:  1  3  5  7  9 11 13 15
38fd1498Szrj   E3: 16 18 20 22 24 26 28 30
38fd1498Szrj   E4: 17 19 21 23 25 27 29 31
38fd1498Szrj
38fd1498Szrj   In order to proceed and create the correct sequence for the next stage (or
38fd1498Szrj   for the correct output, if the second stage is the last one, as in our
38fd1498Szrj   example), we first put the output of extract_even operation and then the
38fd1498Szrj   output of extract_odd in RESULT_CHAIN (which is then copied to DR_CHAIN).
38fd1498Szrj   The input for the second stage is:
38fd1498Szrj
38fd1498Szrj   1st vec (E1):  0  2  4  6  8 10 12 14
38fd1498Szrj   2nd vec (E3): 16 18 20 22 24 26 28 30
38fd1498Szrj   3rd vec (E2):  1  3  5  7  9 11 13 15
38fd1498Szrj   4th vec (E4): 17 19 21 23 25 27 29 31
38fd1498Szrj
38fd1498Szrj   The output of the second stage:
38fd1498Szrj
38fd1498Szrj   E1: 0 4  8 12 16 20 24 28
38fd1498Szrj   E2: 2 6 10 14 18 22 26 30
38fd1498Szrj   E3: 1 5  9 13 17 21 25 29
38fd1498Szrj   E4: 3 7 11 15 19 23 27 31
38fd1498Szrj
38fd1498Szrj   And RESULT_CHAIN after reordering:
38fd1498Szrj
38fd1498Szrj   1st vec (E1):  0 4  8 12 16 20 24 28
38fd1498Szrj   2nd vec (E3):  1 5  9 13 17 21 25 29
38fd1498Szrj   3rd vec (E2):  2 6 10 14 18 22 26 30
38fd1498Szrj   4th vec (E4):  3 7 11 15 19 23 27 31.  */
38fd1498Szrj
38fd1498Szrjstatic void
38fd1498Szrjvect_permute_load_chain (vec<tree> dr_chain,
38fd1498Szrj			 unsigned int length,
38fd1498Szrj			 gimple *stmt,
38fd1498Szrj			 gimple_stmt_iterator *gsi,
38fd1498Szrj			 vec<tree> *result_chain)
38fd1498Szrj{
38fd1498Szrj  tree data_ref, first_vect, second_vect;
38fd1498Szrj  tree perm_mask_even, perm_mask_odd;
38fd1498Szrj  tree perm3_mask_low, perm3_mask_high;
38fd1498Szrj  gimple *perm_stmt;
38fd1498Szrj  tree vectype = STMT_VINFO_VECTYPE (vinfo_for_stmt (stmt));
38fd1498Szrj  unsigned int i, j, log_length = exact_log2 (length);
38fd1498Szrj
38fd1498Szrj  result_chain->quick_grow (length);
38fd1498Szrj  memcpy (result_chain->address (), dr_chain.address (),
38fd1498Szrj	  length * sizeof (tree));
38fd1498Szrj
38fd1498Szrj  if (length == 3)
38fd1498Szrj    {
38fd1498Szrj      /* vect_grouped_load_supported ensures that this is constant.  */
38fd1498Szrj      unsigned nelt = TYPE_VECTOR_SUBPARTS (vectype).to_constant ();
38fd1498Szrj      unsigned int k;
38fd1498Szrj
38fd1498Szrj      vec_perm_builder sel (nelt, nelt, 1);
38fd1498Szrj      sel.quick_grow (nelt);
38fd1498Szrj      vec_perm_indices indices;
38fd1498Szrj      for (k = 0; k < 3; k++)
38fd1498Szrj	{
38fd1498Szrj	  for (i = 0; i < nelt; i++)
38fd1498Szrj	    if (3 * i + k < 2 * nelt)
38fd1498Szrj	      sel[i] = 3 * i + k;
38fd1498Szrj	    else
38fd1498Szrj	      sel[i] = 0;
38fd1498Szrj	  indices.new_vector (sel, 2, nelt);
38fd1498Szrj	  perm3_mask_low = vect_gen_perm_mask_checked (vectype, indices);
38fd1498Szrj
38fd1498Szrj	  for (i = 0, j = 0; i < nelt; i++)
38fd1498Szrj	    if (3 * i + k < 2 * nelt)
38fd1498Szrj	      sel[i] = i;
38fd1498Szrj	    else
38fd1498Szrj	      sel[i] = nelt + ((nelt + k) % 3) + 3 * (j++);
38fd1498Szrj	  indices.new_vector (sel, 2, nelt);
38fd1498Szrj	  perm3_mask_high = vect_gen_perm_mask_checked (vectype, indices);
38fd1498Szrj
38fd1498Szrj	  first_vect = dr_chain[0];
38fd1498Szrj	  second_vect = dr_chain[1];
38fd1498Szrj
38fd1498Szrj	  /* Create interleaving stmt (low part of):
38fd1498Szrj	     low = VEC_PERM_EXPR <first_vect, second_vect2, {k, 3 + k, 6 + k,
38fd1498Szrj							     ...}>  */
38fd1498Szrj	  data_ref = make_temp_ssa_name (vectype, NULL, "vect_shuffle3_low");
38fd1498Szrj	  perm_stmt = gimple_build_assign (data_ref, VEC_PERM_EXPR, first_vect,
38fd1498Szrj					   second_vect, perm3_mask_low);
38fd1498Szrj	  vect_finish_stmt_generation (stmt, perm_stmt, gsi);
38fd1498Szrj
38fd1498Szrj	  /* Create interleaving stmt (high part of):
38fd1498Szrj	     high = VEC_PERM_EXPR <first_vect, second_vect2, {k, 3 + k, 6 + k,
38fd1498Szrj							      ...}>  */
38fd1498Szrj	  first_vect = data_ref;
38fd1498Szrj	  second_vect = dr_chain[2];
38fd1498Szrj	  data_ref = make_temp_ssa_name (vectype, NULL, "vect_shuffle3_high");
38fd1498Szrj	  perm_stmt = gimple_build_assign (data_ref, VEC_PERM_EXPR, first_vect,
38fd1498Szrj					   second_vect, perm3_mask_high);
38fd1498Szrj	  vect_finish_stmt_generation (stmt, perm_stmt, gsi);
38fd1498Szrj	  (*result_chain)[k] = data_ref;
38fd1498Szrj	}
38fd1498Szrj    }
38fd1498Szrj  else
38fd1498Szrj    {
38fd1498Szrj      /* If length is not equal to 3 then only power of 2 is supported.  */
38fd1498Szrj      gcc_assert (pow2p_hwi (length));
38fd1498Szrj
38fd1498Szrj      /* The encoding has a single stepped pattern.  */
38fd1498Szrj      poly_uint64 nelt = TYPE_VECTOR_SUBPARTS (vectype);
38fd1498Szrj      vec_perm_builder sel (nelt, 1, 3);
38fd1498Szrj      sel.quick_grow (3);
38fd1498Szrj      for (i = 0; i < 3; ++i)
38fd1498Szrj	sel[i] = i * 2;
38fd1498Szrj      vec_perm_indices indices (sel, 2, nelt);
38fd1498Szrj      perm_mask_even = vect_gen_perm_mask_checked (vectype, indices);
38fd1498Szrj
38fd1498Szrj      for (i = 0; i < 3; ++i)
38fd1498Szrj	sel[i] = i * 2 + 1;
38fd1498Szrj      indices.new_vector (sel, 2, nelt);
38fd1498Szrj      perm_mask_odd = vect_gen_perm_mask_checked (vectype, indices);
38fd1498Szrj
38fd1498Szrj      for (i = 0; i < log_length; i++)
38fd1498Szrj	{
38fd1498Szrj	  for (j = 0; j < length; j += 2)
38fd1498Szrj	    {
38fd1498Szrj	      first_vect = dr_chain[j];
38fd1498Szrj	      second_vect = dr_chain[j+1];
38fd1498Szrj
38fd1498Szrj	      /* data_ref = permute_even (first_data_ref, second_data_ref);  */
38fd1498Szrj	      data_ref = make_temp_ssa_name (vectype, NULL, "vect_perm_even");
38fd1498Szrj	      perm_stmt = gimple_build_assign (data_ref, VEC_PERM_EXPR,
38fd1498Szrj					       first_vect, second_vect,
38fd1498Szrj					       perm_mask_even);
38fd1498Szrj	      vect_finish_stmt_generation (stmt, perm_stmt, gsi);
38fd1498Szrj	      (*result_chain)[j/2] = data_ref;
38fd1498Szrj
38fd1498Szrj	      /* data_ref = permute_odd (first_data_ref, second_data_ref);  */
38fd1498Szrj	      data_ref = make_temp_ssa_name (vectype, NULL, "vect_perm_odd");
38fd1498Szrj	      perm_stmt = gimple_build_assign (data_ref, VEC_PERM_EXPR,
38fd1498Szrj					       first_vect, second_vect,
38fd1498Szrj					       perm_mask_odd);
38fd1498Szrj	      vect_finish_stmt_generation (stmt, perm_stmt, gsi);
38fd1498Szrj	      (*result_chain)[j/2+length/2] = data_ref;
38fd1498Szrj	    }
38fd1498Szrj	  memcpy (dr_chain.address (), result_chain->address (),
38fd1498Szrj		  length * sizeof (tree));
38fd1498Szrj	}
38fd1498Szrj    }
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Function vect_shift_permute_load_chain.
38fd1498Szrj
38fd1498Szrj   Given a chain of loads in DR_CHAIN of LENGTH 2 or 3, generate
38fd1498Szrj   sequence of stmts to reorder the input data accordingly.
38fd1498Szrj   Return the final references for loads in RESULT_CHAIN.
38fd1498Szrj   Return true if successed, false otherwise.
38fd1498Szrj
38fd1498Szrj   E.g., LENGTH is 3 and the scalar type is short, i.e., VF is 8.
38fd1498Szrj   The input is 3 vectors each containing 8 elements.  We assign a
38fd1498Szrj   number to each element, the input sequence is:
38fd1498Szrj
38fd1498Szrj   1st vec:   0  1  2  3  4  5  6  7
38fd1498Szrj   2nd vec:   8  9 10 11 12 13 14 15
38fd1498Szrj   3rd vec:  16 17 18 19 20 21 22 23
38fd1498Szrj
38fd1498Szrj   The output sequence should be:
38fd1498Szrj
38fd1498Szrj   1st vec:  0 3 6  9 12 15 18 21
38fd1498Szrj   2nd vec:  1 4 7 10 13 16 19 22
38fd1498Szrj   3rd vec:  2 5 8 11 14 17 20 23
38fd1498Szrj
38fd1498Szrj   We use 3 shuffle instructions and 3 * 3 - 1 shifts to create such output.
38fd1498Szrj
38fd1498Szrj   First we shuffle all 3 vectors to get correct elements order:
38fd1498Szrj
38fd1498Szrj   1st vec:  ( 0  3  6) ( 1  4  7) ( 2  5)
38fd1498Szrj   2nd vec:  ( 8 11 14) ( 9 12 15) (10 13)
38fd1498Szrj   3rd vec:  (16 19 22) (17 20 23) (18 21)
38fd1498Szrj
38fd1498Szrj   Next we unite and shift vector 3 times:
38fd1498Szrj
38fd1498Szrj   1st step:
38fd1498Szrj     shift right by 6 the concatenation of:
38fd1498Szrj     "1st vec" and  "2nd vec"
38fd1498Szrj       ( 0  3  6) ( 1  4  7) |( 2  5) _ ( 8 11 14) ( 9 12 15)| (10 13)
38fd1498Szrj     "2nd vec" and  "3rd vec"
38fd1498Szrj       ( 8 11 14) ( 9 12 15) |(10 13) _ (16 19 22) (17 20 23)| (18 21)
38fd1498Szrj     "3rd vec" and  "1st vec"
38fd1498Szrj       (16 19 22) (17 20 23) |(18 21) _ ( 0  3  6) ( 1  4  7)| ( 2  5)
38fd1498Szrj			     | New vectors                   |
38fd1498Szrj
38fd1498Szrj     So that now new vectors are:
38fd1498Szrj
38fd1498Szrj     1st vec:  ( 2  5) ( 8 11 14) ( 9 12 15)
38fd1498Szrj     2nd vec:  (10 13) (16 19 22) (17 20 23)
38fd1498Szrj     3rd vec:  (18 21) ( 0  3  6) ( 1  4  7)
38fd1498Szrj
38fd1498Szrj   2nd step:
38fd1498Szrj     shift right by 5 the concatenation of:
38fd1498Szrj     "1st vec" and  "3rd vec"
38fd1498Szrj       ( 2  5) ( 8 11 14) |( 9 12 15) _ (18 21) ( 0  3  6)| ( 1  4  7)
38fd1498Szrj     "2nd vec" and  "1st vec"
38fd1498Szrj       (10 13) (16 19 22) |(17 20 23) _ ( 2  5) ( 8 11 14)| ( 9 12 15)
38fd1498Szrj     "3rd vec" and  "2nd vec"
38fd1498Szrj       (18 21) ( 0  3  6) |( 1  4  7) _ (10 13) (16 19 22)| (17 20 23)
38fd1498Szrj			  | New vectors                   |
38fd1498Szrj
38fd1498Szrj     So that now new vectors are:
38fd1498Szrj
38fd1498Szrj     1st vec:  ( 9 12 15) (18 21) ( 0  3  6)
38fd1498Szrj     2nd vec:  (17 20 23) ( 2  5) ( 8 11 14)
38fd1498Szrj     3rd vec:  ( 1  4  7) (10 13) (16 19 22) READY
38fd1498Szrj
38fd1498Szrj   3rd step:
38fd1498Szrj     shift right by 5 the concatenation of:
38fd1498Szrj     "1st vec" and  "1st vec"
38fd1498Szrj       ( 9 12 15) (18 21) |( 0  3  6) _ ( 9 12 15) (18 21)| ( 0  3  6)
38fd1498Szrj     shift right by 3 the concatenation of:
38fd1498Szrj     "2nd vec" and  "2nd vec"
38fd1498Szrj               (17 20 23) |( 2  5) ( 8 11 14) _ (17 20 23)| ( 2  5) ( 8 11 14)
38fd1498Szrj			  | New vectors                   |
38fd1498Szrj
38fd1498Szrj     So that now all vectors are READY:
38fd1498Szrj     1st vec:  ( 0  3  6) ( 9 12 15) (18 21)
38fd1498Szrj     2nd vec:  ( 2  5) ( 8 11 14) (17 20 23)
38fd1498Szrj     3rd vec:  ( 1  4  7) (10 13) (16 19 22)
38fd1498Szrj
38fd1498Szrj   This algorithm is faster than one in vect_permute_load_chain if:
38fd1498Szrj     1.  "shift of a concatination" is faster than general permutation.
38fd1498Szrj	 This is usually so.
38fd1498Szrj     2.  The TARGET machine can't execute vector instructions in parallel.
38fd1498Szrj	 This is because each step of the algorithm depends on previous.
38fd1498Szrj	 The algorithm in vect_permute_load_chain is much more parallel.
38fd1498Szrj
38fd1498Szrj   The algorithm is applicable only for LOAD CHAIN LENGTH less than VF.
38fd1498Szrj*/
38fd1498Szrj
38fd1498Szrjstatic bool
38fd1498Szrjvect_shift_permute_load_chain (vec<tree> dr_chain,
38fd1498Szrj			       unsigned int length,
38fd1498Szrj			       gimple *stmt,
38fd1498Szrj			       gimple_stmt_iterator *gsi,
38fd1498Szrj			       vec<tree> *result_chain)
38fd1498Szrj{
38fd1498Szrj  tree vect[3], vect_shift[3], data_ref, first_vect, second_vect;
38fd1498Szrj  tree perm2_mask1, perm2_mask2, perm3_mask;
38fd1498Szrj  tree select_mask, shift1_mask, shift2_mask, shift3_mask, shift4_mask;
38fd1498Szrj  gimple *perm_stmt;
38fd1498Szrj
38fd1498Szrj  tree vectype = STMT_VINFO_VECTYPE (vinfo_for_stmt (stmt));
38fd1498Szrj  unsigned int i;
38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj  loop_vec_info loop_vinfo = STMT_VINFO_LOOP_VINFO (stmt_info);
38fd1498Szrj
38fd1498Szrj  unsigned HOST_WIDE_INT nelt, vf;
38fd1498Szrj  if (!TYPE_VECTOR_SUBPARTS (vectype).is_constant (&nelt)
38fd1498Szrj      || !LOOP_VINFO_VECT_FACTOR (loop_vinfo).is_constant (&vf))
38fd1498Szrj    /* Not supported for variable-length vectors.  */
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  vec_perm_builder sel (nelt, nelt, 1);
38fd1498Szrj  sel.quick_grow (nelt);
38fd1498Szrj
38fd1498Szrj  result_chain->quick_grow (length);
38fd1498Szrj  memcpy (result_chain->address (), dr_chain.address (),
38fd1498Szrj	  length * sizeof (tree));
38fd1498Szrj
38fd1498Szrj  if (pow2p_hwi (length) && vf > 4)
38fd1498Szrj    {
38fd1498Szrj      unsigned int j, log_length = exact_log2 (length);
38fd1498Szrj      for (i = 0; i < nelt / 2; ++i)
38fd1498Szrj	sel[i] = i * 2;
38fd1498Szrj      for (i = 0; i < nelt / 2; ++i)
38fd1498Szrj	sel[nelt / 2 + i] = i * 2 + 1;
38fd1498Szrj      vec_perm_indices indices (sel, 2, nelt);
38fd1498Szrj      if (!can_vec_perm_const_p (TYPE_MODE (vectype), indices))
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			     "shuffle of 2 fields structure is not \
38fd1498Szrj			      supported by target\n");
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj      perm2_mask1 = vect_gen_perm_mask_checked (vectype, indices);
38fd1498Szrj
38fd1498Szrj      for (i = 0; i < nelt / 2; ++i)
38fd1498Szrj	sel[i] = i * 2 + 1;
38fd1498Szrj      for (i = 0; i < nelt / 2; ++i)
38fd1498Szrj	sel[nelt / 2 + i] = i * 2;
38fd1498Szrj      indices.new_vector (sel, 2, nelt);
38fd1498Szrj      if (!can_vec_perm_const_p (TYPE_MODE (vectype), indices))
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			     "shuffle of 2 fields structure is not \
38fd1498Szrj			      supported by target\n");
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj      perm2_mask2 = vect_gen_perm_mask_checked (vectype, indices);
38fd1498Szrj
38fd1498Szrj      /* Generating permutation constant to shift all elements.
38fd1498Szrj	 For vector length 8 it is {4 5 6 7 8 9 10 11}.  */
38fd1498Szrj      for (i = 0; i < nelt; i++)
38fd1498Szrj	sel[i] = nelt / 2 + i;
38fd1498Szrj      indices.new_vector (sel, 2, nelt);
38fd1498Szrj      if (!can_vec_perm_const_p (TYPE_MODE (vectype), indices))
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			     "shift permutation is not supported by target\n");
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj      shift1_mask = vect_gen_perm_mask_checked (vectype, indices);
38fd1498Szrj
38fd1498Szrj      /* Generating permutation constant to select vector from 2.
38fd1498Szrj	 For vector length 8 it is {0 1 2 3 12 13 14 15}.  */
38fd1498Szrj      for (i = 0; i < nelt / 2; i++)
38fd1498Szrj	sel[i] = i;
38fd1498Szrj      for (i = nelt / 2; i < nelt; i++)
38fd1498Szrj	sel[i] = nelt + i;
38fd1498Szrj      indices.new_vector (sel, 2, nelt);
38fd1498Szrj      if (!can_vec_perm_const_p (TYPE_MODE (vectype), indices))
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			     "select is not supported by target\n");
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj      select_mask = vect_gen_perm_mask_checked (vectype, indices);
38fd1498Szrj
38fd1498Szrj      for (i = 0; i < log_length; i++)
38fd1498Szrj	{
38fd1498Szrj	  for (j = 0; j < length; j += 2)
38fd1498Szrj	    {
38fd1498Szrj	      first_vect = dr_chain[j];
38fd1498Szrj	      second_vect = dr_chain[j + 1];
38fd1498Szrj
38fd1498Szrj	      data_ref = make_temp_ssa_name (vectype, NULL, "vect_shuffle2");
38fd1498Szrj	      perm_stmt = gimple_build_assign (data_ref, VEC_PERM_EXPR,
38fd1498Szrj					       first_vect, first_vect,
38fd1498Szrj					       perm2_mask1);
38fd1498Szrj	      vect_finish_stmt_generation (stmt, perm_stmt, gsi);
38fd1498Szrj	      vect[0] = data_ref;
38fd1498Szrj
38fd1498Szrj	      data_ref = make_temp_ssa_name (vectype, NULL, "vect_shuffle2");
38fd1498Szrj	      perm_stmt = gimple_build_assign (data_ref, VEC_PERM_EXPR,
38fd1498Szrj					       second_vect, second_vect,
38fd1498Szrj					       perm2_mask2);
38fd1498Szrj	      vect_finish_stmt_generation (stmt, perm_stmt, gsi);
38fd1498Szrj	      vect[1] = data_ref;
38fd1498Szrj
38fd1498Szrj	      data_ref = make_temp_ssa_name (vectype, NULL, "vect_shift");
38fd1498Szrj	      perm_stmt = gimple_build_assign (data_ref, VEC_PERM_EXPR,
38fd1498Szrj					       vect[0], vect[1], shift1_mask);
38fd1498Szrj	      vect_finish_stmt_generation (stmt, perm_stmt, gsi);
38fd1498Szrj	      (*result_chain)[j/2 + length/2] = data_ref;
38fd1498Szrj
38fd1498Szrj	      data_ref = make_temp_ssa_name (vectype, NULL, "vect_select");
38fd1498Szrj	      perm_stmt = gimple_build_assign (data_ref, VEC_PERM_EXPR,
38fd1498Szrj					       vect[0], vect[1], select_mask);
38fd1498Szrj	      vect_finish_stmt_generation (stmt, perm_stmt, gsi);
38fd1498Szrj	      (*result_chain)[j/2] = data_ref;
38fd1498Szrj	    }
38fd1498Szrj	  memcpy (dr_chain.address (), result_chain->address (),
38fd1498Szrj		  length * sizeof (tree));
38fd1498Szrj	}
38fd1498Szrj      return true;
38fd1498Szrj    }
38fd1498Szrj  if (length == 3 && vf > 2)
38fd1498Szrj    {
38fd1498Szrj      unsigned int k = 0, l = 0;
38fd1498Szrj
38fd1498Szrj      /* Generating permutation constant to get all elements in rigth order.
38fd1498Szrj	 For vector length 8 it is {0 3 6 1 4 7 2 5}.  */
38fd1498Szrj      for (i = 0; i < nelt; i++)
38fd1498Szrj	{
38fd1498Szrj	  if (3 * k + (l % 3) >= nelt)
38fd1498Szrj	    {
38fd1498Szrj	      k = 0;
38fd1498Szrj	      l += (3 - (nelt % 3));
38fd1498Szrj	    }
38fd1498Szrj	  sel[i] = 3 * k + (l % 3);
38fd1498Szrj	  k++;
38fd1498Szrj	}
38fd1498Szrj      vec_perm_indices indices (sel, 2, nelt);
38fd1498Szrj      if (!can_vec_perm_const_p (TYPE_MODE (vectype), indices))
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			     "shuffle of 3 fields structure is not \
38fd1498Szrj			      supported by target\n");
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj      perm3_mask = vect_gen_perm_mask_checked (vectype, indices);
38fd1498Szrj
38fd1498Szrj      /* Generating permutation constant to shift all elements.
38fd1498Szrj	 For vector length 8 it is {6 7 8 9 10 11 12 13}.  */
38fd1498Szrj      for (i = 0; i < nelt; i++)
38fd1498Szrj	sel[i] = 2 * (nelt / 3) + (nelt % 3) + i;
38fd1498Szrj      indices.new_vector (sel, 2, nelt);
38fd1498Szrj      if (!can_vec_perm_const_p (TYPE_MODE (vectype), indices))
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			     "shift permutation is not supported by target\n");
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj      shift1_mask = vect_gen_perm_mask_checked (vectype, indices);
38fd1498Szrj
38fd1498Szrj      /* Generating permutation constant to shift all elements.
38fd1498Szrj	 For vector length 8 it is {5 6 7 8 9 10 11 12}.  */
38fd1498Szrj      for (i = 0; i < nelt; i++)
38fd1498Szrj	sel[i] = 2 * (nelt / 3) + 1 + i;
38fd1498Szrj      indices.new_vector (sel, 2, nelt);
38fd1498Szrj      if (!can_vec_perm_const_p (TYPE_MODE (vectype), indices))
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			     "shift permutation is not supported by target\n");
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj      shift2_mask = vect_gen_perm_mask_checked (vectype, indices);
38fd1498Szrj
38fd1498Szrj      /* Generating permutation constant to shift all elements.
38fd1498Szrj	 For vector length 8 it is {3 4 5 6 7 8 9 10}.  */
38fd1498Szrj      for (i = 0; i < nelt; i++)
38fd1498Szrj	sel[i] = (nelt / 3) + (nelt % 3) / 2 + i;
38fd1498Szrj      indices.new_vector (sel, 2, nelt);
38fd1498Szrj      if (!can_vec_perm_const_p (TYPE_MODE (vectype), indices))
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			     "shift permutation is not supported by target\n");
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj      shift3_mask = vect_gen_perm_mask_checked (vectype, indices);
38fd1498Szrj
38fd1498Szrj      /* Generating permutation constant to shift all elements.
38fd1498Szrj	 For vector length 8 it is {5 6 7 8 9 10 11 12}.  */
38fd1498Szrj      for (i = 0; i < nelt; i++)
38fd1498Szrj	sel[i] = 2 * (nelt / 3) + (nelt % 3) / 2 + i;
38fd1498Szrj      indices.new_vector (sel, 2, nelt);
38fd1498Szrj      if (!can_vec_perm_const_p (TYPE_MODE (vectype), indices))
38fd1498Szrj	{
38fd1498Szrj	  if (dump_enabled_p ())
38fd1498Szrj	    dump_printf_loc (MSG_MISSED_OPTIMIZATION, vect_location,
38fd1498Szrj			     "shift permutation is not supported by target\n");
38fd1498Szrj	  return false;
38fd1498Szrj	}
38fd1498Szrj      shift4_mask = vect_gen_perm_mask_checked (vectype, indices);
38fd1498Szrj
38fd1498Szrj      for (k = 0; k < 3; k++)
38fd1498Szrj	{
38fd1498Szrj	  data_ref = make_temp_ssa_name (vectype, NULL, "vect_shuffle3");
38fd1498Szrj	  perm_stmt = gimple_build_assign (data_ref, VEC_PERM_EXPR,
38fd1498Szrj					   dr_chain[k], dr_chain[k],
38fd1498Szrj					   perm3_mask);
38fd1498Szrj	  vect_finish_stmt_generation (stmt, perm_stmt, gsi);
38fd1498Szrj	  vect[k] = data_ref;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      for (k = 0; k < 3; k++)
38fd1498Szrj	{
38fd1498Szrj	  data_ref = make_temp_ssa_name (vectype, NULL, "vect_shift1");
38fd1498Szrj	  perm_stmt = gimple_build_assign (data_ref, VEC_PERM_EXPR,
38fd1498Szrj					   vect[k % 3], vect[(k + 1) % 3],
38fd1498Szrj					   shift1_mask);
38fd1498Szrj	  vect_finish_stmt_generation (stmt, perm_stmt, gsi);
38fd1498Szrj	  vect_shift[k] = data_ref;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      for (k = 0; k < 3; k++)
38fd1498Szrj	{
38fd1498Szrj	  data_ref = make_temp_ssa_name (vectype, NULL, "vect_shift2");
38fd1498Szrj	  perm_stmt = gimple_build_assign (data_ref, VEC_PERM_EXPR,
38fd1498Szrj					   vect_shift[(4 - k) % 3],
38fd1498Szrj					   vect_shift[(3 - k) % 3],
38fd1498Szrj					   shift2_mask);
38fd1498Szrj	  vect_finish_stmt_generation (stmt, perm_stmt, gsi);
38fd1498Szrj	  vect[k] = data_ref;
38fd1498Szrj	}
38fd1498Szrj
38fd1498Szrj      (*result_chain)[3 - (nelt % 3)] = vect[2];
38fd1498Szrj
38fd1498Szrj      data_ref = make_temp_ssa_name (vectype, NULL, "vect_shift3");
38fd1498Szrj      perm_stmt = gimple_build_assign (data_ref, VEC_PERM_EXPR, vect[0],
38fd1498Szrj				       vect[0], shift3_mask);
38fd1498Szrj      vect_finish_stmt_generation (stmt, perm_stmt, gsi);
38fd1498Szrj      (*result_chain)[nelt % 3] = data_ref;
38fd1498Szrj
38fd1498Szrj      data_ref = make_temp_ssa_name (vectype, NULL, "vect_shift4");
38fd1498Szrj      perm_stmt = gimple_build_assign (data_ref, VEC_PERM_EXPR, vect[1],
38fd1498Szrj				       vect[1], shift4_mask);
38fd1498Szrj      vect_finish_stmt_generation (stmt, perm_stmt, gsi);
38fd1498Szrj      (*result_chain)[0] = data_ref;
38fd1498Szrj      return true;
38fd1498Szrj    }
38fd1498Szrj  return false;
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Function vect_transform_grouped_load.
38fd1498Szrj
38fd1498Szrj   Given a chain of input interleaved data-refs (in DR_CHAIN), build statements
38fd1498Szrj   to perform their permutation and ascribe the result vectorized statements to
38fd1498Szrj   the scalar statements.
38fd1498Szrj*/
38fd1498Szrj
38fd1498Szrjvoid
38fd1498Szrjvect_transform_grouped_load (gimple *stmt, vec<tree> dr_chain, int size,
38fd1498Szrj			     gimple_stmt_iterator *gsi)
38fd1498Szrj{
38fd1498Szrj  machine_mode mode;
38fd1498Szrj  vec<tree> result_chain = vNULL;
38fd1498Szrj
38fd1498Szrj  /* DR_CHAIN contains input data-refs that are a part of the interleaving.
38fd1498Szrj     RESULT_CHAIN is the output of vect_permute_load_chain, it contains permuted
38fd1498Szrj     vectors, that are ready for vector computation.  */
38fd1498Szrj  result_chain.create (size);
38fd1498Szrj
38fd1498Szrj  /* If reassociation width for vector type is 2 or greater target machine can
38fd1498Szrj     execute 2 or more vector instructions in parallel.  Otherwise try to
38fd1498Szrj     get chain for loads group using vect_shift_permute_load_chain.  */
38fd1498Szrj  mode = TYPE_MODE (STMT_VINFO_VECTYPE (vinfo_for_stmt (stmt)));
38fd1498Szrj  if (targetm.sched.reassociation_width (VEC_PERM_EXPR, mode) > 1
38fd1498Szrj      || pow2p_hwi (size)
38fd1498Szrj      || !vect_shift_permute_load_chain (dr_chain, size, stmt,
38fd1498Szrj					 gsi, &result_chain))
38fd1498Szrj    vect_permute_load_chain (dr_chain, size, stmt, gsi, &result_chain);
38fd1498Szrj  vect_record_grouped_load_vectors (stmt, result_chain);
38fd1498Szrj  result_chain.release ();
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* RESULT_CHAIN contains the output of a group of grouped loads that were
38fd1498Szrj   generated as part of the vectorization of STMT.  Assign the statement
38fd1498Szrj   for each vector to the associated scalar statement.  */
38fd1498Szrj
38fd1498Szrjvoid
38fd1498Szrjvect_record_grouped_load_vectors (gimple *stmt, vec<tree> result_chain)
38fd1498Szrj{
38fd1498Szrj  gimple *first_stmt = GROUP_FIRST_ELEMENT (vinfo_for_stmt (stmt));
38fd1498Szrj  gimple *next_stmt, *new_stmt;
38fd1498Szrj  unsigned int i, gap_count;
38fd1498Szrj  tree tmp_data_ref;
38fd1498Szrj
38fd1498Szrj  /* Put a permuted data-ref in the VECTORIZED_STMT field.
38fd1498Szrj     Since we scan the chain starting from it's first node, their order
38fd1498Szrj     corresponds the order of data-refs in RESULT_CHAIN.  */
38fd1498Szrj  next_stmt = first_stmt;
38fd1498Szrj  gap_count = 1;
38fd1498Szrj  FOR_EACH_VEC_ELT (result_chain, i, tmp_data_ref)
38fd1498Szrj    {
38fd1498Szrj      if (!next_stmt)
38fd1498Szrj	break;
38fd1498Szrj
38fd1498Szrj      /* Skip the gaps.  Loads created for the gaps will be removed by dead
38fd1498Szrj       code elimination pass later.  No need to check for the first stmt in
38fd1498Szrj       the group, since it always exists.
38fd1498Szrj       GROUP_GAP is the number of steps in elements from the previous
38fd1498Szrj       access (if there is no gap GROUP_GAP is 1).  We skip loads that
38fd1498Szrj       correspond to the gaps.  */
38fd1498Szrj      if (next_stmt != first_stmt
38fd1498Szrj          && gap_count < GROUP_GAP (vinfo_for_stmt (next_stmt)))
38fd1498Szrj      {
38fd1498Szrj        gap_count++;
38fd1498Szrj        continue;
38fd1498Szrj      }
38fd1498Szrj
38fd1498Szrj      while (next_stmt)
38fd1498Szrj        {
38fd1498Szrj	  new_stmt = SSA_NAME_DEF_STMT (tmp_data_ref);
38fd1498Szrj	  /* We assume that if VEC_STMT is not NULL, this is a case of multiple
38fd1498Szrj	     copies, and we put the new vector statement in the first available
38fd1498Szrj	     RELATED_STMT.  */
38fd1498Szrj	  if (!STMT_VINFO_VEC_STMT (vinfo_for_stmt (next_stmt)))
38fd1498Szrj	    STMT_VINFO_VEC_STMT (vinfo_for_stmt (next_stmt)) = new_stmt;
38fd1498Szrj	  else
38fd1498Szrj            {
38fd1498Szrj              if (!GROUP_SAME_DR_STMT (vinfo_for_stmt (next_stmt)))
38fd1498Szrj                {
38fd1498Szrj		  gimple *prev_stmt =
38fd1498Szrj		    STMT_VINFO_VEC_STMT (vinfo_for_stmt (next_stmt));
38fd1498Szrj		  gimple *rel_stmt =
38fd1498Szrj		    STMT_VINFO_RELATED_STMT (vinfo_for_stmt (prev_stmt));
38fd1498Szrj	          while (rel_stmt)
38fd1498Szrj		    {
38fd1498Szrj		      prev_stmt = rel_stmt;
38fd1498Szrj		      rel_stmt =
38fd1498Szrj                        STMT_VINFO_RELATED_STMT (vinfo_for_stmt (rel_stmt));
38fd1498Szrj		    }
38fd1498Szrj
38fd1498Szrj  	          STMT_VINFO_RELATED_STMT (vinfo_for_stmt (prev_stmt)) =
38fd1498Szrj                    new_stmt;
38fd1498Szrj                }
38fd1498Szrj            }
38fd1498Szrj
38fd1498Szrj	  next_stmt = GROUP_NEXT_ELEMENT (vinfo_for_stmt (next_stmt));
38fd1498Szrj	  gap_count = 1;
38fd1498Szrj	  /* If NEXT_STMT accesses the same DR as the previous statement,
38fd1498Szrj	     put the same TMP_DATA_REF as its vectorized statement; otherwise
38fd1498Szrj	     get the next data-ref from RESULT_CHAIN.  */
38fd1498Szrj	  if (!next_stmt || !GROUP_SAME_DR_STMT (vinfo_for_stmt (next_stmt)))
38fd1498Szrj	    break;
38fd1498Szrj        }
38fd1498Szrj    }
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj/* Function vect_force_dr_alignment_p.
38fd1498Szrj
38fd1498Szrj   Returns whether the alignment of a DECL can be forced to be aligned
38fd1498Szrj   on ALIGNMENT bit boundary.  */
38fd1498Szrj
38fd1498Szrjbool
38fd1498Szrjvect_can_force_dr_alignment_p (const_tree decl, unsigned int alignment)
38fd1498Szrj{
38fd1498Szrj  if (!VAR_P (decl))
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  if (decl_in_symtab_p (decl)
38fd1498Szrj      && !symtab_node::get (decl)->can_increase_alignment_p ())
38fd1498Szrj    return false;
38fd1498Szrj
38fd1498Szrj  if (TREE_STATIC (decl))
38fd1498Szrj    return (alignment <= MAX_OFILE_ALIGNMENT);
38fd1498Szrj  else
38fd1498Szrj    return (alignment <= MAX_STACK_ALIGNMENT);
38fd1498Szrj}
38fd1498Szrj
38fd1498Szrj
38fd1498Szrj/* Return whether the data reference DR is supported with respect to its
38fd1498Szrj   alignment.
38fd1498Szrj   If CHECK_ALIGNED_ACCESSES is TRUE, check if the access is supported even
38fd1498Szrj   it is aligned, i.e., check if it is possible to vectorize it with different
38fd1498Szrj   alignment.  */
38fd1498Szrj
38fd1498Szrjenum dr_alignment_support
38fd1498Szrjvect_supportable_dr_alignment (struct data_reference *dr,
38fd1498Szrj                               bool check_aligned_accesses)
38fd1498Szrj{
38fd1498Szrj  gimple *stmt = DR_STMT (dr);
38fd1498Szrj  stmt_vec_info stmt_info = vinfo_for_stmt (stmt);
38fd1498Szrj  tree vectype = STMT_VINFO_VECTYPE (stmt_info);
38fd1498Szrj  machine_mode mode = TYPE_MODE (vectype);
38fd1498Szrj  loop_vec_info loop_vinfo = STMT_VINFO_LOOP_VINFO (stmt_info);
38fd1498Szrj  struct loop *vect_loop = NULL;
38fd1498Szrj  bool nested_in_vect_loop = false;
38fd1498Szrj
38fd1498Szrj  if (aligned_access_p (dr) && !check_aligned_accesses)
38fd1498Szrj    return dr_aligned;
38fd1498Szrj
38fd1498Szrj  /* For now assume all conditional loads/stores support unaligned
38fd1498Szrj     access without any special code.  */
38fd1498Szrj  if (is_gimple_call (stmt)
38fd1498Szrj      && gimple_call_internal_p (stmt)
38fd1498Szrj      && (gimple_call_internal_fn (stmt) == IFN_MASK_LOAD
38fd1498Szrj	  || gimple_call_internal_fn (stmt) == IFN_MASK_STORE))
38fd1498Szrj    return dr_unaligned_supported;
38fd1498Szrj
38fd1498Szrj  if (loop_vinfo)
38fd1498Szrj    {
38fd1498Szrj      vect_loop = LOOP_VINFO_LOOP (loop_vinfo);
38fd1498Szrj      nested_in_vect_loop = nested_in_vect_loop_p (vect_loop, stmt);
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* Possibly unaligned access.  */
38fd1498Szrj
38fd1498Szrj  /* We can choose between using the implicit realignment scheme (generating
38fd1498Szrj     a misaligned_move stmt) and the explicit realignment scheme (generating
38fd1498Szrj     aligned loads with a REALIGN_LOAD).  There are two variants to the
38fd1498Szrj     explicit realignment scheme: optimized, and unoptimized.
38fd1498Szrj     We can optimize the realignment only if the step between consecutive
38fd1498Szrj     vector loads is equal to the vector size.  Since the vector memory
38fd1498Szrj     accesses advance in steps of VS (Vector Size) in the vectorized loop, it
38fd1498Szrj     is guaranteed that the misalignment amount remains the same throughout the
38fd1498Szrj     execution of the vectorized loop.  Therefore, we can create the
38fd1498Szrj     "realignment token" (the permutation mask that is passed to REALIGN_LOAD)
38fd1498Szrj     at the loop preheader.
38fd1498Szrj
38fd1498Szrj     However, in the case of outer-loop vectorization, when vectorizing a
38fd1498Szrj     memory access in the inner-loop nested within the LOOP that is now being
38fd1498Szrj     vectorized, while it is guaranteed that the misalignment of the
38fd1498Szrj     vectorized memory access will remain the same in different outer-loop
38fd1498Szrj     iterations, it is *not* guaranteed that is will remain the same throughout
38fd1498Szrj     the execution of the inner-loop.  This is because the inner-loop advances
38fd1498Szrj     with the original scalar step (and not in steps of VS).  If the inner-loop
38fd1498Szrj     step happens to be a multiple of VS, then the misalignment remains fixed
38fd1498Szrj     and we can use the optimized realignment scheme.  For example:
38fd1498Szrj
38fd1498Szrj      for (i=0; i<N; i++)
38fd1498Szrj        for (j=0; j<M; j++)
38fd1498Szrj          s += a[i+j];
38fd1498Szrj
38fd1498Szrj     When vectorizing the i-loop in the above example, the step between
38fd1498Szrj     consecutive vector loads is 1, and so the misalignment does not remain
38fd1498Szrj     fixed across the execution of the inner-loop, and the realignment cannot
38fd1498Szrj     be optimized (as illustrated in the following pseudo vectorized loop):
38fd1498Szrj
38fd1498Szrj      for (i=0; i<N; i+=4)
38fd1498Szrj        for (j=0; j<M; j++){
38fd1498Szrj          vs += vp[i+j]; // misalignment of &vp[i+j] is {0,1,2,3,0,1,2,3,...}
38fd1498Szrj                         // when j is {0,1,2,3,4,5,6,7,...} respectively.
38fd1498Szrj                         // (assuming that we start from an aligned address).
38fd1498Szrj          }
38fd1498Szrj
38fd1498Szrj     We therefore have to use the unoptimized realignment scheme:
38fd1498Szrj
38fd1498Szrj      for (i=0; i<N; i+=4)
38fd1498Szrj          for (j=k; j<M; j+=4)
38fd1498Szrj          vs += vp[i+j]; // misalignment of &vp[i+j] is always k (assuming
38fd1498Szrj                           // that the misalignment of the initial address is
38fd1498Szrj                           // 0).
38fd1498Szrj
38fd1498Szrj     The loop can then be vectorized as follows:
38fd1498Szrj
38fd1498Szrj      for (k=0; k<4; k++){
38fd1498Szrj        rt = get_realignment_token (&vp[k]);
38fd1498Szrj        for (i=0; i<N; i+=4){
38fd1498Szrj          v1 = vp[i+k];
38fd1498Szrj          for (j=k; j<M; j+=4){
38fd1498Szrj            v2 = vp[i+j+VS-1];
38fd1498Szrj            va = REALIGN_LOAD <v1,v2,rt>;
38fd1498Szrj            vs += va;
38fd1498Szrj            v1 = v2;
38fd1498Szrj          }
38fd1498Szrj        }
38fd1498Szrj    } */
38fd1498Szrj
38fd1498Szrj  if (DR_IS_READ (dr))
38fd1498Szrj    {
38fd1498Szrj      bool is_packed = false;
38fd1498Szrj      tree type = (TREE_TYPE (DR_REF (dr)));
38fd1498Szrj
38fd1498Szrj      if (optab_handler (vec_realign_load_optab, mode) != CODE_FOR_nothing
38fd1498Szrj	  && (!targetm.vectorize.builtin_mask_for_load
38fd1498Szrj	      || targetm.vectorize.builtin_mask_for_load ()))
38fd1498Szrj	{
38fd1498Szrj	  tree vectype = STMT_VINFO_VECTYPE (stmt_info);
38fd1498Szrj
38fd1498Szrj	  /* If we are doing SLP then the accesses need not have the
38fd1498Szrj	     same alignment, instead it depends on the SLP group size.  */
38fd1498Szrj	  if (loop_vinfo
38fd1498Szrj	      && STMT_SLP_TYPE (stmt_info)
38fd1498Szrj	      && !multiple_p (LOOP_VINFO_VECT_FACTOR (loop_vinfo)
38fd1498Szrj			      * GROUP_SIZE (vinfo_for_stmt
38fd1498Szrj					    (GROUP_FIRST_ELEMENT (stmt_info))),
38fd1498Szrj			      TYPE_VECTOR_SUBPARTS (vectype)))
38fd1498Szrj	    ;
38fd1498Szrj	  else if (!loop_vinfo
38fd1498Szrj		   || (nested_in_vect_loop
38fd1498Szrj		       && maybe_ne (TREE_INT_CST_LOW (DR_STEP (dr)),
38fd1498Szrj				    GET_MODE_SIZE (TYPE_MODE (vectype)))))
38fd1498Szrj	    return dr_explicit_realign;
38fd1498Szrj	  else
38fd1498Szrj	    return dr_explicit_realign_optimized;
38fd1498Szrj	}
38fd1498Szrj      if (!known_alignment_for_access_p (dr))
38fd1498Szrj	is_packed = not_size_aligned (DR_REF (dr));
38fd1498Szrj
38fd1498Szrj      if (targetm.vectorize.support_vector_misalignment
38fd1498Szrj	    (mode, type, DR_MISALIGNMENT (dr), is_packed))
38fd1498Szrj	/* Can't software pipeline the loads, but can at least do them.  */
38fd1498Szrj	return dr_unaligned_supported;
38fd1498Szrj    }
38fd1498Szrj  else
38fd1498Szrj    {
38fd1498Szrj      bool is_packed = false;
38fd1498Szrj      tree type = (TREE_TYPE (DR_REF (dr)));
38fd1498Szrj
38fd1498Szrj      if (!known_alignment_for_access_p (dr))
38fd1498Szrj	is_packed = not_size_aligned (DR_REF (dr));
38fd1498Szrj
38fd1498Szrj     if (targetm.vectorize.support_vector_misalignment
38fd1498Szrj	   (mode, type, DR_MISALIGNMENT (dr), is_packed))
38fd1498Szrj       return dr_unaligned_supported;
38fd1498Szrj    }
38fd1498Szrj
38fd1498Szrj  /* Unsupported.  */
38fd1498Szrj  return dr_unaligned_unsupported;
38fd1498Szrj}