1*06f32e7eSjoerg //===-- PerfectShuffle.cpp - Perfect Shuffle Generator --------------------===//
2*06f32e7eSjoerg //
3*06f32e7eSjoerg // Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
4*06f32e7eSjoerg // See https://llvm.org/LICENSE.txt for license information.
5*06f32e7eSjoerg // SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
6*06f32e7eSjoerg //
7*06f32e7eSjoerg //===----------------------------------------------------------------------===//
8*06f32e7eSjoerg //
9*06f32e7eSjoerg // This file computes an optimal sequence of instructions for doing all shuffles
10*06f32e7eSjoerg // of two 4-element vectors.  With a release build and when configured to emit
11*06f32e7eSjoerg // an altivec instruction table, this takes about 30s to run on a 2.7Ghz
12*06f32e7eSjoerg // PowerPC G5.
13*06f32e7eSjoerg //
14*06f32e7eSjoerg //===----------------------------------------------------------------------===//
15*06f32e7eSjoerg 
16*06f32e7eSjoerg #include <cassert>
17*06f32e7eSjoerg #include <cstdlib>
18*06f32e7eSjoerg #include <iomanip>
19*06f32e7eSjoerg #include <iostream>
20*06f32e7eSjoerg #include <vector>
21*06f32e7eSjoerg struct Operator;
22*06f32e7eSjoerg 
23*06f32e7eSjoerg // Masks are 4-nibble hex numbers.  Values 0-7 in any nibble means that it takes
24*06f32e7eSjoerg // an element from that value of the input vectors.  A value of 8 means the
25*06f32e7eSjoerg // entry is undefined.
26*06f32e7eSjoerg 
27*06f32e7eSjoerg // Mask manipulation functions.
MakeMask(unsigned V0,unsigned V1,unsigned V2,unsigned V3)28*06f32e7eSjoerg static inline unsigned short MakeMask(unsigned V0, unsigned V1,
29*06f32e7eSjoerg                                       unsigned V2, unsigned V3) {
30*06f32e7eSjoerg   return (V0 << (3*4)) | (V1 << (2*4)) | (V2 << (1*4)) | (V3 << (0*4));
31*06f32e7eSjoerg }
32*06f32e7eSjoerg 
33*06f32e7eSjoerg /// getMaskElt - Return element N of the specified mask.
getMaskElt(unsigned Mask,unsigned Elt)34*06f32e7eSjoerg static unsigned getMaskElt(unsigned Mask, unsigned Elt) {
35*06f32e7eSjoerg   return (Mask >> ((3-Elt)*4)) & 0xF;
36*06f32e7eSjoerg }
37*06f32e7eSjoerg 
setMaskElt(unsigned Mask,unsigned Elt,unsigned NewVal)38*06f32e7eSjoerg static unsigned setMaskElt(unsigned Mask, unsigned Elt, unsigned NewVal) {
39*06f32e7eSjoerg   unsigned FieldShift = ((3-Elt)*4);
40*06f32e7eSjoerg   return (Mask & ~(0xF << FieldShift)) | (NewVal << FieldShift);
41*06f32e7eSjoerg }
42*06f32e7eSjoerg 
43*06f32e7eSjoerg // Reject elements where the values are 9-15.
isValidMask(unsigned short Mask)44*06f32e7eSjoerg static bool isValidMask(unsigned short Mask) {
45*06f32e7eSjoerg   unsigned short UndefBits = Mask & 0x8888;
46*06f32e7eSjoerg   return (Mask & ((UndefBits >> 1)|(UndefBits>>2)|(UndefBits>>3))) == 0;
47*06f32e7eSjoerg }
48*06f32e7eSjoerg 
49*06f32e7eSjoerg /// hasUndefElements - Return true if any of the elements in the mask are undefs
50*06f32e7eSjoerg ///
hasUndefElements(unsigned short Mask)51*06f32e7eSjoerg static bool hasUndefElements(unsigned short Mask) {
52*06f32e7eSjoerg   return (Mask & 0x8888) != 0;
53*06f32e7eSjoerg }
54*06f32e7eSjoerg 
55*06f32e7eSjoerg /// isOnlyLHSMask - Return true if this mask only refers to its LHS, not
56*06f32e7eSjoerg /// including undef values..
isOnlyLHSMask(unsigned short Mask)57*06f32e7eSjoerg static bool isOnlyLHSMask(unsigned short Mask) {
58*06f32e7eSjoerg   return (Mask & 0x4444) == 0;
59*06f32e7eSjoerg }
60*06f32e7eSjoerg 
61*06f32e7eSjoerg /// getLHSOnlyMask - Given a mask that refers to its LHS and RHS, modify it to
62*06f32e7eSjoerg /// refer to the LHS only (for when one argument value is passed into the same
63*06f32e7eSjoerg /// function twice).
64*06f32e7eSjoerg #if 0
65*06f32e7eSjoerg static unsigned short getLHSOnlyMask(unsigned short Mask) {
66*06f32e7eSjoerg   return Mask & 0xBBBB;  // Keep only LHS and Undefs.
67*06f32e7eSjoerg }
68*06f32e7eSjoerg #endif
69*06f32e7eSjoerg 
70*06f32e7eSjoerg /// getCompressedMask - Turn a 16-bit uncompressed mask (where each elt uses 4
71*06f32e7eSjoerg /// bits) into a compressed 13-bit mask, where each elt is multiplied by 9.
getCompressedMask(unsigned short Mask)72*06f32e7eSjoerg static unsigned getCompressedMask(unsigned short Mask) {
73*06f32e7eSjoerg   return getMaskElt(Mask, 0)*9*9*9 + getMaskElt(Mask, 1)*9*9 +
74*06f32e7eSjoerg          getMaskElt(Mask, 2)*9     + getMaskElt(Mask, 3);
75*06f32e7eSjoerg }
76*06f32e7eSjoerg 
PrintMask(unsigned i,std::ostream & OS)77*06f32e7eSjoerg static void PrintMask(unsigned i, std::ostream &OS) {
78*06f32e7eSjoerg   OS << "<" << (char)(getMaskElt(i, 0) == 8 ? 'u' : ('0'+getMaskElt(i, 0)))
79*06f32e7eSjoerg      << "," << (char)(getMaskElt(i, 1) == 8 ? 'u' : ('0'+getMaskElt(i, 1)))
80*06f32e7eSjoerg      << "," << (char)(getMaskElt(i, 2) == 8 ? 'u' : ('0'+getMaskElt(i, 2)))
81*06f32e7eSjoerg      << "," << (char)(getMaskElt(i, 3) == 8 ? 'u' : ('0'+getMaskElt(i, 3)))
82*06f32e7eSjoerg      << ">";
83*06f32e7eSjoerg }
84*06f32e7eSjoerg 
85*06f32e7eSjoerg /// ShuffleVal - This represents a shufflevector operation.
86*06f32e7eSjoerg struct ShuffleVal {
87*06f32e7eSjoerg   Operator *Op;   // The Operation used to generate this value.
88*06f32e7eSjoerg   unsigned Cost;  // Number of instrs used to generate this value.
89*06f32e7eSjoerg   unsigned short Arg0, Arg1;  // Input operands for this value.
90*06f32e7eSjoerg 
ShuffleValShuffleVal91*06f32e7eSjoerg   ShuffleVal() : Cost(1000000) {}
92*06f32e7eSjoerg };
93*06f32e7eSjoerg 
94*06f32e7eSjoerg 
95*06f32e7eSjoerg /// ShufTab - This is the actual shuffle table that we are trying to generate.
96*06f32e7eSjoerg ///
97*06f32e7eSjoerg static ShuffleVal ShufTab[65536];
98*06f32e7eSjoerg 
99*06f32e7eSjoerg /// TheOperators - All of the operators that this target supports.
100*06f32e7eSjoerg static std::vector<Operator*> TheOperators;
101*06f32e7eSjoerg 
102*06f32e7eSjoerg /// Operator - This is a vector operation that is available for use.
103*06f32e7eSjoerg struct Operator {
104*06f32e7eSjoerg   const char *Name;
105*06f32e7eSjoerg   unsigned short ShuffleMask;
106*06f32e7eSjoerg   unsigned short OpNum;
107*06f32e7eSjoerg   unsigned Cost;
108*06f32e7eSjoerg 
OperatorOperator109*06f32e7eSjoerg   Operator(unsigned short shufflemask, const char *name, unsigned opnum,
110*06f32e7eSjoerg            unsigned cost = 1)
111*06f32e7eSjoerg     :  Name(name), ShuffleMask(shufflemask), OpNum(opnum),Cost(cost) {
112*06f32e7eSjoerg     TheOperators.push_back(this);
113*06f32e7eSjoerg   }
~OperatorOperator114*06f32e7eSjoerg   ~Operator() {
115*06f32e7eSjoerg     assert(TheOperators.back() == this);
116*06f32e7eSjoerg     TheOperators.pop_back();
117*06f32e7eSjoerg   }
118*06f32e7eSjoerg 
isOnlyLHSOperatorOperator119*06f32e7eSjoerg   bool isOnlyLHSOperator() const {
120*06f32e7eSjoerg     return isOnlyLHSMask(ShuffleMask);
121*06f32e7eSjoerg   }
122*06f32e7eSjoerg 
getNameOperator123*06f32e7eSjoerg   const char *getName() const { return Name; }
getCostOperator124*06f32e7eSjoerg   unsigned getCost() const { return Cost; }
125*06f32e7eSjoerg 
getTransformedMaskOperator126*06f32e7eSjoerg   unsigned short getTransformedMask(unsigned short LHSMask, unsigned RHSMask) {
127*06f32e7eSjoerg     // Extract the elements from LHSMask and RHSMask, as appropriate.
128*06f32e7eSjoerg     unsigned Result = 0;
129*06f32e7eSjoerg     for (unsigned i = 0; i != 4; ++i) {
130*06f32e7eSjoerg       unsigned SrcElt = (ShuffleMask >> (4*i)) & 0xF;
131*06f32e7eSjoerg       unsigned ResElt;
132*06f32e7eSjoerg       if (SrcElt < 4)
133*06f32e7eSjoerg         ResElt = getMaskElt(LHSMask, SrcElt);
134*06f32e7eSjoerg       else if (SrcElt < 8)
135*06f32e7eSjoerg         ResElt = getMaskElt(RHSMask, SrcElt-4);
136*06f32e7eSjoerg       else {
137*06f32e7eSjoerg         assert(SrcElt == 8 && "Bad src elt!");
138*06f32e7eSjoerg         ResElt = 8;
139*06f32e7eSjoerg       }
140*06f32e7eSjoerg       Result |= ResElt << (4*i);
141*06f32e7eSjoerg     }
142*06f32e7eSjoerg     return Result;
143*06f32e7eSjoerg   }
144*06f32e7eSjoerg };
145*06f32e7eSjoerg 
getZeroCostOpName(unsigned short Op)146*06f32e7eSjoerg static const char *getZeroCostOpName(unsigned short Op) {
147*06f32e7eSjoerg   if (ShufTab[Op].Arg0 == 0x0123)
148*06f32e7eSjoerg     return "LHS";
149*06f32e7eSjoerg   else if (ShufTab[Op].Arg0 == 0x4567)
150*06f32e7eSjoerg     return "RHS";
151*06f32e7eSjoerg   else {
152*06f32e7eSjoerg     assert(0 && "bad zero cost operation");
153*06f32e7eSjoerg     abort();
154*06f32e7eSjoerg   }
155*06f32e7eSjoerg }
156*06f32e7eSjoerg 
PrintOperation(unsigned ValNo,unsigned short Vals[])157*06f32e7eSjoerg static void PrintOperation(unsigned ValNo, unsigned short Vals[]) {
158*06f32e7eSjoerg   unsigned short ThisOp = Vals[ValNo];
159*06f32e7eSjoerg   std::cerr << "t" << ValNo;
160*06f32e7eSjoerg   PrintMask(ThisOp, std::cerr);
161*06f32e7eSjoerg   std::cerr << " = " << ShufTab[ThisOp].Op->getName() << "(";
162*06f32e7eSjoerg 
163*06f32e7eSjoerg   if (ShufTab[ShufTab[ThisOp].Arg0].Cost == 0) {
164*06f32e7eSjoerg     std::cerr << getZeroCostOpName(ShufTab[ThisOp].Arg0);
165*06f32e7eSjoerg     PrintMask(ShufTab[ThisOp].Arg0, std::cerr);
166*06f32e7eSjoerg   } else {
167*06f32e7eSjoerg     // Figure out what tmp # it is.
168*06f32e7eSjoerg     for (unsigned i = 0; ; ++i)
169*06f32e7eSjoerg       if (Vals[i] == ShufTab[ThisOp].Arg0) {
170*06f32e7eSjoerg         std::cerr << "t" << i;
171*06f32e7eSjoerg         break;
172*06f32e7eSjoerg       }
173*06f32e7eSjoerg   }
174*06f32e7eSjoerg 
175*06f32e7eSjoerg   if (!ShufTab[Vals[ValNo]].Op->isOnlyLHSOperator()) {
176*06f32e7eSjoerg     std::cerr << ", ";
177*06f32e7eSjoerg     if (ShufTab[ShufTab[ThisOp].Arg1].Cost == 0) {
178*06f32e7eSjoerg       std::cerr << getZeroCostOpName(ShufTab[ThisOp].Arg1);
179*06f32e7eSjoerg       PrintMask(ShufTab[ThisOp].Arg1, std::cerr);
180*06f32e7eSjoerg     } else {
181*06f32e7eSjoerg       // Figure out what tmp # it is.
182*06f32e7eSjoerg       for (unsigned i = 0; ; ++i)
183*06f32e7eSjoerg         if (Vals[i] == ShufTab[ThisOp].Arg1) {
184*06f32e7eSjoerg           std::cerr << "t" << i;
185*06f32e7eSjoerg           break;
186*06f32e7eSjoerg         }
187*06f32e7eSjoerg     }
188*06f32e7eSjoerg   }
189*06f32e7eSjoerg   std::cerr << ")  ";
190*06f32e7eSjoerg }
191*06f32e7eSjoerg 
getNumEntered()192*06f32e7eSjoerg static unsigned getNumEntered() {
193*06f32e7eSjoerg   unsigned Count = 0;
194*06f32e7eSjoerg   for (unsigned i = 0; i != 65536; ++i)
195*06f32e7eSjoerg     Count += ShufTab[i].Cost < 100;
196*06f32e7eSjoerg   return Count;
197*06f32e7eSjoerg }
198*06f32e7eSjoerg 
EvaluateOps(unsigned short Elt,unsigned short Vals[],unsigned & NumVals)199*06f32e7eSjoerg static void EvaluateOps(unsigned short Elt, unsigned short Vals[],
200*06f32e7eSjoerg                         unsigned &NumVals) {
201*06f32e7eSjoerg   if (ShufTab[Elt].Cost == 0) return;
202*06f32e7eSjoerg 
203*06f32e7eSjoerg   // If this value has already been evaluated, it is free.  FIXME: match undefs.
204*06f32e7eSjoerg   for (unsigned i = 0, e = NumVals; i != e; ++i)
205*06f32e7eSjoerg     if (Vals[i] == Elt) return;
206*06f32e7eSjoerg 
207*06f32e7eSjoerg   // Otherwise, get the operands of the value, then add it.
208*06f32e7eSjoerg   unsigned Arg0 = ShufTab[Elt].Arg0, Arg1 = ShufTab[Elt].Arg1;
209*06f32e7eSjoerg   if (ShufTab[Arg0].Cost)
210*06f32e7eSjoerg     EvaluateOps(Arg0, Vals, NumVals);
211*06f32e7eSjoerg   if (Arg0 != Arg1 && ShufTab[Arg1].Cost)
212*06f32e7eSjoerg     EvaluateOps(Arg1, Vals, NumVals);
213*06f32e7eSjoerg 
214*06f32e7eSjoerg   Vals[NumVals++] = Elt;
215*06f32e7eSjoerg }
216*06f32e7eSjoerg 
217*06f32e7eSjoerg 
main()218*06f32e7eSjoerg int main() {
219*06f32e7eSjoerg   // Seed the table with accesses to the LHS and RHS.
220*06f32e7eSjoerg   ShufTab[0x0123].Cost = 0;
221*06f32e7eSjoerg   ShufTab[0x0123].Op = nullptr;
222*06f32e7eSjoerg   ShufTab[0x0123].Arg0 = 0x0123;
223*06f32e7eSjoerg   ShufTab[0x4567].Cost = 0;
224*06f32e7eSjoerg   ShufTab[0x4567].Op = nullptr;
225*06f32e7eSjoerg   ShufTab[0x4567].Arg0 = 0x4567;
226*06f32e7eSjoerg 
227*06f32e7eSjoerg   // Seed the first-level of shuffles, shuffles whose inputs are the input to
228*06f32e7eSjoerg   // the vectorshuffle operation.
229*06f32e7eSjoerg   bool MadeChange = true;
230*06f32e7eSjoerg   unsigned OpCount = 0;
231*06f32e7eSjoerg   while (MadeChange) {
232*06f32e7eSjoerg     MadeChange = false;
233*06f32e7eSjoerg     ++OpCount;
234*06f32e7eSjoerg     std::cerr << "Starting iteration #" << OpCount << " with "
235*06f32e7eSjoerg               << getNumEntered() << " entries established.\n";
236*06f32e7eSjoerg 
237*06f32e7eSjoerg     // Scan the table for two reasons: First, compute the maximum cost of any
238*06f32e7eSjoerg     // operation left in the table.  Second, make sure that values with undefs
239*06f32e7eSjoerg     // have the cheapest alternative that they match.
240*06f32e7eSjoerg     unsigned MaxCost = ShufTab[0].Cost;
241*06f32e7eSjoerg     for (unsigned i = 1; i != 0x8889; ++i) {
242*06f32e7eSjoerg       if (!isValidMask(i)) continue;
243*06f32e7eSjoerg       if (ShufTab[i].Cost > MaxCost)
244*06f32e7eSjoerg         MaxCost = ShufTab[i].Cost;
245*06f32e7eSjoerg 
246*06f32e7eSjoerg       // If this value has an undef, make it be computed the cheapest possible
247*06f32e7eSjoerg       // way of any of the things that it matches.
248*06f32e7eSjoerg       if (hasUndefElements(i)) {
249*06f32e7eSjoerg         // This code is a little bit tricky, so here's the idea: consider some
250*06f32e7eSjoerg         // permutation, like 7u4u.  To compute the lowest cost for 7u4u, we
251*06f32e7eSjoerg         // need to take the minimum cost of all of 7[0-8]4[0-8], 81 entries.  If
252*06f32e7eSjoerg         // there are 3 undefs, the number rises to 729 entries we have to scan,
253*06f32e7eSjoerg         // and for the 4 undef case, we have to scan the whole table.
254*06f32e7eSjoerg         //
255*06f32e7eSjoerg         // Instead of doing this huge amount of scanning, we process the table
256*06f32e7eSjoerg         // entries *in order*, and use the fact that 'u' is 8, larger than any
257*06f32e7eSjoerg         // valid index.  Given an entry like 7u4u then, we only need to scan
258*06f32e7eSjoerg         // 7[0-7]4u - 8 entries.  We can get away with this, because we already
259*06f32e7eSjoerg         // know that each of 704u, 714u, 724u, etc contain the minimum value of
260*06f32e7eSjoerg         // all of the 704[0-8], 714[0-8] and 724[0-8] entries respectively.
261*06f32e7eSjoerg         unsigned UndefIdx;
262*06f32e7eSjoerg         if (i & 0x8000)
263*06f32e7eSjoerg           UndefIdx = 0;
264*06f32e7eSjoerg         else if (i & 0x0800)
265*06f32e7eSjoerg           UndefIdx = 1;
266*06f32e7eSjoerg         else if (i & 0x0080)
267*06f32e7eSjoerg           UndefIdx = 2;
268*06f32e7eSjoerg         else if (i & 0x0008)
269*06f32e7eSjoerg           UndefIdx = 3;
270*06f32e7eSjoerg         else
271*06f32e7eSjoerg           abort();
272*06f32e7eSjoerg 
273*06f32e7eSjoerg         unsigned MinVal  = i;
274*06f32e7eSjoerg         unsigned MinCost = ShufTab[i].Cost;
275*06f32e7eSjoerg 
276*06f32e7eSjoerg         // Scan the 8 entries.
277*06f32e7eSjoerg         for (unsigned j = 0; j != 8; ++j) {
278*06f32e7eSjoerg           unsigned NewElt = setMaskElt(i, UndefIdx, j);
279*06f32e7eSjoerg           if (ShufTab[NewElt].Cost < MinCost) {
280*06f32e7eSjoerg             MinCost = ShufTab[NewElt].Cost;
281*06f32e7eSjoerg             MinVal = NewElt;
282*06f32e7eSjoerg           }
283*06f32e7eSjoerg         }
284*06f32e7eSjoerg 
285*06f32e7eSjoerg         // If we found something cheaper than what was here before, use it.
286*06f32e7eSjoerg         if (i != MinVal) {
287*06f32e7eSjoerg           MadeChange = true;
288*06f32e7eSjoerg           ShufTab[i] = ShufTab[MinVal];
289*06f32e7eSjoerg         }
290*06f32e7eSjoerg       }
291*06f32e7eSjoerg     }
292*06f32e7eSjoerg 
293*06f32e7eSjoerg     for (unsigned LHS = 0; LHS != 0x8889; ++LHS) {
294*06f32e7eSjoerg       if (!isValidMask(LHS)) continue;
295*06f32e7eSjoerg       if (ShufTab[LHS].Cost > 1000) continue;
296*06f32e7eSjoerg 
297*06f32e7eSjoerg       // If nothing involving this operand could possibly be cheaper than what
298*06f32e7eSjoerg       // we already have, don't consider it.
299*06f32e7eSjoerg       if (ShufTab[LHS].Cost + 1 >= MaxCost)
300*06f32e7eSjoerg         continue;
301*06f32e7eSjoerg 
302*06f32e7eSjoerg       for (unsigned opnum = 0, e = TheOperators.size(); opnum != e; ++opnum) {
303*06f32e7eSjoerg         Operator *Op = TheOperators[opnum];
304*06f32e7eSjoerg 
305*06f32e7eSjoerg         // Evaluate op(LHS,LHS)
306*06f32e7eSjoerg         unsigned ResultMask = Op->getTransformedMask(LHS, LHS);
307*06f32e7eSjoerg 
308*06f32e7eSjoerg         unsigned Cost = ShufTab[LHS].Cost + Op->getCost();
309*06f32e7eSjoerg         if (Cost < ShufTab[ResultMask].Cost) {
310*06f32e7eSjoerg           ShufTab[ResultMask].Cost = Cost;
311*06f32e7eSjoerg           ShufTab[ResultMask].Op = Op;
312*06f32e7eSjoerg           ShufTab[ResultMask].Arg0 = LHS;
313*06f32e7eSjoerg           ShufTab[ResultMask].Arg1 = LHS;
314*06f32e7eSjoerg           MadeChange = true;
315*06f32e7eSjoerg         }
316*06f32e7eSjoerg 
317*06f32e7eSjoerg         // If this is a two input instruction, include the op(x,y) cases.  If
318*06f32e7eSjoerg         // this is a one input instruction, skip this.
319*06f32e7eSjoerg         if (Op->isOnlyLHSOperator()) continue;
320*06f32e7eSjoerg 
321*06f32e7eSjoerg         for (unsigned RHS = 0; RHS != 0x8889; ++RHS) {
322*06f32e7eSjoerg           if (!isValidMask(RHS)) continue;
323*06f32e7eSjoerg           if (ShufTab[RHS].Cost > 1000) continue;
324*06f32e7eSjoerg 
325*06f32e7eSjoerg           // If nothing involving this operand could possibly be cheaper than
326*06f32e7eSjoerg           // what we already have, don't consider it.
327*06f32e7eSjoerg           if (ShufTab[RHS].Cost + 1 >= MaxCost)
328*06f32e7eSjoerg             continue;
329*06f32e7eSjoerg 
330*06f32e7eSjoerg 
331*06f32e7eSjoerg           // Evaluate op(LHS,RHS)
332*06f32e7eSjoerg           unsigned ResultMask = Op->getTransformedMask(LHS, RHS);
333*06f32e7eSjoerg 
334*06f32e7eSjoerg           if (ShufTab[ResultMask].Cost <= OpCount ||
335*06f32e7eSjoerg               ShufTab[ResultMask].Cost <= ShufTab[LHS].Cost ||
336*06f32e7eSjoerg               ShufTab[ResultMask].Cost <= ShufTab[RHS].Cost)
337*06f32e7eSjoerg             continue;
338*06f32e7eSjoerg 
339*06f32e7eSjoerg           // Figure out the cost to evaluate this, knowing that CSE's only need
340*06f32e7eSjoerg           // to be evaluated once.
341*06f32e7eSjoerg           unsigned short Vals[30];
342*06f32e7eSjoerg           unsigned NumVals = 0;
343*06f32e7eSjoerg           EvaluateOps(LHS, Vals, NumVals);
344*06f32e7eSjoerg           EvaluateOps(RHS, Vals, NumVals);
345*06f32e7eSjoerg 
346*06f32e7eSjoerg           unsigned Cost = NumVals + Op->getCost();
347*06f32e7eSjoerg           if (Cost < ShufTab[ResultMask].Cost) {
348*06f32e7eSjoerg             ShufTab[ResultMask].Cost = Cost;
349*06f32e7eSjoerg             ShufTab[ResultMask].Op = Op;
350*06f32e7eSjoerg             ShufTab[ResultMask].Arg0 = LHS;
351*06f32e7eSjoerg             ShufTab[ResultMask].Arg1 = RHS;
352*06f32e7eSjoerg             MadeChange = true;
353*06f32e7eSjoerg           }
354*06f32e7eSjoerg         }
355*06f32e7eSjoerg       }
356*06f32e7eSjoerg     }
357*06f32e7eSjoerg   }
358*06f32e7eSjoerg 
359*06f32e7eSjoerg   std::cerr << "Finished Table has " << getNumEntered()
360*06f32e7eSjoerg             << " entries established.\n";
361*06f32e7eSjoerg 
362*06f32e7eSjoerg   unsigned CostArray[10] = { 0 };
363*06f32e7eSjoerg 
364*06f32e7eSjoerg   // Compute a cost histogram.
365*06f32e7eSjoerg   for (unsigned i = 0; i != 65536; ++i) {
366*06f32e7eSjoerg     if (!isValidMask(i)) continue;
367*06f32e7eSjoerg     if (ShufTab[i].Cost > 9)
368*06f32e7eSjoerg       ++CostArray[9];
369*06f32e7eSjoerg     else
370*06f32e7eSjoerg       ++CostArray[ShufTab[i].Cost];
371*06f32e7eSjoerg   }
372*06f32e7eSjoerg 
373*06f32e7eSjoerg   for (unsigned i = 0; i != 9; ++i)
374*06f32e7eSjoerg     if (CostArray[i])
375*06f32e7eSjoerg       std::cout << "// " << CostArray[i] << " entries have cost " << i << "\n";
376*06f32e7eSjoerg   if (CostArray[9])
377*06f32e7eSjoerg     std::cout << "// " << CostArray[9] << " entries have higher cost!\n";
378*06f32e7eSjoerg 
379*06f32e7eSjoerg 
380*06f32e7eSjoerg   // Build up the table to emit.
381*06f32e7eSjoerg   std::cout << "\n// This table is 6561*4 = 26244 bytes in size.\n";
382*06f32e7eSjoerg   std::cout << "static const unsigned PerfectShuffleTable[6561+1] = {\n";
383*06f32e7eSjoerg 
384*06f32e7eSjoerg   for (unsigned i = 0; i != 0x8889; ++i) {
385*06f32e7eSjoerg     if (!isValidMask(i)) continue;
386*06f32e7eSjoerg 
387*06f32e7eSjoerg     // CostSat - The cost of this operation saturated to two bits.
388*06f32e7eSjoerg     unsigned CostSat = ShufTab[i].Cost;
389*06f32e7eSjoerg     if (CostSat > 4) CostSat = 4;
390*06f32e7eSjoerg     if (CostSat == 0) CostSat = 1;
391*06f32e7eSjoerg     --CostSat;  // Cost is now between 0-3.
392*06f32e7eSjoerg 
393*06f32e7eSjoerg     unsigned OpNum = ShufTab[i].Op ? ShufTab[i].Op->OpNum : 0;
394*06f32e7eSjoerg     assert(OpNum < 16 && "Too few bits to encode operation!");
395*06f32e7eSjoerg 
396*06f32e7eSjoerg     unsigned LHS = getCompressedMask(ShufTab[i].Arg0);
397*06f32e7eSjoerg     unsigned RHS = getCompressedMask(ShufTab[i].Arg1);
398*06f32e7eSjoerg 
399*06f32e7eSjoerg     // Encode this as 2 bits of saturated cost, 4 bits of opcodes, 13 bits of
400*06f32e7eSjoerg     // LHS, and 13 bits of RHS = 32 bits.
401*06f32e7eSjoerg     unsigned Val = (CostSat << 30) | (OpNum << 26) | (LHS << 13) | RHS;
402*06f32e7eSjoerg 
403*06f32e7eSjoerg     std::cout << "  " << std::setw(10) << Val << "U, // ";
404*06f32e7eSjoerg     PrintMask(i, std::cout);
405*06f32e7eSjoerg     std::cout << ": Cost " << ShufTab[i].Cost;
406*06f32e7eSjoerg     std::cout << " " << (ShufTab[i].Op ? ShufTab[i].Op->getName() : "copy");
407*06f32e7eSjoerg     std::cout << " ";
408*06f32e7eSjoerg     if (ShufTab[ShufTab[i].Arg0].Cost == 0) {
409*06f32e7eSjoerg       std::cout << getZeroCostOpName(ShufTab[i].Arg0);
410*06f32e7eSjoerg     } else {
411*06f32e7eSjoerg       PrintMask(ShufTab[i].Arg0, std::cout);
412*06f32e7eSjoerg     }
413*06f32e7eSjoerg 
414*06f32e7eSjoerg     if (ShufTab[i].Op && !ShufTab[i].Op->isOnlyLHSOperator()) {
415*06f32e7eSjoerg       std::cout << ", ";
416*06f32e7eSjoerg       if (ShufTab[ShufTab[i].Arg1].Cost == 0) {
417*06f32e7eSjoerg         std::cout << getZeroCostOpName(ShufTab[i].Arg1);
418*06f32e7eSjoerg       } else {
419*06f32e7eSjoerg         PrintMask(ShufTab[i].Arg1, std::cout);
420*06f32e7eSjoerg       }
421*06f32e7eSjoerg     }
422*06f32e7eSjoerg     std::cout << "\n";
423*06f32e7eSjoerg   }
424*06f32e7eSjoerg   std::cout << "  0\n};\n";
425*06f32e7eSjoerg 
426*06f32e7eSjoerg   if (0) {
427*06f32e7eSjoerg     // Print out the table.
428*06f32e7eSjoerg     for (unsigned i = 0; i != 0x8889; ++i) {
429*06f32e7eSjoerg       if (!isValidMask(i)) continue;
430*06f32e7eSjoerg       if (ShufTab[i].Cost < 1000) {
431*06f32e7eSjoerg         PrintMask(i, std::cerr);
432*06f32e7eSjoerg         std::cerr << " - Cost " << ShufTab[i].Cost << " - ";
433*06f32e7eSjoerg 
434*06f32e7eSjoerg         unsigned short Vals[30];
435*06f32e7eSjoerg         unsigned NumVals = 0;
436*06f32e7eSjoerg         EvaluateOps(i, Vals, NumVals);
437*06f32e7eSjoerg 
438*06f32e7eSjoerg         for (unsigned j = 0, e = NumVals; j != e; ++j)
439*06f32e7eSjoerg           PrintOperation(j, Vals);
440*06f32e7eSjoerg         std::cerr << "\n";
441*06f32e7eSjoerg       }
442*06f32e7eSjoerg     }
443*06f32e7eSjoerg   }
444*06f32e7eSjoerg }
445*06f32e7eSjoerg 
446*06f32e7eSjoerg 
447*06f32e7eSjoerg #ifdef GENERATE_ALTIVEC
448*06f32e7eSjoerg 
449*06f32e7eSjoerg ///===---------------------------------------------------------------------===//
450*06f32e7eSjoerg /// The altivec instruction definitions.  This is the altivec-specific part of
451*06f32e7eSjoerg /// this file.
452*06f32e7eSjoerg ///===---------------------------------------------------------------------===//
453*06f32e7eSjoerg 
454*06f32e7eSjoerg // Note that the opcode numbers here must match those in the PPC backend.
455*06f32e7eSjoerg enum {
456*06f32e7eSjoerg   OP_COPY = 0,   // Copy, used for things like <u,u,u,3> to say it is <0,1,2,3>
457*06f32e7eSjoerg   OP_VMRGHW,
458*06f32e7eSjoerg   OP_VMRGLW,
459*06f32e7eSjoerg   OP_VSPLTISW0,
460*06f32e7eSjoerg   OP_VSPLTISW1,
461*06f32e7eSjoerg   OP_VSPLTISW2,
462*06f32e7eSjoerg   OP_VSPLTISW3,
463*06f32e7eSjoerg   OP_VSLDOI4,
464*06f32e7eSjoerg   OP_VSLDOI8,
465*06f32e7eSjoerg   OP_VSLDOI12
466*06f32e7eSjoerg };
467*06f32e7eSjoerg 
468*06f32e7eSjoerg struct vmrghw : public Operator {
vmrghwvmrghw469*06f32e7eSjoerg   vmrghw() : Operator(0x0415, "vmrghw", OP_VMRGHW) {}
470*06f32e7eSjoerg } the_vmrghw;
471*06f32e7eSjoerg 
472*06f32e7eSjoerg struct vmrglw : public Operator {
vmrglwvmrglw473*06f32e7eSjoerg   vmrglw() : Operator(0x2637, "vmrglw", OP_VMRGLW) {}
474*06f32e7eSjoerg } the_vmrglw;
475*06f32e7eSjoerg 
476*06f32e7eSjoerg template<unsigned Elt>
477*06f32e7eSjoerg struct vspltisw : public Operator {
vspltiswvspltisw478*06f32e7eSjoerg   vspltisw(const char *N, unsigned Opc)
479*06f32e7eSjoerg     : Operator(MakeMask(Elt, Elt, Elt, Elt), N, Opc) {}
480*06f32e7eSjoerg };
481*06f32e7eSjoerg 
482*06f32e7eSjoerg vspltisw<0> the_vspltisw0("vspltisw0", OP_VSPLTISW0);
483*06f32e7eSjoerg vspltisw<1> the_vspltisw1("vspltisw1", OP_VSPLTISW1);
484*06f32e7eSjoerg vspltisw<2> the_vspltisw2("vspltisw2", OP_VSPLTISW2);
485*06f32e7eSjoerg vspltisw<3> the_vspltisw3("vspltisw3", OP_VSPLTISW3);
486*06f32e7eSjoerg 
487*06f32e7eSjoerg template<unsigned N>
488*06f32e7eSjoerg struct vsldoi : public Operator {
vsldoivsldoi489*06f32e7eSjoerg   vsldoi(const char *Name, unsigned Opc)
490*06f32e7eSjoerg     : Operator(MakeMask(N&7, (N+1)&7, (N+2)&7, (N+3)&7), Name, Opc) {
491*06f32e7eSjoerg   }
492*06f32e7eSjoerg };
493*06f32e7eSjoerg 
494*06f32e7eSjoerg vsldoi<1> the_vsldoi1("vsldoi4" , OP_VSLDOI4);
495*06f32e7eSjoerg vsldoi<2> the_vsldoi2("vsldoi8" , OP_VSLDOI8);
496*06f32e7eSjoerg vsldoi<3> the_vsldoi3("vsldoi12", OP_VSLDOI12);
497*06f32e7eSjoerg 
498*06f32e7eSjoerg #endif
499*06f32e7eSjoerg 
500*06f32e7eSjoerg #define GENERATE_NEON
501*06f32e7eSjoerg 
502*06f32e7eSjoerg #ifdef GENERATE_NEON
503*06f32e7eSjoerg enum {
504*06f32e7eSjoerg   OP_COPY = 0,   // Copy, used for things like <u,u,u,3> to say it is <0,1,2,3>
505*06f32e7eSjoerg   OP_VREV,
506*06f32e7eSjoerg   OP_VDUP0,
507*06f32e7eSjoerg   OP_VDUP1,
508*06f32e7eSjoerg   OP_VDUP2,
509*06f32e7eSjoerg   OP_VDUP3,
510*06f32e7eSjoerg   OP_VEXT1,
511*06f32e7eSjoerg   OP_VEXT2,
512*06f32e7eSjoerg   OP_VEXT3,
513*06f32e7eSjoerg   OP_VUZPL, // VUZP, left result
514*06f32e7eSjoerg   OP_VUZPR, // VUZP, right result
515*06f32e7eSjoerg   OP_VZIPL, // VZIP, left result
516*06f32e7eSjoerg   OP_VZIPR, // VZIP, right result
517*06f32e7eSjoerg   OP_VTRNL, // VTRN, left result
518*06f32e7eSjoerg   OP_VTRNR  // VTRN, right result
519*06f32e7eSjoerg };
520*06f32e7eSjoerg 
521*06f32e7eSjoerg struct vrev : public Operator {
vrevvrev522*06f32e7eSjoerg   vrev() : Operator(0x1032, "vrev", OP_VREV) {}
523*06f32e7eSjoerg } the_vrev;
524*06f32e7eSjoerg 
525*06f32e7eSjoerg template<unsigned Elt>
526*06f32e7eSjoerg struct vdup : public Operator {
vdupvdup527*06f32e7eSjoerg   vdup(const char *N, unsigned Opc)
528*06f32e7eSjoerg     : Operator(MakeMask(Elt, Elt, Elt, Elt), N, Opc) {}
529*06f32e7eSjoerg };
530*06f32e7eSjoerg 
531*06f32e7eSjoerg vdup<0> the_vdup0("vdup0", OP_VDUP0);
532*06f32e7eSjoerg vdup<1> the_vdup1("vdup1", OP_VDUP1);
533*06f32e7eSjoerg vdup<2> the_vdup2("vdup2", OP_VDUP2);
534*06f32e7eSjoerg vdup<3> the_vdup3("vdup3", OP_VDUP3);
535*06f32e7eSjoerg 
536*06f32e7eSjoerg template<unsigned N>
537*06f32e7eSjoerg struct vext : public Operator {
vextvext538*06f32e7eSjoerg   vext(const char *Name, unsigned Opc)
539*06f32e7eSjoerg     : Operator(MakeMask(N&7, (N+1)&7, (N+2)&7, (N+3)&7), Name, Opc) {
540*06f32e7eSjoerg   }
541*06f32e7eSjoerg };
542*06f32e7eSjoerg 
543*06f32e7eSjoerg vext<1> the_vext1("vext1", OP_VEXT1);
544*06f32e7eSjoerg vext<2> the_vext2("vext2", OP_VEXT2);
545*06f32e7eSjoerg vext<3> the_vext3("vext3", OP_VEXT3);
546*06f32e7eSjoerg 
547*06f32e7eSjoerg struct vuzpl : public Operator {
vuzplvuzpl548*06f32e7eSjoerg   vuzpl() : Operator(0x0246, "vuzpl", OP_VUZPL, 2) {}
549*06f32e7eSjoerg } the_vuzpl;
550*06f32e7eSjoerg 
551*06f32e7eSjoerg struct vuzpr : public Operator {
vuzprvuzpr552*06f32e7eSjoerg   vuzpr() : Operator(0x1357, "vuzpr", OP_VUZPR, 2) {}
553*06f32e7eSjoerg } the_vuzpr;
554*06f32e7eSjoerg 
555*06f32e7eSjoerg struct vzipl : public Operator {
vziplvzipl556*06f32e7eSjoerg   vzipl() : Operator(0x0415, "vzipl", OP_VZIPL, 2) {}
557*06f32e7eSjoerg } the_vzipl;
558*06f32e7eSjoerg 
559*06f32e7eSjoerg struct vzipr : public Operator {
vziprvzipr560*06f32e7eSjoerg   vzipr() : Operator(0x2637, "vzipr", OP_VZIPR, 2) {}
561*06f32e7eSjoerg } the_vzipr;
562*06f32e7eSjoerg 
563*06f32e7eSjoerg struct vtrnl : public Operator {
vtrnlvtrnl564*06f32e7eSjoerg   vtrnl() : Operator(0x0426, "vtrnl", OP_VTRNL, 2) {}
565*06f32e7eSjoerg } the_vtrnl;
566*06f32e7eSjoerg 
567*06f32e7eSjoerg struct vtrnr : public Operator {
vtrnrvtrnr568*06f32e7eSjoerg   vtrnr() : Operator(0x1537, "vtrnr", OP_VTRNR, 2) {}
569*06f32e7eSjoerg } the_vtrnr;
570*06f32e7eSjoerg 
571*06f32e7eSjoerg #endif
572