x86/crypto/sha256-avx-asm.S

ec2b4c85STim Chen########################################################################
ec2b4c85STim Chen# Implement fast SHA-256 with AVX1 instructions. (x86_64)
ec2b4c85STim Chen#
ec2b4c85STim Chen# Copyright (C) 2013 Intel Corporation.
ec2b4c85STim Chen#
ec2b4c85STim Chen# Authors:
ec2b4c85STim Chen#     James Guilford <james.guilford@intel.com>
ec2b4c85STim Chen#     Kirk Yap <kirk.s.yap@intel.com>
ec2b4c85STim Chen#     Tim Chen <tim.c.chen@linux.intel.com>
ec2b4c85STim Chen#
ec2b4c85STim Chen# This software is available to you under a choice of one of two
ec2b4c85STim Chen# licenses.  You may choose to be licensed under the terms of the GNU
ec2b4c85STim Chen# General Public License (GPL) Version 2, available from the file
ec2b4c85STim Chen# COPYING in the main directory of this source tree, or the
ec2b4c85STim Chen# OpenIB.org BSD license below:
ec2b4c85STim Chen#
ec2b4c85STim Chen#     Redistribution and use in source and binary forms, with or
ec2b4c85STim Chen#     without modification, are permitted provided that the following
ec2b4c85STim Chen#     conditions are met:
ec2b4c85STim Chen#
ec2b4c85STim Chen#      - Redistributions of source code must retain the above
ec2b4c85STim Chen#        copyright notice, this list of conditions and the following
ec2b4c85STim Chen#        disclaimer.
ec2b4c85STim Chen#
ec2b4c85STim Chen#      - Redistributions in binary form must reproduce the above
ec2b4c85STim Chen#        copyright notice, this list of conditions and the following
ec2b4c85STim Chen#        disclaimer in the documentation and/or other materials
ec2b4c85STim Chen#        provided with the distribution.
ec2b4c85STim Chen#
ec2b4c85STim Chen# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
ec2b4c85STim Chen# EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
ec2b4c85STim Chen# MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
ec2b4c85STim Chen# NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS
ec2b4c85STim Chen# BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN
ec2b4c85STim Chen# ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN
ec2b4c85STim Chen# CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
ec2b4c85STim Chen# SOFTWARE.
ec2b4c85STim Chen########################################################################
ec2b4c85STim Chen#
ec2b4c85STim Chen# This code is described in an Intel White-Paper:
ec2b4c85STim Chen# "Fast SHA-256 Implementations on Intel Architecture Processors"
ec2b4c85STim Chen#
ec2b4c85STim Chen# To find it, surf to http://www.intel.com/p/en_US/embedded
ec2b4c85STim Chen# and search for that title.
ec2b4c85STim Chen#
ec2b4c85STim Chen########################################################################
ec2b4c85STim Chen# This code schedules 1 block at a time, with 4 lanes per block
ec2b4c85STim Chen########################################################################
ec2b4c85STim Chen
ec2b4c85STim Chen#include <linux/linkage.h>
19940ebbSEric Biggers#include <linux/cfi_types.h>
ec2b4c85STim Chen
ec2b4c85STim Chen## assume buffers not aligned
ec2b4c85STim Chen#define    VMOVDQ vmovdqu
ec2b4c85STim Chen
ec2b4c85STim Chen################################ Define Macros
ec2b4c85STim Chen
ec2b4c85STim Chen# addm [mem], reg
ec2b4c85STim Chen# Add reg to mem using reg-mem add and store
ec2b4c85STim Chen.macro addm p1 p2
ec2b4c85STim Chen	add     \p1, \p2
ec2b4c85STim Chen	mov     \p2, \p1
ec2b4c85STim Chen.endm
ec2b4c85STim Chen
ec2b4c85STim Chen
ec2b4c85STim Chen.macro MY_ROR p1 p2
ec2b4c85STim Chen	shld    $(32-(\p1)), \p2, \p2
ec2b4c85STim Chen.endm
ec2b4c85STim Chen
ec2b4c85STim Chen################################
ec2b4c85STim Chen
ec2b4c85STim Chen# COPY_XMM_AND_BSWAP xmm, [mem], byte_flip_mask
ec2b4c85STim Chen# Load xmm with mem and byte swap each dword
ec2b4c85STim Chen.macro COPY_XMM_AND_BSWAP p1 p2 p3
ec2b4c85STim Chen	VMOVDQ \p2, \p1
ec2b4c85STim Chen	vpshufb \p3, \p1, \p1
ec2b4c85STim Chen.endm
ec2b4c85STim Chen
ec2b4c85STim Chen################################
ec2b4c85STim Chen
ec2b4c85STim ChenX0 = %xmm4
ec2b4c85STim ChenX1 = %xmm5
ec2b4c85STim ChenX2 = %xmm6
ec2b4c85STim ChenX3 = %xmm7
ec2b4c85STim Chen
ec2b4c85STim ChenXTMP0 = %xmm0
ec2b4c85STim ChenXTMP1 = %xmm1
ec2b4c85STim ChenXTMP2 = %xmm2
ec2b4c85STim ChenXTMP3 = %xmm3
ec2b4c85STim ChenXTMP4 = %xmm8
ec2b4c85STim ChenXFER = %xmm9
ec2b4c85STim ChenXTMP5 = %xmm11
ec2b4c85STim Chen
ec2b4c85STim ChenSHUF_00BA = %xmm10      # shuffle xBxA -> 00BA
ec2b4c85STim ChenSHUF_DC00 = %xmm12      # shuffle xDxC -> DC00
ec2b4c85STim ChenBYTE_FLIP_MASK = %xmm13
ec2b4c85STim Chen
ec2b4c85STim ChenNUM_BLKS = %rdx   # 3rd arg
1631030aSArd BiesheuvelINP = %rsi        # 2nd arg
1631030aSArd BiesheuvelCTX = %rdi        # 1st arg
ec2b4c85STim Chen
1631030aSArd BiesheuvelSRND = %rsi       # clobbers INP
ec2b4c85STim Chenc = %ecx
ec2b4c85STim Chend = %r8d
ec2b4c85STim Chene = %edx
673ac6fbSJosh PoimboeufTBL = %r12
ec2b4c85STim Chena = %eax
ec2b4c85STim Chenb = %ebx
ec2b4c85STim Chen
ec2b4c85STim Chenf = %r9d
ec2b4c85STim Cheng = %r10d
ec2b4c85STim Chenh = %r11d
ec2b4c85STim Chen
ec2b4c85STim Cheny0 = %r13d
ec2b4c85STim Cheny1 = %r14d
ec2b4c85STim Cheny2 = %r15d
ec2b4c85STim Chen
ec2b4c85STim Chen
ec2b4c85STim Chen_INP_END_SIZE = 8
ec2b4c85STim Chen_INP_SIZE = 8
de614e56SJussi Kivilinna_XFER_SIZE = 16
ec2b4c85STim Chen_XMM_SAVE_SIZE = 0
ec2b4c85STim Chen
ec2b4c85STim Chen_INP_END = 0
ec2b4c85STim Chen_INP            = _INP_END  + _INP_END_SIZE
ec2b4c85STim Chen_XFER           = _INP      + _INP_SIZE
ec2b4c85STim Chen_XMM_SAVE       = _XFER     + _XFER_SIZE
ec2b4c85STim ChenSTACK_SIZE      = _XMM_SAVE + _XMM_SAVE_SIZE
ec2b4c85STim Chen
ec2b4c85STim Chen# rotate_Xs
ec2b4c85STim Chen# Rotate values of symbols X0...X3
ec2b4c85STim Chen.macro rotate_Xs
ec2b4c85STim ChenX_ = X0
ec2b4c85STim ChenX0 = X1
ec2b4c85STim ChenX1 = X2
ec2b4c85STim ChenX2 = X3
ec2b4c85STim ChenX3 = X_
ec2b4c85STim Chen.endm
ec2b4c85STim Chen
ec2b4c85STim Chen# ROTATE_ARGS
ec2b4c85STim Chen# Rotate values of symbols a...h
ec2b4c85STim Chen.macro ROTATE_ARGS
ec2b4c85STim ChenTMP_ = h
ec2b4c85STim Chenh = g
ec2b4c85STim Cheng = f
ec2b4c85STim Chenf = e
ec2b4c85STim Chene = d
ec2b4c85STim Chend = c
ec2b4c85STim Chenc = b
ec2b4c85STim Chenb = a
ec2b4c85STim Chena = TMP_
ec2b4c85STim Chen.endm
ec2b4c85STim Chen
ec2b4c85STim Chen.macro FOUR_ROUNDS_AND_SCHED
ec2b4c85STim Chen	## compute s0 four at a time and s1 two at a time
ec2b4c85STim Chen	## compute W[-16] + W[-7] 4 at a time
ec2b4c85STim Chen
ec2b4c85STim Chen	mov     e, y0			# y0 = e
ec2b4c85STim Chen	MY_ROR  (25-11), y0             # y0 = e >> (25-11)
ec2b4c85STim Chen	mov     a, y1                   # y1 = a
ec2b4c85STim Chen	vpalignr $4, X2, X3, XTMP0      # XTMP0 = W[-7]
ec2b4c85STim Chen	MY_ROR  (22-13), y1             # y1 = a >> (22-13)
ec2b4c85STim Chen	xor     e, y0                   # y0 = e ^ (e >> (25-11))
ec2b4c85STim Chen	mov     f, y2                   # y2 = f
ec2b4c85STim Chen	MY_ROR  (11-6), y0              # y0 = (e >> (11-6)) ^ (e >> (25-6))
ec2b4c85STim Chen	xor     a, y1                   # y1 = a ^ (a >> (22-13)
ec2b4c85STim Chen	xor     g, y2                   # y2 = f^g
ec2b4c85STim Chen	vpaddd  X0, XTMP0, XTMP0        # XTMP0 = W[-7] + W[-16]
ec2b4c85STim Chen	xor     e, y0                   # y0 = e ^ (e >> (11-6)) ^ (e >> (25-6))
ec2b4c85STim Chen	and     e, y2                   # y2 = (f^g)&e
ec2b4c85STim Chen	MY_ROR  (13-2), y1              # y1 = (a >> (13-2)) ^ (a >> (22-2))
ec2b4c85STim Chen	## compute s0
ec2b4c85STim Chen	vpalignr $4, X0, X1, XTMP1      # XTMP1 = W[-15]
ec2b4c85STim Chen	xor     a, y1                   # y1 = a ^ (a >> (13-2)) ^ (a >> (22-2))
ec2b4c85STim Chen	MY_ROR  6, y0                   # y0 = S1 = (e>>6) & (e>>11) ^ (e>>25)
ec2b4c85STim Chen	xor     g, y2                   # y2 = CH = ((f^g)&e)^g
ec2b4c85STim Chen	MY_ROR  2, y1                   # y1 = S0 = (a>>2) ^ (a>>13) ^ (a>>22)
ec2b4c85STim Chen	add     y0, y2                  # y2 = S1 + CH
ec2b4c85STim Chen	add     _XFER(%rsp), y2         # y2 = k + w + S1 + CH
ec2b4c85STim Chen	mov     a, y0                   # y0 = a
ec2b4c85STim Chen	add     y2, h                   # h = h + S1 + CH + k + w
ec2b4c85STim Chen	mov     a, y2                   # y2 = a
ec2b4c85STim Chen	vpsrld  $7, XTMP1, XTMP2
ec2b4c85STim Chen	or      c, y0                   # y0 = a|c
ec2b4c85STim Chen	add     h, d                    # d = d + h + S1 + CH + k + w
ec2b4c85STim Chen	and     c, y2                   # y2 = a&c
ec2b4c85STim Chen	vpslld  $(32-7), XTMP1, XTMP3
ec2b4c85STim Chen	and     b, y0                   # y0 = (a|c)&b
ec2b4c85STim Chen	add     y1, h                   # h = h + S1 + CH + k + w + S0
ec2b4c85STim Chen	vpor    XTMP2, XTMP3, XTMP3     # XTMP1 = W[-15] MY_ROR 7
ec2b4c85STim Chen	or      y2, y0                  # y0 = MAJ = (a|c)&b)|(a&c)
ec2b4c85STim Chen	add     y0, h                   # h = h + S1 + CH + k + w + S0 + MAJ
ec2b4c85STim Chen	ROTATE_ARGS
ec2b4c85STim Chen	mov     e, y0                   # y0 = e
ec2b4c85STim Chen	mov     a, y1                   # y1 = a
ec2b4c85STim Chen	MY_ROR  (25-11), y0             # y0 = e >> (25-11)
ec2b4c85STim Chen	xor     e, y0                   # y0 = e ^ (e >> (25-11))
ec2b4c85STim Chen	mov     f, y2                   # y2 = f
ec2b4c85STim Chen	MY_ROR  (22-13), y1             # y1 = a >> (22-13)
ec2b4c85STim Chen	vpsrld  $18, XTMP1, XTMP2       #
ec2b4c85STim Chen	xor     a, y1                   # y1 = a ^ (a >> (22-13)
ec2b4c85STim Chen	MY_ROR  (11-6), y0              # y0 = (e >> (11-6)) ^ (e >> (25-6))
ec2b4c85STim Chen	xor     g, y2                   # y2 = f^g
ec2b4c85STim Chen	vpsrld  $3, XTMP1, XTMP4        # XTMP4 = W[-15] >> 3
ec2b4c85STim Chen	MY_ROR  (13-2), y1              # y1 = (a >> (13-2)) ^ (a >> (22-2))
ec2b4c85STim Chen	xor     e, y0                   # y0 = e ^ (e >> (11-6)) ^ (e >> (25-6))
ec2b4c85STim Chen	and     e, y2                   # y2 = (f^g)&e
ec2b4c85STim Chen	MY_ROR  6, y0                   # y0 = S1 = (e>>6) & (e>>11) ^ (e>>25)
ec2b4c85STim Chen	vpslld  $(32-18), XTMP1, XTMP1
ec2b4c85STim Chen	xor     a, y1                   # y1 = a ^ (a >> (13-2)) ^ (a >> (22-2))
ec2b4c85STim Chen	xor     g, y2                   # y2 = CH = ((f^g)&e)^g
ec2b4c85STim Chen	vpxor   XTMP1, XTMP3, XTMP3     #
ec2b4c85STim Chen	add     y0, y2                  # y2 = S1 + CH
ec2b4c85STim Chen	add     (1*4 + _XFER)(%rsp), y2 # y2 = k + w + S1 + CH
ec2b4c85STim Chen	MY_ROR  2, y1                   # y1 = S0 = (a>>2) ^ (a>>13) ^ (a>>22)
ec2b4c85STim Chen	vpxor   XTMP2, XTMP3, XTMP3     # XTMP1 = W[-15] MY_ROR 7 ^ W[-15] MY_ROR
ec2b4c85STim Chen	mov     a, y0                   # y0 = a
ec2b4c85STim Chen	add     y2, h                   # h = h + S1 + CH + k + w
ec2b4c85STim Chen	mov     a, y2                   # y2 = a
ec2b4c85STim Chen	vpxor   XTMP4, XTMP3, XTMP1     # XTMP1 = s0
ec2b4c85STim Chen	or      c, y0                   # y0 = a|c
ec2b4c85STim Chen	add     h, d                    # d = d + h + S1 + CH + k + w
ec2b4c85STim Chen	and     c, y2                   # y2 = a&c
ec2b4c85STim Chen	## compute low s1
ec2b4c85STim Chen	vpshufd $0b11111010, X3, XTMP2  # XTMP2 = W[-2] {BBAA}
ec2b4c85STim Chen	and     b, y0                   # y0 = (a|c)&b
ec2b4c85STim Chen	add     y1, h                   # h = h + S1 + CH + k + w + S0
ec2b4c85STim Chen	vpaddd  XTMP1, XTMP0, XTMP0     # XTMP0 = W[-16] + W[-7] + s0
ec2b4c85STim Chen	or      y2, y0                  # y0 = MAJ = (a|c)&b)|(a&c)
ec2b4c85STim Chen	add     y0, h                   # h = h + S1 + CH + k + w + S0 + MAJ
ec2b4c85STim Chen	ROTATE_ARGS
ec2b4c85STim Chen	mov     e, y0                   # y0 = e
ec2b4c85STim Chen	mov     a, y1                   # y1 = a
ec2b4c85STim Chen	MY_ROR  (25-11), y0             # y0 = e >> (25-11)
ec2b4c85STim Chen	xor     e, y0                   # y0 = e ^ (e >> (25-11))
ec2b4c85STim Chen	MY_ROR  (22-13), y1             # y1 = a >> (22-13)
ec2b4c85STim Chen	mov     f, y2                   # y2 = f
ec2b4c85STim Chen	xor     a, y1                   # y1 = a ^ (a >> (22-13)
ec2b4c85STim Chen	MY_ROR  (11-6), y0              # y0 = (e >> (11-6)) ^ (e >> (25-6))
ec2b4c85STim Chen	vpsrld  $10, XTMP2, XTMP4       # XTMP4 = W[-2] >> 10 {BBAA}
ec2b4c85STim Chen	xor     g, y2                   # y2 = f^g
ec2b4c85STim Chen	vpsrlq  $19, XTMP2, XTMP3       # XTMP3 = W[-2] MY_ROR 19 {xBxA}
ec2b4c85STim Chen	xor     e, y0                   # y0 = e ^ (e >> (11-6)) ^ (e >> (25-6))
ec2b4c85STim Chen	and     e, y2                   # y2 = (f^g)&e
ec2b4c85STim Chen	vpsrlq  $17, XTMP2, XTMP2       # XTMP2 = W[-2] MY_ROR 17 {xBxA}
ec2b4c85STim Chen	MY_ROR  (13-2), y1              # y1 = (a >> (13-2)) ^ (a >> (22-2))
ec2b4c85STim Chen	xor     a, y1                   # y1 = a ^ (a >> (13-2)) ^ (a >> (22-2))
ec2b4c85STim Chen	xor     g, y2                   # y2 = CH = ((f^g)&e)^g
ec2b4c85STim Chen	MY_ROR  6, y0                   # y0 = S1 = (e>>6) & (e>>11) ^ (e>>25)
ec2b4c85STim Chen	vpxor   XTMP3, XTMP2, XTMP2     #
ec2b4c85STim Chen	add     y0, y2                  # y2 = S1 + CH
ec2b4c85STim Chen	MY_ROR  2, y1                   # y1 = S0 = (a>>2) ^ (a>>13) ^ (a>>22)
ec2b4c85STim Chen	add     (2*4 + _XFER)(%rsp), y2 # y2 = k + w + S1 + CH
ec2b4c85STim Chen	vpxor   XTMP2, XTMP4, XTMP4     # XTMP4 = s1 {xBxA}
ec2b4c85STim Chen	mov     a, y0                   # y0 = a
ec2b4c85STim Chen	add     y2, h                   # h = h + S1 + CH + k + w
ec2b4c85STim Chen	mov     a, y2                   # y2 = a
ec2b4c85STim Chen	vpshufb SHUF_00BA, XTMP4, XTMP4 # XTMP4 = s1 {00BA}
ec2b4c85STim Chen	or      c, y0                   # y0 = a|c
ec2b4c85STim Chen	add     h, d                    # d = d + h + S1 + CH + k + w
ec2b4c85STim Chen	and     c, y2                   # y2 = a&c
ec2b4c85STim Chen	vpaddd  XTMP4, XTMP0, XTMP0     # XTMP0 = {..., ..., W[1], W[0]}
ec2b4c85STim Chen	and     b, y0                   # y0 = (a|c)&b
ec2b4c85STim Chen	add     y1, h                   # h = h + S1 + CH + k + w + S0
ec2b4c85STim Chen	## compute high s1
ec2b4c85STim Chen	vpshufd $0b01010000, XTMP0, XTMP2 # XTMP2 = W[-2] {DDCC}
ec2b4c85STim Chen	or      y2, y0                  # y0 = MAJ = (a|c)&b)|(a&c)
ec2b4c85STim Chen	add     y0, h                   # h = h + S1 + CH + k + w + S0 + MAJ
ec2b4c85STim Chen	ROTATE_ARGS
ec2b4c85STim Chen	mov     e, y0                   # y0 = e
ec2b4c85STim Chen	MY_ROR  (25-11), y0             # y0 = e >> (25-11)
ec2b4c85STim Chen	mov     a, y1                   # y1 = a
ec2b4c85STim Chen	MY_ROR  (22-13), y1             # y1 = a >> (22-13)
ec2b4c85STim Chen	xor     e, y0                   # y0 = e ^ (e >> (25-11))
ec2b4c85STim Chen	mov     f, y2                   # y2 = f
ec2b4c85STim Chen	MY_ROR  (11-6), y0              # y0 = (e >> (11-6)) ^ (e >> (25-6))
ec2b4c85STim Chen	vpsrld  $10, XTMP2, XTMP5       # XTMP5 = W[-2] >> 10 {DDCC}
ec2b4c85STim Chen	xor     a, y1                   # y1 = a ^ (a >> (22-13)
ec2b4c85STim Chen	xor     g, y2                   # y2 = f^g
ec2b4c85STim Chen	vpsrlq  $19, XTMP2, XTMP3       # XTMP3 = W[-2] MY_ROR 19 {xDxC}
ec2b4c85STim Chen	xor     e, y0                   # y0 = e ^ (e >> (11-6)) ^ (e >> (25-6))
ec2b4c85STim Chen	and     e, y2                   # y2 = (f^g)&e
ec2b4c85STim Chen	MY_ROR  (13-2), y1              # y1 = (a >> (13-2)) ^ (a >> (22-2))
ec2b4c85STim Chen	vpsrlq  $17, XTMP2, XTMP2       # XTMP2 = W[-2] MY_ROR 17 {xDxC}
ec2b4c85STim Chen	xor     a, y1                   # y1 = a ^ (a >> (13-2)) ^ (a >> (22-2))
ec2b4c85STim Chen	MY_ROR  6, y0                   # y0 = S1 = (e>>6) & (e>>11) ^ (e>>25)
ec2b4c85STim Chen	xor     g, y2                   # y2 = CH = ((f^g)&e)^g
ec2b4c85STim Chen	vpxor   XTMP3, XTMP2, XTMP2
ec2b4c85STim Chen	MY_ROR  2, y1                   # y1 = S0 = (a>>2) ^ (a>>13) ^ (a>>22)
ec2b4c85STim Chen	add     y0, y2                  # y2 = S1 + CH
ec2b4c85STim Chen	add     (3*4 + _XFER)(%rsp), y2 # y2 = k + w + S1 + CH
ec2b4c85STim Chen	vpxor   XTMP2, XTMP5, XTMP5     # XTMP5 = s1 {xDxC}
ec2b4c85STim Chen	mov     a, y0                   # y0 = a
ec2b4c85STim Chen	add     y2, h                   # h = h + S1 + CH + k + w
ec2b4c85STim Chen	mov     a, y2                   # y2 = a
ec2b4c85STim Chen	vpshufb SHUF_DC00, XTMP5, XTMP5 # XTMP5 = s1 {DC00}
ec2b4c85STim Chen	or      c, y0                   # y0 = a|c
ec2b4c85STim Chen	add     h, d                    # d = d + h + S1 + CH + k + w
ec2b4c85STim Chen	and     c, y2                   # y2 = a&c
ec2b4c85STim Chen	vpaddd  XTMP0, XTMP5, X0        # X0 = {W[3], W[2], W[1], W[0]}
ec2b4c85STim Chen	and     b, y0                   # y0 = (a|c)&b
ec2b4c85STim Chen	add     y1, h                   # h = h + S1 + CH + k + w + S0
ec2b4c85STim Chen	or      y2, y0                  # y0 = MAJ = (a|c)&b)|(a&c)
ec2b4c85STim Chen	add     y0, h                   # h = h + S1 + CH + k + w + S0 + MAJ
ec2b4c85STim Chen	ROTATE_ARGS
ec2b4c85STim Chen	rotate_Xs
ec2b4c85STim Chen.endm
ec2b4c85STim Chen
ec2b4c85STim Chen## input is [rsp + _XFER + %1 * 4]
ec2b4c85STim Chen.macro DO_ROUND round
ec2b4c85STim Chen	mov	e, y0			# y0 = e
ec2b4c85STim Chen        MY_ROR  (25-11), y0             # y0 = e >> (25-11)
ec2b4c85STim Chen        mov     a, y1                   # y1 = a
ec2b4c85STim Chen        xor     e, y0                   # y0 = e ^ (e >> (25-11))
ec2b4c85STim Chen        MY_ROR  (22-13), y1             # y1 = a >> (22-13)
ec2b4c85STim Chen        mov     f, y2                   # y2 = f
ec2b4c85STim Chen        xor     a, y1                   # y1 = a ^ (a >> (22-13)
ec2b4c85STim Chen        MY_ROR  (11-6), y0              # y0 = (e >> (11-6)) ^ (e >> (25-6))
ec2b4c85STim Chen        xor     g, y2                   # y2 = f^g
ec2b4c85STim Chen        xor     e, y0                   # y0 = e ^ (e >> (11-6)) ^ (e >> (25-6))
ec2b4c85STim Chen        MY_ROR  (13-2), y1              # y1 = (a >> (13-2)) ^ (a >> (22-2))
ec2b4c85STim Chen        and     e, y2                   # y2 = (f^g)&e
ec2b4c85STim Chen        xor     a, y1                   # y1 = a ^ (a >> (13-2)) ^ (a >> (22-2))
ec2b4c85STim Chen        MY_ROR  6, y0                   # y0 = S1 = (e>>6) & (e>>11) ^ (e>>25)
ec2b4c85STim Chen        xor     g, y2                   # y2 = CH = ((f^g)&e)^g
ec2b4c85STim Chen        add     y0, y2                  # y2 = S1 + CH
ec2b4c85STim Chen        MY_ROR  2, y1                   # y1 = S0 = (a>>2) ^ (a>>13) ^ (a>>22)
ec2b4c85STim Chen        offset = \round * 4 + _XFER     #
ec2b4c85STim Chen        add     offset(%rsp), y2	# y2 = k + w + S1 + CH
ec2b4c85STim Chen        mov     a, y0			# y0 = a
ec2b4c85STim Chen        add     y2, h                   # h = h + S1 + CH + k + w
ec2b4c85STim Chen        mov     a, y2                   # y2 = a
ec2b4c85STim Chen        or      c, y0                   # y0 = a|c
ec2b4c85STim Chen        add     h, d                    # d = d + h + S1 + CH + k + w
ec2b4c85STim Chen        and     c, y2                   # y2 = a&c
ec2b4c85STim Chen        and     b, y0                   # y0 = (a|c)&b
ec2b4c85STim Chen        add     y1, h                   # h = h + S1 + CH + k + w + S0
ec2b4c85STim Chen        or      y2, y0                  # y0 = MAJ = (a|c)&b)|(a&c)
ec2b4c85STim Chen        add     y0, h                   # h = h + S1 + CH + k + w + S0 + MAJ
ec2b4c85STim Chen        ROTATE_ARGS
ec2b4c85STim Chen.endm
ec2b4c85STim Chen
ec2b4c85STim Chen########################################################################
41419a28SKees Cook## void sha256_transform_avx(state sha256_state *state, const u8 *data, int blocks)
41419a28SKees Cook## arg 1 : pointer to state
1631030aSArd Biesheuvel## arg 2 : pointer to input data
ec2b4c85STim Chen## arg 3 : Num blocks
ec2b4c85STim Chen########################################################################
ec2b4c85STim Chen.text
19940ebbSEric BiggersSYM_TYPED_FUNC_START(sha256_transform_avx)
ec2b4c85STim Chen	pushq   %rbx
673ac6fbSJosh Poimboeuf	pushq   %r12
ec2b4c85STim Chen	pushq   %r13
ec2b4c85STim Chen	pushq   %r14
ec2b4c85STim Chen	pushq   %r15
673ac6fbSJosh Poimboeuf	pushq	%rbp
673ac6fbSJosh Poimboeuf	movq	%rsp, %rbp
ec2b4c85STim Chen
ec2b4c85STim Chen	subq    $STACK_SIZE, %rsp	# allocate stack space
ec2b4c85STim Chen	and	$~15, %rsp		# align stack pointer
ec2b4c85STim Chen
ec2b4c85STim Chen	shl     $6, NUM_BLKS		# convert to bytes
*94330fbeSArd Biesheuvel	jz      .Ldone_hash
ec2b4c85STim Chen	add     INP, NUM_BLKS		# pointer to end of data
ec2b4c85STim Chen	mov     NUM_BLKS, _INP_END(%rsp)
ec2b4c85STim Chen
ec2b4c85STim Chen	## load initial digest
ec2b4c85STim Chen	mov     4*0(CTX), a
ec2b4c85STim Chen	mov     4*1(CTX), b
ec2b4c85STim Chen	mov     4*2(CTX), c
ec2b4c85STim Chen	mov     4*3(CTX), d
ec2b4c85STim Chen	mov     4*4(CTX), e
ec2b4c85STim Chen	mov     4*5(CTX), f
ec2b4c85STim Chen	mov     4*6(CTX), g
ec2b4c85STim Chen	mov     4*7(CTX), h
ec2b4c85STim Chen
ec2b4c85STim Chen	vmovdqa  PSHUFFLE_BYTE_FLIP_MASK(%rip), BYTE_FLIP_MASK
ec2b4c85STim Chen	vmovdqa  _SHUF_00BA(%rip), SHUF_00BA
ec2b4c85STim Chen	vmovdqa  _SHUF_DC00(%rip), SHUF_DC00
*94330fbeSArd Biesheuvel.Lloop0:
ec2b4c85STim Chen	lea     K256(%rip), TBL
ec2b4c85STim Chen
ec2b4c85STim Chen	## byte swap first 16 dwords
ec2b4c85STim Chen	COPY_XMM_AND_BSWAP      X0, 0*16(INP), BYTE_FLIP_MASK
ec2b4c85STim Chen	COPY_XMM_AND_BSWAP      X1, 1*16(INP), BYTE_FLIP_MASK
ec2b4c85STim Chen	COPY_XMM_AND_BSWAP      X2, 2*16(INP), BYTE_FLIP_MASK
ec2b4c85STim Chen	COPY_XMM_AND_BSWAP      X3, 3*16(INP), BYTE_FLIP_MASK
ec2b4c85STim Chen
ec2b4c85STim Chen	mov     INP, _INP(%rsp)
ec2b4c85STim Chen
ec2b4c85STim Chen	## schedule 48 input dwords, by doing 3 rounds of 16 each
ec2b4c85STim Chen	mov     $3, SRND
ec2b4c85STim Chen.align 16
*94330fbeSArd Biesheuvel.Lloop1:
ec2b4c85STim Chen	vpaddd  (TBL), X0, XFER
ec2b4c85STim Chen	vmovdqa XFER, _XFER(%rsp)
ec2b4c85STim Chen	FOUR_ROUNDS_AND_SCHED
ec2b4c85STim Chen
ec2b4c85STim Chen	vpaddd  1*16(TBL), X0, XFER
ec2b4c85STim Chen	vmovdqa XFER, _XFER(%rsp)
ec2b4c85STim Chen	FOUR_ROUNDS_AND_SCHED
ec2b4c85STim Chen
ec2b4c85STim Chen	vpaddd  2*16(TBL), X0, XFER
ec2b4c85STim Chen	vmovdqa XFER, _XFER(%rsp)
ec2b4c85STim Chen	FOUR_ROUNDS_AND_SCHED
ec2b4c85STim Chen
ec2b4c85STim Chen	vpaddd  3*16(TBL), X0, XFER
ec2b4c85STim Chen	vmovdqa XFER, _XFER(%rsp)
ec2b4c85STim Chen	add	$4*16, TBL
ec2b4c85STim Chen	FOUR_ROUNDS_AND_SCHED
ec2b4c85STim Chen
ec2b4c85STim Chen	sub     $1, SRND
*94330fbeSArd Biesheuvel	jne     .Lloop1
ec2b4c85STim Chen
ec2b4c85STim Chen	mov     $2, SRND
*94330fbeSArd Biesheuvel.Lloop2:
ec2b4c85STim Chen	vpaddd  (TBL), X0, XFER
ec2b4c85STim Chen	vmovdqa XFER, _XFER(%rsp)
ec2b4c85STim Chen	DO_ROUND        0
ec2b4c85STim Chen	DO_ROUND        1
ec2b4c85STim Chen	DO_ROUND        2
ec2b4c85STim Chen	DO_ROUND        3
ec2b4c85STim Chen
ec2b4c85STim Chen	vpaddd  1*16(TBL), X1, XFER
ec2b4c85STim Chen	vmovdqa XFER, _XFER(%rsp)
ec2b4c85STim Chen	add     $2*16, TBL
ec2b4c85STim Chen	DO_ROUND        0
ec2b4c85STim Chen	DO_ROUND        1
ec2b4c85STim Chen	DO_ROUND        2
ec2b4c85STim Chen	DO_ROUND        3
ec2b4c85STim Chen
ec2b4c85STim Chen	vmovdqa X2, X0
ec2b4c85STim Chen	vmovdqa X3, X1
ec2b4c85STim Chen
ec2b4c85STim Chen	sub     $1, SRND
*94330fbeSArd Biesheuvel	jne     .Lloop2
ec2b4c85STim Chen
ec2b4c85STim Chen	addm    (4*0)(CTX),a
ec2b4c85STim Chen	addm    (4*1)(CTX),b
ec2b4c85STim Chen	addm    (4*2)(CTX),c
ec2b4c85STim Chen	addm    (4*3)(CTX),d
ec2b4c85STim Chen	addm    (4*4)(CTX),e
ec2b4c85STim Chen	addm    (4*5)(CTX),f
ec2b4c85STim Chen	addm    (4*6)(CTX),g
ec2b4c85STim Chen	addm    (4*7)(CTX),h
ec2b4c85STim Chen
ec2b4c85STim Chen	mov     _INP(%rsp), INP
ec2b4c85STim Chen	add     $64, INP
ec2b4c85STim Chen	cmp     _INP_END(%rsp), INP
*94330fbeSArd Biesheuvel	jne     .Lloop0
ec2b4c85STim Chen
*94330fbeSArd Biesheuvel.Ldone_hash:
ec2b4c85STim Chen
673ac6fbSJosh Poimboeuf	mov	%rbp, %rsp
673ac6fbSJosh Poimboeuf	popq	%rbp
ec2b4c85STim Chen	popq    %r15
ec2b4c85STim Chen	popq    %r14
ec2b4c85STim Chen	popq    %r13
673ac6fbSJosh Poimboeuf	popq	%r12
ec2b4c85STim Chen	popq    %rbx
f94909ceSPeter Zijlstra	RET
6dcc5627SJiri SlabySYM_FUNC_END(sha256_transform_avx)
ec2b4c85STim Chen
e183914aSDenys Vlasenko.section	.rodata.cst256.K256, "aM", @progbits, 256
ec2b4c85STim Chen.align 64
ec2b4c85STim ChenK256:
ec2b4c85STim Chen	.long 0x428a2f98,0x71374491,0xb5c0fbcf,0xe9b5dba5
ec2b4c85STim Chen	.long 0x3956c25b,0x59f111f1,0x923f82a4,0xab1c5ed5
ec2b4c85STim Chen	.long 0xd807aa98,0x12835b01,0x243185be,0x550c7dc3
ec2b4c85STim Chen	.long 0x72be5d74,0x80deb1fe,0x9bdc06a7,0xc19bf174
ec2b4c85STim Chen	.long 0xe49b69c1,0xefbe4786,0x0fc19dc6,0x240ca1cc
ec2b4c85STim Chen	.long 0x2de92c6f,0x4a7484aa,0x5cb0a9dc,0x76f988da
ec2b4c85STim Chen	.long 0x983e5152,0xa831c66d,0xb00327c8,0xbf597fc7
ec2b4c85STim Chen	.long 0xc6e00bf3,0xd5a79147,0x06ca6351,0x14292967
ec2b4c85STim Chen	.long 0x27b70a85,0x2e1b2138,0x4d2c6dfc,0x53380d13
ec2b4c85STim Chen	.long 0x650a7354,0x766a0abb,0x81c2c92e,0x92722c85
ec2b4c85STim Chen	.long 0xa2bfe8a1,0xa81a664b,0xc24b8b70,0xc76c51a3
ec2b4c85STim Chen	.long 0xd192e819,0xd6990624,0xf40e3585,0x106aa070
ec2b4c85STim Chen	.long 0x19a4c116,0x1e376c08,0x2748774c,0x34b0bcb5
ec2b4c85STim Chen	.long 0x391c0cb3,0x4ed8aa4a,0x5b9cca4f,0x682e6ff3
ec2b4c85STim Chen	.long 0x748f82ee,0x78a5636f,0x84c87814,0x8cc70208
ec2b4c85STim Chen	.long 0x90befffa,0xa4506ceb,0xbef9a3f7,0xc67178f2
ec2b4c85STim Chen
e183914aSDenys Vlasenko.section	.rodata.cst16.PSHUFFLE_BYTE_FLIP_MASK, "aM", @progbits, 16
e183914aSDenys Vlasenko.align 16
ec2b4c85STim ChenPSHUFFLE_BYTE_FLIP_MASK:
ec2b4c85STim Chen	.octa 0x0c0d0e0f08090a0b0405060700010203
ec2b4c85STim Chen
e183914aSDenys Vlasenko.section	.rodata.cst16._SHUF_00BA, "aM", @progbits, 16
e183914aSDenys Vlasenko.align 16
ec2b4c85STim Chen# shuffle xBxA -> 00BA
ec2b4c85STim Chen_SHUF_00BA:
ec2b4c85STim Chen	.octa 0xFFFFFFFFFFFFFFFF0b0a090803020100
ec2b4c85STim Chen
e183914aSDenys Vlasenko.section	.rodata.cst16._SHUF_DC00, "aM", @progbits, 16
e183914aSDenys Vlasenko.align 16
ec2b4c85STim Chen# shuffle xDxC -> DC00
ec2b4c85STim Chen_SHUF_DC00:
ec2b4c85STim Chen	.octa 0x0b0a090803020100FFFFFFFFFFFFFFFF