[TOC]

1.transformer介绍

Transformer被认为是一种新型的深度前馈人工神经网络架构，它利用了自注意机制，可以处理输入序列项之间的长期相关性。
在大量领域中采用，如自然语言处理（NLP）、计算机视觉（CV）、，音频和语音处理、化学和生命科学；他们可以在前面提到的学科中实现SOTA性能。
TransformerX库存储库

1.1 注意力机制

注意力是一种处理能力有限的认知资源分配方案
它同时生成源标记（单词）的翻译，1）这些相关位置的上下文向量和2）先前生成的单词。
注意力的特性 1.软 2.硬 3.局部 4.全局
输入特征的形式
1. Item-wise 2. Location-wise
输入表示 1.Co-attention 2. Self-attention 3. Distinctive attention 4. Hierarchical attention
输出表示
1. 多头 2.单输出 3.多维

1.2 Transformer架构

基本Transformer架构由两个主要构建块组成，即编码器和解码器块.(与序列到序列模型类似，Transformer使用编码器-解码器架构)
编码器从输入表示序列 (𝒙₁ , ..., 𝒙ₙ) 生成嵌入向量𝒁 = (𝒛₁ , ..., 𝒛ₙ)，并将其传递给解码器以生成输出序列 (𝒚₁ , ..., 𝒚ₘ). 在每一步生成输出之前，𝒁 向量被送入解码器，因此该模型是自回归的。

![Sv9q4J](<https://raw.githubusercontent.com/errolyan/tuchuang/master/uPic/Sv9q4J.jpg>)

1.2.1编码器

编码器只是多个组件或层的堆栈-𝑵 在原始论文中是6。它们本身是两个子层，即多头自注意块和简单FC FFN（全连接的前馈网络）。
为了实现更深入的模型，研究人员通过包裹两个子层，然后进行层归一化，并实现残差连接。因此，每个子层的输出都是LayerNorm( 𝒙 + Sublayer( 𝒙 )) ，Sublayer(* 𝒙 \*)\*是在其内部实现的函数。所有子层以及嵌入的输出维度为𝒅 _model=512。

import tensorflow as tf

from transformerx.layers.positional_encoding import SinePositionalEncoding
from transformerx.layers.transformer_encoder_block import TransformerEncoderBlock

class TransformerEncoder(tf.keras.layers.Layer):
    def __init__(self,vocab_size,depth,norm_shape,ffn_num_hiddens,
        num_heads,
        n_blocks,
        dropout,
        bias=False,
    ):
        super().__init__()
        self.depth = depth
        self.n_blocks = n_blocks
        self.embedding = tf.keras.layers.Embedding(vocab_size, depth)
        self.pos_encoding = SinePositionalEncoding(depth, dropout)
        self.blocks = [
            TransformerEncoderBlock(
                depth,
                norm_shape,
                ffn_num_hiddens,
                num_heads,
                dropout,
                bias,
            )
            for _ in range(self.n_blocks)
        ]

    def call(self, X, valid_lens, **kwargs):
     X = self.pos_encoding(
            self.embedding(X) * tf.math.sqrt(tf.cast(self.depth, dtype=tf.float32)),
            **kwargs,
        )
        self.attention_weights = [None] * len(self.blocks)
        for i, blk in enumerate(self.blocks):
            X = blk(X, valid_lens, **kwargs)
            self.attention_weights[i] = blk.attention.attention.attention_weights
        return X