图 1 尺寸为(输入长度)×(嵌入维度)的代表矩阵K
图 2 位置嵌入矩阵
图 3 小数正数和为1的先前例子说明
图 4 qx的乘积
图 5 每行通过qx投射的表征组成的矩阵
图 6 M-BERT编码器结构和权重共享机制
图 7 本文模型对不同文档的处理性能