XLNet论文阅读

XLNet 论文阅读

背景

BERT属于AutoEncoder语言模型

Autoregressive模型

能否将两类模型进行融合,从而克服BERT所面临的问题

如何做

基于AR语言模型进行改良,从而支持双向encode的能力

AR语言模型目标函数
AE语言模型目标函数


\[m_{t}= \left\{\begin{matrix} 1 & \text{if masked}\\ 0 & \text{otherwise}\\ \end{matrix}\right.\] \[h_{\theta }\left ( \hat{x}\right ):\text{representation of unmasked tokens}\]