Abstrak dari dokumen Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context:
Transformer memiliki potensi untuk mempelajari ketergantungan jangka panjang, tetapi dibatasi oleh konteks panjang tetap dalam pengaturan pemodelan bahasa. Kami mengusulkan arsitektur saraf baru Transformer-XL yang memungkinkan ketergantungan pembelajaran melebihi panjang tetap tanpa mengganggu koherensi temporal.
Ini terdiri dari mekanisme perulangan tingkat segmen dan skema pengkodean posisi baru. Metode kami tidak hanya memungkinkan menangkap ketergantungan jangka panjang, tetapi juga menyelesaikan masalah fragmentasi konteks.
Hasilnya, TransformerXL mempelajari ketergantungan yang 80% lebih lama dari RNN dan 450% lebih lama dari Transformers vanilla, mencapai kinerja yang lebih baik pada urutan pendek dan panjang, dan hingga 1.800+ kali lebih cepat daripada Transformers vanilla selama evaluasi.
Khususnya, kami meningkatkan hasil bpc/perplexity yang canggih menjadi 0,99 di enwiki8, 1,08 di text8, 18,3 di WikiText-103, 21,8 pada Satu Miliar Kata, dan 54,5 pada Penn Treebank (tanpa penyesuaian). Ketika dilatih hanya di WikiText-103, Transformer-XL berhasil menghasilkan artikel teks baru yang cukup koheren dengan ribuan token. Kode kami, model terlatih, dan hyperparameter tersedia di Tensorflow dan PyTorch1.
Jika anda ingin melihat dokumen dari Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context secara penuh, silahkan download pdf berikut ini: