【洪小漢】評論
基於變換器的雙向編碼器表示技術(英語:Bidirectional Encoder Representations from Transformers,BERT)是用於自然語言處理(NLP)的預訓練技術,由Google提出。[1][2]2018年,雅各布·德夫林和同事建立並發布了BERT。Google正在利用BERT來更好地理解使用者搜尋語句的語意。[3] 2020年的一項文獻調查得出結論:"在一年多一點的時間裡,BERT已經成為NLP實驗中無處不在的基線",算上分析和改進模型的研究出版物超過150篇。[4]最初的英語BERT發布時提供兩種類型的預訓練模型[1]:(1)BERTBASE模型,一個12層,768維,12個自注意頭(self attention head),110M參數的神經網路結構;(2)BERTLARGE模型,一個24層,1024維,16個自注意頭,340M參數的神經網路結構。兩者的訓練語料都是BooksCorpus[5]以及英語維基百科語料,單詞量分別是8億以及25億