Transformer導(dǎo)論之Bert預(yù)訓(xùn)練語(yǔ)言解析
Bert
BERT,全稱為“Bidirectional Encoder Representations from Transformers”,是一種預(yù)訓(xùn)練語(yǔ)言表示的方法,意味著我們?cè)谝粋€(gè)大型文本語(yǔ)料庫(kù)(如維基百科)上訓(xùn)練一個(gè)通用的“語(yǔ)言理解”模型,然后將該模型用于我們關(guān)心的下游NLP任務(wù)(如問(wèn)答)。BERT的表現(xiàn)優(yōu)于之前的傳統(tǒng)NLP方法,因?yàn)樗堑谝粋€(gè)用于預(yù)訓(xùn)練NLP的無(wú)監(jiān)督的、深度雙向系統(tǒng)。
Bert是利用無(wú)標(biāo)簽方式建模的,當(dāng)談到NLP語(yǔ)料庫(kù)中的無(wú)標(biāo)簽和有標(biāo)簽數(shù)據(jù)時(shí),一個(gè)常見(jiàn)的例子是將文本分類任務(wù)。下面是一個(gè)例子:
無(wú)標(biāo)簽數(shù)據(jù):來(lái)自維基百科的大量文本,這些文本沒(méi)有被人工標(biāo)記或者標(biāo)注。這些數(shù)據(jù)可以用來(lái)預(yù)訓(xùn)練語(yǔ)言模型,例如 BERT、GPT 等,以學(xué)習(xí)通用的語(yǔ)言表示形式。
有標(biāo)簽數(shù)據(jù):例如 IMDB 電影評(píng)論數(shù)據(jù)集,其中每個(gè)評(píng)論都被標(biāo)記為正面或負(fù)面情感。這些數(shù)據(jù)可以用來(lái)訓(xùn)練文本分類器,使其能夠自動(dòng)對(duì)新的評(píng)論進(jìn)行情感分類。
Bert的無(wú)監(jiān)督預(yù)訓(xùn)練方法非常重要,因?yàn)樗试S我們?cè)诖笠?guī)模文本語(yǔ)料庫(kù)中進(jìn)行訓(xùn)練,而無(wú)需為每個(gè)具體的NLP任務(wù)收集大量的有標(biāo)簽數(shù)據(jù)。由于網(wǎng)絡(luò)上有大量的無(wú)標(biāo)簽文本數(shù)據(jù),這種方法使得BERT可以利用這些數(shù)據(jù)來(lái)訓(xùn)練模型,提高模型在各種任務(wù)上的表現(xiàn)。與此同時(shí),無(wú)監(jiān)督預(yù)訓(xùn)練還能夠提高模型對(duì)于語(yǔ)言的理解和表達(dá)能力。BERT的無(wú)監(jiān)督預(yù)訓(xùn)練方法使得我們可以使用一個(gè)通用的"語(yǔ)言理解"模型,用于各種NLP任務(wù),如問(wèn)答、文本分類、實(shí)體識(shí)別等,而無(wú)需為每個(gè)任務(wù)重新訓(xùn)練一個(gè)新的模型。BERT 的主要任務(wù)是通過(guò)訓(xùn)練模型來(lái)預(yù)測(cè)文本序列中缺失的單詞,因此模型只需要對(duì)輸入的文本序列進(jìn)行編碼,而不需要對(duì)序列進(jìn)行解碼。他只用到了Transformer中的Encoder。
Pre-training BERT
Pre-training BERT(Bidirectional Encoder Representations from Transformers)是一種基于大規(guī)模無(wú)標(biāo)注文本數(shù)據(jù)的預(yù)訓(xùn)練方法,目的是為了訓(xùn)練出一個(gè)通用的語(yǔ)言模型,能夠理解上下文語(yǔ)境中詞語(yǔ)的語(yǔ)義信息。
在BERT的預(yù)訓(xùn)練過(guò)程中,使用了兩個(gè)階段的訓(xùn)練方式:Masked LM和Next Sentence Prediction。
(1)Masked LM(MLM)
Masked Language Modeling (MLM) 是 BERT 模型的一種預(yù)訓(xùn)練方法,通過(guò)將輸入文本中的某些單詞隨機(jī)地替換成特殊的 [MASK] 標(biāo)記,使模型在預(yù)測(cè)被替換的單詞時(shí)需要依據(jù)上下文信息進(jìn)行推斷,從而學(xué)習(xí)到單詞的上下文相關(guān)性。
具體來(lái)說(shuō),對(duì)于輸入文本中的每個(gè)單詞,以一定的概率(比如15%)隨機(jī)選擇將其替換為 [MASK] 標(biāo)記,然后將經(jīng)過(guò) [MASK] 標(biāo)記處理后的文本輸入給模型進(jìn)行預(yù)測(cè)。在預(yù)測(cè)過(guò)程中,模型需要根據(jù)上下文信息猜測(cè)被 [MASK] 標(biāo)記替換的單詞。這樣的預(yù)測(cè)任務(wù)可以促使模型學(xué)習(xí)到單詞的上下文信息,從而提高下游任務(wù)的性能。
例如,對(duì)于輸入文本 "I went to the [MASK] to buy some apples",模型需要根據(jù)上下文信息猜測(cè)被 [MASK] 標(biāo)記替換的單詞是 "store","market","shop" 等。通過(guò)這樣的預(yù)測(cè)任務(wù),模型可以學(xué)習(xí)到 "store","market","shop" 在不同上下文中的含義和用法,從而提高下游任務(wù)(如文本分類、情感分析、問(wèn)答等)的性能。因?yàn)椴捎蒙舷挛臒o(wú)關(guān)的方式進(jìn)行建模,意味著模型不考慮單詞在句子中的位置和上下文環(huán)境,而是將每個(gè)單詞獨(dú)立地編碼為固定的向量表示。所以MLM是至關(guān)重要的,因?yàn)樗麑W(xué)習(xí)了上下文的信息。
(2)Next Sentence Prediction(NSP)
Next Sentence Prediction (NSP) 是 BERT 中的另外一種預(yù)訓(xùn)練任務(wù),用于訓(xùn)練模型學(xué)習(xí)句子之間的關(guān)系。它的目標(biāo)是判斷兩個(gè)句子是否是相鄰的,即判斷一個(gè)句子是否是另一個(gè)句子的下一句。
NSP 的訓(xùn)練過(guò)程中,對(duì)于每一對(duì)輸入的句子,有一半是相鄰的,另一半是隨機(jī)選擇的不相鄰的句子。模型需要對(duì)這兩種情況進(jìn)行分類預(yù)測(cè)。這個(gè)任務(wù)主要是為了幫助模型學(xué)習(xí)更好的語(yǔ)義表示,尤其是對(duì)于需要理解多個(gè)句子之間關(guān)系的任務(wù),如問(wèn)答和文本推理。
輸入的文本會(huì)被分成多個(gè)token,每個(gè)token會(huì)被映射為一個(gè)向量表示,這個(gè)向量表示就被稱為token embedding。
除了token embedding之外,BERT還有另外兩種embedding,分別是sentence embedding和positional embedding。
Sentence embedding是對(duì)整個(gè)句子進(jìn)行編碼得到的向量表示。在BERT中,對(duì)于輸入的句子對(duì)(比如問(wèn)答場(chǎng)景下的問(wèn)題和回答),BERT會(huì)將句子對(duì)之間的特殊標(biāo)記“[SEP]”添加到中間,并在整個(gè)輸入序列的開(kāi)頭添加另一個(gè)特殊標(biāo)記“[CLS]”。然后,整個(gè)序列的第一個(gè)token對(duì)應(yīng)的向量就是整個(gè)句子的sentence embedding。
Positional embedding則是用來(lái)表示每個(gè)token在句子中的位置信息。由于Transformer并不保留輸入中token的位置信息,因此需要在輸入的token embedding中加入位置信息,使得Transformer能夠捕捉到句子中token的位置信息。這里采用了一種相對(duì)位置編碼的方式,將每個(gè)token與其他token的相對(duì)位置信息編碼成一個(gè)向量,然后將該向量加到該token的embedding中。
在BERT中,這三種embedding會(huì)被拼接在一起,然后送入Transformer進(jìn)行編碼。這些編碼代表了符號(hào)句子位置的特征。
通過(guò)使用 MLM 和 NSP 兩個(gè)任務(wù)來(lái)預(yù)訓(xùn)練模型,BERT 能夠?qū)W習(xí)到更加豐富的語(yǔ)言表示,這些表示可以在各種 NLP 任務(wù)中進(jìn)行微調(diào)。
Fine-tuning BERT
Fine-tuning BERT是指在使用預(yù)訓(xùn)練的BERT模型后,將其進(jìn)一步調(diào)整以適應(yīng)特定任務(wù)的過(guò)程。這個(gè)過(guò)程可以理解為在BERT的基礎(chǔ)上進(jìn)行微調(diào)以使其更加適合完成特定的自然語(yǔ)言處理(NLP)任務(wù)。
Fine-tuning BERT的主要步驟如下:
- 準(zhǔn)備數(shù)據(jù)集:根據(jù)特定的NLP任務(wù),準(zhǔn)備相應(yīng)的數(shù)據(jù)集,包括訓(xùn)練集、驗(yàn)證集和測(cè)試集。
- 定義任務(wù):根據(jù)任務(wù)類型,選擇適當(dāng)?shù)腂ERT模型和Fine-tuning策略。對(duì)于分類任務(wù),可以使用BERT的CLS向量來(lái)表示整個(gè)句子,并通過(guò)添加一個(gè)全連接層來(lái)預(yù)測(cè)標(biāo)簽。對(duì)于序列標(biāo)注任務(wù),可以在BERT的基礎(chǔ)上添加一個(gè)序列標(biāo)注層。
- Fine-tuning:將準(zhǔn)備好的數(shù)據(jù)集輸入BERT模型進(jìn)行Fine-tuning。在Fine-tuning過(guò)程中,對(duì)BERT模型的參數(shù)進(jìn)行微調(diào),以適應(yīng)特定的NLP任務(wù)。通常使用反向傳播算法進(jìn)行模型優(yōu)化。
- 模型評(píng)估:使用驗(yàn)證集評(píng)估Fine-tuning后的模型性能,可以根據(jù)驗(yàn)證集的性能調(diào)整Fine-tuning策略或BERT模型的超參數(shù)。最終,使用測(cè)試集評(píng)估模型的性能。
需要注意的是,F(xiàn)ine-tuning BERT需要大量的計(jì)算資源和時(shí)間,因?yàn)锽ERT模型本身具有非常多的參數(shù)和復(fù)雜的結(jié)構(gòu)。此外,F(xiàn)ine-tuning BERT的性能還取決于任務(wù)的復(fù)雜性、數(shù)據(jù)集的質(zhì)量和模型的選擇等因素。
代碼實(shí)現(xiàn)
下面是使用PyTorch實(shí)現(xiàn)Bert模型的示例代碼,包括模型定義、數(shù)據(jù)預(yù)處理、模型訓(xùn)練和推理:
import torch import torch.nn as nn import torch.optim as optim import torch.utils.data as data import transformers # 1. 定義Bert模型 class BertModel(nn.Module): def __init__(self, bert_config): super(BertModel, self).__init__() self.bert = transformers.BertModel(bert_config) self.dropout = nn.Dropout(bert_config.hidden_dropout_prob) self.fc = nn.Linear(bert_config.hidden_size, num_classes) def forward(self, input_ids, attention_mask): output = self.bert(input_ids=input_ids, attention_mask=attention_mask) output = output[1] # 取第1個(gè)tensor作為CLS向量 output = self.dropout(output) output = self.fc(output) return output # 2. 數(shù)據(jù)預(yù)處理 # 數(shù)據(jù)集包含輸入序列和對(duì)應(yīng)的標(biāo)簽 inputs = ["I love Python programming.", "Python is a high-level programming language."] labels = [0, 1] # 0表示第1個(gè)句子不是關(guān)于Python編程的,1表示第2個(gè)句子是關(guān)于Python編程的 tokenizer = transformers.BertTokenizer.from_pretrained('bert-base-uncased') max_seq_length = 64 # 輸入序列最大長(zhǎng)度 inputs_ids = [] attention_masks = [] for input_text in inputs: # 將文本轉(zhuǎn)換為ids和attention mask encoded_dict = tokenizer.encode_plus( input_text, add_special_tokens=True, max_length=max_seq_length, pad_to_max_length=True, return_attention_mask=True, return_tensors='pt' ) inputs_ids.append(encoded_dict['input_ids']) attention_masks.append(encoded_dict['attention_mask']) inputs_ids = torch.cat(inputs_ids, dim=0) attention_masks = torch.cat(attention_masks, dim=0) labels = torch.tensor(labels) # 3. 定義超參數(shù)和優(yōu)化器 num_classes = 2 learning_rate = 2e-5 num_epochs = 3 batch_size = 2 device = torch.device("cuda" if torch.cuda.is_available() else "cpu") model = BertModel(transformers.BertConfig.from_pretrained('bert-base-uncased')).to(device) optimizer = optim.Adam(model.parameters(), lr=learning_rate) # 4. 定義數(shù)據(jù)加載器 dataset = data.TensorDataset(inputs_ids, attention_masks, labels) dataloader = data.DataLoader(dataset, batch_size=batch_size, shuffle=True) # 5. 訓(xùn)練模型 model.train() for epoch in range(num_epochs): for i, (input_ids_batch, attention_masks_batch, labels_batch) in enumerate(dataloader): input_ids_batch = input_ids_batch.to(device) attention_masks_batch = attention_masks_batch.to(device) labels_batch = labels_batch.to(device) optimizer.zero_grad() outputs = model(input_ids_batch, attention_masks_batch) loss = nn.CrossEntropyLoss()(outputs, labels_batch) loss.backward() optimizer.step() if i % 10 == 0: print(f"Epoch {epoch}, batch {i}, loss: {loss.item()}") # 6. 模型推理 model.eval() test_input = "Python is a popular programming language." encoded_dict = tokenizer.encode_plus( test_input, add_special_tokens
以上就是Transformer導(dǎo)論之Bert預(yù)訓(xùn)練語(yǔ)言解析的詳細(xì)內(nèi)容,更多關(guān)于Transformer導(dǎo)論Bert的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Python學(xué)習(xí)之文件的創(chuàng)建與寫(xiě)入詳解
本文主要介紹了Python中關(guān)于文件的處理,即如何創(chuàng)建、讀寫(xiě)一個(gè)文件,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2022-03-03Python讀取HDFS目錄下的所有文件的實(shí)現(xiàn)示例
HDFS是Apache Hadoop的分布式文件系統(tǒng),本文主要介紹了Python讀取HDFS目錄下的所有文件的實(shí)現(xiàn)示例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2023-07-07pytorch 如何使用batch訓(xùn)練lstm網(wǎng)絡(luò)
這篇文章主要介紹了pytorch 如何使用batch訓(xùn)練lstm網(wǎng)絡(luò)的操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-05-05Python通過(guò)paramiko庫(kù)實(shí)現(xiàn)遠(yuǎn)程執(zhí)行l(wèi)inux命令的方法
這篇文章主要介紹了Python通過(guò)paramiko庫(kù)實(shí)現(xiàn)遠(yuǎn)程執(zhí)行l(wèi)inux命令,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2023-03-03Python Django 頁(yè)面上展示固定的頁(yè)碼數(shù)實(shí)現(xiàn)代碼
這篇文章主要介紹了Python Django 頁(yè)面上展示固定的頁(yè)碼數(shù)實(shí)現(xiàn)代碼,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-08-08numpy求矩陣的特征值與特征向量(np.linalg.eig函數(shù)用法)
這篇文章主要介紹了numpy求矩陣的特征值與特征向量(np.linalg.eig函數(shù)用法),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-02-02python實(shí)現(xiàn)批量解析郵件并下載附件
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)批量解析郵件并下載附件,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-06-06Python實(shí)現(xiàn)優(yōu)先級(jí)隊(duì)列結(jié)構(gòu)的方法詳解
優(yōu)先級(jí)隊(duì)列(priority queue)是0個(gè)或多個(gè)元素的集合,每個(gè)元素都有一個(gè)優(yōu)先權(quán),接下來(lái)就來(lái)看一下簡(jiǎn)潔的Python實(shí)現(xiàn)優(yōu)先級(jí)隊(duì)列結(jié)構(gòu)的方法詳解:2016-06-06