深度學(xué)習(xí)Tensorflow2.8?使用?BERT?進(jìn)行文本分類

更新時(shí)間：2023年01月06日 08:41:27 作者：我是王大你是誰

這篇文章主要為大家介紹了深度學(xué)習(xí)Tensorflow2.8?使用?BERT?進(jìn)行文本分類示例詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪

前言

本文使用 cpu 版本的 Tensorflow 2.8 ，通過搭建 BERT 模型完成文本分類任務(wù)。

1. python 庫準(zhǔn)備

為了保證能正常運(yùn)行本文代碼，需要保證以下庫的版本：

tensorflow==2.8.4
tensorflow-text==2.8.1
tf-models-official==2.7.0
python==3.8.0

在安裝 tf-models-official 的時(shí)候可能會(huì)報(bào)錯(cuò) ：Microsoft Visual C++ 14.0 or greater is required 。直接進(jìn)入 visualstudio.microsoft.com/zh-hans/vis… 這里進(jìn)行下載新的Microsoft C++ 生成工具，然后安裝重啟電腦即可。

2. BERT 是什么？

BERT 和其他 Transformer 編碼器架構(gòu)模型都在 NLP 的各種任務(wù)上取得了巨大的成功。它們都是使用了多層的注意力機(jī)制，可以有效地對(duì)文本進(jìn)行雙向的深層次語義編碼表示。BERT 模型已經(jīng)在大型文本語料庫上進(jìn)行了充足的預(yù)訓(xùn)練，我們?cè)谑褂玫臅r(shí)候只需要針對(duì)特定任務(wù)進(jìn)行微調(diào)即可。

3. 獲取并處理 IMDB 數(shù)據(jù)

（1）使用 tensorflow 的內(nèi)置函數(shù)，從網(wǎng)絡(luò)上將 Large Movie Review Dataset 數(shù)據(jù)下載到本地，沒有特別指定的話一般位置在當(dāng)前同級(jí)目錄下。此數(shù)據(jù)集是一個(gè)電影評(píng)論數(shù)據(jù)集，其中包含來自 Internet 電影數(shù)據(jù)庫的 50000 條電影評(píng)論的文本，每個(gè)文本都對(duì)應(yīng)一個(gè)標(biāo)簽標(biāo)記其為積極或者消極的。

（2）我們將數(shù)據(jù)中無用的 unsup 文件夾都刪掉，這樣后面處理數(shù)據(jù)會(huì)更加方便。

import os
import shutil
import tensorflow as tf
import tensorflow_hub as hub
import tensorflow_text as text
from official.nlp import optimization
import matplotlib.pyplot as plt
tf.get_logger().setLevel('ERROR')
url = 'https://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz'
dataset = tf.keras.utils.get_file('aclImdb_v1.tar.gz', url, untar=True, cache_dir='.', cache_subdir='')
dataset_dir = os.path.join(os.path.dirname(dataset), 'aclImdb')
train_dir = os.path.join(dataset_dir, 'train')
remove_dir = os.path.join(train_dir, 'unsup')
shutil.rmtree(remove_dir)

（3）我們可以直接使用內(nèi)置函數(shù) text_dataset_from_directory 直接從硬盤讀取數(shù)據(jù)生成 tf.data.Dataset 。

（4）IMDB 數(shù)據(jù)集已經(jīng)被分為了訓(xùn)練集和測(cè)試集，但是還缺少驗(yàn)證集，所以讓我們需要從訓(xùn)練集中取出 20% 來創(chuàng)建一個(gè)驗(yàn)證集。最終訓(xùn)練集 20000 個(gè)樣本，驗(yàn)證集 5000 個(gè)樣本，測(cè)試集 25000 個(gè)樣本。每個(gè)樣本都是 (text,label) 對(duì)。

（5）為了保證在加載數(shù)據(jù)的時(shí)候不會(huì)出現(xiàn) I/O 不會(huì)阻塞，我們?cè)趶拇疟P加載完數(shù)據(jù)之后，使用 cache 會(huì)將數(shù)據(jù)保存在內(nèi)存中，確保在訓(xùn)練模型過程中數(shù)據(jù)的獲取不會(huì)成為訓(xùn)練速度的瓶頸。如果說要保存的數(shù)據(jù)量太大，可以使用 cache 創(chuàng)建磁盤緩存提高數(shù)據(jù)的讀取效率。另外我們還使用 prefetch 在訓(xùn)練過程中可以并行執(zhí)行數(shù)據(jù)的預(yù)獲取。

AUTOTUNE = tf.data.AUTOTUNE
batch_size = 64
seed = 110
train_datas = tf.keras.utils.text_dataset_from_directory( 'aclImdb/train', batch_size=batch_size, validation_split=0.2, subset='training', seed=seed)
class_names = train_datas.class_names
train_datas = train_datas.cache().prefetch(buffer_size=AUTOTUNE)
val_datas = tf.keras.utils.text_dataset_from_directory(  'aclImdb/train', batch_size=batch_size, validation_split=0.2, subset='validation', seed=seed)
val_datas = val_datas.cache().prefetch(buffer_size=AUTOTUNE)
test_datas = tf.keras.utils.text_dataset_from_directory( 'aclImdb/test', batch_size=batch_size)
test_datas = test_datas.cache().prefetch(buffer_size=AUTOTUNE)

（6）隨機(jī)取出兩個(gè)處理好的樣本進(jìn)行展示：

for text_batch, label_batch in train_datas.take(1):
    for i in range(2):
        print(f'Review: {text_batch.numpy()[i][:100]}...')
        label = label_batch.numpy()[i]
        print(f'Label : {label} ({class_names[label]})')

結(jié)果輸出：

Review: b"This 30 minute documentary Bu\xc3\xb1uel made in the early 1930's about one of Spain's poorest regions is,"...
Label : 0 (neg)
Review: b'I\'ve tried to watch this show several times, but for a show called "That \'70s Show," I don\'t find mu'...
Label : 0 (neg)

4. 初識(shí) TensorFlow Hub 中的 BERT 處理器和模型

（1）由于正規(guī)的從 TensorFlow Hub 下載模型需要“科學(xué)上網(wǎng)”，所以我們可以到這個(gè)鏡像網(wǎng)站（hub.tensorflow.google.cn/google/coll… BERT 模型，為了方便我們快速學(xué)習(xí)，我們選用了比較小的 Small BERT ，及其對(duì)應(yīng)的數(shù)據(jù)輸入處理器。一般下載到本地的路徑為 C:\Users\（用戶名）\AppData\Local\Temp\tfhub_modules\ 下面。

（2）preprocess 可以將文本轉(zhuǎn)化成 BERT 所需要的輸入，這樣就免去了自己寫 Python 代碼來預(yù)處理文本來適應(yīng) BERT 模型的輸入。這里會(huì)對(duì)文本處理產(chǎn)生對(duì)應(yīng)的三個(gè)張量 input_word_ids、input_type_ids、input_mask ：

input_word_ids：一個(gè) [batch_size, 128] 的 int32 張量，每個(gè)張量包含了每句話中每個(gè) token 對(duì)應(yīng)的整數(shù)映射，并且包含了 START、END、PAD 對(duì)應(yīng)的整數(shù)符號(hào)。如例子所見 how are you 對(duì)應(yīng)的 input_word_ids 向量維度為 128 ， 101 對(duì)應(yīng) START ，102 對(duì)應(yīng) END ，中間的數(shù)字對(duì)應(yīng)文本中的三個(gè)單詞，其余的 0 對(duì)應(yīng) PAD 。
input_mask：一個(gè) [batch_size, 128] 的 int32 張量，PAD 之前的位置，也就是 START、END、以及 token 對(duì)應(yīng)的整數(shù)的位置都是用 1 表示，填充 PAD 之后的位置都用 0 表示。如例子所見 how are you 對(duì)應(yīng)的 input_mask 向量維度都為 128 ，前 5 個(gè)位置都是 1 ，后面全是 0 。
input_type_ids：一個(gè) [batch_size, 128] 的 int32 張量，如果輸入是分段的，那么第一個(gè)輸入段包括 START 和 END 的對(duì)應(yīng)位置的都為 0 。如果存在第二段則包括 END 在內(nèi)的輸入都用 1 進(jìn)行表示，如果存在第三段則用 2 進(jìn)行表示，也就是每一段都有一個(gè)不同的數(shù)字進(jìn)行表示，剩下 PAD 填充的位置仍然用 0 表示。如例子所見 how are you 對(duì)應(yīng)的 input_type_ids 向量維度為 128 ，前 5 個(gè)位置都是 0 ，因?yàn)闆]有第二段，所以后面都是 PAD 仍然用 0 表示。

（3）同樣我們也使用了 small_bert 接收 preprocess 處理之后的結(jié)果，這時(shí)我們可以產(chǎn)生四個(gè)對(duì)應(yīng)的張量 pooled_output、sequence_output、default、encoder_outputs ，這里我們主要用到前兩個(gè)：

pooled_output：一個(gè) [batch_size, 512] 的 float32 張量，每個(gè)張量都是 512 維，表示將每個(gè)輸入序列都編碼為一個(gè) 512 維的表示向量。
sequence_output：一個(gè) [batch_size, 128，512] 的 float32 張量，每個(gè)張量都是 [128, 512] 維，表示每個(gè)輸入序列的每個(gè) token 的編碼結(jié)果輸出是 512 維的表示。

處理器和模型獲?。?/p>

preprocess_url  = 'https://hub.tensorflow.google.cn/tensorflow/bert_en_uncased_preprocess/3'
preprocess = hub.KerasLayer(preprocess_url)
bert_url  = 'https://hub.tensorflow.google.cn/tensorflow/small_bert/bert_en_uncased_L-8_H-512_A-8/2'
bert_model = hub.KerasLayer(bert_url)

處理器例子展示：

text_test = ['how are you']
preprocess_result = preprocess(text_test)
print(f'keys           : {list(preprocess_result.keys())}')
print(f'shape          : {preprocess_result["input_word_ids"].shape}')
print(f'input_word_ids : {preprocess_result["input_word_ids"]}')
print(f'input_mask     : {preprocess_result["input_mask"]}')
print(f'input_type_ids : {preprocess_result["input_type_ids"]}')

輸出：

keys : ['input_word_ids', 'input_type_ids', 'input_mask']
shape : (1, 128)
input_word_ids : [[ 101 2129 2024 2017 102 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0]]
input_mask : [[1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]]
input_type_ids : [[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]]

模型例子展示：

bert_results = bert_model(preprocess_result)
print(f'Loaded BERT             : {bert_url}')
print(f'Keys                    : {list(bert_results.keys())}')
print(f'Pooled Outputs Shape    :{bert_results["pooled_output"].shape}')
print(f'Sequence Outputs Values :{bert_results["pooled_output"].dtype}')
print(f'Sequence Outputs Shape  :{bert_results["sequence_output"].shape}')
print(f'Sequence Outputs Values :{bert_results["sequence_output"].dtype}')

輸出：

Loaded BERT : https://hub.tensorflow.google.cn/tensorflow/small_bert/bert_en_uncased_L-8_H-512_A-8/2
Keys : ['pooled_output', 'sequence_output', 'default', 'encoder_outputs']
Pooled Outputs Shape :(1, 512)
Sequence Outputs Values :<dtype: 'float32'>
Sequence Outputs Shape :(1, 128, 512)
Sequence Outputs Values :<dtype: 'float32'>

5. 搭建模型

（1）第一層是輸入層，用來接收用戶輸入的文本。

（2）第二層是我們上面已經(jīng)介紹過得數(shù)據(jù)處理層，直接用從 TensorFlow Hub 下載的 bert_en_uncased_preprocess 處理器即可。

（3）第三層是我們的 BERT 層，這里也是用我們上面介紹過得模型，直接使用從 TensorFlow Hub 下載的 bert_en_uncased_L-8_H-512_A-8 模型即可。

（4）第四層是一個(gè) Dropout 層，用來將 BERT 輸出進(jìn)行隨機(jī)丟棄，避免過擬合。

（5）第五層一個(gè)輸出 1 維向量的全連接層，其實(shí)就是輸出該樣本的分類 logit 。

def create_model():
    text_input = tf.keras.layers.Input(shape=(), dtype=tf.string, name='text')
    preprocessing_layer = hub.KerasLayer(preprocess, name='preprocessing')
    encoder_inputs = preprocessing_layer(text_input)
    encoder = hub.KerasLayer(bert_url, trainable=True, name='BERT_encoder')
    outputs = encoder(encoder_inputs)
    net = outputs['pooled_output']
    net = tf.keras.layers.Dropout(0.1)(net)
    net = tf.keras.layers.Dense(1, activation=None, name='classifier')(net)
    return tf.keras.Model(text_input, net)
model = create_model()

6. 訓(xùn)練模型

（1）由于這是一個(gè)二元分類問題，并且模型最終輸出的是概率，因此我們選擇 BinaryCrossentropy 作為損失函數(shù)。使用 BinaryAccuracy 作為我們的評(píng)估指標(biāo)，在進(jìn)行預(yù)測(cè)的時(shí)候模型輸出概率大于 threshold 的預(yù)測(cè)為 1 也就是積極情緒的，小于等于 threshold 的預(yù)測(cè)為 0 ，也就是消極的，threshold 默認(rèn)是 0.5 。

（2）為了進(jìn)行微調(diào)，我們使用 BERT 最初訓(xùn)練時(shí)用的的優(yōu)化器：Adam 。該優(yōu)化器最大程度減少預(yù)測(cè)損失，并通過權(quán)重衰減進(jìn)行正則化，所以它也被稱為 AdamW 。

（3）我們使用與 BERT 預(yù)訓(xùn)練相同的學(xué)習(xí)率（也就是我們的 init_lr 變量），訓(xùn)練剛開始時(shí)，采用較小的學(xué)習(xí)率，隨著迭代次數(shù)增加學(xué)習(xí)率線性增大，當(dāng)?shù)竭_(dá)到 num_warmup_steps 時(shí)，學(xué)習(xí)率設(shè)置為為初始設(shè)定的學(xué)習(xí)率 init_lr ，然后學(xué)習(xí)率隨著迭代次數(shù)逐步衰減。BERT 論文中將用于微調(diào)的初始學(xué)習(xí)率設(shè)置較小,如:5e-5，3e-5，2e-5 。

（4）為什么使用 adamw 優(yōu)化器 ?由于剛開始訓(xùn)練時(shí),模型的權(quán)重是隨機(jī)初始化的，此時(shí)若選擇一個(gè)較大的學(xué)習(xí)率,可能帶來模型優(yōu)化的不穩(wěn)定(振蕩)，選擇 AdamW 優(yōu)化器，可以使得開始訓(xùn)練的若干 epoches 或者 steps 內(nèi)學(xué)習(xí)率較小,在預(yù)熱的小學(xué)習(xí)率下，模型可以慢慢趨于穩(wěn)定,等模型相對(duì)穩(wěn)定后再選擇預(yù)先設(shè)置的學(xué)習(xí)率進(jìn)行訓(xùn)練（此后的學(xué)習(xí)率是衰減的），有助于使模型收斂速度變快，效果更佳。

print(f'Training model with {bert_url}')
epochs = 5
steps_per_epoch = tf.data.experimental.cardinality(train_datas).numpy()
num_train_steps = steps_per_epoch * epochs
num_warmup_steps = int(0.1*num_train_steps)
optimizer = optimization.create_optimizer(init_lr=3e-5,  num_train_steps=num_train_steps, num_warmup_steps=num_warmup_steps, optimizer_type='adamw')
model.compile(optimizer=optimizer, loss=tf.keras.losses.BinaryCrossentropy(from_logits=True), metrics=tf.metrics.BinaryAccuracy())
history = model.fit(x=train_datas, validation_data=val_datas, epochs=epochs)

訓(xùn)練過程，可以看出相當(dāng)耗時(shí)，這也是使用 BERT 的一個(gè)明顯缺點(diǎn)：

Training model with https://hub.tensorflow.google.cn/tensorflow/small_bert/bert_en_uncased_L-8_H-512_A-8/2
Epoch 1/5
313/313 [==============================] - 3433s 11s/step - loss: 0.4705 - binary_accuracy: 0.7515 - val_loss: 0.3789 - val_binary_accuracy: 0.8124
Epoch 2/5
313/313 [==============================] - 3328s 11s/step - loss: 0.3043 - binary_accuracy: 0.8653 - val_loss: 0.3734 - val_binary_accuracy: 0.8450
Epoch 3/5
313/313 [==============================] - 3293s 11s/step - loss: 0.2301 - binary_accuracy: 0.9024 - val_loss: 0.4295 - val_binary_accuracy: 0.8532
Epoch 4/5
313/313 [==============================] - 3289s 11s/step - loss: 0.1697 - binary_accuracy: 0.9344 - val_loss: 0.4831 - val_binary_accuracy: 0.8492
Epoch 5/5
313/313 [==============================] - 3411s 11s/step - loss: 0.1308 - binary_accuracy: 0.9497 - val_loss: 0.4631 - val_binary_accuracy: 0.8538

7. 測(cè)試模型

使用測(cè)試數(shù)據(jù)對(duì)訓(xùn)練好的模型進(jìn)行評(píng)估，可以看到準(zhǔn)確率達(dá)到了 0.8630 ，如果給予充足的調(diào)參和訓(xùn)練時(shí)間，效果會(huì)更好。

model.evaluate(test_datas)

輸出：

391/391 [==============================] - 1153s 3s/step - loss: 0.4290 - binary_accuracy: 0.8630

8. 保存模型

將訓(xùn)練好的模型保存到本地，以后可以隨時(shí)讀取模型進(jìn)行預(yù)測(cè)工作。

dataset_name = 'imdb'
saved_model_path = './{}_bert'.format(dataset_name.replace('/', '_'))
model.save(saved_model_path, include_optimizer=False)

9. 重新加載模型并進(jìn)行預(yù)測(cè)

我們將使用上面已經(jīng)存在的模型 model 和剛才重新加載的模型 reloaded_model 進(jìn)行預(yù)測(cè)，將一個(gè)積極情緒樣本和一個(gè)消極情緒樣本輸入模型，發(fā)現(xiàn)能夠預(yù)測(cè)正確（接近），而且兩個(gè)模型的結(jié)果是一樣的。

def print_my_examples(inputs, results):
    result_for_printing =  [f'input: {inputs[i]:<30} : score: {results[i][0]:.6f}' for i in range(len(inputs))]
    print(*result_for_printing, sep='\n')
examples = ['The movie was great!', 'The movie was terrible...']
reloaded_model = tf.saved_model.load(saved_model_path)
reloaded_results = tf.sigmoid(reloaded_model(tf.constant(examples)))
original_results = tf.sigmoid(model(tf.constant(examples)))
print('Results from reloaded_model:')
print_my_examples(examples, reloaded_results)
print('Results from model:')
print_my_examples(examples, original_results)

結(jié)果輸出：

Results from reloaded_model:
input: The movie was great! : score: 0.994967
input: The movie was terrible... : score: 0.002266
Results from model:
input: The movie was great! : score: 0.994967
input: The movie was terrible... : score: 0.002266

以上就是Tensorflow2.8 使用 BERT 進(jìn)行文本分類的詳細(xì)內(nèi)容，更多關(guān)于Tensorflow BERT文本分類的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

深度學(xué)習(xí)Tensorflow2.8?使用?BERT?進(jìn)行文本分類

目錄

前言

1. python 庫準(zhǔn)備

2. BERT 是什么？

3. 獲取并處理 IMDB 數(shù)據(jù)

4. 初識(shí) TensorFlow Hub 中的 BERT 處理器和模型

5. 搭建模型

6. 訓(xùn)練模型

7. 測(cè)試模型

8. 保存模型

9. 重新加載模型并進(jìn)行預(yù)測(cè)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

深度學(xué)習(xí)Tensorflow2.8?使用?BERT?進(jìn)行文本分類

目錄

前言

1. python 庫準(zhǔn)備

2. BERT 是什么？

3. 獲取并處理 IMDB 數(shù)據(jù)

4. 初識(shí) TensorFlow Hub 中的 BERT 處理器和模型

5. 搭建模型

6. 訓(xùn)練模型

7. 測(cè)試模型

8. 保存模型

9. 重新加載模型并進(jìn)行預(yù)測(cè)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

2. BERT 是什么？