讀取訓(xùn)練文件,提取出所有的單詞,并統(tǒng)計各個單詞出現(xiàn)的次數(shù)。為了避免低頻詞的干擾,同時減少模型參數(shù),我們只保留部分高頻詞,比如這里我只保存出現(xiàn)次數(shù)前9999個,同時將低頻詞標(biāo)識符<unkown>加入到詞匯表中。 3.借助詞匯表將影評轉(zhuǎn)化為詞向量 單詞是沒法直接輸入給模型的,所以我們需要將詞匯表中的每個單詞對應(yīng)于一個編號...
www.dbjr.com.cn/article/1371...htm 2025-6-1