作者：劉健健

來(lái)自：ChallengeHub

Twitter 的推文有許多特點(diǎn)，首先，與 Facebook 不同的是，推文是基于文本的，可以通過(guò) Twitter 接口注冊(cè)下載，便于作為自然語(yǔ)言處理所需的語(yǔ)料庫(kù)。其次，Twitter 規(guī)定了每一個(gè)推文不超過(guò) 140 個(gè)字，實(shí)際推文中的文本長(zhǎng)短不一、長(zhǎng)度一般較短，有些只有一個(gè)句子甚至一個(gè)短語(yǔ)，這對(duì)其開(kāi)展情感分類(lèi)標(biāo)注帶來(lái)許多困難。再者，推文常常是隨性所作，內(nèi)容中包含情感的元素較多，口語(yǔ)化內(nèi)容居多，縮寫(xiě)隨處都在，并且使用了許多網(wǎng)絡(luò)用語(yǔ)，情緒符號(hào)、新詞和俚語(yǔ)隨處可見(jiàn)。因此，與正式文本非常不同。如果采用那些適合處理正式文本的情感分類(lèi)方法來(lái)對(duì) Twitter 推文進(jìn)行情感分類(lèi)，效果將不盡人意。

公眾情感在包括電影評(píng)論、消費(fèi)者信心、政治選舉、股票走勢(shì)預(yù)測(cè)等眾多領(lǐng)域發(fā)揮著越來(lái)越大的影響力。面向公共媒體內(nèi)容開(kāi)展情感分析是分析公眾情感的一項(xiàng)基礎(chǔ)工作。

二、數(shù)據(jù)基本情況

數(shù)據(jù)集基于推特用戶(hù)發(fā)表的推文數(shù)據(jù)集，并且針對(duì)部分字段做出了一定的調(diào)整，所有的字段信息請(qǐng)以本練習(xí)賽提供的字段信息為準(zhǔn)

字段信息內(nèi)容參考如下：

tweet_id string 推文數(shù)據(jù)的唯一ID，比如test_0，train_1024

content string 推特內(nèi)容

label int 推特情感的類(lèi)別，共13種情感

其中訓(xùn)練集train.csv包含3w條數(shù)據(jù)，字段包括tweet_id，content，label；測(cè)試集test.csv包含1w條數(shù)據(jù)，字段包括tweet_id，content。

tweet_id,content,label
tweet_1,Layinnbedwithaheadacheughhhh...waitinonyourcall...,1
tweet_2,Funeralceremony...gloomyfriday...,1
tweet_3,wantstohangoutwithfriendsSOON!,2
tweet_4,"@dannycastilloWewanttotradewithsomeonewhohasHoustontickets,butnoonewill.",3
tweet_5,"Ishouldbesleep,butimnot!thinkingaboutanoldfriendwhoIwant.buthe'smarriednow.damn,&hewantsme2!scandalous!",1
tweet_6,Hmmm.
http://www.djhero.com/isdown,4
tweet_7,@charvirayCharlenemylove.Imissyou,1
tweet_8,cantfallasleep,3

!head/home/mw/input/Twitter4903/train.csv

tweet_id,content,label
tweet_0,@tiffanylueiknowiwaslistenintobadhabitearlierandistartedfreakinathispart=[,0
tweet_1,Layinnbedwithaheadacheughhhh...waitinonyourcall...,1
tweet_2,Funeralceremony...gloomyfriday...,1
tweet_3,wantstohangoutwithfriendsSOON!,2
tweet_4,"@dannycastilloWewanttotradewithsomeonewhohasHoustontickets,butnoonewill.",3
tweet_5,"Ishouldbesleep,butimnot!thinkingaboutanoldfriendwhoIwant.buthe'smarriednow.damn,&hewantsme2!scandalous!",1
tweet_6,Hmmm.http://www.djhero.com/isdown,4
tweet_7,@charvirayCharlenemylove.Imissyou,1
tweet_8,cantfallasleep,3

!head/home/mw/input/Twitter4903/test.csv

tweet_id,content
tweet_0,Re-pinging@ghostridah14:whydidn'tyougotoprom?BCmybfdidn'tlikemyfriends
tweet_1,@kelcouchI'msorryatleastit'sFriday?
tweet_2,Thestormishereandtheelectricityisgone
tweet_3,Sosleepyagainandit'snoteventhatlate.Ifailonceagain.
tweet_4,"WonderingwhyI'mawakeat7am,writinganewsong,plottingmyevilsecretplotsmuahahaha...ohdamnit,notsecretanymore"
tweet_5,IateSomethingIdon'tknowwhatitis...WhydoIkeepTellingthingsaboutfood
tweet_6,sotiredandithinki'mdefinitelygoingtogetanearinfection.goingtobed"early"foronce.
tweet_7,Itissoannoyingwhenshestartstypingonhercomputerinthemiddleofthenight!
tweet_8,Screwyou@davidbrussee!Ionlyhave3weeks...

!head/home/mw/input/Twitter4903/submission.csv

tweet_id,label
tweet_0,0
tweet_1,0
tweet_2,0
tweet_3,0
tweet_4,0
tweet_5,0
tweet_6,0
tweet_7,0
tweet_8,0

三、數(shù)據(jù)集定義

1.環(huán)境準(zhǔn)備

環(huán)境準(zhǔn)備 (建議gpu環(huán)境，速度好。pip install paddlepaddle-gpu)

!pipinstallpaddlepaddle
!pipinstall-Upaddlenlp

2.獲取句子最大長(zhǎng)度

自定義PaddleNLP dataset的read方法

importpandasaspd
train=pd.read_csv('/home/mw/input/Twitter4903/train.csv')
test=pd.read_csv('/home/mw/input/Twitter4903/test.csv')
sub=pd.read_csv('/home/mw/input/Twitter4903/submission.csv')
print('最大內(nèi)容長(zhǎng)度%d'%(max(train['content'].str.len())))

最大內(nèi)容長(zhǎng)度 166

3.定義數(shù)據(jù)集

定義讀取函數(shù)

defread(pd_data):
forindex,iteminpd_data.iterrows():
yield{'text':item['content'],'label':item['label'],'qid':item['tweet_id'].strip('tweet_')}

分割訓(xùn)練集、測(cè)試機(jī)

frompaddle.ioimportDataset,Subset
frompaddlenlp.datasetsimportMapDataset
frompaddlenlp.datasetsimportload_dataset

dataset=load_dataset(read,pd_data=train,lazy=False)
dev_ds=Subset(dataset=dataset,indices=[iforiinrange(len(dataset))ifi%5==1])
train_ds=Subset(dataset=dataset,indices=[iforiinrange(len(dataset))ifi%5!=1])

查看訓(xùn)練集

foriinrange(5):
print(train_ds[i])

{'text':'@tiffanylueiknowiwaslistenintobadhabitearlierandistartedfreakinathispart=[','label':0,'qid':'0'}
{'text':'Funeralceremony...gloomyfriday...','label':1,'qid':'2'}
{'text':'wantstohangoutwithfriendsSOON!','label':2,'qid':'3'}
{'text':'@dannycastilloWewanttotradewithsomeonewhohasHoustontickets,butnoonewill.','label':3,'qid':'4'}
{'text':"Ishouldbesleep,butimnot!thinkingaboutanoldfriendwhoIwant.buthe'smarriednow.damn,&hewantsme2!scandalous!",'label':1,'qid':'5'}

在轉(zhuǎn)換為MapDataset類(lèi)型

train_ds=MapDataset(train_ds)
dev_ds=MapDataset(dev_ds)
print(len(train_ds))
print(len(dev_ds))

240006000

四、模型選擇

近年來(lái)，大量的研究表明基于大型語(yǔ)料庫(kù)的預(yù)訓(xùn)練模型（Pretrained Models, PTM）可以學(xué)習(xí)通用的語(yǔ)言表示，有利于下游NLP任務(wù)，同時(shí)能夠避免從零開(kāi)始訓(xùn)練模型。隨著計(jì)算能力的發(fā)展，深度模型的出現(xiàn)（即 Transformer）和訓(xùn)練技巧的增強(qiáng)使得 PTM 不斷發(fā)展，由淺變深。

情感預(yù)訓(xùn)練模型SKEP（Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis）。SKEP利用情感知識(shí)增強(qiáng)預(yù)訓(xùn)練模型，在14項(xiàng)中英情感分析典型任務(wù)上全面超越SOTA，此工作已經(jīng)被ACL 2020錄用。SKEP是百度研究團(tuán)隊(duì)提出的基于情感知識(shí)增強(qiáng)的情感預(yù)訓(xùn)練算法，此算法采用無(wú)監(jiān)督方法自動(dòng)挖掘情感知識(shí)，然后利用情感知識(shí)構(gòu)建預(yù)訓(xùn)練目標(biāo)，從而讓機(jī)器學(xué)會(huì)理解情感語(yǔ)義。SKEP為各類(lèi)情感分析任務(wù)提供統(tǒng)一且強(qiáng)大的情感語(yǔ)義表示。

百度研究團(tuán)隊(duì)在三個(gè)典型情感分析任務(wù)，句子級(jí)情感分類(lèi)（Sentence-level Sentiment Classification），評(píng)價(jià)目標(biāo)級(jí)情感分類(lèi)（Aspect-level Sentiment Classification）、觀(guān)點(diǎn)抽?。∣pinion Role Labeling），共計(jì)14個(gè)中英文數(shù)據(jù)上進(jìn)一步驗(yàn)證了情感預(yù)訓(xùn)練模型SKEP的效果。

具體實(shí)驗(yàn)效果參考：https://github.com/baidu/Senta#skep

PaddleNLP已經(jīng)實(shí)現(xiàn)了SKEP預(yù)訓(xùn)練模型，可以通過(guò)一行代碼實(shí)現(xiàn)SKEP加載。

句子級(jí)情感分析模型是SKEP fine-tune 文本分類(lèi)常用模型SkepForSequenceClassification。其首先通過(guò)SKEP提取句子語(yǔ)義特征，之后將語(yǔ)義特征進(jìn)行分類(lèi)。

!pipinstallregex

Lookinginindexes:https://mirror.baidu.com/pypi/simple/
Requirementalreadysatisfied:regexin/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages(2021.8.28)

1.Skep模型加載

SkepForSequenceClassification可用于句子級(jí)情感分析和目標(biāo)級(jí)情感分析任務(wù)。其通過(guò)預(yù)訓(xùn)練模型SKEP獲取輸入文本的表示，之后將文本表示進(jìn)行分類(lèi)。

pretrained_model_name_or_path：模型名稱(chēng)。支持"skep_ernie_1.0_large_ch"，“skep_ernie_2.0_large_en”。

** “skep_ernie_1.0_large_ch”：是SKEP模型在預(yù)訓(xùn)練ernie_1.0_large_ch基礎(chǔ)之上在海量中文數(shù)據(jù)上繼續(xù)預(yù)訓(xùn)練得到的中文預(yù)訓(xùn)練模型；

“skep_ernie_2.0_large_en”：是SKEP模型在預(yù)訓(xùn)練ernie_2.0_large_en基礎(chǔ)之上在海量英文數(shù)據(jù)上繼續(xù)預(yù)訓(xùn)練得到的英文預(yù)訓(xùn)練模型；

num_classes: 數(shù)據(jù)集分類(lèi)類(lèi)別數(shù)。

關(guān)于SKEP模型實(shí)現(xiàn)詳細(xì)信息參考：https://github.com/PaddlePaddle/PaddleNLP/tree/develop/paddlenlp/transformers/skep

from paddlenlp.transformers import SkepForSequenceClassification, SkepTokenizer

指定模型名稱(chēng)，一鍵加載模型

model=SkepForSequenceClassification.from_pretrained(pretrained_model_name_or_path="skep_ernie_2.0_large_en",num_classes=13)

同樣地，通過(guò)指定模型名稱(chēng)一鍵加載對(duì)應(yīng)的Tokenizer，用于處理文本數(shù)據(jù)，如切分token，轉(zhuǎn)token_id等。

tokenizer=SkepTokenizer.from_pretrained(pretrained_model_name_or_path="skep_ernie_2.0_large_en")

[2021-09-161058,665][INFO]-Alreadycached/home/aistudio/.paddlenlp/models/skep_ernie_2.0_large_en/skep_ernie_2.0_large_en.pdparams
[2021-09-161010,133][INFO]-Found/home/aistudio/.paddlenlp/models/skep_ernie_2.0_large_en/skep_ernie_2.0_large_en.vocab.txt

2.引入可視化VisualDl

fromvisualdlimportLogWriter

writer=LogWriter("./log")

3.數(shù)據(jù)處理

SKEP模型對(duì)文本處理按照字粒度進(jìn)行處理，我們可以使用PaddleNLP內(nèi)置的SkepTokenizer完成一鍵式處理。

defconvert_example(example,
tokenizer,
max_seq_length=512,
is_test=False):

#將原數(shù)據(jù)處理成model可讀入的格式，enocded_inputs是一個(gè)dict，包含input_ids、token_type_ids等字段
encoded_inputs=tokenizer(
text=example["text"],max_seq_len=max_seq_length)

# input_ids：對(duì)文本切分token后，在詞匯表中對(duì)應(yīng)的token id
input_ids=encoded_inputs["input_ids"]
# token_type_ids：當(dāng)前token屬于句子1還是句子2，即上述圖中表達(dá)的segment ids
token_type_ids=encoded_inputs["token_type_ids"]

ifnotis_test:
# label：情感極性類(lèi)別
label=np.array([example["label"]],dtype="int64")
returninput_ids,token_type_ids,label
else:
# qid：每條數(shù)據(jù)的編號(hào)
qid=np.array([example["qid"]],dtype="int64")
returninput_ids,token_type_ids,qid

defcreate_dataloader(dataset,
trans_fn=None,
mode='train',
batch_size=1,
batchify_fn=None):

iftrans_fn:
dataset=dataset.map(trans_fn)

shuffle=Trueifmode=='train'elseFalse
ifmode=="train":
sampler=paddle.io.DistributedBatchSampler(
dataset=dataset,batch_size=batch_size,shuffle=shuffle)
else:
sampler=paddle.io.BatchSampler(
dataset=dataset,batch_size=batch_size,shuffle=shuffle)
dataloader=paddle.io.DataLoader(
dataset,batch_sampler=sampler,collate_fn=batchify_fn)
returndataloader

4.評(píng)估函數(shù)定義

importnumpyasnp
importpaddle

@paddle.no_grad()
defevaluate(model,criterion,metric,data_loader):

model.eval()
metric.reset()
losses=[]
forbatchindata_loader:
input_ids,token_type_ids,labels=batch
logits=model(input_ids,token_type_ids)
loss=criterion(logits,labels)
losses.append(loss.numpy())
correct=metric.compute(logits,labels)
metric.update(correct)
accu=metric.accumulate()
#print("evalloss:%.5f,accu:%.5f"%(np.mean(losses),accu))
model.train()
metric.reset()
returnnp.mean(losses),accu

5.超參定義

定義損失函數(shù)、優(yōu)化器以及評(píng)價(jià)指標(biāo)后，即可開(kāi)始訓(xùn)練。

推薦超參設(shè)置：

batch_size=100
max_seq_length=166
batch_size=100
learning_rate=4e-5
epochs=32
warmup_proportion=0.1
weight_decay=0.01

實(shí)際運(yùn)行時(shí)可以根據(jù)顯存大小調(diào)整batch_size和max_seq_length大小。

importos
fromfunctoolsimportpartial


importnumpyasnp
importpaddle
importpaddle.nn.functionalasF
frompaddlenlp.dataimportStack,Tuple,Pad

#批量數(shù)據(jù)大小
batch_size=100
#文本序列最大長(zhǎng)度166
max_seq_length=166
#批量數(shù)據(jù)大小
batch_size=100
#定義訓(xùn)練過(guò)程中的最大學(xué)習(xí)率
learning_rate=4e-5
#訓(xùn)練輪次
epochs=32
#學(xué)習(xí)率預(yù)熱比例
warmup_proportion=0.1
#權(quán)重衰減系數(shù)，類(lèi)似模型正則項(xiàng)策略，避免模型過(guò)擬合
weight_decay=0.01

將數(shù)據(jù)處理成模型可讀入的數(shù)據(jù)格式

trans_func=partial(
convert_example,
tokenizer=tokenizer,
max_seq_length=max_seq_length)

將數(shù)據(jù)組成批量式數(shù)據(jù)，如將不同長(zhǎng)度的文本序列padding到批量式數(shù)據(jù)中最大長(zhǎng)度將每條數(shù)據(jù)label堆疊在一起

batchify_fn=lambdasamples,fn=Tuple(
Pad(axis=0,pad_val=tokenizer.pad_token_id),#input_ids
Pad(axis=0,pad_val=tokenizer.pad_token_type_id),#token_type_ids
Stack()#labels
):[datafordatainfn(samples)]
train_data_loader=create_dataloader(
train_ds,
mode='train',
batch_size=batch_size,
batchify_fn=batchify_fn,
trans_fn=trans_func)
dev_data_loader=create_dataloader(
dev_ds,
mode='dev',
batch_size=batch_size,
batchify_fn=batchify_fn,
trans_fn=trans_func)

定義超參，loss，優(yōu)化器等

frompaddlenlp.transformersimportLinearDecayWithWarmup
importtime

num_training_steps=len(train_data_loader)*epochs
lr_scheduler=LinearDecayWithWarmup(learning_rate,num_training_steps,warmup_proportion)

AdamW優(yōu)化器

optimizer=paddle.optimizer.AdamW(
learning_rate=lr_scheduler,
parameters=model.parameters(),
weight_decay=weight_decay,
apply_decay_param_fun=lambdax:xin[
p.nameforn,pinmodel.named_parameters()
ifnotany(ndinnforndin["bias","norm"])
])

criterion=paddle.nn.loss.CrossEntropyLoss()#交叉熵?fù)p失函數(shù)
metric=paddle.metric.Accuracy()#accuracy評(píng)價(jià)指標(biāo)

五、訓(xùn)練

訓(xùn)練且保存最佳結(jié)果

開(kāi)啟訓(xùn)練

global_step=0
best_val_acc=0
tic_train=time.time()
best_accu=0
forepochinrange(1,epochs+1):
forstep,batchinenumerate(train_data_loader,start=1):
input_ids,token_type_ids,labels=batch
#喂數(shù)據(jù)給model
logits=model(input_ids,token_type_ids)
#計(jì)算損失函數(shù)值
loss=criterion(logits,labels)
#預(yù)測(cè)分類(lèi)概率值
probs=F.softmax(logits,axis=1)
#計(jì)算acc
correct=metric.compute(probs,labels)
metric.update(correct)
acc=metric.accumulate()

global_step+=1

ifglobal_step%10==0:
print(
"globalstep%d,epoch:%d,batch:%d,loss:%.5f,accu:%.5f,speed:%.2fstep/s"
%(global_step,epoch,step,loss,acc,
10/(time.time()-tic_train)))
tic_train=time.time()

#反向梯度回傳，更新參數(shù)
loss.backward()
optimizer.step()
lr_scheduler.step()
optimizer.clear_grad()

ifglobal_step%100==0and:
#評(píng)估當(dāng)前訓(xùn)練的模型
eval_loss,eval_accu=evaluate(model,criterion,metric,dev_data_loader)
print("evalondevloss:{:.8},accu:{:.8}".format(eval_loss,eval_accu))
#加入eval日志顯示
writer.add_scalar(tag="eval/loss",step=global_step,value=eval_loss)
writer.add_scalar(tag="eval/acc",step=global_step,value=eval_accu)
#加入train日志顯示
writer.add_scalar(tag="train/loss",step=global_step,value=loss)
writer.add_scalar(tag="train/acc",step=global_step,value=acc)
save_dir="best_checkpoint"
#加入保存
ifeval_accu>best_val_acc:
ifnotos.path.exists(save_dir):
os.mkdir(save_dir)
best_val_acc=eval_accu
print(f"模型保存在{global_step}步，最佳eval準(zhǔn)確度為{best_val_acc:.8f}！")
save_param_path=os.path.join(save_dir,'best_model.pdparams')
paddle.save(model.state_dict(),save_param_path)
fh=open('best_checkpoint/best_model.txt','w',encoding='utf-8')
fh.write(f"模型保存在{global_step}步，最佳eval準(zhǔn)確度為{best_val_acc:.8f}！")
fh.close()

globalstep10,epoch:1,batch:10,loss:2.64415,accu:0.08400,speed:0.96step/s
globalstep20,epoch:1,batch:20,loss:2.48083,accu:0.09050,speed:0.98step/s
globalstep30,epoch:1,batch:30,loss:2.36845,accu:0.10933,speed:0.98step/s
globalstep40,epoch:1,batch:40,loss:2.24933,accu:0.13750,speed:1.00step/s
globalstep50,epoch:1,batch:50,loss:2.14947,accu:0.15380,speed:0.97step/s
globalstep60,epoch:1,batch:60,loss:2.03459,accu:0.17100,speed:0.96step/s
globalstep70,epoch:1,batch:70,loss:2.23222,accu:0.18414,speed:1.01step/s

visualdl 可視化訓(xùn)練，時(shí)刻掌握訓(xùn)練走勢(shì)，不浪費(fèi)算力
六、預(yù)測(cè)

訓(xùn)練完成后，重啟環(huán)境，釋放顯存，開(kāi)始預(yù)測(cè)

1.test數(shù)據(jù)集讀取

數(shù)據(jù)讀取

importpandasaspd
frompaddlenlp.datasetsimportload_dataset
frompaddle.ioimportDataset,Subset
frompaddlenlp.datasetsimportMapDataset

test=pd.read_csv('/home/mw/input/Twitter4903/test.csv')

數(shù)據(jù)讀取

defread_test(pd_data):
forindex,iteminpd_data.iterrows():
yield{'text':item['content'],'label':0,'qid':item['tweet_id'].strip('tweet_')}

test_ds=load_dataset(read_test,pd_data=test,lazy=False)
#在轉(zhuǎn)換為MapDataset類(lèi)型
test_ds=MapDataset(test_ds)
print(len(test_ds))

defconvert_example(example,
tokenizer,
max_seq_length=512,
is_test=False):

#將原數(shù)據(jù)處理成model可讀入的格式，enocded_inputs是一個(gè)dict，包含input_ids、token_type_ids等字段
encoded_inputs=tokenizer(
text=example["text"],max_seq_len=max_seq_length)

# input_ids：對(duì)文本切分token后，在詞匯表中對(duì)應(yīng)的token id
input_ids=encoded_inputs["input_ids"]
# token_type_ids：當(dāng)前token屬于句子1還是句子2，即上述圖中表達(dá)的segment ids
token_type_ids=encoded_inputs["token_type_ids"]

ifnotis_test:
# label：情感極性類(lèi)別
label=np.array([example["label"]],dtype="int64")
returninput_ids,token_type_ids,label
else:
# qid：每條數(shù)據(jù)的編號(hào)
qid=np.array([example["qid"]],dtype="int64")
returninput_ids,token_type_ids,qid

defcreate_dataloader(dataset,
trans_fn=None,
mode='train',
batch_size=1,
batchify_fn=None):

iftrans_fn:
dataset=dataset.map(trans_fn)

shuffle=Trueifmode=='train'elseFalse
ifmode=="train":
sampler=paddle.io.DistributedBatchSampler(
dataset=dataset,batch_size=batch_size,shuffle=shuffle)
else:
sampler=paddle.io.BatchSampler(
dataset=dataset,batch_size=batch_size,shuffle=shuffle)
dataloader=paddle.io.DataLoader(
dataset,batch_sampler=sampler,collate_fn=batchify_fn)
returndataloader

2.模型加載

frompaddlenlp.transformersimportSkepForSequenceClassification,SkepTokenizer

指定模型名稱(chēng)，一鍵加載模型

model=SkepForSequenceClassification.from_pretrained(pretrained_model_name_or_path="skep_ernie_2.0_large_en",num_classes=13)

同樣地，通過(guò)指定模型名稱(chēng)一鍵加載對(duì)應(yīng)的Tokenizer，用于處理文本數(shù)據(jù)，如切分token，轉(zhuǎn)token_id等。

tokenizer=SkepTokenizer.from_pretrained(pretrained_model_name_or_path="skep_ernie_2.0_large_en")

fromfunctoolsimportpartial
importnumpyasnp
importpaddle
importpaddle.nn.functionalasF
frompaddlenlp.dataimportStack,Tuple,Pad
batch_size=16
max_seq_length=166
#處理測(cè)試集數(shù)據(jù)
trans_func=partial(
convert_example,
tokenizer=tokenizer,
max_seq_length=max_seq_length,
is_test=True)
batchify_fn=lambdasamples,fn=Tuple(
Pad(axis=0,pad_val=tokenizer.pad_token_id),#input
Pad(axis=0,pad_val=tokenizer.pad_token_type_id),#segment
Stack()#qid
):[datafordatainfn(samples)]
test_data_loader=create_dataloader(
test_ds,
mode='test',
batch_size=batch_size,
batchify_fn=batchify_fn,
trans_fn=trans_func)

加載模型

importos

#根據(jù)實(shí)際運(yùn)行情況，更換加載的參數(shù)路徑
params_path='best_checkpoint/best_model.pdparams'
ifparams_pathandos.path.isfile(params_path):
#加載模型參數(shù)
state_dict=paddle.load(params_path)
model.set_dict(state_dict)
print("Loadedparametersfrom%s"%params_path)

3.數(shù)據(jù)預(yù)測(cè)

results=[]
#切換model模型為評(píng)估模式，關(guān)閉dropout等隨機(jī)因素
model.eval()
forbatchintest_data_loader:
input_ids,token_type_ids,qids=batch
#喂數(shù)據(jù)給模型
logits=model(input_ids,token_type_ids)
#預(yù)測(cè)分類(lèi)
probs=F.softmax(logits,axis=-1)
idx=paddle.argmax(probs,axis=1).numpy()
idx=idx.tolist()
qids=qids.numpy().tolist()
results.extend(zip(qids,idx))

4.保存并提交

#寫(xiě)入預(yù)測(cè)結(jié)果，提交
withopen("submission.csv",'w',encoding="utf-8")asf:
#f.write("數(shù)據(jù)ID,評(píng)分
")
f.write("tweet_id,label
")

for(idx,label)inresults:
f.write('tweet_'+str(idx[0])+","+str(label)+"
")

七、注意事項(xiàng)

1.使用pandas讀取平面文件相對(duì)方便
2.max_seq_length用pandas統(tǒng)計(jì)最大值出來(lái)較為合適
3.用pandas可以分析數(shù)據(jù)分布
4.PaddleNLP在自然語(yǔ)言處理方面，有特別多的積累，特別方便，可上github了解

八、PaddleNLP是什么？

1.gitee地址

https://gitee.com/paddlepaddle/PaddleNLP/blob/develop/README.md

2.簡(jiǎn)介

PaddleNLP 2.0是飛槳生態(tài)的文本領(lǐng)域核心庫(kù)，具備易用的文本領(lǐng)域API，多場(chǎng)景的應(yīng)用示例、和高性能分布式訓(xùn)練三大特點(diǎn)，旨在提升開(kāi)發(fā)者文本領(lǐng)域的開(kāi)發(fā)效率，并提供基于飛槳2.0核心框架的NLP任務(wù)最佳實(shí)踐。

基于飛槳核心框架領(lǐng)先的自動(dòng)混合精度優(yōu)化策略，結(jié)合分布式Fleet API，支持4D混合并行策略，可高效地完成超大規(guī)模參數(shù)的模型訓(xùn)練。

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

nlp

nlp

+關(guān)注

關(guān)注
1

文章
491

瀏覽量
23285
paddle

paddle

+關(guān)注

關(guān)注
0

文章
4

瀏覽量
2189

原文標(biāo)題：八、PaddleNLP是什么？

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

關(guān)于PaddleNLP你了解多少

三、數(shù)據(jù)集定義

1.環(huán)境準(zhǔn)備

2.獲取句子最大長(zhǎng)度

自定義PaddleNLP dataset的read方法

3.定義數(shù)據(jù)集

定義讀取函數(shù)

分割訓(xùn)練集、測(cè)試機(jī)

查看訓(xùn)練集

在轉(zhuǎn)換為MapDataset類(lèi)型

四、模型選擇

1.Skep模型加載

2.引入可視化VisualDl

3.數(shù)據(jù)處理

4.評(píng)估函數(shù)定義

5.超參定義

五、訓(xùn)練

1.test數(shù)據(jù)集讀取

2.模型加載

3.數(shù)據(jù)預(yù)測(cè)

4.保存并提交

七、注意事項(xiàng)

八、PaddleNLP是什么？

1.gitee地址

2.簡(jiǎn)介

評(píng)論

搜索歷史

關(guān)于PaddleNLP你了解多少

三、數(shù)據(jù)集定義

1.環(huán)境準(zhǔn)備

2.獲取句子最大長(zhǎng)度

自定義PaddleNLP dataset的read方法

3.定義數(shù)據(jù)集

定義讀取函數(shù)

分割訓(xùn)練集、測(cè)試機(jī)

查看訓(xùn)練集

在轉(zhuǎn)換為MapDataset類(lèi)型

四、模型選擇

1.Skep模型加載

2.引入可視化VisualDl

3.數(shù)據(jù)處理

4.評(píng)估函數(shù)定義

5.超參定義

五、訓(xùn)練

1.test數(shù)據(jù)集讀取

2.模型加載

3.數(shù)據(jù)預(yù)測(cè)

4.保存并提交

七、注意事項(xiàng)

八、PaddleNLP是什么？

1.gitee地址

2.簡(jiǎn)介

評(píng)論

三、數(shù)據(jù)集定義

分割訓(xùn)練集、測(cè)試機(jī)

四、模型選擇

五、訓(xùn)練

七、注意事項(xiàng)

八、PaddleNLP是什么？