91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Python自然語言處理實(shí)戰(zhàn):兩篇文章相似度清晰透明

lviY_AI_shequ ? 來源:電子發(fā)燒友網(wǎng) ? 作者:工程師譚軍 ? 2018-07-09 09:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

此書專注于中文的自然語言處理,以Python及其相關(guān)框架為工具,以實(shí)戰(zhàn)為導(dǎo)向,詳細(xì)講解了自然語言處理的各種核心技術(shù)、方法論和經(jīng)典算法。三位作者在人工智能、大數(shù)據(jù)和算法領(lǐng)域有豐富的積累和經(jīng)驗(yàn),是阿里巴巴、前明略數(shù)據(jù)和七牛云的資深專家。同時(shí),本書也得到了阿里巴巴達(dá)摩院高級算法專家、七牛云AI實(shí)驗(yàn)室Leader等專家的高度評價(jià)和鼎力推薦。

本節(jié)將利用訓(xùn)練好的詞向量和段落向量對兩篇關(guān)于天津全運(yùn)會的新聞進(jìn)行向量化,并計(jì)算兩篇新聞的相似度。如下是兩篇新聞:

新聞1:6日,第十三屆全運(yùn)會女子籃球成年組決賽在天津財(cái)經(jīng)大學(xué)體育館打響,中國籃協(xié)主席姚明到場觀戰(zhàn)。姚明在接受媒體采訪時(shí)表示,天津全運(yùn)會是全社會的體育盛會,他稱贊了賽事保障與服務(wù)工作,并表示中國籃協(xié)將在未來的工作中挖掘天津籃球文化的價(jià)值。

本屆天津全運(yùn)會增加了包括攀巖、馬拉松、象棋在內(nèi)的19個(gè)大項(xiàng)的群眾體育比賽項(xiàng)目,普通群眾成為賽場“主角”。對此,姚明表示:“引入群眾性的體育項(xiàng)目,真正做到了全運(yùn)會的‘全’字,這不僅僅是專業(yè)運(yùn)動員的盛會,更是全社會的體育盛會?!闭劶氨緦萌\(yùn)會賽事籌備與保障服務(wù)時(shí),姚明說:“全運(yùn)會得到了天津市委市政府和各區(qū)、各學(xué)校的大力幫助,籃球項(xiàng)目比賽(順利舉辦)要感謝天津方方面面的支持?!贝送?,姚明還對全運(yùn)村內(nèi)的保障服務(wù)和志愿者工作表示贊賞?!昂芏嗍煜さ慕叹殕T和運(yùn)動員都表示服務(wù)保障很不錯(cuò),志愿者態(tài)度很積極?!薄拔阌怪靡桑旖蚴侵袊@球發(fā)源地,1895年,在籃球運(yùn)動誕生4年的時(shí)候就漂洋過海從天津上岸,這是中國籃球具有歷史意義的地方。”姚明在談及天津籃球文化和未來發(fā)展時(shí)說,“天津保留著迄今為止世界上最古老的室內(nèi)籃球場,這都是非常重要的籃球文化遺產(chǎn),希望能在未來的工作中挖掘這些歷史遺產(chǎn)的價(jià)值?!币γ髡f:“天津是座美麗的城市,這次來天津能夠感到濃厚的體育文化元素,希望運(yùn)動員和教練員在比賽賽得好的同時(shí),也能領(lǐng)略到天津的城市文化。”

新聞2:從開幕式前入住全運(yùn)村到奔波于全運(yùn)三座籃球場館之間,中國籃協(xié)主席姚明抵津已有10多天了。昨天在天津財(cái)大籃球館,姚明還饒有興致地談了對本次天津全運(yùn)會的看法,能夠讓群眾融入進(jìn)來,是他覺得最有亮點(diǎn)的地方。 “全運(yùn)會是一項(xiàng)很有傳統(tǒng)的運(yùn)動會,這次來到天津,得到市委、市政府的大力支持,天津各個(gè)區(qū)學(xué)校對于籃球比賽從人員到場館給予很大幫助,中國籃協(xié)作為競委會的一員,受到總局的委派承辦籃球的比賽,真的非常感謝天津?qū)ξ覀兎椒矫婷娴闹С?。”盡管之前多次到訪津城,不過這次因?yàn)槿\(yùn),還是給了姚明很多不一樣的感受,“天津是座非常美麗的城市,我之前來這里很多次了,這次來感受到了非常濃烈的體育文化元素,我們希望運(yùn)動員、教練員在這座美麗的城市比賽賽得好,同時(shí)能夠領(lǐng)略到天津的城市文化。”本屆全運(yùn)的群眾項(xiàng)目的比賽,引起了姚明極大的興趣,“這次天津全運(yùn)會最突出的特點(diǎn)是引入了群眾性體育和群眾性的項(xiàng)目,同時(shí)設(shè)立了群眾性的獎牌和榮譽(yù),是真的做到了一個(gè)‘全’字,這也符合體育融入社會的一個(gè)大趨勢,全運(yùn)會不該只是專業(yè)運(yùn)動員的盛會,也是所有社會人的一個(gè)盛會?!睂τ谶@段時(shí)間在天津的生活,姚明也是贊不絕口,“我們作為籃協(xié)的官員都住在技術(shù)官員村,這段時(shí)間的生活工作都在里面,聽到了很多熟悉的運(yùn)動員、教練員對本次全運(yùn)會的夸贊,生活工作非常方便,保障非常齊全,我們?yōu)樘旖蚋械椒浅8吲d。很多場館都很新,很多志愿者都很年輕,大家都積極奔波在各自的崗位上,這一點(diǎn)我們的運(yùn)動員和教練員應(yīng)該是最有發(fā)言權(quán)的。”作為中國最出色的籃球運(yùn)動員,姚明也談了天津作為中國籃球故鄉(xiāng)的感受,“毋庸置疑,天津是中國籃球的發(fā)源地,是籃球傳入中國的第一故鄉(xiāng),在籃球1891年誕生之后4年就漂洋過海來到中國,在天津上岸,這是對中國籃球具有歷史意義的地方,并且我們也知道這里保留了迄今為止世界上最古老的室內(nèi)籃球館,這些都是我們非常重要的文化遺產(chǎn)。我希望我們在未來的工作中,可以讓這樣越來越多的歷史故事被重新挖掘出來。

1. word2vec計(jì)算網(wǎng)頁相似度

word2vec計(jì)算網(wǎng)頁相似度的基本方法是:抽取網(wǎng)頁新聞中的關(guān)鍵詞,接著將關(guān)鍵詞向量化,然后將得到的各個(gè)詞向量相加,最后得到的一個(gè)詞向量總和代表網(wǎng)頁新聞的向量化表示,利用這個(gè)總的向量計(jì)算網(wǎng)頁相似度。包括的步驟是:1)關(guān)鍵詞提取,2)關(guān)鍵詞向量化,3)相似度計(jì)算。

首先是關(guān)鍵詞提取,這里我們采用jiebag工具包中tfidf關(guān)鍵詞提取方法,如下圖7-14所示,函數(shù)KeyWord_Extract的功能就是提取句子的關(guān)鍵詞,并將關(guān)鍵詞保存在txt文件中。

def Word_cut(sentence, file_name):words = pseg.cut(sentence)for word in words:with open(file_name, "a") as f:f.write(str(word.word.encode("utf-8")) + " ")with open(file_name, "a") as f:f.write("\n")def KeyWord_Extract(data, file_name):tfidf = analyse.extract_tagskeywords = tfidf(data)for keyword in keywords:with open(file_name, "a") as f:f.write(str(word.word.encode("utf-8")) + " ")with open(file_name, "a") as f:f.write("\n")if __name__ == "__main__":DataFile = codes.open("P2.txt", "r")DataSet = DataFile.readlines()for data in DataSet:data = data[:len(data)-1]words = Word_cut(data, "P22.txt")KeyWord_Extract(data, "P22_keyword.txt")

圖7-14

圖7-15的函數(shù)word2vec便是從txt文件中讀取關(guān)鍵詞,利用上兩節(jié)訓(xùn)練好的詞向量獲取關(guān)鍵詞的詞向量。需要注意的是,由于本文訓(xùn)練詞向量的語料不是特別大(大約1.5G的純文本)無法包括所有的漢語詞語,所以在獲取一個(gè)詞語的詞向量時(shí),最好使用代碼25行所示的方式判斷模型是否包含該詞語,如果包含再獲取詞向量,否則會報(bào)錯(cuò)。

def word2vec(file_name, model):DataFile = codes.open(file_name, "r")DataSet = DataFile.readlines()word_vec_all = numpy.zeros(wordvec_size)for data in DataSet:data = data.decode("utf-8")space_pos = get_char_pos(data, " ")first_word = data[0:space_pos[0]]if model.__contains__(first_word):word_vec_all = word_vec_all + model[first_word]for i in range(len(space_pos) - 1):word = data[space_pos[i]:space_pos[i+1]]if model.__contains__(word):word_vec_all = word_vec_all + model[word]return word_vec_all

圖7.15關(guān)鍵詞向量化代碼

如圖7.16所示的詞向量相似度計(jì)算代碼,通過余弦相似度計(jì)算兩個(gè)向量的相似度。根據(jù)圖7.16的代碼,計(jì)算出新聞1和新聞2的相似度為0.66.

def SimlarityCalu(Vector1, Vector2):Vector1Mod = np.sqrt(Vector1.dot(Vector1))Vector2Mod = np.sqrt(Vector2.dot(Vector2))if Vector2Mod != 0 and Vector1Mod != 0:simlarity = (Vector1.dot(Vector2))/(Vector1Mod*Vector2Mod)else:simlarity = 0return simlarityif __name == "__main__":model = gensim.models.Word2Vec.load("zhiwiki_news")p1_vec = word2vec("P11_keyword.txt", model)p2_vec = word2vec("P22_keyword.txt", model)print(SimlarityCalu(p1_vec, p2_vec))

圖7-16 word2vec詞向量相似度計(jì)算

2. doc2vec計(jì)算網(wǎng)頁相似度

跟word2vec計(jì)算網(wǎng)頁相似度一樣,doc2vec計(jì)算網(wǎng)頁相似度主要包括如下三個(gè)步驟:1)預(yù)處理,2)句子向量化,3)計(jì)算文本相似。

預(yù)處理就是對文本進(jìn)行分詞,每個(gè)詞用空格隔開,具體代碼如圖7-14的Word_cut函數(shù)所示,該函數(shù)完成文本的分詞,并把分詞結(jié)果按要求保存在txt文檔中。在預(yù)處理文本之后便是利用doc2vec對句子向量化,句子向量的訓(xùn)練方法見7.3.2[計(jì)算機(jī)1]節(jié),這里直接利用訓(xùn)練好的句子向量。代碼如圖7-17的doc2vec函數(shù)所示。同樣用余弦相似度計(jì)算文本的相似度,代碼入圖7-17所示的main函數(shù)。最后經(jīng)計(jì)算所得利用doc2vec計(jì)算新聞1和新聞2間的相似度為0.97。

def doc2vec(file_name, model):docs = [x.strip().split() for x in codecs.open(file_name, "r", "utf-8".readlines()]doc_vec_all = numpy.zeros(docvec_size)for d in docs:doc_vec_all = doc_vec_all + model.infer_vector(d, alpha=start_alpha,steps=infer_epoch)return doc_vec_allif __name__ == "__main__":model = g.Doc2Vec.load(model_path)P1_doc2vec = doc2vec("toy_data/P11.txt", model)p2_doc2vec = doc2vec("toy_data/P22.txt", model)print(SimlarityCalu(p1_doc2vec, p2_doc2vec)

圖7-17 doc2vec文本相似度計(jì)算代碼

3.兩種相似度計(jì)算方法分析

前文介紹了word2vec和doc2vec兩種計(jì)算網(wǎng)頁相似度的方法,結(jié)果顯示利用doc2vec方法計(jì)算的相似度為0.97高于word2vec計(jì)算的0.66,顯然通過閱讀前兩篇新聞,知道這兩篇新聞極為相似,因此可以判斷doc2vec計(jì)算文本相似度的方法更勝一籌。這是因?yàn)椋?)doc2vec不僅利用了詞語的語義信息而且還綜合了上下文語序信息,而word2vec則丟失了語序信息;2)word2vec方法中的關(guān)鍵詞提取算法準(zhǔn)確率不高,丟失了很多關(guān)鍵信息。

(1)三位作者資歷深厚,分別是阿里巴巴的數(shù)據(jù)架構(gòu)師和NLP專家、百煉智能的NLP專家(前明略數(shù)據(jù)的技術(shù)合伙人和科學(xué)家)、七牛云AI實(shí)驗(yàn)室NLP&OCR方向負(fù)責(zé)人

(2)以實(shí)戰(zhàn)為導(dǎo)向,繞開各種復(fù)雜數(shù)學(xué)公式與證明,確保讀者零基礎(chǔ)入門,詳細(xì)講解自然語言處理 的各種核心技術(shù)、方法論和經(jīng)典算法

(3)阿里巴巴達(dá)摩院高級算法專家、百煉智能CEO、七牛云AI LAB負(fù)責(zé)人、天善智能創(chuàng)始人聯(lián)袂推薦

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39911

    瀏覽量

    301545
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50115

    瀏覽量

    265588
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    9066

    瀏覽量

    143812
  • 阿里
    +關(guān)注

    關(guān)注

    6

    文章

    465

    瀏覽量

    34200

原文標(biāo)題:Python自然語言處理實(shí)戰(zhàn):計(jì)算兩篇文章的相似度

文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    RK3562 單板機(jī) Linux 應(yīng)用開發(fā)實(shí)戰(zhàn)手冊:LED/CAN/TCP/UART 案例與 Python 開發(fā)(二)

    本文為創(chuàng)龍科技RK3562 單板機(jī)應(yīng)用開發(fā)指南,核心包含交叉編譯工具鏈部署、GDB 遠(yuǎn)程調(diào)試,以及 LED、CAN、TCP/UDP、MQTT 等實(shí)戰(zhàn)案例。文檔支持 C/C++ 與 Python語言
    的頭像 發(fā)表于 02-25 11:35 ?459次閱讀
    RK3562 單板機(jī) Linux 應(yīng)用開發(fā)<b class='flag-5'>實(shí)戰(zhàn)</b>手冊:LED/CAN/TCP/UART 案例與 <b class='flag-5'>Python</b> 開發(fā)(二)

    1688 商品詳情 API 調(diào)用與數(shù)據(jù)解析 Python 實(shí)戰(zhàn)

    你想要的是 1688 商品詳情 API 的 Python 調(diào)用與數(shù)據(jù)解析實(shí)戰(zhàn)方案,核心是完成 API 憑證配置、接口請求(含簽名)、響應(yīng)數(shù)據(jù)解析、異常處理 的全流程落地,我會提供可直接運(yùn)行的代碼,并
    的頭像 發(fā)表于 02-10 11:23 ?275次閱讀

    自然語言處理NLP的概念和工作原理

    自然語言處理 (NLP) 是人工智能 (AI) 的一個(gè)分支,它會教計(jì)算機(jī)如何理解口頭和書面形式的人類語言。自然語言處理將計(jì)算
    的頭像 發(fā)表于 01-29 14:01 ?413次閱讀
    <b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>NLP的概念和工作原理

    京東關(guān)鍵詞搜索商品列表的Python爬蟲實(shí)戰(zhàn)

    京東關(guān)鍵詞搜索商品列表 Python 爬蟲實(shí)戰(zhàn) 你想要實(shí)現(xiàn)京東關(guān)鍵詞搜索商品的爬蟲,我會從 合規(guī)聲明、環(huán)境準(zhǔn)備、頁面分析、代碼實(shí)現(xiàn)、反爬優(yōu)化 五個(gè)方面展開,幫助你完成實(shí)戰(zhàn)項(xiàng)目。 一、前置聲明(重要
    的頭像 發(fā)表于 01-04 10:16 ?794次閱讀

    云知聲論文入選自然語言處理頂會EMNLP 2025

    近日,自然語言處理(NLP)領(lǐng)域國際權(quán)威會議 ——2025 年計(jì)算語言學(xué)與自然語言處理國際會議(EMNLP 2025)公布論文錄用結(jié)果,云知
    的頭像 發(fā)表于 11-10 17:30 ?819次閱讀
    云知聲論文入選<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>頂會EMNLP 2025

    SGS為TCL華星自然光MNT顯示頒發(fā)高自然相似 Performance Tested Mark

    華星27"自然光MNT顯示頒發(fā)"高自然相似Performance Tested Mark",這是繼2025年9月1日TCL華星12.1"教育平板顯示獲得全球首張SGS高
    的頭像 發(fā)表于 10-19 20:26 ?426次閱讀
    SGS為TCL華星<b class='flag-5'>自然</b>光MNT顯示頒發(fā)高<b class='flag-5'>自然</b>光<b class='flag-5'>相似</b><b class='flag-5'>度</b> Performance Tested Mark

    HarmonyOSAI編程自然語言代碼生成

    安裝CodeGenie后,在下方對話框內(nèi),輸入代碼需求描述,將根據(jù)描述智能生成代碼,生成內(nèi)容可一鍵復(fù)制或一鍵插入至編輯區(qū)當(dāng)前光標(biāo)位置。 提問示例 使用ArkTs語言寫一段代碼,在頁面中間部分
    發(fā)表于 09-05 16:58

    【HZ-T536開發(fā)板免費(fèi)體驗(yàn)】5- 無需死記 Linux 命令!用 CangjieMagic 在 HZ-T536 開發(fā)板上搭建 MCP 服務(wù)器,自然語言輕松控板

    引言:為什么需要 “自然語言控板”? 痛點(diǎn)引入 :嵌入式開發(fā)中,開發(fā)者常需通過 SSH 等工具登錄開發(fā)板,手動輸入復(fù)雜的 Linux 命令(如ls -l、gpio readall、ifconfig等
    發(fā)表于 08-23 13:10

    C++ 與 Python:樹莓派上哪種語言更優(yōu)?

    Python是樹莓派上的首選編程語言,我們的大部分教程都使用它。然而,C++在物聯(lián)網(wǎng)項(xiàng)目中同樣廣受歡迎且功能強(qiáng)大。那么,在樹莓派項(xiàng)目中選擇哪種語言更合適呢?Python因其簡潔性、豐富
    的頭像 發(fā)表于 07-24 15:32 ?967次閱讀
    C++ 與 <b class='flag-5'>Python</b>:樹莓派上哪種<b class='flag-5'>語言</b>更優(yōu)?

    思必馳與上海交大聯(lián)合實(shí)驗(yàn)室研究成果入選大頂級會議

    近日,計(jì)算語言學(xué)與自然語言處理領(lǐng)域全球頂級會議ACL 2025及語音研究領(lǐng)域旗艦會議INTERSPEECH 2025相繼公布論文錄用結(jié)果。思必馳-上海交大聯(lián)合實(shí)驗(yàn)室表現(xiàn)亮眼,共有13篇論文被
    的頭像 發(fā)表于 07-11 16:24 ?942次閱讀
    思必馳與上海交大聯(lián)合實(shí)驗(yàn)室研究成果入選<b class='flag-5'>兩</b>大頂級會議

    思必馳與上海交大聯(lián)合實(shí)驗(yàn)室兩篇論文入選ICML 2025

    會議。會議涵蓋了機(jī)器學(xué)習(xí)的各個(gè)前沿方向,包括但不限于深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、自然語言處理、計(jì)算機(jī)視覺、貝葉斯方法及優(yōu)化算法等。
    的頭像 發(fā)表于 06-16 09:23 ?1502次閱讀
    思必馳與上海交大聯(lián)合實(shí)驗(yàn)室<b class='flag-5'>兩篇</b>論文入選ICML 2025

    云知聲四篇論文入選自然語言處理頂會ACL 2025

    近日,第63屆國際計(jì)算語言學(xué)年會ACL 2025(Annual Meeting of the Association for Computational Linguistics,簡稱ACL)論文接收
    的頭像 發(fā)表于 05-26 14:15 ?1331次閱讀
    云知聲四篇論文入選<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>頂會ACL 2025

    如何提高uvc相機(jī)的清晰度

    在使用小核的uvc例程時(shí),修改了編碼的分辨率設(shè)置為2592x1944,通過uvc連接到相機(jī)時(shí)看到的畫面比較模糊,如何提高清晰度呢? 配置如下所示左邊為大核編碼,右邊為uvc配置 下面是canaan-camera.sh新增的分辨率 下面是uvc下2592*1944的圖片 下面是使用大核下面的編碼圖像
    發(fā)表于 04-28 06:33

    自然語言處理的發(fā)展歷程和應(yīng)用場景

    你是否曾經(jīng)對著手機(jī)說:“嘿,Siri,今天天氣怎么樣?”或者在出國旅行時(shí),打開翻譯軟件,對著菜單說:“請把這道菜翻譯成英文”。
    的頭像 發(fā)表于 04-17 11:40 ?1337次閱讀

    自然語言提示原型在英特爾Vision大會上首次亮相

    在英特爾Vision大會上,Network Optix首次展示了自然語言提示原型,該方案將重新定義視頻管理,為各行各業(yè)由AI驅(qū)動的洞察和效率提速。
    的頭像 發(fā)表于 04-09 09:30 ?981次閱讀