如果說(shuō)人工智能是未來(lái)的“電力”,那么數(shù)據(jù)就是發(fā)電的“燃料”。在面向未來(lái)技術(shù)升級(jí)的過(guò)程中,那些擁有大量數(shù)據(jù)的組織有機(jī)會(huì)最早利用這些“燃料”來(lái)發(fā)“電”。這其中,世界知識(shí)產(chǎn)權(quán)組織(WIPO)在使用人工智能技術(shù)方面的實(shí)踐可以作為有價(jià)值的案例之一。
WIPO是聯(lián)合國(guó)領(lǐng)導(dǎo)的發(fā)展國(guó)際知識(shí)產(chǎn)權(quán)制度的專(zhuān)門(mén)機(jī)構(gòu),是由191個(gè)成員國(guó)組成的關(guān)于知識(shí)產(chǎn)權(quán)服務(wù)、政策、合作與信息的全球論壇。WIPO的專(zhuān)利合作條約(PCT)是一個(gè)國(guó)際專(zhuān)利體系,方便申請(qǐng)人在國(guó)際上尋求對(duì)其發(fā)明的國(guó)際專(zhuān)利保護(hù),幫助專(zhuān)利局出專(zhuān)利授權(quán)決定。通過(guò)PCT提交國(guó)際專(zhuān)利申請(qǐng),申請(qǐng)人可以同時(shí)在全世界大多數(shù)國(guó)家尋求對(duì)其發(fā)明的保護(hù)。WIPO的特性決定了其在專(zhuān)利領(lǐng)域擁有海量的專(zhuān)業(yè)數(shù)據(jù)。隨著全球知識(shí)產(chǎn)權(quán)申請(qǐng)數(shù)量不斷增加,相關(guān)數(shù)據(jù)的數(shù)量增長(zhǎng)使得不使用AI工具采集和分析數(shù)據(jù)變得幾乎不可能。
截至2017年2月,PCT已經(jīng)授權(quán)了300萬(wàn)件國(guó)際專(zhuān)利。由于在WIPO的專(zhuān)利申請(qǐng)數(shù)據(jù)庫(kù)中,大約只有三分之一的文件為英文,因此在國(guó)際專(zhuān)利保護(hù)領(lǐng)域,涉及到大量專(zhuān)利申請(qǐng)文件的翻譯工作。
對(duì)于像WIPO這樣的非技術(shù)性組織來(lái)說(shuō),如何進(jìn)一步運(yùn)用自身積累的大量數(shù)據(jù)資源?如何使用新技術(shù)減少巨大、枯燥并且重復(fù)性人工勞動(dòng)的工作量?有沒(méi)有可能通過(guò)技術(shù)手段,幫助工作人員提高專(zhuān)利、商標(biāo)等知識(shí)產(chǎn)權(quán)方面的審查工作?在這一波人工智能的熱潮來(lái)臨之前,WIPO早在2010年就已經(jīng)開(kāi)始進(jìn)行人工智能技術(shù)在專(zhuān)利領(lǐng)域方面的應(yīng)用探索。
WIPO在知識(shí)產(chǎn)權(quán)領(lǐng)域開(kāi)發(fā)和應(yīng)用人工智能方面一直處于領(lǐng)先地位。2010年,WIPO全球數(shù)據(jù)庫(kù)部門(mén)的Christophe MAZENC招聘到了人工智能應(yīng)用開(kāi)發(fā)的第一位員工。兩人開(kāi)始了WIPO機(jī)器翻譯工具的開(kāi)發(fā)工作,兩年以后,WIPO有了第一個(gè)版本的機(jī)器翻譯工具。到今天,這個(gè)團(tuán)隊(duì)發(fā)展成為先進(jìn)技術(shù)應(yīng)用中心(ATAC),第一位AI開(kāi)發(fā)者Bruno Pouliquen也已經(jīng)成為部門(mén)負(fù)責(zé)人,管理著5人的團(tuán)隊(duì)。
ATAC作為WIPO內(nèi)部的AI技術(shù)開(kāi)發(fā)部門(mén),負(fù)責(zé)自下而上的規(guī)劃WIPO的AI應(yīng)用開(kāi)發(fā)路線,工作之一是掃描各部門(mén)所擁有的數(shù)據(jù),分析在這些數(shù)據(jù)的基礎(chǔ)上可以開(kāi)發(fā)出怎樣的應(yīng)用;另一方面,ATAC與WIPO各成員國(guó)的知識(shí)產(chǎn)權(quán)局保持溝通,交換數(shù)據(jù),跟蹤成員國(guó)知識(shí)產(chǎn)權(quán)局的人工智能應(yīng)用進(jìn)展。
WIPO采用內(nèi)部開(kāi)發(fā)而非外包的方式,自己開(kāi)發(fā)了基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)翻譯工具WIPO Translate。 與早期的工具相比,WIPO Translate對(duì)專(zhuān)利文件的翻譯更加自然,尤其是像英文和中文這樣差別很大的語(yǔ)言。與市面上通用的翻譯工具使用更廣泛的文檔進(jìn)行訓(xùn)練不同,WIPO Translate完全依靠知識(shí)產(chǎn)權(quán)相關(guān)文檔進(jìn)行訓(xùn)練。
因此WIPO的翻譯工具在全球?qū)@g領(lǐng)域處于領(lǐng)先地位。在WIPO內(nèi)部的專(zhuān)利數(shù)據(jù)中用中文、日文和韓文這三種語(yǔ)言撰寫(xiě)的專(zhuān)利占全世界專(zhuān)利申請(qǐng)量的一半以上。通過(guò)翻譯軟件幫助工作人員理解專(zhuān)利的內(nèi)容,可以減少WIPO對(duì)外包翻譯公司的依賴(lài),同時(shí)提高內(nèi)部職員的工作效率。為了評(píng)估WIPO機(jī)器翻譯工具的翻譯質(zhì)量,研究人員使用了一個(gè)名為 Bleu 的程序,由 AI 專(zhuān)家來(lái)評(píng)估機(jī)器翻譯系統(tǒng)。
結(jié)果表明,在專(zhuān)利文獻(xiàn)翻譯領(lǐng)域,WIPO的表現(xiàn)優(yōu)于我們常用的 Google 翻譯。
2010年開(kāi)始做機(jī)器翻譯項(xiàng)目的只是兩個(gè)人的微型團(tuán)隊(duì)。發(fā)展到今天也僅是五個(gè)人的小團(tuán)隊(duì)。WIPO總干事弗朗西斯?高銳(Francis Gurry)認(rèn)為,一方面專(zhuān)利可以幫助發(fā)明人保護(hù)和促進(jìn)他們的發(fā)明,另一方面還披露了其他人可能用來(lái)開(kāi)發(fā)新創(chuàng)新的重要細(xì)節(jié)。WIPO Translate工具有助于在全球傳播這種知識(shí)。
微型技術(shù)團(tuán)隊(duì)的細(xì)分領(lǐng)域探索
任何的機(jī)器學(xué)習(xí)技術(shù),都需要經(jīng)過(guò)合適的訓(xùn)練數(shù)據(jù)集的“訓(xùn)練”才能產(chǎn)生作用。因此,ATAC需要找到足夠的訓(xùn)練數(shù)據(jù),才能在此基礎(chǔ)上開(kāi)發(fā)。這個(gè)小型開(kāi)發(fā)團(tuán)隊(duì)決定在擁有高質(zhì)量數(shù)據(jù)、最新數(shù)據(jù)的領(lǐng)域做開(kāi)發(fā)。
ATAC是如何為算法找到大量訓(xùn)練數(shù)據(jù)集的?與谷歌翻譯所不同的是,WIPO沒(méi)有海量的互聯(lián)網(wǎng)數(shù)據(jù)做“燃料”。但Bruno認(rèn)為,一個(gè)高質(zhì)量數(shù)據(jù)訓(xùn)練集比一個(gè)更大的數(shù)據(jù)訓(xùn)練集更好。而且,使用最新的數(shù)據(jù)比更多的數(shù)據(jù)更重要。
在專(zhuān)利領(lǐng)域,使用最新的術(shù)語(yǔ)能夠訓(xùn)練出更好的模型。ATAC使用高質(zhì)量數(shù)據(jù)的辦法是這樣的,他們找出曾經(jīng)在美國(guó)和中國(guó)都申請(qǐng)過(guò)的中文專(zhuān)利,從中國(guó)專(zhuān)利局和美國(guó)專(zhuān)利局獲得同一個(gè)專(zhuān)利文件,用這些經(jīng)過(guò)官方認(rèn)證的翻譯文件來(lái)訓(xùn)練機(jī)器學(xué)習(xí)算法。在中英翻譯方面,ATAC將中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局提供的共計(jì) 6000 萬(wàn)句中文,與由專(zhuān)業(yè)人員翻譯并提交給美國(guó)專(zhuān)利局的英文版進(jìn)行對(duì)比“學(xué)習(xí)”。
另一方面,ATAC使用開(kāi)源技術(shù)進(jìn)行開(kāi)發(fā)。Bruno認(rèn)為對(duì)于突破性技術(shù),通常開(kāi)源技術(shù)會(huì)更先進(jìn)。在機(jī)器翻譯領(lǐng)域,有非常好的開(kāi)源圖書(shū)館,WIPO的技術(shù)開(kāi)發(fā)人員基于開(kāi)源的資源的基礎(chǔ)上,結(jié)合對(duì)業(yè)務(wù)的理解,開(kāi)發(fā)出對(duì)自己的業(yè)務(wù)有實(shí)際幫助的AI工具。
內(nèi)部開(kāi)發(fā)的優(yōu)勢(shì)是可以從內(nèi)部的角度,對(duì)業(yè)務(wù)熟悉,項(xiàng)目開(kāi)發(fā)人員能夠更好的將業(yè)務(wù)需求和產(chǎn)品開(kāi)發(fā)精準(zhǔn)的結(jié)合起來(lái),在技術(shù)開(kāi)發(fā)團(tuán)隊(duì)里既有技術(shù)人員也有業(yè)務(wù)人員,由于工程師本身知道業(yè)務(wù)是怎么運(yùn)作的,可以將自己當(dāng)做工具的“用戶(hù)”,因此不需要翻譯和解釋別人的需求。
利用開(kāi)源軟件的另一方面的好處是,項(xiàng)目完成后,WIPO完全擁有這項(xiàng)技術(shù),并且可以將這項(xiàng)技術(shù)與其他組織機(jī)構(gòu)分享。目前,WIPO已經(jīng)授權(quán)韓國(guó)特許廳(KIPO)使用,為對(duì)方提供了工具并且?guī)椭鷮?duì)方進(jìn)行知識(shí)轉(zhuǎn)移。除了聯(lián)合國(guó)以外,國(guó)際電信聯(lián)盟(ITU)、國(guó)際貨幣基金組織(IMF)、國(guó)際原子能機(jī)構(gòu)(IAEA)等聯(lián)合國(guó)專(zhuān)門(mén)機(jī)構(gòu)都對(duì)WIPO的機(jī)器翻譯工具表示出興趣。
使用開(kāi)源技術(shù)的另一個(gè)原因是,WIPO掌握的專(zhuān)利信息不便于與第三方分享,從知識(shí)產(chǎn)權(quán)保護(hù)的角度,開(kāi)源技術(shù)可以避免相關(guān)的知識(shí)產(chǎn)權(quán)泄露。
雖然是內(nèi)部開(kāi)發(fā),但Bruno的團(tuán)隊(duì)還會(huì)借助“外腦”使自己能夠掌握最新技術(shù)。ATAC與學(xué)術(shù)界有很多合作,與學(xué)術(shù)界建立了良好的溝通網(wǎng)絡(luò),以此了解和掌握相關(guān)領(lǐng)域最前沿的技術(shù)。通過(guò)閱讀科學(xué)期刊上的最新論文、參加國(guó)際學(xué)術(shù)界會(huì)議等方式來(lái)保持對(duì)自信技術(shù)的追蹤。因?yàn)橥ǔW(xué)術(shù)界的技術(shù)開(kāi)發(fā)都是開(kāi)源的。ATAC通過(guò)對(duì)學(xué)術(shù)界最新研究的跟蹤與學(xué)習(xí)來(lái)保持技術(shù)的領(lǐng)先性。
高銳稱(chēng),WIPO目前正在尋找知識(shí)產(chǎn)權(quán)領(lǐng)域中其他可以應(yīng)用機(jī)器學(xué)習(xí)技術(shù)的業(yè)務(wù)場(chǎng)景。衡量的標(biāo)準(zhǔn)包括:是否能夠解決當(dāng)前或者未來(lái)WIPO和成員國(guó)基于知識(shí)產(chǎn)權(quán)的大數(shù)據(jù)(如專(zhuān)利信息)的業(yè)務(wù)需求;可用訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量等。高銳認(rèn)為,重要的不是人工智能本身,而是知識(shí)產(chǎn)權(quán)(IP)管理部門(mén)和公眾如何通過(guò)充分利用人工智能來(lái)提高知識(shí)產(chǎn)權(quán)服務(wù)質(zhì)量并創(chuàng)造新知識(shí)。在將AI技術(shù)應(yīng)用到知識(shí)產(chǎn)權(quán)管理領(lǐng)域中,WIPO與各成員國(guó)及各國(guó)知識(shí)產(chǎn)權(quán)局的協(xié)調(diào)合作非常重要。
2018年5月,WIPO在與其成員國(guó)在關(guān)于AI應(yīng)用的咨詢(xún)會(huì)議上確定了以下領(lǐng)域作為AI應(yīng)用的最有希望和優(yōu)先的領(lǐng)域:(1)機(jī)器翻譯和其他自然語(yǔ)言處理技術(shù);(2)專(zhuān)利自動(dòng)分類(lèi)和商標(biāo)申請(qǐng)商品/服務(wù)自動(dòng)分類(lèi);(3)商標(biāo)和專(zhuān)利審查及形式審查;(4)幫助臺(tái)服務(wù)(自動(dòng)回復(fù)客戶(hù)端);(5)專(zhuān)利現(xiàn)有技術(shù)檢索和商標(biāo)圖形要素檢索。
目前,除了機(jī)器翻譯應(yīng)用,WIPO與學(xué)術(shù)界進(jìn)一步的技術(shù)合作進(jìn)行專(zhuān)利自動(dòng)分類(lèi)的應(yīng)用開(kāi)發(fā)。在WIPO工作人員接觸的專(zhuān)利里,有一些是沒(méi)有根據(jù)國(guó)際專(zhuān)利分類(lèi)(IPC)來(lái)分類(lèi)的,如果采用機(jī)器學(xué)習(xí)的方法自動(dòng)通過(guò)文檔本身的內(nèi)容來(lái)判斷出專(zhuān)利應(yīng)該被分到哪個(gè)類(lèi)別里將極大的提高分類(lèi)效率。除了WIPO,在世界各地的知識(shí)產(chǎn)權(quán)局,也在商標(biāo)圖形檢索、商標(biāo)審查、專(zhuān)利現(xiàn)有技術(shù)檢索與分析、服務(wù)聊天機(jī)器人等人工智能領(lǐng)域有許多AI技術(shù)的嘗試性應(yīng)用。
對(duì)其他組織轉(zhuǎn)型的建議
什么樣的組織有條件進(jìn)行人工智能方面的嘗試?Bruno認(rèn)為,組織需要滿(mǎn)足兩方面條件,(1)有足夠的應(yīng)用數(shù)據(jù),(2)有AI應(yīng)用場(chǎng)景。WIPO對(duì)于應(yīng)用AI的建議是自下而上的開(kāi)發(fā),審視組織內(nèi)部擁有什么樣的數(shù)據(jù),在這個(gè)基礎(chǔ)上分析可以開(kāi)發(fā)哪些應(yīng)用。正所謂巧婦難為無(wú)米之炊,在Bruno看來(lái),AI是一個(gè)機(jī)器學(xué)習(xí)的過(guò)程,需要很多數(shù)據(jù)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。分析組織有什么樣的數(shù)據(jù),在數(shù)據(jù)的基礎(chǔ)上分析可以開(kāi)發(fā)什么樣的應(yīng)用是更符合邏輯的。
如果沒(méi)有適當(dāng)?shù)摹芭嘤?xùn)”數(shù)據(jù),則不是每一項(xiàng)業(yè)務(wù)需求都能通過(guò)機(jī)器學(xué)習(xí)實(shí)現(xiàn)。因此WIPO的一個(gè)最佳實(shí)踐就是:首先在啟動(dòng)開(kāi)發(fā)之前確定數(shù)據(jù)的可用性、質(zhì)量和數(shù)量,然后遵循高科技領(lǐng)域里的慣常做法:快速建立模型,迭代開(kāi)發(fā)。
WIPO僅使用開(kāi)放源代碼庫(kù),因?yàn)樵谶@樣的尖端領(lǐng)域,通常最先進(jìn)的是開(kāi)源的。 此外,開(kāi)源可以根據(jù)自己的需要客戶(hù)化定制/調(diào)整軟件,然后與其他公益組織共享軟件。
WIPO在使用AI開(kāi)發(fā)的邏輯,給了非AI技術(shù)類(lèi)組織一些有益的啟示。WIPO的經(jīng)歷證明,對(duì)于已經(jīng)有了海量訓(xùn)練數(shù)據(jù)集的組織,內(nèi)部建立起應(yīng)用開(kāi)源框架開(kāi)發(fā)的小型技術(shù)團(tuán)隊(duì),利用組織對(duì)業(yè)務(wù)模式和用戶(hù)使用需求的深刻理解,經(jīng)過(guò)海量的數(shù)據(jù)訓(xùn)練,是一條走得通的轉(zhuǎn)型路線。
-
人工智能
+關(guān)注
關(guān)注
1819文章
50134瀏覽量
265764 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8556瀏覽量
137050 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1313瀏覽量
25765
原文標(biāo)題:世界知識(shí)產(chǎn)權(quán)組織的人工智能轉(zhuǎn)型探索
文章出處:【微信號(hào):robot-1hjqr,微信公眾號(hào):1號(hào)機(jī)器人網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
金航標(biāo)電子便扎根在深圳市華強(qiáng)北,在華強(qiáng)北理論研究專(zhuān)家華強(qiáng)北文化研究者宋仕強(qiáng)先生帶領(lǐng)下...
江智機(jī)器人技術(shù)核心團(tuán)隊(duì)
華科大團(tuán)隊(duì)在里德堡原子光量子操控領(lǐng)域取得進(jìn)展
探索Broadcom AS20系列微型編碼器:創(chuàng)新技術(shù)與卓越性能
探索PEC06 - 6 mm增量式微型編碼器:設(shè)計(jì)與應(yīng)用解析
探索PEC05系列5mm增量式微型編碼器:設(shè)計(jì)與應(yīng)用全解析
探索PEC04系列4mm增量式微型編碼器:設(shè)計(jì)與應(yīng)用的理想之選
探索MSX - 360微型操縱桿位置傳感器:小身材大能量
探索RISC-V在機(jī)器人領(lǐng)域的潛力
Lora技術(shù)應(yīng)用領(lǐng)域
從電路板到創(chuàng)新領(lǐng)袖:電子技術(shù)人才的進(jìn)階之路
AI 芯片浪潮下,職場(chǎng)晉升新契機(jī)?
京東零售在智能供應(yīng)鏈領(lǐng)域的前沿探索與技術(shù)實(shí)踐
芯盾時(shí)代入選《中國(guó)網(wǎng)絡(luò)安全細(xì)分領(lǐng)域產(chǎn)品名錄》 零信任領(lǐng)域排名第一
國(guó)家戰(zhàn)略下的細(xì)分市場(chǎng)領(lǐng)域新材料機(jī)會(huì)
微型技術(shù)團(tuán)隊(duì)的細(xì)分領(lǐng)域探索
評(píng)論