高效的機器學(xué)習(xí)模型需要高質(zhì)量的數(shù)據(jù)。訓(xùn)練你的機器學(xué)習(xí)模型并不是過程中的單個有限階段。即使將其部署到生產(chǎn)環(huán)境中,也可能需要穩(wěn)定的新訓(xùn)練數(shù)據(jù)流來確保模型隨時間推移的預(yù)測準確性。
畢竟,訓(xùn)練數(shù)據(jù)會顯式地調(diào)用數(shù)據(jù)集中的屬性,這些屬性代表外部世界中不斷變化的基本事實。如果不進行周期性的重新訓(xùn)練,隨著現(xiàn)實世界變量的演變,模型的準確性自然會隨時間下降。
在本文中,我們將討論為什么不管你的初始訓(xùn)練數(shù)據(jù)過程多么嚴格,繼續(xù)訓(xùn)練你的機器學(xué)習(xí)模型都是至關(guān)重要的。我們還將討論再訓(xùn)練的方法以及每種方法的優(yōu)點。
最后,我們將介紹如何在任何機器學(xué)習(xí)項目開始時預(yù)見對后續(xù)更新的需求。通過從一開始就建立再訓(xùn)練流程,幫你設(shè)計一個可持續(xù)的預(yù)測模型。
數(shù)據(jù)漂移與再訓(xùn)練需求
為什么大多數(shù)機器學(xué)習(xí)模型都需要更新才能保持準確性?答案在于訓(xùn)練數(shù)據(jù)的性質(zhì)以及它如何告知機器學(xué)習(xí)模型的預(yù)測功能。
訓(xùn)練數(shù)據(jù)是一個靜態(tài)數(shù)據(jù)集,機器學(xué)習(xí)模型可從該數(shù)據(jù)集中推斷出模式和關(guān)系,并形成對未來的預(yù)測。
隨著現(xiàn)實世界條件的變化,訓(xùn)練數(shù)據(jù)的基本事實方面表示可能會不太準確。想象一下用于預(yù)測50個大型都會區(qū)租金成本的機器學(xué)習(xí)模型。從2000年到2019年的訓(xùn)練數(shù)據(jù)可能會以驚人的準確性預(yù)測2020年的租金價格。在預(yù)測2050年的租金價格時,這種方法可能會不太有效,因為房地產(chǎn)市場的基本性質(zhì)可能在未來幾十年內(nèi)發(fā)生變化。
應(yīng)用自然語言處理(NLP)來訓(xùn)練聊天機器人提供了數(shù)據(jù)漂移的另一個有用的例子。我們使用語言的方式正在不斷演變,因此必須更新用于聊天機器人的訓(xùn)練數(shù)據(jù)的語義分析,來反映當前的語言。想象一下,嘗試使用1980年代的培訓(xùn)數(shù)據(jù)來訓(xùn)練聊天機器人與現(xiàn)代消費者進行互動。在40年中,語言可能會發(fā)生重大變化,這迫使人們需要更新訓(xùn)練數(shù)據(jù)。
這一現(xiàn)象已經(jīng)有了多種描述方法,包括數(shù)據(jù)漂移、概念漂移和模型衰減。不管你怎么稱呼它,它都代表了機器學(xué)習(xí)的硬道理:在未來的某個時候,你的訓(xùn)練數(shù)據(jù)將不再為準確的預(yù)測提供基礎(chǔ)。
如何應(yīng)對這個不可避免的挑戰(zhàn)呢?答案是定期使用新的或擴展的數(shù)據(jù)重新訓(xùn)練你的模型。實際上,訓(xùn)練你的模型是一個持續(xù)的過程,特別是在質(zhì)量要求很高的情況下。
你應(yīng)該如何更新你的機器學(xué)習(xí)模型?簡單來說,你有兩個選擇:使用更新的輸入手動重新訓(xùn)練模型,或構(gòu)建一個旨在從新數(shù)據(jù)中不斷學(xué)習(xí)的模型。
手動模型重新訓(xùn)練方法
手動更新機器學(xué)習(xí)模型的方法本質(zhì)上是復(fù)制你的初始訓(xùn)練數(shù)據(jù)過程,但要使用一組更新的數(shù)據(jù)輸入。在這種情況下,你可以決定如何以及何時向算法提供新數(shù)據(jù)。
此選項的可行性取決于你定期獲取和準備新訓(xùn)練數(shù)據(jù)的能力。你可以隨時監(jiān)控模型的性能,確定何時需要更新。如果模型的準確性明顯下降,則可能需要對更新的數(shù)據(jù)進行重新訓(xùn)練。
這種方法的優(yōu)點之一是修修補補通??梢詭碚嬷埔姾蛣?chuàng)新。如果密切監(jiān)視模型并找出缺點,你可能會發(fā)現(xiàn)包含額外數(shù)據(jù)或以更基本的方式修改算法的價值。
模型訓(xùn)練的持續(xù)學(xué)習(xí)方法
持續(xù)學(xué)習(xí)模型通常會從部署了數(shù)據(jù)的生產(chǎn)環(huán)境中合并新的數(shù)據(jù)流。
消費者每天都會參與持續(xù)學(xué)習(xí)的機器學(xué)習(xí)模型。以音樂流媒體平臺Spotify為例,該平臺使用協(xié)作過濾功能,根據(jù)具有相似愛好的其他用戶的偏好向用戶提供推薦,來創(chuàng)造價值和競爭優(yōu)勢。
當Spotify用戶收聽音樂時,與他們的選擇有關(guān)的數(shù)據(jù)會反饋到公司的預(yù)測算法中。由此產(chǎn)生的反饋循環(huán)完善了該應(yīng)用為其用戶提供的推薦,并允許高級個性化設(shè)置,例如機器生成的個性化播放列表。Netflix等其他領(lǐng)先的消費媒體服務(wù)提供商也使用類似的持續(xù)學(xué)習(xí)系統(tǒng)。
如你所料,構(gòu)建這些系統(tǒng)所需的技術(shù)專業(yè)知識和資源對于許多組織來說根本無法滿足。此外,你需要穩(wěn)定的數(shù)據(jù)流來進行自動集成。在持續(xù)學(xué)習(xí)模型中,人為干預(yù)是可能的,但它代表了一個真正的瓶頸。例如,Spotify在將其數(shù)百萬用戶生成的數(shù)據(jù)反饋回其算法之前,不需要對其進行清理或格式化。
無論是手動更新還是持續(xù)學(xué)習(xí)似乎都是更有效(可行)的選擇,你需要從戰(zhàn)略上考慮用于生成新數(shù)據(jù)來進行再培訓(xùn)的勞動力和技術(shù)。如果你打算在可預(yù)見的將來使用你的模型,則需要合適的資源來保持該模型最新。
預(yù)測進化:選擇團隊
創(chuàng)建訓(xùn)練數(shù)據(jù)需要人員、流程和工具的戰(zhàn)略組合。要解決收集、清理和標記數(shù)據(jù)的模糊性,你需要一個高效的技術(shù)人員團隊,其中包括熟練的技術(shù)人員和先進的技術(shù)。
許多組織無法管理或擴展內(nèi)部團隊來準備訓(xùn)練數(shù)據(jù),因此他們尋求利用人類智能的替代方法。眾包勞動力是一種常見選擇,它使你可以在短時間內(nèi)找到數(shù)百名匿名工人。
然而,匿名眾包帶來了隱性成本,包括與員工的溝通不暢,這可能導(dǎo)致工作質(zhì)量低下。而且,如果在開發(fā)初期訓(xùn)練數(shù)據(jù)集時這些缺點很明顯,那么當你嘗試重新訓(xùn)練和更新模型時,這些缺點將讓人特別沮喪。
在一群匿名的眾包工人的情況下,幾乎不可能進行監(jiān)督或轉(zhuǎn)移機構(gòu)記憶。每次開發(fā)新的訓(xùn)練數(shù)據(jù)時,都有發(fā)現(xiàn)新的不一致和性能問題的風(fēng)險。
或許你也可以選擇另一種方式,將這個問題外包給靠譜的、專業(yè)解決這種問題的企業(yè),會更有保障。
-
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8556瀏覽量
137049 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1236瀏覽量
26215
發(fā)布評論請先 登錄
如何在機器視覺中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)
如何解決開發(fā)機器學(xué)習(xí)程序時Keil項目只能在調(diào)試模式下運行,但無法正常執(zhí)行的問題?
【「Yocto項目實戰(zhàn)教程:高效定制嵌入式Linux系統(tǒng)」閱讀體驗】+基礎(chǔ)概念學(xué)習(xí)理解
超小型Neuton機器學(xué)習(xí)模型, 在任何系統(tǒng)級芯片(SoC)上解鎖邊緣人工智能應(yīng)用.
FPGA在機器學(xué)習(xí)中的具體應(yīng)用
NVIDIA Isaac Sim與NVIDIA Isaac Lab的更新
【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】+內(nèi)容初識
在任何平臺上使用PetaLinux的先決條件
如何成為一名合格的KaihongOS北向應(yīng)用開發(fā)工程師
S32K118EVB-Q064如何在firs幀后停止tx?
可以在任何FLEXCOMM接口上使用MDIO嗎?
**【技術(shù)干貨】Nordic nRF54系列芯片:傳感器數(shù)據(jù)采集與AI機器學(xué)習(xí)的完美結(jié)合**
人臉識別指南:如何在樹莓派上安裝和設(shè)置 Dlib
如何在任何機器學(xué)習(xí)項目開始時預(yù)見對后續(xù)更新的需求
評論