2019年AI仍舊風(fēng)口,別說大牛,剛畢業(yè)就年薪百萬的博士都有。但前谷歌工程師、研究深度學(xué)習(xí)的Ryszard Scopa認(rèn)為,AI技能并沒你想的那么值錢,甚至正在貶值!數(shù)據(jù),勝過更好的架構(gòu)。
我們正處于人工智能的繁榮時期,機(jī)器學(xué)習(xí)專家的薪水高得驚人,投資者與人工智能初創(chuàng)企業(yè)會晤時,往往樂于敞開心扉,慷慨解囊。
這么做是正確的:因?yàn)檫@是每一代都會發(fā)生一次的變革性技術(shù)之一,AI這項技術(shù)將會繼續(xù)存在,改變我們的生活。
但這并不意味著讓你的人工智能創(chuàng)業(yè)獲得成功是一件容易的事。
我認(rèn)為,任何人在試圖圍繞AI開展業(yè)務(wù)之前,都會遇到一些重要的陷阱。
你的 AI 技能正在貶值
2015 年我還在 Google 工作,那會兒就開始鼓搗 DistBelief (后來改名為 TensorFlow)。這玩意兒那時候?qū)嵲谔鄹饬耍瑢懫饋矸浅1孔?,主要的抽象還不符合你的預(yù)期。
要想讓它在 Google 所構(gòu)建的系統(tǒng)之外發(fā)揮作用?
那真是一個白日夢。
兒子與我,使用藝術(shù)風(fēng)格遷移進(jìn)行圖像處理,這項技術(shù)激發(fā)了我對深度學(xué)習(xí)的興趣
2016 年底,我正在進(jìn)行一個概念證明的研究,就是在組織病理學(xué)圖像中檢測出乳腺癌。我想使用遷移學(xué)習(xí):采用 Inception,這是 Google 當(dāng)時最好的圖像分類架構(gòu),然后使用我的癌癥數(shù)據(jù)重新進(jìn)行訓(xùn)練。我使用了 Google 提供的經(jīng)過預(yù)訓(xùn)練的初始權(quán)重,只不過更改了頂層以便能夠匹配我所做的工作。我在 TensorFlow 中,經(jīng)過長時間的反復(fù)實(shí)驗(yàn)后,終于弄明白了如何操縱不同的層,并使其大部分發(fā)揮作用。這些都需要很大的毅力去閱讀 TensorFlow 的資料,但至少我不必太過擔(dān)心依賴關(guān)系,因?yàn)?TensorFlow 準(zhǔn)備好了 Docker 鏡像,真是太貼心了!
在 2018 年初,由于缺乏復(fù)雜性,上述任務(wù)并不適合作為實(shí)習(xí)生的第一個項目。多虧了 Keras(TensorFlow 之上的一個框架),你只需幾行 Python 代碼就可以完成,而且不需要深入理解你在做什么。但有一個痛點(diǎn),就是超參數(shù)調(diào)優(yōu)。如果你有深度學(xué)習(xí)模型,那你可以調(diào)整多個參數(shù),如層的數(shù)量和大小等等。但如何得到最優(yōu)配置并非易事,一些直觀的算法(如網(wǎng)格搜索)效果并不怎么樣。你做了很多實(shí)驗(yàn),感覺更像是一門藝術(shù),而不是一門科學(xué)。
在我寫下這些文字的時候(2019 年初),Google 和 Amazon 已經(jīng)提供了自動模型調(diào)優(yōu)服務(wù)(Cloud AutoML、SageMaker),Microsoft 也正在計劃提供這一服務(wù)。我預(yù)測,手動模型調(diào)優(yōu)將會像渡渡鳥一樣滅亡,而對于機(jī)器學(xué)習(xí)工程師來說,這也算是一種很好的解脫。
我希望你們能明白其中的規(guī)律:困難的事情終將變得容易,你可以在獲得更多的同時而無需深入理解。過去那些偉大的工程壯舉,現(xiàn)在聽上去卻有些蹩腳。因此,我們不應(yīng)該期望現(xiàn)在的壯舉在未來會變現(xiàn)得更好。
這是一件好事,也是取得驚人進(jìn)步的標(biāo)志。我們將這一進(jìn)步歸功于像 Google 這樣的公司,正是它們在這些工具上投入巨資,然后免費(fèi)給人們提供這些工具。它們之所以這樣做,主要有兩個原因。
你被商品化之后的辦公室
第一個原因,這是對它們實(shí)際產(chǎn)品(即云基礎(chǔ)設(shè)施)的商品化補(bǔ)充的嘗試。在經(jīng)濟(jì)學(xué)中,如果你傾向于一起購買兩種商品的話,那么購買的這兩種商品往往是互補(bǔ)的。舉一些例子:汽車與汽油、牛奶與谷物、培根和雞蛋等。如果其中一種商品降價了,那么另一種商品的需求往往就會增加。對云計算來說,它的補(bǔ)充就是運(yùn)行在云端之上的軟件;而人工智能有一個特點(diǎn),就是需要大量的計算資源。因此,盡可能降低開發(fā)成本是很有意義的。
Google 如此熱衷人工智能的第二個原因是,與 Amazon 和 Microsoft 相比,Google 擁有比較明顯的優(yōu)勢:起步更早。畢竟是 Google 普及了深度學(xué)習(xí)的概念,因此,它們成功搶走了很多人才。它們在開發(fā)人工智能產(chǎn)品方面有著更多的經(jīng)驗(yàn),這些使得它們在開發(fā)必要的工具和服務(wù)方面占據(jù)了優(yōu)勢。
盡管取得了令人興奮的進(jìn)展,但對于那些在人工智能技能上投入巨資的公司和個人來說,并不是什么好消息。現(xiàn)在它們?yōu)槟闾峁┝藞詫?shí)的競爭優(yōu)勢,因?yàn)榕囵B(yǎng)一個稱職的機(jī)器學(xué)習(xí)工程師,需要耗費(fèi)大量的時間來閱讀論文,以及打下扎實(shí)的數(shù)學(xué)基礎(chǔ)。
然而,隨著工具的改進(jìn),情況就不再如此:它將會變?yōu)楦嗟氖情喿x教程而不是科學(xué)論文。
如果你沒有很快意識到自己的優(yōu)勢,那么圖書館的一群實(shí)習(xí)生可能就會搶走你的飯碗。特別是當(dāng)實(shí)習(xí)生有更好的數(shù)據(jù),這就引出了我的下一個觀點(diǎn)……
更多的數(shù)據(jù)比花哨的 AI 架構(gòu)更重要
假設(shè)你認(rèn)識兩個人工智能初創(chuàng)公司的創(chuàng)始人:Alice 和 Bob。他們的公司籌集到的資金大致相當(dāng),而且在同一個市場上激烈競爭。Alice 在最好的工程師和擁有豐富的人工智能研究經(jīng)驗(yàn)的博士上進(jìn)行投資,而 Bob 則雇傭了平庸但能干的工程師,并投資給她 (“Bob” 是 Robreta 的簡稱!)以獲得更好的數(shù)據(jù)。那么,你會在哪個公司身上下注呢?
我會在 Bob 身上下注。為什么呢?
因?yàn)?,從本質(zhì)上來說,機(jī)器學(xué)習(xí)的工作原理就是通過從數(shù)據(jù)集中提取信息并將其傳遞給模型權(quán)重中。在這一過程中,更好的模型會更有效(就時間和(或)綜合質(zhì)量而言),但是假設(shè)某個足夠的基線(即模型實(shí)際上正在學(xué)習(xí)某些東西),擁有更好的數(shù)據(jù)將會勝過更好的架構(gòu)。
為了說明這一點(diǎn),讓我們做一個快速而粗略的測試。我創(chuàng)建了兩個簡單的卷積網(wǎng)絡(luò),其中,一個是 “更好” 的網(wǎng)絡(luò),一個是 “更差” 的網(wǎng)絡(luò)。那個 “更好” 模型的最后一層全連接層 (Dense Layer) 有 128 個神經(jīng)元,而 “更差” 的模型則只有 64 個。我在 MNIST 數(shù)據(jù)集的不斷增大的子集上對這兩個模型進(jìn)行訓(xùn)練,并繪制出了模型在測試集上的正確率與訓(xùn)練的樣本數(shù)的關(guān)系圖。

藍(lán)色曲線代表 “更好” 的模型,綠色曲線代表 “更差” 的模型
訓(xùn)練數(shù)據(jù)集大小的積極作用是顯而易見的(至少在模型開始出現(xiàn)過擬合和正確率達(dá)到穩(wěn)定之前是這樣)。代表 “更好” 模型的藍(lán)色曲線明顯優(yōu)于代表 “更差” 模型的綠色曲線。然而,我想要指出的是,就正確率而言,在 4 萬個樣本上訓(xùn)練的 “更差” 模型的表現(xiàn),要比在 3 萬個樣本上訓(xùn)練的 “更好” 模型更好!
在我這個小例子中,我們處理的是一個相對簡單的問題,并且我們還有一個全面的數(shù)據(jù)集。然而在現(xiàn)實(shí)生活中,我們可沒有這么奢侈的條件。在許多情況下,你永遠(yuǎn)也無法避免圖表中增加數(shù)據(jù)集具有如此顯著效果的部分。
而且,Alice 的工程師們實(shí)際上不僅僅是與 Bob 的工程師競爭。由于人工智能社區(qū)的開放文化及其對知識共享的重視,他們還與 Google、Facebook、Microsoft 和全球數(shù)千所大學(xué)的研究人員競爭。
如果你的目標(biāo)只是解決問題(而非對科學(xué)做出原創(chuàng)貢獻(xiàn)),那么采用目前文獻(xiàn)中描述的表現(xiàn)最好的架構(gòu),并根據(jù)你自己的數(shù)據(jù)對其進(jìn)行重新訓(xùn)練,這是一個經(jīng)過實(shí)戰(zhàn)考驗(yàn)的策略。如果現(xiàn)在沒有什么可用的東西的話,通常只需等待一兩個季度,直到有人提出解決方案。特別值得一提的是,你可以做一些事情,比如舉辦一場 Kaggle 競賽來激勵研究人員研究你的特定問題。
良好的工程設(shè)計始終很重要,但如果你做的是人工智能的話,那么數(shù)據(jù)就是形成競爭優(yōu)勢的關(guān)鍵因素。然而,最重要的問題是,你是否能夠保持住自己的優(yōu)勢。
保持 AI 競爭優(yōu)勢是很困難的
憑借出色的數(shù)據(jù)集,Bob 成功地與 Alice 展開競爭,她做得很好:推出了自己的產(chǎn)品,市場份額穩(wěn)步增長。她甚至可以開始聘用更好的工程師,因?yàn)榉婚g傳言她的公司是合適的選擇。
Chunk 想要趕進(jìn)度,不過他比 Bob 有更多的錢。這一點(diǎn)在構(gòu)建數(shù)據(jù)集時很重要。通過砸錢來加速一個工程項目是非常困難的。事實(shí)上,指派太多的新人反而有可能會阻礙項目的進(jìn)展。然而,創(chuàng)建數(shù)據(jù)集卻是另外一種問題。通常來說,創(chuàng)建數(shù)據(jù)集需要大量的人工勞動,但你可以通過雇傭更多的勞動力來輕松擴(kuò)展規(guī)模?;蛘呖赡苣橙藫碛袛?shù)據(jù),那么你只需做的事就是向他支付許可費(fèi)用。無論如何,有錢就是好辦事。
那么問題來了,為什么 Chunk 能夠比 Bob 籌到更多的資金呢?
當(dāng)創(chuàng)始人發(fā)起新一輪融資時,他們會試圖平衡兩個可能存在沖突的目標(biāo)。他們需要籌集到足夠的資金才能勝出。但是,他們又不能籌集太多的資金,因?yàn)檫@樣以來就會導(dǎo)致公司股權(quán)被過度稀釋。接受外部投資者就意味著出售公司的一部分。創(chuàng)始團(tuán)隊必須在初創(chuàng)公司中保持足夠份額的股份,以免他們失去創(chuàng)業(yè)的動力(要知道,創(chuàng)業(yè)可是一項艱苦的工作?。?/p>
另一方面,投資者也希望他們的投資是投在有著巨大潛力的點(diǎn)子上,但他們必須控制風(fēng)險。隨著感知風(fēng)險的增加,他們會要求公司為他們支付的每一美元提供更多的股票份額。
當(dāng) Bob 籌集資金的時候,這是信心上的一次飛躍:人工智能能夠真正提升她的產(chǎn)品。不管她作為創(chuàng)始人的素質(zhì)如何,也不管她的團(tuán)隊有多優(yōu)秀,毫無疑問,她一直在努力攻克的問題難以解決。而 Chunk 的情況非常不同,他知道這個問題是很容易解決的,因?yàn)?Bob 的產(chǎn)品就是活生生的證據(jù)!
Bob 應(yīng)對這一挑戰(zhàn)的可能反應(yīng)之一是發(fā)起另一輪新的挑戰(zhàn)。她應(yīng)該處于有利地位,因?yàn)椋壳埃┧谶@場競賽中仍然保持領(lǐng)先。然而,情況可能會更復(fù)雜。如果 Chunk 可以通過戰(zhàn)略關(guān)系確保能夠?qū)?shù)據(jù)的訪問呢?遇到這種情況該怎么辦?例如,假設(shè)我們正在討論一家癌癥診斷初創(chuàng)公司,那么 Chunk 可以利用他在一家重要醫(yī)療機(jī)構(gòu)的內(nèi)部地位,與該機(jī)構(gòu)達(dá)成私下交易,而 Bob 很可能無法做到這點(diǎn)。
你的產(chǎn)品應(yīng)該是可防御的,最好是有一條很深的護(hù)城河
那么,你將如何為人工智能產(chǎn)品構(gòu)建可維護(hù)的競爭優(yōu)勢呢?
前段時間我有幸與 Microsoft 研究院的 Antonio Criminisi 交談。他的想法是,這個項目的秘密武器不應(yīng)該只由人工智能組成。例如,他的 InnerEye 項目除了利用了人工智能外,還用到了經(jīng)典(不是基于機(jī)器學(xué)習(xí))的計算機(jī)視覺來分析放射圖像。
從某種程度上來說,這可能和你創(chuàng)辦人工智能初創(chuàng)公司的初衷不一樣。不過,將數(shù)據(jù)扔到模型并看到它工作的能力還是非常有吸引力的。然而,傳統(tǒng)的軟件組件更難重現(xiàn),因?yàn)檫@種組件往往需要程序員思考算法,并利用一些難以獲得的領(lǐng)域知識才能構(gòu)建。
人工智能最好像杠桿一樣使用
對業(yè)務(wù)進(jìn)行分類的一種方法是,看它是直接增加價值,還是為某些其他價值來源提供杠桿作用。讓我們以一家電子商務(wù)公司為例。如果你創(chuàng)建了新的產(chǎn)品系列,那么你可以做到直接增加價值。以前什么都沒有,現(xiàn)在有了小商品,客戶就可以為它們支付費(fèi)用。另一方面,建立新的分銷渠道相當(dāng)于起到杠桿作用。比如,通過開始在 Amazon 上銷售你的小商品,你就可以將銷售量翻倍。削減成本也是一種杠桿,如果你與中國的小商品供應(yīng)商達(dá)成更好的交易談判,那么,你的毛利率將會翻一番。
相比直接施力,杠桿更有可能推得更遠(yuǎn)。但是,杠桿只有在與直接價值來源耦合時才會起作用。如果你將微小的數(shù)進(jìn)行加倍,它就不會停止變小。如果你沒有小商品出售的話,那么,獲得新的分銷渠道就是浪費(fèi)時間。
在這種情況下,我們應(yīng)該如何看待人工智能呢?有很多公司試圖將人工智能作為它們的直接產(chǎn)品(如用于圖像識別的 API 等)。如果你是人工智能專家,那么這個想法可能非常誘人。然而,這實(shí)在是一個非常槽糕的主意。首先,你是在與 Google、Amazon 等公司競爭。其次,制造真正有用的通用人工智能產(chǎn)品是非常困難的。比如,我一直想使用 Google 的 Vision API。 不幸的是,我們還沒有遇到這樣的一個客戶:他的需求與我們的產(chǎn)品完全匹配。它要么是太多,要么是不夠,總是這樣。定制開發(fā)可比在圓孔中釘入方形樁釘要好多了。
綜上所述,我們可以得出一個結(jié)論:將人工智能視為杠桿是更好的選擇。你可以采用現(xiàn)有的、可行的商業(yè)模式,并通過人工智能來增強(qiáng)它。例如,如果你有個流程依賴于人類的認(rèn)識勞動力,那么,將這一流程自動化可以提高你的毛利率。我能想到的一些例子是心電圖分析、工業(yè)檢查、衛(wèi)星圖像分析等等。同樣令人興奮的是,因?yàn)槿斯ぶ悄芰粼诤蠖耍阅阌幸恍┓?AI 選擇來形成并保持你的競爭優(yōu)勢。
結(jié)論:真正重要的是比對手擁有更好的數(shù)據(jù)
人工智能是一種真正的革命性技術(shù)。但是,將你的初創(chuàng)公司建立在人工智能之上可是一件非常棘手的事情。你不應(yīng)該僅僅依賴于你的人工智能技能,因?yàn)椋鼈儠蚋蟮氖袌鲒厔荻H值。
構(gòu)建人工智能模型可能是一件非常有趣的事情,但真正重要的事情是擁有比競爭對手更好的數(shù)據(jù)。要知道,保持住競爭優(yōu)勢是很難的事情,特別是如果遇到的是比你更有錢的競爭對手時,而你剛有了人工智能的點(diǎn)子,那么這種情況很可能會發(fā)生。
因此,你的目標(biāo)應(yīng)該是創(chuàng)建一個可擴(kuò)展的數(shù)據(jù)收集過程,這個過程很難被競爭對手復(fù)制。人工智能非常適合顛覆依賴低資質(zhì)人員認(rèn)知工作的行業(yè),因?yàn)樗试S自動化這類工作。
-
谷歌
+關(guān)注
關(guān)注
27文章
6255瀏覽量
111891 -
AI
+關(guān)注
關(guān)注
91文章
40651瀏覽量
302309 -
人工智能
+關(guān)注
關(guān)注
1819文章
50219瀏覽量
266526
原文標(biāo)題:前谷歌工程師:你的 AI 技能正在貶值!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
全球電力電子工程師核心技能雷達(dá):AI 輔助設(shè)計的地位
電子工程師的雙標(biāo)瞬間 #電子 #電子愛好者 #電子工程師 #揚(yáng)興科技 #雙標(biāo)
算法工程師需要具備哪些技能?
什么是BSP工程師
想成為硬件工程師?我教你啊!你得先學(xué)會這些...... #硬件工程師 #電子工程師 #電子愛好者 #電子行業(yè)
硬件工程師面試必會:10個核心考點(diǎn)#硬件設(shè)計 #硬件工程師 #電路設(shè)計 #電路設(shè)計
招鑲?cè)胧?b class='flag-5'>工程師1個,硬件工程師一個,
硬件工程師看了只會找個角落默默哭泣#硬件工程師 #MDD #MDD辰達(dá)半導(dǎo)體 #產(chǎn)品經(jīng)理 #軟件工程師
電源工程師的核心技能樹體系
物聯(lián)網(wǎng)工程師為什么要學(xué)Linux?
前谷歌工程師:你的AI技能沒有那么值錢!
評論