91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

智能數(shù)據(jù):物聯(lián)網(wǎng)的下一個前沿

劉勇 ? 來源:阿兵888824 ? 作者:阿兵888824 ? 2022-07-21 08:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

收集數(shù)據(jù)從未像現(xiàn)在這樣容易。只需單擊幾下,您就可以啟動并運行,配備云必須提供的所有最佳數(shù)據(jù)技術,準備好囤積所有可能的數(shù)據(jù)。很難相信就在十年前,情況發(fā)生了巨大的不同。事實上,大規(guī)模收集數(shù)據(jù)只是最大的公司的一種選擇,這些組織既能負擔得起昂貴的服務器(這是存儲所有數(shù)據(jù)的唯一可行選擇),又能負擔得起少數(shù)能夠做到最好的工程師其中,在數(shù)據(jù)科學只是一個新興領域的時代。

如今,幸運的是,生成數(shù)據(jù)不再只是一項企業(yè)運動。事實上,多虧了物聯(lián)網(wǎng) (IoT),無論好壞,我們現(xiàn)在都變成了小型大數(shù)據(jù)工廠。到 2020 年,一個人將負責每秒生成 1.7 MB 的數(shù)據(jù)。即使是現(xiàn)在,僅一輛自動駕駛汽車每天就會產(chǎn)生 11TB 的數(shù)據(jù)。而且這種趨勢沒有減弱的跡象。相反:它只會增長。

對于所有數(shù)據(jù)愛好者來說,這顯然是個好消息。不久前,收集高質(zhì)量的數(shù)據(jù)集是一項繁重而艱巨的任務。盡管如此,我們總是想要更多。如果您的全新深度學習模型似乎“僅”達到 92% 的準確率,那么最簡單、最容易找到的借口就是指責數(shù)據(jù)。“我的數(shù)據(jù)集不夠大”,我們漫不經(jīng)心地告訴我們的老板?!暗绻覀冊俚葞讉€星期,這個模型將是你見過的最好的模型!”

這似乎提出了一個重要問題:實際上有多少數(shù)據(jù)才足夠?但它實際上提出了一個更重要的問題:多少數(shù)據(jù)太多了?

有趣的是,我們在機器學習圈中并不經(jīng)常聽到這個問題,即使我們真的應該聽到。雖然大數(shù)據(jù)是一個巨大的機會,但它也是一個巨大的 40 zettabyte 責任。如果數(shù)據(jù)確實是新的石油,我們需要把類比推到極限:數(shù)據(jù)是一種極其有利可圖的資源,但也像石油一樣,需要提煉。未能克制自己不受控制的使用使我們處于危險之中。簡而言之,我們今天使用和考慮數(shù)據(jù)的方式是非常不可持續(xù)的,這一事實仍然幾乎沒有達到集體意識。

也許,只是也許,這是錯誤的對話。也許大數(shù)據(jù)畢竟不是人工智能的真正答案。

讓我們退后一步,想想我們真正收集的是什么?;氐綌?shù)字化的早期,數(shù)據(jù)收集確實成本更高,所以我們選擇了我們的位置。我們更負責任,更認真。隨著生成和收集數(shù)據(jù)變得越來越容易,對質(zhì)量的關注越來越少,而數(shù)量成為云存儲、云計算、GPU 機器、大規(guī)模數(shù)據(jù)管理和傳輸系統(tǒng)等新技術的自然副產(chǎn)品。很快,數(shù)據(jù)變成了一種商品,但隨著數(shù)據(jù)和數(shù)據(jù)存儲的不斷升級,沒有人提出一個簡單的問題:我們?yōu)槭裁匆占@些?它甚至有意義嗎?

隨著模型構(gòu)建的商品化,數(shù)據(jù)護城河似乎是人工智能差異化的明顯答案,但我們都錯過了大局嗎?數(shù)據(jù)時代。它變得陳舊。最終,即使我們被誘使相信數(shù)據(jù)和信息是兩個截然不同的事物,但并非所有數(shù)據(jù)都是 平等的。畢竟,一個十幾歲的少年在發(fā)到 Instagram 之前自拍了 20 張自己的照片,這肯定與可搜索的醫(yī)學文獻目錄不同。

只要我們堅信硬件的進步將使我們免受數(shù)據(jù)災難的影響,這一切似乎都不是問題。數(shù)據(jù)存儲越來越便宜,計算能力也越來越容易獲得。只有當數(shù)據(jù)的生成被工程師跟上摩爾定律的能力所抵消時,這才是真的。即使他們可以無限期地做到這一點,請考慮以下問題:如果并非所有數(shù)據(jù)都具有同等的信息性,那么處理子數(shù)據(jù)或冗余數(shù)據(jù)有什么意義?

我可以通過我的電腦屏幕聽到數(shù)百名數(shù)據(jù)科學家的聲音,他們抗議說,更大的訓練集是他們痛苦的答案。畢竟,難道幾代專家沒有一次又一次地告訴我們,數(shù)據(jù)越多越好嗎?

事實并非如此簡單。顯然,獲得高質(zhì)量、足夠大的數(shù)據(jù)集是機器學習取得進展的關鍵。然而,如果醫(yī)生告訴你生病了,急需大量攝入維生素C,你難道不想認真地確定哪些食物確實含有上述維生素,而不是沖到你的廚房,吃掉你能在那里找到的每一種食物嗎?毫無疑問,吃下冰箱或食品儲藏室里的所有食物最終會讓你獲得一些急需的維生素C,但在這個過程中,你也會消耗很多空熱量。不幸的是,今天我們處理機器學習的方式似乎需要相當于營養(yǎng)師的干預。

這似乎是一個愚蠢的類比,但這里有一些分量。例如,認為功能更強大的GPU機器最終會讓我們擺脫困境的觀點是有嚴重缺陷的,就像認為暴飲暴食會幫助我們攝入維生素一樣。實際上,我們收集的很多數(shù)據(jù)不僅與我們試圖使用它訓練的模型冗余或無關,而且往往對這些模型有害。例如,過度增長的訓練集通常是不平衡的,可能會導致過度擬合。一些極端的異常值實際上可能會導致模型“忘卻”數(shù)據(jù)可能被錯誤標記、錯誤收集或錯誤。

這就提出了一個重要的問題:如果數(shù)據(jù)科學家最適合就哪些數(shù)據(jù)可能對模型學習更有用提供反饋,那么為什么他們?nèi)匀粠缀醪粎⑴c旨在收集數(shù)據(jù)的硬件設備的設計,而且很少有機會提供數(shù)據(jù)收集過程本身的反饋?

答案實際上比最初看起來更簡單:正如營養(yǎng)學家根據(jù)不同客戶的獨特營養(yǎng)需求向他們提供不同的建議一樣,數(shù)據(jù)科學家也只能建議針對特定用例收集哪些數(shù)據(jù)。簡而言之,在訓練給定模型的背景下,信息量最大的數(shù)據(jù)實際上可能與另一個模型完全無關,這使得在源位置對數(shù)據(jù)進行不可知分類具有挑戰(zhàn)性。

硬件顯然無法解決所有這些問題。它無法確定哪些數(shù)據(jù)行正在降低模型的準確性。它無法弄清楚哪些是多余的。它不能重新標記錯誤的數(shù)據(jù)點。換句話說,存儲太多數(shù)據(jù)并不能解決存儲太多數(shù)據(jù)帶來的問題。我們需要專注于創(chuàng)建一個額外的智能層,能夠從渣滓中分類有意義的數(shù)據(jù)。我們需要開始關注那些從較小的、經(jīng)過整理的數(shù)據(jù)集構(gòu)建出色模型的數(shù)據(jù)科學家。我們需要明白,是的,您可以過度喂食您的模型。

數(shù)據(jù)的未來并不存在于容納每個數(shù)據(jù)點的巨大服務器場中,而不管哪些數(shù)據(jù)點實際上是有用的。它存在于小型智能數(shù)據(jù)中。它是基于數(shù)據(jù)質(zhì)量及其與用例相關性的深思熟慮的方法,而不是主要基于數(shù)量的草率方法。對于我們這些沒有無休止的標簽和服務器預算的人來說,它更容易獲得。換句話說,它既更智能,也更民主。

這是我們都可以落后的。

pYYBAGLXVWCAGvibAAAc7H8Ypd8467.jpg

Jennifer Prendki是 Alectio 的創(chuàng)始人兼首席執(zhí)行官。這家公司是她相信好的模型只能用好的數(shù)據(jù)建立的直接產(chǎn)物,而盲目地使用越來越大的訓練集的蠻力方法是進入人工智能的障礙如此之高的原因。在創(chuàng)立 Alectio 之前,Jennifer 是 Figure 8 的機器學習副總裁、數(shù)據(jù)標簽的先驅(qū)、Atlassian 的首席數(shù)據(jù)科學家和沃爾瑪實驗室搜索團隊的數(shù)據(jù)科學高級經(jīng)理。她擁有索邦大學粒子物理學博士學位。她最喜歡的口號是:“并非所有數(shù)據(jù)生來都是平等的”、“數(shù)據(jù)是新塑料”和“智能數(shù)據(jù) > 大數(shù)據(jù)”。


審核編輯 黃昊宇


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    嵌入式開發(fā)是否會成為下一個被看好的領域?

    聊嵌入式開發(fā)會不會成為下一個風口,現(xiàn)在確實是挺熱門的話題。各種論壇、投資報告都在講聯(lián)網(wǎng)智能硬件、AIoT的萬億市場,仿佛只要跟嵌入式沾
    的頭像 發(fā)表于 02-26 09:56 ?534次閱讀
    嵌入式開發(fā)是否會成為<b class='flag-5'>下一個</b>被看好的領域?

    篇文章帶你了解什么是聯(lián)網(wǎng)技術?

    聯(lián)網(wǎng)技術(Internet of Things, IoT)是種通過信息傳感設備,按約定的協(xié)議,將任何物體與網(wǎng)絡相連接,實現(xiàn)智能化識別、定位、跟蹤、監(jiān)管等功能的技術。
    發(fā)表于 02-09 16:58

    半導體測試,是“下一個前沿

    ,但半導體測試是“下一個前沿”,它是設計與制造之間的橋梁,解決了傳統(tǒng)分離領域之間模糊的界限。更具體地說,通過連接設計和制造,測試可以幫助產(chǎn)品和芯片公司更快地生產(chǎn)出
    的頭像 發(fā)表于 12-26 10:02 ?588次閱讀
    半導體測試,是“<b class='flag-5'>下一個</b><b class='flag-5'>前沿</b>”

    為啥現(xiàn)在這么多人學聯(lián)網(wǎng)?

    智能家電、醫(yī)院的遠程監(jiān)測、馬路上的智能交通,都要用到聯(lián)網(wǎng)技術,需求大到用不完。 3. 人才缺口大,薪資有競爭力 行業(yè)發(fā)展快,但專業(yè)人才跟不上,據(jù)人社部相關
    發(fā)表于 11-18 15:39

    學習聯(lián)網(wǎng)怎么入門?

    隨著聯(lián)網(wǎng)技術的不斷發(fā)展,越來越多的人開始關注學習這領域。但是對于初學者來說,聯(lián)網(wǎng)似乎是
    發(fā)表于 10-14 10:34

    學習聯(lián)網(wǎng)可以做什么工作?

    學習聯(lián)網(wǎng)專業(yè)后,你可以從事多種與聯(lián)網(wǎng)相關的工作。聯(lián)網(wǎng)
    發(fā)表于 10-11 16:40

    聯(lián)網(wǎng)智能電表平臺:所有電表數(shù)據(jù),集中到系統(tǒng)管

    聯(lián)網(wǎng)智能電表平臺,不是簡單的“抄表軟件”,而是套集數(shù)據(jù)采集、遠程控制、計費管理、異常預警、財務結(jié)算于
    的頭像 發(fā)表于 09-18 17:13 ?937次閱讀
    <b class='flag-5'>物</b><b class='flag-5'>聯(lián)網(wǎng)</b><b class='flag-5'>智能</b>電表平臺:所有電表<b class='flag-5'>數(shù)據(jù)</b>,集中到<b class='flag-5'>一</b><b class='flag-5'>個</b>系統(tǒng)管

    科技云報到:西湖大學、智元機器人都選它,存儲成為AI下一個風口

    科技云報到:西湖大學、智元機器人都選它,存儲成為AI下一個風口
    的頭像 發(fā)表于 09-03 11:24 ?737次閱讀

    【原創(chuàng)】TDMS設置下一個寫入位置函數(shù)的摸索

    labview在20版本前,tdms都有高級函數(shù),寫入文件位置set file positon,但是在20版本后被取消了。取而代之是‘tdms設置下一個寫入位置函數(shù)’ 本意是想利用tdms設置
    發(fā)表于 08-11 20:54

    AI玩具或成為下一個萬億新賽道

    如果你將擁有家庭新成員,你首先會想到什么?是孩子還是寵物?如果我說你下一個家庭成員,或許是會“察言觀色”的AI玩具,這件事是不是聽上
    的頭像 發(fā)表于 07-29 10:15 ?1161次閱讀

    智能工廠為什么需要數(shù)據(jù)采集聯(lián)網(wǎng)系統(tǒng)

    工廠實現(xiàn)數(shù)字化、網(wǎng)絡化和智能化的關鍵基礎設施。以下是智能工廠需要數(shù)據(jù)采集聯(lián)網(wǎng)系統(tǒng)的核心原因:
    的頭像 發(fā)表于 07-18 14:52 ?1084次閱讀

    聯(lián)網(wǎng)藍牙模塊有哪些優(yōu)勢?

    更加廣泛地覆蓋范圍,從而提高了設備的可用性。安全性高:藍牙模塊采用了加密技術,可以有效地保障通信數(shù)據(jù)的安全性,防止數(shù)據(jù)被非法獲取。這對于些對安全性要求較高的
    發(fā)表于 06-28 21:49

    聯(lián)網(wǎng)的應用范圍有哪些?

    在生活中的小小體現(xiàn)。 從技術層面看,聯(lián)網(wǎng)融合了多種技術,包括傳感器技術、網(wǎng)絡通信技術、大數(shù)據(jù)與云計算技術等。傳感器負責采集各種物理量、
    發(fā)表于 06-16 16:01

    聯(lián)網(wǎng)未來發(fā)展趨勢如何?

    ,人們才會更加信任和接受聯(lián)網(wǎng)技術。 綜上所述,聯(lián)網(wǎng)行業(yè)的未來發(fā)展趨勢非常廣闊。智能家居、工業(yè)互聯(lián)網(wǎng)
    發(fā)表于 06-09 15:25

    ad7616 burst模式讀取數(shù)據(jù)時,是否可以在下一個convst啟動轉(zhuǎn)換?

    ad7616 burst模式讀取數(shù)據(jù)時,是否可以在下一個convst啟動轉(zhuǎn)換,但busy還沒有拉低的情況下繼續(xù)讀取上次轉(zhuǎn)換的數(shù)據(jù)嗎?主要是串行讀取時,有可能出現(xiàn)convst臨界的情
    發(fā)表于 04-15 07:50