91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何構(gòu)建數(shù)據(jù)科學項目才能更高效?

物聯(lián)網(wǎng)之聲 ? 來源:未知 ? 作者:胡薇 ? 2018-09-06 09:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

數(shù)據(jù)科學是什么?數(shù)據(jù)分析?機器學習?還是數(shù)據(jù)工程?答案可能有很多,但也許只有直接與某個公司的數(shù)據(jù)科學家交流,才能了解該公司是如何看待數(shù)據(jù)科學的。由Netflix舉辦的第三屆聚焦數(shù)據(jù)科學的WiBD研討會,為我們所有人了解Netflix的數(shù)據(jù)科學故事提供了絕佳機會,一起來看看吧!

數(shù)據(jù)科學是一個非常抽象的概念。有些人認為它是數(shù)據(jù)分析,也有一些人認為它是機器學習,還有些認為它帶有一些數(shù)據(jù)工程的味道。

業(yè)界對數(shù)據(jù)科學這一概念難以達成一致有很多原因,其中一點就是,現(xiàn)在大范圍內(nèi)的崗位都可能涉及數(shù)據(jù)科學,并且這些崗位的職責都不盡相同。

此外,不同公司之間的細微差別,甚至是同一公司內(nèi)部的不同團隊之間的細微差別都會導致對數(shù)據(jù)科學的理解不同。因此,只有直接與某個公司的數(shù)據(jù)科學家交流才能了解該公司是如何看待數(shù)據(jù)科學的。

信息不對稱是一個令人遺憾的事實,它阻礙了許多人追尋數(shù)據(jù)科學以及數(shù)據(jù)工程這一職業(yè)的道路。

如果我們投入越多的工作時間來解決這一棘手的問題,那么這一阻礙也就能越早被突破。關(guān)于這一點,推薦一個社會教育企業(yè)——HasBrain,該企業(yè)致力于填補信息缺口并且為想要學習并找到通往數(shù)據(jù)科學和數(shù)據(jù)工程道路的人提供幫助。

構(gòu)建數(shù)據(jù)科學項目

頭腦風暴活動

現(xiàn)實世界的數(shù)據(jù)科學項目與理論上的有何不同,如何構(gòu)建數(shù)據(jù)科學項目才能更高效?Becky在研討會上展示的數(shù)據(jù)科學項目體系對該問題總結(jié)得非常好。

以下是Becky的總結(jié)

步驟一:從了解業(yè)務(wù)問題開始

下面的幻燈片,是Becky就如何定義成功而列出的一系列業(yè)務(wù)問題。如果你想要很好地證明你的概念,你需要一開始要以一個簡單模型作為基準,然后從增量改善(incremental improvement)的角度來評估模型的價值。

否則,你會一直困擾于75%的準確度是否足夠好這樣的問題。擁有物理學博士學位的Becky也提到,專業(yè)學者總是會仔細檢查到最后那20%,以確保結(jié)果是無懈可擊的。所以,如果博士生們想要成為數(shù)據(jù)科學家,這一點是需要特別注意的。

步驟二:制定技術(shù)計劃

除了下面的幻燈片中列出的細節(jié),Becky還強調(diào)了溝通的重要性,同時還提出要站在利益相關(guān)者的角度思考。因為利益相關(guān)者最關(guān)心的未必是機器學習的誤差測度,所以要學會如何將業(yè)務(wù)目標轉(zhuǎn)化為價值優(yōu)化問題,這一點極為關(guān)鍵。

相較于“重新發(fā)明輪子”,弄明白和學會使用現(xiàn)有的技術(shù)可以為我們節(jié)省很多時間。現(xiàn)有的用于監(jiān)督學習的技術(shù),如預(yù)測建模或分類,都有很好的文檔記錄。

然而,在相對更先進以及更專業(yè)的機器學習領(lǐng)域(例如NLP和圖像分類),新文章不斷地發(fā)表,技術(shù)不斷地更新。因此,即時了解最新和最好的研究論文是數(shù)據(jù)科學家們需要牢記的黃金準則。

步驟三:對概念進行初步驗證 -> 不斷迭代/驗證直到成功或是無法再繼續(xù) -> 向利益相關(guān)者傳達結(jié)果

如果你對工作流程甚至是數(shù)據(jù)科學家使用的工具或庫還有任何的疑問,都可以參考Becky在項目構(gòu)建中對“doing the project”這部分的詳細描述。

步驟四:模型產(chǎn)品化

如果一些數(shù)據(jù)科學家告訴你必須要學會編寫產(chǎn)品級代碼,那么,他們可能需要獨立處理模型產(chǎn)品化,而不是交給機器學習工程師或是軟件工程師。

模型產(chǎn)品化本質(zhì)上就是指不要在現(xiàn)有的模型輸出上停滯不前。你的結(jié)果輸出是產(chǎn)品的一部分,并且會改變用戶的實際體驗。

你的代碼也會成為更大的產(chǎn)品代碼庫的一部分,例如,如果你歸類用戶是否會在未來兩周內(nèi)流失,被預(yù)測為會流失的用戶和被預(yù)測為不會流失的用戶可能會有不同的用戶界面(UI)。

實際上,你是為其他團隊創(chuàng)建了一個API來調(diào)用你的模型并獲得模型輸出。你可能需要重構(gòu)你的代碼,此時,只要API沒有中斷并且終端用戶體驗是無縫的,你就可以不斷地升級模型。

Becky自學了工作中要用到的軟件工程方面的知識,學會使代碼模塊化,以實現(xiàn)可重復(fù)性并提高算法效率。甚至有時,可能會參與到軟件工程師或是數(shù)據(jù)工程師的團隊中。這不僅取決于工作的復(fù)雜性,還取決于服務(wù)等級協(xié)議(Service Level Agreement, SLA)。例如,如果你的API需要一直處于運行狀態(tài),則可能需要更廣泛的代碼審查或軟件工程團隊的直接參與。

溝通與問題解決

在講述了數(shù)據(jù)科學項目的構(gòu)建之后,Becky更多地談到了有效溝通和解決問題的技巧的重要性。如何向非技術(shù)人員的利益相關(guān)者們解釋復(fù)雜的數(shù)據(jù)科學概念,是獲得他們買進支持的重要環(huán)節(jié)。

Becky將她在攻讀物理學博士學位期間學會的一項技能運用于此——將復(fù)雜問題分解成小塊并逐一解決。類似地,她就將利益相關(guān)者的高階問題(high level question)進行分解,并找出數(shù)據(jù)科學項目可以提供價值的地方。

如果沒有數(shù)據(jù)科學家的工作經(jīng)驗,想要勝任這部分工作是不容易的,因為包括Kaggle項目在內(nèi)的大多數(shù)實踐項目都是從已經(jīng)定義明確的數(shù)據(jù)科學問題開始的。Becky談到,這些軟技能其實是從經(jīng)驗中獲得的,當然也可以從有效的反饋中學習。

與此同時,她也會閱讀一些基礎(chǔ)書籍來熟悉商業(yè)中的通用概念和術(shù)語。另外,許多其他資深的數(shù)據(jù)科學家們都建議,如果想要進一步發(fā)展自己的商業(yè)頭腦,則需要閱讀一些產(chǎn)品管理的書籍和文章。

實踐練習

這個項目使用WDI數(shù)據(jù)來預(yù)測業(yè)務(wù)啟動成本,非常適合初學者。如果你是機器學習新人,或是剛剛完成一些監(jiān)督學習的網(wǎng)絡(luò)基礎(chǔ)課程,這將會是一個很好的額外練習機會。

現(xiàn)在,讓我們回到之前談?wù)摰膯栴}解決和溝通方面,Becky就此提出了一個業(yè)務(wù)問題:“在不同的國家開展業(yè)務(wù)都有多難?”她還確立了一個項目目標,即預(yù)測在不同國家開展業(yè)務(wù)的成本。

如果這是一個實際的工作項目,對于開展業(yè)務(wù)的便利性來說,這些預(yù)測成本要如何成為整體評估決策中的一部分,我想,她可能需要與利益相關(guān)者就此問題達成一致。

最后,希望這個總結(jié)對你有幫助。祝所有數(shù)據(jù)科學愛好者們好運!并再次感謝Netflix團隊的慷慨分享!另有演示的幻燈片和錄像可供使用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8554

    瀏覽量

    136996
  • 數(shù)據(jù)科學
    +關(guān)注

    關(guān)注

    0

    文章

    168

    瀏覽量

    10797

原文標題:如何成為一名數(shù)據(jù)科學家?聽聽來自Netfix的老司機怎么說

文章出處:【微信號:szwlw26059696,微信公眾號:物聯(lián)網(wǎng)之聲】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    科技賦能中藥質(zhì)檢!高光譜技術(shù)讓品質(zhì)把控更高效科學

    中藥材品質(zhì)關(guān)乎療效,但傳統(tǒng)檢測既耗時又傷材。現(xiàn)在,高光譜技術(shù)給出了新答案:無損、快速、精準。從丹參的品質(zhì)分級到人參的年份鑒別,從枸杞的產(chǎn)地溯源到冬蟲夏草的真?zhèn)巫R別,它用光譜‘指紋’穿透表象,讓中藥檢測從‘經(jīng)驗驅(qū)動’邁向‘數(shù)據(jù)驅(qū)動’,助力產(chǎn)業(yè)實現(xiàn)規(guī)?;?、標準化的高效質(zhì)檢。
    的頭像 發(fā)表于 03-06 09:34 ?263次閱讀
    科技賦能中藥質(zhì)檢!高光譜技術(shù)讓品質(zhì)把控<b class='flag-5'>更高效</b><b class='flag-5'>科學</b>

    簡單高效的鴻蒙編譯提速技巧

    在鴻蒙應(yīng)用開發(fā)中編譯構(gòu)建是開發(fā)者最頻繁的操作,每一次編譯提速都能顯著提升項目整體開發(fā)效率。本次分享幾個簡單卻高效的鴻蒙編譯提速技巧,從編譯配置、構(gòu)建方式等維度進行優(yōu)化,讓你的開發(fā)流程更
    的頭像 發(fā)表于 03-04 16:09 ?70次閱讀
    簡單<b class='flag-5'>高效</b>的鴻蒙編譯提速技巧

    零碳園區(qū)全面感知體系構(gòu)建:傳感技術(shù)與數(shù)據(jù)采集策略

    零碳園區(qū)的核心競爭力源于“精準感知-智能決策-高效執(zhí)行”的閉環(huán)能力,而全面感知體系作為這一閉環(huán)的“神經(jīng)中樞”,承擔著能源流、碳流、信息流的實時捕獲任務(wù)。傳感技術(shù)的科學選型與數(shù)據(jù)采集的高效
    的頭像 發(fā)表于 01-27 11:07 ?145次閱讀

    利用 Banana Pi BPI-CM5 Pro(ARMSoM CM5 SoM) 加速保護科學

    Cat M-1 用于遙測/連接。 用于邊緣處理和機器學習的 ARMSoM 計算模塊 (CM5)。 項目背景 []() 通過聆聽自然界的聲音,我們可以監(jiān)測動物之間的交流方式,并獲得基本的基線數(shù)據(jù),從而
    發(fā)表于 10-27 09:18

    物聯(lián)網(wǎng)網(wǎng)關(guān)實現(xiàn)與上位機雙向數(shù)據(jù)通信的配置指南

    一、項目背景 隨著工業(yè)數(shù)字化轉(zhuǎn)型的不斷深入,企業(yè)對現(xiàn)場設(shè)備數(shù)據(jù)的實時采集、遠程傳輸與集中管理提出了更高要求。特別是在分布式控制系統(tǒng)中,如何實現(xiàn)本地與遠程系統(tǒng)之間的數(shù)據(jù)互通,成為
    的頭像 發(fā)表于 09-22 11:06 ?604次閱讀
    物聯(lián)網(wǎng)網(wǎng)關(guān)實現(xiàn)與上位機雙向<b class='flag-5'>數(shù)據(jù)</b>通信的配置指南

    線上研討會 | @9/23 Tinyswitch5不Tiny,擁有更高效、更高瓦更精簡的變頻反馳式架構(gòu)

    9月23日,大聯(lián)大詮鼎集團攜手PI將做客大大通直播間帶來“Tinyswitch5不Tiny,擁有更高效、更高瓦、更精簡的變頻反馳式架構(gòu)”主題研討會,邀您了解TinySwitch-5:更高效、更強
    的頭像 發(fā)表于 09-18 08:18 ?335次閱讀
    線上研討會 | @9/23 Tinyswitch5不Tiny,擁有<b class='flag-5'>更高效</b>、<b class='flag-5'>更高</b>瓦更精簡的變頻反馳式架構(gòu)

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應(yīng)用

    科學發(fā)現(xiàn)的重要組成部分。 實驗科學:通過觀察和實驗來驗證假說 理論科學:通過構(gòu)建邏輯框架來解釋觀察到的現(xiàn)象 模型科學:通過數(shù)學模型來描述和
    發(fā)表于 09-17 11:45

    Keil 項目構(gòu)建目標 software 時,F(xiàn)CARM 工具報錯

    使用工具搜索問題,Keil 項目構(gòu)建目標 software 時,F(xiàn)CARM 工具報錯,搜索是未指定輸出文件名。 根據(jù)網(wǎng)上提供的解決辦法,在魔法棒OUTPUT中點擊Create HEX File
    發(fā)表于 08-27 10:12

    【「Yocto項目實戰(zhàn)教程:高效定制嵌入式Linux系統(tǒng)」閱讀體驗】+基礎(chǔ)概念學習理解

    是 Yocto 項目的核心部分之一,書中對元數(shù)據(jù)的概念、文件、語法以及菜譜和層的相關(guān)內(nèi)容進行了詳細闡述。通過學習這部分內(nèi)容,我了解到元數(shù)據(jù)在 Yocto 項目中的重要性,它定義了
    發(fā)表于 08-04 22:29

    【「Yocto項目實戰(zhàn)教程:高效定制嵌入式Linux系統(tǒng)」閱讀體驗】01總結(jié)與實踐記錄

    還是比較合理的,分為了基礎(chǔ)普及和項目實戰(zhàn)環(huán)節(jié),基礎(chǔ)普及里也有跟linux嵌入式構(gòu)建相關(guān)的基礎(chǔ),也有Yocto的基礎(chǔ)內(nèi)容,對這塊感興趣的也可以了解了解。 個人比較感興趣的是從樹莓派那里的實戰(zhàn)內(nèi)容,對于
    發(fā)表于 06-30 11:38

    【書籍評測活動NO.61】Yocto項目實戰(zhàn)教程:高效定制嵌入式Linux系統(tǒng)

    構(gòu)建環(huán)境和性能要求。根據(jù) Yocto 項目的官方說明,主要挑戰(zhàn)可歸納為三大類: 學習曲線與理解成本 工作流與構(gòu)建環(huán)境的復(fù)雜性 初始構(gòu)建時間與性能問題 為了幫助大家
    發(fā)表于 05-21 10:00

    工業(yè)數(shù)據(jù)采集網(wǎng)關(guān)選型全攻略:構(gòu)建智能工廠的數(shù)字橋梁

    在智能制造與工業(yè)互聯(lián)網(wǎng)深度融合的今天,工業(yè)數(shù)據(jù)采集網(wǎng)關(guān)作為連接物理設(shè)備與數(shù)字世界的核心樞紐,其選型直接影響企業(yè)數(shù)字化轉(zhuǎn)型的成效。本文將從六大核心維度解析如何科學選擇適配的工業(yè)網(wǎng)關(guān),助您構(gòu)建穩(wěn)定、
    的頭像 發(fā)表于 04-12 11:13 ?847次閱讀

    數(shù)據(jù)監(jiān)測讓光伏電站運維管理更高效

    ?????? 數(shù)據(jù)監(jiān)測讓光伏電站運維管理更高效 ?????? 光伏電站的日常管理過去像盲人摸象,工作人員只能靠經(jīng)驗判斷設(shè)備狀態(tài),故障處理也總是慢半拍。如今,數(shù)據(jù)監(jiān)測技術(shù)讓電站擁有了數(shù)字感官和數(shù)
    的頭像 發(fā)表于 04-01 16:20 ?592次閱讀
    <b class='flag-5'>數(shù)據(jù)</b>監(jiān)測讓光伏電站運維管理<b class='flag-5'>更高效</b>

    光伏電站運維系統(tǒng)讓太陽能發(fā)電更高效

    ?????? 光伏電站運維系統(tǒng)讓太陽能發(fā)電更高效 ?????? 光伏電站運維系統(tǒng)是一套幫助管理太陽能發(fā)電站的技術(shù)工具,它的作用是讓電站運行更穩(wěn)定、發(fā)電更高效,同時減少人工維護的成本和麻煩。以下是它
    的頭像 發(fā)表于 03-28 16:22 ?1049次閱讀
    光伏電站運維系統(tǒng)讓太陽能發(fā)電<b class='flag-5'>更高效</b>

    外部構(gòu)建器在S32DS 3.6.0中不起作用怎么解決?

    您好 NXP, 安裝 S32DS 3.6.0 后,外部構(gòu)建器(用于 makefile 項目)似乎不起作用,IDE 沒有調(diào)用我的 *.bat 文件。相同的設(shè)置在 3.5.0 中可以正常工作。 我嘗試
    發(fā)表于 03-20 07:06