91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

十年之后,回頭看什么是大數(shù)據(jù)

電子工程師 ? 來(lái)源:YXQ ? 2019-04-22 16:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

BigData 概念在上世紀(jì)90年代被提出,隨Google的3篇經(jīng)典論文(GFS,BigTable,MapReduce)奠基,已經(jīng)發(fā)展了超過(guò)10年。這10年中,誕生了包括Google大數(shù)據(jù)體系,微軟Cosmos體系,開(kāi)源Hadoop體系等優(yōu)秀的系統(tǒng),這其中也包括阿里云的飛天系統(tǒng)。這些系統(tǒng)一步一步推動(dòng)業(yè)界進(jìn)入“數(shù)字化“和之后的“AI化”的時(shí)代。

同時(shí),與其他老牌系統(tǒng)相比(如,Linux操作系統(tǒng)體系,數(shù)據(jù)庫(kù)系統(tǒng),中間件,很多有超過(guò)30年的歷史),大數(shù)據(jù)系統(tǒng)又非常年輕,隨云計(jì)算普惠,正大規(guī)模被應(yīng)用。海量的需求和迭代推動(dòng)系統(tǒng)快速發(fā)展,有蓬勃的生機(jī)。(技術(shù)體系的發(fā)展,可以通過(guò)如下Hype-Cycle概述,作者認(rèn)為,大數(shù)據(jù)系統(tǒng)的發(fā)展進(jìn)入技術(shù)復(fù)興期/Slope of Enlightenment,并開(kāi)始大規(guī)模應(yīng)用Plateau of Productivity。)

上圖來(lái)自Gartner

如果說(shuō),0到1上線標(biāo)志一個(gè)系統(tǒng)的誕生,在集團(tuán)內(nèi)大規(guī)模部署標(biāo)志一個(gè)系統(tǒng)的成長(zhǎng),在云上對(duì)外大規(guī)模服務(wù)標(biāo)志一個(gè)系統(tǒng)的成熟。MaxCompute這10年已經(jīng)走向成熟,經(jīng)過(guò)多次升級(jí)換代,功能、性能、服務(wù)、穩(wěn)定性已經(jīng)有一個(gè)體系化的基礎(chǔ),成為阿里巴巴集團(tuán)數(shù)據(jù)中臺(tái)的計(jì)算核心和阿里云大數(shù)據(jù)的基礎(chǔ)服務(wù)。

“十年磨一劍”。MaxCompute去年做了哪些工作,這些工作背后的原因是什么?大數(shù)據(jù)市場(chǎng)進(jìn)入普惠+紅海的新階段,如何與生態(tài)發(fā)展共贏?人工智能進(jìn)入井噴階段,如何支持與借力?本文從過(guò)去一年的總結(jié),核心技術(shù)概覽,以及每條技術(shù)線路未來(lái)展望等幾個(gè)方面做一個(gè)概述。

1.MaxCompute(ODPS)概述

1.1 背景信息:十年之后,回頭看什么是大數(shù)據(jù)

"Big data represents the information assets characterized by such a high volume, velocity and variety to require specific technology and analytical methods for its transformation into value".

用5個(gè)“V”來(lái)描述大數(shù)據(jù)的特點(diǎn):

Volume-數(shù)據(jù)量:數(shù)據(jù)量非線性增長(zhǎng),包括采集、存儲(chǔ)和計(jì)算的量都非常大,且增速很快。

Variety-數(shù)據(jù)類型:包括結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),特別是最近隨音視圖興起,非結(jié)構(gòu)化數(shù)據(jù)增速更快。

Velocity-數(shù)據(jù)存儲(chǔ)和計(jì)算的增長(zhǎng)速度:數(shù)據(jù)增長(zhǎng)速度快,處理速度快,時(shí)效性要求高。

Veracity-信噪比:數(shù)據(jù)量越大,噪聲越多,需要深入挖掘數(shù)據(jù)來(lái)得到結(jié)果。

Value-價(jià)值:數(shù)據(jù)作為一種資產(chǎn),有1+1>2的特點(diǎn)。

總結(jié)下來(lái),大數(shù)據(jù)具備如下的五個(gè)趨勢(shì):

數(shù)據(jù)爆炸導(dǎo)致數(shù)據(jù)和計(jì)算量增速很高,很多時(shí)候超過(guò)業(yè)務(wù)增速。帶來(lái)成本壓力!

數(shù)據(jù)量變大,但單位數(shù)據(jù)的價(jià)值在下降,深度挖掘勢(shì)在必行,但反過(guò)來(lái)要求計(jì)算力的進(jìn)一步提升。

非結(jié)構(gòu)化數(shù)據(jù)處理,成為趨勢(shì)。

時(shí)效性,是能完成任務(wù)之后,用戶的新期待。

超大規(guī)模的數(shù)據(jù)和計(jì)算,對(duì)人工管理是一個(gè)挑戰(zhàn)。

上述趨勢(shì),也會(huì)得出了作為大數(shù)據(jù)平臺(tái),我們要發(fā)力的方向:計(jì)算力,智能化,生態(tài)系統(tǒng)。

1.2 MaxCompute 定位

阿里云大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute,原名ODPS)是阿里云提供的一種安全可靠、高效能、低成本、從GB到EB級(jí)別按需彈性伸縮的在線大數(shù)據(jù)計(jì)算服務(wù)。

MaxCompute向用戶提供了豐富的大數(shù)據(jù)開(kāi)發(fā)工具、完善的數(shù)據(jù)導(dǎo)入導(dǎo)出方案以及多種經(jīng)典的分布式計(jì)算模型。能夠最快速的解決用戶海量數(shù)據(jù)計(jì)算問(wèn)題,有效降低企業(yè)大數(shù)據(jù)計(jì)算平臺(tái)的總體擁有成本,提高大數(shù)據(jù)應(yīng)用開(kāi)發(fā)效率,并保障數(shù)據(jù)在云計(jì)算環(huán)境的安全。被廣泛的應(yīng)用于互聯(lián)網(wǎng)海量數(shù)據(jù)分析類場(chǎng)景。

MaxCompute是大數(shù)據(jù)云數(shù)倉(cāng)的數(shù)據(jù)匯集點(diǎn),存儲(chǔ)和管理EB級(jí)數(shù)據(jù),支持彈性伸縮的高性能大數(shù)據(jù)計(jì)算服務(wù):它不只是個(gè)單一的引擎,而是一個(gè)平臺(tái)。

“不是單一的引擎”體現(xiàn)在,MaxCompute原生支持SQL、MR、DAG編程語(yǔ)義和Graph、PAI機(jī)器學(xué)習(xí)計(jì)算,同時(shí)也通過(guò)聯(lián)合計(jì)算平臺(tái)支持任意第三方引擎,如Spark、Flink等。

“一個(gè)平臺(tái)”體現(xiàn)在,MaxCompute提供統(tǒng)一高效的數(shù)據(jù)存儲(chǔ),可靠的元數(shù)據(jù)服務(wù),跨地域多集群管理,和數(shù)據(jù)/計(jì)算調(diào)度能力。 MaxCompute以其可靠性、高性能、擴(kuò)展性、安全性和富生態(tài)被廣泛的用于互聯(lián)網(wǎng)海量數(shù)據(jù)分析場(chǎng)景,如海量數(shù)據(jù)分析與處理、大數(shù)據(jù)倉(cāng)庫(kù)、產(chǎn)品維度報(bào)表、機(jī)器學(xué)習(xí)訓(xùn)練、等場(chǎng)景。

1.3 競(jìng)品對(duì)比與分析

大數(shù)據(jù)發(fā)展到今天,數(shù)據(jù)倉(cāng)庫(kù)市場(chǎng)潛力仍然巨大,更多客戶開(kāi)始選擇云數(shù)據(jù)倉(cāng)庫(kù),CDW仍處于高速增長(zhǎng)期。當(dāng)前互聯(lián)網(wǎng)公司和傳統(tǒng)數(shù)倉(cāng)廠家都有進(jìn)入領(lǐng)導(dǎo)者地位,競(jìng)爭(zhēng)激烈,阿里巴巴CDW在全球權(quán)威咨詢與服務(wù)機(jī)構(gòu)Forrester發(fā)布的《The Forrester WaveTM: Cloud Data Warehouse, Q4 2018》報(bào)告中位列中國(guó)第一,全球第七。

在CDW的領(lǐng)導(dǎo)者中,AWS Redshift 高度商業(yè)化、商業(yè)客戶部署規(guī)模領(lǐng)先整個(gè)市場(chǎng),GoogleBigQuery以高性能、高度彈性伸縮獲得領(lǐng)先,Oracle 云數(shù)倉(cāng)服務(wù)以自動(dòng)化數(shù)倉(cāng)技術(shù)獲得領(lǐng)先。 MaxCompute當(dāng)前的定位是市場(chǎng)競(jìng)爭(zhēng)者,目標(biāo)是成為客戶大數(shù)據(jù)的“航母”級(jí)計(jì)算引擎,解決客戶在物聯(lián)網(wǎng)、日志分析、人工智能等場(chǎng)景下日益增長(zhǎng)的數(shù)據(jù)規(guī)模與計(jì)算性能下降、成本上升、復(fù)雜度上升、數(shù)據(jù)安全風(fēng)險(xiǎn)加大之間的矛盾。在此目標(biāo)定位下,對(duì)MaxCompute在智能數(shù)倉(cāng)、高可靠性、高自動(dòng)化、數(shù)據(jù)安全等方面的能力提出了更高的要求。

2. 2018年MaxCompute技術(shù)發(fā)展概述

過(guò)去的一個(gè)財(cái)年,MaxCompute 在技術(shù)發(fā)展上堅(jiān)持在核心引擎、開(kāi)放平臺(tái)、技術(shù)新領(lǐng)域等方向的深耕,在業(yè)務(wù)上繼續(xù)匠心打造產(chǎn)品,擴(kuò)大業(yè)界影響力。

效率提升

2018年9月云棲大會(huì)發(fā)布,MaxCompute 在標(biāo)準(zhǔn)測(cè)試集 TPC-BB 100TB整體指標(biāo)較2017年提升一倍以上。

得益于整體效率的提升,在集團(tuán)內(nèi)部 MaxCompute 以20%的硬件增長(zhǎng)支撐了超過(guò)70%的業(yè)務(wù)增長(zhǎng)。

系統(tǒng)開(kāi)放性和與生態(tài)融合

聯(lián)合計(jì)算平臺(tái) Cupid 逐步成熟,性能 與EMR Spark Benchmark 持平,支持K8S接口,支持完整的框架安全體系。Spark On MaxCompute已開(kāi)始支持云上業(yè)務(wù)

Python分布式項(xiàng)目MARS正式發(fā)布,開(kāi)源兩周內(nèi)收獲1200+ Star,填補(bǔ)了國(guó)內(nèi)在Python生態(tài)上支持大規(guī)模分布式科學(xué)計(jì)算的空白,是競(jìng)品Dask性能的3倍。

探索新領(lǐng)域

MaxCompute 持續(xù)在前沿技術(shù)領(lǐng)域投入,保持技術(shù)先進(jìn)性。在下一代引擎方向(如Adaptive Operators、,Operator Fusion、ClusteredTable等),智能數(shù)倉(cāng) Auto Datawarehouse 方向上的調(diào)研都取得了不錯(cuò)的進(jìn)展。在漸進(jìn)計(jì)算 (Progressive Execution)、Advanced Fail Checking and Recovery 、基于 ML的分布式計(jì)算平臺(tái)優(yōu)化、超大數(shù)據(jù)量Query子圖匹配等多個(gè)方向上的調(diào)研也在進(jìn)行中。

深度參與和推動(dòng)全球大數(shù)據(jù)領(lǐng)域標(biāo)準(zhǔn)化建設(shè)

2018年11月,MaxCompute與DataWorks/AnalyticDB一起代表阿里云入選 Forrester Wave? Q4 2018云數(shù)據(jù)倉(cāng)庫(kù)研究報(bào)告,在產(chǎn)品能力綜合得分上力壓微軟,排名全球第七,中國(guó)第一。

2019年3月,MaxCompute 正式代表Alibaba加入了TPC委員會(huì)推動(dòng)融入和建立標(biāo)準(zhǔn)。

MaxCompute持續(xù)在開(kāi)源社區(qū)投入。成為全球兩大熱門計(jì)算存儲(chǔ)標(biāo)準(zhǔn)化開(kāi)源體系ORC社區(qū)的PMC,MaxCompute成為近兩年貢獻(xiàn)代碼量最多的貢獻(xiàn)者,引導(dǎo)存儲(chǔ)標(biāo)準(zhǔn)化;在全球最熱門優(yōu)化器項(xiàng)目Calcite,擁有一個(gè)專委席位,成為國(guó)內(nèi)前兩家具備該領(lǐng)域影響力的公司,推動(dòng)數(shù)十個(gè)貢獻(xiàn)。

3.核心技術(shù)棧

大數(shù)據(jù)市場(chǎng)進(jìn)入普惠+紅海的新階段,如何借力井噴階段中的人工智能,如何與生態(tài)發(fā)展共贏?

基于橫向架構(gòu)上的核心引擎和系統(tǒng)平臺(tái),MaxCompute在計(jì)算力、生態(tài)化、智能化3個(gè)縱向上著力發(fā)展差異化的競(jìng)爭(zhēng)力。

3.1 計(jì)算力

首先我們從計(jì)算力這個(gè)角度出發(fā),介紹一下 MaxCompute 的技術(shù)架構(gòu)。

a.核心引擎

支撐 MaxCompute 的計(jì)算力的核心模塊之一是其 SQL 引擎:在 MaxCompute 的作業(yè)中,有90%以上的作業(yè)是 SQL 作業(yè),SQL 引擎的能力是 MaxCompute 的核心競(jìng)爭(zhēng)力之一。在MaxCompute 產(chǎn)品框架中,SQL 引擎將用戶的SQL語(yǔ)句轉(zhuǎn)換成對(duì)應(yīng)的分布式執(zhí)行計(jì)劃來(lái)執(zhí)行。SQL 引擎由3個(gè)主要模塊構(gòu)成:

編譯器 Compiler: 對(duì) SQL 標(biāo)準(zhǔn)有友好支持,支持100% TPC-DS語(yǔ)法;并具備強(qiáng)大都錯(cuò)誤恢復(fù)能力,支持 MaxCompute Studio 等先進(jìn)應(yīng)用。

運(yùn)行時(shí) Runtime: 基于LLVM優(yōu)化代碼生產(chǎn),支持列式處理與豐富的關(guān)系算符;基于 CPP 的運(yùn)行時(shí)具有更高效率。

優(yōu)化器 Optimizer: 支持HBO和基于 Calcite 的 CBO, 通過(guò)多種優(yōu)化手段不斷提升 MaxCompute 性能。

(上圖中部分功能只在阿里集團(tuán)內(nèi)部發(fā)布,云上版本會(huì)陸續(xù)發(fā)布上線)

MaxCompute SQL 引擎當(dāng)前的發(fā)展,以提升用戶體驗(yàn)為核心目標(biāo),在 SQL 語(yǔ)言能力、引擎優(yōu)化等多個(gè)方向上兼顧發(fā)力,建立技術(shù)優(yōu)勢(shì),在SQL 語(yǔ)言能力方面,新一代大數(shù)據(jù)語(yǔ)言NewSQL做到了 Declarative 語(yǔ)言和 Imperative 語(yǔ)言的融合,進(jìn)一步提升語(yǔ)言兼容性,目前已100% 支持 TPC-DS 語(yǔ)法。過(guò)去一年中,MaxCompute 新增對(duì) GroupingSets,If-Else分支語(yǔ)句,動(dòng)態(tài)類型函數(shù),等方面的支持。

b.存儲(chǔ)

MaxCompute 不僅僅是一個(gè)計(jì)算平臺(tái),也承擔(dān)著大數(shù)據(jù)的存儲(chǔ)。阿里巴巴集團(tuán)99%的大數(shù)據(jù)存儲(chǔ)都基于MaxCompute,提高數(shù)據(jù)存儲(chǔ)效率、穩(wěn)定性、可用性,也是MaxCompute一直努力的目標(biāo)。

MaxCompute 存儲(chǔ)層處于 MaxCompute Tasks和底層盤古分布式文件系統(tǒng)之間,提供一個(gè)統(tǒng)一的邏輯數(shù)據(jù)模型給各種各樣的計(jì)算任務(wù)。MaxCompute的存儲(chǔ)格式演化,從最早的行存格式CFile1,到第一個(gè)列存儲(chǔ)格式CFile2,到第三代存儲(chǔ)格式。

支持更復(fù)雜的編碼方式,異步預(yù)讀等功能,進(jìn)一步提升效能。在存儲(chǔ)和計(jì)算2個(gè)方面都帶來(lái)了效能的提升。存儲(chǔ)成本方面,在阿里巴巴集團(tuán)內(nèi)通過(guò)新一代的列存格式節(jié)省約8%存儲(chǔ)空間,直接降低約1億成本;在計(jì)算效率上,過(guò)去的一個(gè)財(cái)年中發(fā)布的每個(gè)版本之間都實(shí)現(xiàn)了20%的提升。目前在集團(tuán)內(nèi)大規(guī)模落地的過(guò)程中。

在歸檔以及壓縮方面,MaxCompute 支持ZSTD壓縮格式,以及壓縮策略,用戶可以在Normal,High和Extreme三種Stategy里面選擇。更高的壓縮級(jí)別,帶來(lái)更高效的存儲(chǔ),但也意味著更高的讀寫CPU代價(jià)。

2018年,MaxCompute 陸續(xù)推出了 Hash Clustering 和 Range Clustering 支持富結(jié)構(gòu)化數(shù)據(jù),并持續(xù)的進(jìn)行了深度的優(yōu)化,例如增加了 Shuffle Remove,Clustering Pruning 等優(yōu)化。從線上試用數(shù)據(jù),以及大量的 ATA 用戶實(shí)踐案例也可以看出,Clustering 的收益也獲得了用戶的認(rèn)可。

c.系統(tǒng)框架

資源與任務(wù)管理

MaxCompute 框架為ODPS上面各種類型的計(jì)算引擎提供穩(wěn)定便捷的作業(yè)接入管理接口,管理著ODPS各種類型Task的生命周期。過(guò)去一年對(duì)短作業(yè)查詢的持續(xù)優(yōu)化,縮短e2e時(shí)間,加強(qiáng)對(duì)異常作業(yè)(OOM)的自動(dòng)檢測(cè)與隔離處理,全面打開(kāi)服務(wù)級(jí)別流控,限制作業(yè)異常提交流量,為服務(wù)整體穩(wěn)定性保駕護(hù)航。

MaxCompute 存儲(chǔ)著海量的數(shù)據(jù),也產(chǎn)生了豐富的數(shù)據(jù)元數(shù)據(jù)。在離線元倉(cāng)統(tǒng)計(jì)T+1的情況下,用戶至少需要一天后才能做事后的數(shù)據(jù)風(fēng)險(xiǎn)審計(jì),現(xiàn)實(shí)場(chǎng)景下用戶希望更早風(fēng)險(xiǎn)控制,將數(shù)據(jù)訪問(wèn)事件和項(xiàng)目空間授權(quán)事件通過(guò)CUPID平臺(tái)實(shí)時(shí)推送到用戶DataHub訂閱,用戶可以通過(guò)消費(fèi)DataHub實(shí)時(shí)獲取項(xiàng)目空間表、volume數(shù)據(jù)被誰(shuí)訪問(wèn)等。

元數(shù)據(jù)管理

元數(shù)據(jù)服務(wù)支撐了MaxCompute各個(gè)計(jì)算引擎及框架的運(yùn)行。每天運(yùn)行在MaxCompute的作業(yè),都依賴元數(shù)據(jù)服務(wù)完成DDL,DML以及授權(quán)及鑒權(quán)的操作。元數(shù)據(jù)服務(wù)保障了作業(yè)的穩(wěn)定性和吞吐率,保障了數(shù)據(jù)的完整性和數(shù)據(jù)訪問(wèn)的安全性。元數(shù)據(jù)服務(wù)包含了三個(gè)核心模塊:

Catalog完成DDL,DML及DCL(權(quán)限管理)的業(yè)務(wù)邏輯,Catalog保障MaxCompute作業(yè)的ACID特性。

MetaServer完成元數(shù)據(jù)的高可用存儲(chǔ)和查詢能力。

AuthServer是高性能和高QPS的鑒權(quán)服務(wù),完成對(duì)MaxCompute的所有請(qǐng)求的鑒權(quán),保障數(shù)據(jù)訪問(wèn)安全。

元數(shù)據(jù)服務(wù)經(jīng)過(guò)了模塊化和服務(wù)化后,對(duì)核心事務(wù)管理引擎做了多次技術(shù)升級(jí),通過(guò)數(shù)據(jù)目錄多版本,元數(shù)據(jù)存儲(chǔ)重構(gòu)等改造升級(jí),保障了數(shù)據(jù)操作的原子性和強(qiáng)一致,并提高了作業(yè)提交的隔離能力,并保障了線上作業(yè)的穩(wěn)定性。

在數(shù)據(jù)安全越來(lái)越重要的今天,元數(shù)據(jù)服務(wù)和阿里巴巴集團(tuán)安全部合作,權(quán)限系統(tǒng)升級(jí)到了2.0。核心改進(jìn)包括:

MAC(強(qiáng)制安全控制)及安全策略管理:讓項(xiàng)目空間管理員能更加靈活地控制用戶對(duì)列級(jí)別敏感數(shù)據(jù)的訪問(wèn),強(qiáng)制訪問(wèn)控制機(jī)制(MAC)獨(dú)立于自主訪問(wèn)控制機(jī)制(DAC)。

數(shù)據(jù)分類分級(jí):新增數(shù)據(jù)的標(biāo)簽能力,支持對(duì)數(shù)據(jù)做隱私類數(shù)據(jù)打標(biāo)。

精細(xì)權(quán)限管理:將ACL的管控能力拓展到了Package內(nèi)的表和資源,實(shí)現(xiàn)字段級(jí)的權(quán)限的精細(xì)化管理。

系統(tǒng)安全

系統(tǒng)安全方面, MaxCompute通過(guò)綜合運(yùn)用計(jì)算虛擬化和網(wǎng)絡(luò)虛擬化技術(shù), 為云上多租戶各自的用戶自定義代碼邏輯提供了安全而且完善的計(jì)算和網(wǎng)絡(luò)隔離環(huán)境。SQL UDF(python udf 和 java udf), CUPID聯(lián)合計(jì)算平臺(tái)(Sparks/Mars等), PAI tensorflow等計(jì)算形態(tài)都基于這套統(tǒng)一的基礎(chǔ)隔離系統(tǒng)構(gòu)建上層計(jì)算引擎。

MaxCompute 還通過(guò)提供原生的存儲(chǔ)加密能力, 抵御非授權(quán)訪問(wèn)存儲(chǔ)設(shè)備的數(shù)據(jù)泄露風(fēng)險(xiǎn). MaxCompute內(nèi)置的存儲(chǔ)加密能力, 可以基于KMS云服務(wù)支持用戶自定義秘鑰(BYOK)以及AES256加密算法,并計(jì)劃提供符合國(guó)密合規(guī)要求的SM系列加密算法支持。

結(jié)合MaxCompute元倉(cāng)(MetaData)提供的安全審計(jì)能力和元數(shù)據(jù)管理(MetaService)提供的安全授權(quán)鑒權(quán)能力,以及數(shù)據(jù)安全生態(tài)中安全衛(wèi)士和數(shù)據(jù)保護(hù)傘等安全產(chǎn)品,就構(gòu)成了 MaxCompute安全棧完整大圖。

3.2 生態(tài)化

作為一個(gè)大規(guī)模數(shù)據(jù)計(jì)算平臺(tái),MaxCompute 擁有來(lái)自各類場(chǎng)景的EB級(jí)數(shù)據(jù),需要快速滿足各類業(yè)務(wù)發(fā)展的需要。在真實(shí)的用戶場(chǎng)景中,很少有用戶只用到一套系統(tǒng):用戶會(huì)有多份數(shù)據(jù),或者使用多種引擎。聯(lián)合計(jì)算融合不同的數(shù)據(jù),豐富 MaxCompute 的數(shù)據(jù)處理生態(tài),打破數(shù)據(jù)孤島,打通阿里云核心計(jì)算平臺(tái)與阿里云各個(gè)重要存儲(chǔ)服務(wù)之間的數(shù)據(jù)鏈路。聯(lián)合計(jì)算也融合不同的引擎,提供多種計(jì)算模式,支持開(kāi)源生態(tài)。開(kāi)源能帶來(lái)豐富和靈活的技術(shù)以賦能業(yè)務(wù),通過(guò)兼容開(kāi)源API對(duì)接開(kāi)源生態(tài)。另一方面,在開(kāi)源過(guò)程中我們需要解決最小化引入開(kāi)源技術(shù)成本及打通數(shù)據(jù)、適配開(kāi)源接口等問(wèn)題。

a. Cupid 聯(lián)合計(jì)算平臺(tái)

聯(lián)合計(jì)算平臺(tái) Cupid 使一個(gè)平臺(tái)能夠支持 Spark、Flink,Tensorflow、Numpy,ElasticSearch 等多種異構(gòu)引擎, 在一份數(shù)據(jù)上做計(jì)算。在數(shù)據(jù)統(tǒng)一、資源統(tǒng)一的基礎(chǔ)上,提供標(biāo)準(zhǔn)化的接口,將不同的引擎融合在一起做聯(lián)合計(jì)算。

Cupid 的工作原理是通過(guò)將 MaxCompute 所依賴的 Fuxi 、Pangu 等飛天組間接口適配成開(kāi)源領(lǐng)域常見(jiàn)的 Yarn、HDFS 接口,使得開(kāi)源引擎可以順利執(zhí)行?,F(xiàn)在,Cupid 新增支持了 Kubernetes 接口,使得聯(lián)合計(jì)算平臺(tái)更加開(kāi)放。

案例:Spark On MaxCompute

Spark 是聯(lián)合計(jì)算平臺(tái)第一個(gè)支持的開(kāi)源引擎。基于 Cupid 的 Spark on MaxCompute 實(shí)現(xiàn)了與 MaxCompute 數(shù)據(jù)/元數(shù)據(jù)的完美集成;遵循 MaxCompute 多租戶權(quán)限及安全體系;與Dataworks、PAI平臺(tái)集成;支持 Spark Streaming,Mllib, GraphX, Spark SQL, 交互式等完整 Spark生態(tài);支持動(dòng)態(tài)資源伸縮等。

b. 多源異構(gòu)數(shù)據(jù)的互聯(lián)互通

隨著大數(shù)據(jù)業(yè)務(wù)的不斷擴(kuò)展,新的數(shù)據(jù)使用場(chǎng)景在不斷產(chǎn)生,用戶也期望把所有數(shù)據(jù)放到一起計(jì)算,從而能取得 1+1 > 2 這樣更好的結(jié)果。MaxCompute 提出了聯(lián)合計(jì)算,將計(jì)算下推,聯(lián)動(dòng)其他系統(tǒng):將一個(gè)作業(yè)在多套系統(tǒng)聯(lián)動(dòng),利用起各個(gè)系統(tǒng)可行的優(yōu)化,做最優(yōu)的決策,實(shí)現(xiàn)數(shù)據(jù)之間的聯(lián)動(dòng)和打通。

(上圖為MaxCompute集團(tuán)內(nèi)和專有云能力,公共云已實(shí)現(xiàn)與OSS、OTS的數(shù)據(jù)互通)

MaxCompute 通過(guò)異構(gòu)數(shù)據(jù)支持來(lái)提供與各種數(shù)據(jù)的聯(lián)通,這里的“各種數(shù)據(jù)”是兩個(gè)維度上的: 1. 多樣的數(shù)據(jù)存儲(chǔ)介質(zhì)(外部數(shù)據(jù)源),插件式的框架可以對(duì)接多種數(shù)據(jù)存儲(chǔ)介質(zhì)。當(dāng)前支持的外部數(shù)據(jù)源有:OSS, TableStore(OTS), TDDL,Volume。 2. 多樣的數(shù)據(jù)存儲(chǔ)格式:開(kāi)源的數(shù)據(jù)格式支持,如 ORC、Parquet 等;半結(jié)構(gòu)化數(shù)據(jù),如包括 CSV、Json等隱含一定 schema 的文本文件;完全無(wú)結(jié)構(gòu)數(shù)據(jù),如對(duì)OSS上的文本,音頻、圖像及其他開(kāi)源格式的數(shù)據(jù)進(jìn)行計(jì)算。

基于MaxCompute 異構(gòu)數(shù)據(jù)支持,用戶通過(guò)一條簡(jiǎn)單的 DDL 語(yǔ)句即可在 MaxCompute 上創(chuàng)建一張EXTERNAL TABLE(外表),建立 MaxCompute 表與外部數(shù)據(jù)源的關(guān)聯(lián),提供各種數(shù)據(jù)的接入和輸出能力。創(chuàng)建好的外表在大部分場(chǎng)景中可以像普通的 MaxCompute 表一樣使用,充分利用 MaxCompute 的強(qiáng)大計(jì)算力和數(shù)據(jù)集成、作業(yè)調(diào)度等功能。MaxCompute 外表支持不同數(shù)據(jù)源之間的Join,支持?jǐn)?shù)據(jù)融合分析,從而幫助您獲得通過(guò)查詢獨(dú)立的數(shù)據(jù)孤島無(wú)法獲得的獨(dú)特見(jiàn)解。從而MaxCompute 可以把數(shù)據(jù)查詢從數(shù)據(jù)倉(cāng)庫(kù)擴(kuò)展到EB級(jí)的數(shù)據(jù)湖(如OSS),快速分析任何規(guī)模的數(shù)據(jù),沒(méi)有MaxCompute存儲(chǔ)成本,無(wú)需加載或 ETL。

異構(gòu)數(shù)據(jù)支持是MaxCompute 2.0升級(jí)中的一項(xiàng)重大更新,意在豐富MaxCompute的數(shù)據(jù)處理生態(tài),打破數(shù)據(jù)孤島,打通阿里云核心計(jì)算平臺(tái)與阿里云各個(gè)重要存儲(chǔ)服務(wù)之間的數(shù)據(jù)鏈路。

c. Python 生態(tài)和 MARS科學(xué)計(jì)算引擎

MaxCompute 的開(kāi)源生態(tài)體系中,對(duì) Python 的支持主要包括 PyODPS、Python UDF、和 MARS。

PyODPS一方面是MaxCompute 的 Python SDK,同時(shí)也提供 DataFrame 框架,提供類似 pandas 的語(yǔ)法,能利用 MaxCompute 強(qiáng)大的處理能力來(lái)處理超大規(guī)模數(shù)據(jù)。

基于MaxCompute豐富的用戶自定義函數(shù)(UDF)支持,用戶可以在 ODPS SQL 中編寫 Python UDF 來(lái)擴(kuò)展 ODPS SQL。 MARS 則是為了賦能 MaxCompute 科學(xué)計(jì)算,全新開(kāi)發(fā)的基于矩陣的統(tǒng)一計(jì)算框架。使用 Mars 進(jìn)行科學(xué)計(jì)算,不僅能大幅度減少分布式科學(xué)計(jì)算代碼編寫難度,在性能上也有大幅提升。

3.3 智能化

隨著大數(shù)據(jù)的發(fā)展,我們?cè)趲啄昵熬烷_(kāi)始面對(duì)數(shù)據(jù)/作業(yè) 爆發(fā)式增長(zhǎng)的趨勢(shì)。面對(duì)百萬(wàn)計(jì)的作業(yè)和表,如何做管理呢?

MaxCompute通過(guò)對(duì)歷史作業(yè)特征的學(xué)習(xí)、基于對(duì)數(shù)據(jù)和作業(yè)的深刻理解,讓MaxCompute上的業(yè)務(wù)一定程度實(shí)現(xiàn)自適應(yīng)調(diào)整,讓算法和系統(tǒng)幫助用戶自動(dòng)、透明、高效地進(jìn)行數(shù)倉(cāng)管理和重構(gòu)優(yōu)化工作,實(shí)現(xiàn)更好地理解數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)智能排布和作業(yè)全球調(diào)度,做到大數(shù)據(jù)處理領(lǐng)域的“自動(dòng)駕駛”,也就是我們所說(shuō)的Auto Data Warehousing。

Auto Data Warehousing 在線上真實(shí)的業(yè)務(wù)中,到底能做什么呢?我們以Hash Clustering的自動(dòng)推薦來(lái)小試牛刀。Hash Clustering 經(jīng)過(guò)一年多的發(fā)展,功能不斷完善,但對(duì)用戶來(lái)說(shuō),最難的問(wèn)題仍然在于,給哪些表建立怎樣的Clustering策略是最佳的方案?

MaxCompute 基于 Auto Data Warehousing,來(lái)實(shí)現(xiàn)為用戶推薦如何使用 Hash Clustering,回答如何選擇Table、如何設(shè)置Clutering key和分桶數(shù)等問(wèn)題,讓用戶在海量數(shù)據(jù)、海量作業(yè)、快速變化的業(yè)務(wù)場(chǎng)景下,充分利用平臺(tái)功能。

4. 商業(yè)化歷程

從2009年云梯到ODPS,再到MaxCompute,MaxCompute(ODPS) 這個(gè)大數(shù)據(jù)平臺(tái)已經(jīng)發(fā)展了十年?;仡?MaxCompute 的發(fā)展,首先從云梯到完成登月,成為了一個(gè)統(tǒng)一的大數(shù)據(jù)平臺(tái)。

2014年,MaxCompute 開(kāi)始商業(yè)化的歷程,走出集團(tuán)、向公共云和專有云輸出,直面中國(guó)、乃至全球的用戶。面對(duì)挑戰(zhàn),MaxCompute 堅(jiān)持產(chǎn)品核心能力的增強(qiáng),以及差異化能力的打造, 贏得了客戶的選擇。

回顧上云歷程,公共云的第一個(gè)節(jié)點(diǎn)華東2上海在2014(13年)年7月開(kāi)服,經(jīng)過(guò)4年多發(fā)展,MaxCompute 已在全球部署18個(gè)Region,為云上過(guò)萬(wàn)家用戶提供大數(shù)據(jù)計(jì)算服務(wù),,客戶已覆蓋了新零售、傳媒、社交、互聯(lián)網(wǎng)金融、健康、教育等多個(gè)行業(yè)。專有云的起點(diǎn)則從2014年8月第一套POC環(huán)境部署開(kāi)始,發(fā)展至今專有云總機(jī)器規(guī)模已超過(guò)10000臺(tái);輸出項(xiàng)目150+套,客戶涵蓋城市大腦,大安全,稅務(wù),等多個(gè)重點(diǎn)行業(yè)。

今天,MaxCompute 在全球有超過(guò)十萬(wàn)的服務(wù)器,通過(guò)統(tǒng)一的作業(yè)調(diào)度系統(tǒng)和統(tǒng)一的元數(shù)據(jù)管理,這十萬(wàn)多臺(tái)服務(wù)器就像一臺(tái)計(jì)算機(jī),為全球用戶提供提供包括批計(jì)算、流計(jì)算、內(nèi)存計(jì)算、機(jī)器學(xué)習(xí)、迭代等一系列計(jì)算能力。這一整套計(jì)算平臺(tái)成為了阿里巴巴經(jīng)濟(jì)體,以及阿里云背后計(jì)算力的強(qiáng)有力支撐。MaxCompute 作為一個(gè)完整的大數(shù)據(jù)平臺(tái),將不斷以技術(shù)驅(qū)動(dòng)平臺(tái)和產(chǎn)品化發(fā)展,讓企業(yè)和社會(huì)能夠擁有充沛的計(jì)算能力,持續(xù)快速進(jìn)化,驅(qū)動(dòng)數(shù)字中國(guó)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    9065

    瀏覽量

    143776
  • 阿里
    +關(guān)注

    關(guān)注

    6

    文章

    465

    瀏覽量

    34198

原文標(biāo)題:阿里靠什么支撐EB級(jí)計(jì)算力

文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    維智科技亮相WIF2025創(chuàng)新先行者論壇暨商業(yè)航天新十年盛典

    1月23日,陶闖博士在“WIF2025創(chuàng)新先行者論壇暨商業(yè)航天新十年盛典”活動(dòng)上,發(fā)表《當(dāng)AI走向太空》年度演講。
    的頭像 發(fā)表于 01-27 10:53 ?616次閱讀

    機(jī)房項(xiàng)目中的時(shí)間系統(tǒng):從忽視到謹(jǐn)慎的十年體會(huì)

    機(jī)房項(xiàng)目中的時(shí)間系統(tǒng):從忽視到謹(jǐn)慎的十年體會(huì) 做系統(tǒng)集成、機(jī)房項(xiàng)目這些,我對(duì)“時(shí)間同步”這個(gè)基礎(chǔ)環(huán)節(jié)的看法,變化其實(shí)挺大的。 剛?cè)胄心菚?huì)兒,時(shí)間同步在方案里幾乎沒(méi)什么存在感。常見(jiàn)做法也很簡(jiǎn)單:設(shè)備
    的頭像 發(fā)表于 01-20 13:13 ?153次閱讀

    云天勵(lì)飛出席GAIR 2025 AI算力新十年專場(chǎng)

    12月13日,GAIR 2025「AI 算力新十年」專場(chǎng)在深圳舉行。作為國(guó)內(nèi)前沿技術(shù)與產(chǎn)業(yè)變革的重要風(fēng)向標(biāo),GAIR大會(huì)歷經(jīng)七屆積淀,見(jiàn)證并推動(dòng)了中國(guó) AI 產(chǎn)業(yè)從算法突破、硬件迭代,到商業(yè)落地
    的頭像 發(fā)表于 12-22 09:38 ?425次閱讀

    東風(fēng)嵐圖與寧德時(shí)代正式簽署十年長(zhǎng)期深化合作協(xié)議

    12月17日,東風(fēng)嵐圖與寧德時(shí)代正式簽署十年長(zhǎng)期深化合作協(xié)議,雙方將在新技術(shù)合作、產(chǎn)品供應(yīng)、品牌共建、全球市場(chǎng)協(xié)同等領(lǐng)域展開(kāi)全方位深度協(xié)同,確保東風(fēng)嵐圖未來(lái)動(dòng)力電池的穩(wěn)定供應(yīng)與技術(shù)領(lǐng)先性,持續(xù)提升其在電池技術(shù)與供應(yīng)鏈安全領(lǐng)域的綜合競(jìng)爭(zhēng)力。
    的頭像 發(fā)表于 12-19 09:52 ?549次閱讀

    縮短啟動(dòng)時(shí)間的定制支持成為采用關(guān)鍵——持續(xù)選用Silex希來(lái)科無(wú)線模塊逾十年

    縮短啟動(dòng)時(shí)間的定制支持成為采用關(guān)鍵——持續(xù)選用Silex希來(lái)科無(wú)線模塊逾十年
    的頭像 發(fā)表于 12-14 15:11 ?1210次閱讀
    縮短啟動(dòng)時(shí)間的定制支持成為采用關(guān)鍵——持續(xù)選用Silex希來(lái)科無(wú)線模塊逾<b class='flag-5'>十年</b>

    華為五大創(chuàng)新開(kāi)啟非洲移動(dòng)產(chǎn)業(yè)黃金十年

    在2025非洲通信展(AfricaCom 2025)期間,華為無(wú)線網(wǎng)絡(luò)產(chǎn)品線營(yíng)銷副總裁陳實(shí)發(fā)表“創(chuàng)新開(kāi)啟非洲移動(dòng)產(chǎn)業(yè)黃金十年”主題演講,表示非洲是充滿活力的數(shù)字熱土,華為將聚焦“新流量、新體驗(yàn)
    的頭像 發(fā)表于 11-14 16:23 ?1450次閱讀

    Wi-Fi FEM研發(fā),開(kāi)啟第二個(gè)十年

    轉(zhuǎn)載自《鐘林談芯》 人生如逆旅,我亦是行人。十年之旅,?一起同行,?步步開(kāi)花,Wi-Fi FEM研發(fā),我們開(kāi)啟第二個(gè)十年。 2015,在 銳迪科 (RDA)一起走進(jìn)Wi-Fi FEM賽道,未來(lái)的路
    的頭像 發(fā)表于 11-12 15:37 ?447次閱讀
    Wi-Fi FEM研發(fā),開(kāi)啟第二個(gè)<b class='flag-5'>十年</b>

    十年·NDI在中國(guó)|影像志:見(jiàn)證視頻IP化的成長(zhǎng)與未來(lái)

    十年前,NDI改變了世界;十年后,千視與NDI攜手,共同定義未來(lái)!《十年·NDI在中國(guó)紀(jì)錄片》從一個(gè)瘋狂的愿景開(kāi)始NDI的誕生,源于一個(gè)看似瘋狂卻極具遠(yuǎn)見(jiàn)的構(gòu)想。它的創(chuàng)造者堅(jiān)信:隨著視頻技術(shù)
    的頭像 發(fā)表于 10-22 10:43 ?911次閱讀
    <b class='flag-5'>十年</b>·NDI在中國(guó)|影像志:見(jiàn)證視頻IP化的成長(zhǎng)與未來(lái)

    NDI 十年:誕生 · 愿景 · 發(fā)展 · 未來(lái)— 獨(dú)家專訪 NDI 創(chuàng)始人 Andrew Cross博士

    十年前,幾乎沒(méi)有人相信視頻制作能脫離昂貴的基帶設(shè)備,完全依賴電腦與網(wǎng)絡(luò);而今天,NDI已成為全球公認(rèn)的IP視頻制作標(biāo)準(zhǔn)。2025,既是NDI的十周年,也是Kiloview與NDI攜手走過(guò)的第
    的頭像 發(fā)表于 10-10 11:03 ?626次閱讀
    NDI <b class='flag-5'>十年</b>:誕生 · 愿景 · 發(fā)展 · 未來(lái)— 獨(dú)家專訪 NDI 創(chuàng)始人 Andrew Cross博士

    手機(jī)長(zhǎng)焦進(jìn)化史:攀過(guò)十年,終抵云巔

    跨越十年的技術(shù)攻堅(jiān),凝聚成華為Pura 80 系列的“集大成者”
    的頭像 發(fā)表于 08-15 03:29 ?1222次閱讀
    手機(jī)長(zhǎng)焦進(jìn)化史:攀過(guò)<b class='flag-5'>十年</b>,終抵云巔

    十年積淀,DPVR AI眼鏡將正式亮相

    表示想要購(gòu)買AI眼鏡。一個(gè)新的智能設(shè)備時(shí)代,正在打開(kāi)。在這個(gè)節(jié)點(diǎn),深耕XR領(lǐng)域十年的DPVR(大朋VR),將帶來(lái)它的首款A(yù)I智能眼鏡——DPVRAIGlasses
    的頭像 發(fā)表于 08-14 11:47 ?1082次閱讀
    <b class='flag-5'>十年</b>積淀,DPVR AI眼鏡將正式亮相

    BOE(京東方)“照亮成長(zhǎng)路”公益項(xiàng)目新十年啟幕 科技無(wú)界照亮美好未來(lái)

    的“世界高城”理塘,寓意該項(xiàng)目歷經(jīng)十年耕耘達(dá)到了全新的高度,也標(biāo)志著B(niǎo)OE(京東方)下一個(gè)十年公益征程的嶄新起點(diǎn)將由此啟幕?;顒?dòng)現(xiàn)場(chǎng),BOE(京東方)宣布,今年將繼續(xù)向四川理塘縣、陜西富平縣、青海玉樹(shù)州雜多縣等地區(qū)捐建30間智慧教室。同時(shí),在理塘活動(dòng)現(xiàn)場(chǎng),BOE(京東方)
    的頭像 發(fā)表于 06-10 09:01 ?614次閱讀

    十年磨一劍,百頻通萬(wàn)物:國(guó)產(chǎn)無(wú)線通信突圍之路

    2025十年破壁,百頻織網(wǎng)BRIEFINTRODUCTION成都澤耀科技有限公司·導(dǎo)語(yǔ)·當(dāng)你家智能水表自動(dòng)抄讀、工廠設(shè)備跨越百米鋼墻傳輸數(shù)據(jù)、牧場(chǎng)牛羊位置實(shí)時(shí)回傳時(shí)——背后可能藏著一枚硬幣大小的通信
    的頭像 發(fā)表于 06-09 15:21 ?1198次閱讀
    <b class='flag-5'>十年</b>磨一劍,百頻通萬(wàn)物:國(guó)產(chǎn)無(wú)線通信突圍之路

    十年磨一劍,我的新書(shū)上市了!

    大家好,我是皮哥Peter,十年磨一劍,我的新書(shū)《打通Linux操作系統(tǒng)和芯片開(kāi)發(fā)》上市了!今天,新書(shū)開(kāi)啟了5折優(yōu)惠,滿滿的干貨,高顏值,雙色印刷,手感厚實(shí),新書(shū)原價(jià)139元,限時(shí)半價(jià),只要69.5
    的頭像 發(fā)表于 04-01 07:33 ?708次閱讀
    <b class='flag-5'>十年</b>磨一劍,我的新書(shū)上市了!

    聚浪十年 共儲(chǔ)未來(lái)!2025元腦存儲(chǔ)分銷合作伙伴大會(huì)成功舉辦

    信息與存儲(chǔ)分銷伙伴攜手同行的十年歷程,共拓人工智能時(shí)代下存儲(chǔ)業(yè)務(wù)的戰(zhàn)略發(fā)展新路徑。 當(dāng)前,隨著人工智能技術(shù)的飛速發(fā)展,數(shù)據(jù)已成為新時(shí)代的"石油",驅(qū)動(dòng)著各行各業(yè)的數(shù)字化轉(zhuǎn)型。大模型應(yīng)用的加速落地,智算新基建的深入推進(jìn),使得存儲(chǔ)作為數(shù)據(jù)
    的頭像 發(fā)表于 03-24 20:17 ?573次閱讀
    聚浪<b class='flag-5'>十年</b> 共儲(chǔ)未來(lái)!2025元腦存儲(chǔ)分銷合作伙伴大會(huì)成功舉辦