91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文學會ByteHouse搭建數(shù)倉最佳實踐

jf_ro2CN3Fa ? 來源:芋道源碼 ? 作者:芋道源碼 ? 2022-12-16 11:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著數(shù)據(jù)的應用場景越來越豐富,企業(yè)對數(shù)據(jù)價值反饋到業(yè)務中的時效性要求也越來越高,很早就有人提出過一個概念:數(shù)據(jù)的價值在于數(shù)據(jù)的在線化。實時計算起源于對數(shù)據(jù)加工時效性的嚴苛需求:數(shù)據(jù)的業(yè)務價值隨著時間的流逝會迅速降低,因此在數(shù)據(jù)產生后必須盡快對其進行計算和處理,從而最大效率實現(xiàn)數(shù)據(jù)價值轉化,對實時數(shù)倉的建設需求自然而然的誕生了。而建設好實時數(shù)倉需要解決如下幾個問題:

一、穩(wěn)定性:實時數(shù)倉對數(shù)據(jù)的實時處理必須是可靠的、穩(wěn)定的;

二、高效數(shù)據(jù)集成:流式數(shù)據(jù)的集成必須方便高效,要求能進行高并發(fā)、大數(shù)據(jù)量的寫入;

三、極致性能要求:實時數(shù)倉不能僅限于簡單查詢,需要支持復雜計算能力,且計算結果可秒級返回;

四、靈活查詢:需要具備自助分析的能力,為業(yè)務分析提供靈活的、自助式的匯總和明細查詢服務;

五、彈性擴縮:需要具備良好的擴展性, 必須架構統(tǒng)一具備擴展性,可為IT建設提供靈活性。

針對以上問題,火山引擎不斷在業(yè)務中摸索,總結了基于 ByteHouse 建設實時數(shù)倉的經驗。

選擇ByteHouse構建實時數(shù)倉的原因

ByteHouse 是火山引擎在 ClickHouse 的基礎上自研并大規(guī)模實踐的一款高性能、高可用企業(yè)級分析性數(shù)據(jù)庫,支持用戶交互式分析 PB 級別數(shù)據(jù)。其自研的表引擎,靈活支持各類數(shù)據(jù)分析和保證實時數(shù)據(jù)高效落盤,實現(xiàn)了熱數(shù)據(jù)按生命周自動冷存,緩解存儲空間壓力;同時引擎內置了圖形化運維界面,可輕松對集群服務狀態(tài)進行運維;整體架構采用多主對等架構設計,架構安全可靠穩(wěn)定,可確保單點無故障瓶頸。

ByteHouse 的架構簡潔,采用了全面向量化引擎,并配備全新設計的優(yōu)化器,查詢速度有數(shù)量級提升(尤其是多表關聯(lián)查詢)。

用戶使用 ByteHouse 可以靈活構建包括大寬表、星型模型、雪花模型在內的各類模型。

ByteHouse 可以滿足企業(yè)級用戶的多種分析需求,包括 OLAP 多維分析、定制報表、實時數(shù)據(jù)分析和 Ad-hoc 數(shù)據(jù)分析等各種應用場景。

ByteHouse 優(yōu)勢一:實時數(shù)據(jù)高吞吐的接入能力

面對業(yè)務大數(shù)據(jù)量的產生,需要高效可靠實時數(shù)據(jù)的接入能力,為此我們自研了 Kafka 數(shù)據(jù)源接入表引擎 HaKafka ,該表引擎可高效的將 Kafka 的數(shù)據(jù)接入 ByteHouse ,具有有如下特性:

數(shù)據(jù)接入高吞吐性,支持了多線消費 Kafka topic 對應 Partition 的數(shù)據(jù),滿足大數(shù)據(jù)量實時數(shù)據(jù)接入的需求。

數(shù)據(jù)接入高可靠性,通過 Zookeeper 來實現(xiàn)主備消費節(jié)點管理,比如,當線上出現(xiàn)某個節(jié)點出現(xiàn)故障或無法提供服務時,可以通過 Zookeeper 心跳感知機制自動切換到另一個節(jié)點提供服務,以此來保障業(yè)務的穩(wěn)定性。

數(shù)據(jù)接入原子性,引擎自行管理 Kafka offset ,將 offset 和 parts 進行綁定在一起,來實現(xiàn)單批次消費寫入的原子性,當中途消費寫入失敗,會自動將綁定的 parts 撤銷,從而實現(xiàn)數(shù)據(jù)消費的穩(wěn)定性。

具體流程原理如下圖所示

aef11e28-7ce9-11ed-8abf-dac502259ad0.png

ByteHouse 優(yōu)勢二:基于主鍵高頻數(shù)據(jù)更新能力

隨著實時數(shù)據(jù)分析場景的發(fā)展,對實時數(shù)據(jù)更新的分析需求也越來越多,比如在如下的業(yè)務場景就需要實時更新數(shù)據(jù)能力:

? 第一類是業(yè)務需要對它的交易類數(shù)據(jù)進行實時分析,需要把數(shù)據(jù)流同步到 ByteHouse 這類 OLAP 數(shù)據(jù)庫中。大家知道,業(yè)務數(shù)據(jù)諸如訂單數(shù)據(jù)天生是存在更新的,所以需要 OLAP 數(shù)據(jù)庫去支持實時更新。

? 第二個場景和第一類比較類似,業(yè)務希望把TP數(shù)據(jù)庫的表實時同步到 ByteHouse,然后借助 ByteHouse 強大的分析能力進行實時分析,這就需要支持實時的更新和刪除。

? 最后一類場景的數(shù)據(jù)雖然不存在更新,但需要去重。大家知道在開發(fā)實時數(shù)據(jù)的時候,很難保證數(shù)據(jù)流里沒有重復數(shù)據(jù),因此通常需要存儲系統(tǒng)支持數(shù)據(jù)的冪等寫入。

基于以上業(yè)務場景的需求,我們自研了基于主鍵更新數(shù)據(jù)的表引擎 HaUniqueMergeTree,該表引擎即滿足高效查詢性能要求,又支持基于主鍵更新數(shù)據(jù)的表引擎,有如下特性:

通過定義 Unique Key 唯一鍵,來提供數(shù)據(jù)實時更新的語義,唯一鍵的選擇支持多字段和表達式的模式;

支持分區(qū)級別數(shù)據(jù)唯一和表級別數(shù)據(jù)唯一兩種模式;

支持多副本高可靠部署,實測數(shù)據(jù)去重寫入吞吐達每秒10萬行以上(10w+/s),很好的解決了社區(qū)版 ReplacingMergreTree 不能高效更新數(shù)據(jù)的痛點。

具體流程原理如下圖所示

af0368d0-7ce9-11ed-8abf-dac502259ad0.png

具體的原理細節(jié)可查閱之前發(fā)布的文章 干貨 | ClickHouse增強計劃之“Upsert”

ByteHouse 優(yōu)勢三:多表 Join 查詢能力

在構建實時數(shù)據(jù)分析的場景中,我們常在數(shù)據(jù)加工的過程中,將多張表通過一些關聯(lián)字段打平成一張寬表,通過一張表對外提供分析能力,即大寬表模型。其實大寬表依然有它的局限性,一是,生成每一張大寬表都需要數(shù)據(jù)開發(fā)人員不小的工作量,而且生成過程也需要一定的時間;二是,生成寬表會產生大量的數(shù)據(jù)冗余。針對寬表模型的局限性,我們從0到1自研實現(xiàn)了查詢優(yōu)化器,非常好的支持復雜查詢的需求,有如下特性:

兼容兩種 SQL 語法,支持 ANSI SQL 和原生 CLICKHOUSE SQL ;

支持基于RBO優(yōu)化能力,即支持:列裁剪、分區(qū)裁剪、表達式簡化、子查詢解關聯(lián)、謂詞下推、冗余算子消除、Outer-JOIN 轉 INNER-JOIN、算子下推存儲、分布式算子拆分等常見的啟發(fā)式優(yōu)化能力;

支持基于 CBO 優(yōu)化能力,基于 Cascade 搜索框架,實現(xiàn)了高效的 Join 枚舉算法,以及基于 Histogram 的代價估算,對 10 表全連接級別規(guī)模的 Join Reorder 問題,能夠全量枚舉并尋求最優(yōu)解,同時針對大于10表規(guī)模的 Join Reorder 支持啟發(fā)式枚舉并尋求最優(yōu)解。CBO 支持基于規(guī)則擴展搜索空間,除了常見的 Join Reorder 問題以外,還支持 Outer-Join/Join Reorder,Magic Set Placement 等相關優(yōu)化能力;

分布式計劃優(yōu)化,面向分布式 MPP 數(shù)據(jù)庫,生成分布式查詢計劃,并且和 CBO 結合在一起。相對業(yè)界主流實現(xiàn):分為兩個階段,首先尋求最優(yōu)的單機版計劃,然后將其分布式化。我們的方案則是將這兩個階段融合在一起,在整個 CBO 尋求最優(yōu)解的過程中,會結合分布式計劃的訴求,從代價的角度選擇最優(yōu)的分布式計劃。對于 Join/Aggregate 的還支持 Partition 屬性展開。

高階優(yōu)化能力,實現(xiàn)了 Dynamic Filter pushdown、單表物化視圖改寫、基于代價的 CTE (公共表達式共享)。

af1cb1aa-7ce9-11ed-8abf-dac502259ad0.png

具體的原理細節(jié)可查閱之前發(fā)布的文章 干貨 | ClickHouse增強計劃之“查詢優(yōu)化器”

實時數(shù)倉建設方案

借助Flink 出色流批一體的能力,ByteHouse極致的查詢性能,為用戶構建實時數(shù)倉,滿足業(yè)務實時分析需求。

af382a3e-7ce9-11ed-8abf-dac502259ad0.png

Flink 作為流式數(shù)據(jù)處理引擎,使用Flink SQL為整個實時數(shù)倉數(shù)據(jù)提供數(shù)據(jù)轉化與清洗;

Kafka作為流式數(shù)據(jù)臨時存儲層,同時為Flink SQL 數(shù)據(jù)轉化與清洗提供緩沖作用,提高數(shù)據(jù)穩(wěn)定性;

ByteHouse 作為流式數(shù)據(jù)持久化存儲層,使用 ByteHouse HaKafka 、HaUniqueMergeTree 表引擎可將 Kafka 臨時數(shù)據(jù)高效穩(wěn)定接入儲存到 ByteHouse ,為后端應用提供極速統(tǒng)一的數(shù)據(jù)集市查詢服務。具體的數(shù)據(jù)鏈路如下圖所示

af4a3940-7ce9-11ed-8abf-dac502259ad0.png

實時數(shù)倉各邏輯層功能職責如下:

ODS 層(Operational Data Store)

把生產系統(tǒng)的數(shù)據(jù)導入消息隊列,原則上不做任何清洗操作,字段信息跟數(shù)據(jù)源保持一致。目的是為了對數(shù)據(jù)源做收斂管理,數(shù)據(jù)排查上也好做溯源回查。

DWD 層(Data Warehouse Detail)

DWD 層采用維度建模理論,針對業(yè)務內容梳理業(yè)務實體的維表信息和事實表信息,設計 DWD 明細寬表模型,根據(jù)設計好的邏輯模型對 ODS 層的數(shù)據(jù)進行數(shù)據(jù)清洗,重定義和整合,整合主要包含多流 join 和維度擴充兩部分內容, 建設能表達該業(yè)務主題下具體業(yè)務過程的多維明細寬表流。每一份 DWD 表從業(yè)務梳理->模型設計->數(shù)據(jù)流圖->任務開發(fā)鏈接->數(shù)據(jù)校驗結果->數(shù)據(jù)落地信息->常用使用場景歸納。

DWS 層(Data Warehouse Summary)

該層級主要在 DWD 層明細數(shù)據(jù)的基礎上針對業(yè)務實體跨業(yè)務主題域建設匯總指標,根據(jù)統(tǒng)計場景,設計匯總指標模型。

APP 層(Application)

作為對接具體應用的數(shù)倉層級,由 ByteHouse 提供統(tǒng)一的數(shù)據(jù)服務,是基于 DWD 和 DWS 層對外提供一些定制化實時流。

ByteHouse 已經在火山引擎上全面對外服務,并且提供各種版本以滿足不同類型用戶的需求。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:一文學會 ByteHouse 搭建數(shù)倉最佳實踐

文章出處:【微信號:芋道源碼,微信公眾號:芋道源碼】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    華為站點能源解決方案榮獲沙利2025年度全球最佳實踐

    近日,華為站點能源榮獲國際知名咨詢機構弗若斯特沙利(Frost & Sullivan,簡稱“沙利”)頒發(fā)的“2025全球最佳實踐獎”,表彰其在通信能源領域推動虛擬電廠(VPP)創(chuàng)新
    的頭像 發(fā)表于 03-14 16:10 ?1635次閱讀

    萬里紅榮獲數(shù)智化實踐典型案例“創(chuàng)新突破”稱號

    近日,由中關村科創(chuàng)智慧軍工產業(yè)技術創(chuàng)新戰(zhàn)略聯(lián)盟組織開展的數(shù)智化實踐典型案例征集評選結果正式公布。萬里紅《智能輔助定密系統(tǒng)在國防工業(yè)領域數(shù)字化保密管理中的創(chuàng)新應用》榮獲數(shù)智化實踐典型案例
    的頭像 發(fā)表于 01-06 11:26 ?578次閱讀

    BMS設計中如何選擇MOSFET——關鍵考慮因素與最佳實踐

    MOSFET時需要綜合考慮多個因素,以確保其滿足BMS的高效和穩(wěn)定運行要求。本文將介紹在BMS設計過程中選擇MDD的MOSFET時需要重點關注的關鍵因素和最佳實踐。、MO
    的頭像 發(fā)表于 12-15 10:24 ?475次閱讀
    BMS設計中如何選擇MOSFET——關鍵考慮因素與<b class='flag-5'>最佳</b><b class='flag-5'>實踐</b>

    長電科技榮獲2025年上市公司可持續(xù)發(fā)展最佳實踐案例

    近日,長電科技榮獲中國上市公司協(xié)會頒發(fā)的“2025年度上市公司董事會最佳實踐案例”“2025年上市公司可持續(xù)發(fā)展最佳實踐案例”兩項大獎,彰顯市場對長電科技公司治理,踐行ESG可持續(xù)發(fā)展
    的頭像 發(fā)表于 12-10 10:34 ?611次閱讀
    長電科技榮獲2025年上市公司可持續(xù)發(fā)展<b class='flag-5'>最佳</b><b class='flag-5'>實踐</b>案例

    立訊精密榮獲2025年上市公司可持續(xù)發(fā)展最佳實踐案例

    11月18日,由中國上市公司協(xié)會(中上協(xié))主辦的2025上市公司可持續(xù)發(fā)展大會在北京隆重召開。會上,中上協(xié)發(fā)布了2025上市公司可持續(xù)發(fā)展最佳實踐案例名單,從環(huán)境、社會和治理3個維度出發(fā)評優(yōu)樹典,立
    的頭像 發(fā)表于 11-26 17:49 ?1793次閱讀

    安波福榮獲2025年度最佳實踐獎之產品領導力大獎

    近日,全球領先的增長咨詢公司Frost & Sullivan在美國亞利桑那州舉辦2025年度最佳實踐獎頒獎典禮。安波福PULSE雷達視覺體感知系統(tǒng)憑借在全球汽車輔助泊車領域的卓越表現(xiàn),榮獲2025年度
    的頭像 發(fā)表于 10-30 15:02 ?1772次閱讀

    達實智能榮獲中國企業(yè)管理“十大最佳實踐”獎

    受邀參會,達實智能憑借公司創(chuàng)新案例榮獲“十大最佳實踐”獎。 活動匯聚了全球頂尖管理學者、企業(yè)家及政商學界精英,共探AI時代的管理變革與創(chuàng)新路徑。作為本屆論壇的重要成果,首屆“中國企業(yè)管理
    的頭像 發(fā)表于 10-20 17:53 ?2053次閱讀

    洲明科技入選2025年上市公司內部控制優(yōu)秀實踐案例

    近日,由中國上市公司協(xié)會主辦的“2025年中國上市公司內部控制最佳實踐案例”評選結果正式揭曉。洲明科技憑借在內控工作上系統(tǒng)化、數(shù)智化建設的積極實踐與顯著成效,榮獲“2025年上市公司內
    的頭像 發(fā)表于 10-11 10:11 ?653次閱讀

    中軟國際多領域數(shù)聚智能方案的實踐分享

    數(shù)聚智能方案的實踐分享》的演講,深入剖析了公司圍繞“云+AI”構建的服務體系與產品矩陣,以及多個行業(yè)的落地案例,為企業(yè)數(shù)智化轉型提供了清晰路徑與實用借鑒。
    的頭像 發(fā)表于 09-01 11:42 ?747次閱讀

    生產環(huán)境中Kubernetes容器安全的最佳實踐

    隨著容器化技術的快速發(fā)展,Kubernetes已成為企業(yè)級容器編排的首選平臺。然而,在享受Kubernetes帶來的便利性和可擴展性的同時,安全問題也日益凸顯。本文將從運維工程師的角度,深入探討生產環(huán)境中Kubernetes容器安全的最佳實踐。
    的頭像 發(fā)表于 07-14 11:09 ?803次閱讀

    Linux網絡管理的關鍵技術和最佳實踐

    在大型互聯(lián)網企業(yè)中,Linux網絡管理是運維工程師的核心技能之。面對海量服務器、復雜網絡拓撲、高并發(fā)流量,運維人員需要掌握從基礎網絡配置到高級網絡優(yōu)化的全套技術棧。本文將結合大廠實際場景,深入解析Linux網絡管理的關鍵技術和最佳實踐
    的頭像 發(fā)表于 07-09 09:53 ?1012次閱讀

    長安汽車與深演智能榮獲2025愛分析DeepSeek最佳實踐案例

    近日,深演智能與長安汽車聯(lián)合打造的 《長安汽車基于大模型的線索清洗創(chuàng)新運營項目》 榮獲 2025愛分析·DeepSeek最佳實踐案例獎項。面對汽車市場競爭加劇、線索成本攀升的行業(yè)痛點,該項目通過AI技術重構營銷全鏈路,為車企數(shù)
    的頭像 發(fā)表于 06-28 15:59 ?2481次閱讀

    天馬榮獲新財富雜志“2024 ESG最佳實踐獎”

    天馬可持續(xù)發(fā)展?ESG表現(xiàn)再獲認可,上榜2024年新財富雜志最佳上市公司評選“ESG最佳實踐榜單”。
    的頭像 發(fā)表于 05-21 14:43 ?990次閱讀

    曙光存儲入選2025年中國先進存力最佳應用實踐

    近日,國際權威分析機構沙利(Frost & Sullivan)聯(lián)合頭豹研究院發(fā)布《2025年中國先進存力最佳應用實踐》,以閃存為標志的先進存力已在各行業(yè)落地,尤其是AI、金融、通信等行業(yè),先進存力占比均超過30%。
    的頭像 發(fā)表于 04-10 09:55 ?1048次閱讀

    SOLIDWORKS 2025教育版:緊密的產學研合作,搭建理論與實踐的橋梁

    在工程技術教育領域,理論與實踐的結合直是培養(yǎng)高素質人才的關鍵。SOLIDWORKS 2025教育版作為款CAD軟件,通過緊密的產學研合作,成功搭建起了理論與
    的頭像 發(fā)表于 03-26 17:21 ?802次閱讀
    SOLIDWORKS 2025教育版:緊密的產學研合作,<b class='flag-5'>搭建</b>理論與<b class='flag-5'>實踐</b>的橋梁