91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Hudi系列:表類型(Table & Query Types)

京東云 ? 來(lái)源:jf_75140285 ? 作者:jf_75140285 ? 2025-10-21 09:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Hudi系列:Hudi核心概念(版本1.0)

?Hudi架構(gòu)

?一. 時(shí)間軸(TimeLine)s

?1.1 時(shí)間軸(TimeLine)概念

?1.2 Hudi的時(shí)間線由組成

?1.3 時(shí)間線上的Instant action操作類型

?1.4 時(shí)間線上State狀態(tài)類型

?1.5 時(shí)間線官網(wǎng)實(shí)例

?二. 文件布局

?三. 索引

3.1 簡(jiǎn)介

3.2 對(duì)比其它(Hive)沒(méi)有索引的區(qū)別

3.2 多態(tài)索引

布隆過(guò)濾器

記錄索引

表達(dá)索引

二級(jí)索引

3.3寫入端的索引類型

3.4 全局索引與非全局索引

四. 表類型

4.1 COW:(Copy on Write)寫時(shí)復(fù)制表

4.1.1概念

4.1.2 COW工作原理

4.1.3 COW表對(duì)表的管理方式改進(jìn)點(diǎn)

4.2 MOR:(Merge on Read)讀時(shí)復(fù)制表

4.2.1 概念

4.2.2 MOR表工作原理

4.3 總結(jié)了兩種表類型之間的權(quán)衡

五. 查詢類型

?

?

四、簡(jiǎn)介

Hudi 表類型定義了數(shù)據(jù)的存儲(chǔ)方式以及如何在表上執(zhí)行寫入操作(即如何寫入數(shù)據(jù))。反過(guò)來(lái),查詢類型定義了如何將底層數(shù)據(jù)暴露給查詢(即如何讀取數(shù)據(jù))。
Hudi 引入了以下目前已在業(yè)界廣泛使用的表類型,根據(jù)實(shí)際情況權(quán)衡取舍。
Copy On Write :Merge On Read:讀取時(shí)合并 (MoR) 表類型通過(guò)使用定期壓縮將輕量級(jí)日志文件與基礎(chǔ)文件合并,從而平衡寫入和讀取性能。
數(shù)據(jù)更新和刪除操作會(huì)寫入日志文件(以基于行的格式,例如 Avro 或列式/基礎(chǔ)文件格式),然后在查詢執(zhí)行期間將日志文件中的這些更改與基礎(chǔ)文件動(dòng)態(tài)合并。這種方法降低了寫入延遲,
并支持近乎實(shí)時(shí)的數(shù)據(jù)可用性。但是,查詢性能可能會(huì)因日志文件是否壓縮而有所不同。
核心事務(wù)功能(例如原子寫入、索引)以及獨(dú)特的新功能(例如增量查詢、自動(dòng)文件大小調(diào)整和可擴(kuò)展表元數(shù)據(jù)跟蹤)均在兩者中提供,且與表類型無(wú)關(guān)。

4.1Copy On Write Table

4.1概念

寫時(shí)復(fù)制 (COW) 表類型針對(duì)讀取密集型工作負(fù)載進(jìn)行了優(yōu)化。在此模式下,記錄更新或刪除會(huì)觸發(fā)在文件組中創(chuàng)建新的基礎(chǔ)文件,并且不會(huì)寫入日志文件。這確保每個(gè)查詢僅讀取基礎(chǔ)文件,從而提供
較高的讀取性能,而無(wú)需動(dòng)態(tài)合并日志文件。雖然 COW 表非常適合 OLAP 掃描/查詢,但由于在更新或刪除期間重寫基礎(chǔ)文件的開(kāi)銷,即使每個(gè)文件中只修改了少量記錄,它們的寫入操作也可能較慢。 
下面從概念上說(shuō)明了當(dāng)數(shù)據(jù)寫入時(shí)復(fù)制表并在其上運(yùn)行兩個(gè)查詢時(shí)其工作原理。

4.1.2COW工作原理

wKgZPGjx0MyAHZS1AAP8JI1VUVM476.png

隨著數(shù)據(jù)的寫入,對(duì)現(xiàn)有文件組的更新會(huì)為該文件組生成一個(gè)新的切片,并標(biāo)記與提交請(qǐng)求的時(shí)刻相關(guān)聯(lián);而插入操作則會(huì)分配一個(gè)新的文件組,并為該文件組寫入其第一個(gè)切片。
這些文件切片及其提交完成的時(shí)刻已在上方以同一顏色編碼。針對(duì)上圖 SQL 查詢首先檢查已完成寫入的時(shí)間線,并過(guò)濾每個(gè)文件組除最新文件切片之外的所有文件切片。如您所見(jiàn),較舊的查詢不會(huì)看到
當(dāng)前正在進(jìn)行的提交的文件(以粉紅色編碼),但提交后啟動(dòng)的新查詢會(huì)獲取新數(shù)據(jù)。因此,查詢不會(huì)受到任何寫入失敗/部分寫入的影響,并且只會(huì)讀取已提交的數(shù)據(jù)。

4.1.3 COW表對(duì)表的管理方式改進(jìn)點(diǎn)

1.在原有文件上進(jìn)行自動(dòng)更新數(shù)據(jù),而不是重新刷新整個(gè)表/分區(qū)

2.能夠只讀取修改部分的數(shù)據(jù),而不是浪費(fèi)查詢無(wú)效數(shù)據(jù)

3.嚴(yán)格控制文件大小來(lái)保證查詢性能(小文件會(huì)顯著降低查詢性能)

4.2 Merge On Read Table

4.2.1概念

讀取時(shí)合并 (MOR) 表類型通過(guò)使用定期壓縮將輕量級(jí)日志文件與基文件合并,從而平衡寫入和讀取性能。數(shù)據(jù)更新和刪除操作會(huì)寫入日志文件(以基于行的格式,例如 Avro 或列式/基文件格式),
然后在查詢執(zhí)行期間將日志文件中的這些更改動(dòng)態(tài)地與基文件合并。這種方法可以降低寫入延遲并支持近乎實(shí)時(shí)的數(shù)據(jù)可用性。但是,查詢性能可能會(huì)因日志文件是否被壓縮而有所不同。

4.1.2MOR工作原理

下面說(shuō)明了 MOR 表的工作原理,并展示了兩種類型的查詢 - 快照查詢和讀取優(yōu)化查詢。

wKgZO2jx0M2AdaQdAARwZZFEKZM506.png

?

這個(gè)例子中發(fā)生了很多有趣的事情,方法出方法的微妙之處。
1)如上圖所示,可以做到每一分鐘提交一次寫入操作
2)查詢表的方式有兩種,Read Optimized query和Snapshot query,取決于我們選擇是要查詢性能還是數(shù)據(jù)最新

3)如上圖所示,Read Optimized query查詢不到10:05之后的數(shù)據(jù)(查詢不到增量日志里的數(shù)據(jù),沒(méi)有合并到base文件),而Snapshot query則可以查詢到全量數(shù)據(jù)(基本列數(shù)據(jù)+行式的增量日志數(shù)據(jù))

4.3總結(jié)兩種表的類型之前的權(quán)衡

權(quán)衡 寫時(shí)復(fù)制COW 讀取時(shí)合并MOR
寫入延遲 更高 降低
查詢延遲 降低 更高
更新成本 更高(重寫整個(gè)基礎(chǔ)文件) 較低(附加到增量日志)
基本文件大小 需要更小以避免高更新(I/0)成本 可以更大,因?yàn)楦鲁杀竞艿颓铱梢詳備N
讀取放大 0 對(duì)于查詢讀取的文件組:O(records_changed)
寫入放大 對(duì)于給定的更新/刪除模式,最高為O(file_groups_written) 對(duì)于寫入的文件組:O(records_changed)

?

五. 查詢類型

?Snapshot Queries:查詢會(huì)查看截至最新完成操作的最新表快照。這些是每個(gè)人都習(xí)慣在表上運(yùn)行的常規(guī) SQL 查詢。Hudi 存儲(chǔ)引擎會(huì)在支持的查詢引擎上盡可能使用索引來(lái)加速這些快照查詢。

?

?Time Travel Queries:查詢過(guò)去某個(gè)時(shí)刻的表快照。時(shí)間旅行查詢有助于訪問(wèn)表的多個(gè)版本(例如,機(jī)器學(xué)習(xí)特征存儲(chǔ),用于根據(jù)用于訓(xùn)練算法/模型的精確數(shù)據(jù)對(duì)其進(jìn)行評(píng)分),這些版本位于活動(dòng)時(shí)間線中的某個(gè)時(shí)刻或過(guò)去的保存點(diǎn)。

?

?Read Optimized Queries (Only MoR tables):讀優(yōu)化查詢通過(guò)純列式文件(例如Parquet 基礎(chǔ)文件)提供出色的快照查詢性能。用戶通常使用與事務(wù)邊界一致的壓縮策略,以提供表/分區(qū)的舊一致性視圖。這對(duì)于集成來(lái)自數(shù)據(jù)倉(cāng)庫(kù)的 Hudi 表非常有用,因?yàn)檫@些數(shù)據(jù)倉(cāng)庫(kù)通常僅將列式基礎(chǔ)文件作為外部表進(jìn)行查詢,或者對(duì)于延遲不敏感、更注重效率而非數(shù)據(jù)新鮮度的 ML/AI 訓(xùn)練作業(yè)。

?

? Incremental Queries (Latest State):增量查詢僅返回自時(shí)間軸上某一時(shí)刻以來(lái)寫入表的新數(shù)據(jù)。提供自表的給定時(shí)間點(diǎn)以來(lái)插入/更新的記錄的最新值(即,查詢?yōu)槊總€(gè)記錄鍵輸出一條記錄)??捎糜诒容^兩個(gè)時(shí)間點(diǎn)之間的表狀態(tài)差異。

?

?Incremental Queries(CDC):這是另一種增量查詢,它提供類似數(shù)據(jù)庫(kù)的 Hudi 表變更數(shù)據(jù)捕獲流。CDC 查詢的輸出包含自某個(gè)時(shí)間點(diǎn)或兩個(gè)時(shí)間點(diǎn)之間插入、更新或刪除的記錄,以及每條變更記錄的前后圖像,以及導(dǎo)致變更的操作。

權(quán)衡 Snapshot Read Optimized
數(shù)據(jù)延遲 降低 更高
查詢延遲 更高(合并基礎(chǔ)/列式文件 + 基于行的增量/日志文件) 較低(原始基/柱狀文件性能)




審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    PT32L005&F005系列32位微控制器

    PT32L005&F005系列32位微控制器PT32L005&F005是澎湃微電子(PAI-IC) 推出的兩
    發(fā)表于 03-05 08:51

    LoRa1121 FCC&CE認(rèn)證 多頻段LoRa無(wú)線通訊模塊規(guī)格書

    LoRa1121 FCC&CE認(rèn)證 多頻段LoRa無(wú)線通訊模塊規(guī)格書
    發(fā)表于 02-26 14:36 ?0次下載

    工業(yè)場(chǎng)景下 TE AMP 線束線纜組件選型全攻略

    TE Connectivity(簡(jiǎn)稱 TE / 泰科電子)是全球領(lǐng)先的電子互連解決方案供應(yīng)商,其 AMP Connectors 系列產(chǎn)品覆蓋各種工業(yè)及汽車應(yīng)用場(chǎng)景。AMP 系列包含從基
    的頭像 發(fā)表于 12-16 14:18 ?553次閱讀
    工業(yè)場(chǎng)景下 TE <b class='flag-5'>AMP</b> 線束線纜組件選型全攻略

    探秘EV系列0.8 Amp敏感可控硅:特性、應(yīng)用與設(shè)計(jì)要點(diǎn)

    探秘EV系列0.8 Amp敏感可控硅:特性、應(yīng)用與設(shè)計(jì)要點(diǎn) 在電子工程師的日常設(shè)計(jì)工作中,可控硅(SCR)是一種常見(jiàn)且關(guān)鍵的半導(dǎo)體器件,廣泛應(yīng)用于各種電路中。今天,我們將深入探討Littelfuse
    的頭像 發(fā)表于 12-16 13:50 ?370次閱讀

    30/35 Amp高溫雙向可控硅——QJxx30xH4 &amp; QJxx35xH4系列的特性與應(yīng)用

    30/35 Amp高溫雙向可控硅——QJxx30xH4 QJxx35xH4系列的特性與應(yīng)用 在電子工程師的日常設(shè)計(jì)工作中,可控硅是交流電源控制應(yīng)用里常用的器件。今天,我們就來(lái)深入探討一下
    的頭像 發(fā)表于 12-16 10:30 ?397次閱讀

    羅德與施瓦茨宣布推出新頻段 R&amp;amp;amp;S ZNB3000 矢量網(wǎng)絡(luò)分析儀,頻率高達(dá) 54 GHz

    瓦茨(以下簡(jiǎn)稱“R&amp;S”)在今年的歐洲微波周(EuMW)上展示頻率覆蓋高達(dá)54GHz的新型號(hào)ZNB3000,此系列矢量網(wǎng)絡(luò)分析儀助力工程師快速獲得測(cè)量結(jié)果。R&amp;SZNB3000矢
    的頭像 發(fā)表于 12-04 17:04 ?658次閱讀
    羅德與施瓦茨宣布推出新頻段 R&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;S ZNB3000 矢量網(wǎng)絡(luò)分析儀,頻率高達(dá) 54 GHz

    Hudi系列:Hudi核心概念之索引(Indexs)

    Hudi系列:Hudi核心概念(版本1.0) ?Hudi架構(gòu) ?一. 時(shí)間軸(TimeLine)s ?1.1 時(shí)間軸(TimeLine)概念 ?1.2
    的頭像 發(fā)表于 10-21 09:47 ?444次閱讀
    <b class='flag-5'>Hudi</b><b class='flag-5'>系列</b>:<b class='flag-5'>Hudi</b>核心概念之索引(Indexs)

    Hudi系列:Hudi核心概念之文件布局(Storage Layouts)

    Hudi索引類型 ?3.4 全局索引與非全局索引 ?四. 類型 ?4.1 COW:(Copy on Write)寫時(shí)復(fù)制表 ?4.1.1 概念 ?4.1.2 COW工作原理 ?4.
    的頭像 發(fā)表于 10-14 16:06 ?747次閱讀
    <b class='flag-5'>Hudi</b><b class='flag-5'>系列</b>:<b class='flag-5'>Hudi</b>核心概念之文件布局(Storage Layouts)

    1218 MHz 高輸出 GaN CATV 功率倍增器 Amp擴(kuò)音器 skyworksinc

    、接線圖、封裝手冊(cè)、中文資料、英文資料,1218 MHz 高輸出 GaN CATV 功率倍增器 Amp擴(kuò)音器真值,1218 MHz 高輸出 GaN CATV 功率倍增器 Amp擴(kuò)音器管腳等資料,希望可以幫助到廣大的電子工程師們
    發(fā)表于 09-01 18:30
    1218 MHz 高輸出 GaN CATV 功率倍增器 <b class='flag-5'>Amp</b>擴(kuò)音器 skyworksinc

    870 MHz、25 dB 增益 CATV 功率倍增器 Amp擴(kuò)音器 skyworksinc

    、接線圖、封裝手冊(cè)、中文資料、英文資料,870 MHz、25 dB 增益 CATV 功率倍增器 Amp擴(kuò)音器真值,870 MHz、25 dB 增益 CATV 功率倍增器 Amp擴(kuò)音器管腳等資料,希望可以幫助到廣大的電子工程師們
    發(fā)表于 09-01 18:30
    870 MHz、25 dB 增益 CATV 功率倍增器 <b class='flag-5'>Amp</b>擴(kuò)音器 skyworksinc

    1 GHz、28 dB 增益 CATV 功率倍增器 Amp擴(kuò)音器 skyworksinc

    、封裝手冊(cè)、中文資料、英文資料,1 GHz、28 dB 增益 CATV 功率倍增器 Amp擴(kuò)音器真值,1 GHz、28 dB 增益 CATV 功率倍增器 Amp擴(kuò)音器管腳等資料,希望可以幫助到廣大的電子工程師們。
    發(fā)表于 08-29 18:35
    1 GHz、28 dB 增益 CATV 功率倍增器 <b class='flag-5'>Amp</b>擴(kuò)音器 skyworksinc

    CS86706適用1~3節(jié)鋰電應(yīng)用,內(nèi)置升壓模塊,2×30W立體聲&amp;amp;amp;50W單聲道R類音頻功率放大器

    CS86706適用1~3節(jié)鋰電應(yīng)用,內(nèi)置升壓模塊,2×30W立體聲&amp;amp;50W單聲道R類音頻功率放大器
    的頭像 發(fā)表于 07-16 20:42 ?719次閱讀
    CS86706適用1~3節(jié)鋰電應(yīng)用,內(nèi)置升壓模塊,2×30W立體聲&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;50W單聲道R類音頻功率放大器

    新知|Verizon與AT&amp;amp;amp;T也可以手機(jī)直接連接衛(wèi)星了

    近日,Verizon與AT&amp;T宣布,手機(jī)直連衛(wèi)星方面取得重要進(jìn)展,使用普通手機(jī)實(shí)現(xiàn)了通過(guò)衛(wèi)星的視頻通話。很顯然,Verizon與AT&amp;T的這一舉措是針對(duì)此前T-Mobile
    的頭像 發(fā)表于 06-19 07:07 ?1201次閱讀
    新知|Verizon與AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T也可以手機(jī)直接連接衛(wèi)星了

    多模塊配置!YU系列USB、Type-C連接器為工控機(jī)打造&amp;amp;quot;全能型&amp;amp;quot;數(shù)據(jù)傳輸方案

    背景介紹工控機(jī)是一類用于工業(yè)、野外等復(fù)雜惡劣環(huán)境的專用計(jì)算機(jī)設(shè)備,如何實(shí)現(xiàn)穩(wěn)如磐石的數(shù)據(jù)傳輸是關(guān)鍵?凌科電氣YU-USB&amp;Type-C工業(yè)連接器,以嚴(yán)苛環(huán)境適配性及長(zhǎng)期穩(wěn)定的性能表現(xiàn),成為
    的頭像 發(fā)表于 05-07 18:27 ?756次閱讀
    多模塊配置!YU<b class='flag-5'>系列</b>USB、Type-C連接器為工控機(jī)打造&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;全能型&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;數(shù)據(jù)傳輸方案

    在線研討會(huì) @4/10 ASTRA?賦能邊緣 AI:探索 Synaptics SL &amp;amp;amp; SR 處理器的無(wú)限可能

    邊緣AI:探索SynapticsSL&amp;SR處理器的無(wú)限可能”主題研討會(huì)。介紹SynapticsASTRA系列AI處理器,包括SL和SR系列,全面解析其AI原生框架、
    的頭像 發(fā)表于 04-02 16:34 ?851次閱讀
    在線研討會(huì) @4/10 ASTRA?賦能邊緣 AI:探索 Synaptics SL &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; SR 處理器的無(wú)限可能