以下文章來源于谷歌云服務,作者 Google Cloud
陸鋒
Google Cloud 亞太區(qū)數(shù)據(jù)分析架構師
在 AI 時代,數(shù)據(jù)是引擎,但對大多數(shù)企業(yè)而言,這個引擎正被數(shù)據(jù)孤島、復雜的工具鏈和緩慢的洞察周期所拖累。數(shù)據(jù)工程師在繁瑣的 ETL 中筋疲力盡,數(shù)據(jù)科學家因數(shù)據(jù)準備不足而束手無策,業(yè)務團隊則因報表延遲而錯失良機。這使得 AI 計劃往往雷聲大雨點小,難以規(guī)?;U缫痪淅显捤f,"你無法在一個破碎的數(shù)據(jù)地基上,構建一個可靠的 AI 未來。"
為了應對這一挑戰(zhàn),Google Cloud 推出了下一代 AI Lakehouse 解決方案。它不僅僅是一個數(shù)據(jù)倉庫或數(shù)據(jù)湖的簡單組合,而是一個專為 AI 時代設計的,集開放性、高性能、統(tǒng)一治理和原生智能于一體的綜合數(shù)據(jù)平臺。本文將深入探討 Google Cloud AI Lakehouse 的核心理念、關鍵組件及其如何幫助企業(yè)將數(shù)據(jù)雄心轉化為業(yè)務現(xiàn)實。
核心理念: 一個為 AI 而生的開放式數(shù)據(jù)湖倉 (Open Data Lakehouse)
傳統(tǒng)的分析架構往往在數(shù)據(jù)倉庫 (用于結構化數(shù)據(jù)分析) 和數(shù)據(jù)湖 (用于存儲海量原始數(shù)據(jù)) 之間形成壁壘。這種分離導致了數(shù)據(jù)冗余、治理復雜和分析效率低下,嚴重阻礙了 AI 應用的開發(fā)。當數(shù)據(jù)被鎖在特定的格式或工具中時,團隊協(xié)作變得困難,創(chuàng)新也因此受到束縛。
Google Cloud 的 AI Lakehouse 旨在徹底打破這些壁壘,其核心理念根植于三大支柱:
●打破數(shù)據(jù)邊界:無論數(shù)據(jù)存儲在 BigQuery 原生存儲中,還是以 Apache Iceberg 等開放格式存在于 Google Cloud Storage (GCS) 上,都能通過統(tǒng)一的平臺進行訪問和管理,無需數(shù)據(jù)遷移或復制。這意味著數(shù)據(jù)可以 "原地" 被分析,從而形成一個無摩擦的協(xié)作環(huán)境和企業(yè)級的單一事實來源。
●激活數(shù)據(jù)全部潛力:提供無與倫比的性能,讓企業(yè)能夠無限制地進行分析、運營和創(chuàng)新。這不僅關乎查詢速度,更關乎處理海量多模態(tài)數(shù)據(jù) (文本、圖片、音視頻) 并從中實時提取價值的能力,從而驅動更智能的業(yè)務決策。
●普及 AI 驅動的洞察:將 Gemini 等前沿 AI 模型深度集成到數(shù)據(jù)生命周期的每個環(huán)節(jié),讓從數(shù)據(jù)工程師到業(yè)務用戶的每個人都能輕松使用 AI。目標是讓 AI 像 SQL 一樣,成為數(shù)據(jù)工作者觸手可及的基礎能力,將他們的工作從 "做什么" 提升到 "為什么做"。
架構概覽: 統(tǒng)一與開放的完美結合
Google Cloud AI Lakehouse 的架構設計巧妙地將各個功能層協(xié)同起來,充分體現(xiàn)了其開放性和統(tǒng)一性。

Google Cloud AI Lakehouse 架構圖
●存儲層 (Storage):底層由BigQuery Native Storage和基于 GCS 的Iceberg Native Cloud Storage構成,支持托管和自管理的開放格式,為數(shù)據(jù)提供了靈活且經(jīng)濟高效的存儲選項。
●統(tǒng)一管理層 (Unified Management):BigLake是整個架構的核心,它作為一個統(tǒng)一的控制平面,允許用戶以一致的方式管理和訪問所有數(shù)據(jù),無論其物理位置或格式如何。
●多引擎處理層 (Multi-Engine Processing)平臺支持多樣化的計算引擎,包括BigQuery SQL、Google Cloud Serverless for Apache Spark(搭載革命性的Lightning Engine)、Dataproc和AlloyDB SQL,確保用戶可以使用最適合其工作負載的工具。
●統(tǒng)一治理層 (Unified Governance):Dataplex Universal Catalog為從數(shù)據(jù)到 AI 模型的整個生命周期提供全面的治理能力,確保數(shù)據(jù)的可信、安全和合規(guī)。
●體驗層 (Experience):面向不同角色提供豐富的工具,包括BigQuery Notebook、Vertex AI Workbench、Looker以及創(chuàng)新的Data Agents,極大地提升了數(shù)據(jù)團隊的生產(chǎn)力。
這些層次的無縫集成,確保了數(shù)據(jù)在整個平臺內(nèi)能夠自由、安全、高效地流動,為上層 AI 應用提供了堅實可靠的保障。
三大核心引擎: 解鎖極致性能、原生智能與無限開放性
BigLake: 數(shù)據(jù)湖倉的 "通用護照"
BigLake 是實現(xiàn)開放式湖倉的關鍵。您可以把它想象成一本數(shù)據(jù)的 "通用護照",讓數(shù)據(jù)可以在不同的計算引擎 (國家) 之間自由穿行,而無需繁瑣的數(shù)據(jù)復制和 ETL (簽證) 流程。它創(chuàng)建了一個虛擬層,將 BigQuery 強大的企業(yè)級功能 (如精細的權限控制、高性能查詢和 AI/ML 集) 擴展到 GCS 上的開放數(shù)據(jù)格式 (如 Iceberg、Delta Lake、Parquet)。這意味著:
●真正的互操作性:數(shù)據(jù)只需存儲一次,就可以被 BigQuery、Spark、Trino 等多種引擎無縫訪問和分析。這不僅節(jié)省了大量的存儲成本,也杜絕了因數(shù)據(jù)副本不一致而導致的分析錯誤。
●一致的治理:通過與 Dataplex 的集成,所有訪問請求都遵循統(tǒng)一的安全和治理策略。無論您使用哪種工具,數(shù)據(jù)的訪問權限和審計日志都集中管理,大大簡化了合規(guī)工作。
● 避免廠商鎖定:企業(yè)可以自由選擇最適合的工具,同時保留對數(shù)據(jù)的完全控制權。您的數(shù)據(jù)以開放格式存儲,未來可以輕松接入任何支持這些格式的新技術,確保了技術棧的靈活性和未來發(fā)展的可持續(xù)性。
BigQuery: 不僅僅是數(shù)據(jù)倉庫,更是 AI 平臺
作為 Google Cloud 數(shù)據(jù)戰(zhàn)略的核心,BigQuery 已經(jīng)進化為一個集分析與 AI 于一體的超級平臺。
●內(nèi)置 AI,而非 "外掛":
○B(yǎng)igQuery ML:允許用戶使用簡單的 SQL 語句直接在 BigQuery 中訓練和部署預測性和生成式 AI 模型。例如,營銷團隊無需數(shù)據(jù)科學家的幫助,僅用幾行 SQL 就能構建一個客戶流失預測模型。
○多模態(tài)向量搜索 (Vector Search):支持對文本、圖像等非結構化數(shù)據(jù)的向量嵌入進行高效的相似性搜索,是構建高級 RAG (檢索增強生成) 應用的基礎。這使得您可以構建能夠理解產(chǎn)品手冊、客戶評論甚至設計圖紙的智能客服或搜索應用。
○AI Query Engine (預覽版):由 Gemini 驅動,讓用戶可以在 SQL 查詢中使用自然語言來處理和分析多模態(tài)數(shù)據(jù),例如直接提問 "這張廣告圖片中包含了哪些產(chǎn)品?" 或者 "總結一下上個季度所有關于 '電池續(xù)航' 的負面客戶評論"。
●為性能而生的多引擎架構:
○B(yǎng)igQuery Advanced Runtime:通過先進的運行時優(yōu)化,能夠在無需用戶干預的情況下,將復雜分析查詢的性能提升高達 200 倍。
○Serverless Spark with Lightning Engine:Google Cloud 的下一代 Spark 性能引擎Lightning Engine,通過向量化查詢執(zhí)行和智能緩存,實現(xiàn)了比開源 Apache Spark 快4.3 倍的驚人性能,同時顯著降低了資源消耗。這不僅僅是速度的提升,更意味著過去需要數(shù)小時才能完成的復雜分析任務,現(xiàn)在可以在幾分鐘內(nèi)完成,從而極大地加速了從數(shù)據(jù)到?jīng)Q策的周期。
Dataplex: 從 "數(shù)據(jù)治理" 到 "AI 治理"
隨著 AI 模型的廣泛應用,治理的范疇也從傳統(tǒng)的數(shù)據(jù)表擴展到了 AI 特征、模型和 Notebook。Dataplex Universal Catalog 正是為應對這一 "治理危機" 而生,它將治理從被動的 "規(guī)則手冊" 轉變?yōu)橹鲃拥?"智能向導"。
●通用性 (Universal):自動發(fā)現(xiàn)和編目 Google Cloud 內(nèi)外的所有數(shù)據(jù)和 AI 資產(chǎn),包括基于 Iceberg 的開放湖倉,消除治理盲點。
●AI 賦能 (AI-powered):利用 AI 自動生成元數(shù)據(jù) (如表和列的描述)、提供自然語言搜索能力 (例如,搜索 "顯示中國地區(qū)包含 PII 的客戶表"),并主動推薦數(shù)據(jù)洞察。
●智能化 (Intelligent):Dataplex 不僅僅是元數(shù)據(jù)的存儲庫,它通過構建一個 "知識引擎" (Knowledge Engine),分析查詢歷史、元數(shù)據(jù)和數(shù)據(jù)剖析結果,自動推斷數(shù)據(jù)間的關系和業(yè)務語義。這為 AI Agent 提供了可靠的上下文,確保其生成的結果既準確又可信。
Agentic AI: 開啟數(shù)據(jù)交互的新紀元
為了進一步解放數(shù)據(jù)團隊的生產(chǎn)力,并讓數(shù)據(jù)洞察惠及企業(yè)中的每一個人,Google Cloud 引入了 "Agentic AI" 的理念,推出了一系列Data Agents。您可以將這些智能體想象成一個為您每個數(shù)據(jù)角色配備的 "智能副駕" 或 "數(shù)字專家團隊"。他們不是簡單地執(zhí)行命令,而是能理解您的意圖,主動協(xié)作并自動化完成整個數(shù)據(jù)生命周期中的復雜工作。
這些強大 Agent 的背后,是 Dataplex 中一個關鍵的大腦——知識引擎 (Knowledge Engine)。這是 Dataplex Universal Catalog 中的一個核心模塊,其根本任務是將靜態(tài)的元數(shù)據(jù)記錄,轉變?yōu)橐粋€動態(tài)的、具備上下文感知的 "知識網(wǎng)絡" (living, context-aware knowledge fabric)。
它不再是被動地存儲元數(shù)據(jù),而是主動地分析和連接來自整個 Google Cloud 數(shù)據(jù)與 AI 技術棧的信號。它所 "消化" 的輸入包括:
●來自Data Profile的模式分布和統(tǒng)計數(shù)據(jù)。
●來自Data Quality的有效性和新鮮度結果。
●來自Business Glossary的企業(yè)術語定義。
●以及數(shù)據(jù)血緣 (Lineage)、查詢?nèi)罩?(Usage histories)和元數(shù)據(jù)注解。
知識引擎將來自BigQuery、Spanner、AlloyDB、Cloud SQL、Vertex AI 和 Looker的信息編織在一起,構建了一個覆蓋從事務型數(shù)據(jù)庫到分析型倉庫,再到 AI 模型的全景圖。
最終,它構建出一個動態(tài)的企業(yè) "知識圖譜"。這使 Dataplex 從一個靜態(tài)的資產(chǎn)注冊表 (static registry)進化為一個動態(tài)的關系構建者 (dynamic relationship builder)。這個知識圖譜的核心目的,就是為 Agentic AI 提供必要的 "錨定" 上下文 (grounding context)。
知識引擎通過以下方式,將 Data Agents 從 "工具" 提升為 "伙伴":
●提供準確的上下文:當 Agent 接收到一個模糊的請求,如 "分析上季度的客戶流失情況" 時,知識引擎會提供必要的上下文: 它知道哪些表是 "客戶主數(shù)據(jù)",哪個字段代表 "最后活躍日期",以及業(yè)務上如何定義 "流失"。這為 Agent 的行動提供了堅實的基礎,有效避免了 AI 模型常見的 "幻覺" 問題,確保其響應是基于事實的。
●實現(xiàn)復雜的推理:基于知識圖譜,Agent 能夠理解并執(zhí)行跨領域、多步驟的復雜任務。例如,用戶可以提出 "找出在最近一次營銷活動中,對高利潤產(chǎn)品反應最積極的客戶群體,并分析他們的共同特征",Agent 能夠自主地關聯(lián)營銷、銷售和產(chǎn)品數(shù)據(jù),完成這一系列復雜的分析。
●確保內(nèi)置的安全性與合規(guī)性:由于知識引擎本身就是 Dataplex 治理框架的一部分,它對所有數(shù)據(jù)安全策略 (如 IAM 策略、PII 標識) 都有全面的認知。因此,當一個業(yè)務分析師嘗試查詢包含敏感客戶信息的字段時,即使他沒有明確意識到,Agent 也會在生成結果前自動應用數(shù)據(jù)脫敏規(guī)則,只展示聚合后的、符合隱私政策的數(shù)據(jù)。這實現(xiàn)了安全于無形,讓數(shù)據(jù)民主化與合規(guī)性并行不悖。
有了知識引擎的加持,Data Agents 才能真正發(fā)揮其潛力:
●Data Engineering Agent:過去,數(shù)據(jù)工程師可能需要幾天時間編寫和調(diào)試復雜的 Spark 作業(yè)?,F(xiàn)在,他們只需告訴 Agent: "將 Salesforce 的客戶數(shù)據(jù)和 SAP 的訂單數(shù)據(jù)進行合并,按季度聚合銷售額,并將結果加載到 BigQuery 的 'quarterly_sales' 表中",Agent 就能自動生成、優(yōu)化并執(zhí)行整個數(shù)據(jù)管道。
●Data Science Agent:數(shù)據(jù)科學家不再需要手動進行繁瑣的探索性數(shù)據(jù)分析 (EDA) 和特征工程。他們可以指示 Agent: "針對這份客戶數(shù)據(jù),進行 EDA 分析,找出與客戶流失最相關的特征,并構建一個初步的預測模型",Agent 將自動完成數(shù)據(jù)可視化、特征選擇和模型訓練,并返回一份詳盡的報告。
●Conversational Analytics Agent:業(yè)務用戶能以對話的方式探索數(shù)據(jù)、獲取洞察、進行根本原因分析甚至預測未來趨勢,真正實現(xiàn)數(shù)據(jù)的全民化。例如,銷售總監(jiān)可以直接在聊天界面中提問: "對比上個季度,我們哪個產(chǎn)品的銷售額增長最快?根本原因是什么?"Agent 會自動查詢數(shù)據(jù)、分析趨勢并給出基于數(shù)據(jù)的合理解釋。
這些植根于可信知識的 Agent,標志著人與數(shù)據(jù)交互方式的一次革命性飛躍。
結論: 構建面向未來的數(shù)據(jù)戰(zhàn)略
Google Cloud AI Lakehouse 提供了一個清晰的藍圖,幫助企業(yè)應對 AI 時代的復雜數(shù)據(jù)挑戰(zhàn)。它通過一個統(tǒng)一、開放、智能和 Agentic的平臺,不僅解決了當前的數(shù)據(jù)孤島和治理難題,更為未來的創(chuàng)新奠定了堅實的基礎。
在這個 AI 決定未來的時代,您的數(shù)據(jù)戰(zhàn)略就是您的 AI 戰(zhàn)略。選擇正確的平臺,將不再是讓數(shù)據(jù)服務于工具,而是讓智能服務于業(yè)務的每一個角落。選擇 Google Cloud AI Lakehouse,意味著您選擇的不僅是一個解決當下數(shù)據(jù)問題的平臺,更是一個能夠與您的 AI 雄心共同成長、不斷進化的智能基礎。它將幫助您在 AI 時代,始終領先一步。與其讓數(shù)據(jù)復雜性定義您的業(yè)務邊界,不如讓 Google Cloud AI Lakehouse 成為您創(chuàng)新的起點。是時候打破壁壘,擁抱智能,與我們一起構建您的 AI 未來。
-
Google
+關注
關注
5文章
1807瀏覽量
60525 -
AI
+關注
關注
91文章
39793瀏覽量
301454 -
模型
+關注
關注
1文章
3752瀏覽量
52112
原文標題:超越孤島,賦能智能: Google Cloud AI Lakehouse 如何重塑您的數(shù)據(jù)未來
文章出處:【微信號:Google_Developers,微信公眾號:谷歌開發(fā)者】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
昆侖天工Skywork與Google Cloud深度合作發(fā)布桌面級Agent
NVIDIA Nemotron如何助力企業(yè)構建專業(yè)AI智能體
Anthill Cloud:以AI、模塊化內(nèi)容與全渠道互動重塑醫(yī)藥營銷
vivo攜手Google Cloud推動智能手機邁入AI新時代
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的未來:提升算力還是智力
Google Cloud展示一系列前沿技術更新
加速AI未來,睿海光電800G OSFP光模塊重構數(shù)據(jù)中心互聯(lián)標準
AI的未來,屬于那些既能寫代碼,又能焊電路的“雙棲人才”
【書籍評測活動NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》
NVIDIA推出AI平臺DGX Cloud Lepton
Google推出全新Cloud WAN解決方案
NetApp與Google Cloud合作,簡化云端高性能工作負載的擴展
是德科技推出AI數(shù)據(jù)中心構建器
Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理
Google Cloud AI Lakehouse如何構建企業(yè)數(shù)據(jù)未來
評論