ETL工程師:
Extraction-Transformation-Loading的縮寫,中文名稱為數(shù)據(jù)抽取、轉換和加載。
ETL負責將分布的、異構數(shù)據(jù)源中的數(shù)據(jù)如關系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎。
ETL是數(shù)據(jù)倉庫中的非常重要的一環(huán)。它是承前啟后的必要的一步。相對于關系數(shù)據(jù)庫,數(shù)據(jù)倉庫技術沒有嚴格的數(shù)學理論基礎,它更面向實際工程應用。所以從工程應用的角度來考慮,按著物理數(shù)據(jù)模型的要求加載數(shù)據(jù)并對數(shù)據(jù)進行一些系列處理,處理過程與經驗直接相關,同時這部分的工作直接關系數(shù)據(jù)倉庫中數(shù)據(jù)的質量,從而影響到聯(lián)機分析處理和數(shù)據(jù)挖掘的結果的質量。
數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境,需要通過抽取過程將數(shù)據(jù)從聯(lián)機事務處理環(huán)境、外部數(shù)據(jù)源和脫機的數(shù)據(jù)存儲介質導入到數(shù)據(jù)倉庫中;在技術上,ETL主要涉及到關聯(lián)、轉換、增量、調度和監(jiān)控等幾個方面;數(shù)據(jù)倉庫系統(tǒng)中數(shù)據(jù)不要求與聯(lián)機事務處理系統(tǒng)中數(shù)據(jù)實時同步,所以ETL可以定時進行。但多個ETL的操作時間、順序和成敗對數(shù)據(jù)倉庫中信息的有效性至關重要。
數(shù)據(jù)挖掘工程師:
數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識。
并非所有的信息發(fā)現(xiàn)任務都被視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個別的記錄,或通過因特網的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用復雜的算法和數(shù)據(jù)結構,但是它們主要依賴傳統(tǒng)的計算機科學技術和數(shù)據(jù)的明顯特征來創(chuàng)建索引結構,從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術也已用來增強信息檢索系統(tǒng)的能力。
-
工程師
+關注
關注
59文章
1603瀏覽量
71069
發(fā)布評論請先 登錄
生成式AI賦能工程師挖掘非結構化數(shù)據(jù)價值
什么是BSP工程師
ETL工程師和數(shù)據(jù)挖掘工程師有什么區(qū)別
評論