大數(shù)據(jù)的特征
大數(shù)據(jù)的定義多而雜,不同企業(yè)、行業(yè)等都從自身角度來定義大數(shù)據(jù),意思都差不多,就一句話,大數(shù)據(jù)由巨型數(shù)據(jù)集組成,這些數(shù)據(jù)集規(guī)模超出了常用軟件在可接受時間下的收集、管理、處理和使用能力。
雖然大數(shù)據(jù)的定義沒有統(tǒng)一,但是國際知名咨詢公司IDC定義的大數(shù)據(jù)四個特征卻受到業(yè)界的廣泛接受,也就是4V特征——數(shù)據(jù)量大(Volume)、數(shù)據(jù)種類多(Variety)、數(shù)據(jù)價值密度低(Value) 以及數(shù)據(jù)產生和處理速度快(Velocity)。
01
數(shù)據(jù)量大(Volume)
傳感器、物聯(lián)網、工業(yè)互聯(lián)網、車聯(lián)網、手機、平板電腦等等,無一不是數(shù)據(jù)來源或者承載的方式。當今的數(shù)字時代,人們日常生活(微信、QQ、上網搜索與購物等)都在產生著數(shù)量龐大的數(shù)據(jù)。
大數(shù)據(jù)不再以GB或TB為單位來衡量,而是以PB(1000個T)、EB(100萬個T)或ZB(10億個T)為計量單位,從TB躍升到PB、EB乃至ZB級別。顧名思義,這就是大數(shù)據(jù)的首要特征。
02
數(shù)據(jù)種類多(Variety)
大數(shù)據(jù)不僅體現(xiàn)在量的急劇增長,數(shù)據(jù)類型亦是多樣,可分為結構化、半結構化和非結構化數(shù)據(jù)。結構化數(shù)據(jù)存儲在多年來一直主導著IT應用的關系型數(shù)據(jù)庫中;半結構化數(shù)據(jù)包括電子郵件、文字處理文件以及大量的網絡新聞等,以內容為基礎,這也是谷歌和百度存在的理由;而非結構化數(shù)據(jù)隨著社交網絡、移動計算和傳感器等新技術應用不斷產生,廣泛存在于社交網絡、物聯(lián)網、電子商務之中。
有報告稱,全世界結構化數(shù)據(jù)和非結構化數(shù)據(jù)的增長率分別是32%、63%,網絡日志、音視頻、圖片、地理位置信息等非結構化數(shù)據(jù)量占比達到80%左右,并在逐步提升。然而,產生人類智慧的大數(shù)據(jù)往往就是這些非結構化數(shù)據(jù)。
03
數(shù)據(jù)價值密度低(Value)
大數(shù)據(jù)的重點不在于其數(shù)據(jù)量的增長,而是在信息爆炸時代對數(shù)據(jù)價值的再挖掘,如何挖掘出大數(shù)據(jù)的有效信息,才是至關重要。
價值密度的高低與數(shù)據(jù)總量的大小成反比。雖然價值密度低是日益凸顯的一個大數(shù)據(jù)特性,但是對大數(shù)據(jù)進行研究、分析挖掘仍然是具有深刻意義的,大數(shù)據(jù)的價值依然是不可估量的。畢竟,價值是推動一切技術(包括大數(shù)據(jù)技術)研究和發(fā)展的內生決定性動力。
04
數(shù)據(jù)產生和處理速度快(Velocity)
美國互聯(lián)網數(shù)據(jù)中心指出,企業(yè)數(shù)據(jù)正在以55%的速度逐年增長,互聯(lián)網數(shù)據(jù)每年將增長50%,每兩年便將翻一番。IBM研究表明,整個人類文明所獲得的全部數(shù)據(jù)中,90%是過去兩年內產生的。
要求數(shù)據(jù)處理速度快也是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘技術的本質特征。有學者提出了與之相關的“一秒定律”,意思就是在這一秒有用的數(shù)據(jù),下一秒可能就失效。數(shù)據(jù)價值除了與數(shù)據(jù)規(guī)模相關,還與數(shù)據(jù)處理速度成正比關系,也就是,數(shù)據(jù)處理速度越快、越及時,其發(fā)揮的效能就越大、價值越大。
大數(shù)據(jù)的關鍵技術
大數(shù)據(jù)技術是IT領域新一代的技術與架構,是從各種類型的數(shù)據(jù)中快速獲得有價值信息的技術。大數(shù)據(jù)本質也是數(shù)據(jù),其關鍵技術依然不外乎:大數(shù)據(jù)采集和預處理;大數(shù)據(jù)存儲與管理;大數(shù)據(jù)分析和挖掘;大數(shù)據(jù)展現(xiàn)和應用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)安全等)。
01
大數(shù)據(jù)采集和預處理技術
大數(shù)據(jù)技術的意義確實不在于掌握規(guī)模龐大的數(shù)據(jù)信息,而在于對這些數(shù)據(jù)進行智能處理,從中分析和挖掘出有價值的信息,但前提是得擁有大量的數(shù)據(jù)。
采集是大數(shù)據(jù)價值挖掘最重要的一環(huán),一般通過傳感器、通信網絡、智能識別系統(tǒng)及軟硬件資源接入系統(tǒng),實現(xiàn)對各種類型海量數(shù)據(jù)的智能化識別、定位、跟蹤、接入、傳輸、信號轉換等。為了快速分析處理,大數(shù)據(jù)預處理技術要對多種類型的數(shù)據(jù)進行抽取、清洗、轉換等操作,將這些復雜的數(shù)據(jù)轉化為有效的、單一的或者便于處理的數(shù)據(jù)類型。
就算是大數(shù)據(jù)服務企業(yè)也很難就“哪些數(shù)據(jù)未來將成為資產”這個問題給出確切的答案。但可以肯定的是,誰掌握了足夠的數(shù)據(jù),誰就有可能掌握未來,現(xiàn)在的數(shù)據(jù)采集就是將來的流動資產積累。
02
大數(shù)據(jù)存儲與管理技術
數(shù)據(jù)有多種分類方法,有結構化、半結構化、非結構化;也有元數(shù)據(jù)、主數(shù)據(jù)、業(yè)務數(shù)據(jù);還可以分為GIS、視頻、文本、語音、業(yè)務交易類各種數(shù)據(jù)。傳統(tǒng)的關系型數(shù)據(jù)庫已經無法滿足數(shù)據(jù)多樣性的存儲要求。除了關系型數(shù)據(jù)庫,還有兩種存儲類型,一種是以HDFS為代表的可以直接應用于非結構化文件存儲的分布式存儲系統(tǒng),另一種是NoSQL數(shù)據(jù)庫,可以存儲半結構化和非結構化數(shù)據(jù)。大數(shù)據(jù)存儲與管理就是要用這些存儲技術把采集到的數(shù)據(jù)存儲起來,并進行管理和調用。
在一般的大數(shù)據(jù)存儲層,關系型數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫和分布式存儲系統(tǒng)三種存儲方式都可能存在,業(yè)務應用根據(jù)實際的情況選擇不同的存儲模式。為了提高業(yè)務的存儲和讀取便捷性,存儲層可能封裝成為一套統(tǒng)一訪問的數(shù)據(jù)服務(Data as a Service,DaaS)。DaaS可以實現(xiàn)業(yè)務應用和存儲基礎設施的徹底解耦,用戶并不需要關心底層存儲細節(jié),只關心數(shù)據(jù)的存取。
03
大數(shù)據(jù)分析和挖掘技術
大數(shù)據(jù)分析和挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中提取隱含在其中的、有用的信息和知識的過程。大數(shù)據(jù)分析和挖掘涉及的技術方法很多:根據(jù)挖掘任務可分為分類或預測模型發(fā)現(xiàn)、關聯(lián)規(guī)則發(fā)現(xiàn)、依賴關系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等;根據(jù)挖掘方法可分為機器學習、統(tǒng)計方法、神經網絡等。其中,機器學習又可細分為歸納學習、遺傳算法等;統(tǒng)計方法可細分為回歸分析、聚類分析、探索性分析等;神經網絡可細分為前饋網絡、反饋網絡等。
面對不同的分析或預測需求,所需要的分析挖掘算法和模型是完全不同的。上面提到的各種技術方法只是一個處理問題的思路,面對真正的應用場景時,都得按需求來調整這些算法和模型。
04
大數(shù)據(jù)展現(xiàn)和應用技術
大數(shù)據(jù)的使用對象遠遠不只是程序員和專業(yè)工程師,如何將大數(shù)據(jù)技術的分析成果展現(xiàn)給普通用戶或者公司決策者,這就要看數(shù)據(jù)展現(xiàn)的可視化技術了,它是目前解釋大數(shù)據(jù)最有效的手段之一。在數(shù)據(jù)可視化中,數(shù)據(jù)結果以簡單形象的可視化、圖形化、智能化的形式呈現(xiàn)給用戶供其分析使用。常見的大數(shù)據(jù)可視化技術有標簽云、歷史流、空間信息流等。
我國的大數(shù)據(jù)應用廣泛存在于商業(yè)智能、政府決策和公共服務等重點領域,疫情防控、反電信詐騙、智能交通、環(huán)境監(jiān)測等日常生活場景都有大數(shù)據(jù)的功勞。
大數(shù)據(jù)時代對我們駕馭數(shù)據(jù)的能力提出了新挑戰(zhàn),也為獲得更全面、睿智的洞察力提供了空間和潛力。大數(shù)據(jù)領域已經涌現(xiàn)出了大量新技術,它們成為大數(shù)據(jù)采集、存儲、處理和展現(xiàn)的有力武器。隨著大數(shù)據(jù)等新興技術的發(fā)展和應用,我國“十四五”規(guī)劃提出的碳達峰碳中和、數(shù)字化轉型、數(shù)字經濟等一系列戰(zhàn)略目標將獲得更大的技術支撐。
-
IDC
+關注
關注
4文章
424瀏覽量
38409 -
Value
+關注
關注
0文章
11瀏覽量
9013 -
大數(shù)據(jù)
+關注
關注
64文章
9065瀏覽量
143781
發(fā)布評論請先 登錄
工業(yè)大數(shù)據(jù)
常用大數(shù)據(jù)處理技術歸類
常見大數(shù)據(jù)應用有哪些?
大數(shù)據(jù)運用的技術
大數(shù)據(jù)開發(fā)核心技術詳解
NLPIR系統(tǒng)KGB知識圖譜技術助力大數(shù)據(jù)深度挖掘
NLPIR-Parser大數(shù)據(jù)技術實現(xiàn)深度文本語義理解
大數(shù)據(jù)的定義及其應用
什么是大數(shù)據(jù)?大數(shù)據(jù)的特點有哪些
大數(shù)據(jù)技術與應用是學什么的?
貴州省大數(shù)據(jù)領域技術榜單“大數(shù)據(jù)安全與隱私保護關鍵技術”項目啟動
工業(yè)大數(shù)據(jù)的特征、方法與價值創(chuàng)造
大數(shù)據(jù)的4v特征有哪些 大數(shù)據(jù)技術包括哪些技術
大數(shù)據(jù)的4個關鍵技術
大數(shù)據(jù)的特征及技術關鍵
評論