如今,我們已然深知數據在生活生產中扮演著重要角色,那他的本質是什么,如何利用好數據為我們創造價值?認識數據,了解多元時代數據的豐富多態和其解決之道至關重要。
什么是數據
我們注意到:在做數據分析的時候單用數字去描述是遠遠不夠的,比如過年爆發的疫.情現狀如何。我單記錄“24”、“0”是不夠的,我需要完整的記錄【2月23日“24”個省確診病例“0”新增】,如果配上圖文、視頻等信息可以更全.面了解疫.情現狀。
我們這里講的數據其實是涵蓋數據及信息兩者的統稱。數據也好,信息也罷都是客觀存在的,把這些客觀存在的數據、信息介于人們接受數據的方式不同,用不同的技術手段來存儲、管理計算等等,從而衍生出多模態數據。
對于多模態數據的計算處理,華為云有一套端到端的解決方案,名為智能數據湖。
智能數據湖
實際上大家可能知道,數據湖這個概念其實已經出來有幾年了,傳統的數據湖更多指的是數據存儲和管理,把所有數據放在一起統一存儲。華為云智能數據湖從解決方案層面做了進一步延伸,如材料圖中所示,智能數據湖分為三層:統一數據存儲層,多元計算層,數據運營層。
三大特點:
存算分離。
大家如果搭建過大數據集群的話,可能會有比較深刻的體會,使用開源Hadoop系統做存算一體部署,基于服務器構建集群往往會帶來存儲資源和計算資源利用不均的問題,如存儲上PB級數據,分析查詢可能只需要十幾個CPU;業務擴容時,因為是按照服務器個數為單元擴,實際上計算資源是綁定一起擴容的,這種情況對于規模越大,數據量增長越快,業務種類越多的企業,會更加顯著;從我們之前支撐過的大型互聯網APP企業的經驗來看,計算資源會存在40%~50%的浪費。
而存算分離則很好的解決了這個問題,通過計算和存儲解耦,利用云架構彈性的優勢,存儲和計算單獨按需擴縮容,從而使資源利用率達到大化。
2.1、多元計算。
全棧支持鯤鵬,從方案圖中可以看到,包括一站式大數據平臺MRS服務,批流計算+交互式分析的多模計算DLI服務,以及增強的企業級數據倉庫服務。
DLI是一個serverless服務,它對于用戶來說就像一個黑盒,用戶不用關心服務內部的資源,以及軟件怎么部署,只需要使用服務提供的對外接口直接進行業務實現,無須運維,使用起來非常方便。
MRS是一個集群類型的服務,包含Hadoop,spark,hive等常見服務,可以理解為大數據全家桶;MRS服務的形態則和DLI剛好相反,用戶感知硬件資源,需要先選擇資源類型,然后部署集群。一般情況下客戶已有大數據平臺,做云上遷移;或者客戶有自己的大數據團隊,需要登錄集群修改配置做調優,可以選用MRS服務;
數據倉庫DWS服務,這個服務的內核基于華為自研的GaussDB,同時我們在云服務架構上也做了優化,包括分布式彈性能力,可靠性能力,性能也達到業界領先水平。
2.2+AI的助力。
第.一是數據與AI算法/模型協同,用來支持非結構化處理;在技術上我們是在大數據系統中內置了AI的輕量推理引擎,AI算法模型作為算子,在大數據處理過程中直接調度使用,如圖像識別模型作為一個UDF,在大數據處理過程中直接使用SQL調用。
另一個方向則是用AI來做數據引擎的自調優;通過收集業務運行時的系統各方面過程數據,采用AI建模預測,推薦更優配置,以及更優的數據組織策略,這就像大數據系統內置了一個小機器人,它不停的在對系統做維修優化,從而讓引擎使用起來具備更優越的性能
3、完整的一套數據運營工具平臺。
這便是圖中上層的DAYU服務,他圍繞數據處理過程提供了端到端一站式數據運營能力,包括從數據集成,規范設計,開發,質量管理,到形成數據資產,以及對外開放服務;DAYU給數據管理和分析工作者帶來了便利,通過全流程界面化操作,極大的降低了數據管理和分析的門檻,同時也提供API方式供伙伴集成,構建自己的數據系統。