奇點云數據云平臺如何確?!岸嘧鈶簟卑踩繌哪炒笮土闶燮髽I實踐說起
這家以食品零售起家的集團,旗下擁有多個全國知名的子品牌。在品牌A的業務部門用上數據云平臺一年后,品牌B表示,“A用得不錯,我們也在考慮上數據云平臺,部分數據和A做個互動,能碰撞出更多價值,也少做重復建設。”
現在,有3個選擇擺在這家集團的IT團隊面前:
方案一:品牌B獨享新一份集群資源,與品牌A共用同一套數據云平臺管理。
方案二:品牌B數據接入原有平臺,與品牌A共用一套資源及平臺。
方案三:和品牌A共用一套資源及平臺,但采用多租戶安全技術方案。
需求拆解:
要資源節約,也要數據安全
上文所述方案一,理論上是最直接的選擇:
品牌A繼續用原有資源及數據云平臺,品牌B另外采購一份新的集群資源,雙方數據物理隔離,互不搶占資源,權限也完全掌握在自己手中,安全指數極高。
奇點云數據云平臺DataSimba支持通過同一平臺管理多個工作空間(Workspace),因此企業無需另外購買數據云平臺,品牌A、品牌B以及該公司更多其他部門都能在各自權限內使用該平臺。
方案一:工作空間級隔離
然而,雙份集群資源意味著雙邊資源都無法得到最大程度利用,存在一定浪費。
平臺、資源都直接復用的方案二怎么樣?
無需重新部署,只要導入品牌B的數據,并在數據云平臺上為B開設新賬戶,A和B通過平臺各自管理權限內的項目;雙品牌可以共享集群數據、存儲和計算資源,依賴平臺調度能力,品牌A和品牌B所用的資源能動態調度,總量上更節約。
方案二:共用資源及平臺的弱邏輯隔離
方案二的優點是顯而易見的,此類做法在業內也較為常見。然而,在數據安全上稍有弱點:該方案的權限體系未觸及大數據集群管理引擎,就像租在同一棟樓里,有門做了隔斷,但沒有 金融 級的防盜門和監控系統。奇點云資深架構專家簡愉談到:“這種方案對管理員要求極高,管理員必須要細致地配置權限、角色、策略,并定期檢查收回過期的權限,才能規避違規行為。(違規行為例如,內部運維人員繞過上層體系,直連大數據底層集群以試圖獲取項目數據。)”
此外,方案二對平臺調度能力要求較高。如果平臺調度不夠“聰明”,就容易出現品牌B任務耗時過久、品牌A任務不得不長時間等待甚至影響業務的情況。
在資源高效利用但互不搶占、同時保障數據安全的前提下,最終,這家企業選擇了方案三:多品牌共用一套集群資源和數據云平臺,并采用多租戶安全技術方案。
(注:對于集團企業/上市公司的財務部門而言,出于合規要求,仍更推薦采用工作空間級隔離方案,即方案一。)
方案解析:
三個“雙層”,加持多租戶安全
啥是多租戶?
“多租戶”,顧名思義,資源方把資源“租賃”給多個客戶。“租”指客戶自己沒有資源(例如計算、存儲、數據、服務等資源),需要租用?!岸唷眲t指資源提供方提供的資源同時被多個租戶租賃使用。
多租戶技術自提出以來已有60余年,從大型機到云計算時代,都曾得到廣泛應用。它讓資源提供方的資源利用最大化,作為平臺身份服務更多租戶,也免去了租戶自行運管基礎設施的煩惱。以企業舉例,IT團隊負責為企業采購并管理一整套資源,其中各BU就是不同的租戶,租戶在各自的資源空間下完成自己的開發工作,而互不搶占資源、影響作業進度。同時,管理方也可以根據各租戶長期使用情況,更合理地規劃資源。
事實上,對于“企業級”的數據資產管理而言,多租戶僅僅完成資源隔離還不足夠。“多租戶場景下的數據安全值得企業關注?!焙営浔硎?,在資源共享的情況下,如何實現對資源進行租戶粒度的安全隔離,是資源提供商需要解決的核心技術問題。
為此,DataSimba在經典的多租戶方案基礎上,增加了“雙層身份認證”、“雙層權限校驗”、“雙層存儲加密”,來保證租戶資源的強邏輯隔離與數據安全。
最終,該集團采用了DataSimba多租戶安全方案,技術架構長這樣:
方案三:DataSimba多租戶安全隔離
雙層身份認證
即證明“我是誰”。
數據云平臺(例如DataSimba)和大數據集群管理引擎(例如DataKun)是兩套獨立的系統,有各自的賬戶體系,需要在每個系統入口均進行嚴格的身份認證。其中,DataKun開啟了Kerberos認證,每個用戶(Unix User)都會被分配自有的Principal及Keytab文件(相當于登錄名和密碼)。
在兩套系統各自完成身份認證的情況下,完成兩套賬戶的一對一映射。此后,DataSimba的用戶(User)向DataKun提交分布式離線/實時作業,都是通過其關聯的Kerberos憑證進行身份認證。
雙層權限校驗
即校驗我是否有權限對相應資源進行相應操作。
DataSimba對接口和菜單權限、數據權限均有所管控。以數據權限為例,租戶(Account)下設若干子賬號(User),子賬號的數據權限申請只能在租戶已租用的資源范圍內,權限粒度可精確到表、字段、行級。只有權限校驗通過,子賬號方可通過DataSimba向大數據集群提交作業,否則在這一層即校驗失敗,作業/任務中止提交。
同樣,大數據集群管理引擎例如DataKun,也需要進行權限校驗,鑒權粒度為數據庫級數據權限,來保障大數據集群側用戶(Unix User)數據、存儲、計算的隔離與安全。大數據集群管理引擎理論上不限于DataKun,其它部署了安全組件的大數據集群管理引擎也可實現。
需要注意的是,兩層權限均是通過權限策略進行強邏輯隔離。這也意味著租戶之間的計算、數據、存儲和服務隔離是軟隔離,可以通過動態調整權限策略,實現多租戶之間的計算、數據、存儲和服務的共享。比如品牌A的數據云平臺租戶可以給品牌B租戶賦予數據訪問權限,即可實現品牌A和品牌B的數據共享,而無需進行數據遷移。
雙層存儲加密
即就算試圖繞過DataSimba和大數據集群管理引擎、直接讀取源文件,也無法讀取成功。
架構中設置了兩層文件存儲加密“雙保險”,包括:DataSimba側基于分布式存儲方案,開啟透明加密;大數據集群引擎側開啟底層文件加密和密鑰的管理權限獨立托管。
為什么權限管控一定要“雙層”?
實際上,從技術實現來看,數據權限管控壓縮成一層似乎也無妨:
統一在大數據集群側大數據安全組件中實現對數據云平臺DataSimba用戶的表、字段、行級數據權限管控。子賬號(User)在通過DataSimba向集群管理引擎提交Hive/Spark/Flink等大數據作業任務時,使用其集群側的Kerberos憑證即可。這也是業內很多大數據平臺服務商所采用的方案。
然而,從自主可控的數據安全要求來看,設置雙層數據權限管控是極為必要的。
在許多客戶的實際場景中,數據云平臺和大數據集群管理引擎可能是獨立運營的,其廠牌不同,底層大數據集群管理還可能交由特定部門維護。因此,企業內負責數據云平臺的部門及其服務商能否在集群管理引擎安裝安全插件,就成了不確定性。也就是說,數據云平臺如果本身沒有嚴格的數據權限管控體系,而完全依賴于集群管理的安全政策,就難以100%確保數據安全。
因此,DataSimba設置了數據權限代理層,解耦數據云平臺與客戶大數據集群管理的安全性依賴,從而實現在不侵入大數據集群管理引擎的前提下,依舊有與大數據安全組件等同能力的數據權限管控。
近期,該零售集團已完成DataSimba多租戶技術架構的部署。在多個數據團隊互不搶占資源的同時,相較傳統方案,更節約了50%的大數據集群計算節點。同時,通過動態的權限管控,支持租戶間(例如跨部門)數據安全共享,而無需數據遷移成本。
Tips:
奇點云數據云平臺DataSimba最新 商業 化版本發布!極速版、專業版、旗艦版、紅旗版,四大版本滿足不同企業需求。
其中,旗艦版、紅旗版DataSimba均具備多租戶能力,目前已在十余家企業完成落地實踐,包括旗下有 汽車 、工業技術等多業態的知名工業集團,創新機器人領域的 科技 公司,及知名酒類貿易集團等等。
各版本特色及多租戶架構等詳情,可聯系奇點云客戶成功經理/產品技術顧問了解。