大數(shù)據(jù)、人工智能與云計算的融合與應用
引言
人工智能、大數(shù)據(jù)與云計算三者有著密不可分的聯(lián)系。人工智能從1956年開始發(fā)展,在大數(shù)據(jù)技術出現(xiàn)之前已經(jīng)發(fā)展了數(shù)十年,幾起幾落,但當遇到了大數(shù)據(jù)與分布式技術的發(fā)展,解決了計算力和訓練數(shù)據(jù)量的問題,開始產(chǎn)生巨大的生產(chǎn)價值;同時,大數(shù)據(jù)技術通過將傳統(tǒng)機器學習算法分布式實現(xiàn),向人工智能領域延伸;此外,隨著數(shù)據(jù)不斷匯聚在一個平臺,企業(yè)大數(shù)據(jù)基礎平臺服務各個部門以及分支機構的需求越來越迫切。通過容器技術,在容器云平臺上構建大數(shù)據(jù)與人工智能基礎公共能力,結合多租戶技術賦能業(yè)務部門的方式將人工智能、大數(shù)據(jù)與云計算進行融合。
數(shù)據(jù)處理的發(fā)展階段
隨著信息技術的蓬勃發(fā)展,特別是近十年,移動互聯(lián)技術的普及,運營商、泛金融、政府、大型央企、大型國企、能源等領域數(shù)據(jù)量更是呈現(xiàn)幾何級數(shù)的增長趨勢。數(shù)據(jù)量的膨脹除了帶來了數(shù)據(jù)處理性能的壓力外,數(shù)據(jù)種類的多樣性也為數(shù)據(jù)處理手段提出了新的要求,大量新系統(tǒng)的建設同時產(chǎn)生了眾多數(shù)據(jù)孤島,給企業(yè)的數(shù)據(jù)運營維護與價值發(fā)掘帶來了重大的挑戰(zhàn)。隨著大數(shù)據(jù)技術的不斷發(fā)展,企業(yè)的數(shù)據(jù)處理技術轉型也經(jīng)歷了幾個階段,如圖1所示。
▲圖1 企業(yè)數(shù)據(jù)處理轉型的階段變化
在***階段,大數(shù)據(jù)技術發(fā)展的早期,為了打破數(shù)據(jù)孤島,將各類數(shù)據(jù)向大數(shù)據(jù)平臺匯集,形成數(shù)據(jù)湖的概念,作為多源、異構的數(shù)據(jù)的數(shù)據(jù)歸集,在此基礎上進行數(shù)據(jù)標準化,建立企業(yè)數(shù)據(jù)的匯聚中心。在這個階段,對非結構化數(shù)據(jù)處理以存儲檢索為主,對結構化數(shù)據(jù)處理提供各類API和少量SQL支持,使海量的以SQL實現(xiàn)為主的業(yè)務難以遷移到大數(shù)據(jù)平臺,新業(yè)務開發(fā)使用門檻高,大數(shù)據(jù)技術的推廣受到阻礙。
在第二階段,企業(yè)客戶的需求集中表現(xiàn)為,如何更好地處理結構化數(shù)據(jù)以及將老的IT架構遷移到分布式架構中。各大數(shù)據(jù)平臺廠商開始在SQL on Hadoop領域進行研發(fā)和競爭,不斷提高SQL標準的兼容程度。在這個過程中,Spark誕生并逐漸取代了過于笨重且TB量級計算性能存在缺陷的MapReduce架構,Hadoop技術開始向結構化數(shù)據(jù)處理分析更深度的應用領域進發(fā)。隨著SQL on Hadoop技術的不斷發(fā)展與星環(huán)科技解決了Hadoop分布式事務的難題,越來越多的客戶在Hadoop上構建新一代數(shù)據(jù)倉庫,將Hadoop技術應用于越來越多的業(yè)務生產(chǎn)場景,技術門檻的降低,使越來越多的客戶可以利用強大的分布式計算能力輕松分析處理海量數(shù)據(jù)。在這個階段后期,隨著企業(yè)客戶對實時數(shù)據(jù)分析研判需求的不斷提高,流處理技術得以蓬勃發(fā)展。
在第三階段,一部分企業(yè)已經(jīng)完成了由基于關系型數(shù)據(jù)庫為核心的數(shù)據(jù)處理體系向基于大數(shù)據(jù)技術為核心的數(shù)據(jù)處理體系的轉變。在本階段早期,很多企業(yè)客戶不滿足于通過SQL基于統(tǒng)計對數(shù)據(jù)的分析和挖掘,促使傳統(tǒng)的機器學習算法開始實現(xiàn)分布化,但主要還是針對結構化數(shù)據(jù)的學習挖掘。隨著深度學習技術和分布式技術的碰撞,演化出了新一代的計算框架,如TensorFlow等,計算能力的提升,并結合大量訓練數(shù)據(jù),使機器學習人工智能技術在結構化與非結構化數(shù)據(jù)領域產(chǎn)生巨大威力,開始應用于人臉識別、車輛識別、智能客服、無人駕駛等領域;同時,對傳統(tǒng)機器學習算法產(chǎn)生了巨大沖擊,一定程度上減少了對特征工程與業(yè)務領域知識的依賴,降低了機器學習的進入門檻,使人工智能技術得以普及。另一方面,可視化的拖拽頁面、豐富的行業(yè)模板、高效率的交互式體驗,極大地降低了數(shù)據(jù)分析人員的使用門檻,讓人工智能技術進一步走入企業(yè)的生產(chǎn)應用。
大數(shù)據(jù)、人工智能與云技術的融合
隨著企業(yè)內部對于數(shù)據(jù)資源的應用不再僅僅局限于IT部門,越來越多的內部項目組與分支機構加入大數(shù)據(jù)平臺的使用中,加之數(shù)據(jù)處理技術的不斷發(fā)展,如何解決基礎平臺的資源隔離問題、管理分配問題、編排調度問題;如何將企業(yè)業(yè)務應用需要的基礎服務能力做更好地抽象,降低應用所需的基礎服務的環(huán)境搭建、開發(fā)、測試部署周期,提升IT支撐效能;如何更好地管理眾多的基于大數(shù)據(jù)與人工智能開發(fā)的應用等等成為企業(yè)急需解決的問題。
在大數(shù)據(jù)技術發(fā)展的早期,僅僅是在計算框架MapReduce中提供簡單的作業(yè)調度算法,隨著資源管理的需求,在Hadoop 2.0時代,Yarn作為單獨組件負責分布式計算框架的資源管理。但是,一方面,Yarn僅僅能夠管理調度計算框架的資源;另一方面,資源的管理粒度較為粗放,不能做到有效的資源隔離,越來越不能滿足企業(yè)客戶的需求。
云計算技術作為資源隔離封裝虛擬化,以及管理調度的技術,本應應用于解決上述問題。但是,在Docker容器技術被廣泛接受之前,云計算虛擬化技術主要基于虛擬機封裝資源,并在其之上加載操作系統(tǒng),資源利用率低,早期有廠商嘗試將大數(shù)據(jù)平臺構建在基于虛擬機技術的云化方案上,由于資源利用和穩(wěn)定性問題,在私有云上的嘗試鮮有成功案例。在公有云方面,借助公有云較為強大的基礎平臺硬件與運維支持能力,有一些非核心業(yè)務的應用嘗試。
隨著Docker、Kubernetes等容器技術的發(fā)展,與微服務等技術概念的形成,大數(shù)據(jù)與人工智能基礎平臺開始基于容器云構建底層資源管理與調度平臺。容器云就像一個分布式的操作系統(tǒng),將集群中的各類硬件資源進行封裝、管理以及調度,將封裝的資源作為容器承載大數(shù)據(jù)的相關組件進程,再將這些容器進行編排,組成一個個的大數(shù)據(jù)和人工智能的基礎服務,如分布式文件系統(tǒng)HDFS、NoSQL數(shù)據(jù)庫Hbase、分布式分析型數(shù)據(jù)庫Inceptor、分布式流處理平臺Slipstream、分布式機器學習組件Sophon等。由這些基礎服務編排構建公共能力服務層,提供如數(shù)據(jù)倉庫、數(shù)據(jù)集市、圖數(shù)據(jù)庫、全文搜索數(shù)據(jù)庫、流處理服務、NoSQL數(shù)據(jù)庫、機器學習平臺服務、定制圖像識別服務等,為企業(yè)打造全新的數(shù)據(jù)處理核心系統(tǒng)?;谶@一核心系統(tǒng)服務于各類企業(yè)的不同部門。通過資源隔離技術,通過對每個租戶的資源分配和權限管理,滿足業(yè)務分析人員的個性化分析需求,專注于業(yè)務邏輯的開發(fā)和數(shù)據(jù)的分析挖掘。
技術融合的應用
中國郵政大數(shù)據(jù)平臺建設以Transwarp Data Hub(以下簡稱TDH)與Transwarp Operating System(以下簡稱TOS)作為基礎架構系統(tǒng),搭建的新一代邏輯數(shù)據(jù)倉庫和數(shù)據(jù)集市,完全取代了Teradata和Oracle.
總體架構與實現(xiàn)
中國郵政大數(shù)據(jù)平臺服務于量收、郵務、名址等系統(tǒng),同時運用容器云TOS實現(xiàn)創(chuàng)新多租戶的數(shù)據(jù)分析挖掘環(huán)境。建立從業(yè)務層到管理層到?jīng)Q策層的智能分析體系,模擬量化風險和收益,實現(xiàn)對郵政各種業(yè)務數(shù)據(jù)進行分類、管理、統(tǒng)計和分析等功能,給各級管理人員提供各類準確的統(tǒng)計分析預測數(shù)據(jù),使其能夠及時掌握全面的經(jīng)營狀況,為宏觀決策提供支持;為省分公司基層業(yè)務人員提供詳盡的數(shù)據(jù),供其對各自的工作目標、當前和歷史狀況進行準確的把握,對業(yè)務活動進行有效支撐,滿足郵政經(jīng)營分析管理及決策支持。
中國郵政大數(shù)據(jù)平臺以五大基礎服務集群域為基礎,分別是數(shù)據(jù)湖集群域、企業(yè)數(shù)據(jù)倉庫集群域、省分服務集群域、機器學習實驗室集群域、開發(fā)/測試/培訓集群域。
(1)數(shù)據(jù)湖集群域:基于TDH平臺搭建的數(shù)據(jù)湖,主要承擔多源異構的數(shù)據(jù)歸集,數(shù)據(jù)湖內包括:原始數(shù)據(jù)池、清洗加工數(shù)據(jù)池、整合加工數(shù)據(jù)池等。
(2)企業(yè)數(shù)倉集群域:基于TDH搭架的數(shù)據(jù)倉庫集群,基于大數(shù)據(jù)創(chuàng)新搭架邏輯數(shù)據(jù)倉庫,用于遷移改造原有基于Teradata搭架的數(shù)據(jù)倉庫,數(shù)據(jù)集市和基于Oracle搭建的報刊集市的郵政量收管理系統(tǒng)。
(3)省分服務集群域:基于TOS搭建容器化多租戶數(shù)據(jù)分析平臺云。為省、市分公司開發(fā)人員和業(yè)務人員提供省分多租戶的平臺環(huán)境,集團分發(fā)數(shù)據(jù)與自有數(shù)據(jù)存儲計算,自有應用的開發(fā)與管理,獨立租戶使用運行。
(4)機器學習實驗室集群域:基于TOS搭建的容器化多租戶大數(shù)據(jù)機器學習平臺,為集團數(shù)據(jù)中心分析師提供多租戶的開發(fā)實驗環(huán)境平臺,進行數(shù)據(jù)探查、業(yè)務建模、算法研究、應用開發(fā)、成果推廣等。
(5)開發(fā)/測試/培訓集群域:為應用開發(fā)人員、系統(tǒng)測試人員、培訓師、學員提供多租戶的大數(shù)據(jù)與機器學習平臺,為開發(fā)商及內部單位提供開發(fā)測試培訓服務。
以此為基礎,達到了數(shù)據(jù)管理、服務管理、運維管控、安全管控四個維度的統(tǒng)一。在風險管控、決策支持、服務支撐、流程優(yōu)化、品牌創(chuàng)新、交叉營銷六大應用領域展開應用。實現(xiàn)了租戶管理、數(shù)據(jù)治理、數(shù)據(jù)加工、數(shù)據(jù)挖掘、數(shù)據(jù)探索、數(shù)據(jù)展現(xiàn)六大平臺功能。
數(shù)據(jù)湖和數(shù)據(jù)倉庫基于TDH構建,將包括業(yè)務系統(tǒng)數(shù)據(jù)、實時流數(shù)據(jù)、合作單位數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等不同數(shù)據(jù)源,通過ESB接入、ETL工具、Kafka、Sqoop、文本上傳、人工接入等方式,統(tǒng)一匯聚進入數(shù)據(jù)湖。加工后獲得的數(shù)據(jù)資產(chǎn)發(fā)布到數(shù)據(jù)資產(chǎn)目錄,通過數(shù)據(jù)資產(chǎn)目錄的構建TDH與TOS用戶間數(shù)據(jù)交互體系。便于用戶快速檢索數(shù)據(jù),通過數(shù)據(jù)資產(chǎn)目錄實現(xiàn)對數(shù)據(jù)的集成、融合、安全、共享。數(shù)據(jù)資產(chǎn)目錄包括:元數(shù)據(jù)、主數(shù)據(jù)、數(shù)據(jù)安全、數(shù)據(jù)標準、數(shù)據(jù)質量、數(shù)據(jù)輪廓、數(shù)據(jù)生命周期等。此外,企業(yè)用戶通過大數(shù)據(jù)門戶按需申請租戶存儲計算資源、數(shù)據(jù)資源、審批流程通過后,集群資源管理員按需快速部署集群,自動化將數(shù)據(jù)從數(shù)據(jù)湖加載入數(shù)據(jù)分析集群或省分集群對應的租戶空間,供數(shù)據(jù)開發(fā)人員使用。數(shù)據(jù)開發(fā)人員會將數(shù)據(jù)應用成果固化到數(shù)據(jù)湖內,對外提供數(shù)據(jù)服務。
數(shù)據(jù)倉庫與數(shù)據(jù)集市的完整遷移
中國郵政大數(shù)據(jù)平臺是全球***采用Hadoop(TDH)技術完全取代Teradata和Oracle的混合架構搭建新一代邏輯數(shù)據(jù)倉庫和數(shù)據(jù)集市的系統(tǒng)。
原量收系統(tǒng)使用Teradata的數(shù)據(jù)倉庫和Oracle的數(shù)據(jù)庫,數(shù)據(jù)使用空間目前已接近30TB,現(xiàn)有使用用戶約5萬人,提供近約900張報表的靈活查詢,單日報表查詢頻次***能達到40萬次,月初高峰查詢需支持約2000計算查詢并發(fā)。
通過項目前期大量調研準備工作,制定了切實可行的項目實施方案。量收管理系統(tǒng)的總體架構、ESB、BI工具、ETL工具、調度工具、門戶等都保持不變,僅將原量收系統(tǒng)的數(shù)據(jù)倉庫和數(shù)據(jù)集市,使用大數(shù)據(jù)平臺進行完全替換,降低了整個遷移風險。
整個遷移過程中,包括環(huán)境部署、模型遷移改造、接口遷移改造、數(shù)據(jù)遷移、ETL遷移改造、報表遷移改造、數(shù)據(jù)核對、性能優(yōu)化、業(yè)務應用遷移、風險控制,系統(tǒng)測試等。例如模型遷移改造,不改變原有業(yè)務邏輯,只需對接口層模型,基礎層模型、匯總層模型進行輕度改造。對于模型改造來說,系統(tǒng)基礎層模型結構相對復雜,關聯(lián)度相對較高,原系統(tǒng)使用Teradata數(shù)據(jù)庫。TDH全面兼容Teradata的數(shù)據(jù)類型與SQL方言,降低了遷移成本。同時遷移完成后,性能大幅提升,見圖2.
▲圖2 遷移前后數(shù)據(jù)集市業(yè)務場景500并發(fā)測試性能對比
基于容器云的大數(shù)據(jù)與機器學習平臺的全面應用
基于TOS實現(xiàn)的多租戶新模式,將大數(shù)據(jù)與機器學習平臺組件完全容器化實現(xiàn),并在TOS提供能力服務。集團統(tǒng)一部署企業(yè)內部云平臺,對郵政各個租戶(集團、省分、市局等)動態(tài)分配存儲、計算、網(wǎng)絡等資源,并實現(xiàn)完整的資源隔離,使得各個租戶數(shù)據(jù)分析人員和業(yè)務人員獲得相對獨立的資源環(huán)境,賦能業(yè)務創(chuàng)新,同時可動態(tài)調配資源,實現(xiàn)資源的共享優(yōu)勢。
集團、省分、市局各級人員通過多租戶平臺,實現(xiàn)資源發(fā)布、申請,使用及應用開發(fā)、成果推廣。通過項目立項申請審批后,省分項目組人員在租戶空間內,接入訪問數(shù)據(jù)資源,使用平臺服務資源,大數(shù)據(jù)分析工具及機器學習挖掘工具展開數(shù)據(jù)分析挖掘工作,具體開展數(shù)據(jù)處理、模型開發(fā)、算法應用、應用發(fā)布等,在審批驗收之后,將成果推廣到數(shù)據(jù)湖上部署對全集團提供數(shù)據(jù)應用服務。
通過TOS+TDH搭架厚平臺、薄應用的微服務架構,實現(xiàn)租戶之間的異構性、獨立測試與部署、資源按需伸縮、高性能計算能力、租戶間錯誤問題隔離、團隊全功能化。實現(xiàn)數(shù)據(jù)資產(chǎn)化管理。面對集團數(shù)據(jù)多樣、海量、跨板塊、跨專業(yè)的需求,集團對數(shù)據(jù)進行了全面梳理,創(chuàng)新集成各版塊、專業(yè)數(shù)據(jù),創(chuàng)建數(shù)據(jù)資產(chǎn)目錄便于快速檢索獲取資產(chǎn),管控治理資產(chǎn),讓數(shù)據(jù)即資產(chǎn)從理論階段上升到實現(xiàn)階段。
結語
隨著企業(yè)數(shù)據(jù)處理與服務需求的不斷發(fā)展,由大數(shù)據(jù)的匯聚,分布式技術釋放計算能力開始,技術不斷延伸發(fā)展,大數(shù)據(jù)、人工智能與云計算的邊界越來越模糊,三者技術的發(fā)展不斷互相影響與融合,這是發(fā)展與需求產(chǎn)生的自然趨勢。在“后大數(shù)據(jù)時代”,基礎大數(shù)據(jù)與人工智能云平臺的形成與落地會越來越多,真正實現(xiàn)科技賦能業(yè)務,為企業(yè)提升效率與發(fā)展提供更強的心臟。同時,未來可以看到,企業(yè)可能會將其基于基礎能力平臺的應用體系也上架到平臺的應用市場中,充分利用云平臺的優(yōu)勢能力,資源共享,統(tǒng)一管理。
【編輯推薦】
- 區(qū)塊鏈正在革新業(yè)務流程的4種方式
- 數(shù)據(jù)管理和分析趨勢正在改變世界
- ***信息官需要認清企業(yè)云環(huán)境中的誤區(qū)
- 云計算時代下的存儲該何去何從?
- CIO眾論:關于新零售的那些事兒