CIO仍然比以往任何時(shí)候都更接近他們夢(mèng)想的數(shù)據(jù)湖倉(cāng)
Databricks 收購(gòu)初創(chuàng)公司 Tabular 的大膽舉動(dòng),對(duì)其自身的 Delta Lake 數(shù)據(jù)湖解決方案并未起到有效的幫助,無法阻止 Apache Iceberg 的崛起,然而,這一收購(gòu)可能會(huì)影響接下來的發(fā)展。
數(shù)據(jù)湖領(lǐng)域的競(jìng)爭(zhēng)已經(jīng)結(jié)束,開源的 Apache Iceberg 已經(jīng)獲勝,即便 Databricks 以十億美元收購(gòu)了由 Iceberg 創(chuàng)始人創(chuàng)立的初創(chuàng)公司 Tabular,也無法改變這一事實(shí)。
盡管如此,這一大膽的收購(gòu)令一些 CIO 感到困惑和分心,他們難以理解為何 Databricks 作為數(shù)據(jù)湖領(lǐng)域的先驅(qū),Delta Lake 的架構(gòu)師,竟會(huì)花費(fèi)巨資收購(gòu)這家成立僅三年、年收入不足 100 萬美元的初創(chuàng)公司 Tabular,盡管該公司前景廣闊。
一些人猜測(cè),Databricks 可能希望通過這一不確定性,減緩 Iceberg 生態(tài)系統(tǒng)的快速發(fā)展,另一些人則推測(cè),Databricks 可能計(jì)劃將 Delta Lake 的項(xiàng)目壓在 Tabular 團(tuán)隊(duì)身上,而 Tabular 團(tuán)隊(duì)目前仍然在積極參與 Iceberg 的開發(fā),這種做法可能既幫助了其自身平臺(tái)的發(fā)展,又消耗了 Iceberg 作為另一種數(shù)據(jù)湖表格式的資源。
還有一種假設(shè)是,Databricks 的高層可能對(duì)擊敗 Snowflake 的舉動(dòng)感到興奮,尤其是在 Snowflake 的活動(dòng)期間通過收購(gòu)來吸引注意力,據(jù)報(bào)道其競(jìng)爭(zhēng)對(duì)手也曾尋求這次收購(gòu),或者,Databricks 可能只是希望通過在 Iceberg 領(lǐng)域脫穎而出,來緩解華爾街對(duì)其即將上市的不安情緒。
無論原因是什么,Databricks 目前對(duì)外所說的關(guān)于開放性和可移植性的好處聽起來都很合適——但措辭模糊,足以讓外界繼續(xù)猜測(cè)。
Amazon Web Services (AWS) 的開源戰(zhàn)略和營(yíng)銷總監(jiān) David Nalley 對(duì)我表示:“我確實(shí)認(rèn)為這次收購(gòu)有點(diǎn)分散注意力,但當(dāng)這種規(guī)模的資金流動(dòng)時(shí),情況往往就是如此?!?AWS 已將 Iceberg 集成到 AWS Glue 和 Amazon Athena 等分析服務(wù)中,并在過去三年積極參與了 Iceberg 的開發(fā)?!安贿^,就我看到的所有信號(hào)來看,越來越多的人參與其中,開發(fā)速度實(shí)際上正在加快。我們對(duì)此感到非常興奮?!?/p>
事實(shí)上,盡管有各種擔(dān)憂,但目前的大部分工作并不涉及 Iceberg 表格式。內(nèi)部人士表示,該格式相對(duì)穩(wěn)定。既然 Iceberg 已確立為默認(rèn)的表格式,下一步的競(jìng)爭(zhēng)將圍繞其上的 REST 目錄層展開——即幫助定義 Iceberg 的擴(kuò)展范圍及數(shù)據(jù)管理能力的 API,這正成為新的競(jìng)爭(zhēng)戰(zhàn)場(chǎng)。
這也是 Databricks 仍有機(jī)會(huì)發(fā)揮作用的地方,特別是通過將其平臺(tái)下的數(shù)據(jù)與其他競(jìng)爭(zhēng)平臺(tái)上的信息結(jié)合。實(shí)際上,Databricks 已經(jīng)朝這個(gè)方向努力。6月,在收購(gòu) Tabular 的一周后,Databricks 將其數(shù)據(jù)治理工具 Unity Catalog 開源。
Cloudera 產(chǎn)品管理高級(jí)副總裁 Venkat Rajaji 表示:“數(shù)據(jù)目錄至關(guān)重要,因?yàn)樗瞧髽I(yè)管理元數(shù)據(jù)的地方?!?Cloudera 也一直在其平臺(tái)上投資 Iceberg 和 REST 目錄的能力?!白罱鼑@ Iceberg REST 目錄的創(chuàng)新非常多,因?yàn)閿?shù)據(jù)戰(zhàn)場(chǎng)已經(jīng)結(jié)束,但元數(shù)據(jù)的戰(zhàn)場(chǎng)才剛剛開始?!?/p>
數(shù)據(jù)湖的吸引力
數(shù)據(jù)湖表格式的推廣幾乎好得讓人難以置信,它們本質(zhì)上是抽象層,賦予了業(yè)務(wù)分析師和數(shù)據(jù)科學(xué)家混合和匹配不同數(shù)據(jù)存儲(chǔ)的能力,無論數(shù)據(jù)存儲(chǔ)在哪個(gè)地方,也不論使用哪種處理引擎。
一切操作都有記錄,包括元數(shù)據(jù)的變更,這為一系列管理和治理能力鋪平了道路。數(shù)據(jù)本身保持完整,沒有復(fù)制或更改。因此,任何數(shù)量的項(xiàng)目都可以同時(shí)訪問這些數(shù)據(jù),而表格式會(huì)跟蹤所有這些操作。
CIO們對(duì)此表示認(rèn)可,因?yàn)檫@些表格式取消了為每個(gè)項(xiàng)目單獨(dú)復(fù)制數(shù)據(jù)的需求,從而減少了存儲(chǔ)費(fèi)用,并緩解了安全性、可靠性和可管理性方面的問題。理論上,所有這些都能實(shí)現(xiàn)不依賴供應(yīng)商的鎖定。
最后一點(diǎn)——沒有類似于“加州旅館”式的陷阱,如專有的增強(qiáng)功能和高昂的外部數(shù)據(jù)轉(zhuǎn)移費(fèi)用,這些費(fèi)用通常會(huì)將企業(yè)困在專有數(shù)據(jù)倉(cāng)庫(kù)中——在 Iceberg 的設(shè)計(jì)中起到了關(guān)鍵作用。當(dāng)時(shí),Iceberg 的創(chuàng)造者們?cè)?Netflix 工作,他們采用了供應(yīng)商中立的方法,這種方法也吸引了像 Apple、Citibank 和 Pinterest 這樣的以數(shù)據(jù)為中心的大公司,并繼續(xù)推動(dòng)其人氣上升。
Delta Lake 從技術(shù)上講也是開放的,Databricks 將 Delta Lake 捐贈(zèng)給了 Linux 基金會(huì),差不多在 Netflix 將 Iceberg 項(xiàng)目交給 Apache 軟件基金會(huì)的同時(shí),但一些 CIO 擔(dān)心,Databricks 在平臺(tái)中的巨大影響力可能讓公司有機(jī)會(huì)維持并增強(qiáng)其專有的鉤子,例如在 Databricks Runtime 中。
“人們確實(shí)有一種感覺,認(rèn)為 Delta Lake 是一家公司獨(dú)創(chuàng)的成果,”Snowflake 的首席工程師 Russell Spitzer 說。Spitzer 在 6 月從 Apple 加入了 Snowflake,同時(shí)也是 Iceberg 項(xiàng)目管理委員會(huì) (PMC) 的成員,并在 6 月 Snowflake 捐贈(zèng)給 Apache 的 REST 兼容 API 項(xiàng)目 Apache Polaris 的孵化 PMC 中擔(dān)任職務(wù)。他還為這兩個(gè)項(xiàng)目貢獻(xiàn)了代碼。
“你知道,它是開源的,”Spitzer 說,“但它確實(shí)是一個(gè) Databricks 的產(chǎn)品。”
如果你無法擊敗他們,那就加入他們
Iceberg 的第一波大規(guī)模采用始于 2020 年,當(dāng)時(shí)它成為 Apache 的頂級(jí)項(xiàng)目,除了 AWS,像 Cloudera 和 Dremio 這樣以開放為中心的供應(yīng)商也開始圍繞 Iceberg 構(gòu)建服務(wù),Google 也在這波浪潮接近尾聲時(shí)加入。
大多數(shù)專有數(shù)據(jù)平臺(tái)供應(yīng)商在最初的浪潮中選擇旁觀,可能是因?yàn)?Iceberg 的“任何數(shù)據(jù)、任何引擎”結(jié)構(gòu)對(duì)他們現(xiàn)有的商業(yè)模式構(gòu)成了威脅,而 Snowflake 是個(gè)顯著的例外,這家數(shù)據(jù)平臺(tái)供應(yīng)商在此期間開始投資 Iceberg,可能是因?yàn)樗枰粋€(gè)與其最強(qiáng)大的競(jìng)爭(zhēng)對(duì)手 Delta Lake 抗衡的解決方案。
隨著企業(yè)越來越多地將來自競(jìng)爭(zhēng)性數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)與 Iceberg 結(jié)合使用,各大專有平臺(tái)供應(yīng)商開始認(rèn)真地添加對(duì) Iceberg 的支持,這讓他們處于更有利的地位,不僅能夠繼續(xù)管理數(shù)據(jù),還可能托管處理功能。
僅在過去的一年里,Confluent、Oracle 和 Salesforce 都增加了對(duì) Iceberg 的支持。Snowflake 則通過 Polaris 加大了對(duì) Iceberg 的投入。微軟作為最后一家保持觀望的云服務(wù)提供商——很可能因?yàn)槠鋵?duì) Delta Lake 的投資——在 6 月份加入了 Snowflake 的發(fā)布活動(dòng)。當(dāng)然,Databricks 也在快速擴(kuò)大對(duì) Iceberg 的覆蓋。
“看到 Iceberg 取得的進(jìn)展,我感到非常驚訝,”Snowflake 的 Spitzer 說,“過去我得向人們解釋為什么他們應(yīng)該關(guān)心 Iceberg,而現(xiàn)在,人人都知道 Iceberg,大家也都知道,所有人都在向它靠攏?!?/p>
一切都與元數(shù)據(jù)有關(guān)
Iceberg 為將不同的數(shù)據(jù)存儲(chǔ)整合到項(xiàng)目中并進(jìn)行處理奠定了堅(jiān)實(shí)的基礎(chǔ)。現(xiàn)在,企業(yè)數(shù)據(jù)分析社區(qū)基本上已經(jīng)接受了這一點(diǎn),下一階段的工作將集中在目錄層面。AWS、Cloudera、Databricks、Snowflake 等公司都在努力讓 Iceberg 能夠處理盡可能多的數(shù)據(jù)并發(fā)揮最佳性能。
“目錄不僅僅關(guān)乎表格式,還涉及治理,”AWS 的開放數(shù)據(jù)分析引擎主管 Roni Burd 說。Burd 還負(fù)責(zé)管理該公司對(duì) Iceberg 的貢獻(xiàn)?!耙虼?,在目錄 API 上有另一個(gè)巨大的創(chuàng)新機(jī)會(huì),即表格式之上的抽象層。這也是我們的客戶所需求的,因?yàn)樗鼮樗麄兘鉀Q問題開辟了新的前沿。”