CIO關(guān)于生成式AI項(xiàng)目的數(shù)據(jù)管理需要做好這三件事
在對(duì)生成式AI進(jìn)行了近兩年的試驗(yàn)之后,許多IT領(lǐng)導(dǎo)者已經(jīng)準(zhǔn)備好擴(kuò)大規(guī)模了。然而,在此之前,他們需要重新考慮數(shù)據(jù)管理問題。
根據(jù)Nvidia公司AI模型、軟件和服務(wù)副總裁Kari Briski的說法,成功實(shí)施生成式AI取決于有效的數(shù)據(jù)管理以及評(píng)估不同模型如何協(xié)同工作以服務(wù)于特定用例。Nvidia等少數(shù)精英組織把生成式AI用于設(shè)計(jì)新芯片等工作,但大多數(shù)組織還是決定瞄準(zhǔn)那些模式簡單的、不復(fù)雜的用例,而且可以專注于實(shí)現(xiàn)卓越的數(shù)據(jù)管理。
自動(dòng)化和人工智能從業(yè)者、Gartner同行社區(qū)大使Doug Shannon表示,絕大多數(shù)企業(yè)現(xiàn)在把重點(diǎn)放在了最有可能帶來積極投資回報(bào)的兩類用例:一類是知識(shí)管理(KM),包括收集企業(yè)信息,對(duì)其進(jìn)行分類,提供允許用戶查詢的模型;另一類是檢索增強(qiáng)生成(RAG)模型,其中來自較大來源的數(shù)據(jù)片段被矢量化,以允許用戶“與”數(shù)據(jù)“對(duì)話”。例如,他們可以獲取一份長達(dá)一千多頁的文檔,讓模型進(jìn)行提取,然后向模型詢問有關(guān)它的問題。
Doug Shannon,Gartner全球智能自動(dòng)化負(fù)責(zé)人
Shannon說:“在這兩種用例中,企業(yè)都依賴于自己的數(shù)據(jù),而利用自己的信息是需要花錢的。與那些負(fù)擔(dān)遺留流程、工具、應(yīng)用和人員的大型企業(yè)相比,中小型公司擁有巨大的優(yōu)勢(shì)。當(dāng)我們堅(jiān)持舊習(xí)慣的時(shí)候,我們有時(shí)會(huì)遇到自身帶來的麻煩?!?/p>
如果數(shù)據(jù)管理做得不好,會(huì)導(dǎo)致收益減少和額外成本。例如,由不良數(shù)據(jù)引起的幻覺,需要花費(fèi)大量額外的時(shí)間和金錢來修復(fù)——并且會(huì)讓用戶對(duì)工具失去興趣。有些IT領(lǐng)導(dǎo)者做得好是因?yàn)樗麄儗W⒂谝韵氯齻€(gè)關(guān)鍵方面。
收集、過濾和分類數(shù)據(jù)
首先是一系列過程——收集、過濾和分類數(shù)據(jù)——對(duì)于KM或RAG模型來說,可能需要幾個(gè)月的時(shí)間。結(jié)構(gòu)化數(shù)據(jù)相對(duì)容易,非結(jié)構(gòu)化數(shù)據(jù)雖然分類難度更大,但卻是最有價(jià)值的?!澳阈枰罃?shù)據(jù)是什么,因?yàn)橹挥性谀愣x了數(shù)據(jù)并將將其分類了之后,你才能用它做任何事情,”Shannon說。
Nvidia提供了相關(guān)的開源工具和企業(yè)軟件用于進(jìn)行過濾,用戶可以配置這些工具和軟件以刪除個(gè)人身份信息(PII)或?qū)μ囟I(lǐng)域有害的信息。工具包中提供了分類器,允許企業(yè)設(shè)置閾值?!拔覀冞€進(jìn)行數(shù)據(jù)混合,將來自不同來源的數(shù)據(jù)組合在一起,”Briski說。
在這個(gè)混合過程中,用戶可以重新排列數(shù)據(jù)以改變相對(duì)數(shù)量。例如,一些企業(yè)可能希望30%的數(shù)據(jù)來自18至25歲之間的人,只有15%的數(shù)據(jù)來自65歲以上的人?;蛘咚麄兛赡芟M?0%的訓(xùn)練數(shù)據(jù)來自客戶支持,25%來自售前。在混合的過程中,還可以消除重復(fù)性的信息。
Kari Briski,Nvidia公司AI軟件產(chǎn)品管理副總裁
信息也應(yīng)該經(jīng)過過濾以確保質(zhì)量。據(jù)Briski介紹,這是一個(gè)迭代的過程,涉及到各種任務(wù)以獲得最高質(zhì)量的數(shù)據(jù)——這些信號(hào)可以提高模型的準(zhǔn)確性。而且,質(zhì)量是和你所在領(lǐng)域的背景有關(guān)的,例如,某個(gè)對(duì)于金融行業(yè)來說是準(zhǔn)確的響應(yīng),對(duì)于醫(yī)療行業(yè)卻是完全錯(cuò)誤的。“通過高質(zhì)量的過濾,我們找到了正確的信號(hào),讓我們可以合成類似類型的數(shù)據(jù)來提高信號(hào)的重要性?!?/p>
Briski還指出,對(duì)用于訓(xùn)練AI的數(shù)據(jù)集進(jìn)行版本控制也是很重要的。由于不同的人會(huì)過濾和擴(kuò)充數(shù)據(jù),因此你需要追蹤都有誰做了哪些更改,以及為什么這樣做,而且你要知道使用哪個(gè)版本的數(shù)據(jù)集來訓(xùn)練特定的模型。
由于企業(yè)必須管理所有數(shù)據(jù),因此數(shù)據(jù)收集、過濾和分類過程的自動(dòng)化就變得至關(guān)重要。哈佛大學(xué)副總裁、首席信息官Klara Jelinkova表示:“很多組織擁有數(shù)據(jù)倉庫,用結(jié)構(gòu)化數(shù)據(jù)進(jìn)行匯報(bào),還有很多組織已經(jīng)采用了數(shù)據(jù)湖和數(shù)據(jù)結(jié)構(gòu)。但隨著數(shù)據(jù)集隨著生成式AI而增長,確保數(shù)據(jù)的高質(zhì)量和一致性成為一項(xiàng)挑戰(zhàn),尤其是在速度不斷加快的情況下。自動(dòng)化和可擴(kuò)展的數(shù)據(jù)檢查,就成了關(guān)鍵?!?/p>
完善數(shù)據(jù)治理和合規(guī)性
數(shù)據(jù)管理需要關(guān)注的第二個(gè)方面,是數(shù)據(jù)治理和合規(guī)性,哈佛大學(xué)進(jìn)行的實(shí)驗(yàn)清楚地說明了這一點(diǎn)。去年,哈佛大學(xué)IT部門推出了AI Sandbox,一個(gè)內(nèi)部開發(fā)的生成式AI環(huán)境,免費(fèi)提供給用戶社區(qū)。這種沙盒提供了多種不同的大型語言模型,讓人們可以嘗試各種工具。
哈佛大學(xué)的IT部門還運(yùn)行了一些創(chuàng)新計(jì)劃,讓人們可以在那里推廣生成式AI項(xiàng)目,其中必須包括預(yù)期投資回報(bào)率的內(nèi)容,不一定是關(guān)于財(cái)務(wù)回報(bào),但可能是其他收益的組合,例如獲得新知識(shí)和新發(fā)現(xiàn),或者流程得到改進(jìn)。如果項(xiàng)目獲得認(rèn)可,就會(huì)得到一小筆種子資金,而那些顯示出預(yù)期收益的項(xiàng)目可能會(huì)進(jìn)一步擴(kuò)大規(guī)模。
Klara Jelinkova,哈佛大學(xué)副總裁兼首席信息官
據(jù)Jelinkova稱,生成式AI項(xiàng)目的數(shù)據(jù)管理中,最要的一個(gè)方面就是重新審視數(shù)據(jù)治理,思考需要改變什么。她說:“我們從通用AI使用指南開始,只是為了確保我們的實(shí)驗(yàn)是設(shè)置了護(hù)欄的。我們進(jìn)行數(shù)據(jù)治理已經(jīng)有很長一段時(shí)間了,但當(dāng)你開始談?wù)撟詣?dòng)化數(shù)據(jù)管道時(shí),很快就會(huì)發(fā)現(xiàn),你需要重新思考那些圍繞結(jié)構(gòu)化數(shù)據(jù)構(gòu)建的舊數(shù)據(jù)治理模型?!?/p>
合規(guī)性是另一個(gè)重要的關(guān)注領(lǐng)域。作為一個(gè)考慮擴(kuò)展部分AI項(xiàng)目的全球性企業(yè),哈佛大學(xué)密切關(guān)注著世界各地不斷變化的監(jiān)管環(huán)境。哈佛大學(xué)有一個(gè)活躍的工作組,致力于遵循和理解歐盟AI法案,在用例投入生產(chǎn)之前,他們會(huì)經(jīng)歷一個(gè)流程,以確保滿足所有合規(guī)義務(wù)。
“當(dāng)你使用新技術(shù)的時(shí)候,你就走在了前沿,而且隨著時(shí)間的推移,立法環(huán)境可能會(huì)發(fā)生變化。對(duì)我們來說,這都是數(shù)據(jù)治理的其中一部分。你需要有一個(gè)合規(guī)框架,允許你隨著立法環(huán)境的變化,重新處理你以前做過的事情?!?/p>
優(yōu)先考慮數(shù)據(jù)隱私和保護(hù)知識(shí)產(chǎn)權(quán)
第三,就是數(shù)據(jù)隱私和知識(shí)產(chǎn)權(quán)(IP)保護(hù)。對(duì)于大多數(shù)組織來說,數(shù)據(jù)管理本質(zhì)上與隱私息息相關(guān)。他們需要確保自己不會(huì)面臨風(fēng)險(xiǎn)。Jelinkova說:“你需要過濾、規(guī)范化、以及某種增強(qiáng),必須對(duì)數(shù)據(jù)進(jìn)行注釋。你還需要解決數(shù)據(jù)的安全性和隱私性問題,需要保護(hù)自己的知識(shí)產(chǎn)權(quán)?!?/p>
在深入研究數(shù)據(jù)時(shí),很多企業(yè)會(huì)發(fā)現(xiàn),他們不了解與某些數(shù)據(jù)相關(guān)的、基于角色的訪問控制(RBAC)——如果有的話。因此,他們不知道在企業(yè)內(nèi)部甚至外部共享了哪些數(shù)據(jù),這個(gè)時(shí)候就體現(xiàn)出了指導(dǎo)方針和護(hù)欄的重要性,也是需要提前實(shí)施的一個(gè)原因。
Jelinkova說,哈佛大學(xué)在隱私原則方面非常積極主動(dòng),并且有一個(gè)全面的數(shù)據(jù)安全計(jì)劃,其中包括了數(shù)據(jù)分類和指導(dǎo)哪些數(shù)據(jù)可用于不同類型的AI。她說:“我們對(duì)知識(shí)產(chǎn)權(quán)是非常謹(jǐn)慎的,當(dāng)我們收集數(shù)據(jù)來構(gòu)建AI導(dǎo)師時(shí),需要確保我們對(duì)于將要輸入的所有數(shù)據(jù)是擁有相關(guān)知識(shí)產(chǎn)權(quán)的?!?/p>
而且,和大多數(shù)大學(xué)一樣,哈佛大學(xué)自己也有很多知識(shí)產(chǎn)權(quán),因此必須要保護(hù)這些知識(shí)產(chǎn)權(quán)。對(duì)于內(nèi)部創(chuàng)建的AI工具來說,這并不難。但是,當(dāng)使用公共模型的時(shí)候,就必須采取額外的措施,以免他們直接或間接地利用你寶貴的信息來獲取商業(yè)利益。為了安全起見,哈佛大學(xué)與第三方AI工具供應(yīng)商簽訂了合同保護(hù)措施,以確保數(shù)據(jù)的安全和隱私。
Shannon表示:“在非常龐大的基礎(chǔ)模型中使用自己的數(shù)據(jù)時(shí),仍然存在著很多誤解,而且對(duì)于某些工具如何處理你的數(shù)據(jù),其透明度也不高。Azure支持使用OpenAI,因此即使他們說他們不會(huì)獲取用戶數(shù)據(jù),并為你提供了一份所有受保護(hù)內(nèi)容的長列表,但仍然是一個(gè)黑匣子。”