成人激色综合天天,中文亚洲av片在线观看,又粗又大又硬毛片免费看,国产aⅴ精品一区二区三区久久,亚洲欧美自偷自拍视频图片

CIO指南:采用開源生成式AI需要注意的十件事

CIOAge 人工智能
企業(yè)應(yīng)該知道該怎么做才能確保他們使用的是經(jīng)過適當(dāng)許可的代碼,如何檢查漏洞,如何保持所有內(nèi)容都已經(jīng)修補(bǔ)并保持最新狀態(tài)。

開源生成式AI模型是可以免費下載的、大規(guī)模使用而無需增加API調(diào)用成本的,并且可以在企業(yè)防火墻后面安全運行。但你不要放松警惕,風(fēng)險仍然存在,有些風(fēng)險不僅被放大了,而且針對生成式AI的新風(fēng)險正在出現(xiàn)。 

如今似乎任何人都可以制作AI模型,即使你沒有訓(xùn)練數(shù)據(jù)或者編程能力,也可以采用你最喜歡的開源模型,對其進(jìn)行調(diào)整,然后以新名稱發(fā)布。

根據(jù)斯坦福大學(xué)今年4月發(fā)布的“AI Index Report”報告顯示,2023年有149個基礎(chǔ)模型發(fā)布,其中三分之二是開源的,并且還有數(shù)量驚人的變體。Hugging Face目前追蹤到僅在文本生成方面就有超過80000個大型語言模型,所幸的是,它有一個排行榜,讓你可以根據(jù)模型在各種基準(zhǔn)上的得分情況快速對模型進(jìn)行排序。這些模型雖然落后于大型商業(yè)模型,但正在迅速得到改進(jìn)。

安永美洲公司的生成式AI負(fù)責(zé)人David Guarrera表示,在研究開源生成式AI時,排行榜是一個很好的起點,他表示,HuggingFace的基準(zhǔn)測試尤其出色。

“但不要低估參與其中并使用這些模型的價值,因為這些模型是開源的,所以很容易做到這一點,也很容易將它們替換掉。”他說,開源模型與封閉的商業(yè)替代方案之間的性能差距正在縮小。

Uber Freight公司工程負(fù)責(zé)人Val Marchevsky表示:“開源非常棒,我發(fā)現(xiàn)開源非常有價值。”他說,開源模型不僅在性能上趕上了專有模型,而且有些模型提供了閉源模型無法比擬的透明度。一些開源模型可以讓你看到什么用于推理,什么不用于推理,可審計性對于防止幻覺是很重要的?!?/p>

當(dāng)然,還有價格上的優(yōu)勢。“如果你的數(shù)據(jù)中心恰好有容量,為什么還要花錢找別人呢?”他說。

企業(yè)已經(jīng)非常熟悉使用開源代碼了。根據(jù)Synopsys今年2月發(fā)布的開源安全和風(fēng)險分析報告顯示,有96%的商業(yè)代碼庫都包含開源組件。

有了這些經(jīng)驗,企業(yè)應(yīng)該知道該怎么做才能確保他們使用的是經(jīng)過適當(dāng)許可的代碼,如何檢查漏洞,如何保持所有內(nèi)容都已經(jīng)修補(bǔ)并保持最新狀態(tài)。不過,其中一些規(guī)則和最佳實踐存在可能會被忽視的特殊細(xì)微差別,以下就是最主要的幾條。

1、奇怪的新許可條款

不同開源許可證類型的情況非常復(fù)雜。一個項目用于商業(yè)用途是否安全,還是僅對于非商業(yè)實施是安全的?可以修改和分發(fā)嗎?可以安全地合并到專有代碼庫中嗎?如今,隨著AI時代的到來,一些新的問題開始涌現(xiàn)。首先,有一些新的許可證類型僅在非常寬松的范圍下開放源代碼。

以Llama許可為例。Llama系列模型是目前最好的開源大型語言模型之一,但Meta官方將其描述為“定制的商業(yè)許可,平衡模型的開放訪問與責(zé)任和保護(hù),以幫助解決潛在的濫用問題”。

企業(yè)可以在商業(yè)用途中使用這些模型,也可以讓開發(fā)者在Llama基本模型的基礎(chǔ)上創(chuàng)建和分發(fā)額外的工作,但不允許他們使用Llama輸出的內(nèi)容來改進(jìn)其他Llama,除非本身就是Llama衍生品。如果企業(yè)或其附屬機(jī)構(gòu)的每月用戶數(shù)超過700人,那么他們必須申請Meta可能授予、也可能不授予的許可。如果他們使用Llama 3,則必須在顯著位置添加“Built with Llama 3”。

同樣地,Apple剛剛在“Apple示例代碼許可”下發(fā)布了OpenELM,該許可也是為此而開發(fā)的,僅涵蓋版權(quán)許可,而不包括專利權(quán)。

Apple和Meta都沒有使用普遍接受的開源許可,但代碼實際上是開放的。Apple公司實際上不僅發(fā)布了代碼,還發(fā)布了模型權(quán)重、訓(xùn)練數(shù)據(jù)集、訓(xùn)練日志和預(yù)訓(xùn)練配置。這給我們帶來了開源許可的另一個方面:傳統(tǒng)的開源軟件就是代碼,事實上它是開源的,意味著你可以看到它的功能以及其中是否存在潛在的問題或漏洞。

然而,生成式AI不僅僅是代碼,還包括了訓(xùn)練數(shù)據(jù)、模型權(quán)重和微調(diào)。所有這些對于理解模型的工作原理和識別潛在偏差都至關(guān)重要。例如,根據(jù)地平論訓(xùn)練的模型將無法回答科學(xué)問題,或者由朝鮮黑客微調(diào)的模型可能無法正確識別惡意軟件。那么開源大型語言模型會發(fā)布所有這些信息嗎?這要取決于型號,甚至取決于型號的具體版本,因為這是沒有標(biāo)準(zhǔn)的。

卡內(nèi)基梅隆大學(xué)AI教授、普華永道前全球AI負(fù)責(zé)人Anand Rao表示:“有時他們會提供代碼,但如果沒有進(jìn)行微調(diào),你可能會花很多錢才能獲得相當(dāng)?shù)男阅??!?/p>

2、技能短缺

開源通常是一種自己動手的工作。企業(yè)可以下載代碼,但他們需要內(nèi)部專業(yè)知識或聘請顧問才能使一切正常運行,這是生成式AI領(lǐng)域的一個大問題。沒有人擁有多年的經(jīng)驗,因為這項技術(shù)太新了。Rao表示,如果一家企業(yè)剛剛開始使用生成式AI,或者想要快速發(fā)展,那么從專有平臺開始會更安全。

他說:“下載開源版本需要專業(yè)知識?!钡a(bǔ)充道,一旦企業(yè)完成了概念驗證,將模型部署到生產(chǎn)中,賬單就開始堆積起來,那么可能是時候考慮開源的替代方案了。

缺乏行業(yè)專業(yè)知識也給開源AI領(lǐng)域帶來了另一個問題。開源的主要優(yōu)勢之一是有很多人查看代碼、發(fā)現(xiàn)編程錯誤、安全漏洞和其他弱點。但這種開源安全的“千眼”方法,只有在事實上有一千只眼睛能夠理解他們所看到的內(nèi)容時才是有效的。

3、“越獄”

眾所周知,大型語言模型很容易受到“越獄”的影響,用戶會給出巧妙的提示,誘騙它違反指導(dǎo)方針,例如生成惡意軟件。對于商業(yè)項目,背后有積極主動的廠商,他們可以識別這些漏洞并在出現(xiàn)時將其關(guān)閉。此外,廠商還可以訪問用戶發(fā)送到模型公共版本的提示,以便他們可以監(jiān)控可疑活動的跡象。

惡意行為者不太可能購買在私有環(huán)境中運行的企業(yè)版本產(chǎn)品,在私有環(huán)境中,提示不會共享給廠商以改進(jìn)模型。而企業(yè)團(tuán)隊中可能沒有專人負(fù)責(zé)尋找開源項目中的越獄跡象。不良行為者可以免費下載這些模型并在自己的環(huán)境中運行,以測試潛在的黑客行為。壞人在越獄方面也取得了先機(jī),因為他們可以看到系統(tǒng)提示模型使用的信息,以及模型開發(fā)人員可能構(gòu)建的任何其他護(hù)欄。

Rao說:“這不僅僅是要試錯?!崩?,攻擊者可以分析訓(xùn)練數(shù)據(jù),找出讓模型錯誤識別圖像的方法,或者在遇到看似無害的提示時偏離正軌。

如果AI模型在輸出內(nèi)容中添加水印,惡意行為者則可能會分析代碼以對過程進(jìn)行逆向工程,去除水印。攻擊者還可以分析模型或其他支持代碼和工具來查找漏洞區(qū)域。

全球數(shù)字化轉(zhuǎn)型咨詢公司Nortal的高級數(shù)據(jù)科學(xué)家和能力負(fù)責(zé)人Elena Sügis表示:“您可能會因為請求而使基礎(chǔ)設(shè)施不堪重負(fù),這樣模型就不會出現(xiàn)這種情況。當(dāng)模型是更大系統(tǒng)中的一個組成部分,并且其輸出內(nèi)容被系統(tǒng)的另一部分使用時,如果我們可以攻擊模型輸出內(nèi)容的方式,就會破壞整個系統(tǒng),這對企業(yè)來說可能是存在風(fēng)險的?!?/p>

4、訓(xùn)練數(shù)據(jù)的風(fēng)險

有不少藝術(shù)家、作家和其他版權(quán)所有者正在起訴大型AI企業(yè)。但是,如果他們認(rèn)為自己的知識產(chǎn)權(quán)受到開源模式的侵犯,而唯一財力雄厚的企業(yè)是將該模式融入其產(chǎn)品或服務(wù)的企業(yè),該怎么辦?企業(yè)用戶會被起訴嗎?

安永的Guarrera表示:“這是一個潛在的問題,沒有人真正知道一些懸而未決的訴訟將如何展開。”他說,我們可能會迎來一個必須對數(shù)據(jù)集進(jìn)行補(bǔ)償?shù)氖澜纭!按笮涂萍计髽I(yè)更有能力在這方面投入資金,并在版權(quán)可能帶來的風(fēng)暴中存活下來?!?/p>

Sügis表示,大型商業(yè)廠商不僅有錢用于購買培訓(xùn)數(shù)據(jù)和打官司,他們還有錢用于高質(zhì)量的數(shù)據(jù)集。免費的公共數(shù)據(jù)集不僅僅包含未經(jīng)許可使用的受版權(quán)保護(hù)的內(nèi)容,還充滿了不準(zhǔn)確和有偏見的信息、惡意軟件和其他可能降低輸出質(zhì)量的材料。

“很多模型開發(fā)者都在談?wù)撌褂镁x數(shù)據(jù),這比你用整個互聯(lián)網(wǎng)來訓(xùn)練它要貴得多?!?/p>

5、新的攻擊領(lǐng)域

生成式AI項目不僅僅是代碼,還有更多的潛在領(lǐng)域。大型語言模型可能會在多個方面受到不良行為者的攻擊。他們可能會滲透到管理不善的項目開發(fā)團(tuán)隊中,向軟件本身添加惡意代碼。但Sügis說,他們也可能毒害訓(xùn)練數(shù)據(jù)、微調(diào)或權(quán)重。

“黑客可能會使用惡意代碼示例重新訓(xùn)練模型,從而侵入用戶的基礎(chǔ)設(shè)施,或者用假新聞和錯誤信息來訓(xùn)練它?!?/p>

另一個攻擊媒介是模型的系統(tǒng)提示。

“這通常對用戶是隱藏的,系統(tǒng)提示可能有護(hù)欄或安全規(guī)則,允許模型識別不需要或不道德的行為?!?/p>

她說,專有模型不會透露模型的系統(tǒng)提示,并且訪問這些內(nèi)容可能會讓黑客弄清楚如何攻擊模型。

6、缺少護(hù)欄

一些開源團(tuán)體可能會從哲學(xué)上反對在他們的模型上設(shè)置護(hù)欄,或者他們可能認(rèn)為模型在沒有任何限制的情況下會表現(xiàn)得更好。有些則是專門為惡意目的而創(chuàng)建的。那些想要使用大型語言模型的企業(yè)可能不一定知道他們的模型屬于哪一類。Nortal公司的Sügis表示,目前還沒有獨立機(jī)構(gòu)評估開源AI模型的安全性。她表示,歐洲的《人工智能法案》將要求提供部分此類文件,但其大部分條款要到2026年才會生效。

“我會嘗試獲取盡可能多的文檔,測試和評估模型,并在公司內(nèi)部實施一些防護(hù)措施?!?/p>

7、缺乏標(biāo)準(zhǔn)

用戶驅(qū)動的開源項目通常是基于標(biāo)準(zhǔn)的,因為企業(yè)用戶更喜歡標(biāo)準(zhǔn)和互操作性。事實上,根據(jù)Linux基金會去年發(fā)布的一項針對近500名技術(shù)專業(yè)人士的調(diào)查顯示,71%的人更喜歡開放標(biāo)準(zhǔn),而只有10%的人更喜歡封閉標(biāo)準(zhǔn)。另一方面,生產(chǎn)專有軟件的企業(yè)可能更愿意讓客戶鎖定在他們的生態(tài)系統(tǒng)中。但如果你期望開源生成式AI都是基于標(biāo)準(zhǔn)的,那你就錯了。

事實上,當(dāng)大多數(shù)人談?wù)揂I標(biāo)準(zhǔn)的時候,他們談?wù)摰氖堑赖?、隱私和可解釋性等問題。這方面有很多工作正在開展,例如去年12月發(fā)布的人工智能管理系統(tǒng)ISO/IEC 42001標(biāo)準(zhǔn)。4月29日,NIST發(fā)布了人工智能標(biāo)準(zhǔn)計劃草案,其中涵蓋了很多內(nèi)容,首先是創(chuàng)建一種用于談?wù)揂I的通用語言,還主要關(guān)注風(fēng)險和治理問題,但在技術(shù)標(biāo)準(zhǔn)方面沒有太多內(nèi)容。

“這是一個令人難以置信的新興領(lǐng)域,”云原生計算基金會首席信息官兼生態(tài)系統(tǒng)負(fù)責(zé)人Taylor Dolezal說?!拔铱吹揭恍﹪@數(shù)據(jù)分類的討論,關(guān)于為訓(xùn)練數(shù)據(jù)、API和提示制定標(biāo)準(zhǔn)格式。”但到目前為止,這還只是討論而已。

他說,矢量數(shù)據(jù)庫已經(jīng)有了一個通用的數(shù)據(jù)標(biāo)準(zhǔn),但還沒有標(biāo)準(zhǔn)的查詢語言。那么自主代理的標(biāo)準(zhǔn)又是如何呢?

“我還沒有看到,但我很想看到,找出一些方法,不僅讓代理們可以執(zhí)行他們的特定任務(wù),而且還要將這些任務(wù)結(jié)合在一起?!?/p>

他說,創(chuàng)建代理最常用的工具LangChain與其說是一個標(biāo)準(zhǔn),不如說是一個框架。他說,用戶企業(yè)——即創(chuàng)造標(biāo)準(zhǔn)需求的公司——還沒有準(zhǔn)備好?!按蠖鄶?shù)最終用戶在開始嘗試之前都不知道自己想要什么?!?/p>

相反,他表示,人們更有可能將OpenAI等主要廠商的API和接口視為新的、事實上的標(biāo)準(zhǔn)。“這就是我看到的情況?!?/p>

8、缺乏透明度

你可能認(rèn)為開源模型從定義上來說是更加透明的,但情況可能并非總是如此。分析引擎和記分牌平臺Vero AI的首席執(zhí)行官Eric Sydell表示,大型商業(yè)項目可能有更多的資源用于創(chuàng)建文檔。Vero AI最近發(fā)布了一份報告,根據(jù)可見性、完整性、立法準(zhǔn)備、透明度情況等方面對主要的生成式AI模型進(jìn)行評分,谷歌的Gemini和OpenAI的GPT-4排名最高。

“僅僅因為它們是開源的,并不一定意味著它們提供了有關(guān)模型背景及其開發(fā)方式的相同信息,目前,更大型的商業(yè)模型在這方面做得更好?!?/p>

以偏見為例。

“我們發(fā)現(xiàn)排名中前兩個封閉模型有相當(dāng)多的文檔,并投入了時間探索這個問題,”他說。

9、血統(tǒng)問題

開源項目有很多分支是很常見的,但當(dāng)這種情況發(fā)生在AI時代時,你就會面臨傳統(tǒng)軟件所沒有的風(fēng)險。網(wǎng)絡(luò)安全廠商Sonatype的產(chǎn)品高級副總裁Tyler Warde舉例說,一個基礎(chǔ)模型使用了一個有問題的訓(xùn)練數(shù)據(jù)集,有人從中創(chuàng)建了一個新模型,那么新模型就會繼承這些問題。

“這個模型會有很多黑匣子方面的內(nèi)容,”他說。

事實上,這些問題可能會追溯到幾個級別,并且不會在最終模型的代碼中可見。當(dāng)一家企業(yè)下載模型供自己使用時,模型就會進(jìn)一步從原始來源中刪除。最初的基本模型可能已經(jīng)解決了問題,但是,根據(jù)透明度和上下游溝通的程度,開發(fā)最后一個模型的開發(fā)人員甚至可能不知道問題得到了修復(fù)。

10、新的影子IT

那些使用開源組件作為軟件開發(fā)過程一部分的企業(yè),擁有適當(dāng)?shù)牧鞒虂韺彶閹觳⒋_保組件是最新的。他們確保項目得到良好的支持,安全問題得到處理,并且軟件具有適當(dāng)?shù)脑S可條款。

然而,對于生成式AI,負(fù)責(zé)審查的人可能不知道要關(guān)注什么。最重要的是,生成式AI項目有時是不符合標(biāo)準(zhǔn)軟件開發(fā)流程的,可能來自數(shù)據(jù)科學(xué)團(tuán)隊或臭鼬工廠。開發(fā)人員可能會下載模型來玩,最終得到更廣泛的使用?;蛘撸髽I(yè)用戶自己可能會遵循在線教程并設(shè)置自己的AI,完全繞過IT。

生成式AI的最新進(jìn)展——自主代理,有可能將巨大的力量交給這些系統(tǒng),將這種影子IT的潛在風(fēng)險提高到一個新的高度上。

Corelight公司開源高級總監(jiān)Kelley Misata表示:“如果您打算進(jìn)行試驗,請創(chuàng)建一個容器,以安全的方式進(jìn)行試驗?!彼f,這應(yīng)該屬于公司風(fēng)險管理團(tuán)隊的責(zé)任,而CIO應(yīng)該確保開發(fā)人員和整個企業(yè)了解這個流程。

“他們是最有能力塑造文化的人,讓我們充分利用開源提供的創(chuàng)新和所有偉大之處,但同時要睜大眼睛去探索?!?/p>

兩全其美?

一些公司正在尋求開源的低成本、透明度、隱私和控制時,也希望有廠商提供治理、長期可持續(xù)性和支持。在傳統(tǒng)的開源世界中,有很多廠商這樣做,例如Red Hat、MariaDB、Docker、Automattic等。

“他們?yōu)榇笮推髽I(yè)提供一定程度的安全保障,”AArete公司數(shù)據(jù)科學(xué)和分析副總裁Priya Iragavarapu表示。“這幾乎是降低風(fēng)險的一種方式?!?/p>

她表示,在生成式AI領(lǐng)域,此類廠商并不多,但情況正在開始發(fā)生變化。

責(zé)任編輯:龐桂玉 來源: 至頂網(wǎng)
相關(guān)推薦

2010-07-15 09:18:03

Windows 7 S

2015-10-26 16:34:08

安裝Ubuntu 15.1Linux

2023-05-18 15:50:59

Arch Linux命令

2009-05-26 09:48:34

2025-02-10 08:59:54

2025-04-10 07:00:00

GenAIChatGPT人工智能

2009-04-24 08:17:15

MySpaceCEO社交網(wǎng)站

2023-03-23 15:14:43

2010-02-25 11:02:29

JavaScript

2016-12-26 11:34:23

2020-08-10 15:30:24

XDR網(wǎng)絡(luò)安全網(wǎng)絡(luò)威脅

2022-10-28 08:37:03

UbuntuLinux

2013-07-08 10:54:01

3D編程如何3D編程編程

2014-11-10 10:09:47

開源文檔程序猿

2009-06-26 09:36:06

2015-09-08 11:47:00

微軟容器

2017-05-02 11:36:00

Java

2010-02-24 11:21:39

2023-03-29 10:03:59

2009-12-15 11:02:15

51CTO技術(shù)棧公眾號