成人激色综合天天,中文亚洲av片在线观看,又粗又大又硬毛片免费看,国产aⅴ精品一区二区三区久久,亚洲欧美自偷自拍视频图片

<blockquote id="by6bz"></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

CIO指南：采用開源生成式AI需要注意的十件事

2024-05-28 13:41:32

CIOAge 人工智能

企業(yè)應(yīng)該知道該怎么做才能確保他們使用的是經(jīng)過適當(dāng)許可的代碼，如何檢查漏洞，如何保持所有內(nèi)容都已經(jīng)修補(bǔ)并保持最新狀態(tài)。

開源生成式AI模型是可以免費下載的、大規(guī)模使用而無需增加API調(diào)用成本的，并且可以在企業(yè)防火墻后面安全運行。但你不要放松警惕，風(fēng)險仍然存在，有些風(fēng)險不僅被放大了，而且針對生成式AI的新風(fēng)險正在出現(xiàn)。

如今似乎任何人都可以制作AI模型，即使你沒有訓(xùn)練數(shù)據(jù)或者編程能力，也可以采用你最喜歡的開源模型，對其進(jìn)行調(diào)整，然后以新名稱發(fā)布。

根據(jù)斯坦福大學(xué)今年4月發(fā)布的“AI Index Report”報告顯示，2023年有149個基礎(chǔ)模型發(fā)布，其中三分之二是開源的，并且還有數(shù)量驚人的變體。Hugging Face目前追蹤到僅在文本生成方面就有超過80000個大型語言模型，所幸的是，它有一個排行榜，讓你可以根據(jù)模型在各種基準(zhǔn)上的得分情況快速對模型進(jìn)行排序。這些模型雖然落后于大型商業(yè)模型，但正在迅速得到改進(jìn)。

安永美洲公司的生成式AI負(fù)責(zé)人David Guarrera表示，在研究開源生成式AI時，排行榜是一個很好的起點，他表示，HuggingFace的基準(zhǔn)測試尤其出色。

“但不要低估參與其中并使用這些模型的價值，因為這些模型是開源的，所以很容易做到這一點，也很容易將它們替換掉?！彼f，開源模型與封閉的商業(yè)替代方案之間的性能差距正在縮小。

Uber Freight公司工程負(fù)責(zé)人Val Marchevsky表示：“開源非常棒，我發(fā)現(xiàn)開源非常有價值?！彼f，開源模型不僅在性能上趕上了專有模型，而且有些模型提供了閉源模型無法比擬的透明度。一些開源模型可以讓你看到什么用于推理，什么不用于推理，可審計性對于防止幻覺是很重要的?！?/p>

當(dāng)然，還有價格上的優(yōu)勢。“如果你的數(shù)據(jù)中心恰好有容量，為什么還要花錢找別人呢？”他說。

企業(yè)已經(jīng)非常熟悉使用開源代碼了。根據(jù)Synopsys今年2月發(fā)布的開源安全和風(fēng)險分析報告顯示，有96%的商業(yè)代碼庫都包含開源組件。

有了這些經(jīng)驗，企業(yè)應(yīng)該知道該怎么做才能確保他們使用的是經(jīng)過適當(dāng)許可的代碼，如何檢查漏洞，如何保持所有內(nèi)容都已經(jīng)修補(bǔ)并保持最新狀態(tài)。不過，其中一些規(guī)則和最佳實踐存在可能會被忽視的特殊細(xì)微差別，以下就是最主要的幾條。

1、奇怪的新許可條款

不同開源許可證類型的情況非常復(fù)雜。一個項目用于商業(yè)用途是否安全，還是僅對于非商業(yè)實施是安全的？可以修改和分發(fā)嗎？可以安全地合并到專有代碼庫中嗎？如今，隨著AI時代的到來，一些新的問題開始涌現(xiàn)。首先，有一些新的許可證類型僅在非常寬松的范圍下開放源代碼。

以Llama許可為例。Llama系列模型是目前最好的開源大型語言模型之一，但Meta官方將其描述為“定制的商業(yè)許可，平衡模型的開放訪問與責(zé)任和保護(hù)，以幫助解決潛在的濫用問題”。

企業(yè)可以在商業(yè)用途中使用這些模型，也可以讓開發(fā)者在Llama基本模型的基礎(chǔ)上創(chuàng)建和分發(fā)額外的工作，但不允許他們使用Llama輸出的內(nèi)容來改進(jìn)其他Llama，除非本身就是Llama衍生品。如果企業(yè)或其附屬機(jī)構(gòu)的每月用戶數(shù)超過700人，那么他們必須申請Meta可能授予、也可能不授予的許可。如果他們使用Llama 3，則必須在顯著位置添加“Built with Llama 3”。

同樣地，Apple剛剛在“Apple示例代碼許可”下發(fā)布了OpenELM，該許可也是為此而開發(fā)的，僅涵蓋版權(quán)許可，而不包括專利權(quán)。

Apple和Meta都沒有使用普遍接受的開源許可，但代碼實際上是開放的。Apple公司實際上不僅發(fā)布了代碼，還發(fā)布了模型權(quán)重、訓(xùn)練數(shù)據(jù)集、訓(xùn)練日志和預(yù)訓(xùn)練配置。這給我們帶來了開源許可的另一個方面：傳統(tǒng)的開源軟件就是代碼，事實上它是開源的，意味著你可以看到它的功能以及其中是否存在潛在的問題或漏洞。

然而，生成式AI不僅僅是代碼，還包括了訓(xùn)練數(shù)據(jù)、模型權(quán)重和微調(diào)。所有這些對于理解模型的工作原理和識別潛在偏差都至關(guān)重要。例如，根據(jù)地平論訓(xùn)練的模型將無法回答科學(xué)問題，或者由朝鮮黑客微調(diào)的模型可能無法正確識別惡意軟件。那么開源大型語言模型會發(fā)布所有這些信息嗎？這要取決于型號，甚至取決于型號的具體版本，因為這是沒有標(biāo)準(zhǔn)的。

卡內(nèi)基梅隆大學(xué)AI教授、普華永道前全球AI負(fù)責(zé)人Anand Rao表示：“有時他們會提供代碼，但如果沒有進(jìn)行微調(diào)，你可能會花很多錢才能獲得相當(dāng)?shù)男阅??！?/p>

2、技能短缺

開源通常是一種自己動手的工作。企業(yè)可以下載代碼，但他們需要內(nèi)部專業(yè)知識或聘請顧問才能使一切正常運行，這是生成式AI領(lǐng)域的一個大問題。沒有人擁有多年的經(jīng)驗，因為這項技術(shù)太新了。Rao表示，如果一家企業(yè)剛剛開始使用生成式AI，或者想要快速發(fā)展，那么從專有平臺開始會更安全。

他說：“下載開源版本需要專業(yè)知識?！钡a(bǔ)充道，一旦企業(yè)完成了概念驗證，將模型部署到生產(chǎn)中，賬單就開始堆積起來，那么可能是時候考慮開源的替代方案了。

缺乏行業(yè)專業(yè)知識也給開源AI領(lǐng)域帶來了另一個問題。開源的主要優(yōu)勢之一是有很多人查看代碼、發(fā)現(xiàn)編程錯誤、安全漏洞和其他弱點。但這種開源安全的“千眼”方法，只有在事實上有一千只眼睛能夠理解他們所看到的內(nèi)容時才是有效的。

3、“越獄”

眾所周知，大型語言模型很容易受到“越獄”的影響，用戶會給出巧妙的提示，誘騙它違反指導(dǎo)方針，例如生成惡意軟件。對于商業(yè)項目，背后有積極主動的廠商，他們可以識別這些漏洞并在出現(xiàn)時將其關(guān)閉。此外，廠商還可以訪問用戶發(fā)送到模型公共版本的提示，以便他們可以監(jiān)控可疑活動的跡象。

惡意行為者不太可能購買在私有環(huán)境中運行的企業(yè)版本產(chǎn)品，在私有環(huán)境中，提示不會共享給廠商以改進(jìn)模型。而企業(yè)團(tuán)隊中可能沒有專人負(fù)責(zé)尋找開源項目中的越獄跡象。不良行為者可以免費下載這些模型并在自己的環(huán)境中運行，以測試潛在的黑客行為。壞人在越獄方面也取得了先機(jī)，因為他們可以看到系統(tǒng)提示模型使用的信息，以及模型開發(fā)人員可能構(gòu)建的任何其他護(hù)欄。

Rao說：“這不僅僅是要試錯?！崩纾粽呖梢苑治鲇?xùn)練數(shù)據(jù)，找出讓模型錯誤識別圖像的方法，或者在遇到看似無害的提示時偏離正軌。

如果AI模型在輸出內(nèi)容中添加水印，惡意行為者則可能會分析代碼以對過程進(jìn)行逆向工程，去除水印。攻擊者還可以分析模型或其他支持代碼和工具來查找漏洞區(qū)域。

全球數(shù)字化轉(zhuǎn)型咨詢公司Nortal的高級數(shù)據(jù)科學(xué)家和能力負(fù)責(zé)人Elena Sügis表示：“您可能會因為請求而使基礎(chǔ)設(shè)施不堪重負(fù)，這樣模型就不會出現(xiàn)這種情況。當(dāng)模型是更大系統(tǒng)中的一個組成部分，并且其輸出內(nèi)容被系統(tǒng)的另一部分使用時，如果我們可以攻擊模型輸出內(nèi)容的方式，就會破壞整個系統(tǒng)，這對企業(yè)來說可能是存在風(fēng)險的。”

4、訓(xùn)練數(shù)據(jù)的風(fēng)險

有不少藝術(shù)家、作家和其他版權(quán)所有者正在起訴大型AI企業(yè)。但是，如果他們認(rèn)為自己的知識產(chǎn)權(quán)受到開源模式的侵犯，而唯一財力雄厚的企業(yè)是將該模式融入其產(chǎn)品或服務(wù)的企業(yè)，該怎么辦？企業(yè)用戶會被起訴嗎？

安永的Guarrera表示：“這是一個潛在的問題，沒有人真正知道一些懸而未決的訴訟將如何展開?！彼f，我們可能會迎來一個必須對數(shù)據(jù)集進(jìn)行補(bǔ)償?shù)氖澜纭！按笮涂萍计髽I(yè)更有能力在這方面投入資金，并在版權(quán)可能帶來的風(fēng)暴中存活下來?！?/p>

Sügis表示，大型商業(yè)廠商不僅有錢用于購買培訓(xùn)數(shù)據(jù)和打官司，他們還有錢用于高質(zhì)量的數(shù)據(jù)集。免費的公共數(shù)據(jù)集不僅僅包含未經(jīng)許可使用的受版權(quán)保護(hù)的內(nèi)容，還充滿了不準(zhǔn)確和有偏見的信息、惡意軟件和其他可能降低輸出質(zhì)量的材料。

“很多模型開發(fā)者都在談?wù)撌褂镁x數(shù)據(jù)，這比你用整個互聯(lián)網(wǎng)來訓(xùn)練它要貴得多?！?/p>

5、新的攻擊領(lǐng)域

生成式AI項目不僅僅是代碼，還有更多的潛在領(lǐng)域。大型語言模型可能會在多個方面受到不良行為者的攻擊。他們可能會滲透到管理不善的項目開發(fā)團(tuán)隊中，向軟件本身添加惡意代碼。但Sügis說，他們也可能毒害訓(xùn)練數(shù)據(jù)、微調(diào)或權(quán)重。

“黑客可能會使用惡意代碼示例重新訓(xùn)練模型，從而侵入用戶的基礎(chǔ)設(shè)施，或者用假新聞和錯誤信息來訓(xùn)練它?！?/p>

另一個攻擊媒介是模型的系統(tǒng)提示。

“這通常對用戶是隱藏的，系統(tǒng)提示可能有護(hù)欄或安全規(guī)則，允許模型識別不需要或不道德的行為?！?/p>

她說，專有模型不會透露模型的系統(tǒng)提示，并且訪問這些內(nèi)容可能會讓黑客弄清楚如何攻擊模型。

6、缺少護(hù)欄

一些開源團(tuán)體可能會從哲學(xué)上反對在他們的模型上設(shè)置護(hù)欄，或者他們可能認(rèn)為模型在沒有任何限制的情況下會表現(xiàn)得更好。有些則是專門為惡意目的而創(chuàng)建的。那些想要使用大型語言模型的企業(yè)可能不一定知道他們的模型屬于哪一類。Nortal公司的Sügis表示，目前還沒有獨立機(jī)構(gòu)評估開源AI模型的安全性。她表示，歐洲的《人工智能法案》將要求提供部分此類文件，但其大部分條款要到2026年才會生效。

“我會嘗試獲取盡可能多的文檔，測試和評估模型，并在公司內(nèi)部實施一些防護(hù)措施?！?/p>

7、缺乏標(biāo)準(zhǔn)

用戶驅(qū)動的開源項目通常是基于標(biāo)準(zhǔn)的，因為企業(yè)用戶更喜歡標(biāo)準(zhǔn)和互操作性。事實上，根據(jù)Linux基金會去年發(fā)布的一項針對近500名技術(shù)專業(yè)人士的調(diào)查顯示，71%的人更喜歡開放標(biāo)準(zhǔn)，而只有10%的人更喜歡封閉標(biāo)準(zhǔn)。另一方面，生產(chǎn)專有軟件的企業(yè)可能更愿意讓客戶鎖定在他們的生態(tài)系統(tǒng)中。但如果你期望開源生成式AI都是基于標(biāo)準(zhǔn)的，那你就錯了。

事實上，當(dāng)大多數(shù)人談?wù)揂I標(biāo)準(zhǔn)的時候，他們談?wù)摰氖堑赖?、隱私和可解釋性等問題。這方面有很多工作正在開展，例如去年12月發(fā)布的人工智能管理系統(tǒng)ISO/IEC 42001標(biāo)準(zhǔn)。4月29日，NIST發(fā)布了人工智能標(biāo)準(zhǔn)計劃草案，其中涵蓋了很多內(nèi)容，首先是創(chuàng)建一種用于談?wù)揂I的通用語言，還主要關(guān)注風(fēng)險和治理問題，但在技術(shù)標(biāo)準(zhǔn)方面沒有太多內(nèi)容。

“這是一個令人難以置信的新興領(lǐng)域，”云原生計算基金會首席信息官兼生態(tài)系統(tǒng)負(fù)責(zé)人Taylor Dolezal說?！拔铱吹揭恍﹪@數(shù)據(jù)分類的討論，關(guān)于為訓(xùn)練數(shù)據(jù)、API和提示制定標(biāo)準(zhǔn)格式?！钡侥壳盀橹?，這還只是討論而已。

他說，矢量數(shù)據(jù)庫已經(jīng)有了一個通用的數(shù)據(jù)標(biāo)準(zhǔn)，但還沒有標(biāo)準(zhǔn)的查詢語言。那么自主代理的標(biāo)準(zhǔn)又是如何呢？

“我還沒有看到，但我很想看到，找出一些方法，不僅讓代理們可以執(zhí)行他們的特定任務(wù)，而且還要將這些任務(wù)結(jié)合在一起?！?/p>

他說，創(chuàng)建代理最常用的工具LangChain與其說是一個標(biāo)準(zhǔn)，不如說是一個框架。他說，用戶企業(yè)——即創(chuàng)造標(biāo)準(zhǔn)需求的公司——還沒有準(zhǔn)備好?！按蠖鄶?shù)最終用戶在開始嘗試之前都不知道自己想要什么?！?/p>

相反，他表示，人們更有可能將OpenAI等主要廠商的API和接口視為新的、事實上的標(biāo)準(zhǔn)?！斑@就是我看到的情況?！?/p>

8、缺乏透明度

你可能認(rèn)為開源模型從定義上來說是更加透明的，但情況可能并非總是如此。分析引擎和記分牌平臺Vero AI的首席執(zhí)行官Eric Sydell表示，大型商業(yè)項目可能有更多的資源用于創(chuàng)建文檔。Vero AI最近發(fā)布了一份報告，根據(jù)可見性、完整性、立法準(zhǔn)備、透明度情況等方面對主要的生成式AI模型進(jìn)行評分，谷歌的Gemini和OpenAI的GPT-4排名最高。

“僅僅因為它們是開源的，并不一定意味著它們提供了有關(guān)模型背景及其開發(fā)方式的相同信息，目前，更大型的商業(yè)模型在這方面做得更好?！?/p>

以偏見為例。

“我們發(fā)現(xiàn)排名中前兩個封閉模型有相當(dāng)多的文檔，并投入了時間探索這個問題，”他說。

9、血統(tǒng)問題

開源項目有很多分支是很常見的，但當(dāng)這種情況發(fā)生在AI時代時，你就會面臨傳統(tǒng)軟件所沒有的風(fēng)險。網(wǎng)絡(luò)安全廠商Sonatype的產(chǎn)品高級副總裁Tyler Warde舉例說，一個基礎(chǔ)模型使用了一個有問題的訓(xùn)練數(shù)據(jù)集，有人從中創(chuàng)建了一個新模型，那么新模型就會繼承這些問題。

“這個模型會有很多黑匣子方面的內(nèi)容，”他說。

事實上，這些問題可能會追溯到幾個級別，并且不會在最終模型的代碼中可見。當(dāng)一家企業(yè)下載模型供自己使用時，模型就會進(jìn)一步從原始來源中刪除。最初的基本模型可能已經(jīng)解決了問題，但是，根據(jù)透明度和上下游溝通的程度，開發(fā)最后一個模型的開發(fā)人員甚至可能不知道問題得到了修復(fù)。

10、新的影子IT

那些使用開源組件作為軟件開發(fā)過程一部分的企業(yè)，擁有適當(dāng)?shù)牧鞒虂韺彶閹觳⒋_保組件是最新的。他們確保項目得到良好的支持，安全問題得到處理，并且軟件具有適當(dāng)?shù)脑S可條款。

然而，對于生成式AI，負(fù)責(zé)審查的人可能不知道要關(guān)注什么。最重要的是，生成式AI項目有時是不符合標(biāo)準(zhǔn)軟件開發(fā)流程的，可能來自數(shù)據(jù)科學(xué)團(tuán)隊或臭鼬工廠。開發(fā)人員可能會下載模型來玩，最終得到更廣泛的使用?；蛘?，企業(yè)用戶自己可能會遵循在線教程并設(shè)置自己的AI，完全繞過IT。

生成式AI的最新進(jìn)展——自主代理，有可能將巨大的力量交給這些系統(tǒng)，將這種影子IT的潛在風(fēng)險提高到一個新的高度上。

Corelight公司開源高級總監(jiān)Kelley Misata表示：“如果您打算進(jìn)行試驗，請創(chuàng)建一個容器，以安全的方式進(jìn)行試驗。”她說，這應(yīng)該屬于公司風(fēng)險管理團(tuán)隊的責(zé)任，而CIO應(yīng)該確保開發(fā)人員和整個企業(yè)了解這個流程。

“他們是最有能力塑造文化的人，讓我們充分利用開源提供的創(chuàng)新和所有偉大之處，但同時要睜大眼睛去探索?！?/p>

兩全其美？

一些公司正在尋求開源的低成本、透明度、隱私和控制時，也希望有廠商提供治理、長期可持續(xù)性和支持。在傳統(tǒng)的開源世界中，有很多廠商這樣做，例如Red Hat、MariaDB、Docker、Automattic等。

“他們?yōu)榇笮推髽I(yè)提供一定程度的安全保障，”AArete公司數(shù)據(jù)科學(xué)和分析副總裁Priya Iragavarapu表示?！斑@幾乎是降低風(fēng)險的一種方式?！?/p>

她表示，在生成式AI領(lǐng)域，此類廠商并不多，但情況正在開始發(fā)生變化。

責(zé)任編輯：龐桂玉來源：至頂網(wǎng)

CIO 生成式AI 開源

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營