存儲(chǔ)系統(tǒng)如何支持大模型生成式AI
冬瓜哥上次學(xué)習(xí)AI和ML,還是在2019年初。當(dāng)時(shí)其實(shí)是卷積神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)蓬勃發(fā)展期,其主要目的是分類識(shí)別。當(dāng)時(shí)冬瓜哥還做了一個(gè)4小時(shí)的視頻,那真是我見(jiàn)過(guò)的最小白的白也能輕松入門,理清楚最基本的名詞概念關(guān)系的視頻了,沒(méi)有之一。那時(shí)候利用AI生成一些藝術(shù)作品已經(jīng)初見(jiàn)雛形,但是非常不成熟,基本上都是僅供娛樂(lè)。我記得曾經(jīng)至少有兩部科幻電影描述過(guò)(比如《機(jī)械公敵》,《Finch》),也許做夢(mèng)對(duì)于一個(gè)機(jī)器人來(lái)講,是一種超級(jí)進(jìn)化的開(kāi)端。
(資料圖片僅供參考)
生成式AI,AI2.0
時(shí)過(guò)境遷。短短幾年內(nèi),新的不同于傳統(tǒng)分類器的模型Transformer,讓AI再一次革新。以往的RNN在自然語(yǔ)言處理訓(xùn)練方面的并行度不是很好,需要太多通信,處理長(zhǎng)句子時(shí)效率比較低。而Transformer模型從新的維度上解決了這個(gè)問(wèn)題,高并行度讓GPU訓(xùn)練效率大幅提升。這個(gè)過(guò)程,感覺(jué)像極了當(dāng)年分布式系統(tǒng)興起的時(shí)候,大家也是拿著幾篇經(jīng)典論文翻來(lái)覆去的研讀,然后開(kāi)始用開(kāi)源軟件,最后逐漸發(fā)展出自己的技術(shù)。
當(dāng)AI突破了人類語(yǔ)言這道關(guān)卡,后續(xù)就有點(diǎn)一馬平川的感覺(jué)了。因?yàn)槿祟愔R(shí)目前主要儲(chǔ)存在各種語(yǔ)言文本當(dāng)中。再結(jié)合對(duì)圖片、聲音等各種信息的數(shù)字化映射和分析,讓AI能夠運(yùn)行于多模態(tài)模式下,能夠更好的理解字里行間的信息,更精細(xì)化的生成對(duì)應(yīng)的內(nèi)容,走進(jìn)了現(xiàn)實(shí)。
多模態(tài)生成式AI(AI Generated Content,AIGC)是指通過(guò)生成和分析多種模態(tài)的數(shù)據(jù),如文本、圖像、音頻、視頻等,以實(shí)現(xiàn)更加豐富和精準(zhǔn)的智能應(yīng)用。與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,多模態(tài)生成式AI能夠充分利用多種數(shù)據(jù)之間的關(guān)聯(lián)性,提高模型的泛化能力和魯棒性。生產(chǎn)式AI是人工智能從1.0時(shí)代進(jìn)入2.0時(shí)代的重要標(biāo)志,其具備強(qiáng)大的認(rèn)知智能,在搜索引擎、藝術(shù)創(chuàng)作、影音游戲、文本生成、語(yǔ)音生成、圖片生成、視頻生成、代碼生成、虛擬人生成以及金融、教育、醫(yī)療、工業(yè)等領(lǐng)域有著廣闊的應(yīng)用前景。
Gartner預(yù)測(cè),到2023年將有20%的內(nèi)容被AIGC所創(chuàng)建;到2025 年人工智能生成數(shù)據(jù)占比將達(dá)到10%。據(jù)分析師預(yù)測(cè),到2032年,生成式人工智能市場(chǎng)規(guī)模將達(dá)到2,000億美元,占據(jù)人工智能支出總額的約20%,顯著高出當(dāng)前的5%。換言之,未來(lái)十年市場(chǎng)規(guī)模可能每?jī)赡昃蜁?huì)翻一番。
生成式AI的背后是基于行業(yè)上下游對(duì)數(shù)據(jù)進(jìn)行采集、標(biāo)注、訓(xùn)練、推理、歸檔,其特征是數(shù)據(jù)量大、多元數(shù)據(jù)類型復(fù)雜、服務(wù)協(xié)議多樣、性能要求苛刻、要求服務(wù)持續(xù)在線。由于多模態(tài)數(shù)據(jù)具有復(fù)雜性和多樣性,因此多模態(tài)生成式AI需要具備以下特點(diǎn):
跨模態(tài)數(shù)據(jù)融合:能夠?qū)⒉煌B(tài)的數(shù)據(jù)進(jìn)行有效的融合,以提取更豐富的信息。
跨語(yǔ)言理解:能夠理解不同語(yǔ)言之間的語(yǔ)義差異,提高跨語(yǔ)言應(yīng)用的準(zhǔn)確性。
上下文感知:能夠根據(jù)上下文信息進(jìn)行智能推斷和預(yù)測(cè),提高應(yīng)用的場(chǎng)景適應(yīng)能力。
知識(shí)表示:能夠?qū)⒅R(shí)和信息進(jìn)行有效的表示,以支持更高級(jí)別的認(rèn)知和決策。
革新帶來(lái)的新挑戰(zhàn),現(xiàn)有存儲(chǔ)系統(tǒng)還能不能打?
多模態(tài)生成式AI系統(tǒng)本身是一個(gè)大規(guī)模集群,無(wú)論是集中式存儲(chǔ)還是本地直連存儲(chǔ),都早已無(wú)法滿足該系統(tǒng)對(duì)存儲(chǔ)性能和容量的基本需求。另外,以機(jī)械硬盤構(gòu)建的任何存儲(chǔ)系統(tǒng),也根本無(wú)法承擔(dān)生成式AI對(duì)存儲(chǔ)系統(tǒng)帶寬和時(shí)延的要求。總的來(lái)講,生成式AI在存儲(chǔ)方面所面臨的挑戰(zhàn)如下:
大型數(shù)據(jù)集:隨著數(shù)據(jù)和模型規(guī)模的增長(zhǎng),獨(dú)立存儲(chǔ)無(wú)法滿足應(yīng)用需求。因此,解決這些問(wèn)題的分布式存儲(chǔ)解決方案勢(shì)在必行。
歷史數(shù)據(jù)的完整歸檔:在某些場(chǎng)景下,AI集群每天都會(huì)產(chǎn)生大量新的數(shù)據(jù)集,必須將其歸檔為歷史數(shù)據(jù)。這在自動(dòng)駕駛領(lǐng)域尤為重要,道路測(cè)試車輛收集的數(shù)據(jù)(例如雷達(dá)和攝像頭數(shù)據(jù))對(duì)于公司來(lái)說(shuō)是非常有價(jià)值的資產(chǎn)。在這些情況下,獨(dú)立存儲(chǔ)被證明是不夠的,因此分布式存儲(chǔ)成為必要的考慮因素。
小文件和非結(jié)構(gòu)化數(shù)據(jù)過(guò)多:傳統(tǒng)分布式文件系統(tǒng)難以管理大量小文件,導(dǎo)致元數(shù)據(jù)存儲(chǔ)負(fù)擔(dān)過(guò)重。這對(duì)于視覺(jué)模型來(lái)說(shuō)尤其成問(wèn)題。為了解決這個(gè)問(wèn)題,需要一個(gè)針對(duì)小文件存儲(chǔ)進(jìn)行優(yōu)化的分布式存儲(chǔ)系統(tǒng)。這樣既保證了上層訓(xùn)練任務(wù)的高效進(jìn)行,又保證了海量小文件的輕松管理。
云訓(xùn)練數(shù)據(jù)I/O效率低:云模型訓(xùn)練往往采用對(duì)象存儲(chǔ)作為存儲(chǔ)計(jì)算分離架構(gòu)的底層存儲(chǔ)。然而,對(duì)象存儲(chǔ)較差的讀寫性能可能會(huì)導(dǎo)致訓(xùn)練過(guò)程中出現(xiàn)嚴(yán)重的瓶頸。
異構(gòu)數(shù)據(jù)的融合:生成式AI訓(xùn)練模型的數(shù)據(jù)呈現(xiàn)來(lái)源多、格式多的多源異構(gòu)現(xiàn)狀,傳統(tǒng)存儲(chǔ)面向單一數(shù)據(jù)類型設(shè)計(jì),需要以搬移數(shù)據(jù)的方式實(shí)現(xiàn)多協(xié)議訪問(wèn),存儲(chǔ)成為應(yīng)用平臺(tái)的關(guān)鍵瓶頸。
持續(xù)的低延遲與高帶寬:模型訓(xùn)練過(guò)程中,頻繁的從數(shù)據(jù)集取Token,每個(gè)Token一般4字節(jié),實(shí)時(shí)高并發(fā)小IO性能需要極低的延遲;存儲(chǔ)模型Checkpoint時(shí),為Checkpoint數(shù)據(jù)可快速寫入,需要高帶寬。
EB級(jí)大容量存儲(chǔ)需求:越多的數(shù)據(jù)投喂結(jié)果越精準(zhǔn)的工作原理,決定了大模型訓(xùn)練存在深度學(xué)習(xí)網(wǎng)絡(luò)層數(shù)多、連接多、參數(shù)和數(shù)據(jù)集種類復(fù)雜、數(shù)據(jù)量大的特征,隨著模型參數(shù)和數(shù)據(jù)量的快速增長(zhǎng),對(duì)于存儲(chǔ)的大容量和擴(kuò)展需求也迫在眉睫。
數(shù)據(jù)存儲(chǔ)產(chǎn)業(yè)需要進(jìn)行全方位的技術(shù)升級(jí),通過(guò)在多源異構(gòu)融合、數(shù)據(jù)高速傳輸、海量數(shù)據(jù)管理等方面持續(xù)創(chuàng)新,打造專業(yè)的生成式AI存儲(chǔ)產(chǎn)品與解決方案。
塊,文件,對(duì)象,哪種存儲(chǔ)方式最好?
塊存儲(chǔ)
傳統(tǒng)觀點(diǎn)認(rèn)為,低延遲高帶寬場(chǎng)景,使用塊存儲(chǔ)是最佳方案。然而,塊存儲(chǔ)在可擴(kuò)展性方面卻不能令人滿意。AI集群必須在數(shù)據(jù)量、數(shù)據(jù)類型、決策速度,當(dāng)然還有預(yù)算方面進(jìn)行平衡。AI訓(xùn)練環(huán)境對(duì)實(shí)時(shí)運(yùn)行的基于網(wǎng)絡(luò)的推薦引擎提出了不同的要求。塊存儲(chǔ)傳統(tǒng)上非常適合高吞吐量和高I/O工作負(fù)載,其中低延遲非常重要,然而,隨著現(xiàn)代數(shù)據(jù)分析工作負(fù)載(包括人工智能、機(jī)器學(xué)習(xí)甚至數(shù)據(jù)湖)的出現(xiàn),人們發(fā)現(xiàn)傳統(tǒng)的基于塊的平臺(tái)缺乏滿足這些平臺(tái)計(jì)算方面所產(chǎn)生的橫向擴(kuò)展需求的能力。因此,必須采用基于文件和對(duì)象的方法來(lái)支持這些現(xiàn)代工作負(fù)載。
文件和對(duì)象
因此,系統(tǒng)架構(gòu)師更傾向于基于文件或?qū)ο蟮?AI 和 ML 存儲(chǔ)。對(duì)象存儲(chǔ)在構(gòu)建時(shí)考慮到了 PB 級(jí)大容量,并且是按規(guī)模構(gòu)建的,還支持物聯(lián)網(wǎng) (IoT) 等應(yīng)用。對(duì)象存儲(chǔ)在性能方面落后于塊存儲(chǔ)系統(tǒng),盡管隨著更新的高性能對(duì)象技術(shù)的出現(xiàn),差距正在縮小。另外一個(gè)需要考慮的因素是,AI應(yīng)用程序支持的存儲(chǔ)訪問(wèn)接口各不相同,并非所有人工智能、機(jī)器學(xué)習(xí)或分析工具都支持 AWS 的 S3 接口(對(duì)象的事實(shí)標(biāo)準(zhǔn))。
云儲(chǔ)存
云存儲(chǔ)主要是基于對(duì)象的,但為人工智能和機(jī)器學(xué)習(xí)項(xiàng)目提供了其他優(yōu)勢(shì)。其中最主要的是靈活性和較低的前期成本。云存儲(chǔ)的主要缺點(diǎn)是延遲和潛在的數(shù)據(jù)傳輸成本。云存儲(chǔ)對(duì)于基于云的人工智能和機(jī)器學(xué)習(xí)系統(tǒng)來(lái)說(shuō)是一個(gè)不錯(cuò)的選擇,對(duì)于長(zhǎng)期數(shù)據(jù)歸檔來(lái)說(shuō)還是劃算的。
綜上,傳統(tǒng)觀點(diǎn)認(rèn)為,沒(méi)有單一選項(xiàng)可以滿足人工智能、機(jī)器學(xué)習(xí)和分析的所有存儲(chǔ)需求。然而這個(gè)觀點(diǎn)在浪潮信息AS13000這個(gè)老牌分布式存儲(chǔ)系統(tǒng)面前就顯得有點(diǎn)過(guò)于武斷了。
浪潮信息生成式AI存儲(chǔ)解決方案
浪潮信息生成式AI存儲(chǔ)解決方案用一套AS13000融合存儲(chǔ)支撐生成式AI的全階段應(yīng)用,提供全閃、混閃、帶庫(kù)、光盤四種介質(zhì),支持文件、對(duì)象、大數(shù)據(jù)、視頻、塊協(xié)議,可滿足大容量、多協(xié)議共享,百萬(wàn)以上IOPS,100GB以上帶寬,冷數(shù)據(jù)的長(zhǎng)期保存和歸檔。結(jié)合AIGC數(shù)據(jù)處理的五個(gè)階段:數(shù)據(jù)采集、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)訓(xùn)練、數(shù)據(jù)推理和數(shù)據(jù)歸檔,由同一套存儲(chǔ)提供端到端的數(shù)據(jù)流支持流程,滿足面向文本、音頻、圖像、視頻、代碼以及多模態(tài)和全模態(tài)的模型需求。
關(guān)鍵詞:
您可能也感興趣:
- 存儲(chǔ)系統(tǒng)如何支持大模型生成式AI
- 羅克韋爾自動(dòng)化助力奇瑞汽車打造智能網(wǎng)...
- 輕薄高能,品質(zhì)標(biāo)桿!榮耀MagicBook X...
- NASA 攜手IBM 發(fā)布Hugging Face平臺(tái)...
- 大聯(lián)大世平集團(tuán)推出基于NXP產(chǎn)品的電腦機(jī)...
- 丹佛斯傳動(dòng)推出iC2-Micro變頻器功率擴(kuò)展產(chǎn)品
- 聚焦CEE2023|這家公司的麥克風(fēng)降噪技術(shù)...
- 浪潮信息穩(wěn)居中國(guó)全閃存儲(chǔ)市場(chǎng)前二
今日熱點(diǎn)
為您推薦
棗陽(yáng):點(diǎn)亮夜經(jīng)濟(jì) 激發(fā)消費(fèi)新活力
北京市體育局:解除防汛預(yù)警響應(yīng)區(qū)域,可恢復(fù)舉辦各項(xiàng)賽事活動(dòng)
不滿世界杯0出場(chǎng)?女足國(guó)腳引名句感嘆!她曾是亞洲杯絕殺功臣
更多
- 存儲(chǔ)系統(tǒng)如何支持大模型生成式AI
- 羅克韋爾自動(dòng)化助力奇瑞汽車打造智能網(wǎng)聯(lián)超級(jí)工廠
- 輕薄高能,品質(zhì)標(biāo)桿!榮耀MagicBook X Pro系列銳龍版正式發(fā)...
- NASA 攜手IBM 發(fā)布Hugging Face平臺(tái)最大開(kāi)源地理空間AI基礎(chǔ)模型
- 大聯(lián)大世平集團(tuán)推出基于NXP產(chǎn)品的電腦機(jī)箱風(fēng)扇燈光控制方案
- 丹佛斯傳動(dòng)推出iC2-Micro變頻器功率擴(kuò)展產(chǎn)品
- 聚焦CEE2023|這家公司的麥克風(fēng)降噪技術(shù),實(shí)聽(tīng)效果驚人
- 浪潮信息穩(wěn)居中國(guó)全閃存儲(chǔ)市場(chǎng)前二
更多
- 2023廊坊抗洪救援電話匯總(持續(xù)更新)
- 美媒:信用評(píng)級(jí)遭下調(diào)體現(xiàn)美國(guó)政治領(lǐng)導(dǎo)力的失敗
- 健康中國(guó)|暴雨洪水后,做好家庭防霉消毒工作
- 其他流動(dòng)資產(chǎn)包括哪些科目 流動(dòng)資產(chǎn)包括哪些科目
- 豐田汽車在華最大研發(fā)基地將更名
- 爆單!訂單已排到年底!這屆年輕人超愛(ài)“它”→
- 盤前情報(bào)丨韓國(guó)室溫超導(dǎo)團(tuán)隊(duì):論文存在缺陷,已要求下架;央...
- 大屏+小屏+“百城千屏”,總臺(tái)全面展現(xiàn)成都大運(yùn)會(huì)精彩瞬間!
排行
- 存儲(chǔ)系統(tǒng)如何支持大模型生成式AI
- 科技智庫(kù)需要進(jìn)一步加快智庫(kù)成果轉(zhuǎn)化
- 雄安設(shè)立兩年 290家京企“搶灘登陸”
- 女子拽男友公交車方向盤受審 涉嫌危害公共安全罪
- 成都實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略,將挖掘培養(yǎng)高素質(zhì)職工人才
- “人造雪粉”接觸眼睛或被誤食可能有危險(xiǎn)
- 這一年,我們?yōu)榭萍肌俺尺^(guò)的架”真不少
- “四成人不知電商法”該如何破題
- 監(jiān)督搭平臺(tái)信息都上網(wǎng) 打通精準(zhǔn)監(jiān)督‘最后一公里’
- 智能烹飪機(jī),選購(gòu)有講究
最近更新
- 存儲(chǔ)系統(tǒng)如何支持大模型生成式AI
- 理想汽車營(yíng)收破333億 交付量創(chuàng)歷史紀(jì)錄
- 怎么在網(wǎng)上開(kāi)店賣東西(網(wǎng)上賣東西怎么賣)
- 塔爾德利:不會(huì)為盧卡庫(kù)放棄弗拉霍維奇,他擺脫傷病后身價(jià)將上億
- 營(yíng)收和交付創(chuàng)季度新高 理想汽車二季度凈賺23億
- 有話你就說(shuō)!營(yíng)門口多了一個(gè)“吐槽箱”
- 壯大實(shí)體經(jīng)濟(jì) 推動(dòng)高質(zhì)量發(fā)展|桂平主動(dòng)靠前服務(wù) 助企發(fā)展壯大
- 焦作市溫縣:農(nóng)旅融合助力鄉(xiāng)村振興
- OPPO K11首發(fā)手機(jī)回歸
- 搶險(xiǎn)一線勇?lián)?dāng)
- 平安產(chǎn)險(xiǎn)黑龍江分公司助力搶險(xiǎn)救災(zāi)
- 深交所牽手郵儲(chǔ)銀行
- 5家保險(xiǎn)資管公司高層變動(dòng)
- 險(xiǎn)企推進(jìn)北京門頭溝等地車險(xiǎn)理賠
- 長(zhǎng)沙讓地面公交更好銜接軌道交通
- 數(shù)字人民幣助多領(lǐng)域消費(fèi)回升
- 加快一刻鐘便民生活圈建設(shè)
- 新抗真菌分子對(duì)多種感染有效
- EB皰疹病毒候選疫苗動(dòng)物試驗(yàn)顯潛力
- 4老2大2小,一輛兩驅(qū)商務(wù)車,沒(méi)路標(biāo),沒(méi)信號(hào)……一家8口廣東...
- 鳳爪的來(lái)歷?
- 客家話桔紐什么意思?
- 為什么農(nóng)村叫的雞爪黃是一根藤莖植物?
- 家里一般最好吃什么魚(yú)?
- 哪里的魚(yú)最好吃有特色?
- 我科研團(tuán)隊(duì)發(fā)現(xiàn)防治非酒精性脂肪肝新策略
- 164億,華晨集團(tuán)大消息!
- 魅族20 12+256GB今不到3K,除了屏幕和影像,短板確實(shí)不多
- 湖南省永州市2023-08-09 07:18發(fā)布暴雨黃色預(yù)警
- 8月8日基金凈值:交銀趨勢(shì)混合A最新凈值4.3549,跌0.25%
今日要聞
- 存儲(chǔ)系統(tǒng)如何支持大模型生成式AI
- 理想汽車營(yíng)收破333億 交付量創(chuàng)歷史紀(jì)錄
- 搶險(xiǎn)一線勇?lián)?dāng)
- 8月8日基金凈值:交銀趨勢(shì)混合A最新凈值4.3549,跌0.25%
- PayPal高級(jí)副總裁:穩(wěn)定幣目前是區(qū)塊鏈的殺手級(jí)應(yīng)用
- 小米13pro防水怎么樣
- 2023廣東文旅推介大會(huì)系列活動(dòng)9月開(kāi)啟 將發(fā)放第三輪惠民補(bǔ)貼
- 摩托羅拉MotoG14應(yīng)用分身開(kāi)啟方法
- 五福星系列哪個(gè)最搞笑(超級(jí)五福星的影片資料)
- 愛(ài)情唐詩(shī)宋詞精選(唐詩(shī)宋詞精選)