比Hugging Face快24倍,伯克利神級(jí)LLM推理系統(tǒng)開源,碾壓SOTA,讓GPU砍半
小羊駝和排位賽的「幕后英雄」
編者按:本文來(lái)自微信公眾號(hào) 新智元(ID:AI_era),作者:桃子 好困 ,創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。
(相關(guān)資料圖)
過(guò)去2個(gè)月,來(lái)自UC伯克利的研究人員給大語(yǔ)言模型們安排了一個(gè)擂臺(tái)——Chatbot Arena。
GPT-4等大語(yǔ)言模型玩家打起了「排位賽」,通過(guò)隨機(jī)battle,根據(jù)Elo得分來(lái)排名。
這一過(guò)程中,每當(dāng)一個(gè)用戶訪問(wèn)并使用網(wǎng)站,就需要同時(shí)讓兩個(gè)不同的模型跑起來(lái)。
他們是如何做到的?
這不,就在今天,UC伯克利重磅開源了世界最快LLM推理和服務(wù)系統(tǒng)vLLM。
簡(jiǎn)之,vLLM是一個(gè)開源的LLM推理和服務(wù)引擎。它利用了全新的注意力算法「PagedAttention」,有效地管理注意力鍵和值。
配備全新算法的vLLM,重新定義了LLM服務(wù)的最新技術(shù)水平:
值得一提的是,「小羊駝」Vicuna在demo中用到的就是FastChat和vLLM的一個(gè)集成。
正如研究者所稱,vLLM最大的優(yōu)勢(shì)在于——提供易用、快速、便宜的LLM服務(wù)。
這意味著,未來(lái),即使對(duì)于像LMSYS這樣計(jì)算資源有限的小型研究團(tuán)隊(duì)也能輕松部署自己的LLM服務(wù)。
項(xiàng)目地址:https://github.com/vllm-project/vllm
現(xiàn)在,所有人可以在GitHub倉(cāng)庫(kù)中使用一個(gè)命令嘗試vLLM了。論文隨后也會(huì)發(fā)布。
性能全面碾壓SOTA今天,這個(gè)由UC伯克利創(chuàng)立的開放研究組織LMSYS介紹道:
「一起來(lái)見證vLLM:Chatbot Arena背后的秘密武器。FastChat-vLLM的集成使LMSYS使用的GPU數(shù)量減少了一半,同時(shí)每天平均提供3萬(wàn)次請(qǐng)求?!?/p>
vLLM的性能具體如何?
UC伯克利團(tuán)隊(duì)將vLLM的吞吐量與最受歡迎的LLM庫(kù)HuggingFace Transformers(HF),以及HuggingFace文本生成推理(TGI),先前的最新技術(shù)水平進(jìn)行了比較。
團(tuán)隊(duì)在兩個(gè)設(shè)置中進(jìn)行評(píng)估:在NVIDIA A10G GPU上運(yùn)行LLaMA-7B模型,在NVIDIA A100 GPU(40GB)上運(yùn)行LLaMA-13B模型。
然后,研究人員從ShareGPT數(shù)據(jù)集中抽樣請(qǐng)求的輸入/輸出長(zhǎng)度。
在實(shí)驗(yàn)中,vLLM的吞吐量比HF高達(dá)24倍,并且比TGI高達(dá)3.5倍。
在每個(gè)請(qǐng)求只需要一個(gè)輸出完成時(shí)的服務(wù)吞吐量。vLLM比HF的吞吐量高出14倍-24倍,比TGI的吞吐量高出2.2倍-2.5倍
在每個(gè)請(qǐng)求需要3個(gè)并行輸出完成時(shí)的服務(wù)吞吐量。vLLM比HF的吞吐量高出8.5倍-15倍,比TGI的吞吐量高出3.3倍-3.5倍
秘密武器:PagedAttention在vLLM中,團(tuán)隊(duì)發(fā)現(xiàn)LLM服務(wù)的性能受到內(nèi)存的限制。
在自回歸解碼過(guò)程中,LLM的所有輸入token都會(huì)生成注意力鍵(key)和值(value)張量,并且這些張量被保留在GPU內(nèi)存中以生成下一個(gè)token。
這些緩存的鍵和值張量通常被稱為KV緩存。KV緩存具有以下特點(diǎn):
1. 內(nèi)存占用大:在LLaMA-13B中,單個(gè)序列的KV緩存占用高達(dá)1.7GB的內(nèi)存。
2. 動(dòng)態(tài)化:其大小取決于序列長(zhǎng)度,而序列長(zhǎng)度高度易變,且不可預(yù)測(cè)。
因此,有效管理KV緩存是一個(gè)重大挑戰(zhàn)。對(duì)此,研究團(tuán)隊(duì)發(fā)現(xiàn)現(xiàn)有系統(tǒng)由于碎片化和過(guò)度保留而浪費(fèi)了60%至80%的內(nèi)存。
用團(tuán)隊(duì)的導(dǎo)師Joey Gonzalez的一句話來(lái)講:GPU內(nèi)存碎片化=慢。
為了解決這個(gè)問(wèn)題,團(tuán)隊(duì)引入了PagedAttention,一種受到操作系統(tǒng)中虛擬內(nèi)存和分頁(yè)經(jīng)典概念啟發(fā)的注意力算法。
與傳統(tǒng)的注意力算法不同,PagedAttention允許在非連續(xù)的內(nèi)存空間中存儲(chǔ)連續(xù)的鍵和值。
具體來(lái)說(shuō),PagedAttention將每個(gè)序列的KV緩存分為若干塊,每個(gè)塊包含固定數(shù)量token的鍵和值。在注意力計(jì)算過(guò)程中,PagedAttention內(nèi)核能夠高效地識(shí)別和提取這些塊。
PagedAttention:KV緩存被分割成塊,這些塊在內(nèi)存中不需要連續(xù)
由于這些塊在內(nèi)存中不需要連續(xù),因此也就可以像操作系統(tǒng)的虛擬內(nèi)存一樣,以更靈活的方式管理鍵和值——將塊看作頁(yè),token看作字節(jié),序列看作進(jìn)程。
序列的連續(xù)邏輯塊通過(guò)塊表映射到非連續(xù)的物理塊。隨著生成新的token,物理塊會(huì)按需進(jìn)行分配。
使用PagedAttention的請(qǐng)求生成過(guò)程示例
PagedAttention將內(nèi)存浪費(fèi)控制在了序列的最后一個(gè)塊中。
在實(shí)踐中,這帶來(lái)了接近最優(yōu)的內(nèi)存使用——僅有不到4%的浪費(fèi)。
而這種內(nèi)存效率的提升,能讓系統(tǒng)將更多的序列進(jìn)行批處理,提高GPU利用率,從而顯著提高吞吐量。
此外,PagedAttention還具有另一個(gè)關(guān)鍵優(yōu)勢(shì):高效的內(nèi)存共享。
比如在并行采樣中,就能從相同的提示生成多個(gè)輸出序列。在這種情況下,提示的計(jì)算和內(nèi)存可以在輸出序列之間共享。
并行采樣的示例
PagedAttention通過(guò)塊表自然地實(shí)現(xiàn)了內(nèi)存共享。
類似于進(jìn)程共享物理頁(yè)的方式,PagedAttention中的不同序列可以通過(guò)將它們的邏輯塊映射到相同的物理塊來(lái)共享塊。
為了確保安全,PagedAttention會(huì)跟蹤物理塊的引用計(jì)數(shù),并實(shí)現(xiàn)了寫時(shí)復(fù)制機(jī)制。
采樣多個(gè)輸出的請(qǐng)求示例生成過(guò)程
PagedAttention的內(nèi)存共享極大減少了復(fù)雜采樣算法(如并行采樣和束搜索)的內(nèi)存開銷,將它們的內(nèi)存使用量減少了高達(dá)55%。這可以將吞吐量提高多達(dá)2.2倍。
總結(jié)而言,PagedAttention是vLLM的核心技術(shù),它是LLM推斷和服務(wù)的引擎,支持各種模型,具有高性能和易于使用的界面。
GitHub上,團(tuán)隊(duì)也介紹了vLLM能夠無(wú)縫支持的HuggingFace模型,包括以下架構(gòu):
- GPT-2(gpt2、gpt2-xl等)
- GPTNeoX(EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b等)
- LLaMA(lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b等)
- OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)
小羊駝和排位賽的「幕后英雄」4月初,UC伯克利學(xué)者聯(lián)手UCSD、CMU等,最先推出了一個(gè)開源全新模型——130億參數(shù)的Vicuna,俗稱「小羊駝」。
從那時(shí)起,Vicuna已在Chatbot Arena為數(shù)百萬(wàn)用戶提供服務(wù)。
最初,LMSYS的FastChat采用基于HF Transformers的服務(wù)后端來(lái)提供聊天demo。
但隨著demo變得越來(lái)越受歡迎,峰值流量猛增了好幾倍,而HF后端也因此成了一個(gè)重大的瓶頸。
為了解決這一挑戰(zhàn),LMSYS與vLLM團(tuán)隊(duì)緊密合作,全力開發(fā)出了全新的FastChat-vLLM集成——通過(guò)將vLLM作為新的后端,來(lái)滿足不斷增長(zhǎng)的需求(最多增加5倍的流量)。
根據(jù)LMSYS內(nèi)部微基準(zhǔn)測(cè)試的結(jié)果,vLLM服務(wù)后端可以實(shí)現(xiàn)比初始HF后端高出30倍的吞吐量。
4月-5月期間,Chatbot Arena的后端已經(jīng)部落了FastChat-vLLM的集成。實(shí)際上,有超過(guò)一半的Chatbot Arena請(qǐng)求都使用FastChat-vLLM集成服務(wù)的
自4月中旬以來(lái),最受歡迎的語(yǔ)言模型,如Vicuna、Koala和LLaMA,都已成功使用FastChat-vLLM集成提供服務(wù)。
FastChat作為多模型聊天服務(wù)前端,vLLM作為推理后端,LMSYS能夠利用有限數(shù)量的GPU(學(xué)校贊助的),以高吞吐量和低延遲為數(shù)百萬(wàn)用戶提供Vicuna服務(wù)。
現(xiàn)在,LMSYS正在將vLLM的使用擴(kuò)展到更多的模型,包括Databricks Dolly、LAION的OpenAsssiant和Stability AI的StableLM等。
vLLM使用教程使用以下命令安裝vLLM(另可查看安裝指南了解更多信息):
vLLM可用于離線推理和在線服務(wù)。要使用vLLM進(jìn)行離線推理,你可以導(dǎo)入vLLM并在Python腳本中使用LLM類:
要使用vLLM進(jìn)行在線服務(wù),你可以通過(guò)以下方式啟動(dòng)與OpenAI API兼容的服務(wù)器:
你可以使用與OpenAI API相同的格式查詢服務(wù)器:
有關(guān)使用vLLM的更多方法,請(qǐng)查看快速入門指南:
https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html
團(tuán)隊(duì)介紹Zhuohan Li
Zhuohan Li是加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)專業(yè)的博士生,研究興趣是機(jī)器學(xué)習(xí)和分布式系統(tǒng)的交叉領(lǐng)域。
在此之前,他在北京大學(xué)獲得了計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,指導(dǎo)老師是王立威和賀笛。
Woosuk Kwon
Woosuk Kwon是加州大學(xué)伯克利分校的博士生,研究興趣是為大語(yǔ)言模型等新興應(yīng)用建立實(shí)用、靈活和高性能的軟件系統(tǒng)。
團(tuán)隊(duì)其他成員包括莊思遠(yuǎn)、盛穎、鄭憐憫、Cody Yu。團(tuán)隊(duì)導(dǎo)師包括Joey Gonzalez,Ion Stoica和張昊。
其中,團(tuán)隊(duì)的大部分成員同時(shí)也是LMSYS成員。
參考資料https://vllm.ai
關(guān)鍵詞:
您可能也感興趣:
今日熱點(diǎn)
為您推薦
煙臺(tái)一中(幸福校區(qū))校園開放日活動(dòng)6月24-25日舉行
文明單位創(chuàng)建巡禮丨聊城市發(fā)展和改革委員會(huì):踐行為民宗旨 培樹文明新風(fēng)
世界微資訊!從化溫泉鎮(zhèn)第二屆荔枝節(jié)開幕
更多
- 個(gè)人指標(biāo)14023個(gè)!海南第56期小客車搖號(hào)將于26日舉行
- 鎮(zhèn)耀寰宇 夢(mèng)縈天賚——鎮(zhèn)賚草原濕地音樂節(jié)搖滾專場(chǎng)演出圓滿成功
- 綠軍升級(jí)內(nèi)線卻失去球隊(duì)文化代言人 斯瑪特的空缺容易填補(bǔ)嗎...
- 當(dāng)前要聞:寶光股份: 公司控股子公司寶光智中目前已自主研發(fā)...
- 保羅:2017-18賽季火箭是我效力過(guò)的最強(qiáng)球隊(duì)
- 如何在Windows 11更新后解決C盤已滿的問(wèn)題?
- 研修日志小學(xué)語(yǔ)文【優(yōu)秀3篇】_環(huán)球熱點(diǎn)
- 越南缺電中國(guó)補(bǔ),他們?nèi)〈袊?guó)產(chǎn)業(yè)鏈?zhǔn)钦姹臼逻€是瞎咋呼?
排行
- 端午節(jié)里的這些中醫(yī)藥文化元素,你了解嗎?
- 碧桂園400億元房地產(chǎn)ABS亮眼
- 北京“3·17”調(diào)控一周年 樓市成交全面萎縮
- 荷蘭農(nóng)場(chǎng)再度暴發(fā)禽流感疫情撲殺逾3萬(wàn)只家禽
- 北京二手房掛牌價(jià)再下降交易量有望“穩(wěn)中有升”
- 云南一村民誤把黑熊當(dāng)狗養(yǎng)
- 中國(guó)海外地產(chǎn)投資逾2500億元 近半買歐洲物業(yè)資產(chǎn)
- 央視主播胡悅鑫:"最帥實(shí)習(xí)生"十年磨一劍褪去青澀
- 華裔女孩為阿爾茨海默癥患者開發(fā)APP
- 廣州向全國(guó)名師發(fā)出“英雄帖”
最近更新
- 比Hugging Face快24倍,伯克利神級(jí)LLM推理系統(tǒng)開源,碾壓SOTA,讓GPU砍半
- 豐澤:一線調(diào)研生態(tài)環(huán)保工作 天天熱議
- 世界動(dòng)態(tài):“老頭樂”加速退場(chǎng) 微型新能源車或成新熱點(diǎn)
- 注意!億田智能將于7月7日召開股東大會(huì)
- 思林杰 股票價(jià)格受宏觀環(huán)境、行業(yè)政策及市場(chǎng)等多種因素的影...
- 貨幣基金爆倉(cāng)的原因是什么 基金爆倉(cāng)會(huì)虧本金嗎_熱門看點(diǎn)
- 中國(guó)最大海上油田累產(chǎn)原油突破5億噸
- 2023山西省司法行政機(jī)關(guān)面向司法行政系統(tǒng)所屬院校司法行政警...
- 上海交通大學(xué)醫(yī)學(xué)院附屬第九人民醫(yī)院專技崗位招聘啟事
- 世界視訊!Konami 的手機(jī)游戲 eFootball 下載量突破 6 億次
- 全球熱議:Arm Wrestle Simulator 代碼 2023 年 6 月
- 國(guó)內(nèi)首套±1200千伏車載式自動(dòng)化直流耐壓試驗(yàn)系統(tǒng)投入使用
- 微軟Windows Hello 改版,選擇是否要繼續(xù)使用你的面部或指紋登錄
- [快訊]寧德時(shí)代:中信建投證券股份有限公司寧德時(shí)代新能源科技...
- 世界微資訊!新加坡政府投資公司加大對(duì)美投資
- 2023中級(jí)經(jīng)濟(jì)師考試《金融》易錯(cuò)題(25)-焦點(diǎn)觀察
- “粽”享端午假期 各地舉辦豐富多彩民俗文化活動(dòng)
- 全球熱議:06月21日逸盛大化PTA為5700元
- 泰山石油:與國(guó)網(wǎng)電動(dòng)汽車、泰安供電公司簽訂戰(zhàn)略合作協(xié)議
- 前沿?zé)狳c(diǎn):北京證監(jiān)局對(duì)中信建投證券股份有限公司采取出具警...
- 電影《消失的她》點(diǎn)映及預(yù)售總票房破4000萬(wàn)-焦點(diǎn)簡(jiǎn)訊
- 【天天熱聞】斯泰蘭蒂斯召回部分進(jìn)口全新大切諾基4xe汽車
- 黃瓜幾月份成熟應(yīng)季上市?_焦點(diǎn)關(guān)注
- 適合在家養(yǎng)的高顏值花-要聞速遞
- 特斯拉FSD入華傳言不斷 我們離放心松開方向盤還很遠(yuǎn)_天天最資訊
- 端午節(jié)里的這些中醫(yī)藥文化元素,你了解嗎?
- 全球快訊:2名中國(guó)公民在美被定罪,外交部:中方堅(jiān)決反對(duì)
- 當(dāng)前報(bào)道:金山區(qū)2023年批次共有產(chǎn)權(quán)保障住房選房工作率先在全...
- 星河地產(chǎn)在廣州南沙落下第13子 3.06億摘東涌鎮(zhèn)一宗宅地-觀察
- 你加息,我偏降息!中國(guó)通脹僅0.2%,美國(guó)只能眼紅,無(wú)奈停止...
今日要聞
- 張萌新劇《閃耀的她》:有錢有娃老公不回家|世界快看點(diǎn)
- 全球微動(dòng)態(tài)丨公主嶺市大榆樹鎮(zhèn)開展安全生產(chǎn)進(jìn)校園活動(dòng)
- 國(guó)網(wǎng)眉山供電公司:老站煥發(fā)“新生機(jī)” 迎峰度夏添保障-天天快看
- 中國(guó)互聯(lián)網(wǎng)協(xié)會(huì):打擊利用惡意投訴非法牟利行為_環(huán)球資訊
- 環(huán)球播報(bào):首家氫能產(chǎn)教融合基地成立 “校地企”聯(lián)合打造首都?xì)淠墚a(chǎn)業(yè)創(chuàng)新高地
- 速讀:41.1℃,北京今天最高溫創(chuàng)了個(gè)紀(jì)錄!明天還可能達(dá)到40℃……
- 神祇很難生育,但唐三一家特能生,這得感謝小舞,兔子賊能生嘛_世界觀天下
- CBC銅金屬一周要聞精選(6.19-6.21)|天天最資訊
- 避暑游如何有“流量”更有“留量”?
- 反轉(zhuǎn)了!熱火競(jìng)爭(zhēng)利拉德,開拓者反報(bào)價(jià)阿德巴約,利拉德終于表態(tài)_天天快播報(bào)