彩云科技發(fā)布基于DCFormer架構(gòu)通用大模型云錦天章
11月13日,彩云科技在北京總部與媒體進行一場主題為“From Paper to App”的溝通會。會上,彩云科技CEO袁行遠,就通用大模型未來進化之路,與人工智能的落地場景等熱點話題進行了交流,并正式推出了首款基于DCFormer架構(gòu)開發(fā)的通用大模型云錦天章,與此同時,彩云科技旗下AI RPG平臺彩云小夢,也成為首款基于DCFormer架構(gòu)開發(fā)的AI產(chǎn)品。
早在2017年,谷歌發(fā)布《Attention Is All You Need》論文,首次提出Transformer架構(gòu),掀開了人工智能自然語言處理(NLP)領域發(fā)展的全新篇章。Transformer架構(gòu)作為神經(jīng)網(wǎng)絡學習中最重要的架構(gòu),成為后來席卷全球的一系列通用大模型如ChatGPT、Gemini的底層技術支撐。而提升Transformer的運行效率也成為人工智能領域的研究熱點,2024年4月,谷歌最近一次更新了Transformer架構(gòu),提出了Mixture-of-Depths(MoD)方法,使得訓練后采樣過程中提速50%,成為Transformer架構(gòu)提速升級的又一重要事件。
同樣在今年,一家來自國內(nèi)的人工智能企業(yè)彩云科技,在國際機器學習領域的頂級會議ICML(國際機器學習大會)上,發(fā)布全新大模型論文《Improving Transformers with Dynamically Composable Multi-Head Attention》。在該論文中,彩云科技團隊首次發(fā)布DCFormer架構(gòu),并在基于DCFormer打造的模型DCPythia-6.9B上,實現(xiàn)了在預訓練困惑度和下游任務評估上都優(yōu)于開源Pythia-12B。這意味著,DCFormer模型在性能上,實現(xiàn)了對Transformer模型1.7-2倍的提升。
只有模型效率和智能度提升才能實現(xiàn)真正的AGI
溝通會現(xiàn)場,袁行遠首先向參會者展示了一個ChatGPT o1的問答:“假設ChatGPT4每天響應用戶約2億個請求,消耗超過50萬千瓦時的電力。假設全球網(wǎng)絡都使用ChatGPT作為訪問入口,ChatGPT每天消耗多少電力?另外按照這個速度發(fā)展下去,到2050年全球人工智能的耗電量會達到目前地球發(fā)電能力的多少倍?”ChatGPT o1給出的答案是,“到2050年,全球人工智能的耗電量可能會達到目前地球發(fā)電能力的8倍”。
“Scaling Law告訴我們,隨著算力的提升,模型更大、數(shù)據(jù)更多,模型效果會越來越好,但與之相應的,能耗也會越來越高,在Scaling Law失效,人工智能實現(xiàn)之前,或許我們地球的能源就已經(jīng)無法支撐了。”袁行遠表示,“沒有效率的提升,AI就是鏡花水月。”
彩云科技團隊構(gòu)建DCFormer框架,提出可動態(tài)組合的多頭注意力(DCMHA),替換Transformer核心組件多頭注意力模塊(MHA),解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據(jù)輸入動態(tài)組合,從根本上提升了模型的表達能力,由此實現(xiàn)了對Transformer架構(gòu)1.7—2倍的性能提升。
今年的ICML會議上,彩云科技團隊的3篇論文,在錄用平均分為4.25-6.33的情況下,獲得平均7分的高分,并成為國內(nèi)唯二受邀參加維也納ICML2024登臺演講的企業(yè),另一家則是華為。
袁行遠表示:我們的工作表明,Transformer架構(gòu)距離“理想模型架構(gòu)”還有很大的提升空間,除了堆算力堆數(shù)據(jù)的“大力出奇跡”路線,模型架構(gòu)創(chuàng)新同樣大有可為。往小了說,在大模型領域,利用效率更高的模型架構(gòu),小公司也可以在與世界頂級人工智能企業(yè)的對抗中取得優(yōu)勢。往大了說,模型效率的提升,可以有效地降低人工智能升級迭代的成本,加速AI時代的到來。
云錦天章問世首個基于DCFormer架構(gòu)的通用大模型
作為國內(nèi)最早做LLM(大語言模型)的公司之一,彩云科技在2017年就已經(jīng)開始做NLP和大模型方面的工作。目前,彩云科技旗下有彩云天氣、彩云小夢、彩云小譯三款面向C端用戶的AI產(chǎn)品,是國內(nèi)為數(shù)不多能夠?qū)崿F(xiàn)盈利的人工智能公司。
“世界最強的小說續(xù)寫通用模型。”溝通會上,袁行遠向大家展示了首個基于DCFormer架構(gòu)的通用大模型云錦天章。“這個成語是比喻文章極為高雅、華美,和我們的大模型想要實現(xiàn)的效果有共通之處。”袁行遠介紹,云錦天章可以實現(xiàn)在虛構(gòu)世界觀的基礎上,賦予小說人物編程、數(shù)學等基礎能力,可以高速針對大量文字進行擴寫、縮寫,針對文章風格進行大容量更換,同時兼具其他模型的問答、數(shù)學、編程等基礎能力。
而在應用端,擁有四百萬用戶的彩云小夢,也迎來了基于全新DCFormer架構(gòu)的V.3.5版本。與之前的版本相比,彩云小夢V3.5整體流暢性和連貫性提升了20%,支持前文長度由2000字提升至10000字,故事背景設定最長長度高達10000字。“這意味著,在故事創(chuàng)作或者與人工智能對話中,人工智能能夠記住之前發(fā)生的事情,記住之前故事里發(fā)生的細節(jié),人物記得自己明確的目標,并且會根據(jù)劇情及時進行反思修正。在做到自主創(chuàng)作的同時,發(fā)散性收斂,不會天馬行空,人物性格前后一致,故事邏輯性更強。”
“深度對話,超長記憶,邏輯清晰。”袁行遠總結(jié)彩云小夢V3.5的特征,“我們的目標是為用戶打造指尖伴侶定制夢境。”袁行遠表示,彩云小夢的用戶單次使用時長,累計使用時長在同類產(chǎn)品中都處于領先的地位,“對話超過400句,你會發(fā)現(xiàn)彩云小夢真正的魅力。”
袁行遠介紹,公司接下來將繼續(xù)加大對DCFormer的研究和投入:“一方面有打破‘國外做技術層,國內(nèi)做應用層’刻板印象的情懷所在,一方面也是為公司自有產(chǎn)品應對市場競爭,實現(xiàn)快速迭代升級和能力領先的現(xiàn)實需要。”
您可能也感興趣:
為您推薦
中國紅APP正式上線發(fā)布
第十二屆東亞地方政府會議將在山東臨沂召開 促進東亞地區(qū)交流合作
(鄉(xiāng)村行·看振興)山西柳林依托“數(shù)商興農(nóng)”打造鄉(xiāng)村e鎮(zhèn) 電商交易9個月達3.5億元
排行
- 秘魯流行語與中國有關?太平洋彼岸的這個港口不一般
- 年終獎2022年起并入當年綜合所得計算繳納個稅
- 中國鐵路春運目標順利實現(xiàn),客貨運量同比雙增
- 我國內(nèi)貿(mào)航運企業(yè)聯(lián)手共創(chuàng)港航服務“生態(tài)圈”
- 多家機構(gòu)預測:2月份CPI同比或仍處于負區(qū)間
- “十四五”期間,中國或?qū)⑦~入高收入國家行列
- 廣州發(fā)布“國際人才自由港10條”,實施“揭榜掛帥”制
- 國家級經(jīng)開區(qū)再獲利好 利用外資愈趨多元
- 5G時代,該換手機了
- 河北實施農(nóng)村電網(wǎng)鞏固提升工程,年內(nèi)完成1000個美麗鄉(xiāng)村電網(wǎng)改造
最近更新
- 第八屆材料基因工程高層論壇福建寧德舉辦
- 彩云科技發(fā)布基于DCFormer架構(gòu)通用大模型云錦天章
- 春睡畫院新聘畫家70余幅作品亮相廣州
- 從地理題中打開新疆,咋還邊做題邊流口水呢?
- 青海海東:多條政策措施落地 助房產(chǎn)市場持續(xù)“升溫”
- 貴州“最美農(nóng)村路”:縮短城鄉(xiāng)距離 帶動旅游產(chǎn)業(yè)發(fā)展
- “鄉(xiāng)村給城市引流”:“瓷海明珠”照亮古村文旅
- 秘魯青年:傳統(tǒng)與現(xiàn)代融合的北京讓人著迷
- 《中國大眾糖尿病認知調(diào)查報告》“出爐”:公眾對糖尿病認識...
- 強冷空氣“到貨”新疆 部分列車停運
- 秘魯流行語與中國有關?太平洋彼岸的這個港口不一般
- 約克VRF中央空調(diào)天氟地水/天氟熱水跨界煥新,打造理想冬日養(yǎng)...
- 2024年四川省創(chuàng)新創(chuàng)業(yè)公共服務專項行動 即將在攀枝花市舉行
- 算力存力Buff都疊滿,至強6最強形態(tài)現(xiàn)身!
- 數(shù)字文旅產(chǎn)業(yè)(杭州)聯(lián)盟成立,加速打造數(shù)字文旅產(chǎn)業(yè)新生態(tài)
- 杭州遞出“數(shù)字文旅第一城”新名片
- 杭州市數(shù)字文旅產(chǎn)業(yè)發(fā)展大會召開 數(shù)字文旅產(chǎn)業(yè)(杭州)聯(lián)盟...
- 錨定打造“數(shù)字文旅第一城”,杭州市召開數(shù)字文旅產(chǎn)業(yè)發(fā)展大會
- 新發(fā)現(xiàn)20余條水壩 良渚遺址揭示水利系統(tǒng)完整結(jié)構(gòu)
- 福建永定:15分鐘的“小美好” 讓學生課間“玩起來”
- 在華逐綠,西門子能源以合作促低碳轉(zhuǎn)型
- 云南羅平:深耕小黃姜全產(chǎn)業(yè)鏈 提升品牌競爭力
- 中國國家青少年高爾夫球集訓隊在上海成立
- 立冬后暖意融融 成都“香腸一條街”蓄力待旺季
- 在閩畢業(yè)生求職忙 高校直播帶崗多渠道拓就業(yè)
- 專門“追”女孩的樂器怎么演奏?這位布依族老人告訴你
- 免費,微短劇走向精品化的關鍵之鑰
- 快手電商雙11 GMV同比強勁增長 泛貨架商品卡GMV同比增長110%
- 帶全家人體驗中醫(yī)理療!看中醫(yī)藥如何“圈粉”哈薩克斯坦民眾
- 燕莢平臺雙十一競爭優(yōu)勢顯著,成績斐然
今日要聞
- 第八屆材料基因工程高層論壇福建寧德舉辦
- 彩云科技發(fā)布基于DCFormer架構(gòu)通用大模型云錦天章
- 春睡畫院新聘畫家70余幅作品亮相廣州
- 從地理題中打開新疆,咋還邊做題邊流口水呢?
- 青海海東:多條政策措施落地 助房產(chǎn)市場持續(xù)“升溫”
- 貴州“最美農(nóng)村路”:縮短城鄉(xiāng)距離 帶動旅游產(chǎn)業(yè)發(fā)展
- “鄉(xiāng)村給城市引流”:“瓷海明珠”照亮古村文旅
- 秘魯青年:傳統(tǒng)與現(xiàn)代融合的北京讓人著迷
- 《中國大眾糖尿病認知調(diào)查報告》“出爐”:公眾對糖尿病認識水平仍需提升
- 強冷空氣“到貨”新疆 部分列車停運