突破技術(shù)難題,尚躍智能布局人工智能數(shù)據(jù)流轉(zhuǎn)開放生態(tài)!
“尚躍智能”科研團(tuán)隊(duì)計(jì)劃推出“數(shù)據(jù)可視化”“數(shù)據(jù)可流轉(zhuǎn)化”的開放型數(shù)據(jù)流轉(zhuǎn)平臺(tái)。隨著大數(shù)據(jù)和人工智能技術(shù)的發(fā)展,數(shù)據(jù)成為了當(dāng)今社會(huì)最有價(jià)值的資源之一。但同時(shí)在數(shù)據(jù)的利用過程中,如何兼顧數(shù)據(jù)安全與隱私保護(hù)仍然是一個(gè)待解決的問題?;跀?shù)據(jù)隱私的產(chǎn)品應(yīng)運(yùn)而生,通過分布式機(jī)器學(xué)習(xí)技術(shù),實(shí)現(xiàn)了在保護(hù)用戶隱私的同時(shí)挖掘數(shù)據(jù)價(jià)值。
目前,該公司團(tuán)隊(duì)已準(zhǔn)備推出開放服務(wù)平臺(tái)1.0、AIGC智能數(shù)據(jù)生成平臺(tái),并整合產(chǎn)學(xué)研用各方資源搭建人工智能數(shù)據(jù)流轉(zhuǎn)開放生態(tài),探索通用人工智能數(shù)據(jù)流轉(zhuǎn)產(chǎn)業(yè)化路徑。
以下為尚立卓的演講實(shí)錄:
大家上午好!我是數(shù)據(jù)流轉(zhuǎn)平臺(tái)負(fù)責(zé)人尚立卓。
首先解釋一下,我個(gè)人是大數(shù)據(jù)和計(jì)算機(jī)應(yīng)用專業(yè)的理科出身,從事的是數(shù)據(jù)標(biāo)注業(yè)務(wù)的研究。往年一直在人工智能領(lǐng)域深耕和挖掘,在大模型到來之后,我和我的團(tuán)隊(duì)提出了數(shù)據(jù)可視化,數(shù)據(jù)可交易化的想法,也參與過一些大模型項(xiàng)目,今天我作為一個(gè)人工智能領(lǐng)域的參與者,跟大家分享一下開放型數(shù)據(jù)流轉(zhuǎn)平臺(tái)相關(guān)的情況。
一、大模型目前正在面臨非常大的制約
自從各大 AIGC 橫空出世之后,大型語(yǔ)言模型(LLM)相關(guān)的研究與應(yīng)用也層出不窮,盡管這些技術(shù)能夠?yàn)槲覀兲峁└悄?、精?zhǔn)和便利的信息和服務(wù),但也帶來了一系列的難題和風(fēng)險(xiǎn)。
大模型面對(duì)的挑戰(zhàn)主要可以分為三大類:“設(shè)計(jì)”、“行為”和“科學(xué)”,其中,大模型的“設(shè)計(jì)”與部署前的決策有關(guān),在部署過程中會(huì)出現(xiàn)“行為”的挑戰(zhàn),而“科學(xué)”的挑戰(zhàn)則阻礙了研究大模型的學(xué)術(shù)進(jìn)步。
挑戰(zhàn) 1:難以理解的數(shù)據(jù)集
由于各團(tuán)隊(duì)在擴(kuò)展預(yù)訓(xùn)練的數(shù)據(jù)量,隨著現(xiàn)如今預(yù)訓(xùn)練數(shù)據(jù)集規(guī)模的擴(kuò)大,個(gè)人難以完整閱讀和檢查整個(gè)文檔的質(zhì)量。
如圖所示,近年來預(yù)訓(xùn)練數(shù)據(jù)集變得不可控,因?yàn)樗鼈兊拇笮『投鄻有匝杆僭鲩L(zhǎng),而并非所有的數(shù)據(jù)集都是公開可用的。
因此,當(dāng)GPT發(fā)布之后,我們就認(rèn)為數(shù)據(jù)和知識(shí)必將是一個(gè)未來的方向,我們現(xiàn)在也看到大多數(shù)大模型已經(jīng)處于“學(xué)識(shí)淵博”的狀態(tài)不知道該去學(xué)習(xí)什么了。
挑戰(zhàn) 2:對(duì)分詞器的依賴
大語(yǔ)言模型的訓(xùn)練和運(yùn)行通常依賴于特定的分詞器,這可能對(duì)其性能和適應(yīng)性產(chǎn)生影響。
分詞(Tokenization)是將一系列單詞或字符拆分為較小單元(即 token)的過程,以便輸入模型。其中一種常見的分詞方法是子詞分詞(subword tokenization),將單詞分解為子詞或 WordPieces。這樣做的目的是有效處理模型詞匯表中的罕見和未登錄詞匯,同時(shí)限制每個(gè)序列的 token 數(shù)量,以減少計(jì)算復(fù)雜性。子詞分詞器通常通過無監(jiān)督訓(xùn)練來構(gòu)建詞匯表,并可選地使用合并規(guī)則以提高對(duì)訓(xùn)練數(shù)據(jù)的編碼效率。
然而,分詞的必要性也存在一些缺點(diǎn):
1;不同語(yǔ)言傳達(dá)相同信息所需的 token 數(shù)量差異很大,這可能導(dǎo)致基于 token 數(shù)量計(jì)費(fèi)的 API 語(yǔ)言模型在許多受支持的語(yǔ)言中過度收費(fèi)且結(jié)果不佳,特別是在這些 API 在本身就較不可負(fù)擔(dān)的地區(qū)使用。
2;分詞器和預(yù)訓(xùn)練語(yǔ)料庫(kù)之間的不一致性可能導(dǎo)致錯(cuò)誤 token,進(jìn)而導(dǎo)致模型行為異常。
3;不同語(yǔ)言的分詞方案也面臨一些挑戰(zhàn),特別是對(duì)于非空格分隔的語(yǔ)言如中文或日文。現(xiàn)有的子詞分詞方法主要是貪婪算法,試圖以盡可能高效的方式編碼語(yǔ)言,從而導(dǎo)致對(duì)較多語(yǔ)言共享的子詞的偏好,不利于低資源語(yǔ)言的 token。
4;此外,分詞器會(huì)帶來計(jì)算負(fù)擔(dān)、語(yǔ)言依賴性、處理新詞、固定詞匯表大小、信息丟失和人類可解釋性等多個(gè)挑戰(zhàn)。
挑戰(zhàn) 3:高昂的預(yù)訓(xùn)練成本
大型語(yǔ)言模型的訓(xùn)練需要大量的計(jì)算資源和時(shí)間,這可能會(huì)對(duì)其廣泛應(yīng)用產(chǎn)生限制。
訓(xùn)練 LLM 的主要消耗是在預(yù)訓(xùn)練過程中,需要數(shù)十萬個(gè)計(jì)算小時(shí)、數(shù)百萬元的成本,以及相當(dāng)于數(shù)個(gè)普通美國(guó)家庭年度能源消耗量的能量。而近期提出的縮放定律認(rèn)為,模型性能隨著模型大小、數(shù)據(jù)集大小和訓(xùn)練中使用的計(jì)算量呈冪律關(guān)系,這種不可持續(xù)的情況被稱為“紅色 AI”。
為了解決這些問題,有兩條研究路線:
1:計(jì)算最優(yōu)訓(xùn)練方法:通過學(xué)習(xí)經(jīng)驗(yàn)性的“縮放定律”,以實(shí)現(xiàn)在給定計(jì)算預(yù)算下最大化訓(xùn)練效率;
2:預(yù)訓(xùn)練目標(biāo):如圖所示,利用各種目標(biāo)進(jìn)行自監(jiān)督訓(xùn)練,其中不同的預(yù)訓(xùn)練目標(biāo)會(huì)影響模型的數(shù)據(jù)效率和所需迭代次數(shù)。
此外,還有其他研究方向,如并行策略、層疊模型、遞增批量大小和最新權(quán)重平均等,這些方法在提高模型性能和減少計(jì)算成本方面具有一定效果。
1:預(yù)訓(xùn)練目標(biāo)的選擇包括語(yǔ)言建模、掩碼語(yǔ)言建模、前綴語(yǔ)言建模、連續(xù)區(qū)間損壞和混合去噪等。
2:并行策略是解決訓(xùn)練和推理中巨大 LLM 規(guī)模的常見方法,其中模型并行(model parallelism)和流程并行(pipeline parallelism)是兩種常見的策略。
所以,如何減少大模型的訓(xùn)練成本非常關(guān)鍵,直接影響到了大模型未來的發(fā)展空間和生存狀態(tài),我們的數(shù)據(jù)流轉(zhuǎn)中心可以解決絕大多數(shù)大模型訓(xùn)練所需的數(shù)據(jù)和知識(shí)數(shù)據(jù)和知識(shí)。
二、人工智能過不去的“坎”
我和我團(tuán)隊(duì)起初在有這個(gè)想法的時(shí)候,就一直在做市場(chǎng)調(diào)研并且在考慮應(yīng)該如何設(shè)計(jì),將不同的數(shù)據(jù)集導(dǎo)入在一個(gè)平臺(tái)里面供市場(chǎng)上有需求的的大模型公司進(jìn)行訓(xùn)練學(xué)習(xí)。我在晚上休息的時(shí)候看到周鴻祎老師的視頻啟發(fā)到了我。
他說道:大模型之所以能有今天的能力最關(guān)鍵的還是要把人類產(chǎn)生的知識(shí)要訓(xùn)練進(jìn)去,要教給他用但是在2021年訓(xùn)練GPT4的時(shí)候就已經(jīng)耗盡了他們能找到的所有關(guān)于人類的文本知識(shí)。
也正是因?yàn)橹芾蠋煹倪@句話堅(jiān)定了我們要開發(fā)制造數(shù)據(jù)流轉(zhuǎn)平臺(tái)的信心。我們提出的數(shù)據(jù)流轉(zhuǎn)中心和數(shù)據(jù)可視化就是要把目前人類所認(rèn)知到的和未被市場(chǎng)商業(yè)化的數(shù)據(jù)給結(jié)合起來形成一個(gè)數(shù)據(jù)倉(cāng)庫(kù)集中起來,進(jìn)而滿足各種各樣大模型的數(shù)據(jù)和知識(shí)需求。
三、打造開放服務(wù)平臺(tái) 1.0,做到數(shù)據(jù)流轉(zhuǎn)合規(guī)化
數(shù)據(jù)合規(guī)一詞,已經(jīng)越來越被大眾所熟知并認(rèn)可,其中涵蓋的合規(guī)內(nèi)容很多,從全生命周期的角度,就包括收集合規(guī)、存儲(chǔ)合規(guī)、使用合規(guī)、流轉(zhuǎn)合規(guī)等等。根據(jù)我們的觀察,流轉(zhuǎn)階段是目前普遍最不受重視的領(lǐng)域,例如,隨便將個(gè)人信息/數(shù)據(jù)發(fā)在微信群、沒有對(duì)接收方的數(shù)據(jù)處理行為進(jìn)行監(jiān)管等,更別提簽訂合同明確各方的權(quán)利義務(wù)了。但事實(shí)上,數(shù)據(jù)流轉(zhuǎn),可能是除了收集之外,離我們生活最近的一環(huán)。只要稍加留意,就會(huì)發(fā)現(xiàn),數(shù)據(jù)流轉(zhuǎn)的場(chǎng)景到處都是。例如,某寶上購(gòu)物,買家信息先是給到平臺(tái),平臺(tái)再給到商家;再如,代發(fā)工資,公司會(huì)將財(cái)務(wù)數(shù)據(jù)給到銀行,等等。更何況,生產(chǎn)要素要最大化的發(fā)揮出價(jià)值,必須要充分的流動(dòng)起來,從這個(gè)角度看,數(shù)據(jù)流動(dòng)的合規(guī)化可能是數(shù)據(jù)合規(guī)鏈條中最重要的一環(huán)。那么數(shù)據(jù)流動(dòng)如何做到合規(guī)呢?
1:明確合規(guī)紅線。我們會(huì)基于風(fēng)險(xiǎn)維度的審查思路,梳理法律法規(guī)的相關(guān)要求以及結(jié)合企業(yè)內(nèi)部的合規(guī)管理要求,設(shè)定合規(guī)審查紅線,并將其作為合規(guī)審查的優(yōu)先項(xiàng);當(dāng)出現(xiàn)觸發(fā)合規(guī)審查紅線的情形,則應(yīng)拒絕接入相關(guān)數(shù)據(jù),實(shí)現(xiàn)明確合規(guī)底線,提高審查效率的效果。合規(guī)審查紅線可以根據(jù)數(shù)據(jù)源(即出售方)類型、數(shù)據(jù)類型、數(shù)據(jù)收集手段等方面予以全面考量。
2:數(shù)據(jù)來源的分類分級(jí)。在推進(jìn)數(shù)據(jù)合規(guī)審查工作過程中,建立數(shù)據(jù)來源分類分級(jí)審查規(guī)則,風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)和可結(jié)合采購(gòu)業(yè)務(wù)場(chǎng)景、數(shù)據(jù)源的情況等予以綜合確定。例如數(shù)據(jù)源類型、數(shù)據(jù)主體類型、數(shù)據(jù)類型、數(shù)據(jù)來源業(yè)務(wù)場(chǎng)景、數(shù)據(jù)應(yīng)用業(yè)務(wù)場(chǎng)景等因素都會(huì)對(duì)數(shù)據(jù)來源合規(guī)審查的風(fēng)險(xiǎn)等級(jí)判斷產(chǎn)生影響;其中,對(duì)于高風(fēng)險(xiǎn)數(shù)據(jù)源應(yīng)當(dāng)予以審慎審查。
3: 實(shí)現(xiàn)穿透審查。數(shù)據(jù)來源的合規(guī)審查應(yīng)當(dāng)堅(jiān)持穿透性原則,對(duì)于多主體間流轉(zhuǎn)、數(shù)據(jù)處理活動(dòng)復(fù)雜的數(shù)據(jù)源審查應(yīng)當(dāng)穿透至底層數(shù)據(jù),重點(diǎn)關(guān)注收集和提供過程中獲得授權(quán)同意等的完整性、連續(xù)性。例如業(yè)務(wù)交互場(chǎng)景下收集和產(chǎn)生的數(shù)據(jù)是否可以用于其他目的,就需通過審查協(xié)議文本等確認(rèn)數(shù)據(jù)源對(duì)數(shù)據(jù)所享有權(quán)益的具體范圍。
四、服務(wù)于大模型,打造簡(jiǎn)單,優(yōu)質(zhì),低成本的道路
我們?yōu)榇竽P烷_發(fā)高價(jià)值的開放平臺(tái),把無規(guī)律的數(shù)據(jù)提煉為高價(jià)值的數(shù)據(jù)提供給機(jī)器學(xué)習(xí),提供“動(dòng)力來源”,“提供糧食”像石油一樣源源不斷的給大模型輸送。傳播開放數(shù)據(jù)產(chǎn)生的價(jià)值,為大模型的訓(xùn)練提供有價(jià)值的數(shù)據(jù)為跨領(lǐng)域跨行業(yè)應(yīng)用提升開放數(shù)據(jù)的利用建議,幫助用戶突破行業(yè)間的認(rèn)知壁壘,促進(jìn)數(shù)據(jù)應(yīng)用
我們不斷追趕,不斷深耕探索,從數(shù)據(jù)到算力和算法,我們一直在進(jìn)步,公司將會(huì)一直在人工智能領(lǐng)域里鉆研,同時(shí)也希望大家和我們一起共同推動(dòng)人工智能的發(fā)展
謝謝大家!
關(guān)鍵詞:
您可能也感興趣:
為您推薦
中國(guó)紅APP正式上線發(fā)布
第十二屆東亞地方政府會(huì)議將在山東臨沂召開 促進(jìn)東亞地區(qū)交流合作
更多
- 渝湘高鐵重慶至黔江段壩子隧道貫通
- 博時(shí)基金董事長(zhǎng)江向陽(yáng):服務(wù)央國(guó)企高質(zhì)量發(fā)展,構(gòu)建中國(guó)特色...
- 房市股市回暖 人民幣匯率基本穩(wěn)定的市場(chǎng)基礎(chǔ)不斷夯實(shí)
- 前八月全國(guó)一般公共預(yù)算收入增百分之十 民生等重點(diǎn)領(lǐng)域支出...
- 多家金融科技服務(wù)商曬上半年“成績(jī)單”
- 邁上新臺(tái)階 2022年我國(guó)研究與試驗(yàn)發(fā)展經(jīng)費(fèi)投入總量突破3萬億元
- 馬蜂窩十一預(yù)測(cè):國(guó)內(nèi)外長(zhǎng)線目的地?zé)岫蕊j升,家庭親子客群占...
- 廣西南寧:8月30日至年底買預(yù)售商品住房 可提取公積金付首付
更多
- 伊利:以龍頭擔(dān)當(dāng)助力內(nèi)蒙古經(jīng)濟(jì)高質(zhì)量發(fā)展
- 水滴公司:以用戶為中心激發(fā)科技創(chuàng)新動(dòng)能
- 水滴公司:以用戶為中心激發(fā)科技創(chuàng)新動(dòng)能
- 景順長(zhǎng)城四季度策略報(bào)告:經(jīng)濟(jì)持續(xù)修復(fù),指數(shù)大幅下行空間有限
- 陜國(guó)投信托前三季營(yíng)收凈利雙增 計(jì)提資產(chǎn)減值準(zhǔn)備2.71億元
- 全市場(chǎng)規(guī)模最大的中證2000指數(shù)ETF今日重磅上市
- 安寧股份49.8億定增再收問詢函 募投項(xiàng)目實(shí)施可行性引交易所關(guān)注
- 1至8月份全國(guó)餐飲收入同比增長(zhǎng)19.4% 餐飲業(yè)聚焦新需求提升適配性
排行
- 以初心鑄匠心,揚(yáng)子江藥業(yè)集團(tuán)榮獲人民網(wǎng)“人民匠心獎(jiǎng)”
- 董明珠:格力電器創(chuàng)新力榮登COP28,演講點(diǎn)亮中國(guó)制造業(yè)發(fā)展之光
- CBE中國(guó)美容博覽會(huì)開幕在即,諾斯貝爾攜新品彰顯“戰(zhàn)痘”實(shí)力
- 教育賽道未來可期,科大訊飛智慧教育助力孩子個(gè)性化發(fā)展
- 陸金所會(huì)員2.0襲來:多元化升級(jí)用戶權(quán)益,為美好生活賦能
- 明星主播唐笑應(yīng)邀參加首屆中國(guó)國(guó)際消費(fèi)品博覽會(huì)簽約儀式 助...
- 黃河旋風(fēng):超硬材料單晶產(chǎn)品支撐行業(yè)下游產(chǎn)業(yè)發(fā)展
- 重塑IP新場(chǎng)景!鄭州絨言絨語(yǔ)走進(jìn)鄂爾多斯金鼎亨深度探索
- 首屆全國(guó)輔材行業(yè)峰會(huì)暨行業(yè)百?gòu)?qiáng)頒獎(jiǎng)盛典5月18日將在鄭州舉辦
- 荷蘭佳貝艾特——進(jìn)口羊奶粉市場(chǎng)的風(fēng)向標(biāo),營(yíng)養(yǎng)新選擇
最近更新
- 新啟程 展未來 解鎖留學(xué)服務(wù)新助力——Top Academic學(xué)術(shù)未...
- 突破技術(shù)難題,尚躍智能布局人工智能數(shù)據(jù)流轉(zhuǎn)開放生態(tài)!
- 首屆全國(guó)輔材行業(yè)峰會(huì)暨行業(yè)百?gòu)?qiáng)頒獎(jiǎng)盛典5月18日將在鄭州舉辦
- 吉小果品牌水果店干貨分享:如何在縣城開一家水果店
- 一個(gè)沒學(xué)歷、沒背景、沒資源的普通人, 拿什么爭(zhēng)百萬創(chuàng)千萬...
- 光明園迪品牌榮譽(yù)健康官郎朗在中法晚宴演奏《茉莉花》
- 成都一科創(chuàng)園商服項(xiàng)目整體處置
- 瑞浦蘭鈞“動(dòng)儲(chǔ)”雙飛躍,技術(shù)革新?lián)Q來儲(chǔ)能市場(chǎng),這波不虧
- “數(shù)智化”成為大健康產(chǎn)業(yè)新趨勢(shì),秀域發(fā)揮引領(lǐng)作用,大有可為
- ?北汽藍(lán)谷推出環(huán)保智能汽車,為消費(fèi)者提供更多出行選擇
- 智者無畏!Vidda發(fā)布X Ultra系列AI電視和C2系列三色激光投影
- 重慶伊美爾,悅美無疆,實(shí)現(xiàn)從產(chǎn)品質(zhì)量到服務(wù)的全方位突破
- 特美刻「2024上海浪琴環(huán)球馬術(shù)冠軍賽」活動(dòng)圓滿落幕
- 寵胖胖“超級(jí)寵愛·加餐計(jì)劃” | 公益路上步履不停
- 君品談|林毅夫:君子胸懷天下,放眼世界
- 高端新能源出行首選!星紀(jì)元ET給足出行安全感
- 銳舞元?dú)怛?qū)蚊手環(huán) 3Air,再次革新行業(yè)發(fā)展
- 福祥年 | 實(shí)力盡顯,品牌之光!
- 天津大學(xué)愛爾眼科正式引進(jìn)阿托品滴眼液,助力兒童青少年近視防控
- 金融數(shù)據(jù)技術(shù)典范!鏡舟科技榮獲金科創(chuàng)新社解決方案獎(jiǎng)
- 人保全車保是什么?包括哪些內(nèi)容?
- "蔡司,‘質(zhì)'敬明天"線上峰會(huì)醫(yī)療行業(yè)主題日探尋企業(yè)破局之道
- 至高5萬元補(bǔ)貼來襲,歐拉閃電貓約你相“惠”五月
- 會(huì)議獎(jiǎng)勵(lì)旅游甄選目的地——泰國(guó)
- 618重磅商家利好!史上最強(qiáng)高額補(bǔ)貼!阿里媽媽為不同商家劃出...
- ?北汽新能源的創(chuàng)新驅(qū)動(dòng)和初心堅(jiān)守,綠色、便捷、智慧的出行生活
- 萬信至格酒店麗水紫金花園店開業(yè) 詮釋精致居停新體驗(yàn)
- 國(guó)內(nèi)首家兒童腫瘤放射治療科簽約啟動(dòng)
- 百利好環(huán)球:解析網(wǎng)絡(luò)詐騙新動(dòng)向
- ?北汽極狐創(chuàng)造品質(zhì)出行新標(biāo)桿,極狐阿爾法T5引領(lǐng)電動(dòng)車市場(chǎng)
今日要聞
- 突破技術(shù)難題,尚躍智能布局人工智能數(shù)據(jù)流轉(zhuǎn)開放生態(tài)!
- 新啟程 展未來 解鎖留學(xué)服務(wù)新助力——Top Academic學(xué)術(shù)未來邀你頂峰相見
- 首屆全國(guó)輔材行業(yè)峰會(huì)暨行業(yè)百?gòu)?qiáng)頒獎(jiǎng)盛典5月18日將在鄭州舉辦
- 吉小果品牌水果店干貨分享:如何在縣城開一家水果店
- “易”補(bǔ)到位!易至汽車響應(yīng)“以舊換新”政策,至高補(bǔ)貼30000元
- 成都一科創(chuàng)園商服項(xiàng)目整體處置
- 瑞浦蘭鈞“動(dòng)儲(chǔ)”雙飛躍,技術(shù)革新?lián)Q來儲(chǔ)能市場(chǎng),這波不虧
- “數(shù)智化”成為大健康產(chǎn)業(yè)新趨勢(shì),秀域發(fā)揮引領(lǐng)作用,大有可為
- ?北汽藍(lán)谷推出環(huán)保智能汽車,為消費(fèi)者提供更多出行選擇
- 智者無畏!Vidda發(fā)布X Ultra系列AI電視和C2系列三色激光投影