山東棗莊:下調(diào)住房公積金貸款首付款比例 多子女家庭最高貸款60萬(wàn)
2023-08-25 06:42:07
【資料圖】
谷歌DeepMind于8月21日發(fā)布論文,提出一種使LLM與人類偏好對(duì)齊更簡(jiǎn)單的算法ReST(Reinforced Self-Training)。不同于RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))使用人類反饋改進(jìn)語(yǔ)言模型,ReST通過(guò)生成和使用離線數(shù)據(jù)進(jìn)行訓(xùn)練,從而使得LLM與人類偏好保持一致。研究團(tuán)隊(duì)表示,雖然ReST可用于所有生成任務(wù),但本文的重點(diǎn)是機(jī)器翻譯。研究者在機(jī)器翻譯任務(wù)上進(jìn)行了實(shí)驗(yàn),測(cè)試基準(zhǔn)包括IWSLT 2014、WMT 2020和Web Domain。結(jié)果表明,ReST可以極大地提高翻譯質(zhì)量。
關(guān)鍵詞:
關(guān)于本站 管理團(tuán)隊(duì) 版權(quán)申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息
Copyright © 2005-2023 創(chuàng)投網(wǎng) - www.ossf.org.cn All rights reserved
聯(lián)系我們:39 60 29 14 2@qq.com
皖I(lǐng)CP備2022009963號(hào)-3