日韩无码专区网站|这里只有免费视频|欧美美女啪啪视频|三级无码系列在线|97在线精品视频|极品一区a在线无码免费一区二区|北条麻妃无码视频|性爱A级免费观看|91久久精品女同|AV不卡一到六区

校園招聘信息
請(qǐng)以中國(guó)出版集團(tuán)的校招通知為準(zhǔn)
全站>新聞中心> 詳情

“格物”新突破 | 中譯語(yǔ)通大規(guī)模多語(yǔ)言互譯機(jī)器翻譯模型發(fā)布,更小參數(shù)規(guī)模,更高翻譯質(zhì)量,覆蓋81個(gè)語(yǔ)種

本部要聞 來(lái)源:中譯語(yǔ)通日期:2024-02-21瀏覽次數(shù):2755

日前,中譯語(yǔ)通“格物”大模型又實(shí)現(xiàn)新突破,GeWuMT-18B模型以機(jī)器翻譯任務(wù)為導(dǎo)向,支持在81個(gè)語(yǔ)種之間互譯,經(jīng)專業(yè)評(píng)測(cè),相較于Meta發(fā)布的NLLB-54B模型,格物僅使用了其三分之一的參數(shù)量規(guī)模,實(shí)現(xiàn)了在以中文為目標(biāo)語(yǔ)言的80個(gè)語(yǔ)種的自動(dòng)評(píng)測(cè)中平均BLEU值提升超過(guò)27%,無(wú)論是翻譯的流暢性還是準(zhǔn)確度,大模型的翻譯結(jié)果質(zhì)量又得到了進(jìn)一步提升。

GeWuMT-18B模型翻譯效果與其他在線翻譯引擎比較,測(cè)評(píng)結(jié)果如下:

圖片1yu.png

圖片2yu.png

GeWuMT-18B模型翻譯效果與準(zhǔn)確度
優(yōu)于其他在線翻譯引擎

GeWuMT-18B機(jī)器翻譯大模型除了在翻譯準(zhǔn)確度上有明顯提升外,對(duì)系統(tǒng)運(yùn)維復(fù)雜度和運(yùn)行的資源需求均有明顯的提升。既往的機(jī)器翻譯引擎每一個(gè)語(yǔ)言方向是一個(gè)單獨(dú)的模型,支持80個(gè)語(yǔ)種到中文的翻譯需要部署80套引擎,大模型實(shí)現(xiàn)了一個(gè)單一模型支持80個(gè)語(yǔ)種到中文的翻譯,大大減少了用戶使用期間運(yùn)維支持的工作難度。GeWuMT-18B大模型可以運(yùn)行在一塊80G顯存的GPU卡上,實(shí)現(xiàn)單機(jī)支持80個(gè)語(yǔ)種同時(shí)運(yùn)行,對(duì)比支持80個(gè)語(yǔ)種的雙語(yǔ)模型在存儲(chǔ)空間和計(jì)算資源消耗上至少節(jié)省了80%,大大降低了運(yùn)行成本。

GeWuMT-18B機(jī)器翻譯大模型實(shí)現(xiàn)了技術(shù)的完全自主可控,擺脫對(duì)國(guó)外商用機(jī)器翻譯模型的依賴,提升了數(shù)據(jù)安全性,尤其是對(duì)國(guó)防軍事、金融、科技等敏感領(lǐng)域意義重大。同時(shí)對(duì)于構(gòu)建自主可控的語(yǔ)言生態(tài)體系,提升國(guó)家文化軟實(shí)力也有著重要意義。大模型針對(duì)特定任務(wù)和語(yǔ)種進(jìn)行定制化訓(xùn)練,翻譯質(zhì)量顯著提升,滿足垂直領(lǐng)域的高精度翻譯需求。

中譯語(yǔ)通團(tuán)隊(duì)深入分析了包括GPT4、Google Gemini、NLLB-54B等在內(nèi)的多個(gè)大模型的成功之處,并在自主可控的機(jī)器翻譯大模型上進(jìn)行了一系列不懈的技術(shù)創(chuàng)新嘗試。對(duì)所用數(shù)據(jù)以及訓(xùn)練方法進(jìn)行優(yōu)化,顯著提升了模型的翻譯能力。

與其他在線翻譯引擎不同,本次中譯語(yǔ)通發(fā)布的GeWuMT-18B模型在訓(xùn)練方法上,采用了基于MoE(混合專家模型)的Transformers encoder-decoder框架,為容納80個(gè)外文語(yǔ)種共設(shè)置了40個(gè)專家,在魯棒性、分布式訓(xùn)練、多語(yǔ)言增量訓(xùn)練等技術(shù)上都取得了一定的突破。基于交叉熵對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行重采樣,確保在每一個(gè)數(shù)據(jù)分片上的訓(xùn)練均有一定的正向收益。再者,訓(xùn)練數(shù)據(jù)也是決定大模型質(zhì)量好壞的關(guān)鍵因素之一,借助中譯語(yǔ)通擁有的國(guó)內(nèi)最大高質(zhì)量平行語(yǔ)料庫(kù)的優(yōu)勢(shì),在百億平行語(yǔ)料和千億單語(yǔ)數(shù)據(jù)庫(kù)中進(jìn)行精選,最終精調(diào)使用了約40億高質(zhì)量平行語(yǔ)料與單語(yǔ)數(shù)據(jù)用于此次新模型的訓(xùn)練。

為了保證質(zhì)量與效能我們使用了多種訓(xùn)練和調(diào)優(yōu)方式:

  • 星環(huán)狀混合專家系統(tǒng)

混合專家系統(tǒng)在訓(xùn)練過(guò)程中,會(huì)有大量時(shí)間開(kāi)銷花費(fèi)在all-to-all通信中,為了進(jìn)一步縮短訓(xùn)練時(shí)間,提升訓(xùn)練效率,中譯語(yǔ)通提出了星環(huán)狀混合專家系統(tǒng)結(jié)構(gòu),在保障模型訓(xùn)練精度的同時(shí),大大降低all-to-all通信?;旌蠈<蚁到y(tǒng)的引入,提升了模型的容量,同時(shí)也利用多語(yǔ)言模型的知識(shí)遷移能力,既能保證資源豐富語(yǔ)種翻譯性能,又能提升資源稀缺語(yǔ)種的翻譯質(zhì)量。

  • 無(wú)監(jiān)督學(xué)習(xí)

GeWuMT-18B模型覆蓋了包括中文在內(nèi)的81個(gè)常用語(yǔ)種,在這些語(yǔ)種中,不乏如古吉拉特語(yǔ)、馬耳他語(yǔ)等低資源的語(yǔ)種,數(shù)據(jù)資源的缺失直接會(huì)使得模型在相關(guān)的語(yǔ)言方向上學(xué)習(xí)不足,導(dǎo)致以該語(yǔ)種為目標(biāo)語(yǔ)言的譯文困惑度較高,甚至出現(xiàn)翻譯脫靶(Off-Target)的錯(cuò)誤。為了解決這些問(wèn)題,GeWuMT-18B模型在進(jìn)行機(jī)翻任務(wù)訓(xùn)練的同時(shí),利用無(wú)監(jiān)督學(xué)習(xí)在選定單語(yǔ)數(shù)據(jù)上進(jìn)行針對(duì)性的單語(yǔ)任務(wù)訓(xùn)練,強(qiáng)化模型對(duì)低資源語(yǔ)種的語(yǔ)言理解能力,有效降低了低資源語(yǔ)種譯文的困惑度,大幅度提升了中到外方向上低資源語(yǔ)種的翻譯質(zhì)量。

  • 數(shù)據(jù)采樣

針對(duì)海量數(shù)據(jù)GeWuMT-18B模型還采用了數(shù)據(jù)分片訓(xùn)練的策略,為了平衡每個(gè)數(shù)據(jù)分片,憑借基于溫度和訓(xùn)練交叉熵的混合采樣策略,確保每個(gè)數(shù)據(jù)分片均能對(duì)模型訓(xùn)練起到積極作用。這種數(shù)據(jù)采樣的方法,降低了對(duì)硬件顯存和內(nèi)存的需求,同時(shí)也便于針對(duì)訓(xùn)練的效果及時(shí)調(diào)整訓(xùn)練數(shù)據(jù)。


中譯語(yǔ)通自2014年啟動(dòng)機(jī)器翻譯的研發(fā)工作,持續(xù)致力于自主可控的人工智能機(jī)器翻譯引擎研發(fā),歷經(jīng)了統(tǒng)計(jì)機(jī)器翻譯、神經(jīng)機(jī)器翻譯到今天基于大模型的機(jī)器翻譯。在2020年承擔(dān)了科技部2030重大專項(xiàng)“以中文為核心的多語(yǔ)種自動(dòng)翻譯研究”,在2021年承擔(dān)了工業(yè)和信息化部揭榜掛帥任務(wù)“超大規(guī)模多語(yǔ)言通用機(jī)器翻譯系統(tǒng)”,同時(shí)也承擔(dān)了云南省科技廳的“以中文為核心的超大規(guī)模神經(jīng)機(jī)器翻譯模型研究及產(chǎn)業(yè)應(yīng)用”項(xiàng)目?;谶@三個(gè)項(xiàng)目形成的相關(guān)經(jīng)驗(yàn)為中譯語(yǔ)通在超大規(guī)模多語(yǔ)言機(jī)器翻譯技術(shù)方面積累了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。在WMT2022和2023年度的評(píng)測(cè)中,以大規(guī)模多語(yǔ)言模型為基礎(chǔ),累計(jì)獲得了7個(gè)語(yǔ)言方向的自動(dòng)評(píng)測(cè)冠軍,在行業(yè)中名列前茅。

格物-去黑邊高清新聞圖.jpg

格物人工智能平臺(tái)

中譯語(yǔ)通于2021年啟動(dòng)研發(fā)跨語(yǔ)言、多模態(tài)大模型技術(shù),并在2022年11月發(fā)布“格物”大模型。該大模型涵蓋了四種模型,包括多語(yǔ)言預(yù)訓(xùn)練模型、多語(yǔ)言機(jī)器翻譯超大模型、多模態(tài)預(yù)訓(xùn)練模型和多語(yǔ)言生成式對(duì)話大模型。中譯語(yǔ)通“基于多模態(tài)思維鏈推理的可控內(nèi)容生成大模型技術(shù)研究及示范應(yīng)用”課題主要針對(duì)中文文本、圖像、音頻和視頻四模態(tài)對(duì)齊語(yǔ)料匱乏、四模態(tài)單一模型架構(gòu)能力受限、應(yīng)用時(shí)效性差等問(wèn)題,突破多模態(tài)思維鏈的內(nèi)容理解與可控生成技術(shù),研發(fā)支持基于多模態(tài)思維鏈的四模態(tài)任意模態(tài)輸入輸出大模型,并在國(guó)防、政務(wù)、科技和金融等領(lǐng)域開(kāi)展示范應(yīng)用。同時(shí),中譯語(yǔ)通參與了《大規(guī)模預(yù)訓(xùn)練模型技術(shù)和應(yīng)用評(píng)估方法 第一部分:模型開(kāi)發(fā)》、《大規(guī)模預(yù)訓(xùn)練模型技術(shù)和應(yīng)用評(píng)估方法 第二部分:模型能力》和《大規(guī)模預(yù)訓(xùn)練模型技術(shù)和應(yīng)用評(píng)估方法 第四部分:模型應(yīng)用》的標(biāo)準(zhǔn)起草編制工作。

2024年1月,中譯語(yǔ)通連續(xù)第三次被美國(guó)國(guó)防部列入“中國(guó)涉軍企業(yè)”制裁清單。這更堅(jiān)定了公司在人工智能領(lǐng)域創(chuàng)新發(fā)展的決心。中譯語(yǔ)通將進(jìn)一步加大在大模型數(shù)據(jù)和基礎(chǔ)研發(fā)的投入,并致力于大模型的行業(yè)落地以及國(guó)產(chǎn)化適配,為國(guó)防軍事、國(guó)家安全和政府等關(guān)鍵領(lǐng)域用戶構(gòu)建可適應(yīng)復(fù)雜場(chǎng)景的自主、安全、可信的私有大模型技術(shù)與應(yīng)用,持續(xù)鑄造國(guó)家戰(zhàn)略科技力量。


掃描二維碼分享到微信

聯(lián)系我們