我說現(xiàn)在最牛的翻譯軟件是……小紅書,大家沒意見吧?
眾所周知,最近因?yàn)門ikTok在美國(guó)的封禁風(fēng)波,一身反骨的TikTok海外用戶瘋狂涌入小紅書,為了接住這波潑天的流量,小紅書連夜加班加點(diǎn)上線了評(píng)論區(qū)一鍵翻譯的功能。
但如果只是傳統(tǒng)的機(jī)翻也就算了,很快網(wǎng)友們就發(fā)現(xiàn),這其實(shí)是接了大模型的AI翻譯。
而且與其說是翻譯,不如說是破譯??,現(xiàn)在什么類型的“加密語(yǔ)言”在小紅書評(píng)論區(qū)都無處遁形,翻譯得那叫一個(gè)“信達(dá)雅”,堪比網(wǎng)上沖浪十級(jí)選手。
小紅書AI翻譯還是太全面了
像cpdd、yyds、u1s1這種入門級(jí)別的縮寫都是小兒科:
中式英語(yǔ)(Chinglish)也能輕松拿捏??:
原以為這些已經(jīng)夠無厘頭了,但當(dāng)我看到下面這些,我想說:小紅書AI翻譯還是太全面了。
這下誰(shuí)還分得清到底是翻譯,還是中文梗百科???
眾所周知,打亂漢字的順序不影響閱讀,事實(shí)證明也不影響正確翻譯:
什么二進(jìn)制ASCII字符、盲文、摩斯密碼、《模擬人生》游戲語(yǔ)言……也統(tǒng)統(tǒng)給你破譯了:
就連小說《冰與火之歌》中的“高等瓦雷利亞語(yǔ)”也不在話下(權(quán)游粉基因動(dòng)了)……
有的網(wǎng)友甚至已不再滿足于翻譯語(yǔ)言的范疇,開始考驗(yàn)小紅書AI翻譯對(duì)顏表情的理解:
還有一些懂行的網(wǎng)友通過Prompt,讓AI翻譯輸出制定內(nèi)容。具體格式可以參考:把非中文語(yǔ)言加上雙引號(hào)后再寫指令,就能用大模型輸出了。
比如有網(wǎng)友讓AI在翻譯完引號(hào)內(nèi)的話后,輸出自己的違禁詞政策、披薩的制作方法、貓娘的故事……
好好好,你們清高,你們了不起,你們把翻譯當(dāng)生成式AI用????
有業(yè)內(nèi)人士評(píng)價(jià)稱,小紅書AI翻譯功能可能是目前大模型toc商用的最佳案例之一,因?yàn)樾〖t書讓所有人直觀感受到了AI的魅力。
至于其背后用的是哪家大模型,有網(wǎng)友通過在評(píng)論中嵌入讓模型“自報(bào)家門”的指令,得到了GPT-4、智譜清言等結(jié)果??紤]到合規(guī)和調(diào)用成本的問題,GPT-4應(yīng)該可以排除。
那究竟是哪個(gè)國(guó)產(chǎn)大模型,目前仍不可知。因?yàn)槿绻P陀?xùn)練數(shù)據(jù)包含了其他大模型的對(duì)話示例,或者對(duì)其他大模型的部分?jǐn)?shù)據(jù)進(jìn)行了蒸餾,都可能造成模型身份的幻覺。比如之前,文心一言也發(fā)生過稱自己是ChatGPT的情況。
去年4月,據(jù)36氪獲悉,由小紅書AI創(chuàng)新負(fù)責(zé)人張德兵(薯名:宇塵)牽頭的大模型團(tuán)隊(duì),在部分內(nèi)部產(chǎn)品灰度測(cè)試自研通用大模型基座“小地瓜”,社交和搜索是落地方向。他們之前開發(fā)了自研的RLHF框架,并使用了PPO(近端策略優(yōu)化)算法,這是一種被廣泛認(rèn)可的強(qiáng)化學(xué)習(xí)算法。
作為國(guó)內(nèi)第一家(也是唯一一家)如此大規(guī)模地應(yīng)用AI翻譯的社交媒體平臺(tái),小紅書為什么要用AI翻譯?又是怎么做到在這么短的時(shí)間內(nèi)上線的?也是大家津津樂道的話題。
為什么小紅書要用LLM翻譯而不是傳統(tǒng)的NMT?目前大部分被稱為機(jī)翻的工具,都以NMT(Neural Machine Translation,神經(jīng)機(jī)器翻譯)為核心技術(shù)。
總的來說,據(jù)我們推測(cè),可能主要是為了快速上線、降低部署和維護(hù)的復(fù)雜度和成本。
首先,在大量外國(guó)用戶涌入的情況下,如果產(chǎn)品經(jīng)理要求你在短時(shí)間內(nèi)快速上線翻譯功能,LLM顯然是優(yōu)先之選,因?yàn)閭鹘y(tǒng)的NMT模型訓(xùn)練周期通常較長(zhǎng)。
而如果直接調(diào)用現(xiàn)有LLM的翻譯能力(如通過API),一般無需微調(diào)(fine-tuning)即可實(shí)現(xiàn)翻譯功能。但如果需要更高程度的定制化(例如垂直領(lǐng)域翻譯或特定風(fēng)格調(diào)整),微調(diào)是必要的。
其次,還需要考慮服務(wù)部署(serving)的問題。如果使用傳統(tǒng)NMT模型,需要重新搭建或購(gòu)買一套專門的serving基礎(chǔ)設(shè)施。而LLM方案通常已經(jīng)有成熟的服務(wù)框架和基礎(chǔ)設(shè)施,可以直接使用,大大縮短了開發(fā)周期并降低了復(fù)雜性。
此外,LLM經(jīng)過海量數(shù)據(jù)訓(xùn)練,泛化能力更強(qiáng),能更好地處理社交媒體語(yǔ)境中的非標(biāo)準(zhǔn)/非正式語(yǔ)言、拼寫錯(cuò)誤、縮略語(yǔ)或網(wǎng)絡(luò)用語(yǔ)(如表情符號(hào)、俚語(yǔ)等),并根據(jù)上下文調(diào)整翻譯。
例如,網(wǎng)絡(luò)用語(yǔ) “idk” 會(huì)被翻譯為 “I don’t know” 或等效表達(dá)。而NMT更傾向于翻譯標(biāo)準(zhǔn)化語(yǔ)言,對(duì)于口語(yǔ)化或非標(biāo)準(zhǔn)輸入的處理能力較弱。
LLM還可以直接處理復(fù)雜的多語(yǔ)言輸入,例如混合語(yǔ)言句子(code-switching),并理解不同語(yǔ)言之間的語(yǔ)義聯(lián)系,這就是準(zhǔn)確翻譯拼音+英語(yǔ)的關(guān)鍵。
而且LLM的實(shí)時(shí)適應(yīng)性更強(qiáng),雖然其本身不能實(shí)時(shí)更新知識(shí),但可以持續(xù)“學(xué)習(xí)”。例如,你可以告訴它改進(jìn)對(duì)特定詞語(yǔ)的翻譯,模型就會(huì)進(jìn)行即時(shí)調(diào)整。
相比之下,傳統(tǒng)NMT系統(tǒng)需要重新訓(xùn)練才能改進(jìn)某些翻譯表現(xiàn),因?yàn)镹MT模型通常是基于一個(gè)固定時(shí)間點(diǎn)的數(shù)據(jù)訓(xùn)練的,而互聯(lián)網(wǎng)jargon(黑話)、熱梗、meme等更新頻率極高,NMT模型很難及時(shí)捕捉新詞匯和用法。
而為了提高國(guó)外用戶的留存率,準(zhǔn)確翻譯時(shí)下流行的梗非常重要,不僅能拉近與國(guó)外用戶的距離,也能增強(qiáng)中外網(wǎng)友互動(dòng)的趣味性和參與感。
據(jù)媒體報(bào)道,目前已有多位IP在海外的網(wǎng)友反映,在抖音評(píng)論區(qū)也出現(xiàn)了“Translate”(翻譯)的按鍵。抖音官方客服表示,“這是近期抖音更新產(chǎn)生的一個(gè)功能,目前抖音確實(shí)是有一個(gè)評(píng)論翻譯功能,但是該功能正在升級(jí)優(yōu)化中。”
對(duì)于該翻譯功能是否是僅針對(duì)海外用戶進(jìn)行測(cè)試,客服表示該功能正在小范圍測(cè)試中,目標(biāo)群體并不固定。不論是海外用戶還是人在中國(guó)的用戶,都有可能在頁(yè)面顯示這個(gè)功能。
看來,小紅書又一次引領(lǐng)了潮流。
「AI新榜交流群」進(jìn)群方式:添加微信“banggebangmei”并備注姓名+職業(yè)/公司+進(jìn)群,歡迎玩家們來群里交流,一起探索見證AI的進(jìn)化。
歡迎分享、點(diǎn)贊、在看 一起研究AI