新榜訊 今日凌晨,OpenAI 正式宣布在其 API 中全新上線新一代音頻模型,涵蓋語音轉(zhuǎn)文本和文本轉(zhuǎn)語音等功能,為開發(fā)者打造強(qiáng)大語音 Agent 提供有力支持。新產(chǎn)品的核心亮點(diǎn)包括:· gpt-4o-transcribe(語音轉(zhuǎn)文本):?jiǎn)卧~錯(cuò)誤率(WER)大幅降低,在多項(xiàng)基準(zhǔn)測(cè)試中力壓現(xiàn)有 Whisper 模型。其憑借多樣化、高品質(zhì)音頻數(shù)據(jù)集歷經(jīng)長時(shí)間訓(xùn)練,能夠精準(zhǔn)捕捉語音細(xì)微差異,減少誤識(shí)別,極大提升轉(zhuǎn)錄的可靠性,在應(yīng)對(duì)口音繁雜、環(huán)境嘈雜、語速多變等挑戰(zhàn)場(chǎng)景時(shí)表現(xiàn)更為出色;· gpt-4o-mini-transcribe(語音轉(zhuǎn)文本):作為 gpt-4o-transcribe 的精簡(jiǎn)版,基于 GPT-4o-mini 架構(gòu),通過知識(shí)蒸餾技術(shù)從大模型獲取能力,速度更快、效率更高,適用于資源有限但對(duì)語音識(shí)別質(zhì)量有要求的應(yīng)用場(chǎng)景;· gpt-4o-mini-tts(文本轉(zhuǎn)語音):首次實(shí)現(xiàn)「可引導(dǎo)性」(steerability),開發(fā)者不僅能設(shè)定“說什么”,還能掌控“如何說”。具體來說,開發(fā)者能夠預(yù)設(shè)多種語音風(fēng)格,并能依據(jù)指令調(diào)整語音風(fēng)格。 特別值得注意的是,gpt-4o-transcribe 與 gpt-4o-mini-transcribe 這兩款模型在 FLEURS 多語言基準(zhǔn)測(cè)試中的表現(xiàn)遠(yuǎn)超現(xiàn)有的 Whisper v2 和 v3 模型,在英語、西班牙語等多種語言方面表現(xiàn)尤為突出。 在價(jià)格方面,gpt-4o-transcribe 與之前的 Whisper 模型定價(jià)相同,每分鐘 0.006 美元;而 gpt-4o-mini-transcribe 僅為前者的一半,每分鐘 0.003 美元;gpt-4o-mini-tts 則為每分鐘 0.015 美元。目前,所有全新音頻模型已面向全球開發(fā)者開放。 此外,OpenAI 還介紹了兩種構(gòu)建語音 Agent 的技術(shù)路徑:· 「語音到語音模型」采用端到端的直接處理模式:系統(tǒng)能夠直接接收用戶的語音輸入并生成語音回復(fù),無需中間轉(zhuǎn)換環(huán)節(jié);· 「鏈?zhǔn)椒椒ā梗菏紫冗\(yùn)用語音轉(zhuǎn)文本模型將用戶語音轉(zhuǎn)換為文字,接著由大型語言模型(LLM)處理這些文本內(nèi)容并生成回應(yīng)文本,最后通過文本轉(zhuǎn)語音模型將回應(yīng)轉(zhuǎn)換為自然語音輸出。其優(yōu)勢(shì)在于模塊化設(shè)計(jì),各組件可獨(dú)立優(yōu)化;處理結(jié)果更穩(wěn)定;同時(shí)開發(fā)門檻更低,開發(fā)者能夠基于現(xiàn)有文本系統(tǒng)快速增添語音功能。
掃描二維碼
手機(jī)瀏覽
OpenAI 推出新一代語音模型 API
分享文章鏈接
相似推薦

東方國信推出新一代滿血版“幕僚DeepSeek一體機(jī)”
新榜訊 3 月 10 日,“東方國信大數(shù)據(jù)”微信公眾號(hào)披露,東方國信憑借其在算力基礎(chǔ)設(shè)施、行業(yè)大數(shù)據(jù)積累以及垂直大模型領(lǐng)域的關(guān)鍵優(yōu)勢(shì),推出了新一代滿血版“幕僚 DeepSeek 一體機(jī)”。

騰訊推出新一代快思考模型混元 Turbo S,將在騰訊元寶逐步灰度上線
新榜訊 ,2 月 27 日,騰訊混元自主研發(fā)的快思考模型 Turbo S 重磅發(fā)布。

MiniMax發(fā)布并開源新一代01系列模型
新榜訊 MiniMax 重磅發(fā)布并開源新一代 01 系列模型,其中涵蓋基礎(chǔ)語言大模型 MiniMax-Text-01 以及視覺多模態(tài)大模型 MiniMax-VL-01 。