亚洲av成人无码精品电影在线,无码专区人妻系列日韩精品,婷婷精品免费久久久久久久,69式视频www免费视频,无码人妻丰满熟妇区毛片18

登錄/注冊
掃描二維碼
手機瀏覽

從智能體到世界模型,2025年AI行業(yè)還會發(fā)生哪些大事?

AI新榜
新榜獨家AIGC

今日頭圖使用豆包創(chuàng)作,提示詞“像素風,電腦屏幕上顯示文字'2025 AI趨勢',科技感,藍紫色主題”


作者 | 卷毛

編輯 | 張潔


2024年,是AI指數(shù)級發(fā)展的又一年。


大模型浪潮滾滾向前,在技術(shù)創(chuàng)新和應(yīng)用落地上取得多項突破,引起了海內(nèi)外廣泛關(guān)注和討論。


從年初Sora驚艷亮相到國產(chǎn)AI視頻生成模型大放異彩;


AI視頻進化對比,X@Dexerto


從多模態(tài)模型GPT-4o到推理模型o3;


OpenAI o3模型演示


從一句話生成一首歌到一張圖生成3D建模;


Suno主頁

從毒舌Dan成為賽博男友到AI獨角獸C.ai賣身谷歌;

Character.ai主頁

從智能體會自主操作手機和電腦到AI編程工具Cursor爆火;

Cursor主頁

從首部《人工智能法案》頒布到AI“魔改”短視頻被整改……

AI魔改《甄嬛傳》

這一年,AI行業(yè)在快速發(fā)展的同時,也面臨著版權(quán)、倫理、隱私等多方面的挑戰(zhàn),不斷沖擊著人類社會的各個角落。

AI科技公司的競爭更加白熱化,巨頭們輪番推出各自的新模型和新產(chǎn)品,技術(shù)突破與商業(yè)化并進,尤其在圖像、視頻、3D領(lǐng)域持續(xù)加碼,為AIGC創(chuàng)作帶來更多想象力。

“AI新榜”一直在追蹤AI行業(yè)的前沿熱點,特別是與內(nèi)容行業(yè)相關(guān)的大模型和應(yīng)用發(fā)展,每個工作日更新#AI日報,每周更新#AI一周熱門,每月匯總AIGC行業(yè)關(guān)鍵信息,從2024年2月起至今,已發(fā)布11期#AIGC月刊。

以此為基礎(chǔ),我們整理了2024年值得關(guān)注的AI大事件,并嘗試對2025年AI行業(yè)的熱門趨勢進行了預測。

接下來,請與我們一起循著AI的脈絡(luò),通向未來的大門。


制圖:NUPD


AI推理模型訓練加速


自2023年推出GPT-4后,OpenAI的GPT系列成為全球最具影響力的基礎(chǔ)大模型,但其壟斷優(yōu)勢在2024年被打破,比如Anthropic的Claude 3 Sonnet、谷歌的Gemini 2.0都已經(jīng)后來追上,穩(wěn)列第一梯隊。

2024年“百模大戰(zhàn)”主要聚焦在多模態(tài)和推理能力,OpenAI上線了高級語音模式和視頻通話功能,《Her》逐漸成為現(xiàn)實。而推理模型需要消耗更多的算力,也需要更久的等待時間,據(jù)量子位《2024年度AI十大趨勢報告》,以O(shè)penAI的o1模型為代表,模仿學習+強化學習成為典型AI發(fā)展路徑范式。

“從o1到o3的進展只有三個月,這表明RL的新范式在擴展推理計算的思維鏈上的進展將有多快,”O(jiān)penAI研究員Jason Wei在一條推文中寫道,“比每1-2年對新模型進行預訓練范式要快得多?!?/span>

Anthropic聯(lián)創(chuàng)Jack Clark認為,OpenAI年底發(fā)布的o3意味著2025年的AI進展將比2024年更快。

Jack Clark博客:https://jack-clark.net/

此外,開源模型與閉源模型并行發(fā)展,Meta AI、微軟、谷歌、Mistral AI 、阿里、智譜、DeepSeek等團隊陸續(xù)將開源模型推向了新的高度,其中年底發(fā)布的DeepSeek v3表現(xiàn)亮眼,與Claude 3.5 Sonnet不相上下。另一方面,大模型運行token的成本也在激烈的價格戰(zhàn)中快速下降,比如Gemini 1.5 Flash 8B定價為0.0375美元/mTok——比去年的GPT-3.5 Turbo便宜27倍。

AGI仍未到來,2025年我們大概也不會看到所謂的超級智能,但未來的曙光已經(jīng)越來越逼近了。據(jù)埃隆?馬斯克預測,到2025年底,AI將超越任何單個個體的智力,而到2027至2028年,它甚至可能會超越所有人類的智力。到2030年,AI超越所有人類智力的可能性幾乎是100%。


第一批AI智能體即將上崗


AI Agent是2024年最熱門的AI行業(yè)應(yīng)用趨勢之一。中文將其通常翻譯為“智能體”,兩者的概念定義不盡相同,這里我們指的是基于AI技術(shù),能夠自主感知、思考并執(zhí)行決策的智能體。

據(jù)谷歌智能體白皮書,智能體是“加強版”的AI,它通過觀察世界、使用工具、制定計劃和采取行動來實現(xiàn)目標,可以自主行動,超越了基礎(chǔ)模型,更像是人類解決問題的方式。即使缺少人類的指令,智能體也能推理下一步應(yīng)該做什么。

谷歌智能體白皮書:https://www.kaggle.com/whitepaper-agents

微軟、谷歌、OpenAI、Anthropic、百度、智譜、字節(jié)等各大廠商都在積極搶占AI智能體市場。2024年10月,Anthropic推出的Computer Use(計算機使用)功能驚艷四座,可以讓Claude像人一樣使用計算機。智譜的AutoGLM同樣不甘示弱,手機端可以自主執(zhí)行超過50步的長步驟操作,也可以跨App執(zhí)行任務(wù),包括導航、網(wǎng)購、點外賣、微信聊天、寫點評等。

2025年1月6日,Sam Altman在《反思(Reflections)》這篇博客中表示,現(xiàn)在OpenAI知道如何構(gòu)建傳統(tǒng)定義的AGI,開始將目標轉(zhuǎn)向真正意義上的超級智能。

“在2025年,我們可能會看到第一批AI智能體‘加入勞動力大軍’,并實質(zhì)性地改變公司的產(chǎn)出?!?/strong>

Sam Altman博客全文:https://blog.samaltman.com/

此前據(jù)內(nèi)部員工爆料,OpenAI正準備推出一款代號為“Operator”的智能體,可以自動執(zhí)行各種復雜操作,包括編寫代碼、預訂旅行、自動電商購物等,該產(chǎn)品預計將在2025年1月發(fā)布。

正如前騰訊混元大模型技術(shù)負責人劉威所預測的,到2025年,智能體作為AI原生應(yīng)用將會爆發(fā),成為商業(yè)軟件和SaaS的未來。


國產(chǎn)AI視頻模型繼續(xù)領(lǐng)先


英偉達高級科學家Jim Fan曾預測2024年是AI視頻之年,實際的確如此。

OpenAI推出Sora之后,其創(chuàng)新的DiT(Diffusion Transformer)架構(gòu)引領(lǐng)行業(yè)發(fā)展,市面上AI視頻生成模型和產(chǎn)品層出不窮,尤其從下半年開始,快手可靈、智譜清影、MiniMax的海螺視頻、阿里的通義萬相、字節(jié)的豆包和即夢騰訊混元視頻等國產(chǎn)AI視頻產(chǎn)品后來居上,在生成時長、分辨率、運動合理性、可控性等方面都有了顯著提升。


海外AI視頻產(chǎn)品的更新迭代依舊沒有放緩,包括谷歌的Veo、Runway Gen-3 Alpha、Pika、Luma AI的Dream Machine等;開源方面,初創(chuàng)公司Lightricks的LTX Video、Genmo的Mochi 1等模型則降低了AI視頻的應(yīng)用門檻。

在產(chǎn)品功能上,AI逐漸向視頻創(chuàng)作的全流程滲透,生成長度更長,也更加穩(wěn)定可控了。除了基礎(chǔ)的文生視頻、圖生視頻,現(xiàn)在部分產(chǎn)品還支持多張圖片生成視頻(首尾幀、參考圖片主體/背景),視頻生視頻(風格轉(zhuǎn)繪、視頻拓展),此外還有給視頻配音效、人物對口型、AI換臉、故事板等功能。

對于專業(yè)創(chuàng)作者來說,AI已是輔助創(chuàng)作的得力工具,業(yè)內(nèi)不少AI加持的短劇、廣告片、電影相繼落地。而對于C端用戶,AI視頻產(chǎn)品簡單易上手,各種有趣的特效模板最受歡迎,例如可靈讓人們穿越時空擁抱,Pika用AI模擬爆炸、捏扁等視頻特效,Pixverse的毒液變身特效等。我們還給網(wǎng)友們激情創(chuàng)作的AI抽象視頻專門頒了個獎。

隨著AI視頻質(zhì)量不斷提升,訓練數(shù)據(jù)侵權(quán)、深度偽造詐騙等安全合規(guī)問題也引起廣泛關(guān)注。對于AI視頻廠商而言,如何降低算力成本、提高推理速度、商業(yè)化等都是擺在眼前的一道道難題。

可以預見,2025年AI視頻依舊是競逐激烈的熱門賽道,技術(shù)創(chuàng)新是競爭核心,國產(chǎn)AI視頻產(chǎn)品仍有優(yōu)勢。


通向AGI的關(guān)鍵路徑是世界模型


AI對話、圖像生成和視頻生成已經(jīng)“卷”到飛起,一些玩家開始將目光鎖定至3D內(nèi)容生成,例如Luma AI、Meshy、Tripo。在短視頻、游戲配件、工業(yè)設(shè)計等領(lǐng)域,AI建模的3D內(nèi)容已經(jīng)有了用武之地。

“我們生活在一個三維世界中,AI只有突破對3D世界的理解和生成,才能真正追趕上人類智能。”2024年12月,由“AI教母”李飛飛聯(lián)合創(chuàng)辦的World Labs發(fā)布了首個“空間智能(Spatial intelligence)”模型,能夠僅從一張二維圖片生成可交互的3D世界,用戶可以在3D場景中像玩游戲一樣自由控制相機來探索。

World Labs官網(wǎng):https://www.worldlabs.ai/blog

空間智能是相對于語言智能的一個概念,比大型語言模型 (LLM)更進一步,可以感知、生成3D世界并與之交互,這樣的AI系統(tǒng)被稱為大型世界模型 (LWM) 。

類似的世界模型還有谷歌的Genie 2,它能夠生成各種可操作、可玩的3D環(huán)境,可用于訓練和評估智能體。

? ?
Genie 2博客:https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
?

Sora核心作者Tim Brooks跳槽到谷歌DeepMind后,近期他表示要招募新團隊來制作大量世界模型。據(jù)量子位報道,新團隊會和谷歌旗下Gemini、Veo和Genie等團隊合作,致力于在構(gòu)建的世界模型之上開發(fā)“實時交互生成”工具;并研究如何將世界模型們與現(xiàn)有的多模態(tài)模型,如Gemini等集成。
?
谷歌表示,在視頻和多模態(tài)數(shù)據(jù)上擴展預訓練是實現(xiàn)AGI的關(guān)鍵路徑。
?
不僅是3D內(nèi)容創(chuàng)作,未來世界模型有望推動自動駕駛、機器人、虛擬現(xiàn)實和增強現(xiàn)實等多個領(lǐng)域的創(chuàng)新和進步。

?

?


蘋果入場,AI硬件有待爆發(fā)


QuestMobile報告顯示,當下LLM的落地應(yīng)用在網(wǎng)頁端、移動端都已比較成熟,正逐步拓展至智能硬件端。手機則是目前LLM最成熟的落地硬件載體之一,廠商從“卷”配置走向“卷”AI,熱賣的新上市機型基本均為AI手機。

蘋果在2024年秋季正式進入AI市場,首批Apple Intelligence功能已面向iPhone、iPad和Mac用戶推出,支持AI寫作、通知摘要、照片增強等功能。并且隨著Siri和ChatGPT的整合,蘋果可能在2025年占據(jù)AI手機市場的領(lǐng)先地位。?

? ?

不過蘋果Apple Intelligence暫時沒有向中國市場推出。國內(nèi)Android手機廠商則陸續(xù)啟動了AI手機戰(zhàn)略,華為、小米、榮耀、OPPO、VIVO等品牌都在新品中內(nèi)置了AI功能,包括AI語音助手、AI寫作、AI修圖、AI搜索、AI翻譯等。

據(jù)新智元報道,IT前沿創(chuàng)新與智能科技產(chǎn)業(yè)研究專家胡延平認為,2025年會是智能手機大年,且有多場熱戰(zhàn)。AI顯而易見是第一戰(zhàn)場,超級入口又是AI的第一戰(zhàn)場,而語音自然交互的“嘴控”又是超級入口的第一戰(zhàn)場。

除了手機,面向C端消費者的AI硬件主要集中在智能穿戴設(shè)備和智能家居,如耳機、眼鏡、音箱。其中AI眼鏡受到熱捧,蘋果、Meta、谷歌、華為、百度、字節(jié)等科技大廠都有所布局。

雷朋和Meta合作的AI眼鏡

但現(xiàn)階段智能穿戴類產(chǎn)品無法脫離軟件實現(xiàn)AI功能(大多需要與其對應(yīng)的App連接),技術(shù)局限和相對高昂的價格也是制約因素。未來AI眼鏡的應(yīng)用場景或?qū)⑦M一步拓展和深化,從騎行、徒步等運動垂類場景,覆蓋至戶外多場景需求。

總之,新的一年,“AI新榜”會繼續(xù)和你一起見證、參與AI行業(yè)的風起云涌。


更多內(nèi)容請關(guān)注#2024年終AI觀察:

《盤點2024十大抽象AI視頻,我們還給它們頒了個抽象的獎》
《這一年我們最關(guān)心的AI問題,14位一線從業(yè)者這樣回答 | AI新榜年終群訪》


    

AI新榜交流群」進群方式:添加微信“banggebangmei”并備注姓名+職業(yè)/公司+進群,歡迎玩家們來群里交流,一起探索見證AI的進化。

     
歡迎分享、點贊、在看
 一起研究AI

分享文章鏈接