新京報(bào)貝殼財(cái)經(jīng)訊(記者羅亦丹)當(dāng)騰訊和百度選擇在C端產(chǎn)品接入DeepSeek獲得大量關(guān)注時(shí),4月17日,字節(jié)跳動(dòng)邁出了自己在推理模型領(lǐng)域的關(guān)鍵一步——正式發(fā)布豆包1.5?深度思考模型。


字節(jié)跳動(dòng)旗下火山引擎總裁譚待以“效果好、延遲低、支持多模態(tài)”來(lái)描述這一模型。他表示,“深度思考模型是構(gòu)建Agent的基礎(chǔ),模型要有能力做好思考、計(jì)劃和反思,并且一定要支持多模態(tài),就像人類(lèi)具備視覺(jué)和聽(tīng)覺(jué)一樣,Agent才能更好地處理復(fù)雜任務(wù)?!?/p>


在關(guān)鍵的技術(shù)性能方面,火山引擎方面披露豆包1.5在通用任務(wù)中的人類(lèi)評(píng)估表現(xiàn)超DeepSeek R18%,覆蓋多場(chǎng)景需求。而單位推理成本相比DeepSeek R1降低50%。


技術(shù)報(bào)告顯示,豆包深度思考模型采用MoE架構(gòu),總參數(shù)為200B,激活參數(shù)僅20B,基于高效算法和高性能推理系統(tǒng),豆包模型API服務(wù)在保障高并發(fā)的同時(shí),延遲低至20毫秒。


豆包深度思考模型還具備視覺(jué)推理能力,能像人類(lèi)一樣對(duì)看到的事物進(jìn)行聯(lián)想和思考,譚待舉例說(shuō)明,“模型可以看懂復(fù)雜的企業(yè)項(xiàng)目管理流程圖表,快速定位到關(guān)鍵信息,并以強(qiáng)大的指令遵循能力,嚴(yán)格按照流程圖,回答客戶的問(wèn)題;分析航拍圖時(shí),能結(jié)合地貌特征判斷區(qū)域開(kāi)發(fā)可行性。有多模態(tài)能力的加持,豆包深度思考模型可以助力企業(yè)在更多場(chǎng)景實(shí)現(xiàn)智能化升級(jí)?!?/p>


據(jù)火山引擎披露,截至2025年3月底,豆包大模型日均tokens調(diào)用量已達(dá)到12.7萬(wàn)億,較去年5月發(fā)布時(shí)增長(zhǎng)上百倍。譚待表示,Agent智能體應(yīng)用發(fā)展將帶動(dòng)大模型進(jìn)一步普及。


此外,火山引擎還同步升級(jí)了文生圖模型3.0、視覺(jué)理解模型,并推出OS Agent解決方案及AI云原生推理套件。


編輯 黃鑫宇

校對(duì) 王心