近日,國際數(shù)據(jù)公司(IDC)發(fā)布的《中國視頻云市場跟蹤(2024下半年)》報告顯示,2024下半年中國視頻云市場規(guī)模達(dá)到50.8億美元,同比增長4.7%。火山引擎憑借在視頻內(nèi)容分發(fā)網(wǎng)絡(luò)服務(wù)、直播云服務(wù)及音視頻通信云服務(wù)等領(lǐng)域的持續(xù)突破,進(jìn)一步鞏固了市場競爭優(yōu)勢。
此次報告中,IDC還首次增設(shè)了AI視頻云Add-on跟蹤研究。火山引擎視頻云依托豆包大模型,憑借在AI領(lǐng)域的積極探索與廣泛實踐,成為同時入選“AI實時互動”與“智能媒體生產(chǎn)”兩大細(xì)分項類的廠商,尤其在“智能媒體生產(chǎn)”領(lǐng)域,更是位列行業(yè)第一。這一成績彰顯了火山引擎在”AI+視頻云”融合創(chuàng)新賽道的技術(shù)實力。
如今,我們正從高清流暢的數(shù)字視頻時代邁向更智能、更交互、更沉浸的AI視頻時代。隨著視頻云技術(shù)迭代和多模態(tài)大模型突破,”音視頻+AI”正打破場景壁壘,重塑溝通方式、重構(gòu)內(nèi)容生產(chǎn)流程,為用戶帶來全新體驗。
作為技術(shù)革新引領(lǐng)者,火山引擎視頻云將豆包大模型和AI能力深度融入音視頻全鏈路,實現(xiàn)了從生產(chǎn)端、交互端到消費端的全面智能化升級,推動行業(yè)進(jìn)入“智造- 智聯(lián)-智享”的新階段。
在生產(chǎn)端,火山引擎視頻云融合豆包大模型 AIGC、ASR 等技術(shù),實現(xiàn)多模態(tài)內(nèi)容的高質(zhì)、高效生產(chǎn)。其多模態(tài)視頻理解與生成方案可自動提取視頻高光并生成解說內(nèi)容,讓字幕識別錯誤率降低了30%,90集短劇的營銷視頻素材生產(chǎn)效率提升20倍。目前,該方案已覆蓋賽事、直播電商、教育和節(jié)目制作等場景。
為了讓內(nèi)容生成更加豐富有趣,火山引擎還為電商打造了多模態(tài)素材生成方案,支持自動生成商品氛圍圖、圖文解說視頻及3D模型等多元營銷素材,實現(xiàn)高效多模態(tài)內(nèi)容創(chuàng)作。生產(chǎn)端的升級,并不止于視頻畫面,聲影同傳方案融合精準(zhǔn)字幕、聲音復(fù)刻和虛擬口型技術(shù),大幅優(yōu)化觀眾視聽體驗。
在交互端,火山引擎通過 RTC 技術(shù)與TTS語音合成的融合,提升人與AI交互的真實感與流暢度。該方案已經(jīng)廣泛落地于智能助手、AI陪伴、AI教育、智能客服等場景。比如,在兒童陪伴場景,針對孩子們語速慢、表達(dá)不連貫等特點,火山引擎優(yōu)化了實時打斷速度和斷句識別準(zhǔn)確度,創(chuàng)造一個更加友好和鼓勵性的交流環(huán)境。在AI社交陪伴場景,通過智能匹配輸出內(nèi)容與方式,結(jié)合語音與文字構(gòu)建對話場景及情感背景,讓交互體驗更自然真實。
在消費端,火山引擎持續(xù)推動虛實融合的沉浸式體驗落地。依托 Beaver 3D生成模型,用戶1分鐘就可以生成高保真3D資產(chǎn);通過大場景3D重建方案,實現(xiàn)了對真實場景的高質(zhì)量幾何構(gòu)建與外觀重建渲染,廣泛應(yīng)用于虛擬直播、VR直播等場景中。此外,借助 6DOF 直播技術(shù),觀眾還可360度自由視角觀看直播內(nèi)容。
當(dāng)前,行業(yè)客戶正積極抓住AI帶來的增長機遇,推動視頻云市場進(jìn)入新一輪的增長周期。火山引擎憑借其在“AI+視頻云”領(lǐng)域的領(lǐng)先地位和持續(xù)創(chuàng)新,將繼續(xù)引領(lǐng)行業(yè)的發(fā)展,為用戶提供更加智能、高效、沉浸式的音視頻體驗。
本文轉(zhuǎn)載自:,不代表科技訊之立場。原文鏈接:https://v.gaoduanedu.cn/index/index/yulan/id/345773