火山引擎多模態(tài)數據湖架構升級,驅動企業(yè)邁向AI原生時代

2025年6月,火山引擎FORCE原動力大會在北京舉辦。火山引擎數智平臺正式發(fā)布多模態(tài)數據湖全新產品架構。該架構通過存儲與計算能力的深度優(yōu)化,構建兼容文本、圖像、音頻、視頻等多元數據的處理框架,為企業(yè)打造適應Agentic AI(智能體人工智能)時代的新一代AI Native數據基礎設施,助力企業(yè)從傳統(tǒng)商業(yè)智能向AI驅動的決策模式轉型。

火山引擎多模態(tài)數據湖架構升級,驅動企業(yè)邁向AI原生時代

隨著全球數據規(guī)模爆發(fā)式增長,非結構化數據與多模態(tài)AI解決方案的占比正快速攀升。IDC預測,到2028年全球數據總量將達393ZB,其中超80%為非結構化數據;Gartner則指出,到2027年,40%的生成式AI解決方案將采用多模態(tài)技術,較2023年的1%實現(xiàn)飛躍式提升。這一趨勢標志著AI正從單一模態(tài)邁向多模態(tài)協(xié)同的“集團軍作戰(zhàn)”時代,要求數據基建具備處理復雜多模態(tài)信息的能力,以更貼近人類感知的方式理解世界。

火山引擎多模態(tài)數據湖解決方案在此背景下持續(xù)迭代。此前,該方案已實現(xiàn)海量結構化、半結構化及非結構化數據的統(tǒng)一管理,為LLM(大語言模型)全生命周期訓練提供數據支持。此次升級進一步強化了多模態(tài)數據處理能力:新增模型數據處理蒸餾與多模態(tài)分析能力,優(yōu)化與火山引擎各平臺的聯(lián)動機制,通過MCP(多模態(tài)認知平臺)簡化數據開發(fā)流程,幫助企業(yè)高效識別與利用多模態(tài)數據資產。

在技術落地層面,火山引擎多模態(tài)數據湖聚焦三大核心場景:

在文本、圖像、音視頻等多模數據的處理場景上,提供更易用的湖處理方案,幫助用戶快速解鎖多模態(tài)數據的價值,降低數據使用的門檻。用戶可直接AI數據湖產品的 MCP工具中用自然語言的方式輸入數據處理需求,比如對低清圖片提出增強高清訴求,實現(xiàn)圖片批量處理。

在模型訓練上,提供低成本高性能的模型數據處理與蒸餾方案,通過與火山方舟的無縫銜接,數據零拷貝,讓用戶能直接在可視化界面上一鍵開啟回流按鈕,成功激活專屬私有數據湖將推理數據同步至LAS,進行快速處理,篩選出高質量數據一鍵導出至方舟用于模型精調。

針對用戶海量數據進行批量的向量化和快速檢索需求,火山引擎多模態(tài)數據湖提供了湖檢索和湖分析能力,ByteHouse和AI數據湖LAS聯(lián)動,實現(xiàn)多種模態(tài)的快捷檢索。通過LAS完成多模數據向量化轉換,利用ByteHouse實現(xiàn)向量檢索特性分析,實現(xiàn)以圖搜圖。

某知名汽車品牌在智駕網聯(lián)場景的大模型訓練中應用該方案,驗證了其技術價值:通過MR Ray Remote Dataloader技術解決CPU滿載問題,數據加載效率提升2倍,模型訓練迭代效率整體提升1.5倍;GPU單卡并發(fā)支持多個標注推理模型,單卡利用率提升至95%以上,資源成本大幅降低;采用LAS Lance替代傳統(tǒng)LMDB,減少數據預處理階段的GPU消耗,并支持數據壓縮,使存儲與管理成本降至原來的1/4。

多模態(tài)數據湖的升級,幫助企業(yè)數據基建從支撐商業(yè)智能報表轉向成為驅動AI模型訓練與決策的核心引擎?;鹕揭鏀抵瞧脚_負責人郭東東表示:“通過Data 與AI的深度交織,新的數據智能將能幫助企業(yè)構建面向AI時代的好基建,成就好模型,促生好應用,帶來好增長。”

當前,數據與AI的深度交織已成為企業(yè)競爭的核心要素?;鹕揭鎸⒊掷m(xù)迭代多模態(tài)數據湖產品能力,攜手企業(yè)共同探索數據智能的無限可能,為Agentic AI時代的到來注入新動能。

本文轉載自:,不代表科技訊之立場。原文鏈接:https://v.gaoduanedu.cn/index/index/yulan/id/360672

陳晨陳晨管理團隊

相關推薦

發(fā)表回復

登錄后才能評論