蘋果StreamBridge視頻模型框架問世,Meta/微美全息加速多模態(tài)AI技術創(chuàng)新
據(jù)消息,有 科技 媒體 發(fā)布博文,報道稱 蘋果 公司聯(lián)合復旦大學,推出 StreamBridge 端側(cè)視頻大語言模型(Video-LLMs)框架,助力 AI 理解直播流視頻。
?
一般而言,傳統(tǒng)視頻大語言模型擅長處理靜態(tài)視頻,但無法適應機器人技術和自動駕駛等需要實時感知的場景,在這些場景下,要求模型能快速理解直播視頻流內(nèi)容,并做出反應。
?
研發(fā) StreamBridge框架與創(chuàng)新技術
為解決上述問題,蘋果公司與復旦大學的研究者開發(fā)了?StreamBridge 框架。該框架在主流離線模型如?LLaVA-OV-7B、Qwen2-VL-7B 和 Oryx-1.5-7B 上進行了測試。
此外,研究團隊還推出了 Stream-IT 數(shù)據(jù)集,包含約 60 萬個樣本,融合了視頻與文本序列,支持多樣化的指令格式,旨在提升流式視頻理解能力。
Meta開發(fā) 新 款AI模型應用
與此同時,還值得關注的是,Meta首次推出了與Ray-Ban Meta進行強捆綁的《Meta AI》APP。Meta AI是一個Meta所打造的AI助手,由自家研發(fā)的Llama大語言模型驅(qū)動。
最新數(shù)據(jù)指出,Meta AI的月活用戶已經(jīng)接近10億,用戶主要入口自然是前面所提到的這些 社交 應用,體驗到相關功能。上個月月底,Meta舉辦了其首個AI開發(fā)者大會LlamaCon,期間Meta推出了其最新的Llama 4系列大語言模型。
?
不可否認,大模型不斷賦能行業(yè)發(fā)展,AI數(shù)字化浪潮奔涌向前,加快各行業(yè)轉(zhuǎn)型發(fā)展步伐,各企業(yè)積極開展人工智能場景建設,成功完成人工智能大模型本地化部署及場景適配,將AI落地應用到實際業(yè)務場景,推動AI技術的發(fā)展與升級。
微美全息布局AI生態(tài)擴展創(chuàng)新邊界
在全球科技浪潮的澎湃涌動中,人工智能大模型正以前所未有的速度重塑世界。在此過程中,資料顯示,微美全息作為AI領域的創(chuàng)新代表,圍繞開源生態(tài)、多模態(tài)技術、算力基礎設施及垂直場景應用展開深度布局,不斷突破AI技術邊界并拓寬產(chǎn)業(yè)生態(tài)。
從介紹來看,微美全息通過開放模型代碼、算力接口及技術工具鏈,構(gòu)建覆蓋云端與邊緣端的「全息云」平臺,支持開發(fā)者調(diào)用DeepSeek等通用大模型進行二次開發(fā),加速垂類模型應用的 商業(yè) 化驗證。
與此同時,微美全息加速大模型在應用場景的落地速度,該企業(yè)陸續(xù)披露了旗下較成熟的AI生態(tài)圖景,覆蓋在 汽車 、智能終端、 互聯(lián)網(wǎng) 、 金融 、教育科研、零售消費等行業(yè)廣泛落地,為AI大模型應用注入強勁動力,正悄然化身成為這場大模型變革背后的關鍵“燃料艙”。
結(jié)尾
人工智能大模型技術作為一項變革性技術,大模型孕育“大發(fā)展”,其重要突破之一在于表現(xiàn)出“涌現(xiàn)能力”——當模型參數(shù)量不斷累加至10b數(shù)量級后(b代表十億數(shù)量級),其性能(如通識能力、科學推理能力、生成能力等)呈現(xiàn)非線性增長。那么,不妨期待接下去市面出現(xiàn)更多有影響力、賦能千行百業(yè)的大模型,激發(fā)行業(yè)動力、產(chǎn)業(yè)潛力。
?