AI 能像东谈主类相同判辨长视频男同 按摩。
港理工、新加坡国立团队推出 VideoMind 框架,中枢翻新在于扮装化推理(Role-based Reasoning)和链式 LoRA(Chain-of-LoRA)战略。
关连论文已上传 arXiv,代码和数据一都开源。
跟着视频数据量的激增,怎样判辨和推理长视频中的复杂场景和事件成为了多模态东谈主工智能酌量的热门。不同于静态图像,视频不仅包含视觉信息,还包含时辰维度上的动态变化,这条目模子在判辨视频时不仅要识别画面中的物体和场景,还口头路这些物体和场景怎样随时辰变化和相互作用。
传统的基于文本和图像的推理模子(如 OpenAI o1, DeepSeek R1 等)频频无法粗疏这种复杂的时辰维度推理任务。
VideoMind 框架
区别于文本和图片,长视频判辨难以用传统的单次感知 + 纯笔墨推理罢了。
比较之下,东谈主类在判辨长视频(如素质视频、故事类视频)频频时会寻找关连片断并反复不雅看,以此获取更可靠的论断。
受该表象启发,作家把柄视频判辨所需要的 4 种中枢才略(制定筹商、搜索片断、考证片断、回答问题),为 VideoMind 界说了 4 个扮装,并构建了一个扮装化的职责流,灵验地经管了长视频中的时序推理问题。
谋略者(Planner)
把柄问题动态制定筹商,决定怎样调用其他扮装(如先定位,再考证,终末回答问题);
定位器(Grounder)
把柄给定的问题或查询,精笃定位与之关连的视频片断 ;
考证器(Verifier)
对定位得到的多个时辰片断进行考证,确保其准确性 ;
回答者(Answerer)
基于采选的视频片断进行判辨,生成最终谜底。
△图 1:传统纯笔墨推理和 VideoMind 的扮装化推理
为了高效整合以上扮装,作家进一步建议了链式 LoRA(Chain-of-LoRA)战略,在一个长入的 Base 模子(如 Qwen2-VL)上同期加载多个轻量的 LoRA Adapter,并在推理时把柄需要进步履态切换,以罢了不同扮装间的治愈。该战略仅需要在 Base 模子上添加少许可学习参数,即可罢了多个扮装 / 功能间的无缝切换,既获取了比单一模子权贵更优的性能,也幸免了多模子并行带来的筹算支出,从而在确保性能的同期大幅提高了筹算后果。
△图 2: VideoMind 的全体架构和推理进程 VideoMind 推理进程
如图 2 所示,模子继承一个视频和一个用户建议的问题四肢输入,通过切换多个扮装来推理出最终谜底。其中,Planner 领先对视频和问题进行分析,扩充后续推理的筹商,其抛弃以 JSON list 的口头呈现。推理筹商主要可分为以下三种:
△图 3:VideoMind 的三种推理模式
其中(i)主要针对长视频问答任务(Grounded VideoQA),需要使用 Grounder + Verifier + Answerer 三个扮装进行功课;(ii)针对视频时序定位任务(Video Temporal Grounding),使用 Grounder + Verifier 来进行关连片断的精确查找;(iii)针对短视频问答,该场景下由于视频较短,无需对其进行剪辑,故径直使用 Answerer 进行推理。
△图 4:Timestamp Decoder 模块
Grounder 崇敬继承一个当然谈话查询,并在视频中定位关连片断。针对这一复杂任务,酌量团队建议了 Timestamp Decoder 模块,将破坏的 Token 展望任务和连气儿的时辰转头任务解耦开来,并使 LLM 通过 Special Token 进行调用,罢了了高大的 Zero-shot 时序定位性能。
△图 5:Verifier 的考证战略
为保证时辰差异率,Grounder 频频职责在较低的空间差异率下,因此获取的时辰片断可能会不准确。针对此问题,作家想象了 Verifier 扮装来对每个片断进行放大考证,并从多个候选片断中登科置信度最高的四肢主义片断。熟谙证实注解该战略不错进一步权贵提高 Temporal Grounding 任务的性能。
△表 1:VideoMind 的老师数据集
为老师 VideoMind,作家针对不同扮装蚁合 / 制作了多个数据集,臆测包含接近 50 万个样本。不同扮装使用不同数据集进行老师,并在推理时兼并加载,以确保每个扮装的性能最大化。所有老师数据(包括前期探索使用的更大宗据集)一都公开可用。
本质与评估
为了考证 VideoMind 的灵验性,作家在14 个公开基准测试集上进行了等闲的本质,涵盖了长视频定位 + 问答(Grounded VideoQA)、视频时序定位 ( Video Temporal Grounding ) 和平时视频问答 ( General VideoQA ) 等任务。
△表 2:用于 VideoMind 评测的基准测试集
(1)视频定位 + 问答(Grounded VideoQA)
在 CG-Bench、ReXTime、NExT-GQA 等长视频基准上,VideoMind 在谜底精确度和时序定位准确性方面发扬出了杰出上风。至极的,在平均视频长度约为 27 分钟的 CG-Bench 中,较小的 VideoMind-2B 模子在时序定位和问答任务上超越了 GPT-4o、Gemini-1.5-Pro 等开赴点进的模子。
△表 3:CG-Bench 数据集的测试抛弃
外国色情片△表 4:NExT-GQA 数据集的测试抛弃
(2)视频时序定位(Video Temporal Grounding)
VideoMind 的 Grounder 通过翻新的 Timestamp Decoder 和 Temporal Feature Pyramid 想象,权贵提高了视频时序定位的准确性。Verifier 的想象进一步教育了高精度定位的性能。VideoMind 在 Charades-STA、ActivityNet-Captions、QVHighlights 等基准上都取得了最好性能。此外,VideoMind 亦然首个相沿多片断 grounding 的多模态大模子,因此不错在 QVHighlights 数据集上跟现存模子平允对比。
△表 5:Charades-STA 数据集的测试抛弃
△表 6:ActivityNet Captions 数据集的测试抛弃
△表 7:QVHighlights 数据集的测试抛弃
(3)一般视频问答(General VideoQA)
关于通用的视频判辨问题,VideoMind 也发扬出了高大的泛化才略。在 Video-MME、MVBench、MLVU、LVBench、LongVideoBench 等基准上,VideoMind 收货于其 Planner 的想象,不错自适合地决定是否需要 grounding,其性能超越了好多先进的视频问答模子,清晰了其在不同视频长度下的优厚发扬。
△表 8:Video-MME、MLVU 和 LVBench 数据集的测试抛弃
△表 9:LongVideoBench 数据集的测试抛弃
以下例子展现了 VideoMind 在本色场景中的推理进程。给定一个视频和一个问题,该模子不错拆解问题、指定筹商、搜索片断、考证抛弃,并把柄获取的片断推理最终谜底。该战略比较传统的纯笔墨推理(左下部分)愈加妥当东谈主类步履,抛弃也愈加可靠。
△图 6:VideoMind 的推理进程可视化总结
VideoMind 的建议不仅在于视频判辨性能的冲突,更在于建议了一个模块化、可扩张、可解释的多模态推理框架。该框架初次罢了了访佛东谈主类步履的"指定筹商、搜索片断、考证抛弃、回答问题"进程,真实让 AI 能"像东谈主类相同判辨视频",为异日的视频判辨和多模态智能系统限制奠定了基础。
神色主页:https://videomind.github.io/
论文衔接:https://arxiv.org/abs/2503.13444
开源代码:https://github.com/yeliudev/VideoMind
开源数据:https://huggingface.co/datasets/yeliudev/VideoMind-Dataset
在线 Demo:https://huggingface.co/spaces/yeliudev/VideoMind-2B
一键三连「点赞」「转发」「提神心」
接待在驳倒区留住你的念念法!
— 完 —
学术投稿请于职责日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 神色主页衔接,以及关连神色哦
咱们会(尽量)实时回答你
� � 点亮星标 � �
科技前沿进展逐日见男同 按摩