开放期刊系统

长视频片段定位的时间对齐与检索增强方法

羿凯 王(北京邮电大学,中国)
奇威 沈(北京邮电大学,中国)

摘要

长视频片段定位需模型兼顾长时序语义匹配与精细时间对齐,但现有大型视频 - 语言模型(LVLMs)存在上下文冗余、语义漂移及“证据—时间”错配等问题。扩大视觉 token 易增计算开销与噪声,语义相似度检索法则易出现 temporal drift。为此,本文提出 TAEC-RAG 框架,无需盲目扩展视觉上下文:提取多源带时间戳证据构建库,经片段化压缩转化为可控证据单元,通过时间一致性约束抑制 temporal drift,将紧凑证据与查询输入 LVLM 实现增强推理。实验验证,该方法在长视频基准不同查询粒度下稳定提升定位性能,事件级定位增益尤为显著。

关键词

长视频片段定位;检索增强生成;时间对齐;证据压缩

全文:

PDF

参考

Liu Z, Dong Y, Liu Z, et al. Oryx mllm: On-demand spatial-temporal understanding at arbitrary resolution[J]. arXiv preprint arXiv:2409.12961, 2024.

Zhang P, Zhang K, Li B, et al. Long context transfer from language to vision[J]. arXiv preprint arXiv:2406.16852, 2024.

Liu H, Li C, Li Y, et al. Llavanext: Improved reasoning, ocr, and world knowledge[EB/OL].(2024-1)



DOI: http://dx.doi.org/10.12345/bdai.v7i2.37658

Refbacks

  • 当前没有refback。
版权所有(c)2026 羿凯 王, 奇威 沈 Creative Commons License
此作品已接受知识共享署名-非商业性使用 4.0国际许可协议的许可。
  • :+65-62233778 QQ:2249355960 :contact@s-p.sg