长视频片段定位的时间对齐与检索增强方法

羿凯 王; 奇威 沈

doi:10.12345/bdai.v7i2.37658

开放期刊系统

长视频片段定位的时间对齐与检索增强方法

羿凯王(北京邮电大学，中国)
奇威沈(北京邮电大学，中国)

摘要

长视频片段定位需模型兼顾长时序语义匹配与精细时间对齐，但现有大型视频 - 语言模型（LVLMs）存在上下文冗余、语义漂移及“证据—时间”错配等问题。扩大视觉 token 易增计算开销与噪声，语义相似度检索法则易出现 temporal drift。为此，本文提出 TAEC-RAG 框架，无需盲目扩展视觉上下文：提取多源带时间戳证据构建库，经片段化压缩转化为可控证据单元，通过时间一致性约束抑制 temporal drift，将紧凑证据与查询输入 LVLM 实现增强推理。实验验证，该方法在长视频基准不同查询粒度下稳定提升定位性能，事件级定位增益尤为显著。

关键词

长视频片段定位；检索增强生成；时间对齐；证据压缩

全文:

PDF

参考

Liu Z, Dong Y, Liu Z, et al. Oryx mllm: On-demand spatial-temporal understanding at arbitrary resolution[J]. arXiv preprint arXiv:2409.12961, 2024.

Zhang P, Zhang K, Li B, et al. Long context transfer from language to vision[J]. arXiv preprint arXiv:2406.16852, 2024.

Liu H, Li C, Li Y, et al. Llavanext: Improved reasoning, ocr, and world knowledge[EB/OL].(2024-1)

DOI: http://dx.doi.org/10.12345/bdai.v7i2.37658

Refbacks

当前没有refback。

此作品已接受知识共享署名-非商业性使用 4.0国际许可协议的许可。



记住我

大数据与人工智能

开放期刊系统

长视频片段定位的时间对齐与检索增强方法

摘要

关键词

全文:

参考

Refbacks