长视频片段定位的时间对齐与检索增强方法
摘要
长视频片段定位需模型兼顾长时序语义匹配与精细时间对齐,但现有大型视频 - 语言模型(LVLMs)存在上下文冗余、语义漂移及“证据—时间”错配等问题。扩大视觉 token 易增计算开销与噪声,语义相似度检索法则易出现 temporal drift。为此,本文提出 TAEC-RAG 框架,无需盲目扩展视觉上下文:提取多源带时间戳证据构建库,经片段化压缩转化为可控证据单元,通过时间一致性约束抑制 temporal drift,将紧凑证据与查询输入 LVLM 实现增强推理。实验验证,该方法在长视频基准不同查询粒度下稳定提升定位性能,事件级定位增益尤为显著。
关键词
长视频片段定位;检索增强生成;时间对齐;证据压缩
全文:
PDF参考
Liu Z, Dong Y, Liu Z, et al. Oryx mllm: On-demand spatial-temporal understanding at arbitrary resolution[J]. arXiv preprint arXiv:2409.12961, 2024.
Zhang P, Zhang K, Li B, et al. Long context transfer from language to vision[J]. arXiv preprint arXiv:2406.16852, 2024.
Liu H, Li C, Li Y, et al. Llavanext: Improved reasoning, ocr, and world knowledge[EB/OL].(2024-1)
DOI: http://dx.doi.org/10.12345/bdai.v7i2.37658
Refbacks
- 当前没有refback。

此作品已接受知识共享署名-非商业性使用 4.0国际许可协议的许可。





