Size-Modulated Deformable Attention in Spatio-Temporal Video Grounding Pipelines

Hans Tiwari*, Selen Pehlivan Tort, Jorma Laaksonen

*Tämän työn vastaava kirjoittaja

Tutkimustuotos: Artikkeli kirjassa/konferenssijulkaisussaConference article in proceedingsScientificvertaisarvioitu

Abstrakti

The integration of attention mechanisms into computer vision tasks, inspired by the success of Transformers in natural language processing, has revolutionized various applications such as object detection and visual grounding. In this paper, we focus on spatio-temporal video grounding (STVG), a computer vision task that aims to jointly extract spatial and temporal regions from videos based on textual descriptions. Leveraging recent advancements in attention-based Transformer architectures, particularly in object detectors, and building upon a recent baseline model, we integrate two enhancements in attention modules: Width-Height Modulation and Deformable Attention units. These enhancements aim to improve the accuracy and efficiency of STVG techniques in two datasets, HC-STVG and VidSTG, by addressing challenges related to feature inconsistencies and prediction reliability across video frames. As a result, our study contributes to advancing the baseline models in spatio-temporal video grounding, bridging the gap between computer vision and natural language processing domains.
AlkuperäiskieliEnglanti
OtsikkoPattern Recognition - 27th International Conference, ICPR 2024, Proceedings
ToimittajatApostolos Antonacopoulos, Subhasis Chaudhuri, Rama Chellappa, Cheng-Lin Liu, Saumik Bhattacharya, Umapada Pal
KustantajaSpringer
Sivut308-324
ISBN (elektroninen)978-3-031-78456-9
ISBN (painettu)978-3-031-78455-2
DOI - pysyväislinkit
TilaJulkaistu - 3 jouluk. 2024
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisussa
TapahtumaInternational Conference on Pattern Recognition - Kolkata, Intia
Kesto: 1 jouluk. 20245 jouluk. 2024
Konferenssinumero: 27

Julkaisusarja

NimiLecture Notes in Computer Science
KustantajaSpringer
Vuosikerta15318
ISSN (painettu)0302-9743
ISSN (elektroninen)1611-3349

Conference

ConferenceInternational Conference on Pattern Recognition
LyhennettäICPR
Maa/AlueIntia
KaupunkiKolkata
Ajanjakso01/12/202405/12/2024

Sormenjälki

Sukella tutkimusaiheisiin 'Size-Modulated Deformable Attention in Spatio-Temporal Video Grounding Pipelines'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

Siteeraa tätä