Siirry päänavigointiin Siirry hakuun Siirry pääsisältöön

Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision

  • Tzu-Jui Julius Wang
  • , Jorma Laaksonen
  • , Tomas Langer
  • , Heikki Arponen
  • , Tom Bishop
  • Intuition Machines Inc.
  • Systematic Alpha
  • Glass Imaging Inc.

Tutkimustuotos: Artikkeli kirjassa/konferenssijulkaisussaConference article in proceedingsScientificvertaisarvioitu

6 Sitaatiot (Scopus)
76 Lataukset (Pure)

Abstrakti

Weakly-supervised vision-language (V-L) pre-training (W-VLP) aims at learning cross-modal alignment with little or no paired data, such as aligned images and captions. Recent W-VLP methods, which pair visual features with object tags, help achieve performances comparable with some VLP models trained with aligned pairs in various V-L downstream tasks. This, however, is not the case in cross-modal retrieval (XMR). We argue that the learning of such a W-VLP model is curbed and biased by the object tags of limited semantics.We address the lack of paired V-L data for model supervision with a novel Visual Vocabulary based Feature Hallucinator (WFH), which is trained via weak supervision as a W-VLP model, not requiring images paired with captions. WFH generates visual hallucinations from texts, which are then paired with the originally unpaired texts, allowing more diverse interactions across modalities.Empirically, WFH consistently boosts the prior W-VLP works, e.g. U-VisualBERT (U-VB), over a variety of V-L tasks, i.e. XMR, Visual Question Answering, etc. Notably, benchmarked with recall@{1,5,10}, it consistently U-VB on image-to-text and improves text-to-image retrieval on two popular datasets Flickr30K and MSCOCO. Meanwhile, it gains by at least 14.5% in cross-dataset generalization tests on these XMR tasks. Moreover, in other V-L downstream tasks considered, our WFH models are on par with models trained with paired V-L data, revealing the utility of unpaired data. These results demonstrate greater generalization of the proposed W-VLP model with WFH.

AlkuperäiskieliEnglanti
OtsikkoProceedings - 2023 IEEE Winter Conference on Applications of Computer Vision, WACV 2023
KustantajaIEEE
Sivut1073-1083
Sivumäärä11
ISBN (elektroninen)978-1-6654-9346-8
DOI - pysyväislinkit
TilaJulkaistu - 6 helmik. 2023
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisussa
TapahtumaIEEE Winter Conference on Applications of Computer Vision - Waikoloa, Yhdysvallat
Kesto: 2 tammik. 20237 tammik. 2023

Julkaisusarja

NimiIEEE Winter Conference on Applications of Computer Vision
ISSN (elektroninen)2642-9381

Conference

ConferenceIEEE Winter Conference on Applications of Computer Vision
LyhennettäWACV
Maa/AlueYhdysvallat
KaupunkiWaikoloa
Ajanjakso02/01/202307/01/2023

Sormenjälki

Sukella tutkimusaiheisiin 'Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.
  • USSEE: Understanding speech and scene with ears and eyes (USSEE)

    Laaksonen, J. (Vastuullinen johtaja), Kainulainen, J. (Projektin jäsen), Saif, A. (Projektin jäsen), Wang, T.-J. (Projektin jäsen), Guo, Z. (Projektin jäsen), Arora, P. (Projektin jäsen), Riahi, I. (Projektin jäsen), Tiwari, H. (Projektin jäsen) & Pehlivan Tort, S. (Projektin jäsen)

    01/01/202231/12/2024

    Projekti: RCF Academy Project targeted call

  • MoMaF: Movie Making Finland: Finnish fiction films as audiovisual big data, 1907–2017

    Laaksonen, J. (Vastuullinen johtaja), Pehlivan Tort, S. (Projektin jäsen), Kreutzman, E. (Projektin jäsen), Xiang, W. (Projektin jäsen) & Wang, T.-J. (Projektin jäsen)

    01/01/202031/12/2022

    Projekti: RCF Other

  • -: Tekoäly metsän biomassan ja rakenteen arvioinnissa

    Laaksonen, J. (Vastuullinen johtaja), Wang, T.-J. (Projektin jäsen), Anwer, R. (Projektin jäsen), Nguyen, S. (Projektin jäsen), Guo, Z. (Projektin jäsen), Bin Shafaat, A. (Projektin jäsen), Pham, P. (Projektin jäsen) & Cu, T. (Projektin jäsen)

    01/01/201831/12/2022

    Projekti: Academy of Finland: Other research funding

Siteeraa tätä