Combining Textual and Visual Modeling for Predicting Media Memorability

Alison Reboud, Ismail Harrando, Jorma Laaksonen, Danny Francis, Raphaël Troncy, Hector Laria Mantecon

Tutkimustuotos: Artikkeli kirjassa/konferenssijulkaisussaChapterScientific

2 Sitaatiot (Scopus)
116 Lataukset (Pure)

Abstrakti

This paper describes a multimodal approach proposed by the MeMAD team for the MediaEval 2019 “Predicting Media memorability” task. Our best approach is a weighted average method combining predictions made separately from visual and textual representations of videos. In particular, we augmented the provided textual descriptions with automatically generated deep captions. For long term
memorability, we obtained better scores using the short term predictions rather than the long term ones. Our best model achieves Spearman scores of 0.522 and 0.277 respectively for the short and long term predictions tasks.
AlkuperäiskieliEnglanti
OtsikkoWorking Notes Proceedings of the MediaEval 2019 Workshop, Sophia Antipolis, France, 27-30 October 2019
KustantajaCEUR
TilaJulkaistu - 27 lokak. 2019
OKM-julkaisutyyppiB2 Kirjan tai muun kokoomateoksen osa
TapahtumaMultimedia Benchmark Workshop - Sophia Antipolis, Ranska
Kesto: 27 lokak. 201930 lokak. 2019

Julkaisusarja

NimiCEUR Workshop Proceedings
KustantajaCEUR
Vuosikerta2670
ISSN (elektroninen)1613-0073

Workshop

WorkshopMultimedia Benchmark Workshop
LyhennettäMediaEval
Maa/AlueRanska
KaupunkiSophia Antipolis
Ajanjakso27/10/201930/10/2019

Sormenjälki

Sukella tutkimusaiheisiin 'Combining Textual and Visual Modeling for Predicting Media Memorability'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.
  • MeMAD Laaksonen

    Laaksonen, J. (Vastuullinen tutkija)

    01/01/201831/03/2021

    Projekti: EU: Framework programmes funding

Siteeraa tätä