ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations

Yue Jiang*, Eldon Schoop, Amanda Swearngin, Jeffrey Nichols

*Tämän työn vastaava kirjoittaja

Tutkimustuotos: Artikkeli kirjassa/konferenssijulkaisussaConference article in proceedingsScientificvertaisarvioitu

11 Lataukset (Pure)

Abstrakti

Multimodal Vision-Language Models (VLMs) enable powerful applications from their fused understanding of images and language, but many perform poorly on UI tasks due to the lack of UI training data. In this paper, we adapt a recipe for generating paired text-image training data for VLMs to the UI domain by combining existing pixel-based methods with a Large Language Model (LLM). Unlike prior art, our method requires no human-provided annotations, and it can be applied to any dataset of UI screenshots. We generate a dataset of 353K conversational examples paired with UIs that cover Q&A, UI descriptions, and planning, and use it to fine-tune a conversational VLM for UI tasks. To assess the performance of our model, we benchmark it on UI element detection tasks, evaluate response quality, and showcase its applicability to UI verification.

AlkuperäiskieliEnglanti
OtsikkoIUI 2025 - Proceedings of the 2025 International Conference on Intelligent User Interfaces
KustantajaACM
Sivut861-877
Sivumäärä17
ISBN (elektroninen)9798400713064
DOI - pysyväislinkit
TilaJulkaistu - 24 maalisk. 2025
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisussa
TapahtumaInternational Conference on Intelligent User Interfaces - Cagliari, Italia
Kesto: 24 maalisk. 202527 maalisk. 2025

Julkaisusarja

NimiInternational Conference on Intelligent User Interfaces, Proceedings IUI

Conference

ConferenceInternational Conference on Intelligent User Interfaces
LyhennettäIUI
Maa/AlueItalia
KaupunkiCagliari
Ajanjakso24/03/202527/03/2025

Sormenjälki

Sukella tutkimusaiheisiin 'ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

Siteeraa tätä