Scalable gradient-based tuning of continuous regularization hyperparameters

Jelena Luketina, Mathias Berglund, Klaus Greff, Tapani Raiko

Tutkimustuotos: Artikkeli kirjassa/konferenssijulkaisussaConference contributionScientificvertaisarvioitu

3 Sitaatiot (Scopus)

Abstrakti

Hyperparameter selection generally relies on running multiple full training trials, with selection based on validation set performance. We propose a gradient-based approach for locally adjusting hyperparameters during training of the model. Hyperparameters are adjusted so as to make the model parameter gradients, and hence updates, more advantageous for the validation cost. We explore the approach for tuning regularization hyperparameters and find that in experi-ments on MNIST, SVHN and CIFAR-10, the resulting rcgularization levels are within the optimal regions. The additional computational cost depends on how frequently the hyperparameters are trained, but the tested scheme adds only 30% computational overhead regardless of the model size. Since the method is significantly less computationally demanding compared to similar gradient based approaches to hyperparameter optimization, and consistently finds good hyperparameter values, it can be a useful tool for training neural network models.

AlkuperäiskieliEnglanti
Otsikko33rd International Conference on Machine Learning, ICML 2016
Sivut4333-4341
Sivumäärä9
Vuosikerta6
ISBN (elektroninen)9781510829008
TilaJulkaistu - 2016
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisuussa
TapahtumaInternational Conference on Machine Learning - New York, Yhdysvallat
Kesto: 19 kesäkuuta 201624 kesäkuuta 2016
Konferenssinumero: 33

Conference

ConferenceInternational Conference on Machine Learning
LyhennettäICML
MaaYhdysvallat
KaupunkiNew York
Ajanjakso19/06/201624/06/2016

Sormenjälki Sukella tutkimusaiheisiin 'Scalable gradient-based tuning of continuous regularization hyperparameters'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

  • Siteeraa tätä

    Luketina, J., Berglund, M., Greff, K., & Raiko, T. (2016). Scalable gradient-based tuning of continuous regularization hyperparameters. teoksessa 33rd International Conference on Machine Learning, ICML 2016 (Vuosikerta 6, Sivut 4333-4341)