Natural Language Processing in Adversarial Settings and Beyond: Benefits and Risks of Text Classification, Transformation, and Representation

Julkaisun otsikon käännös: Natural Language Processing in Adversarial Settings and Beyond: Benefits and Risks of Text Classification, Transformation, and Representation

Tommi Gröndahl

Tutkimustuotos: Doctoral ThesisCollection of Articles

Abstrakti

Kieliteknologia (NLP) on kehittynyt merkittävästi viime vuosina, millä on seurauksia myös sen välittömien sovellusten ulkopuolella. NLP:n saatavuus on erityisen merkittävää tietoturvan ja yksityisyyden näkökulmasta, sekä positiivisessa että negatiivisessa mielessä. Esimerkiksi tekstien luokittelua merkityksen tai kirjoitustyylin perusteella voidaan hyödyntää monin tavoin, mutta se sallii myös vahingollisen käytön, kuten sensuurin tai yksityisyydenloukkaukset. Vastaavasti tekstin automaattista muokkausta voidaan käyttää sekä kiertohyökkäyksiin että puolustautumiseen tekstin asiatonta profilointia vastaan. Tämä väitöskirja tutkii NLP-menetelmien suoriutumista useissa tehtävissä ja tämän seurauksia koskien tietoturvaa, erityisesti hyökkäys-puolustusasetelmissa. Tarkastelimme aluksi, kykenevätkö johtavat NLP-menetelmät tunnistamaan haitallista tekstiä, kuten valheita tai vihapuhetta. Havaitsimme, että luokittelijat jäävät usein kiinni yksinkertaisiin piirteisiin riippumatta koneoppimismallista, mikä voi tehdä niistä epäluotettavia ja altistaa ne kiertohyökkäyksille. Mallin monimutkaistamisen sijaan tarvitaan harjoitusdatan lisäämistä. Osoitimme myös, että tekstin muokkaamista voi onnistuneesti käyttää harjoitusdatan synteettiseen laajentamiseen. Jotkin haitalliset tekstityypit – kuten valhe – ovat kuitenkin todennäköisesti liian kontekstiriippuvaisia, jotta niiden luotettava tunnistus olisi mahdollista nykymenetelmillä. Käytimme tekstin muokkausta myös luokittelun kiertämiseen sekä hyökkääjän että puolustautujan näkökulmasta. Oleellinen tulos oli, että syväoppivat neuroverkot (Deep Neural Network: DNN) eivät säilyttäneet semanttista sisältöä luotettavasti toisin kuin sääntöpohjaiset menetelmät, jotka sallivat tiukan kontrollin muokkauksista. Toisaalta DNN:t ovat joustavampia ja pystyvät tuottamaan vaihtelevampaa tekstiä kuin pelkät symboliset säännöt. Tämä osoittaa DNN:ien ja sääntöpohjaisen NLP:n vastavuoroisuudesta, mikä puoltaa sitä, ettei kumpaakaan tulisi hylätä. Kiertohyökkäyksen välttämiskeinona näytämme, että esimerkkihyökkäysten lisääminen harjoitusdataan on hyödyllistä kummankinlaisia tekniikoita vastaan. Datan esittämisen tärkeys nousee esiin sekä tekstin luokittelu- että muokkaustehtävissä. Tämä on oleellista monenlaisissa NLP-sovelluksissa. Viimeaikaisten kielitieteellisten kehitysten motivoimina näytämme, että ilmaisuvoimaisia semanttisia representaatioita on mahdollista tuottaa käyttämällä huomattavasti vähemmän semanttisia rooleja kuin aiemmissa formalismeissa. Tämän pohjalta esitämme uuden formaatin, joka sallii helpon mutta tehokkaan tiedonhaun sekä suoraviivaisen integraation DNN:ien kanssa vektorisoidussa muodossa. Osoitamme kyseisen formaatin kyvyn säilyttää informaatiota yksinkertaisesta rakenteestaan huolimatta. Lisäksi sovelsimme sitä lauseparikorpuksien tuottamiseen ja tekstin muokkaukseen, mistä syntyneet useat uudet aineistot luovutamme saataville avoimesti.
Julkaisun otsikon käännösNatural Language Processing in Adversarial Settings and Beyond: Benefits and Risks of Text Classification, Transformation, and Representation
AlkuperäiskieliEnglanti
PätevyysTohtorintutkinto
Myöntävä instituutio
  • Aalto-yliopisto
Valvoja/neuvonantaja
  • Asokan, N., Vastuuprofessori
  • Asokan, N., Ohjaaja
Kustantaja
Painoksen ISBN978-952-64-0443-1
Sähköinen ISBN978-952-64-0444-8
TilaJulkaistu - 2021
OKM-julkaisutyyppiG5 Tohtorinväitöskirja (artikkeli)

Tutkimusalat

  • tekstin luokittelu
  • tekstin muunnos
  • tekstin representaatio
  • kiertohyökkäys
  • valehtelu
  • vihapuhe
  • stylometria
  • tyylimuunnos
  • data-augmentaatio
  • semantiikka

Sormenjälki

Sukella tutkimusaiheisiin 'Natural Language Processing in Adversarial Settings and Beyond: Benefits and Risks of Text Classification, Transformation, and Representation'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

Siteeraa tätä