Ch.20_Methods.tex

\chapter{Tekstin automaattinen luokitus\label{methods}}

NLP-luokittimia käytetään analysoimaan tekstiä, joissa on tehokkaampaa korvata ihmisen manuaalisesti tekemä työ. Ensin käydään läpi neljä yleistä tapausta tekstin automaattisesta luokituksesta. Nämä neljä tapausta ovat roskapostin suodatus sähköposteista, vihapuheen sensurointi sosiaalisesta mediasta, valearvosteluiden tunnistus nettikauppojen arvosteluosioista sekä sentimenttianalyysi. Lopuksi käydään läpi tekstin automaattisen luokituksen edut verrattuna manuaaliseen, ihmisen tekemään luokitustyöhön.

\section{Roskapostien suodatus}

Sähköpostien automaattiseen luokitukseen joko roskaposteiksi tai asiaposteiksi käytetään NLP-luokittimia. Noin 70\% liiketoiminnan sähköposteista on roskapostia. Näiden roskapostien tarkoitus voi muun muassa olla huijausta, ärsyttämistä tai loukkaamista \citep{spam}.

Roskapostin vaikutukset käyttäjästä riippuen ovat niin vakavia, että sähköpostipalvelun tarjoajan intresseissä on implementoida roskapostisuodatin. Kokenut sähköpostipalvelun käyttäjä pystyisi tarkastamaan manuaalisesti vastaanotetusta sähköpostista, mikäli kyseinen sähköposti olisi esimerkiksi kalasteluroskapostia. Koska roskapostia lähetetään automaattisesti jokaiseen olemassa olevaan sähköpostiosoitteeseen päivittäin, menisi roskapostien tunnistamiseen ihmiseltä liian kauan aikaa päivittäin. Automaattisella roskapostin lähetyksellä tarkoitetaan tietokoneella ohjelmoitua sähköpostien lähettämistä eri sähköpostiosoitteisiin. Usein nämä sähköpostiosoitteetkin ovat hankittu tietokoneohjelmoinnin avulla, joten roskapostia lähetetään päivittäin paljon. Roskapostit saattavat sisältää viestin avaajaa järkyttävää tai provosoivaa mediaa \citep{spam}.

Roskaposti saattaa sisältää myös kalasteluyrityksiä. Kalasteluhyökkäyksessä tarkoituksena on huijata käyttäjää antamaan erilaisia tunnus-salasana-yhdistelmiä liittämällä roskapostiin esimerkiksi linkin viralliselta näyttävältä sivulle \citep{phishing}. Sivulla käyttäjää kehotetaan kirjautumaan tunnuksillaan tuttuun palveluun, mutta oikeasti palvelu vain varastaa käyttäjän tunnukset. Roskaposti saattaa myös sisältää haittaohjelmia, joita käyttäjä voi saada koneelleen muun muassa lataamalla ja suorittamalla sähköpostin tiedostoja tai vierailemalla pahantahtoisella sivustolla. Tämä pahantahtoinen sivusto usein sisältää koodia, joka hyväksikäyttää usein jotain selaimen haavoittuvaisuutta esimerkiksi asentaakseen tietokoneelle haittaohjelmia. Sivustolle ohjaamisen lisäksi kalastelupostissa on usein liitteenä jonkinlainen tiedosto, jonka avaamisella tai suorittamisella olisi pahantahtoiset tarkoitukset. Esimerkiksi pdf-pääte näyttää päältäpäin asialliselta. Joskus kuitenkin kyseisen päätteen omaavat tiedostot ovat vaarallisia \citep{hoxhunt}. Myös kiristysviestejä sekä sähköposteja eteenpäinlähettäviä haittaohjelmia kulkee roskapostien mukana, joita sähköpostipalvelun tarjoajat pyrkivät estämään roskapostisuodattimilla.

Vahinkotilastot roskaposteista antavat lisäarvoa roskapostisuodattimien kehitykselle ja ylläpidolle. Kalasteluroskapostin on arvioitu aiheuttaneen pelkästään vuonna 2004 1,2 miljardin dollarin taloudelliset vahingot \citep{indirect}. Syyskuun 2006 ja elokuun 2007 välillä on arvioitu kalasteluroskapostin aiheuttaneen 3,2 miljardin dollarin taloudelliset vahingot 3,6 miljoonalle ihmiselle. Vuodesta 2004 vuoteen 2008 mennessä kalasteluroskaposti-ilmoitusten määrä oli miltei kolminkertaistunut. Pelko kalastelun uhriksi joutumisesta on laskenut asiallisten sähköpostien avaamista 20 prosenttia. Yhdysvaltojen pankeissa kalastelun pidetään olevan myös yksi suurimmista syistä heikentyneeseen asiakasluottamukseen \citep{stats-phishing}.

\section{Vihapuheen sensurointi}

Vihapuheen riittävään sensurointiin tarvitaan luonnollisen kielen käsittelyä. Suodattimen rakentaminen vihapuhetta vastaan pelkkien avainsanojen perusteella ei tuota toivottuja tuloksia. Katsotun vihapuheen sensuroinnille tarvitaan muun muassa meneillään olevan keskustelun suunta, tarkka ajanhetki, ajankohtaiset maailman tapahtumat, lähettäjän sekä vastaanottajan henkilöllisyys sekä kontekstuaaliset mediat, esimerkiksi kuvat, videot tai ääni \citep{hate}. Vihapuheen sensurointi manuaalisesti vaatii kontekstin ymmärystä keskustelusta. Käytännössä tämä vaatisi yhdeltä tarkastajalta aiheen tutkimista sekä mahdollisiin uusiin vihapuhesanoihin tai vihapuhetta sisältäviin lauseisiin tutustumista. Työntekijöitä tarvittaisiin todennäköisesti paljon, mutta manuaalisella vihapuheen sensuroinnilla on myös toinen ongelma. Kaupallisen sisällön moderaattorit altistavat usein itsensä häiritsevälle sisällölle. Kaupallisella sisällöllä tarkoitetaan tässä tapauksessa esimerkiksi Facebookin, Googlen ja Twitterin sisältöä. Pienemmillä alustoilla moderointia harjoitetaan useammin vapaaehtoistyönä, jolloin häiritsevä sisältö jakaantuu usealle eri vapaaehtoiselle muutaman palkkatyöläisen sijasta. Kaupallisen sisällön moderoitava häiritsevä sisältö saattaa johtaa pitkäaikaiseen psykologiseen ja henkiseen kärsimykseen \citep{moderation}. Yleisimpiä digitaalisen vihapuheen muotoja vuosien 2004 ja 2017 välillä olivat yleinen vihapuhe, rasismi, seksimi ja syrjintä uskonnon perusteella \citep{hatespeech-stats}.

\section{Valearviointien tunnistus}
Ostosten tekemisten mahdollisuuden netissä sekä tuotteiden hyvän saatavuuden vuoksi kuluttajat joutuvat perustelemaan ostopäätöksensä yhä useammin tuotearvosteluihin \citep{falsereview}. Tuotearvostelujen kasvava rooli asiakkailla on luonut perustaa uudelle WOM-tietotyypille. WOM (eng. WOM, Word of mouth), eli suullisesti välitetty tieto, tarkoittaa tässä tapauksessa ihmisten kirjoittamia tuotearvostelun välittämää tietoa. 52 prosenttia internettiä käyttävistä kuluttajista selailee tuotetietoja netistä, sekä 24 prosenttia tästä ryhmästä selailee tuotteita netistä ennen ostoksen tekemistä. Yli 50:llä prosentilla elektroniikkaa ostavista kuluttajista on tapana konsultoida useampaa WOM-lähdettä ennen ostopäätöstä \citep{fakereview-stats}. Oikeiden arvosteluiden lisäksi tuotesivulla saattaa olla valearvosteluja. Luonnollisen kielen käsittelyyn perustuvalla tekniikalla voidaan kyseiset valoarvostelut tunnistaa ja tuhota.

Valearvostelujen määrä ja kieliasu ovat pääsyyt NLP-luokittimien käyttöön edellä mainitussa käyttökohteessa. Valearvosteluita voidaan tuottaa eri syistä. esimerkiksi tuotteen näennäisen arvon laskeminen kilpailullisen tuotteen näennäisen arvon nostamiseksi.  Valearvosteluita voidaan myös tehdä myös pelkästään pahantahtoisella tarkoituksella alentaa tuotteen näennäisarvoa. Luokitin tunnistaa suuresta määrästä arvosteluja valearvostelut, vaikka kieliasu ei olisikaan formaali. Tässäkään tapauksessa pelkkä suodatin, joka perustuu avainsanoihin, ei riitä tunnistamaan valearvosteluita aidoista arvosteluista. Valearvostelujen tunnistus luonnollisen kielen avulla on markkinallisista syistä verkkokauppojen intresseissä. Valearviointien manuaalisessa tunnistuksessa on samanlaisia ongelmia kuin roskapostitunnistuksessa. Tämän lisäksi valearvostelut hukkuvat oikeiden ihmisten lähettämien arvostelujen sekaan, joita lähetetään todennäköisesti alemmalla kynnyksellä, kuin sähköposteja.

\section{Sentimenttianalyysi}

Tunnesävyn tunnistaminen omasta tai kilpailijan tuotteesta tuottaa arvokasta tietoa tuotekehitykselle sekä markkinointi että asiakassuhteen ylläpidolle. Kuluttajien sentimentaalisuuden analysoiminen automaattisesti luonnollisen kielen käsittelyn tekniikoiden avulla on kustannustehokasta. Manuaalisesti tunnesävyjen selvittäminen jokaisesta olennaisesta netissä olevasta tekstistä vaatisi paljon resursseja eikä välttämättä tuottaisi yhtä paljon tai yhtä laadukkaita tuloksia, kuin automaattinen sentimentaalisuuden analysoiminen \citep{sentimentality}.

Tämä tarkastustyö voitaisiin tehdä manuaalisesti, mutta tarkastettavan sisällön määrän vuoksi tämä ei käytännössä ole kannattavaa ja useammissa tapauksissa onkin miltei mahdotonta. Yksittäisen keskustelun tai aiheen tutkiminen ei riittäisi analysoimaan tunnesävyjä, vaan tarkastajan täytyisi käydä läpi mahdollisimman monta netin tekstiä ja analysoida näistä tunnesävyt. Vaikka tekstin automaattisella luokituksella on paljon etuja verrattuna tekstin manuaaliseen luokitukseen, sisältää tekstin automaattinen luokitus kuitenkin tietoturvahiekkouksia.