Kuinka nopeasti kirjoittajan voi tunnistaa tekstin perusteella?
Unsplash
GEO
Kirjailija on mahdollista tunnistaa jopa vain kymmenestä hänen kirjoittamastaan sanasta. Tähän tulokseen päätyivät Puolan tiedeakatemian fyysikot. Tutkimuksen tulokset julkaistiin Information Sciences -lehdessä.
Tutkijat rakensivat kirjallisen tekstin tietokoneanalyysiä varten kokonaan uuden työkalun, jossa hyödynnetään kuvallista esitysmuotoa. He muodostivat tutkittavasta tekstistä verkkoesityksen, jossa verkon solmukohtina olivat tekstin sanat ja välimerkit. Jos kaksi sanaa esiintyi tekstissä peräkkäin, ne yhdistettiin toisiinsa kaarella. Materiaali analysoitiin sen jälkeen tilastollisia menetelmiä käyttäen.
Fyysikot analysoivat kaiken kaikkiaan 96 englannin- ja puolankielistä teosta 16 kirjailijalta. Analysoitavien kirjailijoiden joukossa olivat esimerkiksi Jane Austen, Charles Dickens, George Orwell ja nobelisti Władysław Reymont.
Englanninkielisen teoksen kirjoittaja onnistuttiin määrittämään oikein 10−12 satunnaisesti valitun sanan perusteella yhdeksässä tapauksessa kymmenestä. Puolankielisten teosten kohdalla tunnistaminen tapahtui vielä nopeammin: oikeaan osumiseen tarvittiin vain viidestä kuuteen sanaa. Syy on todennäköisesti se, että puolan ja muiden slaavilaisten kielien sanajärjestys on joustavampi ja sallii näin enemmän tyylillistä vaihtelua. Tutkimuksessa havaittiin myös, että välimerkit ovat tyylin tunnistamisessa yhtä tärkeitä kuin sanat.
Tulevaisuudessa menetelmästä toivotaan apua historiallisten tekstikatkelmien kirjoittajan selvittämiseen ja väärennösten paljastamiseen.
Juttu on julkaistu GEO-lehdessä 3/2020.
Lue myös:
Tämä sivusto käyttää evästeitä käytettävyyden parantamiseksi. Jatkamalla sivuston käyttöä hyväksyt myös evästeiden käyttämisen.
© Fokus Media Finland. Materiaalin kopioiminen muuhun kuin yksityiseen, ei-kaupalliseen käyttöön kielletty.
Aineiston käyttö uuden palvelun osana kielletty.
Fokus Media Finland Oy, Hämeentie 135, 00560 Helsinki, Y-tunnus 2618356-2