Tietokoneen koodaus

Kun tekstiä ja kuvia on yhä enemmän digitalisoitu, on kehittynyt uusi kenttä tekstin tietokoneenkoodaukselle. Koodaaminen ei enää riipu siitä, että todellinen ihminen tarkastelee todellista, fyysistä sanomalehteä ja laskee viittauksia esimerkiksi maailman johtajiin. Nyt tietokone voi skannata etusivun digitaalisen version ja olla koulutettu tunnistamaan näiden johtajien maininnat. Nämä tietotekniikassa ja yhteiskuntatieteissä kehitetyt algoritmit ovat olemassa sekä avoimen lähdekoodin että kaupallisina työkaluina.


Tietokone tuo koodaamiseen useita merkittäviä etuja: Se on uskomattoman nopea; se voi koodata tekstimäärän, jota ei koskaan uskottu mahdolliseksi; ja se on ihanan johdonmukaista.

Mutta tietokonekoodauksella on myös joitain haittoja. Ensinnäkin se voi toimia vain tekstillä, joka on digitalisoitu (ts. Verkkosivustotarinan muodossa) ja joka on julkisesti saatavilla, joten tiettyjä mediakanavia, mukaan lukien paikallinen televisio ja radio, on vaikea luotettavasti koodata. Toiseksi, sen kyky arvioida sellainen vivahde, joka vaikuttaa suhteellisen suoraviivaiselta ihmisen koodaajalle, on edelleen rajallinen: Onko tämä artikkeli yleensä suotuisa presidenttiä kohtaan vai yleensä epäedullinen? Käyttääkö kirjoittaja sarkasmia vai onko kirjoittaja tosissaan? Tietokonealgoritmeja, jotka tekevät tämäntyyppisen 'mielipiteiden analyysin', ollaan luomassa, mutta jossakin määrin nämä ovat alkuvaiheita. Kolmanneksi, joskus voi olla vaikeaa ymmärtää koodattavan digitoidun datan universumin muotoa ja rajoja, erillisen, rajatun sanomalehtipaperin päivät ovat tänään takanamme.


Toistaiseksi olemme Pew Research Centerissä olleet tekemisissä kahden kaupallisen yrityksen kanssa, jotka tarjoavat tietokonekoodausohjelmistoja: Crimson Hexagon (CH) ja General Sentiment (GS). Lähestyimme näitä uusia työkaluja, kuten kaikki uudet metodologiat, optimismilla, uteliaisuudella ja testeillä.

Erityisesti keskuksen tutkijat käyttivät yli 12 kuukautta testaamaan Crimson Hexagonia, ensimmäistä koodausalgoritmia, jonka kanssa työskentelimme. Testatakseen ohjelmiston oikeellisuuden, kaksi ihmistä tutkijaa koodasi 200 tarinaa, jotka myös koodasi algoritmi. Ihmiskoodaajat ja algoritmi sopivat koodauksesta 81% ajasta, ylittäen yleisen standardin interkooderin luotettavuudesta.

Itse alustan pätevyystestien lisäksi Pew Research suoritti erilliset tutkimukset ihmisen interkooderin luotettavuudesta osoittaakseen, että algoritmin kouluttamiseen monimutkaisten käsitteiden koodaamiseen käytettävä prosessi on toistettavissa. Ensimmäisessä testissä viisi tutkijaa koodasi samat 30 tarinaa, mikä johti 85 prosentin sopimukseen.



Toisessa testissä kukin viidestä tutkijasta rakensi oman erillisen CH-projektin saadakseen selville, kuinka tuloksia verrattiin. Tämä testi sisälsi paitsi kooderisopimuksen testaamisen myös sen, kuinka algoritmi käsittelee erilaisia ​​saman sisällön tutkimuksia, kun eri ihmisvalmentajat työskentelevät samassa aiheessa. Viiden erillisen monitorin tulokset olivat 85%: n sisällä toisistaan.


Tämän jälkeen Pew Research Center käytti neljä kuukautta erilaisten GS-testien suorittamiseen. Tutkijoita kiinnosti erityisesti testata, mittaako GS tarkasti aiheiden taajuudet. Tähän kysymykseen vastaamiseksi tutkijat vertasivat GS: n tuloksia tuloksiin, jotka perustuivat ihmisten koodereiden työhön lukemalla useiden suurten uutispisteiden RSS-syötteet.

Esimerkiksi GS sanoi, että USA Todayn RSS-syötteessä 2. lokakuuta oli kahdeksan viittausta Keniaan ja neljä Christopher Cruziin (joka oli mukana New Yorkin pyöräilijähyökkäyksessä). Se oli täsmälleen sama numero, jonka tutkijat löysivät katsellessaan USA Todayn RSS-syötettä.


Tutkijat toistivat saman prosessin useille muille aiheille ja verkkosivustoille, mukaan lukien CNN, Washington Post ja useat paikalliset TV-sivustot. Kussakin tapauksessa pystyimme vastaamaan GS-tuloksia ja RSS-syötteitä.

Pew Research Center testaa jatkuvasti näitä ja muita automaattisia mittaustyökaluja löytääkseen tarkimmat ja pätevimmät menetelmät keskuksen tutkimusohjelman edistämiseksi.