Dokumentaarisen narratiivin rakentaminen tekoälyn avulla: voiko tekstiä generoivasta tekoälystä olla hyötyä faktapohjaisen tekstin jalostamisessa käsikirjoitukseksi?

10 min readAug 11, 2022

Tekstiä generoiva tekoäly kykenee tunnetusti suoltamaan todellisuudesta vieraantunutta potaskaa, mutta voisiko siitä olla apua punaisen langan löytämiseen dokumentaarisesta materiaalista? Tätä lähdin selvittämään, kun generoin tekstiä kollegani Heikki Ketolan graduprojektia varten.

VQGAN+CLIP-työkirjalla tehty tulkinta elokuvasäveltäjästä.

Heikki tutkii gradussaan sitä, miten tekoälyllä voi käsikirjoittaa dokumenttielokuvan olemassa olevan materiaalin pohjalta. Tätä varten hän pyysi minua generoimaan käsikirjoituksen. Heikki työstää lopputyönään dokumenttia, työnimeltään Contemposer — Secrets of Modern Film Music, joka käsittelee elokuvamusiikkia, ja hän oli sitä varten kuvannut haastatteluita elokuvasäveltäjiltä. Tehtäväni oli tuottaa hänelle jonkinlainen käsikirjoitusrunko elokuvan editointia varten käyttämällä litteroitua haastatteluaineistoa tekoälykokeiluissani.

Tekstigeneraattorit on nimensä mukaisesti tarkoitettu uuden tekstin generointiin. OpenAI:n GPT-3 ja muut viime vuosina paljon mediassa esillä olleet tekstigeneraattorit kykenevät tuottamaan loputtomasti uskottavan oloista tekstiä. Kun tekstiä alkaa silmäillä tarkemmin, huomaa kuitenkin nopeasti, että sen sisältämät faktat ovat tuulesta temmattuja. Tekoälyt eivät osaa tehdä eroa faktan ja fiktion välille, joten niiden tuottama teksti osuu oikeaan korkeintaan vahingossa. Siksi ajatus niiden hyödyntämisestä faktapohjaisen tekstin tuottamisessa saattaa alkuun kuulostaa epäintuitiiviselta. Elokuvaan on vaikea leikata mukaan sellaista materiaalia, jota ei ole kuvattu.

Näin kuitenkin Heikin hankkeessa mahdollisuuden tutkia, missä määrin tekstigeneraattorien tuottamien tekstien villiyttä voi suitsia, ja voiko ne saada pysymään asiassa, tässä tapauksessa siis haastatteluaineistosta löytyvässä materiaalissa. GPT:t ovat joustavampia kuin alkuun uskoisi; niitä on onnistuneesti käytetty esimerkiksi käsikirjoitusten muokkaamisen proosaksi, joten miksei sitten haastatteluaineiston muokkaamiseksi käsikirjoitukseksi?

Minulle ei kuitenkaan riittänyt pelkkä suora konversio tekstilajista toiseen, myös sisällön rakenteen oli muututtava. Dokumentaarisessa käsikirjoittamisessa on pohjimmiltaan kyse punainen langan ja oleellisten asioiden löytämisestä todellisesta aineistosta. Tavoitteena oli käyttää tähän työhön tekstigeneraattoria, siis järjestämään hajanaisesta haastattelumateriaalista kokonaisuus, jotta Heikki voisi leikata sen pohjalta elokuvan ja sitten tutkia gradussaan, millaisen rakenteen tekoäly oli löytänyt.

Lähestyin tätä tehtävää ensin kokeilemalla muuntaa litterointiteksti käsikirjoitusformaattiin ja sitten tiivistämällä tekstimassasta erilaisia synopsiksia ja lyhennelmiä. Lähtökohtani oli tuottaa perinteisen käsikirjoitusformaatin mukaista käsikirjoitustekstiä, mutta kun se ei onnistunut tyydyttävällä tasolla, tuotin lopulta tekstiä, jota voisi käyttää käsikirjoituksen tavoin: tekstin oli siis vain kommunikoitava, missä järjestyksessä mitäkin osia haastatteluaineistosta oli leikattava peräkkäin.

Käytin kokeissani vanhaa tuttua GPT-2-järjestelmää, sekä uudempaa ja avoimempaa GPT Neoa Googlen Colaboratoryssa. Lopulta tosin päädyin siirtymään vanhanaikaisempiin ratkaisuihin, joista selitän jutun loppupuolella. Tämä on melko tekninen selonteko, varsinainen sisällöllinen analyysi on Heikin heiniä.

GPT:iden kommervenkit

Tekstipohjainen kuvangenerointijärjestelmä ei aivan ymmärtänyt, mikä marjuri on.

Kuten melkein mitä tahansa muitakin koneoppimisjärjestelmiä, säädetään GPT:itä datalla, syötteellä ja parametreillä. Käyn tässä läpi, mitä niillä tarkoitetaan ja miten säädin niitä saadakseni toivotunlaisia tuloksia. Selitykseni etenee aika vauhdilla, eli jos jokin ei aukea, suosittelen perehtymään esimerkiksi opinnäytetyöhöni. Se alkaa olla monin paikoin jo vanhentunut, mutta ei näiden perusteiden osalta.

Käsitteistä ensimmäinen, data, on myös kaikkein helpoin selittää. Generatiiviset koneoppimisjärjestelmät perustavat sen datan, jota ne generoivat siihen dataan, jota niille on annettu. Ne myös kehittyvät paremmiksi generoinnissa itsenäisesti. Tämän takia puhutaan koneoppimisesta. Käyttämäni GPT:t oli esikoulutettu ensin valtavalla määrällä internetin syövereistä imuroitua tekstiä, ja sitten minä annoin niille Heikin keräämät litteroidut tekstit ja passitin ne jatko-opintoihin; erikoistumaan juuri haastattelutekstien apinointiin. Tätä työvaihetta kutsutaan fine tuningiksi, suomeksi hienosäädöksi.

Poistin datasta kohinaa eli ei-halutunlaista sisältöä ottamalla pois aikakoodit, turhat välilyönnit, sekä puhujien nimet. Käyttämäni tekstimassa oli puhdasta litteroitua puhetta, jossa jokainen haastateltavien antama vastaus oli omalla rivillään.

Törmäsin GPT-kokeilujeni aikana siihen melko yleiseen ongelmaan, että hienosäätödataa, eli haastattelutekstiä, oli liian vähän ja sen sanavarasto oli melko suppea. Tämä rajoitti sitä, miten luontevaa tekstiä datan pohjalta pystyi generoimaan. Vaikka tarkoitus oli, että GPT:t veistelisivät omiaan mahdollisimman vähän, oli silti oleellista, että haastattelutekstin tekstilaji tuli niille tutuksi, ja tuntui siltä, että tämä ei pienen datamäärän takia koskaan aivan onnistunut.

Seuraava generointiin vaikuttava käsite on syöte. GPT:t voi panna tekemään tekstiä itsekseenkin, mutta jos tahtoo saada tietynlaisia tuloksia, kannattaa niille antaa syöte, siis tekstinalku, josta se sitten jatkaa vähän niin kuin lapsi jatkotarinaa. Kokeilin esimerkiksi käsikirjoitusmaisia kohtausotsikoita, kuten INT. STUDIO DAY siinä toivossa, että GPT:t tunnistaisivat käsikirjoituksen tekstilajin ja osaisivat pitäytyä siinä.

Viimeinen käsite on parametrit. Ne ovat vähän kuin tekoälyjärjestelmien säätönuppeja, joilla voi vaikuttaa siihen, millä tavalla generointi tarkalleen tapahtuu. Parametrejä on GPT:issä useita, mutta koskin lähinnä kolmeen, koska niillä oli suorin vaikutus generoinnin “luovuuteen”, jota tässä projektissa erityisesti pyrittiin rajoittamaan. Ne kaikki ovat samplingiin, eli sananvalikointiprosessiin liittyviä parametrejä. Ne vaikuttavat siis siihen prosessiin, jolla GPT:t päättävät, mikä sana tulee seuraavaksi sen generoimassa tekstissä.

Temperature samplingilla vaikutetaan siihen, miten paljon tilastollista hajontaa generoituun tekstiin annetaan tulla. Mitä korkeampi temperature, sitä suuremmalla otannalla tekoäly valikoi sanoja. Temperaturea voisi verrata marjurin piikkeihin ja oikeanlaisia sanoja marjoihin; jos marjurin piikit ovat liian kiinni toisissaan, se luistaa marjapehkon kohdalla, eikä nappaa mukaansa kuin satunnaisia pieniä marjoja. Jos piikkejä on liian harvassa, pienet marjat putoavat välistä ja mukaan eksyy marjoja isompia objekteja. Samalla tavalla pienellä temperaturella teksti jankkaa, koska sanavarasto on liian suppea, ja isolla temperaturella teksti muuttuu avantgardistiseksi runoudeksi, josta on vaikea löytää enää tolkun hiventäkään. Hyvät tulokset useimpiin käyttötarkoituksiin ovat jossain näiden ääripäiden välissä. Testailin joka kokeilussani montaa eri temperature-arvoa, sillä yhtä joka tilanteeseen sopivaa temperaturea ei ole ja tilastollisen hajonnan rajoittaminen ei aina silti tuota takuuvarmasti mielekkäitä tuloksia. Samaan tarkoitukseen on kehitetty siksi myös toisia sampling-tapoja.

Top-k-sampling on jyrkempi metodi. Pelkän todennäköisyyden sijaan sillä eliminoidaan kaikki tietyn rajan alle jäävät sanavaihtoehdot. Kun marjurin top k on 10, se valikoi puskasta kymmenen sopivimman marjan joukosta yhden kyytiin. Muille marjoille ei anneta edes tilastollisesti matalaa mahdollisuutta tunkea piikkien välistä mukaan, kuten temperature-marjurissa. Kielen maailmaan sovellettuna top-k-samplingissa on tiettyjä ongelmia; on nimittäin olemassa lauseita, joita voi jatkaa monella hyvällä tavalla, ja toisia, joita ei missään nimessä kannata jatkaa kuin yhdellä tai kahdella tavalla. Esimerkiksi lause “Menen syömään…” voi jatkua esimerkiksi sanoilla “kaalia, isäni, ravintolaan” ja niin edelleen. On helppo keksiä yli kymmenen järkevää versiota jatkaa kyseistä lausetta. Mutta esimerkiksi lauseessa “Kappaleen Juna kulkee esittää artisti Kari…” on hyvin hankala kuvitella kymmenen järkevää täydennystä, tai edes enempää kuin vain yksi. Top k-samplingilla voikin siis avittaa tekoälyä pysymään asiassa, mutta täydellinen ratkaisu se ei ole.

Tämän ns. Kari Tapio -ongelman ratkaisuksi on olemassa vielä kolmas sampling, top p -sampling. Sillä varustettu vertauskuvallinen marjuri voi ottaa mukaan ainoastaan tietyn todennäköisyyslukeman ylittäviä marjoja. Eli jos marjurin top p on 0,9, vain 90% todennäköisyydellä marjoiksi tunnistetut objektit päätyvät koppaan. Valittavana olevien objektien määrää ei ole rajattu, vaan valikoimisperusteena on käytetty niiden soveltumistodennäköisyyttä.

Ensimmäiset kokeet: syötteen vaikutus sisältöön ja pitkän tekstin mahdottomuus

Kokeiden alkuperäisenä päämääränä oli tutkia, miten aineistoa voitaisiin GPT:iden avulla muokata tekstilajista toiseen: haastattelutekstistä käsikirjoitusformaattiin. Koska GPT:t ovat hyviä ymmärtämään kontekstia, ajattelin, että kykenisin pelkällä syötteellä ohjaamaan tekstiä käsikirjoitusmaiseen suuntaan. Näin synnytetyt tulokset olivat kuitenkin tasoltaan melko vaihtelevia; jos generoidun tekstin luovuutta ei lähtenyt rajoittamaan yllä kuvaamieni parametrien avulla, GPT:t kyllä saivat aikaan käsikirjoitusmaista sisältöä. Mutta tällöin elokuvamusiikin maailmaan eksyi seikkailemaan kaikenlaisia cowboyta, zeppeliinejä ja muita keksittyjä elementtejä, joita Heikin kuvaamasta materiaalista ei olisi valmiiksi löytynyt. Jos taas generoinnin luovuutta lähti rajoittamaan, käsikirjoitusformaatissa pysyminen muuttui hyvin vaikeaksi ja tekstilaji siirtyi nopeasti syötteen jälkeen muistuttamaan haastattelumateriaaleja. Kuten yllä totesin, tämä johtui varmaankin liian vähäisestä haastatteludatan määrästä.

Valmiin käsikirjoituksen tuottamisessa oli lähestymistapana myös suurempi periaatteellinen ongelma. Heikin yliopiston mielestä generoidun käsikirjoituksen täytyi olla mahdollisimman ”puhdas” ihmisen vaikutuksesta, jotta sen dramaturgia olisi varmasti koneen eikä ihmisen käsialaa. Tämän takia tahdoin pyrkiä siihen, että tuottaisin 30-minuuttisen lyhytelokuvan käsikirjoituksen yhdellä napinpainalluksella, siis noin 30 sivua tekstiä kerralla. Teoriassa GPT:t kyllä kykenevät siihen, mutta mikään tietokone (tai ainakaan mikään tietokone, johon minä pääsen käsiksi) ei voi prosessoida niin paljon informaatiota kerralla, jotta GPT:t voisivat hahmottaa niin pitkän tekstin yhtenä kokonaisuutena. Siinä missä vanhemmat tekstigeneraattorit käsittelivät tekstiä aina vain sana tai kirjain kerrallaan, GPT:t käyttävät attention-mekanismia; ne hahmottavat pitempiä sanojen välisiä yhteyksiä tekstissä. Monimutkaisemman matematiikan takia yli tuhannen merkin mittaisissa teksteissä alkaa olla jo aivan liikaa yhtäaikaista laskettavaa, 30 sivusta puhumattakaan. GPT:iltä saa kyllä minkä tahansa mittaisen tekstin irti, mutta ne lipuvat aina aiheesta toiseen, sillä järjestelmä ei tiedä mitä on tapahtunut kaksi sivua aiemmin tai tulee tapahtumaan kahden sivun päästä seuraavaksi. Tekstistä puuttuu intentionaalisuus ja täten myös juuri se dramaturgia, jota yritimme tavoittaa.

Koska käsikirjoitukseksi muokkaus epäonnistui, aloimme kartoittaa toisia tapoja, joilla voisimme saada GPT:t kaivamaan tekstimassasta jonkinlaisen draaman kaaren. Muistin, että GPT:illä on myös kyky toimia erinomaisina tiivistäjinä; jos syötteeksi antaa pitkän tekstipätkän ja perään kirjoittaa “summarize” tai internetslangi-ilmauksen TL;DR (too long, didn’t read), ne generoivat lyhennetyn version tekstistä. Teinkin GPT:illä seuraavaksi joitakin lyhennelmiä, mutta törmäsin pian siihen rajoitukseen, että myös syöte ei voi olla määräänsä pitempi attention-mallin mittarajoitusten takia. Koko tekstimassan kykeni kyllä antamaan GPT:ille, mutta ne eivät kyenneet ottamaan koko tekstiä huomioon tiivistelmissään.

Kokeilin myös manipuloida esikoulutusdataa lisäämällä siihen mukaan elokuvasynopsiksia. Hypoteesini oli, että GPT oppisi synopsiksen tekstilajin ja tuottaisi sitten synopsiksia, joissa seikkailivat elokuvasäveltäjät. Tuotettu materiaali oli hulvatonta, mutta jälleen kerran liian päätöntä ja liian kaukana alkuperäisestä materiaalista ollakseen sellaisenaan käyttökelpoista. Aloin pohtia, olisiko mahdollista palauttaa tämä päättömyys jotenkin yhteyteen alkuperäisen haastatteluaineiston kanssa ja ikään kuin fuusioida se takaisin aineistoon.

Toinen lähestymistapa: Generoidun tekstin “jälkeenpäin järkevöittäminen”

GPT:n attentionin visualisointia BertVizillä.

Kokeilin generoidun tekstimassan “palauttamista” muun muassa käyttämällä visualisointityökalua, joka näytti, mikä sana alkuperäisissä haastattelumateriaaleissa vastasi kaikkein eniten generoiduissa synopsiksissa esiintyvää sanaa. Käytin tähän attentionia visualisoivaa BertViziä, jonka avulla GPT itse kertoi, mitä sanaa se käyttäisi synopsiksista peräisin olevien sanojen tilalla. Tällä metodilla kykenin siis vaihtamaan cowboysta säveltäjiä ja zeppeliineistä äänitysstudioita. Ajatukseni oli, että korvaamalla sanoja saisin pidettyä GPT:n kehittämän tarinan struktuurin, eli hakemamme dramaturgian, mutta eliminoitua siitä kaiken, joka ei kuulunut haastattelujen alkuperäiseen sanastoon.

Visualisointimetodin soveltaminen oli kuitenkin enemmän tiedettä kuin taidetta, sillä järjestelmä ei aina kyennyt erottamaan mikä on asia ja mikä on tekemistä. Niinpä se saattoikin luoda tekstiä, jossa äänitysstudio seikkailee säveltäjän sisällä eikä toisin päin. Minun oli tehtävä valintoja GPT:n ehdotuksista tämän takia manuaalisesti, ja tässä luisuttiin jo liian kauas ”puhtaan” käsikirjoituksen ajatuksesta. Hylkäsimmekin tämän lähestymistavan.

Kokeilin vielä myös sellaista metodia, että GPT:n tuottaman synopsisrungon pohjalta toinen, sanojen välisiä yhteyksiä laskeva järjestelmä poimi kokonaisia virkkeitä haastatteluista, jotka parhaiten vastasivat synopsista. Synopsiksesta siis tavallaan “laajennettiin” käsikirjoitus. Tässä kokeilussa lopputulos oli sekä tekoälyn itsenäisesti tuottama että leikattavissa todella helposti materiaaleista. Käsikirjoitus oli kuitenkin taas jo niin monen mutkan kautta tuotettu, että alkuperäistä tavoitetta, eli tekoälydramaturgian tutkimista, se ei oikein enää vastannut. Tämä lähestymistapa kuitenkin johdatti minut oikeille jäljille.

Viimeiset kokeet: aina ei kannata mennä merta edemmäs kalaan (tai käyttää liian hienoja tekoälyjä)

GPT:t, eli generative pre-trained transofrmerit, ovat nimensä mukaisesti generatiivisia järjestelmä. Pyrin aluksi selvittämään, missä määrin näitä generatiivisia piirteitä pystyisi rajoittamaan. Vaikka GPT:itä on käytetty niin tiivistämiseen kuin materiaalin tekstilajista toiseen kääntämiseen, meidän datallamme (ja minun taidoillani) se ei tällä kertaa onnistunut tyydyttävällä tasolla, jotta tavoitteemme, käsikirjoitustekstin tuottaminen, olisi saavutettu. Olin kuitenkin jo alkanut pohtia, tuottaisiko yksinkertaisempi tekstin tiivistämisen tapa halutunlaisia tuloksia. GPT:iden kanssa ongelmaksi tuli se, että attention-mekanismilla toimiva tapa laskea sanojen välisiä suhteita yhtäaikaisesti rajoittaa niin syötteen kuin generoidun tekstin mittaa. Tällaista ongelmaa ei kuitenkaan ole vanhemmissa, yksinkertaisemmin toimivissa tekstinprosessointijärjestelmissä. Päädyin lopulta tuottamaan valmiin käsikirjoituksen sanavektoripohjaisella järjestelmällä.

Sanavektorit eli word embeddingit ovat sanoja, joihin on sisällytetty dataa niiden suhteesta toisiin sanoihin tekstissä, eli tässä tapauksessa haastatteluaineistoissamme. Sanavektoreita hyödyntävistä järjestelmistä monet ovat niin vanhoja, ettei niitä enää kenties lasketa tekoälyksi ollenkaan. Sanavektorit ovat kuitenkin yhä hyödyllisiä, jos tahtoo tiivistää tekstiä ja löytää sen sisältä yllättäviä yhteyksiä. Tuotokset toisin sanottuna kelpaavat dramaturgisen analyysin kohteeksi siinä missä transformerien generoimat tekstitkin, ne vain on synnytetty yksinkertaisemmilla tilastollisilla työkaluilla.

Laskemalla sanojen välisiä etäisyyksiä vektorijärjestelmä kykeni ottamaan tekstistä yleisimmät ja lähekkäimmin esiintyvät lauseet (tai sanat) ja kokoamaan koko tekstistä minkä tahansa mittaisen tiivistelmän. Se ei kyennyt abstraktioon, eli yleistämään tekstiä (tähän kykenee esimerkiksi tiivistelmää laativa ihminen tai GPT), mutta se oli pelkkä etu, sillä meillä oli haastattelumateriaali valmiina ja käsikirjoituksen täytyi pitäytyä sen sisällössä mahdollisimman tarkasti. Se oli yksinkertainen, nappia painamalla toimiva järjestelmä, joten se täytti tehtävänannon. Lopullinen ”käsikirjoitus” oli siis vain pötkö tekstimassasta löytyviä virkkeitä, jotka saattoi sellaisenaan editoida elokuvaksi.

Johtopäätöksiä

Toinen VQGAN+CLIPillä tuotettu tulkinta “berry picking machinesta”.

Heikki menee omassa gradussaan paljon syvemmälle tekoälyn tuottaman tekstin dramaturgisiin piirteisiin, mutta on joitakin mielenkiintoisia teknisiä oppeja sekä potentiaalisia tutkimuksellisia suuntia, joita tässä tahtoisin nostaa esille.

Opin prosessin aikana ainakin sen, että aina ei tarvitse katsoa tätä hetkeä tai tulevaa; joskus parhaat välineet johonkin pulmaan on keksitty aikapäivää sitten. Tahdon kuitenkin korostaa, että vaikka me emme tässä onnistuneetkaan valjastamaan transformeria käyttöömme, olen silti varma, että se olisi mahdollista paremmilla välineillä, datalla tai osaamisella.

Yritin ratkaista tekstigeneraattoreiden faktaongelmia lähinnä melko yksinkertaisin matemaattisin menetelmin. Esimerkiksi Metalla on kehitteillä paljon järeämpiä ratkaisuita generoidun tekstin faktatarkkuuden parantamiseksi. Tulevaisuudessa niitä ongelmia, joita lähdin tässä projektissa ratkomaan, ei välttämättä tarvitse ratkoa siis ollenkaan.

Olisi ehdottomasti tilausta tekstigeneraattorille, joka osaisi muuntaa vaikkapa proosatekstiä käsikirjoitusmuotoon. OpenAI:n maksullisilla työkaluilla se toki on jo mahdollista, ainakin jos kyseessä on pelkkä konversio tekstilajista toiseen, ei sisältöä muokkaava dramatisointi tai tiivistäminen. Jotta sisältö ja muoto pysyisivät erillään toisistaan, kenties käsikirjoitusformaatti täytyisi koodata käsin tällaiseen järjestelmään. Attention-mallien kyvyllä tekstinsisäisten yhteyksien hahmottamiseen on taatusti dramaturgista potentiaalia, tällä hetkellä suurin rajoite on tekstin pituus.

Puumaisesti rakentuva järjestelmä, jossa GPT tuottaa ensin tekstin isot linjat ja sitten tämä jaetaan taas seuraaville tekstigeneraattoreille, voisi olla fiktion saralla tutkimisen arvoinen kehityslinja. Tällaisella systeemillä voitaisiin kiertää GPT:iden tuottaman tekstin pituuteen liittyviä rajoituksia. Vähän oikeaa käsikirjoitusprosessia jäljitellen voitaisiin ensin generoida synopsis, joka sitten pilkottaisiin kohtauksiin, ja nämä kohtaukset annettaisiin taas omille tekoälyilleen. Lopullisen käsikirjoituksen tosin pitäisi kuratoida joko toinen, siihen räätälöity tekoäly tai sitten ihminen, jotta kohtauksissa säilyisi sisäinen johdonmukaisuus. Kokeellisen elokuvan saralla on ilmeisesti jo hyödynnetty hieman tätä muistuttavaa työnkulkua.

On sitten kokonaan toinen asia, tahdotaanko tekoälyn kirjoittamalta tekstiltä oikeasti johdonmukaisuutta. Mediassa esillä olevat tekoälyyn kohdistuvat odotukset ovat monesti ristiriitaisia. Tekoälyä kehitetään koko ajan ihmisen kaltaisemmaksi, ja kaikkea vähänkään epäinhimillistä pidetään käyttökelvottomana. Mutta kun tekoäly tekee jotain, joka erehdyttävästi muistuttaa ihmisen tekemää, siitä mennään hirveään paniikkiin ja uudet välineet tahdotaan kieltää. Mielestäni tekoälyn taiteellinen mielenkiintoisuus kumpuaa sen virheistä ja epäinhimillisistä piirteistä, siis juuri niistä elementeistä, joista monet kehittäjät parhaansa mukaan pyrkivät eroon. Miksi tahdomme tekoälyn tekemään jotain, jonka osaamme tehdä jo itse?

Vaikka ymmärrän, että ”ihmisen vaikutuksesta puhdas” käsikirjoitus voi olla tutkimuksellisesti arvokas lähtökohta, se ei ole taiteellisesti kovin hedelmällinen. Asetamme tällöin tekoälyn helposti aivan liian isoihin saappaisiin sen sijaan, että kohtelisimme sitä teknisenä välineenä. Kun kamerat keksittiin, valokuvia ei hyväksytty kuvataiteeksi. Jossain kohtaa ihmiset kuitenkin ymmärsivät, että valinnat, joita kuvaaja tekee eivät uuden välineen myötä kadonneet mihinkään. Kuvaajan piti yhä maalarin tapaan valita kohteensa, rajauksensa ja niin edelleen. Samaan tapaan pyrkimys ”puhtaaseen” tekoälyn tuottamaan teokseen on mieletön, sillä joku on kuitenkin valinnut tekoälyn, datan, parametrit ja syötteen. Kamera ei osaa ottaa kuvaa, eikä tekoäly kirjoittaa käsikirjoitusta. Prosessiin tarvitaan yhä ihminen.

Kiitokset Volda University Collegelle projektin mahdollistamisesta sekä Fritt ord Foundationille työskentelyni rahoituksesta. Heikin gradu ilmestynee tänä syksynä.