Opas tekstipohjaiseen kuvangenerointiin asiasisällöissä

Osa 3. Käyttöönoton haasteet ja mahdollisuudet

Vertti Luostarinen
14 min readJun 18, 2021

Tässä osassa pohdin tekoälykuvitusten käyttöönotossa huomioitavia käytännön ongelmia ja eettisiä sudenkuoppia. Lopuksi tarkastelen lyhyesti myös tekoälykuvitusten potentiaalia ja tulevaisuutta.

Uusi konteksti, vanhat ongelmat

Outouden laaksosta ei aina tarvitse pyrkiä pois. Tein tämän ”murhakukon” lyhytelokuvan konseptitaiteeksi ja markkinointimateriaaliksi.

Kysyin tätä osiota varten kahden Tampereen yliopiston journalismintutkijan mielipidettä tekemistäni kuvista ja niiden käyttömahdollisuuksista. Dosentti Ari Heinonen kiteyttää hyvin, mihin kuvat tällä hetkellä istuvat:

”Osa niistä [kuvista] toimisi oikein hyvin kuvituskuvina aiheissa, joissa a) esittävä kuva on hankala toteuttaa ja b) aihe sekä jutun kohderyhmä venyvät lähes taiteelliseen kuvitukseen.”

Tässä yhteydessä puhutaan todellakin venymisestä, sillä tekoälyn luomien kuvien sekä vahvuus että heikkous kumpuaa siitä, että ne poikkeavat totutusta. Ne haastavat pohtimaan uudesta näkökulmasta lehtikuvan funktiota ja voivat mahdollistaa kokonaan uudenlaisia journalistisia aluevaltauksia. Toisaalta, koska ne kaihtavat valmiita määrittelyitä, niitä ei sellaisenaan voi käsitellä vaihtoehtona vaikkapa kuvapankkikuville. Ne istuvat joihinkin samoihin tarkoituksiin kuin kuvapankkikuvat, mutta eivät kaikkiin.

Tekoälykuvitus on epämääräistä. Se ei sen takia (onneksi) sovellu uutiskuvien generointiin, mutta ns. feature-juttujen kylkeen kylläkin. Kun abstraktia aihetta kuvitetaan abstraktilla kuvalla, vältetään helpommin myös ns. ”outouden laakso” -efektin herättäminen lukijassa, sillä lukija sallii kuvalta enemmän omituisuuksia. Toisaalta toisinaan omituisuuden tavoittelu voi olla jopa vahvuus; tekoälykuvitus erottuu valtavirrasta, ja siksi se voi oikeassa kontekstissa houkutella uusia lukijoita.

Edellisissä postauksissa olen selittänyt, mitä kuvangenerointi on ja näyttänyt, mihin se käytännössä pystyy. Tässä osassa aion pohtia sen käyttöönottoon liittyviä mahdollisuuksia, käytännön ongelmia ja eettisiä kysymyksiä. Yritän vastata siis kysymykseen ”mitä tekoälykuvitusten käyttöönottoa harkitsevan kannattaa ottaa huomioon?” Tämä postaus onkin eräänlainen check list, jota itse kukin voi soveltaa omiin tarpeisiinsa.

Postaus saattaa vaikuttaa pitkältä listalta ongelmia ja potentiaalisia epäkohtia, ja sitähän se onkin. Mutta kannattaa muistaa, että suurin osa listaamistani asioista on oikeastaan vain vanhoja ongelmia, jotka nyt vain muuttavat muotoaan. Kuvapankkikuvat ovat täynnä valkoisia hymyileviä ihmisiä, ja siksi niiden laaja viljeleminen mediassa on representaatio-ongelma. Jos nämä kuvat korvataan tekoälykuvituksella, joka sisältää taas vain valkoisia, ongelma ei ole ratkennut, vaan ainoastaan siirtynyt uuteen ympäristöön.

Kaikki listaamani seikat eivät myöskään kosketa kaikkia. Jos ei ole varaa kuvittajaan, ei pohdinta siitä, olisiko kuvittaja parempi kuin tekoäly, ole kovin relevanttia. Ne eettiset ja käytännölliset kysymykset, jotka saattavat koskettaa freelanceria, eivät aina kosketa isoja mediataloja ja toisin päin. Käsittelen tätä kahtiajakoakin perusteellisemmin osiossa ”Vallanjaon ongelmat”, koska se jo itsessään voi olla eettinen ongelma. Lopuksi käännän katseeni tulevaan ja pohdin lyhyesti sitä, mitä teknologia voi tuoda tullessaan jatkossa.

Milloin ihminen on parempi?

Milloin pitäisi käyttää kuvittajaa, milloin tekoälyä? Tekoälyllä on potentiaalia demokratisoida mediaa, sillä se avaa pennittömille tekijöille väylän tuottaa sellaista visuaalista sisältöä, johon aiemmin olisi pitänyt palkata erillinen kuvittaja. Tekoäly ei ole kuitenkaan ”halpiskuvittaja”, joka pystyy kaikkeen samaan kuin ihminenkin, mutta huonommin. Kuten olen edeltävässä luvussa todennut, tekoälyn ja ihmisen tuottamalla kuvituksella on samoja piirteitä, mutta ne eivät täytä samaa lokeroa.

Tekoälylle on ongelmallista ”oikeanlaisen” monitulkintaisuuden tuottaminen. Tekstin kautta ei voi tarkasti ohjata sitä, minkälaisia mielleyhtymiä lopullinen kuva tuottaa, joten tekstiä jollain mielekkäällä tavalla kommentoivan kuvan tuottamiseen voi mennä aikaa. Prosessi myös tuuttaa ulos pelkästään valmiita kuvia, joita ei voi hienosäätää. Samuli Leppälä summaa projektiani käsittelevässä artikkelissa hyvin:

”Ongelma on se, että esimerkiksi Dall-E:n tapauksessa kuvatekstin muokkaaminen on ainoa kontrolli sille, millaisen kuvan järjestelmä tuottaa. Toimittaja ei voisi siis jälkeenpäin katsoa kuvaa ja todeta, että haluan muuttaa tämän kohteen sommittelua. Pikseleissä ei ole älyä, kuvaan voi vaikuttaa ainoastaan tekstisyötettä muokkaamalla.”

Tekoäly on lopulta aina bulkkiratkaisu; sen parissa askaroidessa ei päästä pureutumaan nyansseihin. Siksi väärin sovellettuna se voi haiskahtaa halvalta korvikkeelta. Kuvittaja-lehden päätoimittaja Henna Hietamäki kirjoittaa Journalistissa:

”Kuvittajien kesken nostetaan silloin tällöin esiin mediassa nähtyjä noloimpia korvikkeita ammattilaisten kuvituksille. Erilaisia piirrosmaisia filttereitä valokuvien päällä, outoja kollaaseja kuvapankkikuvista, valokuvia taideteoksista ilman tietoa niiden alkuperäisistä tekijöistä.

Tilanne on ikävä paitsi kuvittajien ammattiryhmälle, myös toimittajille ja lukijoille.”

Ennen kuin tekoälyn käyttöönottoa alkaa vakavissaan harkita, kannattaa ehkä käyttää hetki sen pohtimiseen, minkälaista visuaalista sisältöä tahtoo lukijoille tarjota. Juttujen kuvituksen pitäisi olla mietitty kokonaisuus riippumatta siitä, miten se on toteutettu.

Kustannukset

Aina, kun keskustellaan jonkin uuden teknologian käyttöönotosta, tärkeä kysymys on, mitä se maksaa. Tähän minulla on lyhyt ja pitkä vastaus, lyhyt kuuluu: minulla ei ole aavistustakaan. Pitkä vastaus riippuu siitä, kuljetaanko ilmaista, avoimen lähdekoodin reittiä vai kaupallista reittiä.

Avointa reittiä kuljettaessa vastaus on, että ei paljon mitään. Edeltävien postausten opeilla kuka tahansa voi tuottaa kuvia ilmaiseksi. Prosessiin menee vähän aktiivista työaikaa, vaikka oikeanlaisen kuvan löytämisessä saattaakin kestää. Ideaalitilanteessa kuvat voi laittaa aamulla pyörimään ja valita 40 kuvan joukosta sopivan lounastauon jälkeen. Tosin, koska prosessi ei ole mitenkään pomminvarma, noiden 40 kuvan joukossa ei välttämättä ole mitään järkevää, ja täytyy aloittaa alusta. Kaikilla ei ole aikaa tällaiseen odotteluun, mutta rahaa tai työaikaa siihen ei kulu paljoa.

Kun puolestaan pohditaan kaupallista reittiä, avoimia kysymyksiä on yhtäkkiä paljon enemmän. Tekoälyteknologia pitää lisensoida jostain, jollain hinnalla. Tämänkaltaista teknologiaa voi harvoin ostaa samalla tavalla könttänä käyttöön kuin vaikkapa ohjelmistoja, vaan hinta on neuvoteltava erikseen. Tämä teknologia pitäisi integroida todennäköisesti tavalla tai toisella toimitusjärjestelmään, ja se maksaa jotain. Visuaalisen yhdenmukaisuuden vuoksi tekoäly pitää ehkä kouluttaa datasetillä, minkä tekee joku työajallaan. Siihen täytyy kenties ostaa datasetti jostain, joka maksaa jotain. Tämä kaikki pyörii joko pilvessä tai lokaalisti ja maksaa jotain niin laitteistokuluina kuin sähkönäkin.

Jos tekoälyn kustannustehokkuutta pitäisi arvioida suhteessa kuvapankkikuviin tai kuvittajiin, osaan sanoa vain sen, että ainakaan lyhyellä tähtäimellä tekoälyn hyödyntäminen ei ole välttämättä kovin halpaa. Tämä projekti osaltaan toimii tiennäyttäjänä siinä, mihin kustannuksia arvioidessa kannattaa kiinnittää huomiota.

Tekijänoikeuskysymykset

Sorvatessamme Tivi-lehden juttua törmäsimme toimittaja Samuli Leppälän kanssa mielenkiintoiseen käytännön ongelmaan: miten tekoälyn tekemät kuvat kuuluisi kreditoida? Samuli ehdotti, että kuvalähteisiin merkittäisiin ”Kuvat Avoimen lähdekoodin kuvageneraattori / Vertti Luostarinen”. Tässä ongelmana mielestäni oli se, että se painotti liikaa tekoälyn roolia, eikä siitä tullut ilmi sen rooli välineenä. Oma ehdotukseni olikin: ”kuvat Vertti Luostarinen avoimen lähdekoodin generaattoreilla”.

Monet tekoälyyn liittyvät aiheet ovat tällä hetkellä lain näkökulmasta ”kun kukaan ei ole kieltänytkään”-tyyppisiä. Suomessa on jo paljon kuvataiteilijoita, jotka käyttävät teoksissaan tekoälyä tavalla tai toisella, eikä tietääkseni kukaan ole vielä haastanut heitä oikeuteen. Tilanne elää kuitenkin koko ajan, kun lainsäätäjät alkavat vähitellen heräillä tekoälyn mukanaan tuomiin uhkakuviin.

Kuuluuko tekijänoikeus tekoälyn luomasta kuvasta tekoälyä käyttävälle, tekoälyn kehittäjälle, tekoälylle opetettujen kuvien luojalle vai kenties tekoälylle itselleen? Tekijänoikeusnäkökulmasta on tärkeää, puhutaanko järjestelmän itsenäisesti luomasta kokonaisuudesta vai teoksesta, jossa on myös ihmisen työpanos mukana. Joonas Salminen kirjoittaa pro gradu -tutkielmassaan seuraavasti:

”Teoskynnyksen ylittääkseen teoksen on oltava tekijänsä henkisen työn tulos. Henkisen panoksen, tosin sanoen luovan työn määrä ei kuitenkaan vaikuta arviointiin, vaan nopeasti valmistunut teos on yhtä lailla suojattava kuin vuosia kestänyt projektikin. Suojan kohteena on siis teoksen ilmenemismuoto sen taustalla vaikuttavan henkisen työn määrästä riippumatta.”

Oman tulkintani mukaan teoskynnys ylittyy tekstipohjaisessa kuvangeneroinnissa, koska sen taustalla on aina ihmisen luomaa tekstiä. Vaikka syöte on yleensä hyvin yksinkertainen, ilman sitä lopputulosta ei saada aikaan.

Pohdittavaa riittää siinä, mihin raja vedetään tekijänoikeuden kanssa, kun puhutaan kuviksi muutetusta tekstistä. Jos teksti itsessään jo ylittää teoskynnyksen, ovatko kuvan generointiin käytetty teksti ja kuva yhtä teosta vai erillisiä teoksiaan? Ylittääkö teoskynnyksen ylittävästä tekstistä generoitu kuva aina automaattisesti myös teoskynnyksen? Sitä en osaa sanoa, mutta se kannattaa muistaa eritellä, kun sorvataan sopimuksia siitä, kenelle oikeudet tehdystä työstä kuuluvat.

Datasettejä ja tekoälyjä valitessaan kannattaa pysyä tarkkana, sillä on helppoa valita työskentelyyn väärät välineet ja menettää oikeus lopulliseen teokseen. Datasetin täytyy koostua rojaltivapaasta tai luvallisesti hankitusta datasta ja itse datasetti on myös hankittava luvallisesti sen kokoajalta. Myös datasetti itsessään ylittää teoskynnyksen, jos se on ainakin osittain ihmisen käsin kokoama ja muutoin täyttää teossuojan edellytykset. Tätä opasta koristavat kuvat on koulutettu vapaasti verkossa jaossa olevilla rojaltivapailla dataseteillä.

Myös käytettävän koodin ja ohjelmistojen lisenssiasiat kannattaa tarkistaa. Näissä kokeissa käyttämäni työkirjat olivat vapaassa jaossa ja koostuvat koodista, joka on jaossa ns. MIT-lisenssillä. Se sallii hyödyntämisen myös kaupallisissa suljetun lähdekoodin ohjelmistoissa. Toisin sanottuna käyttämilläni työkirjoilla saa panna rahoiksi ja niitä voi käyttää pohjana omille sovellutuksille.

Kun löytää uuden työkirjan, kannattaa aina ensin tarkistaa, mistä koodi on peräisin ja millä datalla se on koulutettu. Tämä ei aina ole niin yksinkertaista kuin toivoisi, mutta yleensä hyvät työkirjat on tehty melko läpinäkyviksi tässä suhteessa. Jos palvelun ostaa ulkopuolelta, vastuu siitä, että teknologia on tekijänoikeudellisesti ongelmatonta, on myös palvelua kauppaavalla taholla.

Vastuu ja representaatio

Jos tekoälyn pyytää generoimaan ”lapsia”, lapset ovat melkein aina valkoisia. Tässä on ”A Painting of a Child on a Crosswalk.”

Julkisen sanan neuvosto kirjoittaa vuonna 2019 antamassaan lausumassa seuraavasti:

”Journalistin ohjeet edellyttävät, että tiedonvälityksen sisältöä koskevat ratkaisut on tehtävä journalistisin perustein, eikä journalistista päätösvaltaa saa luovuttaa toimituksen ulkopuolisille. Journalistista päätösvaltaa ei siten pidä luovuttaa myöskään toimituksen ulkopuolisille algoritmien tekijöille. Vastuu algoritmien vaikutuksista journalistiseen sisältöön on aina toimituksella, viime kädessä päätoimittajalla.”

Tekoälyä hyödyntävien toimittajien ja toimitusten on ymmärrettävä, että tekoäly ei tuota sisältöä tyhjiössä. Se tekee valintansa tilastollisten jakaumien avulla koulutusdatan perusteella. Tietoiset tai tiedostamattomat valinnat siinä, millä datalla tekoälyä on koulutettu, johtavat siihen, että generoitu sisältö heijastelee aina tiettyä arvomaailmaa. Esimerkiksi juoksevia naisia generoidessani havaitsin melko äkkiä, että suurin osa naisista oli ihonväriltään valkoisia.

En näiden kokeiden puitteissa perehtynyt enempää siihen, minkälaisia representaatio-ongelmia käyttämieni kuvangenerointijärjestelmien tuottamaan sisältöön liittyy. CLIP on koulutettu raapimalla internetistä miljoonia kuva-tekstipareja, ja joukkoon mahtuu paljon sellaisia yhdistelmiä ja assosiaatioita, jotka voivat potentiaalisesti ohjata generointia väärille vesille. OpenAI:n kielengenerointitekoälyllä GPT-3:lla on esimerkiksi osoitettu olevan taipumusta islamofobiaan. Dall-E ja CLIP pohjaavat osaltaan samaan teknologiaan, joten niistä löytynee samanlaisia ongelmia. Tekoälyn tuottamia kuvia täytyy osata tarkastella kriittisesti ja pohtia, mitä ne sisältävät ja mitä ne toisaalta jättävät pois.

On tärkeää, että jutun lukija tietää, koska hän katselee tekoälyn tuottamaa sisältöä. Journalistin ohjeissa todetaan, että ”yleisön on voitava erottaa tosiasiat mielipiteistä ja sepitteellisestä aineistosta. Myöskään kuvaa tai ääntä ei saa käyttää harhaanjohtavasti.” Tekoälyn tuottama kuvitus on mielestäni aina nimenomaan sepitteellistä, ja sen roolin on tultava ilmi jutussa tavalla tai toisella. EU saattaa tulevaisuudessa jopa edellyttää sitä, että tekoälyn luoma sisältö on merkitty erikseen. Keinoja siihen on monia, ja jokaisella on omat heikkoutensa ja vahvuutensa.

Asia ei ole välttämättä niin yksinkertainen, että kuvaan liitetään jokin ”tämä kuva on tekoälyn tuottama” -vesileima. Se ei vielä itsessään viesti lukijalle mitään siitä päätöksentekoprosessista, jolla kuva on tuotettu ja valikoitu. Uudesta teknologiasta kaikkine mahdollisuuksineen ja rajoituksineen on kerrottava selkeällä ja läpinäkyvällä tavalla.

Kun Yle otti käyttöön uutisrobotti Voiton, se kertoi hyvin avoimesti ja helposti lähestyttävästi siitä, mikä Voitto on ja mitä se tulee tekemään. Yle myös antoi robotille nimen ja kasvot. Tässäkin lähestymistavassa on ongelmansa, sillä kun tekoäly esitellään jonain erillisenä, itsenäistä päätöksentekoa harjoittavana voimana, häivytetään helposti taustalla vaikuttavat ihmisen tekemät valinnat. Myös representaatioon ja tasa-arvoon liittyvät kysymykset voivat jäädä tällöin taka-alalle. Tämän takia onkin tärkeää, että tekoälyn roolia välineenä korostetaan. Alan sisällä algoritmeja pidetään ennemminkin ”uuden ajan kirjoituskoneina” kuin päätöksentekoon vaikuttavina tahoina, mutta tällaisen sävyn pitäisi heijastua myös tekoälyn käytöstä tiedotettaessa. Lehtikuvaajan kamera ei valitse kohdetta kuvaajan puolesta, eikä tekoälykään tuota kuvia ihmisestä irrallaan.

Vallanjaon ongelmat

OpenAI:n Dall-E on hyvä esimerkki siitä, miten epätasa-arvoisesti jakautunut tekoälykenttä tällä hetkellä on. Teknologiajätit satsaavat satoja miljoonia palveluiden kehittämiseen, joiden implementaatio-oikeus maksaa ja on saatavilla lopulta vain harvoille. Valta siitä, kuka saa käyttää uutta teknologiaa ja mihin, on vain muutamien suuryritysten käsissä.

Samaan aikaan alan aktiiviset harrastajat koostavat jättien julkaisemista palasista omia, vapaasti jaettavissa olevia implementaatioitaan, sellaisia, joilla tämän blogin kuvat on tehty. Tällaiset hankkeet ovat toisinaan joukkorahoitettuja, mutta useimmiten tekijät eivät saa niistä penniäkään.

Voin hyvin kuvitella, että kahtiajako tulee tulevaisuudessa heijastumaan myös tekoälyavusteisiin kuvituksiin. Alalle on vaarassa syntyä kaksi kaukana toisistaan olevaa todellisuutta. Isot mediakonsernit voivat lisensoida teknologiaa OpenAI:lta ja sen kaltaisilta toimijoilta. Niillä on halutessaan varaa rakentaa uudenlaista infrastruktuuria tekoälypalveluiden ympärille. Toisaalta taas avoimen lähdekoodin teknologia avaa väyliä pienille toimijoille ja freelancereille, jotka voivat kuvittaa sisältöään entistä helpommin ja halvemmin rajallisilla resursseillaan.

Välimuotoja näille on vaikea hahmottaa: keskisuurille toimijoille avoimen lähdekoodin teknologian luotettavuus ei ole riittävällä tasolla, mutta rahat eivät välttämättä riitä ulkoisen palvelun ostamiseen. Ehkä tässä olisi markkinarako startupille, joka toimisi eräänlaisena tekoälykuvatoimistona. Se voisi generoida kuvitusta useamman eri median tarpeisiin. Tai kenties kuvangenerointiteknologian voisi integroida suoraan toimitusjärjestelmään; ehkäpä kysyntää olisi alustalle, joka osaisi tuottaa kuvitusta jutun kylkeen valmiiksi.

Elämme tekoälykilpavarustelun aikaa. Kaikki tahtovat mukaan uusiin tekoälyvillityksiin mahdollisimman nopeasti, ja se osaltaan kaventaa kilpailun määrää kaikkien rientäessä ostamaan niiltä, jotka tarjoavat uusinta ensimmäisenä. Teknologiasta kiinnostuneiden mediatalojen kannattaisikin kenties harkita kuvapalvelujen lisensoimisen ohella myös niiden rakentamista itse. Lyhyellä tähtäimellä se on toki sekä hitaampaa, että kalliimpaa, mutta alalle kaivataan enemmän itsenäisiä, riippumattomia toimijoita.

Itse omalla teknologiallaan kuvat generoiva media voisi helpommin puuttua mainitsemiini representaatio-ongelmiin. Lisäksi omien välineiden kouluttamisessa olisi se etu, että kuvia voisi räätälöidä selkeämmin omiin käyttötarkoituksiin kokoamalla omia datasettejä. Kuvista voisi tulla tällöin uniikimpia ja yhtenäisempiä ja ne voisi helpommin upottaa osaksi julkaisun ulkoasua ja brändiä.

Valemedia ja uskottavuus

Oma lukunsa tekoälyvallan epätasa-arvoisessa jakautumisessa ovat valtiolliset toimijat, jotka ovat viime aikoina alkaneet esitellä saavutuksiaan julkisemmin. Tekoälyjärjestelmät ovat aina olleet informaatiosodan välikappale, mutta nyt ne ovat myös näkyvä osa valtioiden välistä kilpavarustelua. Esimerkiksi hiljattain julkistettu WuDao 2.0 tuntuu olevan Kiinan vastaus GPT-3:lle.

GPT-3, WuDao 2.0 ja sen kaltaiset järjestelmät kykenevät jo nyt tuottamaan uskottavan oloisia uutisia otsikosta kuin otsikosta sekunneissa. Mitä tapahtuu, kun tällaiset uutiset saavat vielä seurakseen automatisoituja kuvituksia? Vaikka tällä hetkellä saatavilla oleva teknologia ei vielä kykene tuottamaan fotorealistisia kuvia, sillä on silti jo nyt potentiaalia pönkittää tällaisten valeuutisten uskottavuutta.

Synteettisen median kriittistä arviointia vaikeuttaa osaltaan se, että helposti saatavilla olevaa tietoa sen toimintamekanismeista on verrattain vähän. Niin kutsuttu oikea journalismi on viime vuosina yhä painokkaammin asettautunut vastapooliksi valemedialle ja informaatiovaikuttamiselle. Netissä kiertävien väitteiden ja kuvien uskottavuuden arvioinnista on tullut osa niiden lukijoille tarjoamaa sisältöä.

Oma näkemykseni on, että ottamalla uudet teknologiat käyttöön ja tekemällä ne tutuiksi vähän Ylen Sauli Niinistö -deepfaken tavoin, voidaan osaltaan ehkäistä näiden teknologioiden haitallista vaikutusta. Yksittäiset jutut unohtuvat nopeasti, mutta jos vastuullinen media pitää aktiivisesti esillä tekoälyä, se samalla opettaa ihmiset suhtautumaan siihen oikein. Tekoälyn tuottamaa sisältöä pitää hyödyntää oikein ja oikeassa kontekstissa, muuten sillä on riski rapauttaa journalistisen julkaisun uskottavuutta.

Ympäristövaikutukset

“A Painting of a Car Crash”. Tekoälyä ja muita ns. “aineettomia” palveluita ei tule samalla tavalla mieltäneeksi ympäristölle haitallisiksi kuin konkreettisia tuotteita.

OpenAI:n GPT-3-tekoälyn kouluttaminen tuotti yhteensä 552 tonnia hiilidioksidia. Se vastaa suunnilleen 122 henkilöauton vuosikulutusta. Kuvajärjestelmät koulutetaan vielä suuremmilla datamäärillä, joten kulutus on todennäköisesti vielä enemmän Dall-E:n kohdalla.

Koneoppimisen hiilijalanjälki ei ole niin suuri kuin vaikkapa kryptovaluutan louhimisen, mutta sen kanssa olisi vielä paljon parannettavaa. Suuryritykset käyttävät paljon energiaa jättiläismäisten tekoälymalliensa kouluttamiseen, mutta toisaalta monet näistä malleista ovat kaikkien vapaasti saatavilla. Kun näitä jo koulutettuja malleja pyörittää itse, kulutus omassa päässä on heti paljon pienempää. Suositus onkin, että jos voi käyttää valmiiksi koulutettua mallia, sillä säästää paitsi aikaa, myös ympäristöä.

Kun koodia pyörittää Google Colaboratoryn ”pilvessä”, se pyörii tietokoneella jossain Googlen datakeskuksista ja kuluttaa virtaa. Sitä, miten paljon se kuluttaa, on vaikea arvioida. Google kertoo olevansa hiilineutraali, mutta asiassa on uskominen yksinomaan sitä itseään.

Jos sähkönkulutusta tahtoo itse monitoroida, kannattaa koodi pyörittää kotikoneella. Oma kulutus ei kuitenkaan ole automaattisesti pienempää kuin mitä se olisi Googlella. Jos omalla tietokoneella tahtoo tekoälyä pyörittää, huomiota kannattaa kiinnittää eteenkin tietokoneen virtalähteen ja näytönohjaimen energiatehokkuuteen. Tehokkaammat virtalähteet maksavat enemmän, mutta säästävät sähköä.

Tekoälykuvitusten tulevaisuus

Toinen variaatio journalistista, jonka pää savuaa.

Tekoälykuvituksilla on potentiaalia uudistaa tekstin ja kuvan suhdetta journalismissa. Kun tekstistä voi tehdä kuvia ja kuvista tekstiä, sanallisen esityksen ja sen kuvituksen rajat hämärtyvät. Juttu voi vaikkapa generoida itsenäisesti kuvat tekstin tueksi ja sitten kirjoittaa kuvien pohjalta automaattisesti kuvatekstit.

Tekstipohjaisen kuvangeneroinnin ansiosta meidän on entistä helpompaa visualisoida melkein mitä vain. Tällä hetkellä tuntuukin siltä, että tekniikka menee nopeammin eteenpäin kuin oma kuvittelukykymme. Vaatii rohkeutta visioida kokonaan uudenlaisia medioita ja tekemisen tapoja. Ehkäpä ainaisten pärstäkuvien käyttämisen sijaan poliitikoista pitäisikin alkaa tehdä akvaariokaloja? Se asettaisi kuntavaalikeskustelulle aivan erilaiset raamit.

Kun media yleistyy, sitä kohtaan tunnetut varaukset hälvenevät; synteettinen media on jo niin tavanomaista Snapchatin kaltaisilla sosiaalisen median alustoilla, että on helppo unohtaa, että filttereiden takaa löytyy tekoälyä. Outouden laaksossa on siis mahdollista oppia elämään, ja pienen ajan päästä se ei enää tunnu yhtä oudolta. Generoinnin tulokset saattavat vaikuttaa meistä vielä vierailta, koska emme ole tottuneet katselemaan niitä.

Tällä hetkellä ongelmana on se, miten välineet tehdään lukijoille tutuiksi ja miten heidät opetetaan lukemaan uudenlaisia kuvia. Miten lukijat saadaan ensi kertaa astumaan outouden laaksoon? Näytin kuviani tutkija Esa Sirkkuselle, ja hän nostaa esille kuvatekstin merkityksen:

”Jutun teksti ja kuvateksti tulevat kaventamaan kuvan merkityspotentiaalia ja kuvan tulkinnat etenevät toimituksen haluamaan suuntaan. Kun vielä lajityyppi tulee tutuksi niin kuva on aika lailla kesytetty. Siinä häviää sitten iso osa näiden kuvien kiinnostavuudesta.”

On toisin sanottuna tärkeää, että kuvat tuodaan esille oikealla tavalla, ja siinä niitä hyödyntävillä toimituksilla on suuri rooli. Sirkkunen pitää tätä potentiaalisesti jopa negatiivisena asiana, sillä kun kuvat asetetaan toimituksen tarkoin määrittelemään viitekehykseen, niiden monimerkityksellisyys ja uutuusarvo laimenee. Ei ole järkeä käyttää uusia teknologioita, jos ne lopulta eivät tuo mitään uutta sisältöön.

Se, löytääkö uusi väline tiensä toimituksiin, riippuu myös siitä, millaisia palveluita ja sovellutuksia sen ympärille rakennetaan. Tässä oppaassa käyttämäni teknologian käyttömukavuudessa on vielä paljon parantamisen varaa. Vaikka Colaboratory-työkirjoja pyörittääkseen ei tarvitsekaan osata koodata, eivät ne ole silti erityisen helppoja hyödyntää päivittäisessä käytössä. Tarvitaan ohjelmistoja tai sivustoja, jotka yksinkertaistavat prosessia.

Käyttöliittymien sorvaaminen vaatii rahaa, ja kun mukaan tulee jokin teknologiayritys, asiat mutkistuvat. Toivon, että jatkossa syntyy ohjelmistoja, jotka parantavat käyttökokemusta, mutta kuitenkin operoivat läpinäkyvästi. Näin teknologia voisi yleistyä ilman, että kontrolli prosessista katoaa. Oma painajaiseni on, että parin vuoden päästä Google tai Adobe julkaisee kaikkien saatavilla olevan palvelun, joka muokkaa tekstiä kuviksi ilmiömäisellä tarkkuudella, eikä kukaan saa tietää, miten se toimii.

Journalististen julkaisujen tarjoama kuvavirta olisi tulevaisuudessa kokonaan yksilöitävissä. Juttu voisi generoida kylkeensä kuvituksen erikseen jokaiselle sitä selaavalle lukijalle. Sovellus voisi mitata, miten pitkään lukija jää katsomaan tietynlaisia kuvia, ja käyttää tätä dataa generoimaan uutta paremmin sitouttavaa sisältöä. Sitä voi sitten pohtia, olisiko tästä enemmän hupia vai haittaa. Tällä hetkellä tekoälykuvitukset samalla syötteellä ovat monesti hyvin samanlaisia, enkä tiedä, mitä iloa siitä olisi, että kaikki saisivat vähän erilaisen version samasta aiheesta.

Sisältöä tuottavaa tekoälyä hyödyntäessä mielestäni on tärkeää, että arvostamme integraatiota, emmekä automaatiota. Toivon, että tulevaisuudessa teknologia muuttuu sellaiseksi, että kuvaa voi muokata interaktiivisemmin ja muillakin tavoilla kuin pelkästään tekstisyötteellä. Se vähentäisi tekoälykuvitusten bulkkiratkaisumaisuutta. Tekoälykuvituksen ja ihmisen käsin tekemän kuvituksen ei välttämättä tarvitse olla joko-tai-ratkaisu, vaan teknologialla on mahdollisuus toimia pohjana uudenlaisille luomuksille, joissa ihmisen ja tekoälyn työtä yhdistellään. On olemassa paljon mielenkiintoisia tekoälyjä, esimerkiksi sellainen, joka muokkaa piirroksia fotorealistisiksi kuviksi, joilla voisi saada vaikka mitä uudenlaista sisältöä aikaan, kun ne yhdistettäisiin tekstipohjaiseen kuvangenerointiin.

Toisaalla tulevaisuudessa häilyy siis dystooppinen automaatio, toisaalla mahdollistava integraatio. Tässä kuvastuu jälleen kerran koko kentän läpäisevä jakolinja massiivisiin suuryrityksiin ja toisaalta itsenäisiin, avoimen lähdekoodin kehittäjiin ja uranuurtajiin. Tämän projektin tekeminen ei olisi ollut mahdollista ilman esimerkiksi D. Schultzin ja Ryan Murdockin julkaisemia tutoriaaleja ja työkirjoja. Avoimen lähdekoodin kehittäjät tekevät tärkeää työtä, mutta tehdyllä työllä ei useinkaan elä. Jatkuvuuden kannalta olisikin erityisen tärkeää, että löytyisi väyliä rahoittaa Schultzin ja Murdockin kaltaisia riippumattomia tekijöitä. Muutoin vaarana on, että kentän monopolisoivat tahot, joilla on pelkästään taloudellisia tai poliittisia intressejä.

Tällä hankkeella olen yrittänyt kuroa umpeen toista alalla ammottavaa kuilua, sitä, joka vallitsee tekijöiden ja soveltajien välillä. Ymmärrettävää sisältöä siitä, miten tekoälyä voidaan käyttää media-alalla, on tarjolla vähän. Toisinaan tuntuu jopa siltä, että asioita hämärretään tarkoituksellisesti; käsite ”prompt engineering” on hyvä esimerkki siitä, miten vaikealta niinkin yksinkertaisen asian kuin tekstisyötteen kirjoittamisen voi saada kuulostamaan.

On vain ajan kysymys, koska kuvangenerointia tarjoavia kaupallisia sovellutuksia tulee markkinoille. Jos ymmärrystä tekoälyn toiminnasta ja potentiaalisista käyttökohteista ei ole, on alttiimpi uskomaan hypetystä ja markkinointipuhetta. Tällöin voi tulla pelanneeksi teknologiajättien pussiin ja ostaneeksi sian säkissä. Tämä opas on toivottavasti toiminut tietynlaisena yritysten ”miinanraivaajana” ja kartoittanut mahdollisuuksia ja riskejä, jotta teknologisen harppauksen ottamista ei tarvitsisi puntaroida aivan sokkona.

Kiitokset

Kiitän Media-alan tutkimussäätiötä apurahasta ja säätiön johtajaa Noora Alannetta avusta yhteistyökumppanin löytämisessä. Kiitän myös Lars Holmia ja koko Alma Median väkeä yhteistyöstä hankkeessa, sekä toimittaja Samuli Leppälää kuvitusteni katselemisesta ja kommentoinnista. Tukea tekoälyn teknisten yksityiskohtien kanssa tarjosivat professori Jaakko Lehtinen Aalto-yliopistosta sekä Ahti Ahde Kompleksisuustaidot ry:stä. Tekijänoikeudellista apua sain Tekijänoikeusneuvostosta. Tekstiä suostuivat ystävällisesti kommentoimaan myös tutkijat Ari Heinonen, Esa Sirkkunen ja Anssi Männistö Tampereen yliopistosta. Kiitän myös Leena Mäkelää Tampereen ammattikorkeakoulusta, joka avusti apurahahakemuksen kanssa. Suurin kiitos menee emeritusprofessori Heikki Luostariselle, joka on perannut tekstiäni perin uutterasti kevään mittaan.

Suosittelen aiheesta kiinnostuneita perehtymään tekoälytyökirjojen tekijöiden, kuten Ryan Murdockin ja Derrick Schultzin tarjoamiin maksullisiin kursseihin ja muuhun joukkorahoitettuun sisältöön. Siten voi tukea heidän työtään ja päästä myös käsiksi kaikkein tuoreimpiin sovellutuksiin. Tämän oppaan kuvat on generoitu tarkoituksella ilmaisilla välineillä, jotta kuka vain voisi toisintaa tuloksiani. Lahjoittamalla hieman rahaa saa käyttöönsä työkirjoja, joilla saa tehtyä paljon hienompia kuvia.

--

--