Logo

Problém není AI, ale sociální sítě. Bez nich by deepfake byl satirou pro kamarády

27. listopadu 2024

foto: použito se svolením Matyáše Boháčka

Když mu bylo šest, naprogramoval svůj první web. Na střední škole vytvořil aplikaci na překlad znakového jazyka, která zaujala OSN. Po maturitě odešel do Kalifornie, na Stanford, jednu z nejlepších univerzit světa a líheň nejúspěšnějších technologických firem. Pod vedením špičkových vědců tu zkoumá nástrahy umělé inteligence, hned v úvodu vytvořil pro televizi CNN virtuální kopii slavného moderátora. Matyáš Boháček, 20 let.

Stihl jste toho docela dost, za dvacet let života…

Vidíte a já přitom celou dobu dělám jen to, co mě baví a naplňuje. Takže byť je to škola a práce, ve finále bych to dělal i jen tak, ve svém volném čase. Vždycky jsem věděl, že chci dělat něco s technologiemi, co bude k užitku i ostatním. Bavil mě ten sociální aspekt.

Co vás fascinuje na umělé inteligenci?

Že kombinuje celou řadu různých věd dohromady. Na jedné straně je to hodně technický obor, vyžadující hluboké porozumění kódování a softwaru, zároveň ale ovlivňuje sociální vědy nebo neurovědu. Vždycky jsem se zajímal o hodně věcí najednou, takže v tom mi AI přijde úplně skvělá.

Ve svém výzkumu na Stanfordu zkoumáte její rizika. Vytvořili jste aplikaci na rozeznávání takzvaných deepfake videí, která se tváří jako reálná, ale jsou vytvořená umělou inteligencí. Jak funguje?

Momentálně používáme dva systémy. Jeden je postavený na specifických rysech konkrétních osobností – typově třeba politiků nebo celebrit, u kterých je větší riziko zneužití. Náš model se podívá na stovky hodin materiálu, jako jsou proslovy, rozhovory nebo výstupy ve filmech. A naučí se, jak osoba kombinuje gesta a rysy v obličeji. Všichni totiž máme velmi silné osobní rysy, je to skoro něco jako behaviorální DNA, když to přeženu. Systémy na tvorbu deepfake se většinou soustředí jen na prostor okolo pusy, který „přeanimují“, protože se snaží lidem vložit slova do úst. Náš systém je schopný odhalit, že došlo k manipulaci, která nekoresponduje se zbytkem těla. Funguje ale u hodně známých lidí, nedá se využít pro každého z nás, tam máme jiný systém.

Jaký?

Myšlenka, která za ním stojí, je hrozně jednoduchá, proto ho mám tak rád. Všiml jsem si, že když se v deepfake videích dívám lidem na ústa a zacpu si přitom uši, vůbec nevím, co ti lidé říkají. Když se ale díváte na reálného člověka, máte aspoň trochu představu, co říká. S mým profesorem Hanym Faridem jsme proto navrhli systém, který dělá dvě věci. Prvním je jen přepis audia. V druhém kroku se podívá na video, ignoruje přitom audio a jen z pohybu úst predikuje, co osoba řekla. Máme pak dva texty, v případě reálných videí jsou velmi podobné, při deepfake velmi odlišné.

Jsou aplikace dostupné pro běžnou veřejnost?

Nejsou. Kdybychom je dali volně přístupné na internet, mohla by je druhá strana využít ve svůj prospěch. Zpřístupňujeme je jen konkrétním organizacím, kterým věříme, že jim jde o to, kultivovat veřejný prostor a informovat pravdivě veřejnost.

Byly použity i během nedávných prezidentských voleb v USA?

Ke konkrétnímu využití našich systémů se bohužel nemůžu vyjadřovat.

Přečtěte si také

Možnost zpochybnit cokoliv

Tak se pojďme bavit obecně. Americké volby byly živnou půdou pro šíření dezinformací, objevila se právě i deepfake videa…

To určitě, příkladů byla spousta. Nejen deepfake videí, ale i obrázků. Řešila se však i reálná fotka z akce (demokratické kandidátky) Kamaly Harris, lidé poukazovali na jisté zvláštnosti na fotce, protikandidát Donald Trump tvrdil, že obrázek je vytvořený umělou inteligencí. Vidím posun v tom, že spolu s umělou inteligencí nepřišla jen zfalšovaná videa a fotografie, ale vlastně i možnost cokoliv – video, audio nebo fotku – zpochybnit. To je hrozně nebezpečné, protože vést demokracii v prostoru, kde si nemůžeme ani říct, že dva plus dva jsou čtyři, je velmi náročné.

Podpořte Reportér sdílením článku