Jazyk funguje jako otisk prstu
3. listopadu 2022
Lidé si neuvědomují, co všechno lze zjistit z jejich jazykového projevu, říká forenzní analytička Kateřina Lesch. Když potřebujeme jen ztotožnit někoho z okruhu podezřelých a máme k dispozici nějaký referenční text, obvykle stačí, když ho porovnáme s jiným dokumentem o šesti stech slov, dodává.
Lehce vás opravím. Já se zabývám především automatickým zpracováním nestrukturovaných dat, což znamená, že vstupní data, která studuji, mohou být kromě textů i obrázky nebo audio. Prostě všechno, co nejsou jednoduché jedničky a nuly. Strukturovaná data jsou tabulky, ve kterých už jsou nějaké hodnoty. Je ale fakt, že ta definice není až tak jednoduchá, protože to, co s kolegy děláme, vlastně je, že nestrukturovaná data převádíme na ta strukturovaná. A následně s pomocí automatizace už pracujeme s čísly.
Dá se to popsat třeba na e-mailech. Představte si, že by někdo potřeboval zpracovat velké množství e-mailů a dosud to musel dělat manuálně. My ale dokážeme pomocí převedení textu na vektory, tedy ty jedničky a nuly, automaticky zpracovat i desítky milionů mailů najednou a najít v nich vzorce nebo anomálie, které by mohly ukazovat na nějaké protiprávní jednání. Pokud bychom se bavili třeba o nějakém forenzním vyšetřování, tak dokážeme určit, že v určité části textu se lidé baví o tom, že mají vyzvednout děti ze školky, ale v jiné už mluví o nějakých podezřelých smlouvách. To jde samozřejmě zjistit i bez automatizace, ale bylo by to výrazně pracnější a zdlouhavější.
Všechno (smích). Jazyk funguje doslova jako otisk prstu. Každý má jiné jazykové prostředky, což souvisí s tím, že když má někdo třeba mámu z Hané a tátu z Ostravy, tak se to propíše i do jeho jazyka. Každý máme jinou syntax, jinou distribuci slovních druhů, zejména spojek nebo předložek. Stejně tak je měřitelné, jaká výplňková slova konkrétní člověk používá nejčastěji. Z jazyka poznáte, odkud kdo je, nebo to, jak je starý, třeba podle toho, jaké používá neologismy. A samozřejmě poznáte úroveň vzdělání. A logicky i pohlaví, což je u češtiny mimochodem jednodušší než u angličtiny, protože ta nemá různé koncovky pro příčestí minulé v ženském a mužském rodě.
Poznáte například i to, co je pro toho člověka důležité. Když například v textu několikrát uvede, že by ho maminka za něco nepochválila, tak je to možné použít třeba v případě hrozby trestu. Naznačíte, že by ho za něco maminka nepochválila a ono to na něj dost pravděpodobně bude působit. Což je vlastně oblast, která souvisí s mým původním oborem, protože já jsem studovala automatizované rozpoznávání emocí. Pomáhá mi to ale i v současném oboru, kdy musíme rozpoznat stupeň agrese. Podle toho, jak se člověk vyjadřuje, dokážeme odhadnout, jak bude v rámci vyšetřování spolupracovat, zda bude poddajný, nebo naopak nebezpečný vůči vyšetřovatelům.
Třeba s obrázky nebo s videem se dá pracovat s pomocí trénovacích dat, která určí, že se na obrazu někdo třeba usmívá nebo mračí. A na základě toho, co na snímku je, se k němu přidá nějaký automatický popisek. A s jeho pomocí se už dá různě filtrovat a vyhledávat. Samozřejmě se to dát dělat opět manuálně, ale je to pomalé a pracné. Automatizace to hrozně urychlila.
Podpořte Reportér sdílením článku
Pracuje jako ředitel médií společnosti Internet Info.