Jazyk a politika: jak nám textová analýza může pomoci v boji s hybridními hrozbami a dezinformacemi

V Mezinárodní politice se často zabýváme problematikou hybridních hrozeb či dezinformací a tím, jak s nimi bojovat. Většinou k tomu přistupujeme z pohledu politologie, mezinárodních vztahů či příbuzných oborů. V tomto textu se však na tuto problematiku díváme z jiného úhlu pohledu, totiž pomocí jazykové a textové analýzy. Ta umožňuje zjistit, jakým způsobem dochází k dezinterpretaci faktů, jaké manipulativní praktiky jsou užívány a kdo je jejich cílem.

Článek vyšel v tištěném čísle Mezinárodní politiky 2/2022.

Všechny krizové momenty posledních let, ruskou agresi na Ukrajinu nevyjímaje, mají vedle svých materiálních nákladů a ztrát i rovinu komunikační či ideologickou. Covidová pandemie, bezpochyby největší globální hrozba za dlouhou dobu, nebyla problematická z medicínského či farmaceutického hlediska. Klíčová pro zvládnutí pandemie byla otázka společenská a politická, zejména zde narážíme na fenomén dezinformací a konspiračních teorií, který měl v mnoha zemích světa (včetně České republiky) na svědomí velké ztráty na životech.

Řekněme si hned na úvod, že v tomto boji zatím nemáme účinné zbraně, jimiž bychom se tomuto typu manipulace postavili. Shodneme se nicméně, že základem úspěchu je poznání toho, s čím zápasíme a způsobů fungování těchto kampaní. Z těchto důvodů se v různých oborech začíná probouzet zájem o fenomény spojené s hybridními hrozbami. Vzhledem k tomu, že jejich povaha je bytostně textová, je pochopitelné, že se tento zájem soustředí především do humanitních a společenských věd, které mají interpretaci textů v popisu práce.

Jazykověda v boji proti hybridním hrozbám

Jeden z pohledů na tyto hrozby nabízí i jazykověda. Empirická lingvistická analýza moderní doby stojí na rozsáhlých datech, tzv. jazykových korpusech, což jsou soubory textů, které jsou anotované, elektronicky uložené a snadno prohledávatelné. Pro češtinu jsou taková data k dispozici v rámci projektu Český národní korpus (ČNK), odkud čerpá i náš výzkum. Kromě korpusů beletrie, mluvené či starší češtiny se ČNK soustředí i na mapování českých médií. Online média, která jsou vzhledem k nižším nákladům pro šíření dezinformací a konspiračních teorií náchylnější, jsou mapována korpusem ONLINE. V současnosti je tento korpus v procesu přerodu, za běžných okolností ale poskytuje badatelům přístup k aktuálním textům formujícím to, co bychom mohli nazvat veřejný diskurz (samozřejmě vedle jiných zdrojů, jako jsou sociální sítě, emailová korespondence apod.).

Klíčovou vlastností korpusu ONLINE, která z něj činí unikátní nástroj pro studium tzv. hybridních hrozeb, je jeho pokrytí. Vedle portálů reprezentujících hlavní proud (např. aktualne.cz, novinky.cz) či bulvární média (např. blesk.cz) obsahuje také celou řadu webů, které bychom mohli označit za antisystémové (namátkou jmenujme pravdive.eu, infokuryr.cz, protiproud.cz, aeronet.cz, z nichž některé byly v únoru 2022 v ČR znepřístupněny spolu s oficiálně kremelským médiem Sputnik News).

Pro každou analýzu je přitom klíčová otázka klasifikace těchto médií. V tomto ohledu spoléháme na studii provedenou Nadačním fondem nezávislé žurnalistiky. Tým pod vedením Josefa Šlerky zde zpracoval typologii domácích zpravodajských webů. Jejím základem není obsahová analýza portálů, ale zejména preference čtenářů. Vstupními daty jsou informace o provázanosti médií pomocí odkazů, a především informace o skupinách uživatelů sociálních sítí sdílejících a lajkujících články ze stejných portálů. Výstupem jsou pak klastry médií, které sdílejí stejné publikum a které jsou následně pojmenovány podle prototypických zástupců (mainstream, antisystémové weby apod.).

Pro samotnou lingvistickou analýzu je podstatný i další faktor – velkým objem dostupných dat. Denní přísun článků představuje v průměru asi 4 miliony slov (zhruba 40 třísetstránkových románů). V takovém množství dat lze úspěšně abstrahovat od vlivu jednoho média, autora či konkrétního textu a zjišťovat, jak se používají jednotlivá slova napříč tituly či jaké jsou převažující trendy.

Klíčovým ukazatelem přitom je četnost, tedy frekvence výskytu. To, kolikrát se dané slovo v textu vyskytuje, nám o něm i o textu, v němž se nachází, leccos řekne. Například už dřívější kvalitativní studie si všímaly „citační mánie“ některých dezinformačních webů, která je motivována snahou působit dojmem seriózního, dobře ozdrojovaného média. V případě korpusových dat můžeme tuto hypotézu snadno ověřit tím, že budeme zkoumat počet výskytů předložky podle, která se k citování užívá nejčastěji. Výskyt slova podle ve Sputnik News je téměř 3krát vyšší než v běžné české mainstreamové žurnalistice. Sputnik cituje hojně, a to i zdroje, které neexistují nebo které s tématem nesouvisí; v roce 2015 tak např. mylně cituje italský satirický program Le Iene (Hyeny) jako Le Lene ve zprávě o masakru místních obyvatel na Donbasu ze strany ukrajinské armády.

Systematické srovnání frekvencí slov v mainstreamové a antisystémové části korpusu nám dává přehled o tom, jaká témata jsou prominentně zastoupena v médiích s dezinformační agendou. Využíváme k tomu koncept klíčových slov, čímž se v analýze diskurzu označují jednotky, které se vyskytují v nějakém textu nebo korpusu nad očekávání často (ve srovnání s referenčním korpusem). Tato klíčová slova poukazují na to, čemu věnují weby jako Sputnik či Aeronet největší pozornost, kupř. v období říjen 2017–říjen 2018 to byla témata zahraničněpolitická (USA, Rusko, prezident, EU). Pozornost upřená k tématům, na nichž se formuje národní pozice k nejvýznamnějším událostem dneška, není překvapivá, v tom je značná shoda s mainstreamovými médii, i iDnes nebo Seznam zprávy o těchto tématech referují (i když jinak, viz níže). Zajímavé je podívat se na to, čemu věnují antisystémové weby pozornost exkluzivně: klíčová slova jako anglosionistická, russiagate, havloidní, dolarizace, židozednářský, antirusismus, vazalství apod. v denících hlavního proudu nenajdeme; ukazují na konspirační narativ tajných skupin, nebezpečí dominance USA ve světě či odklon od křesťanských hodnot v rámci západní civilizace.

Část analýz se zaměřuje na diskurzní obraz konkrétních témat. Obraz Ruska a Putina je např. v textech antisystémových webů překvapivě dobře odvoditelný od gramatických kategorií těchto jmen. Když se zaměříme na to, v jakých pádech se slova Rusko a Putin vyskytují v textech české verze Sputniku v roce 2015 a srovnáme to s jejich fungováním v běžné domácí žurnalistice, zjistíme, že Rusko se překvapivě často objevuje ve 3. pádu (dativ), který tradičně označuje toho, komu něco dáváme nebo děláme. Pokud se na výskyty v dativu podíváme blíž, zjistíme, že se nadměrně používají ve spojitosti s předložkami proti a vůči (Rusku). Vyvstává z toho obraz Ruska jako oběti, které je činěno příkoří a která se musí bránit. Komplementární obrázek naznačuje gramatický profil jména ruského prezidenta. Putin se objevuje častěji, než bychom čekali, v 1. pádě, tedy v pádě podmětu. To značí, že Putin je ve Sputnik News portrétován jako ten, kdo oprávněně koná ve prospěch Ruska (oběti), a není tedy ve vleku událostí (jako jiní politici, na které jsme se také podívali, např. tehdejší prezident Ukrajiny Petro Porošenko). Příznačné je, že identické strategie můžeme identifikovat i v projevu Vladimira Putina z 21. února, který byl předzvěstí invaze na Ukrajinu.

Interpretace v kontextu

Už z těchto zjištění nicméně vysvítá, že klíčovou roli při interpretaci hraje kontext. V této souvislosti je pozoruhodné, že nezřídka narazíme na slova, která jsou prominentní jak v antisystémových médiích, tak v mainstreamu, přitom rozdíl je v diskurzním rámci, do něhož jsou zasazena. Pro takové případy používáme data-miningovou techniku známou jako Market Basket Analysis (MBA). Jak její název napovídá, jedná se o metodu vyvinutou původně pro marketingové účely a jejím cílem je identifikovat asociace mezi nakupovanými položkami (když si zákazník koupí mouku a máslo, je pravděpodobné, že bude chtít i vejce). Namísto košíku si dosaďme text, položky v něm nahraďme prominentními slovy a můžeme zjišťovat, do jaké míry spolu souvisí jednotlivá témata.

Tímto způsobem můžeme porovnávat asociativní pole různých slov v mainstreamových a antisystémových médiích. Nepřekvapí v tomto srovnání (data z léta 2020), že EU má v hlavním proudu asociace s vrcholnými českými politiky a institucemi (Babiš, Česko, premiér, vláda atp.), zatímco antisystém vykresluje EU v souvislosti se slovy jako sankce, Rusko, náš, národ, soběstačnost, dluh apod. Obdobně slovo Rusko je v mainstreamu viděno v geopolitických souvislostech (americký, Bělorusko, Kreml, USA, Putin ap.) nebo ve světle probíhající epidemie (nákaza, pandemie, případ, zemřít apod.), antisystémová média obrací svoji pozornost v souvislosti s Ruskem k tématům zcela jiným: Dukovany, Ukrajina (sic!), NATO, SSSR, armáda, bezpečnost, konflikt, válka, voják, jednotka, zbraň. Ve zpětném pohledu se interpretace těchto zjištění zdá být mnohem jednoznačnější než v roce 2020, kdy byla analýza vytvořena.

V duchu hesla Steva Bannona, který radil Donaldu Trumpovi, aby bojoval s médii tím, že je zaplaví spoustou zdánlivě nesouvisejících informací, se antisystémová média v ČR pokouší o podobný přístup. Například v době doznívající uprchlické krize (2017–2018) se v médiích stále nachází slovo migrant ve značně prominentní pozici, rozdíl opět nacházíme v asociacích. Pro ilustraci, jak funguje Bannonova rada, můžeme uvést, že MBA odhalila 6krát víc asociací spojených s migrantem v antisystémových médiích (např. naznačujících, že jde o globální konspiraci ap.) než v hlavním proudu. Zdá se, že z pohledu antisystémových médií je migraci vhodné propojit s jakýmkoli tématem, které se objeví na horizontu a které je třeba ukázat v negativním světle. Zároveň se tím prohlubuje dlouhodobý narativ o škodlivosti EU pro své členské státy.

Asociace se nemusejí projevovat pouze souvýskytem v textech, ale také prostou sousledností v čase. Porovnáme-li např., jakým způsobem se vyvíjí míra užití slov chřipka a koronavirus v korpusu, zjistíme, že v mainstreamu mají obě slova trend nijak nesouvisející, zatímco antisystémová platforma vykazuje silnou korelaci jejich frekvencí. To ukazuje na narativ, v němž je covidová nákaza zlehčována jako chřipka, což je závěr, který lze následnou detailnější analýzou textů některých antisystémových serverů potvrdit.

U covidu ještě zůstaneme, abychom si ukázali ještě jednu strategii – parazitování na tématu. Vakcína proti covidu byla původně především tématem mainstreamové žurnalistiky. Antisystém postupně absorbuje mainstreamové asociace, což mu pomáhá vytvářet dojem seriózního informačního zdroje, který se zajímá o aktuální téma, zároveň ale k nim přidává svoje specifické – v tomto případě se jedná o období podzimu 2020, kdy hlavním cílem antisystémových webů je taktická příprava na uvedení ruské vakcíny Sputnik V (úspěchy ruského výzkumu a jeho boje s pandemií). Diskusi o přijetí ruské vakcíny se navíc na začátku roku 2021 podaří dostat i do některých médií hlavního proudu. Tím je připravena půda pro iniciativu prezidenta Zemana ve prospěch Sputniku V, která nakonec vyústila v nahrazení Jana Blatného na pozici ministra zdravotnictví za smířlivějšího Petra Arenbergera.

Strategií a příkladů by bylo možné ukázat ještě celou řadu a minimálně stejně velká porce jich teprve čeká na odhalení a popsání. Vzhledem k tomu, že v současnosti nemáme žádný účinný nástroj pro prevenci těchto hrozeb, zdá se být explicitní poukaz na manipulativní praktiky tohoto typu jedinou jakž takž funkční obranou. Je nicméně zjevné, že nás v tomto směru čeká ještě hodně práce – nejen na univerzitách, ale zejména na školách a v osvětě.

 

Václav Cvrček je lingvista a bohemista, působí na Ústavu Českého národního korpusu Filozofické fakulty Univerzity Karlovy.

Masako Fidler je lingvistka a bohemistka, působí na Katedře slavistických studií Brown University, USA.