V jedné z veřejných databází na serveru čínského internetového gigantu Baidu byl nedávno objeven více než třistagigabitový soubor dat, který s největší pravděpodobností slouží čínským vývojářům k zefektivnění cenzury online AI nástrojů. Podle novináře Marca Hofera, který jako první na databázi upozornil ve svém newsletteru NetAskari na Substacku, soubor pomáhá s klasifikací dat čínského velkého jazykového modelu. Jejich přesný původ ani účel nejsou známé, analytici nicméně potvrzují souvislost s cíli čínské vlády v oblasti regulace veřejného mínění na internetu.
Předběžnou analýzu této databáze, aktualizované až do prosince 2024, publikoval letos v březnu např. server TechCrunch. Dochází v ní k závěru, že čínská vláda a její spolupracovníci nepochybně „využívají LLM [velké jazykové modely] k posílení represe“. Dílčí analýzu hlavních témat přinesl i China Media Project s podobnými závěry. Alex Colville z CMP navíc upozorňuje, že takové využití AI bude do budoucna stírat hranice mezi soukromými firmami a státním dohledem, cenzura bude automatizovaná, autonomní a všudypřítomná.
Už původní zpráva newsletteru NetAskari upřesňuje, že se jedná o „soubory ve formátu JSON [JavaScript Object Notation], obsahující klasifikační prompt spolu s odpovídajícím obsahovým vláknem“. Z podoby dat je zřejmé, že prompty jsou určené pro nejužívanějšího čínského chatbota jménem Ernie vyvinutého čínskou obdobou Googlu, společností Baidu. Databáze shromažďuje příklady „cílového obsahu“, na nějž se zaměřuje čínská cenzura, včetně novinových titulků, komentářů ze sociálních sítí, vyjádření vlády nebo internetových článků.
Pravidla čínského internetu
Když v prosinci 2024 představila čínská společnost DeepSeek nejnovější verzi svého velkého jazykového modelu, kterým chce globálně konkurovat produktům amerických technologických gigantů typu OpenAI, Meta či Google, řada uživatelů se rozhodla otestovat jeho hranice. Nejčastěji se jej zkoušeli ptát, co se stalo na náměstí Nebeského klidu v Pekingu 4. června 1989 nebo na genocidu Ujgurů v Sin-ťiangu. Chatbot na otázky reagoval, následně však své odpovědi sám cenzuroval s návrhem „Pojďme si povídat o něčem jiném”. Tento příklad zjevné cenzury nicméně neodhaluje hlubší principy, na nichž je kontrola čínského kyberprostoru skutečně založena.
Občané ČLR – patrně i v důsledku dlouhodobé cenzury – nepoužívají internet primárně k vyhledávání „faktů“, ale slouží jim nejčastěji pro přístup k aplikacím a sociálním sítím. Chtějí-li vyrazit do restaurace nebo na cesty, nebudou si vyhledávat informace prostřednictvím webů nebo západních nástrojů jako Google či Wikipedie (které jsou v ČLR beztak blokované), ale spolehnou se spíše na sociální sítě, uživatelské tipy a influencery. Zároveň v ČLR nedává smysl vyhledávat problematická, cenzurou hlídaná témata v pečlivě monitorovaném online prostoru, kde je autocenzura už zcela automatická. V důsledku dlouhodobého působení cenzurního a propagandistického aparátu, včetně „vlastenecké výchovy“ od útlého věku, taková témata většinového čínského uživatele často ani nezajímají. Většina se orientuje na současnost a praktické věci, které se bezprostředně týkají jejich života – to je pro ně bezpečná zóna.
Cenzura nové generace
Soudobá cenzura funguje na mnohem hlubší úrovni: jejím cílem není pouze odstraňovat nežádoucí obsah, ale především zajistit, aby se o citlivých tématech ve veřejném prostoru vůbec nezačalo diskutovat. Musí tak umět předvídat problematické situace a v ideálním případě preventivně bránit narušení „společenské stability“. Právě v tom mohou být AI nástroje velmi nápomocné.
Uniklá data z rozsáhlé databáze analyzované TechCrunchem jsou toho příkladem. Soubor obsahuje více než 133 tisíc příkladů promptů, které podle autora článku Charlese Rolleta pomohou „automaticky vyhodnotit obsah, jenž čínská vláda považuje za citlivý“. Podle Hofera také „poskytují přesné instrukce pro LLM, jakým způsobem klasifikovat a prioritizovat informace“, což může být užitečné například při nastavování algoritmů určujících, jaký obsah se uživatelům zobrazí. Cílem je primárně cenzura čínských občanů, tato data však mohou sloužit i k vylepšení cenzury stávajících čínských AI modelů.
Celý dataset se primárně zaměřuje na monitoring „nálad veřejnosti“ (舆情). „Práce s veřejným míněním“ je jedním z klíčových témat čínské vlády a komunistické strany. O „nové frontě veřejného mínění“ (新兴舆论阵地), která se otevřela v podobě „nových médií“, tedy hlavně sociálních sítí, hovořil generální tajemník KS Číny Si Ťin-pching už v roce 2016. Hlavním cílem této „stranické práce“ je prosazování čínských narativů na internetu a potlačování jakýchkoli jiných.
A AI s tím může výrazně pomoci. Jejím úkolem je vyhodnotit, jestli určitý obsah může být „citlivý z hlediska politiky, společnosti či armády“. To značně usnadní práci čínským cenzorům a zejména technologickým firmám, které musely na vlastní náklady zaměstnávat až tisíce lidí, kteří tuto práci dosud prováděli manuálně.
Hierarchie priorit
Soubor má podle Hofera „jasnou hierarchii priorit“: na prvním místě je „vojenské dění“ (军事动态), následuje „dění ve společnosti“ (社会动态) a „dění v politice“ (时政动态). Pod „vojenské dění“ spadají témata týkající se armády, pohybu vojsk, vojenských cvičení a bojové techniky, ale také příspěvky týkající se Tchaj-wanu, který je v databázi zmíněn víc než 15000krát. „Dění ve společnosti“ zahrnuje širokou škálu témat, například znečištění prostředí, bezpečnost potravin, finanční podvody, dělnické protesty, policejní vydírání podnikatelů nebo situaci v chudých venkovských oblastech, kde mnohdy zůstávají jen staří lidé a malé děti, zatímco ekonomicky aktivní obyvatelstvo se přesouvá za prací do větších měst.
Pod „dění v politice“ pak patří například korupce, privilegované společenské třídy, politická situace na Tchaj-wanu, ale také „politická satira“ nebo „historické analogie“ mířící na „současné politické představitele“. Tato témata mají v čínském společenském a politickém kontextu potenciál rozdmýchat vášně a veřejné debaty.
Zapojení státních institucí
Studie výzkumného týmu Trivium China ukázala, že čínské aplikace generativní AI se kromě zdravotnictví a vzdělávání nejvíce rozvíjejí právě v oblasti státní správy, kde slouží mimo jiné k cenzuře obsahu. Například ze spolupráce Institutu automatizace Čínské akademie věd a Lidového deníku vznikla aplikace Bysearch, která dokáže analyzovat text, video i audio za účelem cenzury obsahu.
Server China Digital Times nedávno přinesl překlad úryvků z článku v čínštině o aktivním využívání AI místními orgány po celé Číně. Místní vlády si pochvalují, že AI úspěšně nahrazuje lidskou práci například policie a dalších složek v prevenci a kontrole bezpečnostních rizik na internetu, ale také například při velkých veřejných akcích. Jejím největším přínosem je rychlé odhalení „klíčových témat ve veřejném diskursu” a kvantitativní analýza trendů. To pomáhá rovněž identifikovat „zdroje ovlivňující veřejné mínění” a eliminovat je. Tyto zprávy z terénu ukazují na stejné zaměření a cíle jako uniklá data.
Jihočínské noviny dokonce letos v únoru informovaly o školení místních představitelů zaměřeném na správné využívání DeepSeeku v kontextu veřejného mínění. Jeho cílem mělo být „využití AI technologie ke zlepšení sledování a analýzy veřejného mínění s cílem rychlejšího (…) rozhodování o vhodné reakci na problémy nebo požadavky obyvatel”. Místní představitelé přitom zdůrazňovali, že AI není využívána k „mazání online obsahu”, ale pouze k „rychlému třídění a organizaci velkých objemů dat, aby se zajistilo, že všechny problémy a požadavky budou neprodleně vyřešeny.”
Děje se to přitom nejen na čínském internetu, ale i na západních sociálních sítích. Společnost OpenAI nedávno zveřejnila zprávu, podle níž neidentifikovaný aktér operující pravděpodobně z Číny využíval AI nástroje k monitorování obsahu sociálních sítí. Analytici společnosti také odhalili technologii generující příspěvky a komentáře. Cílem jejich útoků byla například prominentní čínská disidentka Cchaj Sia. Čína podobné zprávy označuje za „očerňování“ a „pomlouvání“ čínských firem v konkurenčním boji.
AI se tak v rukou čínského státu stává klíčovým nástrojem nejen pro kontrolu domácího veřejného mínění, ale i pro formování obrazu Číny navenek.