Nezisková organizácia LAION zaoberajúca sa umelou inteligenciou stiahla svoju 5B sadu údajov pre strojové učenie. Je veľmi široko používaná. Aj samotná spoločnosť Google ju používa na trénovanie svojich modelov umelej inteligencie. Stiahli ju po tom, čo nedávna stanfordská štúdia zistila, že obsahuje 1 008 prípadov externe overeného materiálu sexuálneho zneužívania detí a celkovo ďalších 3 226 podozrivých prípadov, uvádza sa na portáli Futurism.
Riziká generátorov obrázkov s umelou inteligenciou
Toto zistenie asi šokuje mnohých. Zároveň ale poukazuje na to, že neselektívne trénovanie modelov má skutočné riziká. A údaje z organizácie LAION nepoužíva len Google, ale aj populárne aplikácia na generáciu obrázkov Stable Diffusion. LAION-5B je databáza, ktorá obsahuje najväčšie množstvo súborov. Obsahuje tiež miliardu obrázkov z otvoreného webu vrátane údajov, ktoré vytvorili používatelia.
„Zistili sme, že vlastníctvo súboru údajov LAION-5B naplneného koncom roka 2023 znamená vlastníctvo tisícok nelegálnych snímok, pričom sa nezapočítavajú všetky intímne snímky zverejnené a zhromaždené bez súhlasu, ktorých legálnosť sa v jednotlivých jurisdikciách líši,“ uvádza sa v dokumente.
Zdá sa, že spoločnosť Google a aplikácia Stable Diffusion uľahčujú generovanie materiálu týkajúceho sa sexuálneho zneužívania detí, alebo umožňujú, aby sa už existujúci materiál používal na generovanie iných, potenciálne škodlivých obrázkov. Obrázky „v podstate dávajú modelu umelej inteligencie výhodu v tom, že dokáže vytvárať obsah zneužívania detí spôsobom, ktorý by sa mohol podobať skutočnému zneužívaniu detí,“ vyjadril sa David Thiel, hlavný autor a technológ STO. Zistenie ale tiež naznačuje, že výskumníci môžu neúmyselne do svojho počítača ukladať nechutné a navyše nezákonné obrázky.
„Ak ste si stiahli tento úplný súbor údajov na akýkoľvek účel, na trénovanie modelu na výskumné účely, potom áno, určite máte materiál týkajúci sa sexuálneho zneužívania detí, pokiaľ ste neprijali nejaké mimoriadne opatrenia na jeho zastavenie,“ povedal Thiel.
Organizácia mala vedomosti
Čo je ale ešte horšie, spoločnosť LAION od roku 2021 vedela, že sa v ich údajoch môže nachádzať tento materiál. Thiel sa pre 404 Media vyjadril, že organizácia neurobila dosť pre skenovanie materiálu. Nezisková organizácia následne vyhlásila, že inkriminovaný obsah odstráni. Ako ale poznamenali výskumníci zo Stanfordu, stále môže existovať množstvo ďalších obrázkov.