Mniej hejtu w sieci – NASK pomaga moderatorom tropić szkodliwe treści

NASK pomaga walczyć z hejtem w sieci. Naukowcy instytutu z Zakładu Inżynierii Lingwistycznej i Analizy Tekstu opublikowali właśnie zbiór szkodliwych i neutralnych treści, które posłużą portalom internetowym do skuteczniejszego moderowania treści. To pierwsza taka baza w Polsce.

Zbiór danych, który powstał na podstawie materiałów publikowanych na portalu Wykop.pl, to treści szkodliwe, zablokowane przez moderatorów portalu w latach 2013-2023, oraz treści neutralne. Technologia wykorzystana przez NASK do ich wychwycenia opiera się na uczeniu maszynowym.

Cenne źródło wiedzy dla twórców rozwiązań AI

Na początek opublikowano próbkę 24 tys. wpisów i komentarzy, pozyskanych z serwisu Wykop.pl (często nazywanym „polskim Redditem”), które przeszły przez ręce profesjonalnych moderatorów. 12 tys. z tych treści zaliczono do szkodliwych, natomiast 12 tys. zostało zaklasyfikowanych jako neutralne.

Docelowo udostępniony będzie pełny zbiór, który liczy ok. 700 tys. wpisów i komentarzy. Istotną zaletą bazy jest głębokie osadzenie w polskim internecie. Tworzone klasyfikatory uczone są na danych z polskiego portalu, a zatem uwzględniają kulturową specyfikę tej społeczności, a przede wszystkim analizują język polski w warstwie tekstowej. Wykop.pl ma własną politykę moderacji; klasyfikuje wpisy m.in. jako treści nawołujące do nienawiści i przemocy czy treści zawierające ataki osobiste. Komentarze zaklasyfikowane jako neutralne zostały pozyskane ze strony głównej serwisu.

– Opublikowana baza jest cennym źródłem wiedzy dla twórców rozwiązań AI, którzy mogą jej użyć do trenowania własnych modeli, ale też unikatowym zbiorem danych dla językoznawców, socjologów, badaczy dyskursu czy idiolektów w internecie. Z efektów naszej pracy może skorzystać każdy, komu zależy na wiarygodnej ocenie dużego zbioru autentycznych treści hejterskich. Pojedynczo, intuicyjnie wyobrażamy sobie, jak takie treści wyglądają, co mogą zawierać. Przewaga automatycznej analizy większego zbioru danych polega na tym, że można zaobserwować zjawiska, dostrzec wzorce, których się wcześniej, w izolowanych przypadkach nie dostrzegało – podkreśla Inez Okulska, Kierownik Zakładu Inżynierii Lingwistycznej i Analizy Tekstu w NASK SCIENCE.

Dokładna anonimizacja danych

Dane w bazie zostały poddane dokładnej anonimizacji – po to, aby uniknąć rozpowszechniania szkodliwych treści. Proces ten obejmował m.in. nazwiska i pseudonimy poszczególnych osób, dane adresowe czy adresy stron internetowych. Na potrzeby badań zachowano jednak dane wrażliwe dotyczące np. postaci fikcyjnych czy historycznych.

Baza dostępna jest na stronie