PL-Guard. Cyfrowy strażnik polskiej AI
Dezinformacja? Mowa nienawiści? Niebezpieczne porady? To realne ryzyko, które powstaje, gdy używamy sztucznej inteligencji. A konkretnie - dużych modeli językowych, takich jak ChatGPT. Zwłaszcza, gdy działają bez odpowiednich zabezpieczeń. Dlatego eksperci z NASK opracowali model PL-Guard. Bo – jak się okazuje – AI potrzebuje też strażnika.


Sztuczna inteligencja ułatwia nasze życie i pracę. Ale czy chcemy, żeby pomagała również w popełnianiu przestępstw? Żeby odpowiadała na pytania, jak skonstruować broń, ośmieszyć kogoś czy nakłonić do zrobienia sobie krzywdy? Czy możliwości, jakie daje AI powinny podlegać ograniczeniom? A jeśli tak, to jakim?
Wyzwanie podjęli eksperci z NASK. I wprowadzili do gry PL-Guard – polski zestaw danych testowych, stworzony po to, by ocenić, czy modele językowe radzą sobie z wykrywaniem niebezpiecznych treści po polsku.
– Jednym z największych wyzwań współczesnego AI jest luka językowa. Chodzi o to, że większość systemów bezpieczeństwa AI jest projektowana głównie dla języka angielskiego. To oznacza, że użytkownicy mówiący w innych językach mogą być mniej chronieni. Co za tym idzie ten sam model AI może być bezpieczny w języku angielskim, ale generować niebezpieczne treści w innych językach – zauważa Wojciech Kusa, kierownik Zakładu Inżynierii Lingwistycznej i Analizy Tekstu działającego w strukturach Ośrodka Badań nad Bezpieczeństwem Sztucznej Inteligencji NASK.
I tu rodzi się pytanie – co z polszczyzną, z jej skomplikowaną gramatyką, niuansami i kulturowym lub nawet lokalnym kontekstem?
Odpowiedzią jest nowy model – HerBERT-PL-Guard. System powstał w ramach projektu NASK. Oparty jest na popularnej architekturze BERT, ale wyspecjalizowany w naszym języku. W testach odporności osiągnął najwyższe wyniki odporności na ataki adwersaryjne, czyli próbki celowo zmodyfikowane w taki sposób, by zmylić model. Badania udowodniły, że modele BERT wypadają w testach lepiej niż większe systemy. Pokazuje to, że w świecie AI nie zawsze „więcej znaczy lepiej”.
– Wykazaliśmy, że dostrojony model HerBERT, stworzony specjalnie dla języka polskiego, przewyższał w zadaniach bezpieczeństwa znacznie większe i bardziej rozbudowane modele uniwersalne – mówi Aleksandra Krasnodębska, specjalistka NLP i członkini zespołu badawczego pracującego nad PL-Guard bezpieczeństwem dużych modeli językowych.
HerBERT-PL-Guard nie tylko rozumie polski, ale też wyłapuje subtelne zmiany, którymi niektórzy próbują oszukać system – jak np. zamiana liter w słowach czy subtelne przekształcenia składni, mające na celu obejście filtrów bezpieczeństwa.
Czym właściwie jest model typu Guard?
Można go porównać do cyfrowego strażnika. Taki model działa jako filtr – analizuje to, co „mówi” duży model językowy i sprawdza, czy przypadkiem nie pojawiło się coś niewłaściwego. Mowa nienawiści? Blokada. Dezinformacja? Również blokada. Treści niestosowne czy niebezpieczne? Guard stoi na straży wszystkich nieodpowiednich informacji. Odgrywa kluczową rolę w zapewnianiu bezpieczeństwa, zgodności z zasadami etycznymi oraz kontroli jakości generowanych odpowiedzi.
Po co nam to wszystko?
Bo AI ma coraz większy wpływ na nasze życie. Pomaga pisać, wyszukiwać, odpowiadać, zdobywać wiedzę, ulepszać to, co robimy. Ale jeśli sztuczna inteligencja nie przestrzega zasad etycznych i przepisów prawa – może też szkodzić. Właśnie dlatego tak bardzo potrzebne są modele typu Guard.
Badania NASK pokazują, że lokalne rozwiązania mają sens. Modele trenowane z myślą o konkretnym języku i kulturze są po prostu skuteczniejsze. A to bardzo ważne, jeśli chcemy, by AI wspierała nas w codziennym życiu – bez przekraczania granic.
Bezpieczna AI? Tak, po polsku!
Model HerBERT-PL-Guard i zestaw danych PL-Guard to konkretne narzędzia, które pomagają tworzyć bardziej odpowiedzialne systemy sztucznej inteligencji – i to w naszym języku. Dzięki nim AI może lepiej rozumieć, co wypada, a czego nie, co jest żartem, a co już mową nienawiści. I co może być informacją, którą ktoś wykorzysta w sposób niebezpieczny.
To dobra wiadomość dla wszystkich, którzy chcą korzystać z AI z głową. Bo w tej grze nie chodzi tylko o technologię – chodzi też o zaufanie.
I właśnie dlatego polska AI potrzebuje własnych Guardów.
Wyróżnione aktualności
Szeroki front małych systemów na Impact’25
Wbrew pozorom zapewnienie cyfrowego bezpieczeństwa w gminie jest trudniejsze niż w banku – mówił w dyskusji podczas Impact’25 Radosław Nielek, dyrektor NASK. W jednej gminie może znajdować się jednocześnie wiele różnych systemów informatycznych – wodociągów, szkół, placówek medycznych.
NASK o krok przed cyberprzestępcami. Forum Bezpieczeństwa Banków 2025
Kradzież tożsamości, ataki na infrastrukturę i próby manipulacji danymi. Sektor finansowy jest na pierwszej linii frontu w walce z cyberprzestępcami. NASK – jako lider w dziedzinie cyberbezpieczeństwa - wychodzi naprzeciw tym wyzwaniom. – Udział w Forum Bezpieczeństwa Banków to dla nas okazja do poznania realnych potrzeb sektora bankowego i wdrożenia konkretnych działań – mówił Piotr Bisialski, kierownik zespołu NASK Incident Response Team.
PLLuM rośnie w siłę
600 tysięcy promptów wpisanych w okienko PLLuMa i nowości, od których dzielą nas nie lata, a zaledwie tygodnie – kolejne modele i prototyp inteligentnego asystenta. W siedzibie NASK w Warszawie spotkali się wszyscy uczestnicy konsorcjum HIVE AI. Grupy, która ma za zadanie rozwijać i wdrażać polski model językowy (PLLuM).
Rozkwitnij z MAK. Program Mentoringu Aktywnych Kobiet nabiera barw
Podnieś swoje kompetencje z zakresu cyberbezpieczeństwa i wejdź na rynek nowych technologii! Już kilkaset kobiet zgłosiło chęć udziału w programie MAK (Mentoring Aktywnych Kobiet), ogłoszonym przez NASK we współpracy z Ministerstwem Cyfryzacji. Zostań jedną z nich — zgłoś swój udział i rozwiń skrzydła w indywidualnym programie mentoringowym. Nabór trwa do końca maja.
Najnowsze aktualności
NASK na Open’er Festival - technologia, edukacja i dobra zabawa!
Gdynia, lato, muzyka i… cyberbezpieczeństwo! NASK po raz kolejny udowadnia, że technologia i edukacja mogą iść w parze z zabawą. Podczas tegorocznego Open’er Festival, który w ubiegłym roku przyciągnął ponad 130 tysięcy uczestników, NASK zaprasza do swojej strefy – miejsca, gdzie cyfrowy świat staje się zrozumiały, fascynujący i bezpieczny.
Młodzi, zdolni, cyfrowi. NASK inwestuje w przyszłość
Najlepsze “inżynierki” wybrane. Młodzi autorzy prac, nagrodzonych w V Ogólnopolskim Konkursie Polskiego Towarzystwa Informatycznego (PTI), już zmieniają świat na lepsze. Za nami Gala Finałowa. Nagrody, które ufundował NASK, wręczyli wicepremier Krzysztof Gawkowski oraz dr inż. Radosław Nielek, dyrektor Instytutu.
Masz głowę do znajdowania luk w systemach? ECSC czeka
Chcesz zajmować się cyberbezpieczeństwem, ale nie wiesz, od czego zacząć? Świetnie trafiłeś. Bo choć świat "cyber" kojarzy się z tajemniczymi linijkami kodu i skomplikowanymi systemami, prawda jest taka, że to przestrzeń dla ludzi z bardzo różnymi umiejętnościami. I – co ważne – otwarta także dla tych, którzy dopiero się uczą.