PL-Guard. Cyfrowy strażnik polskiej AI
Dezinformacja? Mowa nienawiści? Niebezpieczne porady? To realne ryzyko, które powstaje, gdy używamy sztucznej inteligencji. A konkretnie - dużych modeli językowych, takich jak ChatGPT. Zwłaszcza, gdy działają bez odpowiednich zabezpieczeń. Dlatego eksperci z NASK opracowali model PL-Guard. Bo – jak się okazuje – AI potrzebuje też strażnika.


Sztuczna inteligencja ułatwia nasze życie i pracę. Ale czy chcemy, żeby pomagała również w popełnianiu przestępstw? Żeby odpowiadała na pytania, jak skonstruować broń, ośmieszyć kogoś czy nakłonić do zrobienia sobie krzywdy? Czy możliwości, jakie daje AI powinny podlegać ograniczeniom? A jeśli tak, to jakim?
Wyzwanie podjęli eksperci z NASK. I wprowadzili do gry PL-Guard – polski zestaw danych testowych, stworzony po to, by ocenić, czy modele językowe radzą sobie z wykrywaniem niebezpiecznych treści po polsku.
– Jednym z największych wyzwań współczesnego AI jest luka językowa. Chodzi o to, że większość systemów bezpieczeństwa AI jest projektowana głównie dla języka angielskiego. To oznacza, że użytkownicy mówiący w innych językach mogą być mniej chronieni. Co za tym idzie ten sam model AI może być bezpieczny w języku angielskim, ale generować niebezpieczne treści w innych językach – zauważa Wojciech Kusa, kierownik Zakładu Inżynierii Lingwistycznej i Analizy Tekstu działającego w strukturach Ośrodka Badań nad Bezpieczeństwem Sztucznej Inteligencji NASK.
I tu rodzi się pytanie – co z polszczyzną, z jej skomplikowaną gramatyką, niuansami i kulturowym lub nawet lokalnym kontekstem?
Odpowiedzią jest nowy model – HerBERT-PL-Guard. System powstał w ramach projektu NASK. Oparty jest na popularnej architekturze BERT, ale wyspecjalizowany w naszym języku. W testach odporności osiągnął najwyższe wyniki odporności na ataki adwersaryjne, czyli próbki celowo zmodyfikowane w taki sposób, by zmylić model. Badania udowodniły, że modele BERT wypadają w testach lepiej niż większe systemy. Pokazuje to, że w świecie AI nie zawsze „więcej znaczy lepiej”.
– Wykazaliśmy, że dostrojony model HerBERT, stworzony specjalnie dla języka polskiego, przewyższał w zadaniach bezpieczeństwa znacznie większe i bardziej rozbudowane modele uniwersalne – mówi Aleksandra Krasnodębska, specjalistka NLP i członkini zespołu badawczego pracującego nad PL-Guard bezpieczeństwem dużych modeli językowych.
HerBERT-PL-Guard nie tylko rozumie polski, ale też wyłapuje subtelne zmiany, którymi niektórzy próbują oszukać system – jak np. zamiana liter w słowach czy subtelne przekształcenia składni, mające na celu obejście filtrów bezpieczeństwa.
Czym właściwie jest model typu Guard?
Można go porównać do cyfrowego strażnika. Taki model działa jako filtr – analizuje to, co „mówi” duży model językowy i sprawdza, czy przypadkiem nie pojawiło się coś niewłaściwego. Mowa nienawiści? Blokada. Dezinformacja? Również blokada. Treści niestosowne czy niebezpieczne? Guard stoi na straży wszystkich nieodpowiednich informacji. Odgrywa kluczową rolę w zapewnianiu bezpieczeństwa, zgodności z zasadami etycznymi oraz kontroli jakości generowanych odpowiedzi.
Po co nam to wszystko?
Bo AI ma coraz większy wpływ na nasze życie. Pomaga pisać, wyszukiwać, odpowiadać, zdobywać wiedzę, ulepszać to, co robimy. Ale jeśli sztuczna inteligencja nie przestrzega zasad etycznych i przepisów prawa – może też szkodzić. Właśnie dlatego tak bardzo potrzebne są modele typu Guard.
Badania NASK pokazują, że lokalne rozwiązania mają sens. Modele trenowane z myślą o konkretnym języku i kulturze są po prostu skuteczniejsze. A to bardzo ważne, jeśli chcemy, by AI wspierała nas w codziennym życiu – bez przekraczania granic.
Bezpieczna AI? Tak, po polsku!
Model HerBERT-PL-Guard i zestaw danych PL-Guard to konkretne narzędzia, które pomagają tworzyć bardziej odpowiedzialne systemy sztucznej inteligencji – i to w naszym języku. Dzięki nim AI może lepiej rozumieć, co wypada, a czego nie, co jest żartem, a co już mową nienawiści. I co może być informacją, którą ktoś wykorzysta w sposób niebezpieczny.
To dobra wiadomość dla wszystkich, którzy chcą korzystać z AI z głową. Bo w tej grze nie chodzi tylko o technologię – chodzi też o zaufanie.
I właśnie dlatego polska AI potrzebuje własnych Guardów.
Wyróżnione aktualności
Pedofilia w internecie kwitnie dzięki AI. Raport Dyżurnet.pl za 2025 rok
300 proc. rok do roku. O tyle wzrosła liczba materiałów wygenerowanych przez AI, które przedstawiają seksualne wykorzystanie dzieci. Znacząco rośnie udział komunikatorów internetowych w dystrybucji CSAM. O tym mówi raport roczny z działań Dyżurnet.pl - zespołu, który w ramach NASK przyjmuje i analizuje zgłoszenia związane z treściami nielegalnymi i szkodliwymi dla dzieci i młodzieży.
Centrum Cyberbezpieczeństwa NASK o krok bliżej
Ultranowoczesne Centrum Cyberbezpieczeństwa NASK powstanie na warszawskiej Pradze-Północ, a w nim m.in. laboratoria do rozwoju sztucznej inteligencji czy Centrum Odzyskiwania Danych. Instytut właśnie uzyskał decyzję o pozwoleniu na budowę CCN. To już tylko jeden krok od symbolicznego “wbicia łopaty” i – co za tym idzie – wzmocnienia krajowego systemu cyberbezpieczeństwa.
Rodzina PLLuM znowu się powiększa. Polskie AI coraz silniejsze
Co łączy pismo z urzędu, firmową bazę wiedzy, pomocnika AI w banku i aplikację, która ma odpowiedzieć użytkownikowi prostym językiem?
NASK na Impact’26. Technologia po właściwej stronie
– W tym roku przyjechaliśmy na Impact z wyjątkową agendą, bo zależało nam na tym, aby w atrakcyjny i angażujący sposób opowiedzieć o tym, czym zajmujemy się na co dzień. Za nami inspirujące debaty poświęcone twórcom i sztucznej inteligencji, cyberbezpieczeństwu oraz wyzwaniom, jakie niesie cyfrowy świat – podsumowywał obecność NASK na Impact’26 szef instytutu Radosław Nielek.
Najnowsze aktualności
Ty też masz wpływ! NASK na See Bloggers 2026
Tysiące twórców internetowych, godziny rozmów, prelekcje i ...cały nakład przewodnika NASK dla influencerów rozdany już pierwszego dnia. Tak wyglądał weekend NASK podczas See Bloggers 2026 – największego festiwalu dla twórców internetowych w Polsce.
„Sprzedam kolegę”, czyli nowa forma cyberprzemocy
„Imię dziecka: Pedał. Cena: 112 zł. Opis: karmić tylko przez kij”. To ogłoszenie na popularnej w Polsce platformie sprzedażowej, na której dzieci „wystawiają” innych „na sprzedaż”. Zazwyczaj do „oferty” dołączone jest też zdjęcie pokrzywdzonego. – To cyberprzemoc. Jej celem jest upokorzenie konkretnej osoby – mówi Natalia Fabisiak z Dyżurnet.pl – zespołu, który w ramach działań NASK reaguje na nielegalne treści w internecie.
O bezpieczeństwie twórców i graczy. NASK na See Bloggers i CD-Action
Co łączy Małgorzatę Rozenek-Majdan, Janinę Bąk, Karolinę Czak i Wojciecha Kardysia? Wszyscy wzięli udział w przygotowaniu przewodnika NASK dla twórców cyfrowych – publikacji o tym, jak chronić konta, dane, wizerunek i społeczności budowane w internecie. Bo dziś dla influencera utrata profilu to nie tylko problem z hasłem. To ryzyko utraty zasięgów, współprac, reputacji i kontaktu z odbiorcami.







