Unia Europejska

Wspieramy administrację publiczną

Rozwijamy i wdrażamy duże modele językowe (ang. Large Language Models). Opieramy się na doświadczeniach zebranych w trakcie realizacji projektu PLLuM.

Zadania

Projekt obejmuje cztery komplementarne działania

Budowa korpusów danych językowych

Gromadzimy nowe zbiory danych tekstowych, w szczególności danych niedostępnych publicznie i danych z domeny urzędowej, do bazowego treningu modeli. Dane pozyskujemy zgodnie z przepisami prawa polskiego i europejskiego. Tworzymy również nowe zbiory instrukcji do dostrajania (ang. instruction fine tuning) oraz preferencji do wychowania modeli (ang. alignment) według autorskiej typologii.

Trening dużych modeli językowych, w tym trening bazowy, dostrajanie i wychowanie

Rozszerzamy rodziny modeli PLLuM o nowe modele o różnych rozmiarach, w tym modele ogólnego zastosowania, przystosowane do realizacji różnorodnych zadań językowych – ze szczególnym naciskiem na domenę urzędową – oraz generatory, czyli wyspecjalizowane modele RAG-owe (ang. Retrieval Augmented Generation). Nasze podejście obejmuje trening bazowy, dostrajanie i wychowanie.

Zabezpieczenie i ewaluacja dużych modeli językowych

Tworzymy narzędzia do kompleksowej oceny jakości i bezpieczeństwa modeli językowych w różnorodnych zastosowaniach urzędowych. Przygotowujemy autorskie zbiory danych walidacyjnych (testowych). W celu ograniczenia ryzyka generowania przez modele treści szkodliwych i niepożądanych opracowujemy algorytmy filtrujące dane wejściowe i wyjściowe oraz dokonujące korekty wyjścia z modelu.

Pilotażowe wdrożenie modeli w sektorze publicznym

Wspieramy proces wdrożenia polskich modeli językowych w aplikacji mObywatel, tj. utworzenie wirtualnego asystenta (chatbota) informującego o usługach publicznych, a także wdrażanie polskich modeli językowych w Ministerstwie Cyfryzacji oraz w wybranym urzędzie miasta lub wojewódzkim w postaci asystentów urzędniczych.

O konsorcjum

Poznaj osoby, które stoją za HIVE

Informatycy, lingwiści, ale także prawnicy, socjologowie czy eksperci ds. bezpieczeństwa.Wszyscy działamy wspólnie na rzecz rozwoju polskich modeli językowych.

Dowiedz się więcej

Finansowanie

Projekt finansowany ze środków Ministerstwa Cyfryzacji

Projekt prowadzony jest w ramach dotacji celowej nr 1/WII/DBI/2025, pn. HIVE AI: Rozwój i pilotażowe wdrożenie dużych modeli językowych w polskiej administracji publicznej”. Wartość finansowania: 18 983 055 zł.

Kontakt

Zachęcamy do kontaktu!

E-mail

Jeśli masz pytania, chcesz wesprzeć projekt lub nawiązać współpracę – napisz do nas!hive@nask.pl

Biuro

Przesyłki i pisma prosimy kierować do siedziby Instytutu NASK w Warszawie. ul. Kolska 12, 01-045 Warszawa