Wspieramy administrację publiczną
Rozwijamy i wdrażamy duże modele językowe (ang. Large Language Models). Opieramy się na doświadczeniach zebranych w trakcie realizacji projektu PLLuM.

Zadania
Projekt obejmuje cztery komplementarne działania
Budowa korpusów danych językowych
Gromadzimy nowe zbiory danych tekstowych, w szczególności danych niedostępnych publicznie i danych z domeny urzędowej, do bazowego treningu modeli. Dane pozyskujemy zgodnie z przepisami prawa polskiego i europejskiego. Tworzymy również nowe zbiory instrukcji do dostrajania (ang. instruction fine tuning) oraz preferencji do wychowania modeli (ang. alignment) według autorskiej typologii.Trening dużych modeli językowych, w tym trening bazowy, dostrajanie i wychowanie
Rozszerzamy rodziny modeli PLLuM o nowe modele o różnych rozmiarach, w tym modele ogólnego zastosowania, przystosowane do realizacji różnorodnych zadań językowych – ze szczególnym naciskiem na domenę urzędową – oraz generatory, czyli wyspecjalizowane modele RAG-owe (ang. Retrieval Augmented Generation). Nasze podejście obejmuje trening bazowy, dostrajanie i wychowanie.Zabezpieczenie i ewaluacja dużych modeli językowych
Tworzymy narzędzia do kompleksowej oceny jakości i bezpieczeństwa modeli językowych w różnorodnych zastosowaniach urzędowych. Przygotowujemy autorskie zbiory danych walidacyjnych (testowych). W celu ograniczenia ryzyka generowania przez modele treści szkodliwych i niepożądanych opracowujemy algorytmy filtrujące dane wejściowe i wyjściowe oraz dokonujące korekty wyjścia z modelu.Pilotażowe wdrożenie modeli w sektorze publicznym
Wspieramy proces wdrożenia polskich modeli językowych w aplikacji mObywatel, tj. utworzenie wirtualnego asystenta (chatbota) informującego o usługach publicznych, a także wdrażanie polskich modeli językowych w Ministerstwie Cyfryzacji oraz w wybranym urzędzie miasta lub wojewódzkim w postaci asystentów urzędniczych.
O konsorcjum
Poznaj osoby, które stoją za HIVE
Informatycy, lingwiści, ale także prawnicy, socjologowie czy eksperci ds. bezpieczeństwa.Wszyscy działamy wspólnie na rzecz rozwoju polskich modeli językowych.
Finansowanie
Projekt finansowany ze środków Ministerstwa Cyfryzacji
Projekt prowadzony jest w ramach dotacji celowej nr 1/WII/DBI/2025, pn. HIVE AI: Rozwój i pilotażowe wdrożenie dużych modeli językowych w polskiej administracji publicznej”. Wartość finansowania: 18 983 055 zł.
Kontakt
Zachęcamy do kontaktu!
Biuro
Przesyłki i pisma prosimy kierować do siedziby Instytutu NASK w Warszawie. ul. Kolska 12, 01-045 Warszawa