Polska odpowiedź na ChatGPT: PLLuM - modele językowe AI wyspecjalizowane w języku polskim. Już można korzystać

PLLuM Chat - strona główna / PLLuM - modele językowe wyspecjalizowane w języku polskim już udostępnione. Lepsze od ChatGPT? / Źródło zewnętrzne

Staraliśmy się, by polskie modele językowe PLLuM były bezpieczne, dostosowane do języka polskiego i "wytrenowane" na legalnie pozyskanych danych — powiedział PAP dr hab. Szymon Łukasik z NASK, ośrodka zaangażowanego w prace nad opublikowanymi w lutym modelami AI.

rozwiń >

PLLuM - rodzina dużych polskich modeli językowych

PLLuM (Polish Large Language Universal Model) to rodzina dużych polskich modeli językowych. Tego typu programy sztucznej inteligencji (AI) umożliwiają generowanie tekstu oraz przetwarzanie języka naturalnego. Dzięki nim komunikacja z maszyną nie wymaga od użytkownika stosowania sztywnych kodów i mechanicznych poleceń, ale przypominać może dialog z człowiekiem.

W odróżnieniu od komercyjnych modeli LLM (takich jak ChatGPT, Claude czy Gemini), modele PLLuM wyspecjalizowane są w języku polskim, choć do ich trenowania używano również tekstów w innych językach słowiańskich, bałtyckich oraz oczywiście w języku angielskim.

"Model jest dostosowany do języka i kultury polskiej. Prace w ramach tego projektu wspierają zaś polskich ekspertów i rozwój kompetencji w dziedzinie sztucznej inteligencji" — wyjaśnił w rozmowie z PAP uczestnik projektu dr hab. Szymon Łukasik, prof. AGH i dyrektor Ośrodka Badań nad Bezpieczeństwem Sztucznej Inteligencji NASK. Ośrodek ten ma koordynować teraz prace nad dalszymi pracami i wdrożeniem modeli w prace administracji publicznej — w ramach działań konsorcjum HIVE.

Do doszkalania modeli wykorzystano największy w Polsce, bo liczący 40 tys. interakcji, zbiór zapytań, w tym około 3,5 tys. dłuższych dialogów między tutejszymi trenerami a maszyną. Dzięki tej mrówczej pracy tzw. anotatorów AI ma sobie lepiej radzić ze specyfiką polskiego języka i polskiej kultury.

Bezpieczeństwo i etyka

Badacz tłumaczy, jak ważne były w ramach prac kwestie bezpieczeństwa i etycznego podejścia do budowy AI. "Filozofią przyświecającą budowie tego modelu było to, żeby kwestie zbierania danych były maksymalnie przejrzyste. Żebyśmy mieli pewność, na jakim polu modele zbudowane z ich użyciem można wykorzystać" — powiedział dr hab. Łukasik. Wskazał, że przedstawiciele projektu zawierali np. umowy z redakcjami i pozyskiwali oficjalne zgody na korzystanie z archiwów polskich tekstów.

PLLuM — jak zapewniają jego twórcy — powstaje zgodnie z krajowymi i unijnymi wytycznymi dotyczącymi sztucznej inteligencji. I uwzględnia aktualne standardy ochrony danych.

30 miliardów tokenów

Ekspert z NASK tłumaczy, że język polski jest językiem o niskich zasobach. A to znaczy, że danych, które można wykorzystać do budowy modeli, nie ma zbyt dużo. Modele PLLuM do użytku komercyjnego są trenowane na ok. 30 miliardach tokenów (token to kawałek przetwarzanego tekstu - np. słowo lub jego fragment); zaś modele do użytku niekomercyjnego – dla takiego celu zasobów jest znacznie więcej – były trenowane na około 150 miliardach.

Wykorzystanie w administracji państwowej

Modele PLLuM docelowo mają być używane w administracji państwowej, a to oznacza kolejne wyzwania związane z bezpieczeństwem. Twórcy projektu musieli zadbać o to, by model stawiał w swoich odpowiedziach granice i by nie padały tam jakieś nielegalne, nieprawdziwe lub kontrowersyjne treści.

PLLuM Chat i PLLuM dla programistów

Modele PLLuM udostępnione są bezpłatnie w formie czatu wszystkim zainteresowanym https://pllum.clarin-pl.eu/. Ministerstwo Cyfryzacji opublikowało też dotąd 18 otwartych wersji modelu PLLuM dla programistów https://huggingface.co/CYFRAGOVPL. Do dyspozycji wszystkich zainteresowanych są więc zarówno lekkie, ale mniej dokładne wersje modeli, które można ściągnąć na laptopa, jak i mocniejsze, ale wymagające wielu kart graficznych modele do bardziej zaawansowanych zastosowań - np. badawczych. W przypadku obu typów istnieje możliwość uruchomienia modeli na własnej infrastrukturze, bez konieczności przekazywania zapytań do podmiotów zewnętrznych.

Generatory - wyspecjalizowane modele RAG-owe

W ramach projektu powstały też generatory, czyli wyspecjalizowane modele RAG-owe (ang. Retrieval Augmented Generation). Dzięki takim modelom można np. przeszukiwać i analizować swoje lokalne bazy danych i tworzyć wirtualnych asystentów analizujących zbiory własnych dokumentów. Zespół PLLuM zbudował najmniejszy (8 mld parametrów) ale wiodący w rankingach dla polskiego języka generator tego typu.

PLLuM i HIVE

Dr Łukasik odniósł się też do zmiany nazwy projektu z PLLuM na HIVE. "Nasze modele nazywają się PLLuM, a ich rodzina będzie dalej rozwijana w ramach konsorcjum HIVE. Chcieliśmy w ten sposób nawiązać do idea współpracy wielu badaczy, inżynierów i instytucji, działających niczym pszczoły w jednym ekosystemie, wymieniając się wiedzą i zasobami (np. danymi, kodem, modelami). Natomiast być może kiedyś będziemy chcieli wypuścić jakąś nową rodzinę modeli - z nową nazwą. Rozmawiamy o tym z Ministerstwem Cyfryzacji" - wskazał dr Łukasik.

Ludwika Tomala (PAP)
lt/ zan/ ktl/

oprac. Paweł Huczko
rozwiń więcej
Prawo
Co za profity dla posiadaczy Karty Dużej Rodziny - jest już ustawa
04 maja 2025

Jak się okazuje Karta Dużej Rodziny uprawnia nie tylko do licznych ulg i zniżek, jak i zasad pierwszeństwa w życiu społecznym co do korzystania z tzw. rzeczy powszechnego użytku czy miejsc użyteczności publicznej, ale rodzice - posiadacze Karty Dużej Rodziny mają też specjalne profity na rynku pracy! Czy rzeczywiście będzie to dobre rozwiązanie do ich aktywizacji?

Wybory prezydenckie 2025 coraz bliżej. Sprawdź, jak głosować poza miejscem zamieszkania. Nie przegap terminów!
03 maja 2025

Już 18 maja odbędzie się pierwsza tura wyborów prezydenckich. Jeśli w dniu głosowania nie będziesz w swoim miejscu zameldowania, masz jeszcze kilka dni, by złożyć odpowiednie wnioski. Wyjaśniamy, jak zagłosować korespondencyjnie, przez pełnomocnika lub w innym lokalu – i do kiedy trzeba to załatwić.

Zmiany w urlopach: 2 dni wolne na 1 dziecko, 3 na 2 dzieci, 4 na 3 dzieci, 5 na 4 dzieci, a za odmowę udzielenia – 30 tys. zł kary dla pracodawcy
04 maja 2025

Na 1 dziecko – 2 dni wolne, na 2 dzieci – 3 dni wolne, na 3 dzieci – 4 dni wolne, a na 4 i więcej – 5 dni wolne, z zachowaniem prawa do pełnego wynagrodzenia, a za odmowę zwolnienia od pracy w ramach ww. puli – 30 tys. zł kary dla pracodawcy. O zmianę art. 188 kodeksu pracy – w dniu 12 kwietnia br., zawnioskowały do Ministry Rodziny, Pracy i Polityki Społecznej, Rzeczniczka Praw Dziecka i Okręgowa Rada Adwokacka, powołując się m.in. na naruszenie przez ww. przepis konstytucyjnej zasady równości. Czy położy to kres absurdowi tylko 2 dni zwolnienia od pracy na wszystkie dzieci i obojga rodziców?

MRPiPS: nowe rozwiązania na rzecz osób z niepełnosprawnościami i przebudowa modelu orzekania o niepełnosprawności. Termin do 20 maja 2025 r. na składanie dokumentów
02 maja 2025

Rok 2025 jest wyjątkowo obfitujący w zmiany prawa czy też projekty zmian w zakresie uprawnień dla osób z niepełnosprawnościami i ogólnie dla całego systemu orzecznictwa. Ale to nie koniec! Idą kolejne zmiany i to na z góry określone lata: na 2026, 2027 a nawet 2028 r. Perspektywa odległa - to fakt, ale takie działania jak zapowiada resort pracy wymagają długiej perspektywy. Udało się dotrzeć do informacji, z których wynika, że MRPiPS ogłasza program: "Przebudowa modelu orzekania o niepełnosprawności". Co będzie obejmował program, do kogo jest skierowany i co można zyskać?

Znieważenie flagi państwowej – co grozi za obrazę symboli narodowych?
02 maja 2025

Flaga państwowa to jeden z najważniejszych symboli każdego kraju – wyraża tożsamość narodową, suwerenność, a także dumę z historii i wspólnoty obywatelskiej. W Polsce ochrona flagi jest zagwarantowana przepisami prawa, a jej znieważenie jest przestępstwem. Warto więc wiedzieć, czym jest znieważenie flagi Rzeczypospolitej Polskiej, jakie formy może przybrać oraz jakie sankcje grożą za tego rodzaju działanie.

2610,72 zł w maju z ZUS dla prawie 130 tys. osób [NOWE ŚWIADCZENIE]. Dodatkowo wyrównanie od stycznia 2025
04 maja 2025

2610,72 zł w maju z ZUS dla prawie 130 tys. osób. Co istotne osoby, który mają prawo do tego nowe dodatku dostaną również wyrównanie od 1 stycznia 2025 r. Wysokość dodatku wynosiła w styczniu i lutym 2025 r. 2520 zł, a od marca jest to 2610,72 zł. Na konta świadczeniobiorców wpłyną więc w maju spore pieniądze - i słusznie bo było to długo wyczekiwane świadczenie.

Powstaje kompletnie nowa gałąź gospodarki, kompletnie nowy zawód: tylko czy będą chętni [PROJEKT skierowany do stałej komisji]
04 maja 2025

Powstaje kompletnie nowa gałąź gospodarki, kompletnie nowy zawód - podkreśla Łukasz Krasoń. Jednak czy będą chętni na tą specyficzną i wymagającą dużego wysiłku psychicznego i fizycznego pracę? Nie wiadomo też jak będzie z wynagrodzeniem, a nie wydaje się, żeby byli chętni do tej pracy tylko za minimalną krajową. Osoby z niepełnosprawnościami same podkreślają, że nie jest to zajęcia dla wszystkich i łatwe.

Donald Trump spotkał się z Karolem Nawrockim w Gabinecie Owalnym Białego Domu. "You will win"
02 maja 2025

Prezydent Stanów Donald Trump spotkał się w czwartek 1 maja 2025 r. z kandydatem na prezydenta RP Karolem Nawrockim - podał Biały Dom. Nawrocki relacjonował, że D. Trump przepowiadał mu wygraną w wyborach.

7 lat ważności części orzeczeń o niepełnosprawności i inne zmiany. Nowelizacja rozporządzenia dot. orzekania o niepełnosprawności i stopniu niepełnosprawności
03 maja 2025

W dniu 30 kwietnia 2025 r. opublikowano projekt rozporządzenia ministra rodziny, pracy i polityki społecznej zmieniającego rozporządzenie w sprawie orzekania o niepełnosprawności i stopniu niepełnosprawności. Celem tej nowelizacji jest doprecyzowanie zasad wydawania orzeczeń o niepełnosprawności oraz o stopniu niepełnosprawności, a także wydłużenie okresów ważności tych orzeczeń. Co się dokładnie zmieni i od kiedy?

Grill na balkonie? Uważaj - może kosztować Cię nawet 5 500 zł, a ognisko w ogrodzie - nawet 11 500 zł
02 maja 2025

Można śmiało powiedzieć, że majówka to narodowe święto grilla (a w nieco mniejszym zakresie - również ogniska). Mieszkańcy bloków - z przyczyn oczywistych - mogą zdecydować się wyłącznie na to pierwsze, a posiadacze własnych ogródków - rozniecić nieco większy płomień. Czy jednak takie przyjemności - w obrębie własnych balkonów i ogródków są legalne? Okazuje się, że nie w każdym przypadku, a ich nieroztropnych amatorów, mogą niekiedy spotkać niemiłe konsekwencje.

pokaż więcej
Proszę czekać...