Małe modele językowe mają sens
Na początek zdefiniujmy sobie “małe” vs “duże” modele językowe. W obiegu krążą różne kryteria, ale ja wolę to najbardziej operacyjne: za mały model uważam taki, którego da się używać lokalnie na już istniejącym sprzęcie w firmie, np. na dobrym komputerze klasy gamingowej (których to nawiasem mówiąc pełno w biurach na całym świecie) albo nowszych komputerach Apple, czy serii komputerów Copilot+ produkowanych na zlecenie Microsoftu. Nie potrzebujemy od razu klastra obliczeniowego w dedykowanej piwnicy.
Taki warunek oznacza to nie tylko pełen dostęp do wag modelu (czyli model ściągamy lokalnie na komputer i używamy bez dostępu do internetu), ale także rozsądną liczbę parametrów, tak aby model zmieścił się w pamięci karty graficznej.
A ponieważ w przyrodzie nie ma nic za darmo, mniejsza liczba parametrów oznacza gorsze “kompetencje” w stosunku do “dużych” modeli. I tutaj z pozoru wydawałoby się, że małe modele to taka fanaberia. Otóż nie.
Kiedy doradzam firmom nietechnologicznym (technologiczne nie potrzebują mojej pomocy) jak się zabrać za temat “generatywna sztuczna inteligencja w firmie”, w 100% przypadków rekomenduję rozpoczęcie eksperymentów od najlepszych i płatnych modeli. Koszty takiego pilotażu są znikome (zwłaszcza w modelach abonamentowych) a firma buduje sobie kompetencje i intuicję odnośnie tego, do czego się nadaje ta technologia. I jeśli udało się zidentyfikować dobre zastosowanie AI, to dopiero wtedy zaczyna się analiza biznesowa. I warto zadać sobie parę pytań.
Czy zidentyfikowany use case wykorzystuje 100% możliwości modeli state of the art?
Jeśli w Twojej firmie jedynym obszarem, który znaleźliście to np. analiza skomplikowanych dokumentów prawnych i model o1 od OpenAI (najlepszy model w takich zastosowaniach) ledwo sobie z tym radzi, to od razu wiadomo, że małe modele nie będą dobrym kandydatem nawet na system zapasowy. Jeśli natomiast znalezione zastosowania są proste (np. kategoryzacja faktur), warto je rozważyć.
Czy istniejące regulacje (zewnętrzne lub wewnętrzne) zmuszają firmę do procesowania danych lokalnie, bez przetwarzania chmurowego?
Dość oczywista sprawa - chmura obliczeniowa czasem w ogóle nie jest opcją.
Czy firma potrzebuje bardzo przewidywalnego kosztu związanego z używaniem AI?
Z jednej strony, abonament od dużych dostawców per pracownik jest stosunkowo przewidywalny. Ale jeśli firma potrzebuje dostępu do API od tych samych dużych dostawców, to wahania kosztów mogą być nie do udźwignięcia przez istniejący cashflow. Małe modele oznaczają wysoką przewidywalność kosztów (amortyzacja sprzętu).
Czy firma potrzebuje skalowalnego dostępu do modeli językowych?
Czasem krytycznym elementem jest skalowalność, a nie koszt, np. AI używane jest jako część aplikacji, która może w którymś momencie stać się “wiralowa”. Lokalne modele na lokalnej infrastrukturze mogą nie udźwignąć gwałtownych skoków zapotrzebowania.
Czy firma potrzebuje platformy R&D do dalszego rozwijania modeli językowych?
W 2024 roku w firmach nietechnologicznych zazwyczaj odpowiedź na to pytanie brzmi: nie. Natomiast rynek rozwiązań IT wokół generatywnej sztucznej inteligencji rozwija się bardzo szybko, także w obszarze narzędzi, które mają wspomóc procesy R&D. Niewykluczone, że za parę miesięcy próg wejścia i potencjalne zyski z inwestycji we własne badania mogą zmienić tę perspektywę.
Czy firma używa AI jako krytycznego komponentu w firmie i w związku z tym potrzebuje systemów zapasowych?
W lipcu 2024 uziemionych zostało tysiące samolotów z powodu usterki elementu systemu, który nie miał swojego “zapasu”. Małe modele, nawet jeśli ustępują kompetencjami większym, mogą w krytycznych momentach wesprzeć lub zastąpić duże, jeśli ich dostawca właśnie się potknął o sznurówki.
Jak widać, poza regulacjami, które dotykać mogą całe branże, reszta czynników jest do indywidualnego rozważenia w każdym przypadku. I dlatego decyzja “mały” czy “duży” czy “oba” czy “żaden” wymaga trochę eksperymentów i pogłębionej analizy. Nie należy się sugerować popularnymi uproszczeniami “mały jest tańszy”, czy “duży jest niebezpieczny”, bo prawdziwość każdego z tych z twierdzeń zależy mocno od kontekstu.
Co mamy do wyboru w języku polskim?
Większość małych modeli językowych tworzonych przez zagraniczne firmy, które można ściągnąć do siebie na komputer niestety słabo sobie radzi w języku polskim. Dlatego powstało szereg inicjatyw, które trenują modele pod kątem kompetencji w obsłudze naszego języka:
Bielik
Model językowy stworzony przez społeczność SpeakLeash we współpracy z Akademią Górniczo-Hutniczą. Jako jedyny (w dniu pisania tego artykułu) jest się w stanie pochwalić użyciem w systemach produkcyjnych - komercyjne narzędzie Gaius Lex wykorzystuje Bielika do analizy dokumentów prawnych. Bielik jest również na bieżąco aktualizowany, dostrajany i ulepszany.
Qra
Politechnika Gdańska razem z OPI w marcu 2024 udostępniły swój model, również trenowany pod kątem skuteczności w zadaniach zdefiniowanych w języku polskim. Niestety na pierwszej wersji się chyba skończyło - repozytorium w serwisie HuggingFace nie było aktualizowane od tamtego czasu.
PLLuM
Inicjatorami PLLuM jest sześć polskich instytucji badawczych: Politechnika Wrocławska, NASK, OPI PIB, Instytut Podstaw Informatyki PAN, Uniwersytet Łódzki oraz Instytut Slawistyki PAN. Model ma zostać udostępniony w grudniu 2024 (po roku od rozpoczęcia prac). Dopóki nie zobaczymy licencji (deklarowana jest otwartoźródłowa), trudno wyrokować o zastosowaniu w biznesie.
Pozostałe
LongLLama (teoretycznie był przedstawiany w mediach jako “polski” model, w praktyce to był eksperyment naukowy dotyczący dłuższego okna kontekstowego - wykonany w Polsce)
Trurl (chyba historycznie pierwszy “polski” model, dotrenowany polskimi tekstami model LLama2, wydaje mi się, że już nie jest rozwijany)
Czyli w praktyce na dzień dzisiejszy dla biznesu jedyną opcją jest Bielik. Może dołączy do niego PLLuM pod koniec roku. Mało? W sąsiednich Niemczech sytuacja wygląda podobnie (mają jeden aktualny/wiodący model operujący na języku niemieckim - Llama3-German - oraz kilka starszych jak LeoLM czy Occiglot-de, już nie rozwijanych). Kompetencje trenowania modeli językowych nie są częste, więc raczej nie będzie wielkiej konkurencji dla Bielika i PLLuM-a. Polskim firmom musi to wystarczyć.
Ciekawe niusy
Parlament Europejski udostępnił testowo usługę “odpytania” swoich archiwów dokumentów (ponad 20 mln dokumentów) z pomocą modelu językowego od firmy Anthropic. Trudno znaleźć “Archibota” (bo tak się nazywa ta usługa), więc podpowiem:
Wchodzicie na “dashboard” archiwum pod adresem: https://archidash.europarl.europa.eu/ep-archives-anonymous-dashboard
W prawym górnym rogu klikacie “content analysis”
Pojawi się zakładka “Ask the EP archives”, pytania można zadawać w języku polskim
Jakość? Trochę się nie dziwię, że tak to schowano: