Jak zacząć z GenAI oraz uwaga na dokumenty
Gdzie przetestować modele językowe? Gdzie wylądują nasze posty na platformach blogowych i dokumenty w chmurze?
Newsletter #1
Najnowsze modele językowe
Najlepsze modele obecnie dostępne dla konsumentów trenowane były na książkach, publikacjach naukowych, portalach informacyjnych, ale także na kodzie źródłowym różnych aplikacji (który to sam w sobie jest dość formalnie napisanym tekstem), często w wielu językach, aby zapewnić wysoką jakość i różnorodność tekstu. Ale od modelu do modelu, zawartość materiału treningowego się różni, a co za tym idzie, kompetencje językowe i poziom wiedzy w różnych dziedzinach również.
Wśród najbardziej popularnych obecnie portali z GenAI wyróżnić można:
ChatGPT od firmy OpenAI w wersji 3.5 (darmowa) lub 4 (płatna) - świetnie rozumie i pisze po polsku: https://chat.openai.com/
Bing od firmy Microsoft, ta sama rodzina modeli OpenAI z tymi samymi możliwościami, być może z drobnymi modyfikacjami - dostępna za darmo pod https://www.bing.com/ zakładka “Czat” (ma też dostęp do internetu i potrafi samodzielnie wyszukiwać informację, ale “ochota” na tę czynność zmienia się w nieprzewidywalny sposób
Claude od firmy Anthropic, płatny model w wersji 3 jest tej samej klasy co modele OpenAI, również co do możliwości operowania w języku polskim, nieco lepszy od GPT 4 przy dłuższych tekstach - dostępny do testowania na platformie LMSys (https://chat.lmsys.org/ zakładka “Direct Chat”), w Polsce nawet płatna opcja nie jest jeszcze dostępna
LLama of firmy Meta, model otwarty (do ściągnięcia i uruchomienia na własnym serwerze), który doczekał się wielu dzieci (dotrenowanych pod konkretne zadania), przyzwoita jakość, ale w polskim tekście wtyka anglicyzmy - dostępny do testowania na platformie LMSys (https://chat.lmsys.org/ zakładka “Direct Chat”)
Gemini od firmy Google, model zamknięty i darmowy w podstawowej wersji o porównywalnych możliwościach do Claude/Bing/ChatGPT, również radzi sobie z językiem polskim - dostępny pod oficjalnym adresem https://gemini.google.com/ oraz na platformie LMSys (https://chat.lmsys.org/ zakładka “Direct Chat”), ale podobnie jak w przypadku modelu Claude, najbardziej zaawansowana opcja nie jest w Polsce oficjalnie dostępna
Perplexity od firmy Perplexity AI to dość specyficzny model, bo został wytrenowany do współpracy z wyszukiwarką (na większość pytań nie sięga do “pamięci” tylko szuka w internecie) - strona serwisu to https://www.perplexity.ai/
Ta lista oczywiście nie wyczerpuje wszystkich dostępnych modeli “ogólnego przeznaczenia”. Poza modelami specjalistycznymi jest też szereg modeli o możliwościach porównywalnych z GPT-4/Claude 3/Gemini Pro, ale pominiemy je w tym przypadku, bo nie potrafią “mówić” po polsku.
Różnica pomiędzy darmowym ChatGPT (wersja 3.5) czy Llama 2 a płatnymi wersjami jest gigantyczna, więc bardzo polecam do testowania LMSys i sprawdzenie porównanie płatnych i bezpłatnych opcji (uwaga, LMSys zapisuje wszystkie czaty i używa ich treści do trenowania modeli).
“Wszystkie Twoje teksty i dokumenty należą do nas...”
Tekst to nowa ropa. Tak przynajmniej myślą ludzie zaangażowani w trenowanie dużych modeli językowych. A co za tym idzie, prześcigają się w zabezpieczaniu (to eufemizm) dostępu do zbiorów tekstów napisanych przez ludzi. Reddit sprzedał dostęp do swojego portalu na potrzeby trenowania modeli firmie Google. Automattic, właściciel portali Wordpress i Tumblr, jest blisko podpisania podobnej umowy z firmami OpenAI i Midjourney. Docusign, dostawca platformy podpisów elektronicznych (również używanej w Polsce), właśnie zmienił warunki używania usługi w taki sposób, żeby zabezpieczyć sobie prawa do trenowania wewnętrznego modelu AI na umowach użytkowników. Pod naciskiem opinii publicznej dodał wkrótce potem klauzulę opt-in, ale niesmak pozostał.
Oczywiście sam proceder nie jest nowy. Natomiast to wszystko dzieje się w sytuacji narastającego chaosu prawnego związanego z pozwami o naruszenie praw autorskich wobec firm technologicznych: https://sustainabletechpartner.com/topics/ai/generative-ai-lawsuit-timeline/
Ciekawe niusy
Jedna z singapurskich firm technologicznych udostępniła swojego prawnego asystenta AI (dostosowanego do lokalnego prawa) dla osób fizycznych za darmo: https://lip.sg/ Jest to o tyle ciekawy ruch, że sam pomysł na produkt nowy nie jest i jest kilka firm oferujących podobne usługi (odpłatnie) na innych rynkach. Natomiast udostępnienie za darmo może być elementem np. pozyskania nowych danych do trenowania modeli (patrz początek tego newslettera).
Z innych wieści, Reuters twierdzi, że Llama 3, kolejna wersja modelu językowego od firmy Meta, ma zostać udostępniona w lipcu. Wszyscy spodziewają się modelu o zdolnościach porównywalnych z obecnym liderem, GPT-4. Z tą różnicą, że Meta udostępnia swoje modele na otwartych licencjach. Jeśli model spełni pokładane w nim oczekiwania, powinniśmy się spodziewać presji na dużych dostawców na większą transparentność dotyczącą analizy danych użytkowników. Ale także, powinny pojawić się firmy w Polsce, które będą oferować w pełni prywatne instancje modeli językowych na lokalnych serwerach.