W jaki sposób modele językowe robią to co robią?
Modele językowe, czyli jeden z głównych motorów napędowych obecnego rozwoju systemów generatywnej/spekulatywnej sztucznej inteligencji, to dość niezwykła i nie do końca intuicyjna technologia.
Z jednej strony widać, że modele językowe potrafią nieźle analizować tekst, wyciągać z niego dane czy informacje, generować w miarę poprawne artykuły, kod źródłowy aplikacji, czy nawet kompozycje muzyczne jako tekst (format MIDI jest tekstowy - nie trzeba dedykowanego modelu muzycznego).
Z drugiej strony nie idzie im liczenie literek w słowach, nie do końca potrafią w arytmetykę, nie pamiętają dobrze dat, itp. Pomyłki te nazywane są często “halucynacjami”, choć to nie do końca poprawne określenie.
Coraz więcej badań rozprawia się z pewnym nieporozumieniem odnośnie tego, czy modele językowe “wnioskują” i czy przeprowadzają rzetelną analizę danych/informacji na sposób, który my rozumiemy jako wnioskowanie. Z daleka proces przeprowadzany przez modele językowe wygląda podobnie do naszego.
Ale jak się przyjrzeć, to wychodzą różnice, które powinny zrewidować naszą intuicję odnośnie tego, jak działa ta technologia.
Poniżej przykład dość klasycznej zagadki logicznej:
ChatGPT radzi sobie z nią bez problemu. Czy to oznacza, że wnioskuje? Obawiam się, że jeden przykład to za mało. Spójrzmy co się stanie, jeśli okrągłe liczby zamienię na nieokrągłe:
Model językowy w pierwszym przypadku zinterpretował pytanie jako zagadkę logiczną i odpowiedział podobnie jak w innych zagadkach logicznych. Natomiast drugie pytanie zinterpretował jako zadanie na ułamki i odpowiedział jak w przypadku zadań z ułamkami. Model nie rozumie o co pytasz: generuje odpowiedzi zgodnie z najbardziej prawdopodobnym wzorcem.
Modele operują na schematach, wzorcach i heurystykach. Jeśli odpowiadają dobrze, to tylko dlatego, że dobrze dopasowały jakiś wzorzec do Twojego pytania.
Jeśli temat będzie dobrze pokryty w danych treningowych to jest spora szansa, że odpowiedzi od modelu będą poprawne. Ale jeśli model nie jest pewien? Dopasuje do jakiegoś wzorca.
“Anatideophobia” to lęk bycia obserwowanym przez kaczkę - zaburzenie wymyślone w komiksie The Far Side przez Gary’ego Larsona. Model Google’a Gemini Pro uznał to za zaburzenie, które leczy się terapią poznawczo behawioralną. Nie znalazł bezpośredniej definicji, więc rozłożył słowo na składowe i uznał, że skoro inne fobie leczy się terapią poznawczo-behawioralną, to i to zaburzenie też się powinno tak leczyć.
Schematy, heurystyki, wzorce i przybliżenia. Tak operują modele językowe. Nie na literkach, czy numerkach.
Dlatego też ta technologia sprawdza się fantastycznie, kiedy my świadomie zadajemy jej zadania, które mogą w pełni wykorzystać dopasowanie wzorców. Modele językowe nadają się np. do analiz strategicznych wg konkretnych schematów (SWOT, PESTEL itd.), czy marketingowych (np. STP). Nieźle konstruują plany rozwoju pracownika, czy macierze RACI do istniejącego projektu (rozpisanie na role i odpowiedzialności). Całkiem dobrze budują też aplikacje, które nie wymagają ani jakiejś skomplikowanej technologii, ani też nie mają trudnej do wytłumaczenia logiki biznesowej (dla przykładu na ostatnich warsztatach zrobiliśmy jako demonstrację aplikację do zarządzania wynajętymi biurami z poziomu właściciela budynku).
Schematy, wzorce, heurystyki - tego oczekuj od modeli językowych, a mniej rozczarowań napotkasz po drodze.
Ciekawe niusy
Eleven Labs udostępniło “agentów konwersacyjnych”, czyli mechanizm, który umożliwia łatwą budowę asystenta głosowego z możliwością podpięcia własnej bazy wiedzy, własnego modelu czy użycia narzędzi. Jednym z przykładów jest budowa asystenta, który przyjmuje zamówienia w restauracji Pierogi Palace.
ElevenLabs oferuje prostą integrację z Twilio, więc teoretycznie do rachunku ElevenLabs trzeba doliczyć $4 za numer komórkowy w Polsce i $0.01 za minutę rozmowy. Ciekawe czasy.