Dlaczego “generatywna sztuczna inteligencja” to zła nazwa?
Obserwując jak technologia GenAI zatacza szersze kręgi i jak w kółko powtarzane są te same błędy w jej ocenie, zastanawiam się, czy ktoś, kto wymyślał nazwę “generatywna sztuczna inteligencja” nie popełnił poważnego błędu.
“Generatywna” nikomu nic nie mówi. Nie mamy intuicji związanej z tym słowem.
Na swoich szkoleniach i warsztatach tłumaczę, że GenAI to system uczenia maszynowego (np. model językowy), który nie ma pamięci, nie ma celu i nie ma świadomości, ale generuje odpowiedzi na zapytania (instrukcje, prompty) w niedeterministyczny sposób. I zazwyczaj pada pytanie o to, co mam na myśli mówiąc “niedeterministyczny”, o przykłady i po chwili jest jęk rozczarowania.
Niby wszyscy słyszeli o “halucynacjach”, ale co innego zrozumieć, że model generuje halucynacje zawsze, tylko że większość z nich pokrywa się z prawdą i dlatego nie rzuca się to aż tak bardzo w oczy.
Bardzo łatwo pomylić GenAI z bazą danych, bo jak się zapytacie tysiąc razy ChatGPT o stolicę Francji, to tysiąc razy odpowie “Paryż” (w różnych kombinacjach zdań, ale odpowiedź będzie zgodna ze stanem faktycznym w 100% przypadków). Bardzo łatwo pomylić GenAI z kalkulatorem, bo bez pudła poda odpowiedź do równania 2+2 = ?, i coraz trudniej będzie Wam przekonać model, że 5 to poprawna odpowiedź (kiedyś się zdarzało).
Bardzo łatwo zapomnieć, że 100% tego co widzicie na ekranie w odpowiedzi na Wasze pytanie, czy instrukcję, to spekulacje, domysły i przypuszczenia. Czasem bardzo dobre przypuszczenia, ale wciąż przypuszczenia.
Owszem, są triki, które pozwalają na zmniejszenie liczby błędów w odpowiedziach generowanych przez modele językowe. Ale żaden z nich nie wyeliminuje konieczności weryfikacji tych odpowiedzi, a co najwyżej zmniejszy nakład pracy.
Jeśli zaczniemy używać “spekulatywna sztuczna inteligencja”, jest szansa, że unikniemy typowych błędów wdrożeń tej technologii (chatboty bez nadzoru, złożone dokumenty bez kontroli jakości, automatyzacja procesów bez jednego i drugiego). Bo intuicja nam podpowie, że jak mamy system, który kolokwialnie mówiąc “ściemnia”, to lepiej dołóżmy nadzorcę.
Produktywne wykorzystanie “spekulatywnej sztucznej inteligencji” obejmować może:
generowanie pierwszych szkiców (dokumenty, sprawozdania, maile, raporty, a nawet eksploracyjne analizy danych) artefaktów, które z założenia i tak wymagać będą pracy eksperta, żeby osiągnąć wysoki poziom
tworzenie prototypów, proof-of-concept lub wizualizacji dla lepszej komunikacji (wewnątrz zespołu, albo z klientem)
symulacje efektów jakościowych wszelkiej maści (odpowiedzi klienta, zdarzeń biznesowych, aplikowanie “modeli myślowych” do bieżącej sytuacji)
intelektualny sparring (trochę podobny do symulacji, jeśli uznasz, że chcesz, żeby Twoim sparring partnerem z biznesie był np. Charlie Munger, ale także analiza problemów lub i dekompozycja)
trening lub onboarding (częsty “use case” w korporacjach - wewnętrzny czatbot operujący na stosach wewnętrznej dokumentacji rozproszonej pomiędzy dwudziestoma różnymi systemami, których nikt nie chce uaktualniać)
przechwytywanie wiedzy utajonej (wykorzystujące to, że modele językowe całkiem dobrze generują pytania, a nie tylko odpowiedzi) i modelowanie procesów biznesowych
W żadnym z tych przykładów spekulatywny charakter wygenerowanego tekstu (analizy, kodu źródłowego, pytań, itd.) nie jest ograniczeniem, a obecne modele bez problemu spełniają wymaganie “wystarczająco dobrych”.
Zapamiętajcie, nie “generatywna”, a “spekulatywna” sztuczna inteligencja. I życie stanie się prostsze.
Ciekawe niusy
Ciekawe badanie opublikowano ostatnio dotyczące jednego z obszarów zastosowań z powyższego maila. Intelektualny sparring partner to taki model używania SpecAI (od “speculative AI” ;) ), gdzie model asystuje w rozwiązywaniu problemów. Wykonano serię eksperymentów, w których model GPT-4 od OpenAI pomagał w “dekompozycji” zadań programistycznych, tj. rozbijaniu na mniejsze kawałki. Niezależnie czy zadania rozwiązywał ekspert, czy nie ekspert, w obu przypadkach osiągnięto kilkudziesięcioprocentową poprawę wyników w stosunku do nieużywania w ogóle AI oraz 2-3 krotne przyspieszenie wykonania zadań.
Oczywiście eksperci rozwiązali dużo więcej zadań (i szybciej) niż nie-eksperci (zarówno w przypadkach kontrolnych, jak i z użyciem AI). Poza tym testy z olimpiad programistycznych to nie to samo, co zadania stojące przed nami w pracy. Ale wynik kierunkowo i co do rzędu wielkości zgodny z oczekiwaniami.