Czatbot to tylko początek
Jeśli sobie pomyślicie przez moment jak zmieniły się interfejsy programów komputerowych przez ostatnie 10 lat, to tak na dobrą sprawę niewiele się wydarzyło. Wciąż mamy mnóstwo rozwiązań, które imitują świat rzeczywisty - pulpit, kartka papieru jako wizualizacja dokumentu, przeciągnij i upuść, ikona “kosza na śmieci”. Nieskończone przewijanie, gesty dotykowe (te ostatnie w wielu miejscach zastąpiły przyciski) czy responsywne interfejsy to świeże wynalazki, ale ich pojawienie się było skutkiem upowszechnienia się ekranów dotykowych.
Sztuczna inteligencja (oprócz innych rzeczy) daje efekt podobny jak ekrany dotykowe: inspiruje ludzi do odchodzenia od tradycyjnych form interakcji z komputerem. Pojawiają się nowe role, w które może wejść komputer, a za tym idą interfejsy i sposoby interakcji. Opiszę poniżej kilka z tych ról, bo warto zdawać sobie sprawę, jaką rolę narzuca zadanie, które mamy do zrobienia.
Jednocześnie, nie spodziewam się, że któryś z tych obszarów zdominuje wszystkie inne. Tony Stark w firmie Iron Man miał na biurku klawiaturę i mysz (fakt, to był model SpaceMouse od 3DConneexion, a nie zwykła mysz), rozmawiał z komputerem głosowo i machał rękami w powietrzu manipulując wirtualnymi obiektami. Takiej wielomodalnej przyszłości bym oczekiwał ;)
Intelektualny sparring partner
Konwersacja (głosowa, tekstowa) ze sztuczną inteligencją w celu przegadania/przemyślenia jakiegoś problemu, wyszukania potrzebnej informacji, sprawdzenia poprawności tekstu itd. to naturalne zastosowania interfejsu typu czat. Ten interfejs do sztucznej inteligencji podbił świat jako pierwszy i w zasadzie większość firm oferujących rozwiązania AI obsługuje ten tryb (nawet generowanie obrazów obsługiwane jest językiem naturalnym).
Oczywiście sam chatbot pomysłem nowym nie jest, ale jak ktoś wcześniej usiłował “rozmawiać” z Siri po polsku i porówna to do zaawansowanego trybu głosowego ChatGPT, to staje się jasne, że w końcu ten interfejs do komunikacji z komputerem dojrzał do masowego zastosowania.
Automat do powtarzalnych zadań
Jeśli jest jakieś powtarzalne zadanie, które może wykonać AI, najlepiej zamknąć je w postaci jakiejś formy automatu, tak aby za każdym razem nie wydawać tego samego polecenia. Proste automaty obsługuje OpenAI jako “własne modele GPT”, oferuje je również Microsoft w ramach Copilot Studio. Budując na tradycjach low-code/no-code Make, Zapier czy LindyAI oferują automatyzację procesów w postaci klocków, które łączy się w ciągi kroków. Błyskotliwy atak na ten koncept robi WordwareAI, które przedstawia wieloetapowe procesy jako liniowe dokumenty tekstowe (a nie bloczki i kreski).
Ko-pilot/asystent
Tego rodzaju interakcja z AI jest zazwyczaj głęboko spięta z konkretnym zadaniem, często konkretnym narzędziem. Interakcja ze sztuczną inteligencją przestaje być oparta o język naturalny - pojawiają się nowe sposoby kontroli, lub sterowania jej zachowaniem. Jeśli się nie mylę, pierwszym komercyjnie dostępnym interfejsem tego typu był Github Copilot, który w edytorze programistycznym podpowiadał następną linijkę kodu (wyszarzony tekst - akceptacja podpowiedzi była przez klawisz Tab). Lex.page był również dość wcześnie próbując zaaplikować ten koncept do pisania tekstu (np. artykułów). Dziś mamy integrację z Wordem, bardzo zaawansowane narzędzia dla programistów (np. Cursor), a od wczoraj rozwiązanie o nazwie Canvas od OpenAI, które na przykład ma “suwaczek” do określenia czy chcemy dany fragment tekstu rozwinąć czy skrócić i jak bardzo.
Idea jest prosta - jak najbardziej przesunąć człowieka w stronę kontrolera jakości i wizjonera.
Agent/laborant
Dochodzimy do sposobów interakcji z komputerem, które są w powijakach i najtrudniej je rozpoznać. Artifact od firmy Anthropic (funkcja, w której model językowy generuje kompletny artefakt cyfrowy: dokument, stronę internetową, prostą aplikację) w jednym kroku, na który mamy wpływ o tyle, że wydajemy instrukcję na początku. Możemy poprosić o poprawki, ale w dużej mierze jesteśmy pozbawieni wielu aspektów szczegółowej kontroli. Replit Agent, system, który na podstawie instrukcji jest w stanie wygenerować gotową aplikację do wrzucenia w internet jest kolejnym przykładem roli “agent/laborant” (puryści zarzucą mi, że Replit Agent ma możliwość edytowania kodu źródłowego, a Artifact nie ma - ale mi wciąż chodzi o interfejs).
Różnica pomiędzy takimi interfejsami a ko-pilotem jest w stopniu kontroli nad procesem. Gotowa aplikacja, czy artykuł są generowane w procesie, który zakłada dużą dozę autonomiczności. Możesz odrzucić zaproponowany artefakt, ale trudno Ci będzie nieznacznie go poprawić, bo nie do końca o to chodzi twórcom tych interfejsów.
Używam słowa “laborant”, bo często zlecanie zadania takim systemom to jak oddanie próbki do badania w laboratorium: drzwi zamknięte, czekajcie na wynik.
Twoje zadanie wymusza interfejs
Chcesz poprawić swoją argumentację w prezentacji lub dodać kilka liczb? Czatbot.
Chcesz napisać artykuł albo program komputerowy, który Ci siedzi w głowie? Ko-pilot.
Chcesz znowu przerobić specyfikację stanowiska na oficjalną ofertę pracy wg jakiegoś schematu? Automat.
Potrzebujesz prototypu dokumentu/aplikacji? Agent czyli laborant.
Warto rozumieć zadanie i jakiego interfejsu ono potrzebuje. Kopiowanie kodu źródłowego z czatbota do edytora programistycznego jest przykładem czynności, która w wielu przypadkach (choć nie zawsze) jest źle wybranym interfejsem do narzędzi AI.
Ciekawe niusy
Ostatnio wpadłem na jedną z ciekawszych (i wewnętrznie spójnych) predykcji rozwoju sztucznej inteligencji - David Shapiro, filozof, technolog, przedstawił jakieś dwa miesiące temu swoje przewidywania trajektorii AI do 2030 (wideo poniżej). Shapiro ma dużo niusów ze środka bańki AI i rozumie technologię (był wiele lat inżynierem oprogramowania), co czyni go bardziej wiarygodnym niż przeciętnego filozofa/socjologa/obserwatora z zewnątrz. W poniższym wideo czyni też wiele istotnych zastrzeżeń (np. odnośnie tego, jakie wydarzenia opóźnią pojawienie się konkretnych rozwiązań). Warto obejrzeć, nawet jak się z nim nie zgadzacie.