Zadania automatyzowalne vs zadania z nadzorem człowieka
Czyli o niedopowiedzeniach automatyzacji pracy z AI
Iluzja automatyzacji pracy z pomocą spekulatywnej sztucznej inteligencji
Półtora roku temu (marzec 2023) firma OpenAI opublikowała wyniki badań pokazujące ekspozycję różnych zadań na różnych stanowiskach na automatyzację z użyciem modeli językowych. W niektórych obszarach ten potencjał automatyzacji jest wysoki, w niektórych jest niski (porównajcie dziennikarza z mechanikiem samochodowym - wiadomo o co chodzi).
W tym badaniu jest jedno takie małe założenie, które, jeśli by je uwzględnić, zmienia mocno wydźwięk tych wyników.
To i inne tego typu badania zakładają, że skoro zadanie da się wykonać z użyciem AI (bo jest teoretyczna możliwość, że zostanie wykonane), to automatyzacja jest możliwa. I pomijają, że do tej automatyzacji potrzebna jest jeszcze wysoka powtarzalność i niski odsetek błędów.
Modele językowe to technologia niedeterministyczna - będą się mylić z założenia. I jak pokazują nawet bardzo świeże badania, problem nie do końca da się rozwiązać. Wszystko, co generują to halucynacje, ale na szczęście w większości zgodne z prawdą.
Wdrożenia spekulatywnej sztucznej inteligencji są coraz częstsze i często mówi się w nich o automatyzacji. Natomiast rzadko kto tłumaczy, że do tej automatyzacji potrzebne było spełnienie jednego z dwóch warunków:
proces miał wysoką tolerancję na błędy
w proces automatyzacji włączony jest człowiek (human in the loop), co najmniej jako kontroler jakości
Wyobraźmy sobie osobę, która z pomocą modeli językowych automatyzuje proces generowania CV, dopasowywania listu motywacyjnego, znajdowania odpowiedniej osoby kontaktowej oraz wysłania całego pakietu ze spersonalizowanym mailem w odpowiedzi na ofertę pracy zamieszczoną w sieci. Ta osoba nie podejmuje tego wysiłku żeby wysłać zaaplikować w 10 miejsc - prawdopodobnie wysyła w ten sposób 5-10 tys. CV. W związku z tym, jeśli pomyli się w jednym procencie przypadków, to konsekwencje są żadne, bo i tak będzie mieć pewnie z 20-50 rozmów kwalifikacyjnych, które (prawdopodobnie) doprowadzą do tego, że gdzieś dostanie ofertę pracy zgodną z jej kompetencjami.
Taki proces charakteryzuje się wysoką odpornością na błędy (pomyłki nie mają żadnych istotnych konsekwencji). I jest wiele innych obszarów (np. cold mailing), gdzie pomyłki nie mają aż takiego znaczenia.
Natomiast, jeśli konieczna jest wysoka jakość (czyli niski odsetek błędów), w automatyzację procesu włączony zostaje człowiek, chociażby tylko jako kontroler jakości, a czasami jako edytor, operator, albo współpracownik, w zależności od roli. Jeśli chcecie zaaplikować na ważne dla Was stanowisko, to i owszem, użyjecie może AI do poprawienia CV, napisania listu itd., ale potem wszystko kilka razy sprawdzicie i poprawicie błędy, które zostawił model językowy. Bo w tej sytuacji nie ma miejsca na pomyłki - te Was automatycznie skreśliłyby z listy rozpatrywanych kandydatur.
Ale tolerancja na błędy to nie jedyne kryteria, których można użyć, żeby odróżnić jedne przypadki od drugich. Spróbujmy opisać kompleksowo wszystkie kryteria, które charakteryzują zadania w pełni automatyzowalne:
Niska złożoność i rutynowy charakter
Definicja: Zadania, które są proste, powtarzalne i przebiegają według przewidywalnego schematu.
Przykłady: Sortowanie e-maili do określonych kategorii.
Wysoka tolerancja na błędy
Definicja: Zadania, w których drobne błędy nie prowadzą do istotnych konsekwencji lub mogą zostać łatwo skorygowane.
Przykłady: Generowanie tekstu zastępczego, tłumaczenie powszechnych zwrotów, a także masowy cold mailing.
Jasno określone wejścia i wyjścia
Definicja: Zadania z jednoznacznymi instrukcjami i oczekiwanymi wynikami, pozostawiające niewiele miejsca na niejasności.
Przykłady: Wypełnianie standardowych formularzy, dodawanie metadanych do plików wg określonego wzorca.
Niskie ryzyko i skutki błędów
Definicja: Zadania, w których błędy nie mają istotnych implikacji etycznych, prawnych lub finansowych.
Przykłady: Generowanie losowych danych do testów, tworzenie nieskomplikowanych podsumowań.
A zadania z nadzorem człowieka?
Zadania o "szkicowej" jakości wyników
Definicja: Zadania, w których model językowy generuje wstępną wersję, wymagającą przeglądu i dopracowania przez człowieka.
Przykłady: Tworzenie wstępnych wersji e-maili, pisanie pierwszych wersji artykułów, generowanie początkowego kodu dla dedykowanego oprogramowania.
Wysoka złożoność lub potrzeba specjalistycznej wiedzy
Definicja: Zadania obejmujące złożone szczegóły lub wymagające wiedzy specjalistycznej.
Przykłady: Selekcja danych (data curation) w badaniach farmaceutycznych, przygotowywanie dokumentów prawnych.
Niska tolerancja na błędy
Definicja: Zadania, w których błędy mogą prowadzić do poważnych negatywnych konsekwencji.
Przykłady: Raportowanie finansowe, podsumowywanie informacji medycznych.
Niejasności i otwarte problemy wymagające kreatywności
Definicja: Zadania bez jednoznacznych odpowiedzi, wymagające kreatywności lub innowacyjnych rozwiązań.
Przykłady: Pisanie kreatywne, opracowywanie strategii marketingowych.
Konieczność weryfikacji i zapewnienia jakości
Definicja: Zadania, w których wyniki muszą zostać zweryfikowane przez człowieka w celu zapewnienia ich dokładności i wiarygodności.
Przykłady: Dokumentacja techniczna, podsumowania badań naukowych.
Podejmowanie decyzji o wysokiej stawce
Definicja: Zadania, które wpływają na kluczowe wyniki biznesowe lub operacyjne.
Przykłady: Planowanie strategiczne, decyzje inwestycyjne.
Procesy wymagające współpracy
Definicja: Zadania, które korzystają z ludzkiej współpracy, opinii lub iteracyjnego doskonalenia.
Przykłady: Rozwój produktu, sesje burzy mózgów.
Jeśli popatrzycie sobie na swoją organizację, to okaże się, że zadań spełniających te pierwsze kryteria jest mało. Dużo więcej jest w tej drugiej kategorii.
I właśnie dlatego o częściej niż o pełnej automatyzacji mówi się o jakiejś formie współpracy (human in the loop) - porównując modele językowe do minionków, stażystów lub studentów. A Ethan Mollick w swojej książce nazywa to “ko-inteligencją”.
I dlatego, wbrew opiniom wielu zawodowych straszycieli, trudno sobie wyobrazić, żeby obecna generacja sztucznej inteligencji w masowy sposób “zabrała” ludziom pracę. Owszem, zmiany nastąpią, ale na pewno nie na skalę, którą tak często dedukuje się z prac takich jak tak od OpenAI wskazana na początku tego artykułu. Daron Acemoglu (ten, który właśnie dostał nagrodę Banku Szwecji im. Alfreda Nobla w dziedzinie nauk ekonomicznych, popularnie zwaną “Noblem z ekonomii”), uważa, że automatyzację z użyciem AI (o ile nie nastąpi kolejny przełom technologiczny) będziemy liczyć w pojedynczych procentach. Pełna automatyzacja pracy to póki co iluzja, która żyje głównie w materiałach marketingowych.
Ciekawe niusy
Jeden z ciekawych przykładów implementacji systemów “human in the loop” zaprezentowała ostatnio firma Intercom.
Intercom to firma technologiczna, która specjalizuje się w rozwiązaniach komunikacyjnych, szczególnie w kontekście automatyzacji interakcji z klientami. Jej platforma wykorzystuje sztuczną inteligencję do wspierania firm w obsłudze komunikacji z konsumentami poprzez różne kanały, takie jak czaty na żywo, e-maile oraz wiadomości w aplikacjach.
Kilka dni temu opublikowała swój system Fin2, który oprócz standardowych w 2024 roku funkcjonalności jak wielojęzyczność, obsługa głosowa, wieloplatformowość itd. oferuje integrację ze "ludzkimi" specjalistami obsługi po stronie ich klienta. Ma możliwość "triażu", czyli oceny pytań konsumentów pod kątem tego, czy wymagają wsparcia człowieka, czy też AI poradzi sobie z obsługą. Co więcej, system działa "w locie" tj. oferuje przejęcie konwersacji przez człowieka podczas jej trwania, niekoniecznie na samym jej początku.
Najbardziej interesujący jest model płatności. $0.99 za załatwioną sprawę.
Jeśli po stronie firmy klienta człowiek przejmie rozmowę z konsumentem zapoczątkowaną przez Fin2 (bo za trudna, bo model się zaciął, bo klient chce człowieka), Intercom nic nie otrzymuje. A jeśli sprawa zostanie załatwiona automatycznie, klient płaci firmie Intercom 99 centów.
Bardzo sprytny model (per usage) i bardzo interesujący system hybrydowej integracji AI z procesami biznesowymi. Moim zdaniem czeka nas coraz więcej takich "hybryd" zamiast zapowiadanej 100% automatyzacji.