Czym się różni firma (nie-technologiczna), która rozumie AI od tej, która jej nie rozumie?
Wyobraźmy sobie tajemniczy, w których każdy korytarz skrywa niezliczone skarby. Świat ten symbolizuje przestrzeń generatywnej sztucznej inteligencji (GenAI), a firmy wędrujące przez ten labirynt – to odkrywcy, którzy albo znajdują drogę do ukrytych skarbów, albo błądzą lub kręcą się w kółko, nieświadomi bogactw tuż obok nich.
Zastanówmy się, co odróżnia tych, którzy potrafią odczytać znaki i wykorzystać narzędzia do odsłaniania sekretów GenAI, od tych, którzy znudzeni błądzeniem bez celu czekają na gotowe rozwiązania, jak na następną generację pakietu Office.
Jako przykład weźmy zadanie, które pojawia się już nawet w bardzo małych firmach - notatki ze spotkań.
Transkrypcja i diaryzacja (poprawne przypisywanie poszczególnych fragmentów transkryptu poszczególnym rozmówcom) zapisu audio ze spotkań jest problemem w zasadzie rozwiązanym po tym, jak OpenAI udostępnił swoją bibliotekę Whisper. Na rynku pojawiło się dużo nowych narzędzi do transkrypcji i “robienia czegoś” z wygenerowanym tekstem przy pomocy modeli językowych i są one zazwyczaj skierowane do użytkowników biznesowych.
Dla przykładu, Microsoft Teams Premium oferuje konkretny szablon podsumowań spotkań na podstawie analizy transkrypcji rozmów, który zawiera główne aspekty dyskutowanego materiału, zadania ustalone na spotkaniu, informacje o tym, kto był zaproszony a nie dotarł, itp. A co, jeśli istotniejszym elementem byłaby lista wątpliwości podniesionych na spotkaniu? A może transkrypt powinien być przeanalizowany pod kątem agendy spotkania (bo może uczestnicy prześliznęli się po jednym z tematów)? A może to spotkanie to trzygodzinna burza mózgów i potrzebny jest spis wszystkich pomysłów, nawet takich wspomnianych tylko raz, a nie lista zadań?
I tu pojawia się różnica, jak podeszłyby do tego dwie firmy: jedna nie do końca rozumiejąca potencjał GenAI, a druga wręcz przeciwnie.
Firma, która nie rozumie potencjału generatywnej sztucznej inteligencji potraktuje analizę tekstu jako statyczną własność zainstalowanego oprogramowania. “Feature”, którego nie można zmienić. A jeśli można zmienić, to potrwa to długo i będzie bardzo kosztowne. Jeśli efekt końcowy tej analizy tekstu nie do końca spełnia ich potrzeby, to prędzej zmienią wewnętrzne procesy i doszkolą pracowników, niż zdecydują się dostosować efekt.
Firma, która rozumie GenAI, zdaje sobie sprawę, że ma możliwość personalizacji i modyfikacji pod własne potrzeby większości aspektów analizy tekstu. Jeśli firma rozumie GenAI, to rozumie też, że w takich przypadkach nie jest skazana na listę możliwości gotowego oprogramowania, bo pewne aspekty (analizę lub generowanie obrazów, dźwięków, tekstów) może zmodyfikować pod swoje unikalne potrzeby, na przykład korzystając z zewnętrznych narzędzi (chociażby możliwości tworzenia własnych “agentów” przy płatnej wersji ChatGPT).
Wyjątkowość ery GenAI polega na tym, że ta modyfikacja pod swoje potrzeby w wielu przypadkach wymaga tylko instrukcji w języku naturalnym, a nie zespołu programistów.
Na dzień dzisiejszy ta modyfikowalność dotyczy głównie (i oczywiście w ograniczonym stopniu) analizy/generowania tekstu czy obrazów. Ale nawet nawet małe firmy mają procesy biznesowe, które obejmują szereg kroków i wiele narzędzi (np. proces sprzedażowy, który może wyglądać chociażby tak: CRM → email → przeglądarka z interfejsem do wewnętrznej bazy danych → Word → email). I integracja systemów w takich procesach (tak, aby włączenie GenAI było możliwe na głębszym poziomie) na dzień dzisiejszy wciąż stanowi wyzwanie. Ale warto powtórzyć:
Wyjątkowość ery GenAI polega na tym, że ta modyfikacja pod swoje potrzeby w wielu przypadkach wymaga tylko instrukcji w języku naturalnym, a nie zespołu programistów.
Oraz:
Spektrum przypadków, gdzie jest to możliwe będzie się powiększać.
Jest wyłącznie kwestią czasu, kiedy integracja systemów stanie się możliwa wyłącznie poprzez wydanie instrukcji w języku naturalnym (dla przykładu: “jak się pojawi nowy klient, to weź kilka produktów, które najczęściej kupują inni klienci z tej samej branży i na ich podstawie stwórz powitalnego emaila z podziękowaniem za ostatnie zakupy i informacją, co jeszcze mamy w ofercie”).
Pierwsze zajawki tego, jak ta przyszłość może wyglądać opisywałem w sekcji “Ciekawe niusy”: Open Interpreter O1 czy Devin. Co do tego ostatniego to, zgodnie z przewidywaniami, wyrosła mu szybko konkurencja, która przeskoczyła w możliwościach oryginał. AutoCodeRover, który pojawił się dzisiaj w nocy, jest w stanie autonomicznie rozwiązywać problemy z oprogramowaniem (“coś nie działa”) dla dwukrotnie większej liczby problemów niż Devin, albo dodawać nowe własności (“dodaj przycisk, który eksportuje bieżący widok do pdf-a”). Czy nadaje się do użycia przez firmę nie-technologiczną? Dzisiaj - nie. Ale nie jest trudno wyobrazić sobie scenariusz już pod koniec tego roku, kiedy prawnik, marketer, albo manager usprawnia automatyzację w firmie nie będąc ekspertem od programowania. Taka osoba będzie musiała rozumieć technologię dużo lepiej niż przeciętny ekspert ze swojej dziedziny, ale wcale nie będzie musieć kończyć kursów z programowania (czy kursów z “promptowania”).
Tak więc w świecie GenAI, różnica między tymi, którzy odnajdą skarby, a tymi, którzy nie wyjdą poza zaciszne komnaty swoich biur, sprowadza się do zrozumienia i wykorzystania magicznej latarni, jaką jest generatywna sztuczna inteligencja. W piątek opowiem więcej o procesie, który pomaga firmy osiągnąć ten poziom zrozumienia i przygotowania do przygody z AI.
Ciekawe niusy
Model GPT-4 od OpenAI przez dłuższy czas nie miał konkurencji, natomiast początek tego roku to wręcz wysyp modeli o porównywalnych “kompetencjach”: Gemini Pro, Claude Opus, czy Command-R. Ten ostatni jest szczególnie ciekawy dlatego, że jest tworzony przez firmę, która m.in. specjalizuje się także w indeksowaniu i klasyfikacji tekstu (także na potrzeby integracji z modelami językowymi). Ponieważ kompetencje inżynieryjne odnośnie modeli językowych i przeszukiwania dużych zasobów tekstowych znalazły się pod jednym dachem, efektem jest system, który fantastycznie radzi sobie z analizą i wnioskowaniem na dużych dokumentach. Możecie sprawdzić samodzielnie - demo jest dostępne pod adresem: https://coral.cohere.com/ Najbardziej polecam do testów opcję “Analyze files” (zrzut ekranu poniżej), która pozwala załadować własne PDFy i zadawać do nich pytania.
Teoretycznie GPT-4 od OpenAI ma podobną opcję, ale jeden z naszych testów to analiza niedużej (40 stron) nowelizacji ustawy o niektórych zawodach medycznych i GPT-4 nie radzi sobie z tym tekstem, a Coral/Command-R od firmy Cohere i Claude Opus od firmy Anthropic już tak.