Przejdź do Treści

Podcast techchatter
pierwszy odcinek specjalny

Zanim napiszesz pierwszy prompt, czyli wstęp do sztucznej inteligencji (odcinek specjalny).

Sztuczna inteligencja to bardzo pojemne hasło. AI coraz bardziej wypełnia naszą codzienną przestrzeń – od inteligentnych urządzeń w naszym domu, przez inteligentne rozwiązania w miejscu pracy, po inteligentne rozwiązania infrastruktury użyteczności publicznej.

Natomiast to, co w ostatnich miesiącach najbardziej rozpaliło cały świat to rozwój modeli generatywnych takich, jak Chat GPT czy Dall-e.

Zapraszamy do słuchania!

W pierwszym odcinku edycji specjalnej TechChattera tworzonej wspólnie z serwisem Niebezpiecznik.pl poruszamy m.in. tematy:

  • dlaczego boom na AI mamy właśnie teraz i co do niego doprowadziło
  • jak bardzo modele generatywne są zbliżone do ludzkiej inteligencji
  • na podstawie jakich danych uczą się modele językowe i jak to wpływa na poprawność ich odpowiedzi
  • jak wygląda obszar regulacji prawnej narzędzi opartych o modele generatywne

Eksperci Capgemini:

Damian Serwata – W Capgemini od 4 lat oddany pracy nad gamą rozwiązań wykorzystujących algorytmy sztucznej inteligencji w biznesie. Aktywnie zaangażowany w opracowanie narzędzi z obszarów widzenia komputerowego (CV) oraz przetwarzania języka naturalnego (NLP), wykorzystując zarówno głębokie uczenie (DL), jak i klasyczne metody uczenia maszynowego. W wolnym czasie, poza tematami z domeny SI, fascynuje się neuronauką oraz nauką o złożoności. W ramach doktoratu na Politechnice Wrocławskiej bada metody symulacji procesu uczenia się ludzi w kontekstach społecznych.

Wojciech Sarnowski – Senior Data Scientist, dr nauk matematycznych, od wielu lat realizujący projekty z różnych dziedzin uczenia maszynowego, m.in. przetwarzania języka naturalnego czy rozpoznawania obrazów. Z zamiłowania podróżnik i biegacz.

Prowadzący:

Jakub Orlik – Trener techniczny z Niebezpiecznik.pl, absolwent Wydziału Matematyki i Informatyki UAM w Poznaniu, mający na koncie prace dyplomowe o kryptologii bezpieczeństwie aplikacji webowych. Od lat realizuje się jako programista aplikacji internetowych. Fascynują go wszelakie nieoczywiste sposoby, w jakie technologia wpływa ludzkie decyzje, samopoczucie i bezpieczeństwo. Z własnej inicjatywy prowadził warsztaty z ochrony przed atakami cyfrowymi dla pracowników szkół oraz dla młodzieży. W trakcie ich prowadzenia odkrył w sobie uznawaną za niepowszechną wśród informatyków zdolność do czerpania przyjemności z prowadzenia przemówień publicznych. Łączy odkryte w sobie cechy i umiejętności, aby pomóc obywatelom cyfrowego świata sprawiać, by technologia rozwiązywała więcej problemów, niż tworzy.

Linki do polecanych materiałów:

https://www.udemy.com/course/complete-ai-guide/

https://github.com/hollobit/GenAI_LLM_timeline

Jeśli odcinek Ci się spodobał, daj nam o tym znać, wystawiając ocenę w Spotify lub Apple Podcasts.

Podcast Capgemini Polska

Produkcja: Cleverhearted Showrunners

JAKUB ORLIK: Czym jest AI? Czym różni się od naszej ludzkiej inteligencji? Co sprawiło, że właśnie teraz modele językowe stały się tak popularne? Do jakich zadań te modele się doskonale nadają, a przy jakich zastosowaniach lepiej zachować ostrożność? W tym odcinku TechChatter, Damian Serwata, programista pracujący od lat nad projektami wykorzystującymi sztuczną inteligencją i Wojtek Sarnowski, doktor nauk matematycznych, pomogą nam usystematyzować naszą wiedzę o AI i odpowiedzieć na powyższe pytania. 
Cześć! Słuchasz drugiego sezonu podcastu TechChatter, audycji Capgemini Polska, w której eksplorujemy świat technologii. Dołącz do rozmowy naszych ekspertów i ekspertek. Posłuchaj, co tworzymy tutaj, w Polsce. Odkryj z nami projekty, które kształtują przyszłość i przekonaj się, jak interesująca może być praca w sektorze IT. To co? Zaczynamy? 
JAKUB ORLIK: No ciężko jest nie słyszeć dzisiaj o tej sztucznej inteligencji i mam wrażenie, że każdy rozumie to inaczej. Jakbyś mógł nam, Damian, dać taką podstawę, taką definicję, czym są te modele generatywnej sztucznej inteligencji?
DAMIAN SERWATA: Myślę, że warto byłoby tutaj zacząć od zdefiniowania w ogóle tego terminu “sztuczna inteligencja”, który w takiej ogólnej wersji możemy rozumieć jako pewną dziedzinę rozwiązań starających się czy też zaprogramowanych do symulowania wybranych procesów ludzkiej inteligencji, ludzkiego umysłu. I często ta nazwa jest używana też do opisu różnych zaawansowanych programów komputerowych, systemów komputerowych. Większość z tych rozwiązań w dzisiejszych czasach jest oparta o podejście uczenia maszynowego, czyli machine learning. To podejście tak naprawdę oparte jest o dostarczanie algorytmowi dużej liczby danych zawierających pewne wzorce, których to wzorców algorytm ma za zadanie się nauczyć, które ma za zadanie rozpoznać. I podzbiorem tych rozwiązań zarówno sztucznej inteligencji, jak i tego węższego grona algorytmów machine learning są modele generatywne, których celem jest tak naprawdę, jak sama nazwa wskazuje, generowanie nowych treści na podstawie wcześniej przeanalizowanych danych i wydobytych wzorców. I te modele uczą się generować te nowe informacje, nową treść na zasadzie prawdopodobieństwa występowania pewnych wzorców, na zasadzie odkrywania pewnych statystycznych patternów, które w tych danych odnajdują. No i tutaj mamy tak naprawdę bardzo dużo różnych rozwiązań, które mogą tą generatywną AI reprezentować. To są zarówno modele, które generują tekst, generują zdjęcia, obrazy, mogą też generować audio. W konsekwencji jest to trudniejsze zadanie, ale również są podejmowane próby generowania wideo, jako złożenie tych obrazów i audio oraz być może też trochę bardziej zaawansowane problemy, takie jak generowanie struktury białek. Tutaj bardzo popularnym rozwiązaniem, które zdobyło uznanie, jest przygotowany przez firmę DeepMind, algorytm model Alpha Fold. 
JAKUB ORLIK: I ten boom na tę sztuczną inteligencję, mam wrażenie, teraz jest tak powszechny i nagły. Ja sam byłem zaskoczony, że nagle z każdej strony, no strach otworzyć lodówkę, żeby nie dowiedzieć się o jakichś nowych rozwiązaniach dotyczących AI. Czy to się pojawiło znikąd? Czemu akurat teraz? Co za tym stoi? 
WOJCIECH SARNOWSKI: Nie pojawiło się to znikąd oczywiście. Stoi za tym wiele, wiele lat ludzkiej pracy. Wydaje mi się, że można powiedzieć, iż takie początki sztucznej inteligencji to lata 50 XX wieku, gdzie przedstawiono koncepcję maszyny, która będzie w stanie naśladować ludzką inteligencję. Pojawiają się pierwsze sieci neuronowe, przykład tzw. perceptron rozemberata. Pierwsze te systemy bardziej opierały się na takich regułach decyzyjnych. Jeśli na wyjściu dostaniemy sygnał X, to powinna być wybrana akcja Y. Dopiero nieco później pojawiają się rozwiązania, o których Damian wspomniał, czyli machine learning, uczenie maszynowe. To tak gdzieś powiedzmy lata 80. Wtedy też rozwijały się nieco mocniej sieci neuronowe. Pojawia się algorytm propagacji wstecznej, taki bardzo ważny, żeby móc te sieci dobrze uczyć. Dalszy krok to tak powiedziałbym gdzieś początek XXI wieku, gdy wraz z rewolucją cyfrową pojawiają się bardzo duże wolumeny danych, rozwija się Internet, tworzymy takie środowisko, które jest w stanie nam produkować rozwiązania w zakresie sztucznej inteligencji. Gdzieś na przełomie pierwszej i drugiej dekady myślę, że AI, sztuczna inteligencja wchodzi do mainstreamu, staje się taka powszechnie rozpoznawalna, znana. W tym momencie do gry wchodzą też tacy wielcy gracze jak Microsoft, jak Facebook czy Google. Pojawiają się potężne inwestycje w takie rozwiązania w zakresie np. przetwarzania języka naturalnego, w zakresie rozpoznawania obrazu, tzw. reinforcement learning na przykład lub też systemów rekomendacyjnych. W połowie zeszłej dekady badacze opracowali tzw. mechanizm atencji, przełomową metodę, która nam zrobiła spory ferment, jeśli chodzi o rozwiązania w zakresie przetwarzania języka naturalnego. Ten mechanizm jest takim jądrem modeli, które znamy pod hasłem “‘generatywne AI”. Dlaczego to jest takie ważne? Atencja jest w stanie dobrze modelować relacje między słowami w zdaniu. Jest w stanie wyłapać kontekst, dobrze opisać każde słowo. Dobrym przykładem mogą być homonimy, np. słowo “zamek” może mieć wiele znaczeń. Dla ludzi, jeżeli wypowiemy pewne zdania, będzie jasne, o jakim kontekście mowa. Dla algorytmów nie jest to takie proste, jak się okazuje. Atencja została w taki spektakularny sposób wykorzystana w modelach zwane transformery i to jest właściwie taki prawdziwy przełom. Wszystkie te modele, m.in. słynny czat GPT, wykorzystują architekturę, która została zaproponowana w transformerze. Jądrem transformera jest wspomniana przeze mnie atencja. 
DAMIAN SERWATA: Myślę, że do tego, co wspomniał Wojtek, warto by było dodać jeszcze, że ta architektura transformera to nie jest jedyna architektura zaproponowana w ostatnich latach w tej szerokiej gamie rozwiązań modeli generatywnych. Pierwsza z takich architektur zaproponowana została architektura GAN, czyli Generative Adversarial Network i Jan Goodfellow, który przygotował to rozwiązanie, jest to ciekawa anegdota, wpadł na to w trakcie imprezy z kolegami w barze. Powiedział im o swoim pomyśle. Oni powiedzieli mu, że jeśli jest taki mądry, to niech spróbuje to zrobić. Więc wyszedł z piwa i zaproponował, napisał tą architekturę, wymyślił ten pomysł jeszcze tego wieczoru. Jest to o tyle ciekawe rozwiązanie, że składało się ono z dwóch sieci neuronowych, jednej generatywnej i drugiej dyskryminatywnej, które miały za zadanie konkurować ze sobą. Sieć generatywna miała tworzyć nową treść, sieć dyskryminatywna miała tę sieć ocenić, miała rozróżnić, czy przygotowany content jest faktycznie stworzony przez człowieka, czy przez algorytm. I w taki sposób, przez taką konkurencję dwóch sieci neuronowych, zostały opracowane jedne z pierwszych takich rozwiązań. Innym rodzajem takich modeli, które też świetnie sprawdzają się, jeśli chodzi o generowanie obrazów, są modele dyfuzyjne. To są rozwiązania zaproponowane w 2014-2015 roku, także minęło już od tego czasu kilka lat. Tak naprawdę one dojrzewały przez jakiś okres czasu. To wynikało też z tego, że do poprawnego działania tych modeli wymagana jest ogromna liczba danych uczących i zbieranie czy tekstów, czy obrazów, na podstawie których te modele potrafią się uczyć, nie jest ani prostym, ani szybkim zadaniem. 
JAKUB ORLIK: Jak słucham Waszych wypowiedzi, nachodzi mnie taka refleksja, która też jest zahaczona troszeczkę o to, jak ostatnio byłem u fryzjera i fryzjerka się mnie spytała, czym jest ta sztuczna inteligencja. Myślę, że jakbym jej opowiadał o tych transformerach i tak dalej, to ona by myślała, że właśnie ktoś tam, jakiś robot się w samochód zmienia i on nam odpowiada na pytania czy coś takiego. Ale pojawiają się obawy wśród różnych osób, także laików, że ta sztuczna inteligencja może wyjść z kontenera, jakby uciec z serwera i przejść na jakieś inne, bo dopisujemy do niej dużo takich ludzkich cech. Z tego, co Wy opisywaliście, w oczywisty sposób wynika, że to jest właśnie taki bardzo statystyczny i przewidywalny model. I nie mogę nie zapytać się Was, czy Wy patrzycie, znając, jakie rezultaty jest w stanie wygenerować taka właśnie sieć jak czat GPT, to czy to świadczy o tym, że ta sieć ma faktycznie inteligencję? Czy to świadczy o tym, jak mało my inteligencji mamy i jak bardzo my jesteśmy po prostu jakimś takim pudełkiem realizującym statystyczny model? Jak Wy na to patrzycie?
WOJCIECH SARNOWSKI: Ja osobiście uważam, że czatowi daleko do ludzkiej inteligencji. To chyba jeszcze nie jest ten etap. Tam po prostu pod spodem pracuje statystyka. Tyle i aż tyle. Statystyka jest w stanie wygenerować naprawdę świetne treści. Każdy użytkownik, który rozmawiał z czatem, doskonale wie, że potrafi to narzędzie wygenerować naprawdę świetne opisy. Natomiast czat może jest skomplikowany z jednej strony, ale z drugiej strony działa według bardzo prostej zasady, ma wygenerować po prostu następne słowo, mając zadaną już wcześniej sekwencję słów.
JAKUB ORLIK: A nasz mózg nie ma takiego zadania, jak mówi? 
WOJCIECH SARNOWSKI: Tak, być może tak, ale czat potrafi tylko to. Czat wiedząc, że dostaje na wejście “Ala ma”, musi przewidzieć kolejne słowo i powie “Ala ma kota”, tak? Bo wie, że słowo “kot” będzie najbardziej prawdopodobnym słowem, mając do dyspozycji cały słownik i wiedząc, jakie wcześniej słowa zostały wygenerowane. To nie wygląda jak inteligencja, jak coś, co potrafi człowiek. 
JAKUB ORLIK: Człowiek tak nie potrafi? 
WOJCIECH SARNOWSKI: Człowiek tak potrafi, tyle tylko, że moim skromnym zdaniem, to nie jest istota ludzkiej inteligencji.
JAKUB ORLIK: A co jest zatem? Bo jak zadaję pytanie człowiekowi, to ten też używa tak naprawdę jakiegoś statystycznego modelu do tego, żeby jakiejś odpowiedzi na to pytanie udzielić. Bo powiedziałeś też, że czat nie rozumie, co mu się zadaje, ale odpowiada na to pytanie. Więc to wygląda jakby jakiś poziom zrozumienia tam był w tym chatbocie. Pytanie, co sprawia, że jesteś przekonany, że on tego nie rozumie?
WOJCIECH SARNOWSKI: Czat ma za zadanie wyprodukować po prostu potok słów. Ma sformułować odpowiedź na pytanie, które zadaje użytkownik. Używa w tym celu autogeneratywnego podejścia, czyli produkowanie kolejnych słów. Natomiast nie jest w stanie wytworzyć treści, powiedzmy, bardzo kreatywnych. On wie, jakie dane zostały użyte w procesie uczenia i w jakiś taki sprytny sposób konstruuje na podstawie tych danych swoją wypowiedź. Jeśli go poprosisz o sformułowanie jakiejś matematycznej teorii, on raczej tego nie zrobi.
JAKUB ORLIK: Znam wiele osób, które też nie będą w stanie. 
WOJCIECH SARNOWSKI: No tak, ale tego chyba oczekiwalibyśmy od czata. Żeby to nie była tylko prosta treść, która jest kompilacją tego, co czat dostał kiedyś na wejściu w procesie uczenia, a jednak żeby to było coś głębszego. Obawiam się, że tego czat, przynajmniej na razie, jeszcze nie potrafi.
DAMIAN SERWATA: Ja się zgadzam. Ten content, ta treść produkowana przez to rozwiązanie jest tak naprawdę wypadkową tego, co ten czat do tej pory zobaczył. Tej treści, na której się nauczył. Tutaj z pewnością możemy powiedzieć, że to rozwiązanie uzyskało bardzo wysoką jakość formy produkowanej, formy tekstowej. Czyli nauczyło się tych zasad tworzenia wypowiedzi, zdań, języka. Natomiast jeśli chodzi o wnioskowanie, sens tej treści, która jest generowana, z pewnością jest tu jakiś progres, ale to nie jest rozwiązanie, które może konkurować z człowiekiem pod tym kątem. Wydaje mi się, że to jest też trochę związane z tym, przynajmniej to, jak ludzie oceniają tego czata jako inteligentnego. Z tym, że my mamy pewne cognitive bias i istnieje takie błędne przekonanie, że wysoka sprawność językowa implikuje wysoką sprawność intelektualną. Nie jest to prawda i widzimy to też na przykładzie właśnie czata GPT, który tą sprawność językową ma naprawdę bezkonkurencyjną, ale jeśli chodzi o sprawność intelektualną, nie jesteśmy w stanie powiedzieć, żeby on był tutaj konkurencyjny i żeby mógł wyprodukować faktycznie jakąś treść zupełnie nowatorską.
WOJCIECH SARNOWSKI: Jest to po prostu sprytne połączenie tego, co już kiedyś zobaczył. 
DAMIAN SERWATA: Warto też wspomnieć, że ze względu na architekturę tego, w jaki sposób to rozwiązanie było przygotowane, było później uczone, ten czat został dostosowany do tego, żeby był…
WOJCIECH SARNOWSKI: Żeby potrafił wchodzić w interakcje z użytkownikiem, żeby był w stanie odpowiadać na pytania, żeby podążał za intencją użytkownika, żeby nie generował na przykład treści, które są toksyczne.
DAMIAN SERWATA: Co nie zawsze się udaje. 
WOJCIECH SARNOWSKI: Nie zawsze się udaje, tak, to prawda. Ale gdyby nie pewna dodatkowa technika, która doucza, że tak powiem, ten model, którą Damian miał na myśli, bez tego byłoby chyba znacznie gorzej. 
JAKUB ORLIK: My tak wpadliśmy trochę w pułapkę w mówieniu czat GPT, czat, czat, czat, czat. Ale to nie jest jedyny model. To jest taki skrót myślowy, bo my teraz mówimy, często jak nawet ludzie mówią czat GPT, to mają na myśli wiele różnych technologii. Damian, przybliżyłbyś, jakie są takie aktualnie najpopularniejsze, takie topowe modele? 
DAMIAN SERWATA: Na ten moment tak naprawdę wszystkie największe korporacje technologiczne pracują nad podobną technologią. Natomiast oprócz tych modeli topowych, stworzonych w nie do końca jasny sposób, tak naprawdę, nie wiemy, jakie dane do końca zostały tam zastosowane, jak długo te modele były uczone. Nie wiemy, czy te informacje są pełne i to są te modele należące do OpenAI, czyli poniekąd do Microsoftu, który dotuje tą organizację, BART należące do Google czy Lama należąca do Facebooka, do Mety. Jest też dużo rozwiązań open source, które oferują jakoś zbliżoną do tych rozwiązań gigantów technologicznych. 
JAKUB ORLIK: Ja bardzo długo myślałem, że GPT jest open source z uwagi na OpenAI, ale chyba nie jest otwarty z tego, co rozumiem.
DAMIAN SERWATA: Cóż, to jest to tyle ciekawe, że samo OpenAI było tworzone jako właśnie organizacja, która miała tworzyć oprogramowanie open source, otwarte, dostępne dla wszystkich. Natomiast z takich czy innych przyczyn w pewnym momencie te rozwiązania zostały zamknięte za ścianą i już model GPT-2 nie był dostępny publicznie. Można było się do niego dostać po zarequestowaniu odpowiedniego dostępu, uzasadnieniu tego i można było wchodzić z nim w interakcję. Natomiast ten model GPT-3.5 z tym interfejsem czat GPT został udostępniony faktycznie i wywołał cały ten boom technologiczny dotyczący tych dużych modeli językowych, z którym mamy dzisiaj do czynienia. GPT-4, który teraz też jest podpięty pod czat GPT, jest już też za ścianą. 
JAKUB ORLIK: Czyli wiemy, że czat GPT nie jest świadomy, nie ma takiej inteligencji jak człowiek, że to jest taki model statystyczny, który generuje sobie tekst, tylko że jest używany, już coraz częściej, w sytuacjach, w których wydawałoby się, że ta świadomość, inteligencja byłaby bardzo przydatna. Jest na przykład używany przez niektórych prawników w kontekście różnych rozpraw sądowych i jest takie wrażenie, taki mit, że skoro to komputer robi, to znaczy, że jest totalnie wyzbyty wszelkiej stronniczości, jaką człowiek mógłby mieć. Więc możemy zanieść go do sądu, komputer powie i on nie będzie uprzedzony wobec oskarżonego itd. Chciałbym, żebyście troszeczkę może opowiedzieli o tym. 
DAMIAN SERWATA: Byłoby wspaniale, gdyby była to prawda. Niestety, jest taka podstawowa zasada modeli uczenia maszynowego, czyli garbage in, garbage out. To, na czym nauczymy nasz model, dokładnie tych wzorców ten model się wyuczy. To, co mu zaserwujemy na wejściu, tego będziemy mogli oczekiwać od tego modelu na wyjściu. Kiedy uczymy nasz model na danych tekstowych z całego Internetu, tak naprawdę nie wiemy, z jakiej części i z których części tego Internetu, możemy się spodziewać, że znajdą się w tym modelu i zostaną odzwierciedlone najróżniejsze wzorce, również te wzorce związane z pewnym biasem, z pewną stronniczością, które w tych tekstach się pojawiają. Takim przykładem błędnego rozumowania tych tekstów, wnioskowania była odpowiedź tego modelu GPT-3 jeszcze na pytanie o to, co jest większe, karaluchy czy słonie. GPT-3 odpowiedział w pewnym momencie, że większe są karaluchy. Wynikało to z tego, że kiedy ludzie opisują karaluchy w treściach internetowych, zwykle piszą o tym, zobaczcie jaki wielki robak, jaki ogromny karaluch przyszedł do mnie do domu. Stąd ten kontekst tego słowa wskazywał temu modelowi na wzorzec świadczący o tym, że są to duże zwierzęta. Takich przykładów możemy mnożyć. My tak naprawdę ze względu na to, że korzystamy z tych modeli głębokich, my wiemy, w jaki sposób one się uczą, nie wiemy, czego one się uczą tak naprawdę, dlatego że te wagi, które są przypisane tym połączeniom między neuronami w sieci neuronowej, nie reprezentują dla nas żadnej sensownej informacji. 
WOJCIECH SARNOWSKI: My nie programujemy takiego modelu, aby uczył się konkretnych cech. Dajemy mu pewną swobodę. On sam wie, czego powinien się nauczyć, żeby móc realizować zadania, do których jest przewidziany. Jeszcze może słowo na temat tego obciążenia, jeśli chodzi o dane. W sieci, w Internecie, skąd dane są pobierane, to jest spory problem. Jeżeli weźmiemy recenzję, jeżeli na przykład kupiłeś jakiś produkt, to zwykle jednak człowiek jest skłonny, aby umieścić recenzję negatywną, bo jest emocjonalnie nakręcony i napisze, no nie podobało mi się, bo było zepsute, źle działa i tak dalej. Natomiast jeżeli działa dobrze, no to fajnie, nie będę zamieszczał tam żadnych opisów, bo nie mam żadnej takiej motywacji. Stąd może też wynikać ta stronniczość, to niewyważenie danych. 
JAKUB ORLIK: Przychodzi mi na myśl przykład takiego hipotetycznego modelu językowego, który jest uczony tylko i wyłącznie na odpowiedziach i pytaniach ze Stack Overflow, gdzie jak ktoś nie zna odpowiedzi na pytanie, no to się nie przyznaje do tego, po prostu nie udziela odpowiedzi, tak samo jak z tymi recenzjami zakupionych przedmiotów. Więc taki model nie miałby gdzie się nauczyć, żeby się czasem przyznać, że czegoś nie wie. Czy to może być także rodzaj ryzyka w tego typu modelach, gdzie zadajemy mu pytanie, odpowiedzi nie ma, ale on nie wie, że odpowiedzi nie ma, więc jakąś stworzy? 
WOJCIECH SARNOWSKI: Tak, jak najbardziej. To się nazywa halucynacja modelu. Model nie wie, co powiedzieć, po prostu zmyśla. Zmyśla albo mówi część prawdy, co jest chyba jeszcze gorzej, niż gdyby całkowicie zmyślał, bo wtedy chyba łatwiej dojść do tego. Natomiast gdy tylko jakaś część prawdy jest podana, to jest to bardziej zakamuflowane i jest większa trudność, aby takie coś rozpoznać. Ja osobiście, jak miałem interakcję z czatem, jak pracowałem z czatem, natknąłem się na taką sytuację. Zapytałem się go o pewne pojęcie z rachunku prawdopodobieństwa, żeby mi tam wyliczył pewną rzecz. Czat uraczył mnie długim wstępem teoretycznym, wszystko ładnie, pięknie, a na końcu przedstawił błędne rozwiązanie. Jeśli ktoś nie jest ekspertem w danej dziedzinie, może tego nie wychwycić. To jest chyba spory problem. Przyjmujemy na słowo, że to, co czat wygenerował, jest poprawne. Tak może naprawdę nie być.
JAKUB ORLIK: Czy jesteśmy jakoś w stanie zapobiec halucynacjom? Czy jesteśmy w stanie dostosować jakoś proces uczenia czy jakikolwiek inny sposób przetwarzania jego danych wejściowych, żeby on nie halucynował, żeby trzymał się trzeźwo rzeczywistości?
WOJCIECH SARNOWSKI: Prace w tym kierunku trwają, ale jak wiemy, póki co nie mamy modeli, które by wyzbyły się tej wady. 
JAKUB ORLIK: A czy Twoja intuicja Ci podpowiada, że to jest możliwe, żebyśmy się kiedykolwiek tego pozbyli? 
WOJCIECH SARNOWSKI: Trudno powiedzieć. Na pewno powinno dać się to zjawisko dość mocno ograniczyć. Nie chciałbym spekulować, aczkolwiek wierzę, że tak, że jesteśmy w stanie to ograniczyć. Czaty są uczone, aby to zjawisko ograniczyć, więc może jakaś tam korekta w sposobie uczenia spowoduje, że zminimalizujemy problem.
JAKUB ORLIK: Czyli rozumiem, że są rzeczy, które wymagają kreatywności, rozumienia kontekstu, do których czat GPT może przydać się z pewnym procentem skuteczności i trzeba podejść do tego z ryzykiem i dla niektórych zadań to będzie większe lub mniejsze. Do jakich zadań modele językowe nadają się tak ad hoc? Czy możemy z dużą pewnością je do tego użyć i ryzyko nie będzie duże, że narażą nas na jakąś wtopę?
DAMIAN SERWATA: Dziedzina związana z analizą języka naturalnego, czyli NLP, definiuje dość spory zestaw podzadań tego NLP, które może być realizowane przez te modele. Do tej pory to wyglądało tak, że dla każdego z tych zadań były projektowane osobne rozwiązania. One często miały podobną budowę, opierały się o zbliżony background, natomiast były uczone w inny sposób, na innych danych. Inny był cel tego uczenia. Czat GPT jest takim rozwiązaniem bardzo ogólnym. Jak się okazuje, część z tych problemów potrafi rozwiązać w zbliżony sposób do tych rozwiązań state of the art, które były zaproponowane wcześniej. Natomiast raczej ta zbliżona skuteczność dotyczy tych prostszych zadań, natomiast w tych trudniejszych zadaniach, jak na przykład rozpoznawanie emocji, nie radzi sobie tak dobrze i ten dystans w skuteczności jest dość spory. Tutaj ciekawe badanie zaproponowała grupa badaczy z Politechniki Wrocławskiej, która przetestowała czat GPT na zestawie 25 takich klasycznych zadań NLP i wygenerowała tam blisko 50 tysięcy promptów, pytając czat o wygenerowanie odpowiedzi dla konkretnego przykładu, takiego benchmarku dla zadań. No i okazało się, że właśnie w większości tych zadań to rozwiązanie radzi sobie przyzwoicie, natomiast nie jest w stanie osiągnąć tego poziomu zaawansowania skuteczności metod state of the art. Warto tutaj zaznaczyć, że czat GPT w tym przypadku nie był douczany do rozwiązywania tych zadań. Była to tak zwana metoda zero-shot learning. W przypadku, kiedy możemy spersonalizować czata, dostosować go, douczyć, nawet na niewielu przykładach, do rozwiązywania konkretnego zadania, ta skuteczność, możemy przewidywać, byłaby wyższa.
WOJCIECH SARNOWSKI: Tutaj jest na przykład model Palm Google’a. Jest wersja tego modelu specjalnie przeznaczona pod problemy medyczne. Model nazywa się MedPalm i jest w stanie zdać egzamin, który gdzieś tam ma miejsce w Stanach Zjednoczonych, no na takim poziomie dosyć eksperckim. Może ten model właściwie stawiać diagnozy. Widziałem prezentację szefów Google’a, gdzie model dostaje na wejściu zdjęcie rentgenowskie ręki, ludzkiej ręki i przedstawia diagnozę, co tam się złego dzieje, czy jest jakaś kość złamana, czy jakieś uszkodzenie i tak dalej. Także wystarczy trochę dotrenować ten taki ogólny model i uzyskać naprawdę, naprawdę niezłe wyniki. 
JAKUB ORLIK: Jako osoba, która siedzi tak bardzo w temacie, poszedłbyś kiedyś do lekarza, takiego cyfrowego lekarza? Po prostu przychodzisz do gabinetu, a tam jest iPad z… 
WOJCIECH SARNOWSKI: To może nie o to chodzi, ale wyobraźmy sobie, że służba zdrowia, jaka jest, taka jest, są problemy, ale to może być taki pierwszy lekarz, lekarz pierwszego kontaktu. Jeżeli on wykryje, że coś jest nie tak w Twoim organizmie, nie zareagowałbyś? Myślę, że można by było zareagować. Można by się udać wtedy do prawdziwego lekarza. 
DAMIAN SERWATA: Pamiętajmy też, że większość tych rozwiązań wykorzystujących te zaawansowane modele, nie tylko generatywne, ale generalnie modele sztucznej inteligencji, nie musi się opierać na pełnej automatyzacji. Najsensowniejszym rozwiązaniem jest zwykle wsparcie ekspertów w jakimś początkowym procesie. 
WOJCIECH SARNOWSKI: Taki model naprawdę może wnieść wartość dodaną. Nierzadko są takie sytuacje, że model jest w stanie wykryć na zdjęciu rentgenowskim czy też na tomografii komputerowej, zmiany, których ekspert, lekarz, profesor nie jest w stanie wykryć, bo on analizuje takich zdjęć dziesiątki, setki dziennie, jest zmęczony. Czat czy jakiś inny model językowy się nie myli. Przepraszam, nie w tym sensie, nie męczy się. 
JAKUB ORLIK: Bo już mi się czoło zmarszczyło, jak to usłyszałem. A myślicie… Bo są także modele, które generują kod programistyczny. 
WOJCIECH SARNOWSKI: To już ma miejsce.
JAKUB ORLIK: Już powinienem się bać o moje miejsce pracy jako programista?
DAMIAN SERWATA: Jeśli Twoja praca jest kreatywna, a domyślam się, że jest, tak jak większości z nas, to raczej cieszyłbym się na takie rozwiązania, bo one pomogą nam zautomatyzować tą najprostszą, ale też najbardziej żmudną pracę, polegającą na napisaniu jakichś fragmentów kodu, które są powtarzalne, które często się pojawiają i być może do pewnego stopnia będą w stanie takie modele zastąpić osoby słabo wykwalifikowane lub generujące właśnie treści takie odtwórcze bardzo. Pierwszym z takich przykładów są w tym momencie copywriterzy, którzy mają z tym problem. Natomiast nie ma możliwości, żeby takie rozwiązanie zastąpiło osobę zmagającą się na co dzień z takimi typowymi, kreatywnymi problemami tworzenia oprogramowania. 
WOJCIECH SARNOWSKI: Tym bardziej, że takie modele popełniają błędy. Jakieś 2 miesiące temu miałem okazję na jednej z platform e-learningowych zobaczyć pewien kurs, który wykorzystywał czata GPT-3 do opracowania strategii giełdowych. Fajnie to wyglądało, ale czat naprawdę generował tam kody obarczone błędami. To nie były tylko takie błędy, które powodowały, że program się nie kompilował. Tam były takie subtelności, które myślę, że gdyby wcielić w życie, to można by się narazić na niezłe straty finansowe. Także te proste zadania jak najbardziej tak, te bardziej złożone to chyba jeszcze nie ten czas, żeby czat, czy też inny model, mógł nas wyręczyć. 
JAKUB ORLIK: A co z systemem edukacji? Już ostatnio w trakcie imprezy rodzinnej usłyszałem komentarz, że uczniowie teraz piszą wypracowania za pomocą czatu, czyli modelu językowego i że może napisać po prostu 20 wypracowań na ten sam temat, tak, że każde będzie troszeczkę inne i właściwie cała klasa może sobie zaliczyć przedmiot.
WOJCIECH SARNOWSKI: Pod warunkiem, że nie pomyli twórczości Żeromskiego z twórczością Sienkiewicza. Słyszałem o takim przypadku. Ostrożnie. 
JAKUB ORLIK: Oczywiście. Jednak jeżeli to pójdzie już do przodu tak, że takich kardynalnych błędów model nie będzie robił albo będzie je robił wystarczająco rzadko, a przynajmniej rzadziej niż zwykły uczeń by to robił, no to co wtedy? Jak przewidujecie, że to wpłynie na system edukacji? 
DAMIAN SERWATA: Myślę, że jeśli takie sytuacje się zdarzają, mają miejsca, to nie świadczy to o słabości czy o jakichś problemach uczniów, raczej o słabości systemu edukacji, który w dzisiejszych czasach jest po prostu… Nie nadąża za najnowszą technologią. Powinniśmy się skupić zdecydowanie, i tu nie chodzi tylko o najmłodsze dzieci czy młodzież, ale generalnie o całe społeczeństwo, na edukacji pod kątem tego, w jaki sposób korzystać mądrze z tych rozwiązań, w jaki sposób mogą one nam posłużyć jako narzędzie, a w jakich sytuacjach nie powinniśmy polegać na dużych modelach językowych czy generalnie modelach generatywnych, bo może się to skończyć być może rozprzestrzenianiem jakiejś dezinformacji, pomyłką, błędem. No warto przywołać przykład kalkulatora. Kiedy kalkulatory się pojawiły, też musiano w jakiś sposób dostosować tę edukację, no bo rachunki nie musiały być już przeprowadzone przez uczniów ręcznie. Można było sobie to zautomatyzować przy użyciu takiego właśnie narzędzia i byliśmy się w stanie do tego dostosować. Wydaje się, że z perspektywy czasu usprawniło to system edukacji i raczej pomogło, niż przeszkodziło, także ja byłbym raczej pozytywnie nastawiony. Warto też zaznaczyć, że różne ośrodki reagują już na pojawienie się czata. Udało mi się znaleźć taki dokument przygotowany przez Ministerstwo Nauki i Edukacji, który pokazuje problemy, zalety i wady takiego rozwiązania. Naświetla właśnie w kontekście zastosowania go w szkołach, gdzie znajduje się potencjał, a w których miejscach warto byłoby raczej uważać. 
JAKUB ORLIK: Same niedoskonałości modeli językowych można też użyć w celach dydaktycznych. Sam widziałem pozytywny przykład, kiedy nauczyciel historii generował wypracowania historyczne za pomocą modelu językowego i dawał je studentom jako zadanie domowe, żeby znaleźli w nim błędy, które model popełnił. 
WOJCIECH SARNOWSKI: Ciekawe.
JAKUB ORLIK: Co jednocześnie jakby uczyło ich o modelach językowych, jak i o historii, sprawdzaniu źródeł i tak dalej. Uważam to za super przykład zrozumienia istoty problemu i przekłucia go w coś pozytywnego. Wyobrażam sobie, że można byłoby stworzyć stronę z wiadomościami generowaną przez sztuczną inteligencję. Bez żadnego zaznaczenia, że te treści nie są pisane przez człowieka, że nie są sprawdzane, chociaż sądząc po jakości współczesnego dziennikarstwa, często one też nie są w tych różnych portalach bogatych w reklamy. Ale jest mi łatwo wyobrazić sobie wiele negatywnych konsekwencji, zwłaszcza jeżeli chodzi o szerzenie fake newsów czy na przykład pisanie targetowanych reklam pod te tysiące różnych segmentów marketingowych tak, żeby jak najskuteczniej dotrzeć do kogoś i wpłynąć na wynik wyborów. Czy znacie jakieś opinie ekspertów dotyczących etycznych problemów związanych z AI i jak na to spojrzeć, takich filozoficznych wręcz pytań dotyczących AI? Czy są jakieś plany na prawne regulacje? Jak ma się perspektywa w tym aspekcie? 
DAMIAN SERWATA: Tutaj jest tak naprawdę kwestia wielu stron, które są zaangażowane w jakiś sposób w tą całą sytuację. Z jednej strony prawa autorskie kontentu, treści, który został wykorzystany do uczenia tych modeli, a którego autorzy nie wyrazili na to żadnej zgody. Nawet w tym momencie Stable Diffusion zostało pozwane przez grupę twórców, którym udało się dojść do tego, że ich prace zostały wykorzystane w trakcie uczenia tych modeli. Jest kwestia właśnie propagacji dezinformacji, misinformacji w celowy bądź niecelowy sposób, na co też powinniśmy uważać. I to jest zupełnie osobna historia, w jaki sposób powinniśmy starać się z jednej strony weryfikować prawdziwość tej treści generowanej przez duże modele językowe czy w ogóle modele generatywne, a z drugiej strony, w jaki sposób możemy starać się wykryć taką treść stworzoną przez model sztucznej inteligencji. Jeśli chodzi o takich ekspertów sztucznej inteligencji, to tutaj tak naprawdę oni opowiadają się po różnych stronach tej barykady. Z jednej strony mamy takie osoby jak Jan LeCun czy Andrew NG, którzy zauważają raczej te pozytywne aspekty wpływu tej nowej technologii, która raczej według nich nie powinna stwarzać dla nas jakiegoś egzystencjalnego zagrożenia. Raczej nie skończy się dla nas źle, wręcz przeciwnie, może pomóc nam walczyć z tymi zagrożeniami, które są dla nas rzeczywiste, tak jak kolejna pandemia czy być może sterowanie społeczeństwem przez rozprzestrzenianie jakichś fałszywych informacji. Ale mamy też osoby takie jak Geoffrey Hinton, który jest odpowiedzialny za stworzenie algorytmu propagacji wstecznej, czyli tego algorytmu uczenia sieci neuronowych, czy Joshua Bengio. I oni twierdzą, że warto byłoby jednak przyjrzeć się tym rozwiązaniom i bardzo uważnie weryfikować zastosowania, do których przeznaczamy modele generatywne, bo nie do końca jesteśmy w stanie sterować tym, czego te modele się uczą.
JAKUB ORLIK: A jak się mają regulacje prawne dotyczące sztucznej inteligencji? 
WOJCIECH SARNOWSKI: To jest temat ciekawy. Trwają intensywne dyskusje na temat modeli językowych w aspekcie prawnym. Tutaj chyba największy postęp ma miejsce w Unii Europejskiej. Właśnie niedawno, bodajże 14. czerwca, Parlament Europejski przyjął rozporządzenie dotyczące modeli związanych ze sztuczną inteligencją. Jest to chyba taki pierwszy akt na świecie, o ile mi wiadomo. Unia Europejska zamierza wprowadzić regulacje związane z modelami sztucznej inteligencji. Powstał tak zwany akt AI i tam wprowadzone zostają kategorie ryzyka związane z modelami. Mamy na przykład ryzyko umiarkowane, mamy ryzyko niedopuszczalne. Przykładowo w kategorii ryzyka umiarkowanego znalazły się modele, które potrafią generować tak zwane deep fake’i. Z drugiej strony w kategorii niedopuszczalnej mamy modele, które dokonują tak zwanej predykcji kryminalnej lub też zajmują się rozpoznawaniem twarzy w miejscach publicznych w czasie rzeczywistym. Unia robi wyraźne kroki w kierunku regulacji tego rynku. Modele sztucznej inteligencji muszą stać się bardziej transparentne, przynajmniej na rynku europejskim. Jeżeli publikowane są pewne treści i ma to miejsce przy użyciu sztucznej inteligencji, takie treści będą musiały być oznaczone. Użytkownik musi wiedzieć, że to zostało wygenerowane przez sztuczną inteligencję. 
JAKUB ORLIK: Kiedy to wchodzi w życie? 
WOJCIECH SARNOWSKI: Prawo wejdzie w roku 2026. 
JAKUB ORLIK: W roku 2026? Oj! To jeszcze dużo nadużyć można do tego czasu wykonać.
WOJCIECH SARNOWSKI: Tak, tak. 
JAKUB ORLIK: Ale to jest unikalne jakby rozwiązanie, przełomowe, że ktoś bierze się za jakieś prawne… 
WOJCIECH SARNOWSKI: Tak, tak. To zdaje się, że jest pierwszy taki poważny akt na świecie. Natomiast wcześniej miały już pewne zdarzenia, które też sugerują, że coś musi się stać z tym tematem. Szef OpenAI, Sam Altman, kilka miesięcy temu zeznawał przed Komisją Senacką w Stanach Zjednoczonych i on sam wyszedł z inicjatywą, aby w jakiś sposób dokonywać regulacji prawnych w obszarze modeli językowych czy w ogóle sztucznej inteligencji. Jedną z takich propozycji jest, aby powstał taki swoisty urząd, który będzie wydawał licencję modelu. Jeżeli model jest odpowiednio duży, bo oczywiście nie chodzi tu o wszystkie modele, byłoby to bezsensowne. Natomiast jeśli chodzi o takie modele typu GPT, to tak. Taki model musiałby mieć licencję, więc musiałby przejść szereg testów, musiałby przejść pewne audyty i dopiero wtedy, jako taki pełnoprawny produkt, mógłby zostać wypuszczony na rynek. 
JAKUB ORLIK: Mój wewnętrzny cynik od razu podpowiada, że to jest właśnie bardzo amerykański model. Wejść na nieregulowany rynek, stworzyć produkt, zmonopolizować go, a potem za pomocą regulacji utrudnić każdemu innemu wejście. I fakt, że to jeszcze wychodzi od autora OpenAI, a od tego właściciela OpenAI, tylko wzmaga mój cynizm. Przepraszam, musiałem ten cynizm wyjąć z kieszeni.
WOJCIECH SARNOWSKI: Obawiam się, że możesz mieć rację. 
JAKUB ORLIK: Ciężko jest mi tu domniemać dobre intencje, zwłaszcza po tym przejściu z OpenAI w ClosedAI tak naprawdę. 
WOJCIECH SARNOWSKI: Tak. 
JAKUB ORLIK: A więc to powstrzyma wyścig technologiczny i kilka lat czystych zysków.
WOJCIECH SARNOWSKI: Tak, tak. Obawiamy się… Można się obawiać, że w ogóle takie regulacje mogą być przeregulowane, że tak powiem, że możemy wylać dziecko z kąpielą. Wiadomo, że Chiny raczej nie będą się oglądały na resztę świata, nie będą się przejmowały regulacjami. Natomiast my tutaj w Europie, mimo że i tak nie jesteśmy w czołówce tego wyścigu, możemy sobie strzelić przysłowiowo w stopę.
JAKUB ORLIK: Zatem… Spojrzeliśmy sobie w przeszłość, omówiliśmy sobie teraźniejszość i pochyliśmy się trochę nad przyszłością modeli językowych, co otwiera nam drogę do tego, żebyśmy w następnych trzech odcinkach opowiedzieli sobie o kolejnych jeszcze aspektach, już bardziej z takiej perspektywy detalicznej. Dziękuję Wam, Damianie i Wojtku, za rozmowę. Jestem troszeczkę bardziej z jednej strony spokojny odnośnie tego AI, z drugiej strony troszeczkę bardziej zestresowany. Z takim gorzko-słodkim mixem wychodzę z tego spotkania i zobaczę, co nasze kolejne rozmowy w tej serii przyniosą. Dziękuję Wam bardzo. 
WOJCIECH SARNOWSKI: Dzięki. 
DAMIAN SERWATA: Dziękuję. 
To jeszcze nie koniec. Jeśli temat Cię zainteresował, na końcu odcinka znajdziesz materiały, dzięki którym poszerzysz swoją wiedzę i umiejętności z obszarów omawianych w tym odcinku. A w międzyczasie, żeby nie przegapić kolejnych odcinków, zasubskrybuj podcast TechChatter w swojej ulubionej aplikacji do słuchania podcastów. Jeśli ten odcinek Ci się spodobał, daj nam o tym znać, wystawiając ocenę w Apple Podcasts lub w Spotify. Linki do tych serwisów oraz do zagadnień wspomnianych w odcinku znajdziesz w opisie. A teraz? Czas na polecane materiały. 
JAKUB ORLIK: Jeśli dzisiejsza rozmowa Cię zainteresowała i chciałbyś/chciałabyś zagłębić się bardziej w ten temat, eksperci z Capgemini polecają Twojej uwadze dodatkowe materiały, do których linki znajdziesz w opisie do tego odcinka. Znajdziesz tam kompletny kurs czat GPT na Udemy, film opisujący, jak trenowany jest model czat GPT, dyskusję na temat zagrożeń ze strony sztucznej inteligencji w oczach czołowych ekspertów w tej dziedzinie oraz szczegółowe, aktualizowane na bieżąco kalendarium wydarzeń związanych z generatywną sztuczną inteligencją.