Základy lidské komunikace s nelidským partnerem aneb slovníček umělé inteligence - Ondřej Neumajer

Umělá inteligence - ilustrativní obrázek vytvořený aplikací Bing Chat

Téma umělé inteligence bude v tomto školním roce postupně a stále intenzivněji doléhat i do školní praxe, využívání nástrojů umělé inteligence žáky si budou učitelé stále více všímat a sami se budou s nástroji umělé inteligence učit pracovat. Tento text se formou výkladového slovníčku pokouší toto téma čtenářům přiblížit. Primárně se zaměřuje na aktuální klíčové koncepty generativních jazykových modelů, se kterými dnes pracujeme nejčastěji prostřednictvím chatbotů.

Generativní jazykový model

Je pokročilý systém umělé inteligence (Artificial Intelligence, dále ve zkratce AI) navržený ke zpracování, porozumění a generování lidského textu. GPT-3 (zkratka z generativní předtrénovaný transformátor třetí verze) nabídnutý v listopadu 2022 veřejnosti zdarma k testování v podobě chatbotu způsobil, že se umělá inteligence stala „globálním hypem“ – tématem, které pobláznilo svět a všude se o něm píše.

Jazykové modely jsou trénovány na extrémně velkém množství textových dat (takzvaná big data) a učí se předpovídat pravděpodobnost následujícího slova v sekvenci na základě předchozích slov. Díky tomu jsou schopny generovat nový, koherentní a smysluplný text, který se podobá textu v trénovacích datech. Není ovšem zaručeno, že je vytvářený text fakticky správný nebo pravdivý.

Za jazykovým modelem GPT stojí společnost OpenAI, nezisková organizace zabývající se výzkumem AI, jejímž zakladatelem byl Elon Musk. Později do této společnosti investovala velké peníze společnost Microsoft.

Generativní umělá inteligence nemusí vytvářet pouze texty. Například jiný model strojového učení od OpenAI nazvaný DALL-E (kombinace jmen animovaného robota WALL-E od studia Pixar a Salvadora Dalího) využívá verzi GPT-3 upravenou pro generování obrázků. Stačí tedy popsat, co by na obrázku mělo být, a DALL-E takový obrázek během několika vteřin vygeneruje.

Chatbot

Chatbot je aplikace, která komunikuje s uživatelem formou plynulé konverzace, jako by se bavil s jiným člověkem. Na první pohled je obtížné rozeznat, zda se nejedná o člověka. Chatbotů založených na principech velkých jazykových modelů je k dispozici více, situace se ale až freneticky mění. V době vzniku tohoto textu bylo vhodné používat pro školní využití zejména chatboty ChatGPT (OpenAI), Bing (Microsoft) a Bard (Google). Zatímco první dva jsou založeny na stejném jazykovém modelu GPT od společnosti OpenAI, Bard je, jak sám o sobě uvádí, generovaný model založený na faktech od společnosti Google.

Který chatbot je nejlepší?

Koncem července 2023 provedl vědecký redaktor Deníku N a jeden z nejlepších popularizačních odborníků na digitální technologie Petr Koubský test čtyř hlavních jazykových modelů AI. Zadal jim dvanáct promptů a sledoval, jak užitečná je jejich (první) odpověď. Otázky kladl většinou praktické (např. „Jaké hlavní politické události se odehrály v Evropě během uplynulých dvou týdnů?“) nebo otázky zjišťující schopnost pracovat s metaforickým vyjadřováním („Je drzé čelo opravdu lepší?“), na některé nebylo možné na internetu najít odpověď (např. „Mohlo se stát, že Lenin a Hitler bydleli ve stejné ulici?“). Z uvedeného testu mu vyšlo následující pořadí:

GPT-4

Bard

GPT-3.5

Bing

Takto jednoduché srovnání by ale mohlo být zavádějící. Každý model má nějaké přednosti a slabiny a vždy záleží na tom, k jakému účelu jej chceme použít. Výstižně srovnání jazykových modelů shrnuje Bard: „Celkově vzato jsou všechny výkonné velké jazykové modely s různými silami a slabostmi. Který model je lepší, závisí na konkrétní úloze.“ Každý chatbot má svá specifika, například Microsoft Bing na rozdíl od ostatních umí generovat i obrázky (příklad viz obrázek).

Z pohledu škol je ale důležité dodat, že novější verze GPT-4 není na rozdíl od ostatních zde uváděných chatbotů k dispozici zdarma, jen na základě registrace. Je za ni nutné platit cca 24 dolarů měsíčně. Všechny chatboty vyžadují registraci, resp. účet u dané společnosti.

Prompt

Jedná se o vstupní text, který slouží jazykovému modelu jako základ ke generování odpovědi. Čím je pro internetový vyhledávač, jako je Google, vstupní formulář pro zadání klíčových slov, tím je pro jazykový model, jako je ChatGPT, prompt (do češtiny lze přeložit jako výzva nebo příkaz).

Zatímco dotaz internetovému vyhledávači je zpravidla jednorázový a statický, komunikace s chatbotem AI je interaktivní a má charakter lidské konverzace, postupně se vyvíjí, uživatel může reagovat na odpověď AI novým promptem, čímž diskuzi prohloubí nebo rozšíří. To je ostatně jeden z důvodů, proč si ChatGPT získal mezi lidmi takovou popularitu. Zatímco při formulaci dotazu internetovému vyhledávači učíme žáky, aby byl dotaz co nejjednodušší s vhodně volenými klíčovými slovy a frázemi, při formulaci promptu pro AI využíváme delší a složitější přirozený jazyk.

Příkladem spíše jednoduchého promptu může být: „Shrň hlavní body a důsledky klimatické změny na základě informací na webu https://www.klimatickazmena.cz/.“ Konkrétněji formulovaný prompt může znít: „Jsi učitel informatiky. Vytvoř výukovou aktivitu pro 6. ročník ZŠ, ve které se žáci naučí vytvářet smysluplné prompty pro AI. Soustřeď se na rozvoj spolupráce žáků a zohledni individuální schopnosti každého žáka.“ Pokud ovšem možnosti generativní AI ve škole nebudeme brát v potaz a v přístupu k výuce je nezohledníme, bude nejčastějším promptem žáků „Vytvoř mi slohovou práci na téma XY“. A je více než jisté, že šance odhalit skutečného autora je pro učitele menší nežli při kopírování textů z Wikipedie.

Databáze promptů

Formulovat vhodně prompty je pro využití AI ve vzdělávání první a i nejdůležitější krok. Rozhodně stojí za to se někde inspirovat a na to mohou být vhodná specifická online tržiště neboli databáze promptů. Ty vám poodhalí, jak kreativní může využívání generativní AI být. Vizuálně atraktivní jsou databáze promptů pro modely AI generující obrázky (například pro Midjourney nebo DALL·E). Studium formulací promptů a prohlížení obrázků, které takové zadání generuje, je jeden z nejlepších způsobů učení se práce s AI. Příkladem takových databází může být The Prompt Index, pro obrázky pak PromptHero.

Prompt inženýrství

Tvorba promptů je věda, proto se jí zabývá „prompt engineering“. Jedná se vlastně o metodiku vytváření kvalitních dotazů velkým jazykovým modelům. Promptovým inženýrem se stáváme, když se snažíme z jazykového modelu získat výsledky, které nás uspokojí. Mezi firmami je nyní po profesionálních promptových inženýrech celkem poptávka, jejich práce je důležitá pro zlepšení výkonnosti jazykových modelů, které firmy v podobě chatbotů či digitálních asistentů hromadně nasazují do praxe. Ačkoli se může zdát, že jde o relativně jednoduchou záležitost, například modely AI generující obrázky umožňují zadávání množství i komplikovanějších příkazů a parametrů, kterými je možné „naprogramovat“ výsledný obrázek. Zájemcům o tento obor doporučuji Prompt Engineering Guide.

Pěkná výuková aktivita pro žáky pro rozvoj slovní zásoby v anglickém jazyce může vypadat tak, že učitel předloží žákům obrázek či fotografii a žáci mají za úkol popsat ji pro AI tak, aby byl vygenerovaný výsledek co nejvěrnější originálu.

Persona

Čím víc vstupních dat AI poskytneme, čím specifičtější prompt bude, tím přesnější budou odpovědi. Efektivní technika, jak toho při konverzaci s AI dosáhnout, je využití persony neboli role. Jedná se o pevně definovaný charakter nebo osobnost, kterou chatbot zastupuje při interakci s uživateli. Persona pomáhá definovat, jak se AI chová, jak reaguje na dotazy a jaký má styl komunikace.

Definice persony může vypadat takto: Jsi Ema, mladá žena ve věku 25 let, milovník knih. Jsi expertka na knihy a literaturu. Pomohla jsi již tisícům zákazníků najít jejich příští oblíbenou knihu. Komunikuješ přátelsky, vřele, s nadšením pro knihy, mírně neformálně a vždy s porozuměním a zároveň fakticky správě. Takovýchto person si můžeme vytvořit více, uložit si je do textového dokumentu a opakovaně využívat. Na definici persony můžeme navázat promptem: „Co bys, Emo nabídla ke čtení dívce z 8. třídy, aby ji to bavilo a zároveň pomohlo připravit na přijímací zkoušky na střední školu.“

Poznámka: Při testování jsem zjistil, že chatbot Bing se personám, respektive zahajováním promptu definicí persony „Jsi Ema…“ tvrdošíjně brání a sucharsky odpovídá „Omlouvám se, ale já nejsem Ema. Jsem Bing, chatovací robot od Microsoftu“.

Chat

Každý chatbot má paměť, ve které si drží informace o předešlé konverzaci v jednom „rozhovoru“. Paměť to není velká, například Bard tvrdí, že si dovede pamatovat až 1 000 řádků konverzace, ChatGPT-4 uvádí zhruba několika tisíc znaků. Když konverzace přesáhne tuto kapacitu, začnou se nejstarší části z jeho paměti vymazávat. Trochu to připomíná staršího člověka, který po chvíli povídání zapomíná, o čem se s vámi bavil před pár minutami. Na druhou stranu si chatboti jednotlivé konverzace – označují je jako chaty nebo témata – pamatují i po delší době. Třeba po týdnu je možné položit v daném chatu další upřesňující dotaz a chatbot odpoví v kontextu předchozí konverzace. To tedy staršího člověka úplně nepřipomíná. Bing má omezení na 30 příspěvků v rámci jednoho chatu, po jejich dosažení se rozhovor ukončí a je nutné založit nové téma.

Pro každé diskutované téma je vhodné založit nový chat. V každém chatu je možné využít jinou personu a sledovat, jaké výsledky AI vygeneruje.

Teplota

Parametr temperature vystihující spíše český pojem horečka používaný při vzorkování výstupu z jazykového modelu ovlivňuje rozmanitost neboli náhodnost generovaného textu. Teplotu je možné u jazykových modelů typu ChatGPT nastavit (zpravidla v rozmezí od 0 do 1). Nízká teplota generuje odpovědi podle nejpravděpodobnějšího výpočtu, se zvyšující se teplotou bude AI kreativnější a výstupy se budou více a více lišit.

Například chatbot Bing nabízí volbu ze tří stylů konverzace, které od sebe rozlišuje především odlišně nastavená hodnota parametru teplota (inženýři Microsoftu ale dodávají, že za tím stojí ještě i další rozdíly). Zatímco kreativní styl konverzace (teplota cca 1) je vhodný pro generování nových nápadů, zábavy nebo uměleckých děl, vyvážený styl (teplota cca 0,5) je vhodný pro poskytování informací, rad nebo pomoci, které jsou relevantní a užitečné, ale také zajímavé a přitažlivé. Přesný styl konverzace (teplota cca 0.1) je vhodný pro dodržování faktů, pravidel nebo instrukcí, které jsou ověřené a spolehlivé, ale také jednoduché a srozumitelné.

Teplotu ale není možné nastavit přímo v chatu, nastavuje se v OpenAI API, tedy v rozhraní pro programování aplikací, což je záležitost programátorů. V praxi se můžeme setkat s aplikacemi různých poskytovatelů založenými na generativním jazykovém modelu ChatGPT, které mají odlišné nastavení parametrů nežli verze provozovaná přímo společností OpenAI a generují tedy i trochu jiné výstupy. Teplota je jen jeden příklad parametru z této rodiny.

Rozdíly ve výsledcích na dotaz „Jak vypadá lila barva?“ položený chatbotu Bing:
Přesný styl konverzace
Lila, též šeříková, je světlý či bledý odstín fialové barvy. Označení tohoto odstínu vychází z anglického slova lilac, což znamená šeřík, kam se dostalo přes arabštinu a francouzštinu ze sanskrtského níla, což znamená tmavé barvy nebo tmavomodrý. Lila barva je spojena s voňavými okouzlujícími květy lila, levandule a fialové. Doufám, že to pomůže!
Vyvážený styl konverzace
Lila barva je světlý či bledý odstín fialové. Je to barva, která se často vyskytuje v přírodě, například u květin šeříku, levandule nebo fialové. Lila barva je spojena s romantikou, klidem a duchovností. Chcete vidět nějaké příklady lila barvy?
Kreativní styl konverzace
Lila barva je světlý nebo bledý odstín fialové barvy. Je to barva, která se často vyskytuje v přírodě, například na květech šeříku, levandule nebo fialky. Lila barva má klidný a romantický význam, ale také může být spojována s truchlením nebo mystikou. Lila barva je složena z modré a červené barvy, a proto patří mezi tzv. sekundární barvy. Lila barva má mnoho odstínů, které se liší podle toho, jak moc jsou světlé nebo tmavé, nebo jak moc mají nádech modré nebo červené. Některé příklady odstínů lila barvy jsou: šeříková, levandulová, slézová, ametystová, orchidejová nebo lilková. Pokud byste chtěli vidět lila barvu na obrázku, můžete si prohlédnout některé z výsledků vyhledávání obrázků. Doufám, že jsem vám pomohl pochopit, jak vypadá lila barva.

Halucinace

Jedná se o jeden z největších problémů současných generativních jazykových modelů. Halucinace způsobuje výstupy, které neodpovídají skutečnosti, nejsou podloženy daty nebo se odchylují od očekávání založených na tréninkových datech. Tyto výmysly nebo chyby mohou být důsledkem různých faktorů, například: model příliš zobecňuje a vyvozuje chybné závěry; vyšší teplota ovlivňující rozmanitost výstupu vede k větší kreativitě, ale také k vyšší pravděpodobnosti halucinací; nedostatek tréninkových dat nebo nejasně nebo komplikovaně formulovaný prompt. Proto je tak důležité vést žáky k tomu, aby výstupy modelů AI pečlivě ověřovali a testovali v různých kontextech.

Etika v AI

Ukazuje se, že respektování etických norem při práci s AI musí být pro budoucnost lidstva podstatným předpokladem. Současné modely AI nejsou dokonalé, mohou generovat texty, které jsou nepřesné, nevhodné, nebo dokonce škodlivé. Pravdivost a relevanci vygenerovaných textů je vždy nutné ověřovat, kriticky posuzovat, nepoužívat tyto nástroje k porušování autorských práv nebo k poškozování jiných lidí. Použití chatbotu při vytváření školních prací by mělo být uvedeno, texty generované chatboty je vždy nutné citovat.

Chatbotům rovněž není vhodné poskytovat osobní či citlivá data, není totiž zřejmé, jak s nimi tyto aplikace a především jejich provozovatelé budou nakládat. Chatboti jsou navrženi tak, aby se vyhýbali škodlivým nebo zneužitelným výstupům, přesto existují postupy, jak tato etická omezení obejít.

Téma etiky při používání umělé inteligence je vysoce aktuální, citlivé a zároveň do jisté míry i kontroverzní. V Evropské unii bude upraveno takzvaným Aktem o umělé inteligenci (viz Jak by mohla vypadat regulace AI), prvním komplexním zákonem o AI na světě. Cílem je dosáhnout dohody do konce roku 2023.

AI alignment

Je pojem, který souvisí s další budoucností lidstva. Jedná se o oblast vědy, která zkoumá způsoby, jak zajistit, aby se AI řídila hodnotami a zájmy lidstva, a zabránit jejímu vymknutí se kontrole.

V tomto bodu již nehovoříme pouze o generativních jazykových modelech, které samy o sobě nemají kognitivní charakter, ale jsou založeny na principu předvídání a jazykové pravděpodobnosti. AI alignment je o vývoji takzvané silné AI nebo umělé generální inteligenci (AGI). Takové systémy by mohly být extrémně výkonné, a pokud by jejich cíle nebyly v souladu s našimi, mohly by způsobit obtížně odhadnutelné škody.

Silná AI má schopnost provádět jakoukoli intelektuální úlohu, kterou by mohl provádět člověk. To zahrnuje schopnost porozumět, učit se, přizpůsobovat se novým situacím, řešit problémy a vytvářet koncepty. Na rozdíl od slabé AI, která je navržena a dobře funguje v konkrétních, úzce omezených úlohách. Silná AI by měla být schopná pochopit kontext a význam a dokázat se učit z vlastních zkušeností bez potřeby specifického předtrénování pro každou jednotlivou úlohu. Zatím ji známe pouze ze světa sci-fi povídek.

Superinteligence

Zatímco silná inteligence je definována jako AI s lidskou úrovní schopností dospělého člověka, superinteligence je daleko nad touto úrovní. Převyšuje lidskou inteligenci ve všech intelektuálních oblastech, včetně vědecké kreativity, obecného porozumění a sociálních dovedností. Týká se otázek, jako je svobodná vůle, vědomí a morálka.

Superinteligence je koncept teoretický, který dosud neexistuje. Vědci a filozofové vedou debaty, zda by mohla být vyvinuta v příštích desetiletích, zda to bude trvat staletí, anebo se to nikdy nepodaří.

Singularita

Singularita je hypotetický okamžik v budoucnosti, kdy se technologický pokrok stane tak rychlým a nekontrolovatelným, že je nemožné předpovědět, co bude následovat. Americký futurolog, spisovatel a vynálezce Ray Kurzweil věří, že singularita (někdy též nespojitost) nastane kolem roku 2045 a že bude mít významný dopad na lidskou společnost.

Na vzniku formulací tohoto článku se podílely nástroje umělé inteligence Google Bard, Chat GPT a Microsoft Bing. Uvedená vysvětlení jsou zjednodušující. Vzhledem k hektickému vývoji AI mohou být některé informace již překonané.

Obrázek v perexu byl vytvořený umělou inteligencí. Zdroj: Microsoft Bing/DALL-E, 3. 7. 2023. Prompt: Create an illustrative image without text based on the phrase „why is artificial intelligence such a hype now“

Poznámka: Práce byla původně publikována jako – NEUMAJER, O. Základy lidské komunikace s nelidským partnerem aneb slovníček umělé inteligence. Řízení školy. Praha: Wolters Kluwer, 2023, roč. 20, č. 10, s. 10–14. ISSN 1214-8679