V tomto nepravidelném seriálu o vývoji umělé inteligence (AI) ve vzdělávání se snažím upozorňovat na zajímavosti, ale také na praktické aspekty dalšího vývoje, které se týkají práce učitelů a ředitelů škol. Dnešní článek se soustřeďuje na to, zda AI může vytvářet autorská díla, a na nový fenomén multimodální AI.
AI a autorské dílo
Zlé jazyky říkají, že na vývoji AI se podílí více právníků, nežli programátorů. Nebylo by to nic divného. Současný svět netrpí tím, že by vývoj nových technologií byl pomalý nebo se nějak zásadně zadrhával, ale tím, že jejich adopce do společnosti vázne a v některých případech nejsou moderní výdobytky společností přijímány s nadšením (což je obecně dobře) nebo jsou dokonce odmítány. Mnohdy za to mohou obavy a nejasnosti kolem odpovědnosti. Samořiditelné auto s bezpečností větší, než kdyby jej řídil průměrný řidič, tu je již roky, ale převzetí odpovědnosti za to, když automobil přeci jen nabourá, je složitý právní a i etický problém. Nežli se automobilky vydají do neodvratně navazujících právních bitev, pracují najatí právníci na tom, aby možné vyplácené kompenzace a pokuty byly co nejmenší.
V souvislosti s AI ve vzdělávání nás například zajímá, kdo má práva na výsledek dodaný chatbotem AI, který vznikl na základě našeho zadání, tzv. promptu. Podle autorského zákona může autorské dílo vytvářet jen člověk („…jsou výsledkem tvůrčí činnosti autora“). Proto nelze výtvory AI chápat jako díla autorská a takovým dílům tedy nenáleží autorská ochrana, na jakou jsme zvyklí u lidských děl slovesných, hudebních, filmových či fotografických. Na tomhle se právníci celkem shodnou. Například advokátka Petra Dolejšová [1] je ale přesvědčena, že v případě velmi přesných instrukcí pro chatbota, typicky u obrázků nebo u videí, kdy má člověk přesnou představu, jak by výsledek měl vypadat, autorským dílem být výsledek AI může. Podmínky pro další využívání vygenerovaného obsahu jsou navíc upraveny v licenčních podmínkách jednotlivých AI aplikací. Začínám chápat sousloví člověk v tísni – jak se v tomhle všem vyznat vyžaduje množství energie a jistou odolnost. Abychom učitelům alespoň trochu ulehčili, připravili jsme v Národním pedagogickém institutu ve spolupráci s právníkem Nejčastější otázky a odpovědi o generativní AI, do kterých se můžete začíst na našich stránkách [2].
Ilustrační obrázek. ChatGPT (OpenAI) ve verzi GPT-4o (DALL·E). 4. 8. 2024
Rok 2024 je v AI ve znamení multimodality
Na pojem multimediální jsme si v oblasti digitálního vzdělávání již dávno zvykli a všichni tušíme, co to znamená. V souvislosti s nejnovějším vývojem AI se někdy hovoří o tom, že rok 2024 je rokem multimodality. Na to,jaký je v daných fenoménech významový rozdíl jsem se zeptal několika chatbotů AI. Nejsrozumitelněji mi přijde, že odpověděl Le Chat od francouzského Mistral AI, viz rámeček.
Po uvedení ChatGPT koncem roku 2022 nám vyrážely dech svojí věrohodností textové výstupy jazykových modelů. K těm se v roce 2023 přidaly i generátory obrázků. V letošním roce není problém s generováním hudby, hlasu a videí. Nástup multimodální AI je ale něco více. Nejde jen o rozpoznávání hlasu a jeho převod na text nebo o vygenerování videa na základě slovního popisu. Klíčová je schopnost vnímat všechny tyto formy současně, v každý okamžik mít kontext i ostatních informací. Sami to známe, když například posloucháte lidskou konverzaci, ale samotné lidi – jejich tváře, mimiku, gesta, neverbální projevy atp. – nevidíme a jistá část sdělení nám tak může unikat.
Představte si situaci, kdy v českém filmu dítě něco slibuje a kamera zabere, že při tom má za zády zkřížený ukazováček s prostředníčkem. Filmovému divákovi je hned jasné, že tím slib neguje. Ke stejnému závěru by nyní měl dospět i multimodální systém AI, byť ze samotné hlasové konverzace takové vyznění získat nelze. A to je skutečně velký rozdíl oproti automatickým titulkům, které si již několik let můžeme například na YouTube nechat zobrazovat. Tomáš Kapler, odborník na AI, to vyjadřuje větou „Multimodální model pracuje s několika typy vstupních informací zároveň, tedy je trénovaný, aby vnímal ‚svět kolem sebe‘ podobně jako třeba člověk.“ [3].
OpenAI představila v únoru 2024 svůj generátor videí Sora (https://openai.com/index/sora/), jehož realistická videa obletěla díky své uvěřitelnosti celý svět. Z textového zadání je Sora schopen vytvořit plynulé video ve full HD rozlišení s neuvěřitelnou mírou detailu. Ačkoli technologickým demům není radno vždy 100% věřit, troufnu si tvrdit, že Sora předznamenává novou éru médií. Režisérem, kameramanem či filmařem se nyní může stát každý člověk a to bez potřebného technického filmařského vybavení, znalostí a zkušeností. To jistě přinese zcela nové a dosud nevídané možnosti pro kreativitu a vyjadřování jedince. Pro vzdělávání to například může znamenat možnost, aby každý učitel relativně jednoduše vytvářel vzdělávací videa pro své žáky.
Je více než jisté, že tento nový fenomén AI bude doprovázen i masivním zneužíváním ve formě zmanipulovaných obrázků, zaměňováním hlasů nám známých lidí, lehce uvěřitelných deepfake videí, propracovaných dezinformačních kampaní… Poskytovatelé AI si to uvědomují, proto paralelně pracují na zavádění postupů a technologií, které znemožní nebo alespoň ztíží vytvářet různé formy dezinformací, nenávistného a předsudečného obsahu a zamezí jejich další distribuci. Nežli budou mít dojem, že se jim to dostatečně daří, nebude Sora veřejnosti dostupná. Obdobný postoj zatím zaujali i další poskytovatelé multimodálních AI produktů, kteří mezi tím jejich nové verze ohlásili. Jiné společnosti, mezi nimi např. společnost Meta se svým multimodálním jazykovým modelem Llama, pro uživatele v Evropské unii uvádět tento nástroj vůbec neplánují, prý kvůli právnímu regulačnímu prostředí.
Nám ve vzdělávání to dává alespoň určitý čas pracovat na podpoře nového pojetí vzdělávání zaměřeného na mediální výchovu a digitální vzdělávání, které bude odpovídat dnešní úrovni rozvoje umělé inteligence. Proto je důležité nejnovější směr vývoje AI a digitálních technologií sledovat a vyhodnocovat. Jak nám nedávná historie kolem Brexitu či minulých voleb amerického prezidenta ukázala, ve hře není mimo jiné nic menšího, nežli budoucnost demokracie.
Společně s Řízením školy a Národním pedagogickým institutem jsme se tomuto tématu věnovali 4. října 2024 v odpolední sekci digitálního vzdělávání konference Škola jako místo setkávání. Články od vystupujících odborníků vyjdou i časopis Řízení školy.
Zdroje:
[1] VACA, J. Petra Dolejšová: Samotné prompty většinou autorským dílem nejsou. Doporučuju je ale archivovat. Lupa.cz, Internet Info. 19. 7. 2024. https://www.lupa.cz/clanky/petra-dolejsova-samotne-prompty-vetsinou-autorskym-dilem-nejsou-doporucuju-je-ale-archivovat/
[2] FAQ – nejčastější dotazy o generativní umělé inteligenci. NPI ČR. Srpen 2024. https://digitalizace.rvp.cz/faq-umela-inteligence
[3] KAPLER, T. Google představil multimodální AI modely Gemini. Jsou lepší než GPT-4? Kapler.cz. 7. 12. 2023. https://www.kapler.cz/google-gemini-predstaveni/