Mechanismy existenčních rizik z AI

Umělá inteligence má potenciál stát se jednou z nejvíce transformativních technologií, jakou kdy lidstvo vynalezlo. V důležitosti se v budoucnu může vyrovnat přelomovým objevům, jako je vynález kola, průmyslová revoluce nebo objev ohně. Skutečně pokročilá AI nám může pomoci překonat nemoci, chudobu, stárnutí a mnoho problémů, se kterými se jako civilizace nebo jednotlivci potýkáme. Pokud ale při vývoji AI nebudeme obezřetní, o všechny tyto benefity můžeme přijít a naopak skončit velice špatně. Jedná se o tak významnou věc s širokým dopadem, že bychom jí měli co nejlépe porozumět a adresovat možné problémy, než nastanou. Mnozí odborníci na některé problémy upozorňují už dnes. O jiných možná ještě nemáme ani tušení.

AI nemusí mít vědomí jako člověk a přesto se může člověku vyrovnat, nebo jej dokonce předčit v mnoha dovednostech. Může se ovšem chovat způsoby, které nelze jednoduše předvídat, například dělat to, co jí zadáváme, ne nutně to, co reálně chceme. V čem tkví skutečné riziko AI? Jakým mechanismem nás AI může ohrozit? Proč se může stát, že v případě nežádaného chování nebudeme moci pokročilou AI “prostě vypnout”? Za jak dlouho může transformativní AI přijít a kdy začíná být nebezpečná? Co se s tím dá dělat? Na tyto otázky se zaměříme v tomto článku.

Robot a jahody

Pojďme si rovnou ilustrovat, jak se AI učí pomocí běžné techniky “reinforcement learning” a jak současné metody vedou k problémům.

Představte si AI, kterou trénujeme, aby pomocí robota na kolečkách sbírala jahody a dávala je do kovového kyblíku. Robot má rameno, kterým je možné jahody jemně uchopit a přesunout. AI na začátku neví, co po ní chceme. Nejprve se to musí naučit. K tomu existuje tzv. odměnová funkce (reward function), která AI odměňuje pokaždé, když udělá něco, co se blíží tomu, co po ní chceme. Odměnu si lze představit jako body, které AI dostává za žádané chování. AI se učí tak, že se snaží získat co nejvíce bodů. A v tom tkví problém, který si jdeme popsat.

Jak tedy trénink může vypadat v praxi? AI hýbe robotem a ze začátku dělá náhodné úkony – jezdí sem a tam a hýbe ramenem v různých směrech. Když se ovšem ramenem přiblíží k jahodě, odměnová funkce přiřadí AI odměnu. Po čase se váhy mezi neurony v neuronové síti naší AI přenastaví tak, že AI začne systematicky při svých pohybech upřednostňovat pohyb ramenem směrem k jahodám. Po milionech iterací se AI naučí, že nejvíce bodů dostane, když jahodu jemně sebere a přesune do kyblíku, který se nachází poblíž. Důležité je zdůraznit, že AI se ve skutečnosti nesnaží dávat jahody do kyblíku. Snaží se dostat co největší odměnu. Pokud jsme napsali správně odměnovou funkci, AI získá body takovým chováním, které po ní chceme. To je ovšem mnohem těžší, než se na první pohled zdá.

Z našeho pohledu se nám podařilo AI vytrénovat dobře a vypustíme ji tedy do ostrého provozu. Funguje bezchybně, takže ji necháme běžet i přes noc. Ráno se vrátíme a zjistíme, že všechny jahody jsou utržené, ale kyblík je prázdný. Místo toho jsou všechny jahody pod blízkou lampou. Proč? Z kamerových záznamů vidíme, že robot celou noc trhal jahody a házel je po lampě. Jak se něco takového mohlo stát, když robot předtím celý den fungoval bezchybně?

Ukáže se, že AI se během tréninku naučila kovový kyblík rozpoznávat podle toho, že se leskne, nikoli podle jeho tvaru. V noci se kyblík neleskl a nejsvítivější objekt v okolí byla lampa. AI tedy pokračovala v tom, co dělala celý den a dále házela jahody po něčem blyštivém. Dobře, toto lze přetrénovat. Trénujeme tedy AI dál a zahrneme do tréninku spoustu různých kyblíků různých barev a tvarů a trénujeme ji za různých podmínek, až se AI naučí neomylně rozpoznat “esenci kyblíkovitosti”. Nasadíme AI znovu do provozu a tentokrát funguje skvěle i v noci.

Jednoho dne se v blízkosti robota ocitne člověk s velkým červeným nosem. AI přijede, nos mu utrhne a hodí jej do kyblíku. Teď už asi tušíte, kde je problém. AI se naučila rozpoznávat jahody pouze podle jejich barvy. I toto se dá spravit dodatečným tréninkem, ale člověk už přišel o nos.

Na začátku jsme si mysleli, že AI dává jahody do kyblíku. Ve skutečnosti ale dávala červenou věc na lesklou věc. My to neměli jak poznat, dokud nenastala neočekávaná situace, při které nám přišlo, že se AI “zbláznila”. Ve skutečnosti ale stále dělala totéž, co se naučila při tréninku. A právě toto je jeden z hlavních mechanismů, jak mohou být zejména budoucí pokročilé AI systémy nebezpečné. Zvlášť pokud budou mít na starost důležité procesy. Svět je velice komplexní a během tréninku je těžké podchytit všechny okolnosti, které mohou nastat.

Poznámka k příkladu
Ano, dnešní AI umí velice dobře a spolehlivě rozpoznat jak jahody, tak kyblíky. Jedná se pouze o ilustrativní příklad, kde chci demonstrovat obecněji platný princip, jak AI může při tréninku špatně generalizovat.

Posedlost optimalizací na zadané metriky

Mechanismus popsaný výše není hypotetický budoucí problém. AI systémy se chovají nepředvídatelně už dnes. Trénujete-li například AI, aby se naučila hrát starého dobrého Maria, AI bude hledat způsoby, jak co nejrychleji získat co největší odměnu. V tomto případě je odměna reprezentována herním skóre. AI se může rychle začít chovat nepředvídatelně. Například zdánlivě náhodně poskakuje na místě, načež náhle dostane maximální dosažitelné skóre, protože ve hře objevila chybu. My ale chceme, aby AI hrála Maria, ne aby zneužívala chyb ve hře. Tomuto principu se říká “specification gaming” nebo také “reward hacking” a jde o přirozené chování AI systémů, které splňuje doslovnou specifikaci cíle, aniž by bylo dosaženo zamýšleného výsledku. Zde je popsána řada příkladů ”specification gamingu” pro lepší ilustraci.

Dalším důležitým pojmem je tzv. goodharting, tedy jev, kdy se aktéři snaží maximalizovat určitou metriku za každou cenu. Pokud se metrika stává cílem, přestává být dobrou metrikou. Jenže AI se učí právě tak, že se snaží maximalizovat odměnu zadanou odměnovou funkcí. “Goodhartují” jak lidé, tak zvířata. Když například vycvičíte delfíny, aby odklízeli nepořádek z nádrže a následně je odměňujete rybou, brzy si všimnete, že delfíni po získání odměny odpadky zase stáhnou zpět do nádrže, aby je mohli znovu uklidit a získat další odměnu. Technicky vzato dělají, co jsme po nich chtěli, ale náš skutečný záměr byl, abychom měli čistou nádrž.

Podobně se chovají i lidé. Studenti se často učí, aby získali dobrou známku, ne aby získali vědomosti. Chirurgové raději odmítají riskantní operace, aby se jim nesnížila statistika úspěšnosti. V Anglii došlo k pokusu o zavedení penalizací nemocnic, pokud pacienti musí čekat v čekárně déle než 4 hodiny. Nemocnice tedy v některých případech nechaly pacienty čekat venku v sanitce. Když se tímto způsobem chováme my sami, jak můžeme očekávat, že se tak nebude chovat AI, která má k tomu přirozenou tendenci?

Velké jazykové modely (LLMs) přece takto nefungují

Zjednodušeně LLMs fungují tak, že s co největší přesností predikují a vybírají další token. Pro zjednodušení můžeme říct, že token je jedna slabika slova. Pokud se tedy LLM na něco zeptáme, začne předpovídat, jaký token by měl v odpovědi navazovat na předchozí tokeny. Některé z tokenů, kterým přisoudí nejvyšší pravděpodobnost, vypíše a výsledek je odpověď na náš prompt. Jediný cíl LLM je správně predikovat další token. Jsou tedy LLMs nebezpečné způsobem popsaným výše?

Nebezpečí může nastat v další fází vývoje LLMs, kdy můžeme LLM zadat nějaký komplexní úkol. Už dnes existují nástroje jako AgentGPT, kterému můžeme zadat komplexnější úkol a AI si jej sama rozdělí na podúkoly, které se uloží. AI je postupně plní a modifikuje. Pro agentní AI se schopnostmi přesahujícími ty lidské by mohla mít chyba ve specifikaci cíle extrémně nebezpečné následky.

Dnes například můžeme AutoGPT zadat úkol, aby analyzoval finanční trhy a rozhodl, kam investovat. Dokonce mu můžeme dát možnost rovnou investice realizovat. Pokud ovšem nebude postupovat správně, zatím nemáme mechanismus, jak ho trénovat, aby příště postupoval lépe. OpenAI však pracuje na tom, aby taková komplexita učení byla možná. V ten moment už LLM s takovou dovedností není jen prediktor tokenů, ale AI agent s cíli v reálném světě. V tu chvíli se již můžeme potýkat se závažnými problémy.

Stále nám chybí několik kousků skládačky. Začněme tím, že se podíváme, jak inteligentní může AI v budoucnu být.

Obecná umělá inteligence (AGI)

AI, se kterou se setkáváme dnes, je tzv. slabá umělá inteligence, která dokáže dosáhnout úzce specifikovaného cíle, pro který byla vytrénována. Na opačném konci spektra obecná umělá inteligence dokáže dosáhnout i cílů, pro které nebyla specificky trénována, a to tak, že dokáže uplatňovat existující znalosti na nové situace. Takový systém se učí, jak se správně učit. Umí se naučit podcíle a uvažuje dlouhodobě a strategicky.

Jedním druhem obecné inteligence je ta lidská. Nastavila nám ji evoluce skrze rozmnožování a naší odměnou je dopamin. AGI je v tomto kontextu nebiologický systém, který dokáže totéž. Ve zkratce: AGI je AI systém, který se ve svých kognitivních dovednostech dokáže vyrovnat člověku.

Záblesky AGI už dnes

AGI dnes ještě neexistuje, ale už můžeme pozorovat určité záblesky. Jedním aspektem AGI je, že stejný systém zvládne plnit široké spektrum úkolů. Například neuronová síť Gato od DeepMind dokáže hrát Atari hry, popisovat obrázky, vést rozhovor, skládat kostky pomocí reálné robotické ruky a mnoho dalšího.

Dobře známý GPT-4 vykazuje překvapivé schopnosti generalizace zkušeností v situacích, pro které nebyl úmyslně trénován.

Více zde:

Jak chytrá AGI může v budoucnu být?

Není důvod se domnívat, že lidská inteligence by měla být nějakým přirozeným limitem toho, jak inteligentní může být něco jiného než člověk. Stejně jako dnes již žádný člověk neporazí AI v šachu, může být AGI lepší než člověk ve všech kognitivních dovednostech. Lidstvo se dosud nesetkalo s ničím, co by bylo chytřejší než my. Stojíme tedy před bezprecedentní situací, což už by mělo samo o sobě být znepokojující. Obzvlášť, pokud superinteligentní AGI nebude mít stejné cíle jako my.

Je těžké představit si něco chytřejšího než my. Stačí se přitom podívat do přírody. Srovnejme třeba inteligenci šimpanzů s tou naší. AGI může být vůči nám totéž, co my vůči šimpanzům.

Jak rychle může AGI přijít?

Forecastingová platforma Metaculus nechává své uživatele (mix laiků a tzv. superforecasterů, kteří mají výjimečně vysokou úspěšnost v předpovědích budoucích událostí) předpovídat, za jak dlouho dorazí první verze AGI. Střední odhad neustále klesá. V době zveřejnění tohoto článku je střední odhad rok 2032.

A co si myslí experti? Podle průzkumu z roku 2022 dávají experti 50% šanci, že “strojová inteligence na vysoké úrovni” přijde v roce 2059. Mediánová odpověď navíc říká, že pravděpodobnost, že její příchod bude pro lidstvo extrémně špatný, je 5 %. 48 % respondentů si dokonce myslelo, že tato pravděpodobnost je vyšší než 10 %.

Co může následovat pak? Jedna z variant je tzv. foom. Česky se začíná vžívat krásný překlad “vžům”, tedy inteligenční exploze. Jak už jsme si řekli, AGI se může člověku vyrovnat v dovednostech nebo ho dokonce předčít. AGI se tak může mimo jiné stát mimořádně dovednou ve zlepšování AGI. Jakmile AGI zlepší sama sebe, stane se hned zase o něco lepší ve svých dovednostech včetně opětovného zlepšování sama sebe. To pak může fungovat jako složené úročení, kdy AGI plodí ještě schopnější AGI. Tento proces může být mimořádně rychlý. Vzhledem k tomu, že AI přemýšlí mnohem rychleji než člověk a zároveň může být i chytřejší, může se stát, že s přelomovými objevy na poli vývoje AGI bude přicházet klidně i v řádu hodin. Od první verze AGI po superinteligenci nás může dělit jen překvapivě krátká chvíle. Podle průzkumu zmíněného výše si 54 % dotázaných expertů myslí, že šance, že “vžům” nastane, je vyšší než 40 %.

K tomuto “vžůmu” existuje pěkná metafora, kdy úroveň lidské inteligence představuje zastávka vlaku, na které stojí lidstvo. Čekáme, že AI symbolizovaná vlakem přijede na naši zastávku a zastaví se. Ve skutečnosti to může vypadat tak, že zastávkou prosviští nečekanou rychlostí.

Proč bychom to prostě nemohli vypnout?

Skvělá otázka! Dnes vyvíjíme AI tak, jako vyvíjíme každý jiný kus softwaru. Vytvoříme první verzi, kterou potom otestujeme. Když se objeví chyby, tak provedeme další trénink a zbavíme se bugů. Tento postup by ovšem u dostatečně chytré AI nemusel fungovat. Proč? Zaprvé je tu výše ilustrovaný problém robota, co sbírá jahody a vlivem špatného tréninku utrhne člověku nos. Tomu se říká “outer misalignment” nebo vnější nesoulad. I přes možné katastrofální následky lze AI v takovém případě vypnout a přetrénovat. Pak je tu ovšem druhý, zásadnější, problém, chytlavě nazvaný instrumentální konvergence.

Instrumentální konvergence

Inteligentní systémy mají tu vlastnost, že si při snaze o plnění cílů vytváří tzv. instrumentální cíle, neboli podcíle. Pokud dostanete chuť na zmrzlinu a doma žádnou nemáte, musíte si skočit do obchodu. Váš konečný (terminální) cíl je zmrzlina. Abyste ji dostali, musíte splnit sérii mezicílů, tedy vstát, obléknout se, vyjít ven, přejít silnici, vejít do obchodu, provést transakci. Zároveň s tím ale máte podcíle, které nejsou hned úplně zřejmé. Například by vás na silnici nemělo přejet auto. Inteligence spočívá ve schopnosti překonávat překážky a dosahovat cílů. Pokud AI zadáme cíl a potom ji budeme chtít vypnout, stáváme se tím jen další překážkou při plnění cíle. Jak jsme si popsali výše, AI je trénována tak, že se snaží dostat co největší odměnu v podobě bodů, které za splnění cíle dostane. Pokud ji v tom budeme bránit, může hledat cesty, jak nás obejít nebo s námi manipulovat. Pokud bude mnohem chytřejší než my, může nás přelstít třeba tak, že se nahraje na internet mimo náš dosah, kde na ni naše vypínací tlačítko nebude mít vliv.

Ani v tomto případě nejde o nějakou snahu o přežití ve smyslu, jak se snaží přežít člověk. AI si i v tomto kontextu lze představit jako velice chytrý algoritmus, který se snaží splnit svůj cíl, tedy získat body za splnění úkolu. Neumíme AI vytrénovat tak, aby skutečně chápala, kde jsou limity a co po ní skutečně chceme (narozdíl od toho, co umíme vyslovit, že chceme). Instrumentální konvergenci dobře vysvětluje toto video.

Ortogonalita

Pokud by AGI byla skutečně tak chytrá, přece by pochopila, co po ní skutečně chceme a neoptimalizovala by na nějakou hloupost, jako dávat červené předměty na lesklé věci jako robot v příkladu výše. Nebo ne?

Cíle nejsou závislé na úrovni inteligence. Jinými slovy, jakkoli inteligentní systém může mít jakékoli cíle včetně těch (z našeho pohledu) hloupých. Tomu se říká teze ortogonality. Více si o ní můžete přečíst v textu od Nicka Bostroma, profesora z Oxfordu a autora knihy Superintelligence.

Jaká rizika z AI mohou plynout?

Existuje celá škála mechanismů, jak nás může pokročilá AI ohrozit. V tomto článku se zaměřuji především na vymknutí se z kontroly.

Vymknutí se z kontroly může nastat podobně, jako bylo uvedeno u příkladu s robotem a jahodami výše. Pokročilá AI může začít optimalizovat na nějaký cíl, využít svou inteligenci k tomu, aby zlepšovala samu sebe, což může vést k inteligenční explozi skrze mechanismus složeného úročení. Následně se může stát, že bude optimalizovat způsobem, který jsme nezamýšleli, a kvůli instrumentální konvergenci bude vzdorovat našim snahám o vypnutí nebo modifikaci. Pokud bude chytřejší než my, můžeme se tak ocitnout v těžko řešitelné situaci.

Představme si třeba AI, která je vytrénována, aby vymýšlela léky. Nejsnazší je vymyslet lék na patogen, kterému vynálezce léku velice dobře rozumí. Například patogen, který sám laboratorně sestrojil. Touto logikou by mohlo AI začít vymýšlet vlastní patogeny, na které následně bude vymýšlet léky. Plní tedy účel, pro který byla vytrénována, ale ne způsobem, který jsme ve skutečnosti zamýšleli. Když při tom AI nachytáme, můžeme se ji pokusit vytrénovat tak, aby se tímto způsobem nechovala. Zároveň se ale může stát, že se spíše lépe naučí utajovat svou činnost a další patogeny vytvářet bez našeho vědomí. Je to poměrně banální příklad. Pokud AI bude chytřejší než my, může nás obelstít způsoby, které nás ani nenapadnou, a tudíž se proti nim nemůžeme dobře bránit.

Jako jedno konkrétní riziko zneužití můžeme zmínit riziko vypuštění lidmi uměle vytvořených patogenů. S AI začíná být stále jednodušší a levnější vytvořit vysoce nakažlivé a smrtící patogeny s dlouhou inkubační dobou a obtížnou detekcí. V minulosti se již vyskytly případy kultů (Aum Shinrikyo) nebo inteligentních jednotlivců (například Theodore Kaczynski zvaný Unabomber), kteří si dali za cíl zničit lidstvo či technologickou civilizaci. Takový člověk, pokud by byl dostatečně odhodlaný a inteligentní, by mohl za pomoci AI vytvořit extrémně nebezpečný patogen a ohrozil miliardy životů. Více o tomto konkrétním riziku se dozvíte v tomto podcastu od 80,000 Hours.

Co se s tím dá dělat?

Co se tedy dá dělat, abychom k vývoji AI přistoupili zodpovědně?

Výzkum

Zaprvé je důležité věnovat se výzkumu, který se můžeme pokusit rozdělit do čtyř hlavních kategorií:

Agent foundations

Výzkum agentnosti zkoumá systémy z pohledu jejich cílů. Studuje strukturu rozhodovacích systémů, které řeší optimalizační problémy. Výzkum čerpá z mnoha různých oborů včetně matematiky, ekonomie, teorie rozhodování, informatiky, teorie informace a evoluční biologie.

Prosaic alignment

Tento výzkum se soustředí na existující systémy trénované skrze deep learning. Příkladem je výzkum toho, jak by jednodušší systémy umělé inteligence mohly pomoci lidem dohlížet na pokročilejší systémy a hodnotit je.

Interpretovatelnost

Výzkum interpretovatelnosti má za cíl porozumět tomu, co konkrétně se děje uvnitř neuronových sítí a jak konkrétně neuronová síť ze vstupů vytváří výstupy. Takový výzkum nám může pomoci identifikovat nebezpečné cíle a předcházet klamání v modelech.

Přístupy na základě modelování mozku

Jelikož lidský mozek již zjevně vyznává lidské hodnoty, doufá se, že modelování AI na základě lidského mozku usnadní její přizpůsobení lidským hodnotám.

Bohužel vývoj dovedností AI jde dnes výrazně rychleji než výzkum bezpečnosti. K AGI tak můžeme dojít dříve, než zjistíme, jak ji vytvořit bezpečně – a to už může být pozdě.

Testování

Evaluace

Evaluace velkých jazykových modelů je proces, kdy evaluátor zkoumá, zda má model například tendence lhát nebo manipulovat s uživatelem*kou. Nové verze jazykových modelů by měly procházet komplexními evaluacemi. Stejně tak verze modelů, které byly dotrénovány ke specializovaným účelům.

Debatování

Jedná se o speciální instance evaluací, kdy spolu dva modely debatují na nějaké téma. Například spolu o něčem vyjednávají. Přitom se navzájem hodnotí a snaží se odhalit nežádoucí chování u druhého modelu. Slabší model se takto může snažit odhalit problémy u nového silnějšího modelu.

Regulace

Vedle výzkumu je také důležitá regulace vývoje nových pokročilých modelů. Zde je výčet některých činností, které se v tomto ohledu zdají být smysluplné. Seznam byl vytvořen ve Future of Life Institute, který si dal za cíl minimalizovat existenční rizika hrozící lidstvu a stojí mimo jiné za otevřeným dopisem vyzývajícím ke zpomalení vývoje silnějších systémů, než je GPT-4:

  1. Vyžadovat při vývoji nových modelů důkladný audit a certifikaci třetí stranou.
  2. Regulovat přístup k výpočetnímu výkonu.
  3. Zřídit organizace pro dozor nad vývojem AI na (mezi)národní úrovni.
  4. Zavést odpovědnost za škody způsobené umělou inteligencí.
  5. Zavést opatření k prevenci a sledování úniků modelů AI.
  6. Rozšířit financování technického výzkumu bezpečnosti AI. Vypracovat standardy pro identifikaci a správu obsahu a doporučení generovaných AI.

Závěrem

V současné době neumíme AI bezpečně trénovat tak, aby dělala skutečně to, co my zamýšlíme. Pokud při tréninku vznikne i drobný nesoulad, může to mít katastrofální následky. Stojíme na prahu vzniku něčeho chytřejšího, než jsme my: logického stroje na dosahování co nejlepších výsledků, u kterého nelze předpokládat, že bude mít morálku, svědomí a vědomí stejným způsobem, jakým je má člověk. Pokud nastane inteligenční exploze dříve, než tento problém vyřešíme, může se stát, že už superinteligenci nesladěnou s našimi hodnotami nedokážeme vypnout nebo modifikovat. K první verzi AGI se kvůli masivním investicím do rozvoje AI řítíme neskutečnou rychlostí a výzkum toho, jak AI vyvíjet bezpečně, přitom dostává nesrovnatelně méně prostředků a pozornosti.

Zpětná vazba

Text zajisté není dostatečný na to, aby zachytil celou komplexitu problému. Snažil jsem se pokrýt jen ty hlavní díly skládačky, abych vysvětlil hlavní mechanismy rizika a proč je v některých kruzích bezpečnost AI tak velké téma. Tento text je pouze mojí interpretací problematiky.

Mým cílem nebylo přesvědčovat, ale vysvětlovat. Možná ovšem moje vysvětlení není dostatečné, možná jsem se někde dopustil chyb a omylů. Možná vám téma bezpečnosti AI přijde nesmyslné a ani tento text vás nepřesvědčil o opaku. Pokud s textem nebo s jeho částmi nesouhlasíte, budu rád za zpětnou vazbu, abych jej mohl zlepšit. Pro zaslání zpětné vazby prosím využijte tento formulář.

Další zdroje

Pokud se chcete dozvědět více, doporučuji následující zdroje:

  • Soubor videí “Concrete problems in AI Safety” od Roberta Milese. Videa vysvětlují studii “Concrete Problems in AI Safety”od autorů z OpenAI, Google Brain, Stanford University a UC Berkley.
  • Dvoudílný článek na blogu Wait But Why “The AI Revolution” dobře ilustruje možnost blížící se inteligenční exploze.
  • Efektivní altruismus Česko nabízí hned dva semináře zdarma o bezpečnosti AI. Jeden více technický, který se mimo jiné zaměřuje ve větší hloubce na mechanismy popsané výše, a jeden zaměřující se na smysluplnou regulaci vývoje AI. Více informací o obou seminářích najdete zde.
  • Deceptively Aligned Mesa-Optimizers na blogu Astral Codex Ten od Scotta Alexandera – článek, odkud jsem čerpal příklad s robotem a jahodami.
  • AISafety.info vás provede problematikou bezpečnosti AI od A do Z.