Dá se říct, že většina sociálních programů nefunguje?

Mezi efektivními altruisty panuje velmi jasná shoda v tom, že při volbě intervencí bychom se měli řídit daty. Dokážou nám však současná data dát dostatečně silné podklady k jasnému zhodnocení efektivity dané intervence?

Sept. 1, 2017


Z anglického originálu přeložil Petr Svatoň

Mnoho vládních a charitativních programů se snaží zlepšit vzdělávání, zdraví, nezaměstnanost a řadu dalších oblastí. Jaká část těchto programů je ale reálně prospěšná a funkční?

Převážná většina sociálních programů a služeb nebyla nikdy podrobena tvrdému testování efektivity. Z těch, které testováním prošly, zhruba tři čtvrtiny vycházejí jako nefunkční a produkující velmi malé či zcela nulové výsledky, přičemž některé mají dokonce negativní dopady. V tomto celku jsou zahrnuty i programy, které podporuje většina expertů v oblasti nebo které prošly méně přísnými testy, a od kterých by člověk proto čekal, že budou mnohem úspěšnější.

Tento odhad pochází od Davida Andersona, který jej zveřejnil v roce 2008 na svém blogu na GiveWellu. V té době byl Anderson zastupujícím ředitelem Koalice pro na datech založenou politiku a jeho odhad bývá často citován, obzvláště mezi efektivními altruisty, kteří jej často zjednodušují na tvrzení, že „většina sociálních programů nefunguje“. Toto číslo je ovšem už skoro deset let staré, a proto jsme se rozhodli pro další zkoumání problematiky.

Setkali jsme se proto znovu s Andersonem, stejně jako s Evou Vivalt, zakladatelkou organizace AidGrade, která usiluje o hodnocení efektivity rozvojových programů, a také s Danielle Mason, která je vedoucí výzkumu v britské Nadaci pro financování vzdělávání. Z rozhovoru vyplynulo, že původní Andersonův odhad je rozumný, ale že existuje celá řada významných komplikací.

Zdá se nám proto zavádějící tvrdit, že většina sociálních programů je k ničemu, aniž bychom dále vysvětlili, co to vlastně znamená. Také jsme se shodli, že soustředění se na daty podložené metody pomáhá dosáhnout výrazně větších efektů, než pokud jsou sociální programy vybírané náhodně či intuitivně.

V tomto článku postupně projdeme odhady Andersona, Evy Vivalt a Danielle Mason, vysvětlíme nedostatky a komplikace ve vyvozování jejich závěrů a v závěru se z toho pokusíme vyvodit celkové důsledky pro otázku, jak moc funkční či nefunkční sociální programy jsou.

Aktualizované odhady Davida Andersona

David je dnes ředitelem skupiny pro na datech založené programy v rámci Nadace Laury a Johna Arnoldových, což je charita operující s rozpočtem v řádu miliard dolarů. Když jsme jej kontaktovali, měl pro nás špatné zprávy. Procento programů, které mají slabé, nulové, nebo záporné efekty, je podle něj dost možná ještě vyšší než tři čtvrtiny. David nám vysvětlil:

„Původně jsem toto číslo vyslovil jako hrubý odhad pro GiveWell založený na stovkách, dnes již spíše tisících randomizovaných testů, které naše organizace provádí v nejrůznějších oblastech sociální politiky. Od té doby jsme se na tuto otázku podívali trochu více systematicky."

V roce 2015 nadace manželů Arnoldových vydala přehled literatury o sociálních programech, které byly podrobeny randomizovaným testům jako součást žádostí o granty. Z přehledu vyšlo pro jednotlivé oblasti následující:

Vzdělávání: Z 90 intervencí, které byly hodnoceny pomocí randomizovaných testů Institutem Pedagogických Věd od roku 2002, mělo zhruba 90 % slabé nebo nulové pozitivní dopady.

Zaměstnanost: Z randomizovaných testů provedených pod záštitou amerického ministerstva práce od roku 1992 vyplývá, že asi 75 % testovaných intervencí mělo slabé či nulové pozitivní dopady.

Zdravotnictví a vývoj léčiv: Studie zjistili, že 50 až 80 % pozitivních výsledků v původních klinických studiích bylo vyvráceno v nadcházejících randomizovaných testech, které mají poslední slovo.

Byznys: Z 13 000 testů nových produktů a strategií provedených Googlem a Microsoftem nemělo 80 až 90 % žádné významné výsledky.

Současné tempo provádění testů je příliš pomalé na vybudování smysluplného počtu prokazatelně fungujících intervencí pro řešení našich sociálních problémů. Z obrovského množství rozmanitých probíhajících a nově zahajovaných programů na federální, státní i lokální úrovni je jenom malá část jakýmkoliv důvěryhodným způsobem evaluována za účelem zjistit, zda fungují. Federální vláda ve Washingtonu tak každý rok pomocí randomizovaných testů hodnotí jen zhruba 10 až 20 programů.

Co máme na mysli, když mluvíme o „slabých dopadech“?

Jedním z problémů v těchto odhadech je, že záleží na definici toho, co je významný dopad. K tomu je potřeba využít proměnné jako:

  1. Hranice statistické významnosti

  2. Jak velký musí dopad být ve vztahu k nákladům

  3. Jak jsou vybírány testované výsledky

Podle našich informací Anderson jako hranici statistické významnosti použil standardní hodnotu 5 %. Sdělil nám následující:

„Soustředili jsme se na základní a pro sociální politiky relevantní výsledky získané pomocí jednotlivých randomizovaných testů, meta-analýzám jsme se vyhnuli. Co se týče samotných efektů, založil jsem můj odhad pro Give Well na obecném pravidlu, které jsme používali v Koalilici pro na datech založenou politiku ke zjištění, jestli něco „funguje“, tedy jestli to v dobře provedených testech dlouhodobě má významné pozitivní dopady na důležité výsledky.„

Náklady jsme se explicitně nezabývali.

Můžeme se také podívat přímo na již zmíněnou studii Institutu pro Pedagogické Vědy, abychom viděli jejich podmínky pro definování předpokladů pro hodnocení, které jsou ve zkratce tyto:

“V případech, kdy studie měří jak prozatímní, tak i konečné pro rozhodování relevantní výsledky,  (prozatímní například hloubka znalostí učitelů, konečné studijní úspěchy žáků), jsme vycházeli z těch konečných.”

“V případech, kdy studie měřila jak krátkodobé tak i dlouhodobé dopady programu, jsme se soustředili na dlouhodobé výsledky.“

Další otázkou je, jak vůbec vybrat studie, ze kterých budeme následně vycházet. Pokud zahrnete velké množství studií s malým počtem testovaných subjektů, potom bude procento funkčních programů zdánlivě velmi nízké, i když většina programů ve skutečnosti může fungovat. V přehledu Nadace manželů Arnoldových se ale píše, že studie byly zahrnuty pouze pokud „množství testovaných subjektů bylo dostatečně velké na to, aby se na něm důsledky intervence smysluplně projevily.“

Odhady v oblasti mezinárodního rozvoje a rozdíly mezi meta-analýzami a randomizovanými testy.

Zatím jsme mluvili jenom o odhadech efektivity programů zaměřených na Spojené státy a pouze o randomizovaných testech, nikoliv o alternativní metodě hodnocení, takzvaných meta-analýzách. Zmíněná Eva Vivalt, která je zakladatelkou organizace AidGrade, jež ve své činnosti využívá právě meta-analýzy, nám jejich fungování osvětlila.

Eva provedla několik rychlých analýz svých dat získaných z randomizovaných testů, aby ukázala, jak statistické výsledky závisí na definicích. Je třeba zdůraznit, že toto jsou pouze předběžné, provizorní odhady, které mohou být změněny na základě dalších, hlubších analýz.

Ale pro začátek:

Podle randomizovaných testů má 60 až 70 % programů statisticky nevýznamné výsledky. Toto je podobné původnímu Andersonovu odhadu, i když podle těchto výsledků funguje o něco málo vyšší procento intervencí. Vivalt ovšem poukázala na to, že její data množství funkčních programů přeceňují, protože 1) většina studií pracovala s příliš malým množství subjektů na to, aby dokázala výsledky intervencí dobře změřit a 2) zahrnují všechna měření výsledků, včetně těch vedlejších či nedůležitých.

Pokud dáme dohromady studie podle typu intervencí (například programy poskytující očkování apod.) a provedeme meta-analýzu, potom zjistíme, že 70 až 80 % intervencí (které jsou v tomto výzkumu agregovány do skupin jako očkování nebo likvidace parazitů, nikoliv hodnoceny jednotlivě), má alespoň jeden významný pozitivní efekt.

Toto je naopak překvapivě vysoké číslo, ovšem bohužel to stále není ten údaj, který chceme, protože měřené dopady mohou být málo důležité, nebo jejich efekt může být malý vzhledem k nákladům. Navíc, pokud je měřeno mnoho různých dopadů, z nichž pouze jeden je důležitý, potom je velké riziko falešně pozitivních výsledků, z důvodů, které jsou podrobně vysvětleny tady.

Jak můžeme zjistit, které výsledky jsou důležité? Jedna možnost je podívat se na všechny kombinace intervencí a výsledků, které byly popsány ve více studiích, vzhledem k tomu, že jen málo intervencí má stejné výsledky. Hlavní myšlenka je, že pokud mnoho výzkumníků nějaký dopad intervence zahrnulo, potom je pravděpodobné, že tento dopad je důležitý. Pokud zaměříme svou pozornost jen na kombinace intervencí a výsledků, které jsou popsány minimálně ve třech různých studiích, zjistíme, že 60 až 70 % těchto párů intervencí a výsledků má významné pozitivní dopady. Průměrná velikost efektu je asi 0,1 standardní odchylky.

Celkově se dá říct, že výsledky těchto meta-analýz jsou podobné Andersonovým odhadům, ovšem ukazují o něco málo větší část intervencí jako funkčních. (Kromě toho také souhlasí s dalšími daty, které jsme viděli, například lekce pro politiku od organizace JPAL.) To, že meta-analýzy vedou k optimističtějším výsledkům než randomizované testy, by nás ovšem nemělo překvapit, a to hned z několika důvodů:

Zaprvé, je pravděpodobné, že existuje pozitivní výběr intervencí pro studium, protože lidé pravděpodobně nebudou studovat výsledky intervence, pokud si nemyslí, že funguje, a meta-analýzy jsou založené na spojení výsledků z velkého množství dřívějších studií. Vivalt souhlasí a myslí si, že její odhad je oproti realitě příliš optimistický.

Zadruhé, mnohé jednotlivé studie mají příliš málo subjektů, kvůli čemuž nemohou ukazovat žádné statisticky významné efekty. Ovšem pokud intervence ve skutečnosti funguje, tak když později shrnete všechny studie do meta-analýzy, dosáhnete statistické síly a najdete pozitivní výsledek, který se z jednotlivých původních studií nedá vyvodit.

Zatřetí, lze si představit intervenci, která je za většiny okolností neefektivní, ovšem čas od času má silné pozitivní dopady. Představme si, že dojde ke třem testováním:

  1. Žádné významné dopady

  2. Žádné významné dopady

  3. Tři jednotky pozitivního dopadu


V takovém případě bude procento jednotlivých randomizovaných testů, které ukazují funkčnost intervence, jenom jedna třetina, ale pokud tyto tři studie zkombinujeme, výsledkem bude průměrný dopad 1 jednotka na studii. Toto je obrovské zjednodušení toho, co meta-analýzy s daty dělají, ale ilustruje to základní myšlenku, že malé množství studií s velmi silnými výsledky může ovlivnit rozsáhlou meta-analýzu. Pokud například chcete zjistit, jestli rozvojová pomoc funguje jako celek, potom čím více studií zkombinujete, tím větší je šance, že najdete pozitivní efekt.


Čtvrtým faktorem by mohlo být, že v mezinárodním rozvoji, kterým se Vivalt a její organizace zabývají, možná funguje větší procento intervencí než v USA. Pokud jsou lidé chudší, je jednodušší najít efektivní cesty jak jim pomoci, které budou následně mít dost velké dopady na to, aby je objevila nějaká studie. Celkově bychom měli očekávat, že procento funkčních intervencí bude v každém odvětví jiné.

A konečně, Vivalt odhadla poměr programů, které jsou vůbec nějak testovány, a došla k podobnému hrubému odhadu jako Anderson: že pouze 1 až 2 % sociálních programů jsou hodnoceny pomocí randomizovaných testů

Meta-analýza britského vzdělávání s Danielle Mason

Britská Nadace pro Financování Vzdělávání vytvořila fantastický soubor nástrojů, který shrnuje data o různých intervencích v britském školství, přičemž stejné otázky si můžeme klást i v jiných sektorech.

Danielle Mason, vedoucí výzkumu v této organizaci, nám sdělila, že tento soubor postupů usiluje o zahrnutí všech relevantních a solidních kvalitativních studií. Pro každé téma zahrnuté v souboru se snažíme zachytit všechny existující, v angličtině psané posudky a studie, které splní jistou hranici kvality.

Každý typ intervence je posuzován podle tří kritérií: 1) váha dostupných dat 2) velikost efektu dané intervence a 3) její cena. Tady se můžete podívat, jak jsou hodnocení vytvářena.

K devatenáctému červnu 2017 je v souboru zahrnuto 34 různých typů intervencí pro oblasti vzdělávání a učení se, z nichž 31 prošla alespoň jednou meta-analýzou, což znamená, že mají skóre za váhu důkazů přinejmenším 2/5.

Ale o kolika z těchto 31 intervencí se dá říct, že fungují? Jak jsme již uvedli, to záleží na definici, jelikož hodnocení, jestli něco funguje, závisí na poměru mezi náklady a výsledky. Mezi úspěchem a neúspěchem tak není žádná jasná hranice. Zmíněná Nadace vede klienty k tomu, aby spíše přemýšleli o výhodách a nevýhodách jednotlivých intervencí, než aby je dělili na fungující a nefungující. Přesto můžeme uvést jisté hrubé odhady pro oněch 31 druhů intervencí:

  • 2  (6%) měly negativní efekty.

  • 19 (61%) mělo mírně pozitivní dopady (v rámci kritéria velikosti efektu jim byly uděleny tři body)

  • Z těchto 19 byl jen 1 typ intervencí velmi drahý vzhledem ke svým účinkům, ostatní je možné považovat za funkční.

  • 2 měly velmi malé pozitivní dopady, ohodnocené dvěma body, ale na druhé straně patřily mezi nejlevnější intervenci, takže nám připadá rozumné je hodnotit jako funkční.

Procento fungující intervencí se zdá být překvapivě vysoké a je možná dokonce vyšší než poměr, který uvádí Vivalt. K podobným výsledkům došel i John Hattie, který po provedení 1,200 meta-analýz zjistil, že průměrný dopad jím zkoumaných intervencí byl 0,4 standardní deviace, což by naznačovalo, že většina těchto intervencí funguje. Problém je ovšem v tom, že ne všechny tyto programy mají přímé a měřitelné důsledky. Například nejlépe hodnocenou intervencí v Hattieho seznamu je „učitelský odhad úspěchu“, která jenom ukazuje to, jak učitelé dokážou předvídat, jak se bude kterému studentovi dařit, ale neříká nic o tom, jak výkony studentů zlepšit. Dá se očekávat, že reálný kauzální dopad této intervence bude nižší.

I když od tohoto problému odhlédneme, nejsme si jistí, proč se v tomto měření procento funkčních intervencí zdá být vyšší. Je možné, že do měření byly vybírány především dobře fungující intervence, což zkreslilo výsledky.

Další zdroje k prozkoumání

Nezisková organizace Campbell Collaboration provádí meta-analýzy sociálních programů, zatímco síť výzkumníků Cochrane Collaboration se snaží o podobné analýzy intervencí ve zdravotnictví. Bylo by užitečné zjistit, jaké procento těchto intervencí je funkčních, ale při procházení databází těchto dvou organizací jsme zatím bohužel došli k závěru, že asi polovina analýz má neurčité výsledky.

A co replikační krize?

I pokud randomizovaný test najde pozitivní dopady dané intervence, často se stává, že když se jiné skupině výzkumníků podaří studii zopakovat („replikovat“), často jim vyjde, že intervence žádné dopady nemá. Procento studií, které se nepodaří zopakovat, se různí v závislosti na oboru, ale obvykle se pohybuje mezi pětinou a polovinou.

Replikační krize je obzvláště silná v odvětvích jako psychologie nebo výzkum vzdělávání, což by mohlo vysvětlovat na první pohled dobré výsledky intervencí ve vzdělávání, o kterých jsme mluvili výše. V psychologii se stává, že i výsledky podložené mnoha meta-analýzami a shodou mezi experty o jejich správnosti se nepodaří replikovat. Tady si můžete přečíst o známém případu selhání studií o „vyčerpání ega“. Nedávný pokus replikovat mnohé studie o „romantickém primingu“ vedl k závěru, že celý efekt byl pouze následkem takzvaného publikačního zkreslení. To způsobuje, že většinou jsou publikovány spíše studie, který zjistí existenci nějakého efektu, než studie, které jej vyvrací, protože výzkumy s pozitivním výsledkem „lépe vypadají“. To v důsledku vyvolává iluzi, že daný efekt existuje a že se na tom shoduje většina výzkumů. Na následujícím grafu si můžeme ukázat, že v případě romantického primingu původní studie našly efekt o velikosti 0,5, zatímco při zopakování studií vyšla velikost efektu nulová.

replication crisis


Převládající názor v současnosti je ten, že k replikační krizi dochází, protože používané statistické metody pro práci s daty obsahují řadu cest, jak uměle zvýšit zdánlivou sílu efektů, přičemž čím je efekt silnější, tím má daný autor větší šanci, že jeho studie bude publikována. Takže i v situaci, kdy randomizovaný test ukazuje pozitivní efekty, je pořád 20-50% šance, že intervence ve skutečnosti žádný efekt nemá.


Zčásti z toho důvodu John Ioannidis slavně prohlásil, že „většina publikovaných výsledků výzkumů je chybných.“


Nedávné Ioannidisovy práce zabývající se ekonomií ukázaly, že skoro 80 % pozorovaných efektů v empirických ekonomických výzkumech je zveličených, obvykle dvojnásobně a u jedné třetiny výzkumů dokonce čtyřnásobně a více.

Naše výše uvedené odhady nejsou upravené tak, aby tato možná nadhodnocení reflektovaly, což znamená, že většina z nich pravděpodobně ukazuje efekty intervencí jako větší a lepší, než ve skutečnosti jsou.

Na druhé straně je pravda, že tyto problémy jsou mnohem méně vážné, pokud se soustředíme na vysoce kvalitní studie a obzvláště v případech, kdy použijeme meta-analýzy, což jsme u většiny odhadů udělali. Pokud budeme předpokládat, že 30 % našich výsledků je nereplikovatelných, potom procento funkčních intervencí klesne například z počátečních 35 % na 25 %.

Nadále je dobré zmínit, že nový výzkum od Vivaltové a dalších autorů ukázal, že důvěryhodnost studií je vyšší u rozvojové ekonomie, jelikož tento podobor obsahuje poměrné velké množství rozsáhlých a kvalitních studií.

Co můžeme z výše uvedeného vyvodit?

Je těžké říct, jaké procento sociálních intervencí funguje, protože:

  1. Jenom malé procento intervencí má přesně a vědecky ověřeny své výsledky, přičemž mnohé studie, které provedeny byly, nemají dostatečně silná data.

  2. Toto vede k problémům i proto, že výzkumníci si pro své nemnohé studie často disproporčně vybírají efektivně vypadající intervence, což způsobuje, že intervence jako celek v literatuře vypadají jako lepší a efektivnější, než ve skutečnosti v průměru jsou.

  3. Procento funkčních intervencí závisí na: 1) výběru studií, které zahrneme a budeme z nich vycházet, 2) výsledcích, které zahrneme, 3) kde určíme hranici statistické významnosti dopadů, 4) kde určíme hranici pro přijatelný poměr mezi náklady a výsledky, 5) oblastech, na které se zaměříme (například zdravotnictví nebo školství).

  4. Značná část těchto výzkumů je pochybných kvůli replikační krizi, vycházející z manipulace s daty.

Když toto všechno víme, jaké provizorní závěry si můžeme o efektivitě sociálních intervencí udělat?

Pokud se budeme soustředit na klíčové, základní výsledky, potom zjistíme, že:

  • Z jednotlivých projektů, které byly kontrolovány dobře vymyšlenými randomizovaými testy, asi čtyři pětiny nefungují, tedy nemají dostatečně velký pozitivní efekt vzhledem ke svým nákladům.

  • Přibližně 1 až 10 % intervencí má dokonce negativní dopady.

  • Z typů intervencí, které byly hodnoceny pomocí meta-analýz, je poměr nefunkčních typů zřejmě nižší, okolo 60 % namísto 80 % u konkrétních jednotlivých intervencí. Toto je ale zřejmě způsobeno tím, že u každého typu intervence je věnována pozornost těm nejlepším, což způsobuje, že typ jako celek vypadá dobře.

  • Naopak intervence a projekty, které nebyly nijak testovány, jsou pravděpodobně horší, právě proto, že se nikomu nechce je testovat, zatímco zájem o testování těch nejlépe vypadajících intervencí je značný.

  • Pokud budeme uvažovat o celých odvětvích (například školství jako celek), potom průměrný dopad intervencí je zřejmě pozitivní. Toto se dá očekávat, pokud je v oblasti dosahováno nějakého pokroku a pokud je alespoň slabý tlak na to, aby neefektivní programy a intervence byly ukončovány. Je dobré si uvědomit, že celkově mírně pozitivní výsledky mohou znamenat, že většina programů je nefunkčních, ovšem několik má velmi dobré výsledky, čímž zvyšuje průměr celku.

  • Toto se dá teoreticky předpokládat, jelikož sociální jevy mají obvykle přesně takovéto rozložení, kterému se říká power-law distribuce: většina položek je zanedbatelných, ovšem několik je extrémně velkých, což způsobuje, že průměr pro skupinu jako celek neodpovídá typickému případu. Dobře se tento jev dá představit na příkladu průměrných platů, kde průměr neodpovídá typickém platu, protože ho „táhne nahoru“ malé množství extrémně dobře placených lidí.

  • Průměrná velikost dopadů a procenta funkčních intervencí jsou v různých oblastech velmi rozdílná.

Je tedy možné říct, že většina sociálních programů nefunguje?

Myslíme si, že to by bylo poněkud vágní a potenciálně zavádějící. Je pravda, že většina jednotlivých projektů nefunguje, ale na druhé straně skupiny projektů jako celek mají obvykle pozitivní dopady, díky menšině velmi dobrých projektů. Proto pokud si několikrát po sobě náhodně vyberete nějaký sociální program a dáte na něj peníze, potom pravděpodobně budete mít ve výsledku pozitivní dopady. Podobně pokud několik lidí nezávisle na sobě přispěje na různé projekty, tak jejich celkový dopad bude dobrý, protože někteří z nich budou mít štěstí a narazí na efektivní programy.

Jinak řečeno, to, že většina jednotlivých sociálních projektů nefunguje, ještě automaticky neznamená, že investice do takových projektů je automaticky vyhazováním peněz, protože funkční menšina může i tak udělat mnoho dobrého.

Mnohem lepších výsledků než náhodným přidělováním peněz projektům můžeme dosáhnout, pokud se dokážeme soustředit právě na ony nejlepší projekty, díky kterým můžeme dosáhnout mnohem lepších výsledků než s průměrným programem. Pokud například v daném odvětví funguje jen třetina intervencí, potom můžete ztrojnásobit váš dopad, pokud dokážete identifikovat onu jednu funkční intervenci a všechny zdroje investovat právě do ní, místo aby jste je rovnoměrně rozložili mezi všechny 3.

Vzhledem k tomu, že nemůžeme očekávat, že bychom tyto nejlepší intervence dokázali vybrat intuitivně na základě našich pocitů, je pořád důležité se pokoušet ony nejefektivnější intervence nacházet pomocí studií a práce s daty.

Jak moc důležité je řídit se daty?

Musíme si přiznat, že zlepšení, kterého dosáhneme, pokud se budeme řídit dostupnými daty, není tak velké, jak se často tvrdí mezi efektivními altruisty. Předpokládejme například, že 10 ze 100 intervencí je vysoce efektivních a každá z nich má jednu „jednotku pozitivních dopadů“. Zbylých 90 nefunguje a má 0 jednotek pozitivních dopadů.

Pokud si dokážete vybrat oněch deset funkčních intervencí, budete mít deset jednotek, například pomůžete deseti lidem. Pokud si vašich deset intervencí vyberete náhodně, pak v průměru budete mít jednu jednotku dopadu, tedy například pomůžete jen jednomu člověku.

Teoreticky tedy v našem příkladu dokážete váš pozitivní dopad desetinásobně zvýšit, pokud si dokážete vybrat ty správné intervence. V reálném světě ale tak velkého zlepšení pravděpodobně nedosáhnete. První důvod je ten, že i neefektivní intervence většinou mají alespoň nějaké pozitivní efekty. Ještě důležitější důvod ale je, že snahy měřit a hodnotit efektivitu různých intervencí jsou nevyhnutelně nedokonalé a nepřesné, často značně, což znamená, že nedokážeme přesně identifikovat oněch 10 funkčních intervencí.

Pokud budete mít alespoň relativně dobrou metodu hodnocení, potom můžete dosáhnout toho, že správně identifikujete například 3 z 10 efektivních intervencí, čímž oproti náhodnému typu zlepšíte svůj dopad třikrát. To je pořád dobré, ale ne tak dobré, jako kdybyste jej dokázali zvýšit desetkrát.

Obecně se dá říct, že zlepšení vycházející z práce s daty záleží na rozdílu v efektivitě mezi intervencemi v oboru a na kvalitě vašich měření. Z těchto měřítek vychází jako celkově nejlepší oblast světové zdraví, jelikož v rámci této problematiky existují velmi dobrá měření (kolik životů zachrání různé léčby a za kolik peněz) a rozdíly v efektivitě mezi jednotlivými intervencemi jsou velké (léčba plešatosti vs. léčba malárie). I tak jsou ale nejlepší programy v oblasti světového zdraví jen asi desetkrát více efektivní než ty průměrné, přičemž při opakování studií a odstranění vad v měření se tyto rozdíly ještě sníží, což je projevem regrese k průměru.

Dále je možné, že nejlepší intervence v dané oblasti nejsou zjistitelné z dostupných dat - může se jednat například o tvorbu a testování nevyzkoušených přístupů, či nejisté, ale zato potenciálně významné přístupy jako výzkum nových léků nebo snahy o politickou reformu. Pokud budete pouze vycházet z dat, které jsou v současnosti dostupné, tyto slibné přístupy vám mohou zcela uniknout, zvláště v konzervativních oborech, kde chybí invence a ochota riskovat.

Stručně řečeno, desetinásobné zvýšení efektivity je maximum, kterého můžete v principu dosáhnout vybíráním nejlepších intervencí na základě dostupných dat, přičemž v mnoha oblastech to dost možná je spíše jen dvojnásobné či trojnásobné zlepšení.

Efektivní altruisté často ilustrují důležitost práce s daty tím, že porovnávají ty nejlepší intervence s těmi nejhoršími, nebo nejtypičtějšími. Toto nám sice poskytne zajímavé (a často poněkud znepokojivé) informace o rozdílech v efektivitě, ale opomíjí to fakt, že alternativou k na datech založenému přístupu je spíše náhodná volba vedoucí k průměrným intervencím než to, že byste si vždycky automaticky vybrali ty úplně nejhorší. Pokud volíte náhodně, máte malou šanci, že budete mít štěstí a vybere si něco velmi efektivního. Kromě toho, pokud máte nějakou dobrou teorii nebo dostatek zkušeností, potom můžete i bez dat volit o něco lépe než náhodně.

Dvojnásobné až desetinásobné zlepšení, kterého dosáhnete ve svých dopadech vycházením z dostupných dat, je úctyhodné. Ale není to tak dobré, jak si mnoho efektivních altruistů myslí, a jak si myslel i překladatel tohoto článku.

Kromě toho, ještě větších zlepšení pozitivních dopadů můžete dosáhnout tím, že si vyberete dobrou oblast (například zdravotnictví na úkor podpory sportu apod.) Podle odhadů vycházejících z našeho přístupu se v některých oblastech dá dosáhnout více než stokrát vyšší efektivity než v jiných.



blog comments powered by Disqus