Simpsons Paradox och missvisande statistik kring corona

Det har varit väldigt mycket statistik och data runt pandemin. Mycket av det är nödvändigt för att förstå situationen och för att öka chanserna att man tar beslut. En del av det är dock väldigt missvisande och många gånger används också dessa grafer medvetet av personer som vill vilseleda andra människor av någon anledning.

Ett av de allra mest förekommande fenomenen när det gäller missvisande statistik är något som kallas för Simpsons Paradox. Mer tekniskt så innebär Simpsons Paradox att en trend som är tydlig inom flera grupper försvinner när man kombinerar grupperna till en enda större grupp. Det låter inte självklart när man bara skriver det så här så jag tänkte förklara det med ett väldigt övertydligt exempel.

Sen förklarar jag vad som är fel med bilden som jag valt att använda som ”rubrikbild” här ovanför.

En väldigt enkel förklaring av Simpsons Paradox

En gemensam nämnare för nästan alla missvisande statistik som inkluderar Simpsons Paradox under pandemin är att den inkluderar väldigt stora åldersspann.

Risken att avlida ökar för varje år som du lever. En person som är 60 år gammal är därför i betydligt större risk att avlida det närmsta året än en person som är 20 år. En självklarhet som jag tror att alla håller med om. Så här ser risken ut i England men värdena är snarlika för alla rikare länder med hög medellivslängd (1).

Som du kan se så ökar risken markant för människor när de kommer upp i pensionsåldern ungefär. Där är dock en stegvis ökning även i de yngre åldrarna som vi kan se i fall vi väljer att plocka bort alla 60+ från grafen här ovanför. Notera att y-axeln förändras här så klart.

Tänk dig nu att vi hittar en medicin som minskar risken att avlida med hela 50% och den fungerar för alla. Men en del människor är rädda för att ta medicinen och framför allt ser man att de unga, som ändå har ganska många år kvar att leva, drar sig från att testa medicinen. Så när vi tittar på hur många i varje åldersgrupp som tar medicinen så får vi följande fördelning. Det här är helt påhittad data så klart, för att förklara Simpsons Paradox.

Om vi nu skulle titta på hur medicinen minskar mängden dödsfall i varje åldersgrupp så skulle vi få följande resultat. För att matten ska vara ganska enkel så antar vi att det är precis 100 000 personer i varje åldersgrupp.

Jag har här utgått ifrån risken att avlida som du såg i graferna tidigare och sedan är matten väldigt enkel. Som du kan se blir också resultatet precis det väntade. När vi räknar om det per 100 000 i varje grupp så ser vi att risken att avlida är dubbelt så stor hos de som inte tagit medicinen. Ett givet resultat då jag ju har bestämt att medicinen halverar risken att dö.

Men se vad som händer nu om vi adderar till en sista rad längst ner där vi räknar på alla åldersgrupperna tillsammans. Helt plötsligt så är det så att de som har tagit medicinen är i nästan 5 gånger högre risk att avlida.

Det här är Simpsons Paradox. I varje enskild kategori så ser vi klart och tydligt att medicinen fungerar precis som väntat. Men eftersom fördelningen mellan hur många människor som tar medicinen är så olika i olika åldrar och risken att dö är så mycket högre hos äldre personer så blir allting tvärt om i fall vi tittar på det som en enda stor grupp.

På Wikipedia har man även en bra illustration som visar hur Simpsons Paradox kan se ut när man ritar upp det grafiskt. När du ser på det i mindre grupper så ser du att korrelationen är positiv (färger) men när du tittar på allting tillsammans så blir det istället en negativ korrelation (svart).

Pace~svwiki, CC BY-SA 4.0 https://creativecommons.org/licenses/by-sa/4.0, via Wikimedia Commons

Tillbaka till den missvisande grafen i rubrikbilden

Jag är nästan helt säker på att du redan har förstått varför det kunde vara så att fler vaccinerade än ovaccinerade dog i åldern 10-59 år i den Engelska datan.

Den enkla förklaringen är helt enkelt för att vaccineringen är mycket högre i åldrarna där det dör fler människor. Så när man delar in människor i åldern 10-59 år i två grupper med vaccinerade eller ovaccinerade så kommer medelåldern för de vaccinerade att vara betydligt högre. Och när åldern är högre så dör fler människor. Risken att avlida för de som är 50-59 år är mer än 20 gånger så hög jämfört med de i åldern 10-19 år.

Så enkelt är det. Vill du läsa en mycket mer utförlig förklaring så hittar du det här.

När Englands statistiska centralbyrå märkte att deras data medvetet användes missvisande av antivaxxers så släppte de också inom kort data där de hade delat in dödsfallen i mindre åldersgrupper. Föga överraskande såg då resultaten ut så här (2). Notera att endast de i hög riskgrupp i åldern 18-39 år var vaccinerade innan juli vilket förklarar att de vaccinerade avled något oftare fram till och med juli (3).

Liknande saker som påverkar annan statistik

Då ålder har en så stor påverkan på risken att dö överlag och också risken att bli allvarligt sjuk från covid-19 så är det väldigt lätt hänt att man blir lurad av Simpsons Paradox när man tittar på statistik som summerar resultatet för en hel befolkningen eller över ett stort åldersspann.

För att någonting ska kallas för Simpsons Paradox så krävs det dock att resultatet blir det omvända mot det verkliga. I exemplen ovan så verkade det som att risken ökade när den i själva verket minskade.

Det är också vanligt att vi har samma typ av påverkan på datan men där påverkan inte blir så stor så att resultatet blir det motsatta. Istället kan det bli så att effektstorleken påverkas ganska mycket. När någonting påverkar resultat på det här viset så kallas det för confounding. Och ålderseffekten kan bli en stor sådan kring covid-19.

Ett exempel kan vi se i den svenska statistiken för hur mycket större risken är för vaccinerade jämfört med ovaccinerade att läggas in på sjukhus. Den ser ut så här just nu för månaden december och början av januari (3). Här ser det ut som att vaccinen fungerar sämre för åldersgruppen 12-39 år men så är det inte. Istället är det en för bred ålderskategori där vaccinationstäckningen är lägre hos de yngre jämfört med de äldre.


Uppskattade du den här artikeln?

Allt som jag skriver på den här sidan och mina sociala medier är gratis för alla, men tar så klart av min tid. Så om du uppskattar det jag gör så kan du stödja mig lite så jag kan lägga mer tid på att skriva och dela intressanta saker genom att bli medlem på min Patreon.

Dela den här artikeln på…


Har du någon fråga eller kommentar på det du precis läst?

Jag uppskattar verkligen om det kommer frågor och kritik i kommentarsfältet som finns här under. Det är öppet för alla men första gången du kommenterar så läggs kommentaren för granskning innan jag släpper igenom dem. På så sätt slipper vi alla personer som inte vill diskutera utan bara spamma.

Är det frågor som jag märker blir återkommande under samma inlägg eller flera olika inlägg så lägger jag till dem i en FAQ i slutet på varje inlägg med.

2 kommentarer

Lämna en kommentar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *