Project KAFE_08 Gelijkgestemde sensoren

We nemen een nabijgelegen set van 4ster plausibele sensoren in het Goudse, binnen een paar 100m
vanaf mijn thuislocatie, in de Goudse wijk die verwarrenderwijs Kort Haarlem heet.
Het waarom daarvan heeft niets met fijnstof te maken, zie Mysterie opgelost: dit is waarom deze wijk Kort Haarlem heet - indebuurt Gouda

Het huidige rivm algoritme neemt elke sensor als een onafhankelijke meting en kijkt alleen naar
het statistische gemiddelde van grote groepen.
Een gelijkvormige nabijgelegen groep is statistisch krachtiger dan losse sensoren. Als de hele goep hetzelfde patroon volgt, en dat patroon wijkt af van een nabijgelegen rivm station,
dan is er een indicatie voor een locale oorzaak.

Als die lokale oorzaak luchtvochtigheid is, dan zijn we snel klaar en beschouwen het als artefact.
Als de lokale luchtvochtigheid laag is, dan is er misschien iets anders aan de hand…
Op 1 April was de luchtvochtigheid niet extreem (zie https://www.meteo-gouda.nl/ )

We zien verschillende hoge uitslagen van nabijgelegen SDS011 sensoren.

Het RIVM station Schoonhoven heeft maar een zeer bescheiden piekje, vergeleken met het gemiddelde van onze set Goudse sensoren ;zijn we iets op het spoor ?


We plotten het verschil tussen het gemiddelde van de Goudse sensoren en het RIVM station Schoonhoven:

We plotten het verschil tussen het gemiddelde van de Goudse sensoren en het RIVM station Schoonhoven:

Dat lijkt wel een effect ?

Maar kijken er weer weer op een andere manier tegenaan door de maximale uitslag te normeren de op 1, dan krijgen we onderstaand plaatje
Met ook RIVM station Schoonhoven genormaliseerd toegevoegd in de rode kleur.

Dan lijkt het RIVM patroon toch weer verdacht veel op het locale Goudse patroon:

Wat hebben we geleerd voor de volgende keer ?

1)korte extreme pieken vertekenen het gemiddelde nogal,
  Simpele outlier schemas werken niet als bv:
       gooi de hoogste en de laagste uit de groep weg,
       gooi alles weg boven max waarde

2)normaliseren op 1 is een techniek om nog eens vaker te proberen.

Nieuwe rondes, nieuwe kansen !

Zomaar extreme pieken weghalen is voer voor discussies tussen statistici.
Er zijn behoorlijk wat algoritmes om de ‘rare pieken’ te bestrijden. Chi-kwadraat is er zo een. Zelf gebruik is zowel de Grubb tests als Chi-kwadraat. Is dat een idee?

Terzijde: meteo sensoren zijn vrijwel allen ontwikkeld voor ‘binnenshuis’ (lees lage RH waarden) toepassingen. Ze hebben een vrij grote afwijking (spec zegt 10%) en dat is funest in het gebied van >60% (buiten) tav fijnstof waarden correcties. Raar maar waar: de meeste luchtvochtvochtigheids metertjes die verkocht (ook ‘professioneel’) worden zijn gebaseerd op die indoor sensors (bijv de veel gebruikte Bosch BME280).

Mijn vraag is: we maken gebruik van PM2.5 massa waarden die de low cost sensors weergeven. Een paar fabrikanten geven ook puur de deeltjes tellingen in verschillende groottes in zg bins weer. Kunnen de bin-tellingen niet leiden tot een beter inzicht?

Andere vraag: het gaat uiteindelijk om gezondheidsrisico: de blootstelling van bijv. de PM2.5 over langere periode voor een lokaal gebied. Een gebied dat je vergelijkt met een gebied elders. Maw om de integraal van de grafieklijn?

Beste Teus

Dank voor je reactie

Je legt met je slotvraag de lat voor statistische onderzoek niet laag; mijn informele formulering van de te toetsen hypothese :
In de “goede fijnstof” omgeving is er een betere gezondheid dan in de “slechte fijnstof” omgeving

We kunnen op basis van openbare RIVM PM2.5 fijnstofmeting data slechts beperkt terug tot ongeveer 2014 (via https://iq.luchtmeetnet.nl/open_api/measurements)

Als er gezondheids effecten optreden na langer dan 7 jaar permanente blootstelling dan zijn die nu nog niet constateerbaar.
Hoe wil je de relatie met gezondheidscijfers leggen en zijn die data openbaar ?

Wat outliers betreft, dat blijft een onderwerp dat uitdieping behoeft; ik kom daar volgende week in een aparte blog op terug, vereist eerst nog wat experimentatie.