Enkele ervaringen met de RIVM plausibiliteits-score en validatie/calibratie van lokale metingen?

De stichting Burgerwetenschappers Land van Cuijk heeft sinds 2019 een 20-tal fijn stof en temperatuur/luchtvochtigheids sensoren in St. Anthonis (gemeente Land van Cuijk, noord-oost Brabant) en 3 bovenop het landelijk meetstation te Vredepeel. De metingen worden verzameld door ver. Behoud de Parel en real-time gevisualiseerd op de website van Behoud de Parel. De (ruwe) metingen worden zo volledig mogelijk ook doorgegeven o.a. aan Sensors.Community. Op het RIVM dataportaal zijn deze metingen terug te vinden als ‘plausibiliteits’-scoren.

De gemeente Land van Cuijk heeft nav. SLA is eind 2023 een begonnen met de opzet van een luchtmeet-projectplan. Een motie (begin 2023) vanuit de gemeente Raad over het meetinitiatief was gebaseerd op onvolledige informatie over o.a. de berekening van de RIVM plausibiliteits-score en de statistische onzekerheden van de vaststelling van plausibiliteit. Naar aanleiding van recente vragen over o.a. de motie vanuit een lokale politieke partij heeft de Stichting enkele documenten opgesteld waarvan het document over de motie naar aanleiding van de besluitvorming in de Raad gaat over plausibiliteit en wat daar bij komt kijken. Er worden enkele suggesties tot verbetering gedaan, zoals bijv. meer transparantie over de score toekenning en een mogelijkheid om interactief door de tijd lopen.

Regelmatig krijgt de Stichting vragen over de calibratie van de metingen. Het tweede documenten betreft ‘Kalibratie van low-cost sensoren voor lokale Luchtkwaliteitsmetingen in de regio St. Anthonis’ en gaat over de validatie en calibratie maatregelen bij de data analyse fase.

Het grootste motivatie probleem - waar doe ik het voor? - is dat er nauwelijks tot geen interactie is bijv. over de data analyse en mogelijkheden bij de metingen met betrekking tot de mogelijke maatregelen. Participatie en citizen science is teveel een sluitpost in de SLA: het ophangen van meetkastjes bij particulieren en handvatten te verkrijgen voor onbekende en te vage maatregelen.

In januari 2023 gaf Joost Wesseling (EU Fairmode low-cost sensoren) tijdens Meet je Stad Koppelting dagen een toelichting over het calibratie RIVM onderzoek. Helaas kon ik de presentatie in het Meet je Stad niet terugvinden. Maar gelukkig is in januari 2024het meer wetenschappelijk rapport ‘Using synthetic data to benchmark correction methods for low-cost air quality sensor networks’ van Joost en anderen te downloaden (PDF document).

2 likes

Wat bespiegelingen mijnerzijds over plausibiliteitsscore.

Het RIVM voorziet momenteel alleen SDS011 sensoren van een pluasibiliteitsscore, zie Plausibiliteit van de fijnstofmeting: Beoordelen kwaliteit meetwaarde van goedkope fijnstofsensoren | Samen meten aan luchtkwaliteit

Sinds december 2023 krijgt ook elke sps30 sensorwel een “RIVM fijnstofkalibratiewaarde”, maar wordt nog niet van plausibiliteitsscore voorzien. Als je kan kalibreren, dan kan je plausibiliseren.

Waarom de sps030 nog geen plausibiliteitsscore krijgt is mij niet duidelijk ?

In de communicatie is dit niet handig: de waarde “plausibiliteit onbepaald” wordt door sommige “langehalen snel thuis adviseurs” direct doorvertaald naar “sensor onbetrouwbaar”, terwijl de sps30 , ook bij het RIVM juist een betere pm25 betrouwbaarheids reputatie heeft dan de sds011.

We zoeken uit wat plausibiliteit eigenlijk is: Whereas we could say of a statement that is probable or possible, we would rather speak of a plausible argument or plausible reasoning. Plausibility, therefore, has much to do with how we reason and how we construct a convincing argument than with the actual ‘‘truth-value’’ of a claim.

(https://cspo.org/wp-content/uploads/2014/11/read_van-der-Helm-Towards-a-Clarification-of-Probability.pdf )

Terugvertalend naar onze luchtkwaliteitsituatie: Je kunt dus zeggen dat een meting plausibel is, maar wat betekent het om daar dan vervolgens een score aan te hangen ?

Een plausibiliteit score van 5 , is dat zoiets als: “de kans dat deze meetwaarde binnen een interval van 15% correct is” is groter dan 90% ? Of “in 90% van de tijd is de afwijking van de ruwe sensorwaarde tov de rivm kalibratiescore zeer gering, dwz minder dan x%”

En wat worden die grenswaardes dan voor een plausibiliteitsscore van 3 ?

De reasoning die het RIVM doet is globaal beschreven:

  1. Hoort de meetwaarde bij de 5% hoogste meetwaardes van heel Nederland?
  2. Hoort de meetwaarde bij de 5% laagste meetwaardes van heel Nederland?
  3. Hoort de meetwaarde bij de hoogste of laagste waarden van zijn kalibratiegroep?
  4. Verschilt de meting een factor 2 of meer met een nabijgelegen officieel meetstation?
  5. Is de kalibratieonzekerheid groter dan 30%? Deze kalibratieonzekerheid neemt toe als de er grote verschillen zijn de lokale fijnstof concentraties. Dan is het officiële meetstation namelijk minder representatief hoe verder je van dat station bent. In de Noordelijke provincies zijn bijvoorbeeld weinig officiële meetstations, daar is de kans op een lagere score dus groter.
  6. Staat deze sensor korter dan 300 uur aan?
  7. Heeft deze sensor regelmatig een lagere plausibiliteit gekregen
  8. Hoort de sensor regelmatig bij de 5% hoogste meetwaardes van heel Nederland?
  9. Hoort de sensor regelmatig bij de 5% laagste meetwaardes van heel Nederland?

Helaas is het exacte algorithme niet publiekelijk beschikbaar en roept deze uitleg vervolgvragen op:

Hoe tellen de individuele punten mee in de ster uitgave ? Bijvoorbeeld, als ik in een structureel slechte fijnstofregio woon, dan scoor ik niet goed op punten 1, (misschien 4) ,7 en 8, wat is dan nog mijn maximale plausibiliteit ?

ad 3: Wat is de kalibratiegroep definitie (missschien alle sensoren van hetzelfde type, geclusterd binnen een bepaalde geo ruimte )en wat betekent hoog/laag in de groep ?

ad 5: de kalibratieonzekerheden zelf zijn als data niet publiekelijk beschikbaar.

ad 4: Als de meetwaardes laag zijn, is een factor 2 verschil niet zo buitengewoon.

Zou een sensor over de tijd geleidelijk aan steeds minder plausibel worden ?
Vaak begeeft de laser het na een paar jaar en is de sensor van ene op andere moment onbruikbaar geworden.

“Vertrouwen komt te voet en gaat te paard”, hoe zit dat met plausibiliteit ?

Een tweetal SDS011 sensoren die we ooit gebruikt hadden en al meer dan een half jaar de kast lagen (omdat de wifi verbinding niet geweldig was ) hebben we opnieuw aangesloten.

Binnen een dag hadden beide sensoren een plausibiliteit van 4 en 5 sterren, dus dat criterium van de afgelopen 300 uur in de lucht zijn, is wat flexibel.

Vervolgens hebben we een van de sensoren binnenshuis geplaatst. Ik heb de plausibiliteit nog niet geleidelijk aan minder zien worden .

Een andere Goudse sensor, LTD_46278, geeft stelselmatig lage pm2.5 waardes, m.i veel te laag, zeker vergeleken met de buur sensoren, toch varieert de plausinbiliteit van deze senor tussen 4 en 5.

image.png

image.png

Wat je eigenlijk zou willen weten is of de plausibiliteit inderdaad strict gecorreleerd is met de sensor en niet met de locatie. Je zou een 5 sterren sensor en een 1 sterren sensor van locatie kunnen laten wisselen.

Om dat statistisch verantwoord te doen is zo’n grote operatie nodig dat we dit idee maar snel terzijde schuiven vanwege praktische redenen.

Samenvattend hoop ik plausibel te hebben gemaakt, dat er rond het rivm begrip sensor plausibiliteit nog veel detail onduidelijk is.

Suggesties ter verheldering zijn welkom !

2 likes