martedì 17 novembre 2020

Esattamente qui




Immaginate di essere in un bosco con tanti alberi, ma radi e per questo visibili anche a grande distanza. Avete deciso di sfruttare quel posto per nascondere un piccolo tesoro: un minuscolo diamante.
Il bosco ha una caratteristica peculiare che lo rende ottimo per questo scopo. Tutti gli alberi sono contrassegnati da etichette di identificazione e quindi riconoscibili in maniera univoca. Decidete così di utilizzarli per indicare il posto esatto dove interrare il tesoro. Avendo però a disposizione solo un metro a nastro decidete di adottare il seguente sistema per identificare in futuro il punto esatto: sceglierete un certo numero di alberi da cui misurare la distanza del punto X. In teoria basterebbero le misure da tre alberi per identificare univocamente il punto prescelto. Nella pratica però gli errori di misura sono tanti. Il nastro è flessibile, il terreno un po' irregolare impedisce di seguire esattamente la linea retta tra albero e punto X, per gli alberi più distanti una sola stesura del nastro non basta e sono necessari più stendimenti, il nastro ha una precisione centimetrica, il punto di contatto sull'albero è difficile da identificare, ecc... Insomma per sopperire a tutte queste fonti di errore una possibile la soluzione sembra essere quella di abbondare un po' con le misure. Non tre (il minimo teorico), ma cinque o dieci.
O forse è meglio di più? in fondo alberi se ne vedono tanti e alla fine, forse, un po' di lavoro in più adesso renderà più precisa l'identificazione del punto in seguito.
Ma è proprio così?


domenica 19 aprile 2020

Con la massima precisione.

Il grafico in alto mostra il totale delle misure, quello in basso solo le misure opportunamente selezionate. In ciascun grafico sono riportate le rette corrispondenti al valore medio e valore medio+-deviazione standard.


Il Servizio di Soccorso Interforze ci ha chiesto, per organizzare al meglio eventuali interventi presso la nostra sede, di fornirgli una misura quanto più precisa possibile dell'altezza dei dipendenti. Siccome loro non hanno tempo da perdere (al contrario di me) vogliono il valore medio e la deviazione standard via SMS.
Il risultato della misurazione di tutti i dipendenti è il seguente:
Altezza media 1,749 metri deviazione standard +- 0,148. 
Una commissione scientifica interna visti i risultati ha deciso che fosse scandaloso produrre un dato con una così grande variabilità. E' stato quindi deciso, al fine di fornire una misura più precisa, di togliere dall'insieme delle misure tutte quelle che superavano la deviazione standard.
Il testo inviato via SMS è il seguente:
Altezza media 1,737 metri deviazione standard +- 0,085. 

Chi ha un minimo di dimestichezza con le misure (di qualunque misura si tratti) si renderà immediatamente conto che l'espediente utilizzato è profondamente scorretto. Adottare un comportamento simile equivale a dire: scelgo opportunamente i dati dell'insieme completo prendendo solo quelli che mi consentono di ottenere il risultato che voglio. Se si trattasse di un procedimento corretto perché non ripeterlo così da migliorare ulteriormente la precisione della misura? alla fine si potrebbe arrivare ad ottenere un valore medio calcolato su una sola misura e con una deviazione standard pari a zero.

Forse a molti l'esempio, inventato, che ho fatto in questo post può sembrare bislacco e incomprensibile. Si tranquillizzino costoro, la stessa meraviglia è stata mostrata da alcuni miei colleghi quando l'ho proposto per illustrare l'errore al quale stavamo incorrendo avendo implementato questa possibilità in un programma che utilizziamo comunemente.