Regola di intervallo per la deviazione standard

La deviazione standard e l'intervallo sono entrambe misure della diffusione di un set di dati. Ogni numero ci dice a modo suo quanto sono distanziati i dati, poiché sono entrambi una misura della variazione. Sebbene non esista una relazione esplicita tra l'intervallo e la deviazione standard, esiste una regola pratica che può essere utile per mettere in relazione queste due statistiche. Questa relazione viene talvolta definita regola dell'intervallo per la deviazione standard.

La regola dell'intervallo ci dice che la deviazione standard di un campione è approssimativamente uguale a un quarto dell'intervallo dei dati. In altre parole s = (Massimo - Minimo) / 4. Questa è una formula molto semplice da usare e dovrebbe essere usata solo come una stima molto approssimativa della deviazione standard.

Esempio

Per vedere un esempio di come funziona la regola di intervallo, esamineremo il seguente esempio. Supponiamo di iniziare con i valori dei dati di 12, 12, 14, 15, 16, 18, 18, 20, 20, 25. Questi valori hanno una media di 17 e una deviazione standard di circa 4.1. Se invece calcoliamo prima l'intervallo dei nostri dati come 25 - 12 = 13 e poi dividiamo questo numero per quattro, abbiamo la nostra stima della deviazione standard come 13/4 = 3.25. Questo numero è relativamente vicino alla deviazione standard reale e va bene per una stima approssimativa.

Perché funziona?

Può sembrare che la regola dell'intervallo sia un po 'strana. Perché funziona? Non sembra del tutto arbitrario dividere semplicemente l'intervallo per quattro? Perché non dovremmo dividere per un numero diverso? In realtà c'è qualche giustificazione matematica dietro le quinte.

Richiama le proprietà della curva a campana e le probabilità da una distribuzione normale standard. Una caratteristica ha a che fare con la quantità di dati che rientra in un certo numero di deviazioni standard:

  • Circa il 68% dei dati rientra in una deviazione standard (maggiore o minore) dalla media.
  • Circa il 95% dei dati si trova entro due deviazioni standard (maggiore o minore) dalla media.
  • Circa il 99% si trova entro tre deviazioni standard (maggiore o minore) dalla media.

Il numero che useremo ha a che fare con il 95%. Possiamo dire che il 95% da due deviazioni standard al di sotto della media a due deviazioni standard al di sopra della media, abbiamo il 95% dei nostri dati. Quindi quasi tutta la nostra distribuzione normale si estenderebbe su un segmento di linea lungo un totale di quattro deviazioni standard.

Non tutti i dati sono normalmente distribuiti e hanno la forma di una curva a campana. Ma la maggior parte dei dati si comporta abbastanza bene che allontanarsi di due deviazioni standard dalla media cattura quasi tutti i dati. Stimiamo e diciamo che quattro deviazioni standard sono approssimativamente le dimensioni dell'intervallo, quindi l'intervallo diviso per quattro è un'approssimazione approssimativa della deviazione standard.

Utilizza per la regola di intervallo

La regola dell'intervallo è utile in una serie di impostazioni. Innanzitutto, è una stima molto rapida della deviazione standard. La deviazione standard richiede di trovare prima la media, quindi sottrarre questa media da ciascun punto dati, quadrare le differenze, sommarle, dividere per uno in meno del numero di punti dati, quindi (finalmente) prendere la radice quadrata. D'altra parte, la regola dell'intervallo richiede solo una sottrazione e una divisione.

Altri punti in cui la regola di intervallo è utile è quando abbiamo informazioni incomplete. Formule come quella per determinare la dimensione del campione richiedono tre informazioni: il margine di errore desiderato, il livello di fiducia e la deviazione standard della popolazione che stiamo indagando. Molte volte è impossibile sapere quale sia la deviazione standard della popolazione. Con la regola dell'intervallo, possiamo stimare questa statistica e quindi sapere quanto grande dovremmo rendere il nostro campione.