Download - Undicesima Conferenza Nazionale di Statistica

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
Il punto di vista del mercato: una app
con i dati sugli incidenti stradali
Come usare i dati dell’ISTAT per creare applicazioni di mercato
Il punto di vista di Evodevo, azienda specializzata in Open Data e semantica
Stefano De Luca| Evodevo srl
In due parole: sicurezza delle strade
La sicurezza delle strade è un tema particolarmente importante per l’enorme
numero di vittime. L’ISTAT raccoglie informazioni su tutti gli incidenti con almeno
un ferito, secondo un protocollo europeo.
Evodevo ha usato questi dati per un prototipo di Poste Italiane per la Polizia
Provinciale di Roma, con analisi di crime mapping e geo-statistica per
identificare le zone e le strade più pericolose, gli andamenti nel tempo, le ragioni
dell’incidentalità di un luogo e, con metodi statistici inferenziali la previsione di
pericolosità di un tratto stradale, per poter migliorare l’efficacia di interventi
correttivi.
Si è quindi esteso il lavoro ai dati della Gran Bretagna.
211.404 incidenti stradali
4.090 morti
302.735 feriti
dati istat 2010
I dati
Tramite SISTAN, è stata fatta una richiesta all’ISTAT per ottenere i dati, che non
sono oggi del tutto open data, data la sensibilità di alcune informazioni. I dati
forniti sono stati resi anonimi.
Questi dati sono stati integrati con quelli delle multe.
Problemi nei dati:
• Non tutte le istanze hanno le stesse informazioni (dati mancanti)
• Difficile la geocodifica:
• «via Nazionale n. 12, Roma»  OK!
• «via Aurelia, Roma»  è una strada lunghissima!
• «via Nazionale incrocio via Milano»  i geocoder non dànno risultato
SISTAN: data set incidenti
Problemi:
• qualità dei dati variabile
• difficile geocodifica
Il sistema: Crime Mapping & geo-statistica
Il sistema CRIMAP ha circa 60 analisi, basate su tecniche geo-statistiche
Sono state usate tecniche studiate nell’ambito dell’analisi criminale tramite aspetti
geografici, il cosiddetto crime mapping
KERNEL DENSITY: analisi delle aree con più incidenti
HOT SPOT ANALYSIS: analisi delle aree più pericolose (hot spot) o più tranquille
(cold spot)
SDE: direzionalità e centro dei problemi
CLUSTER & OUTLIERS: raggruppamenti per punti critici (ad es. incroci) e
anomalie
CORRELAZIONI STATISTICHE: geostatistica, studio delle correlazioni tra
variabili e data mining spaziale
Applicazione CRIMAP:
60 analisi
crime mapping
geo statistica
Mapping e location intelligence
Il sistema permette di mappare gli incidenti su base geografica
Le analisi sono per dato tabellare e per dato geografico  Location Intelligence
Il livello più semplice è la visualizzazione dei dati e l’analisi comparativa, ad es:
• Incidenti per gravità
• Analisi delle quantità per zona censuaria
• Ricerche
• Dettagli
• Reports di business intelligence
Tutte le analisi posso essere studiate per la
variazione temporale
Hot spot analysis
Hot spot analisys consente di
trovare le zone pericolose (hot
spots) e quelle «virtuose» (cold
spots)
Le analisi sono state divise tra
• strategiche (sull’intera provincia
di Roma)
• tattiche: a livello di quartiere
Di ogni analisi si è verificata la
significatività statistica
Hot Spot Analysis
• Zone più pericolose
• Analisi strategica e tattica
Clusters & Outliers / Spatial distribution
CRIMAP permette di analizzare cluster di
incidenti
organizzati
per
diverse
dimensioni geografiche (strade, incroci,
sezioni di censimento, CAP)
Si analizzano anche le zone con
comportamenti anomali (outliers)
Tramite la distribuzione spaziale (SDE,
Standard Deviational Ellipse) si può
vedere qual è il centroide del problema e
quale sia il suo orientamento nello spazio.
Importanti le differenze nel tempo (giorno,
notte) e per tipologia, ad es. in figura i
diversi ellissi per tipologia di rischio dei
verbali (rischio di incidentalità)
Clusters: concentrazioni
Outliers: anomalie
Distribuzione spaziale: dove
Pericolosità di una strada: indice SPF
Per calcolare quanto sia pericolosa una
strada, abbiamo un indice tramite funzione
predittiva SPF safety performance functions*,
tramite inferenza bayesiana e parametri della
strada (tipo di pavimentazione, larghezza,
rurale/cittadina etc.).
Calcolare il rischio futuro è importante per:
• definire dove intervenire e
• misurare
l’efficacia
degli
interventi
(scostamento rispetto la previsione)
Sono state inoltre usate analisi per semivariogramma ed altre tecniche di data mining
spaziale per identificare la causa dell’aumento
di rischio
Pericolosità di una strada
Previsione futura
Data mining spaziale
• Dominique Lord, Bhagwant N. Persaud, Estimating the
safety performance of urban road transportation
networks, Accident Analysis & Prevention, 36 (2004) 609–
620
• Ozlem Yanmaz-Tuzel, Kaan Ozbay A comparative Full
Bayesian before-and-after analysis and application to
urban road safety countermeasures in New Jersey,
Accident Analysis & Prevention, 42 (2010) 2099–2107
Analisi incidenti di Londra
Abbiamo creato una versione «light» di
CRIMAP
ad
uso
dei
cittadini:
http://lab.evodevo.it/roadsafety con analisi per
gli incidenti di Londra, usando i gli open data
pubblicati su data.gov.uk
Versione ridotta di CRIMAP, ad uso dei cittadini.
Disponibili hot spot analysis, density, SDE,
conteggio degli incidenti, Street Performance
Index.
Hot spots
Obiettivi:
• informare sui rischi,
• aumentare la consapevolezza
• coinvolgere i cittadini nella riduzione degli
incidenti
Open Data
Open Source
Info ai cittadini
SPF – Strade pericolose
Conclusioni
L’ISTAT raccoglie dati preziosissimi per la comunità e le imprese.
I dati dell’ISTAT sono frutto di un processo di alta qualità ed omogenei su tutta
Italia (o addirittura Europa), sono aggiornati periodicamente: l’ideale per lo
sviluppo di un’applicazione!
Esiste un mercato delle applicazioni basate sugli open data, ad uso di
cittadini ed amministratori: all’aumentare delle informazioni disponibili, le
applicazioni potranno essere più ricche (ad es. introducendo l’inquinamento nelle
analisi viste).
Evodevo è attiva sul mercato del riuso e della pubblicazione di open data (con il
prodotto Evodevo Open Data Ground) ed opera per la liberazione di nuovi dati
Ulteriori informazioni:
Evodevo www.evodevo.it [email protected]
Stefano De Luca [email protected] twitter @stefano_de_luca