HomeScenariBig Data: un algoritmo italiano per una soluzione "semplice"

Big Data: un algoritmo italiano per una soluzione “semplice”

Leggi le riviste ⇢

Ti potrebbero interessare ⇢

La Redazione

Big-DataIl termine Big Data indica enormi quantità di informazioni, tipo quelle condivise da miliardi di persone in ogni momento via computer, smartphone e altri dispositivi elettronici, e categorizzare e rappresentare in modo sintetico questi dati rappresenta la sfida del futuro. Per ben utilizzare i Big Data occorre infatti comprenderli dopo averli suddivisi in categorie, e questo deve avvenire in modo efficace, veloce e automatizzato. Tra i sistemi più usati vi è un insieme di tecniche statistiche denominate "Cluster Analysis", atte a raggruppare i set di dati sulla base della loro “somiglianza”, e due ricercatori della Scuola Internazionale Superiore di Studi Avanzati (SISSA) di Trieste hanno ideato un tipo di Cluster Analysis basato su principi semplici e performanti che si è dimostrato non solo efficiente ma anche in grado di risolvere alcuni dei tipici problemi di queste analisi. Gli insiemi di dati possono essere pensati come una nuvola di punti in uno spazio a più dimensioni, in genere dispersi in modi diversi, a diversa rarefazione e densità zona per zona. La Cluster Analysis serve a individuare le zone più dense, raggruppando i dati in un certo numero di sottoinsiemi significativi, ciascuno corrispondente a una categoria. Come esemplificazione i ricercatori propongono l'analogia con un database di fotografie di volti:  nell’archivio possono esservi più fotografie di una stessa persona, e la Cluster Analysis serve a raggruppare tutti gli scatti relativi allo stesso individuo. Questo tipo di analisi viene fatto per esempio dai sistemi automatici di riconoscimento dei volti, e i ricercatori di Trieste hanno cercato di ideare un algoritmo più efficiente di quelli attualmente usati.  La performance della procedura si è rivelata ottimale: il modello matematico è stato testato sull’Olivetti Face Database, un archivio di ritratti fotografici, con risultati molto promettenti.  Il sistema riconosce correttamente la maggior parte degli individui, senza dare falsi positivi, il che significa che in qualche caso non ha riconosciuto un soggetto, ma non ha mai confuso un individuo con un altro. Rispetto ad altre metodologie, quella ideata dai ricercatori del SISSA si è rivelata particolarmente efficace nell’eliminare gli outlier, cioè quei punti molto diversi dagli altri che tendono a falsare l’analisi.

Big Data: un algoritmo italiano per una soluzione “semplice” - Ultima modifica: 2014-09-11T20:00:57+02:00 da La Redazione