Browsing by Author "Cauteruccio, Francesco"

Now showing 1 - 1 of 1

Generalizing identity-based string similarity metrics: theory and applications
(2018-01-19) Cauteruccio, Francesco; Leone, Nicola; Terracina, Giorgio
Le stringhe giocano un ruolo fondamentale in informatica: codificando i dati, la loro interpretazione permette di derivare informazione. Dato un insieme di stringhe, alcune interessanti domande emergono: “queste stringhe sono correlate?”, e se lo sono, “possiamo misura la loro correlazione?”. La definizione di un grado di similarit`a tra stringhe risulta essere fortemente importante. Varie definizioni di similarit`a tra stringhe sono state definite nella letteratura, derivanti dal concetto di metrica in matematica. Una delle pi`u famose metriche di similarit`a tra stringhe `e la edit distance, definita come il numero minimo di edit operation necessarie a trasformare una stringa in un’altra. Tuttavia, le varie definizioni presentano un’assunzione chiave: simboli uguali tra le stringhe rappresentano la stessa identica informazione, mentre simboli diversi introducono una qualche di↵erenza. Questa assunzione risulta essere estremamente riduttiva: esistono casi in cui l’identit`a tra simboli sembra non essere sufficiente a definire una similarit`a, e nel caso in cui non ci siano simboli in comune tra due stringhe, si pu`o verificare che simboli diversi rappresentino la stessa informazione. Inoltre, in alcuni casi una mappatura one-to-one tra i simboli risulta inefficace, quindi si necessita una mappatura many-to-many. La necessit`a di avere una metrica di similarit`a tra stringhe che sia in grado di catturare correlazioni nascoste tra le stringhe emerge, ove il concetto chiave `e rappresentato dal considerare che simboli di↵erenti possono esprimere concetti simili. Lo scopo di questa tesi `e di contribuire in questo scenario. In primis, un framework che generalizza la maggior parte delle metriche di similarit`a tra stringhe (basate sull’identit`a tra simboli) viene presentato, idoneo a scenari di applicazione in cui sono presenti stringhe definite su alfabeti eterogenei. La Multi-Parameterized Edit Distance (una generalizzazione della edit distance con il supporto del framework) viene definita formalmente e studiata dal punto di vista della complessit`a computazionale. In seguito, di↵erenti euristiche, definite, implementate e testate, vengono presentate, in modo da approcciarsi alle difficolt`a computazionali presenti. Varie euristiche sono presentate e tre di esse sono studiate, discusse e testate in dettaglio. Alcuni contesti di applicazione, studiati in questa tesi, sono quindi discussi, spaziando dal settore ingegneristico a quello informatico biomedico: anomaly detection nelle Wireless Sensors Area Network, analisi dei White Matter Fiber-Bundles e analisi degli Elettroencefalogrammi. Le conclusioni e una panoramica dei lavori futuri chiudono la tesi.