Repository logo
Communities & Collections
All of DSpace
  • English
  • العربية
  • বাংলা
  • Català
  • Čeština
  • Deutsch
  • Ελληνικά
  • Español
  • Suomi
  • Français
  • Gàidhlig
  • हिंदी
  • Magyar
  • Italiano
  • Қазақ
  • Latviešu
  • Nederlands
  • Polski
  • Português
  • Português do Brasil
  • Srpski (lat)
  • Српски
  • Svenska
  • Türkçe
  • Yкраї́нська
  • Tiếng Việt
Log In
New user? Click here to register.Have you forgotten your password?
  1. Home
  2. Browse by Author

Browsing by Author "Cauteruccio, Francesco"

Filter results by typing the first few letters
Now showing 1 - 1 of 1
  • Results Per Page
  • Sort Options
  • No Thumbnail Available
    Item
    Generalizing identity-based string similarity metrics: theory and applications
    (2018-01-19) Cauteruccio, Francesco; Leone, Nicola; Terracina, Giorgio
    Le stringhe giocano un ruolo fondamentale in informatica: codificando i dati, la loro interpretazione permette di derivare informazione. Dato un insieme di stringhe, alcune interessanti domande emergono: “queste stringhe sono correlate?”, e se lo sono, “possiamo misura la loro correlazione?”. La definizione di un grado di similarit`a tra stringhe risulta essere fortemente importante. Varie definizioni di similarit`a tra stringhe sono state definite nella letteratura, derivanti dal concetto di metrica in matematica. Una delle pi`u famose metriche di similarit`a tra stringhe `e la edit distance, definita come il numero minimo di edit operation necessarie a trasformare una stringa in un’altra. Tuttavia, le varie definizioni presentano un’assunzione chiave: simboli uguali tra le stringhe rappresentano la stessa identica informazione, mentre simboli diversi introducono una qualche di↵erenza. Questa assunzione risulta essere estremamente riduttiva: esistono casi in cui l’identit`a tra simboli sembra non essere sufficiente a definire una similarit`a, e nel caso in cui non ci siano simboli in comune tra due stringhe, si pu`o verificare che simboli diversi rappresentino la stessa informazione. Inoltre, in alcuni casi una mappatura one-to-one tra i simboli risulta inefficace, quindi si necessita una mappatura many-to-many. La necessit`a di avere una metrica di similarit`a tra stringhe che sia in grado di catturare correlazioni nascoste tra le stringhe emerge, ove il concetto chiave `e rappresentato dal considerare che simboli di↵erenti possono esprimere concetti simili. Lo scopo di questa tesi `e di contribuire in questo scenario. In primis, un framework che generalizza la maggior parte delle metriche di similarit`a tra stringhe (basate sull’identit`a tra simboli) viene presentato, idoneo a scenari di applicazione in cui sono presenti stringhe definite su alfabeti eterogenei. La Multi-Parameterized Edit Distance (una generalizzazione della edit distance con il supporto del framework) viene definita formalmente e studiata dal punto di vista della complessit`a computazionale. In seguito, di↵erenti euristiche, definite, implementate e testate, vengono presentate, in modo da approcciarsi alle difficolt`a computazionali presenti. Varie euristiche sono presentate e tre di esse sono studiate, discusse e testate in dettaglio. Alcuni contesti di applicazione, studiati in questa tesi, sono quindi discussi, spaziando dal settore ingegneristico a quello informatico biomedico: anomaly detection nelle Wireless Sensors Area Network, analisi dei White Matter Fiber-Bundles e analisi degli Elettroencefalogrammi. Le conclusioni e una panoramica dei lavori futuri chiudono la tesi.

Unical - Sistema Bibliotecario di Ateneo - Servizio Automazione Biblioteche @ 2025

  • Privacy policy
  • End User Agreement
  • Send Feedback