Versione 6.04 (002)

Sistemi di ricerca visuale applicati agli archivi televisivi

Progetto attivo

Nell’era digitale di oggi, la capacità di accedere, analizzare e (ri) utilizzare grandi quantità di dati è una risorsa strategica di fondamentale importanza per l’industria radiotelevisiva. La sfida consiste nella capacità di cercare, organizzare e accedere a risorse multimediali in modo rapido e semantico. Le tecnologie di ricerca visiva (in inglese Visual Search) sono la nuova frontiera per raggiungere questi obiettivi. Infatti, esse consentono agli utenti di ricercare e abbinare immagini e contenuti video basandosi sull’identificazione automatica di somiglianze visive tra gli oggetti rappresentati (quali ad esempio  edifici, quadri e loghi), e senza la necessità di intervento manuale per la definizione dei metadati.

Le tecnologie di analisi visuale si basano sull’idea di indicizzare e ricercare immagini e video basandosi sulle caratteristiche visive dei contenuti stessi. Molti metodi sono stati sviluppati per raggiungere questo obiettivo, come ad esempio quelli basati sull’identificazione di punti chiave degli oggetti rappresentati (in inglese local/global descriptors). Il Moving Picture Experts Group (MPEG) ha avviato nel 2010 un’iniziativa di standardizzazione denominata Compact Descriptors for Visual Search (CDVS) che fornisce una tecnologia robusta ed interoperabile per creare applicazioni di ricerca visuale efficienti all’interno di database di immagini. Recentemente l’interesse si sta muovendo dal dominio delle immagini statiche verso il dominio delle immagini in movimento (video). Intuitivamente, l’analisi video è più problematica in quanto introduce ridondanza temporale e spaziale, e pertanto aumentando la quantità di dati che deve essere elaborata.

Sulla base della tecnologie di ricerca visiva, è possibile definire diversi casi d’uso. Tra di essi si possono citare i seguenti:

  1. Identificazione di materiale grezzo. Dato un esempio di video da ricercare (in inglese query), siamo interessati a identificare all’interno di un database i contenuti grezzi da cui il video è stato estratto;
  2. Recupero di oggetti rigidi. Dato un video o un’immagine raffigurante un oggetto rigido (ad esempio monumenti, sculture, quadri, edifici, loghi, ecc.) siamo interessati a individuare il maggior numero di video o immagini contenenti  l’oggetto all’interno di un database;
  3. Recupero di oggetti deformabili. Dato un video o un’immagine raffigurante un oggetto deformabile (ad esempio, un volto o un costume di scena) individuare il maggior numero di video o immagini contenenti  l’oggetto all’interno di un database;

RAI CRIT sta sviluppando un sistema per l’analisi e recupero di video basandosi sulle affinità visive dei contenuti video. Il sistema è progettato per ridurre drasticamente la ridondanza insita nei contenuti video, riducendo notevolmente la complessità computazionale richiesta. L’architettura attuale utilizza la tecnologia MPEG CDVS (ISO / IEC 15938: 13 e ISO / IEC 15938: 14) come proof of concept per la ricerca visiva. L’architettura del recupero è costituita dai seguenti tre componenti principali:

  • Un primo blocco  (in inglese summariser) è preposto alla suddivisione del video analizzato in segmenti ed alla conseguente estrazione dei fotogrammi chiave (in inglese key-frame). I keyframe sono inoltre raggruppati in ordine di “importanza”, secondo un euristica che tiene in considerazione il numero di volte che un keyframe appare nel video e la lunghezza del segmento da cui il keyframe è stato estratto;
  • Un secondo blocco (in inglese selector) è preposto all’estrazione dei descrittori MPEG CDVS dai keyframe identificati.
  • Un ultimo blocco (in inglese indexer) è preposto alla memorizzazione dei descrittori in apposite strutture dati al fine di essere resi ricercabili.

Il sistema può funzionare in due modalità differenti. Nella modalità di indicizzazione i video in ingresso vengono elaborati al fine di estrarre i descrittori CDVS che saranno memorizzati e utilizzati come database di riferimento per le successive operazioni di ricerca e recupero. Nella modalità di ricerca, i descrittori CDVS vengono estratti da un video fornito ad esempio dall’utente (in inglese query)  e utilizzati per cercare i contenuti simili all’interno del database di riferimento.

Un prototipo del sistema è stato implementato e testato all’interno dei laboratori del CRIT. A tal fine è stato raccolto un dataset di riferimento contenente oltre 20 ore di materiale video raffigurante monumenti, dipinti, sculture e luoghi storici del patrimonio artistico e culturale italiano. Le ottime prestazioni ottenute in termini di velocità e precisione dei risultati di ricerca hanno dimostrato l’affidabilità e la validità del sistema. Ciò consente lo sviluppo di molteplici applicazioni pratiche, quali ad esempio l’individuazione di punti di interesse (ponti storici, edifici, monumenti) per lo sfruttamento opportunistico delle riprese e/o degli archivi.

Riferimenti

MPEG, “ISO/IEC 15938:13 – Information technology – Multimedia content description interface – Part 13: Compact descriptors for visual search,” Agosto 2015.

MPEG, “ISO/IEC 15938:14 – Information technology – Multimedia content description interface – Part 14: Reference software, conformance and usage guidelines for compact descriptors for visual search,” Ottobre 2015.