
Dal laboratorio VANDAL, la ricerca che rende l’AI più leggera e sostenibile

Dietro ogni applicazione di intelligenza artificiale operano modelli di deep learning sempre più sofisticati, ma anche sempre più onerosi in termini di risorse computazionali. Il laboratorio VANDAL ha sviluppato un approccio innovativo per renderli più efficienti e sostenibili, ottenendo lo IAPR Best Paper Award alla ICIAP 2025.
Il team composto dalla professoressa Tatiana Tommasi, dal dottorando Leonardo Iurada e dalla neolaureata magistrale Beatrice Occhiena del Dipartimento di Automatica e Informatica-DAUIN, ha ricevuto lo IAPR Best Paper Award in occasione della International Conference on Image Analysis and Processing (ICIAP 2025), svoltasi a Roma dal 15 al 19 settembre 2025.
ICIAP rappresenta la 23ª edizione della principale conferenza italiana nel settore della visione artificiale, del riconoscimento di pattern e dell’elaborazione delle immagini, organizzata dal CVPL, l’Associazione Italiana per la Ricerca in Computer Vision, Pattern Recognition e Machine Learning, affiliata all’International Association for Pattern Recognition (IAPR). La conferenza riunisce ogni due anni la comunità scientifica di tutto il mondo per discutere le tendenze più recenti e le sfide emergenti nei campi della visione artificiale e dell’intelligenza artificiale applicata.
Il riconoscimento è stato conferito per l’articolo “A Second-Order Perspective on Pruning at Initialization and Knowledge Transfer”, che affronta il tema della sostenibilità dei modelli di deep learning nel campo della computer vision. Uno studio che dimostra come sia possibile rendere più efficienti i modelli visivi pre-addestrati comprimendoli già nella fase iniziale, prima del loro riuso, e al contempo conservare (e talvolta persino migliorare) la loro capacità di trasferire conoscenza verso nuovi compiti, senza dover conoscere in anticipo la natura di tali compiti.
I modelli visivi pre-addestrati rappresentano oggi il motore silenzioso di un’ampia gamma di applicazioni di intelligenza artificiale: dall’ispezione industriale alla diagnostica medica, dal retail alla sicurezza. Il loro funzionamento si basa su un processo in due fasi: inizialmente apprendono dal “mondo”, ossia da milioni di immagini, e successivamente trasferiscono ciò che hanno appreso su compiti specifici con poco o nessun ulteriore fine-tuning (cioè la fase di riaddestramento mirato necessaria per adattare un modello pre-addestrato a un compito specifico).
Il problema? Questi modelli risultano estremamente pesanti a causa delle loro dimensioni: richiedono molta memoria, energia e tempo di calcolo, rendendo difficile la loro diffusione su larga scala e l’uso su dispositivi con bassa capacità di calcolo. In generale, i modelli di deep learning sono realizzati tramite reti neurali che salvano nelle loro migliaia di connessioni una rappresentazione implicita di ciò che hanno appreso. Fin dagli anni ‘90 si è studiato se tutte queste connessioni siano realmente necessarie per garantire le prestazioni del modello (e si è scoperto che non lo sono), individuando così criteri ottimali per la loro rimozione. Questo processo di rimozione, detto “pruning” permette di aumentare l’efficienza computazionale senza sacrificare le prestazioni. Tuttavia, tale compressione sembrerebbe richiedere la conoscenza del task finale cui il modello sarà destinato.
Questo, però, comporta una limitazione concreta: se il modello è troppo grande, gli utenti finali devono disporre di hardware più potente per eseguire localmente il fine-tuning, con costi elevati o possibili implicazioni legate alla privacy nel caso decidessero di delegare tale compito a terzi (ad esempio, nel caso i dati dell’applicazione finale siano sensibili). Inoltre, in scenari di apprendimento federato o applicazioni on-the-edge, dove i dispositivi si adattano dinamicamente e possono operare senza connettività costante, non è sempre possibile sincronizzarsi con un server centrale.
Da qui nasce la domanda di ricerca: è possibile comprimere questi modelli senza conoscere a priori il compito di destinazione, mantenendo intatta la loro capacità di generalizzare?

Il lavoro del team esplora in profondità come i dati utilizzati influenzino il processo di pruning dei modelli visivi pre-addestrati, portando a risultati sorprendenti: il pruning effettuato su un determinato compito consente al modello di conservare le sue capacità zero-shot, ovvero l’abilità di affrontare compiti mai visti prima, anche se non è stato compresso su esempi di tali compiti. Inoltre, il successivo fine-tuning dei modelli compressi non solo recupera le prestazioni iniziali sui compiti originali, ma produce benefici anche su quelli esclusi dalle fasi di compressione e riaddestramento.
Lo studio offre dunque un contributo teorico e applicativo di rilievo nel campo del transfer learning, dimostrando che i modelli compressi possono mantenere (e persino migliorare) la loro capacità di trasferire conoscenza tra compiti diversi. L’impatto pratico è immediato: costi più bassi, maggiore accessibilità e sostenibilità. Modelli più piccoli implicano meno GPU/CPU, minore latenza e consumi energetici ridotti, aprendo la strada a un’adozione più ampia e sostenibile in aziende, pubbliche amministrazioni e startup.
Il team, fa parte del gruppo di ricerca Visual and Multimodal Applied Learning Lab (VANDAL) all’interno della ELLIS Unit di Torino, che si dedica allo sviluppo di modelli di machine learning innovativi, robusti ed efficienti, capaci di elaborare e integrare segnali visivi e multimodali. Attraverso la formalizzazione dell’intelligenza percettiva in algoritmi e framework avanzati, il laboratorio mira a dotare gli agenti artificiali della capacità di comprendere e interpretare il mondo che li circonda, favorendo interazioni naturali e adattive con l’ambiente.
“Siamo onorati del riconoscimento ricevuto. – dichiarano la professoressa Tommasi, il dottorando Iurada e la neolaureata Occhiena – Questa pubblicazione si colloca all’interno di una linea di ricerca di rilievo del nostro laboratorio, volta allo studio di tecniche per incrementare l’affidabilità e l’efficienza dei modelli di intelligenza artificiale, in linea con gli indirizzi strategici della comunità europea. L’obiettivo è sviluppare approcci che coniughino efficacia empirica e solide garanzie teoriche di funzionamento, anche in scenari complessi e con risorse limitate. Questa pubblicazione è stata realizzata con il supporto dei progetti PNRR-NGEU finanziato dal MUR tramite il DM 351/2022, PNRR FAIR (Future Artificial Intelligence Research) ed ELSA (European Lighthouse on Secure and Safe AI). Ringraziamo inoltre il CINECA per la disponibilità di risorse di calcolo ad altra prestazione sul super-computer LEONARDO, in base al grant ISCRA”.