Il corso intende dotare lo studente di strumenti teorici e pratici
per l'analisi computazionale di immagini singole e sequenze video.
Tali conoscenze sono finalizzate allo sviluppo di moderni sistemi di computer vision
2D e 3D, con applicazioni nei più svariati campi, quali
la robotica autonoma e la guida automatica, la fruizione e preservazione dei beni culturali,
gli ausili per disabili, l'automazione industriale, l'interazione avanzata uomo-macchina basata su movimenti e gesti,
la grafica 2D/3D interattiva ed adattativa, l'informatica forense.
1. LA VISIONE NELL'UOMO E NELLA MACCHINA: ASPETTI COMPUTAZIONALI
2. FORMAZIONE DELL'IMMAGINE
3. VISIONE MONOCULARE: VISTE DI SINGOLI PIANI
4. REGISTRAZIONE DI IMMAGINI
5. TELECAMERE: MODELLI E CALIBRAZIONE
6. Ricostruzione 3D densa da sequenze video.
7. ALGORITMI DI STEREOPSI
8. RICOSTRUZIONE 3D DA VISTE SINGOLE E MULTIPLE
9. APPLICAZIONI: Beni culturali, Realta' aumentata, INTERAZIONE UOMO-MACCHINA,
ROBOTICA avanzata, MULTIMEDIA, Informatica forense, etc.
Prerequisiti
Conoscenze di base sulla rappresentazione ed elaborazione
delle immagini. Nozioni di algebra e di geometria.
Metodi Didattici
Lezioni in aula con lavagna e videoproiettore. Sperimentazioni in aula con computer
portatili e rete wireless.
Modalità di verifica apprendimento
Esame orale per tutti gli studenti (6 e 9 CFU). Il colloquio prende avvio dalla teoria di uno degli argomenti in programma, che si chiede di illustrare in dettaglio. Seguono domande di ordine pratico-realizzativo, ed esercizi volti a verificare la comprensione della teoria come strumento per risolvere problemi reali.
Elaborato o ricerca bibliografica (solo studenti 9 CFU). L'elaborato verte sulla scrittura di un programma (in MATLAB, C++ o Python) per la soluzione di un semplice problema attraverso le tecniche studiate nel corso o altre tecniche che il candidato desideri approfondire. Al programma deve essere allegata una relazione che descriva i dettagli matematici e di implementazione degli algoritmi impiegati. La ricerca bibliografica (anch'essa proponibile dallo stesso studente) consiste in una review di una particolare tecnica di visione (es. algoritmi per il calcolo della disparita' stereo) alla luce della letteratura recente, ovvero nell'approfondimento di un ambito applicativo della visione (es. algoritmi di visione per l'industria cinematografica).
Programma del corso
1. LA VISIONE NELL'UOMO E NELLA MACCHINA: ASPETTI COMPUTAZIONALI
Introduzione al corso. Ambiguita' in visione. Illusioni visive. Il ruolo della semantica nella percezione. Indizi 3D in un'immagine.
2. FORMAZIONE DELL'IMMAGINE
L'immagine come sintesi di luce, materiale e geometria da
parte di un osservatore. Tipi di superfici. BRDF.
Albedo. Componenti diffusa e speculare. Dispositivi
di acquisizione delle immagini. Ottiche.
3. VISIONE MONOCULARE: VISTE DI SINGOLI PIANI. Omografie e loro anatomia. Rettificazione di immagini basata sui punti circolari.
4. REGISTRAZIONE DI IMMAGINI
Stima robista di omografie: RANSAC etc. Mosaici. Mosaicing in presenza di parallasse. Image-based
rendering. Tecniche super-risoluzione.
5. TELECAMERE: MODELLI E CALIBRAZIONE
Camera a foro stenopeico, natural camera, affine camera.
Distorsione radiale. Calibrazione fotogrammetrica.
Autocalibrazione.
6. ANALISI DI SEQUENZE VIDEO
Optical flow vs motion field. Structure from motion (caso
continuo). Tempo all'impatto. SLAM (simultaneous localization and mapping).
7. ALGORITMI DI STEREOPSI
Geometria di due viste. Matrice fondamentale ed essenziale. Parallasse.
Rettificazione di una coppia stereo. Ricostruzione proiettiva e metrica.
Disparità. Algoritmi per
lo stereo denso.
8. RICOSTRUZIONE DA VISTE SINGOLE E MULTIPLE
Pipeline di ricostruzione da viste multiple. Bundle adjustment. Ricostruzione da viste singole:
vincoli sulla scena (piani, superfici di rivoluzione, etc.).
Metrologia da una vista singola.
9. APPLICAZIONI: Interfacce naturali uomo-macchina, Esterocepsi per robot, Post-produzione video, videoproiettori intelligenti, fotografia computazionale, televisione 3D, informatica forense, etc.
Libri di testo consigliati
1. Hartley and Zisserman, MULTIPLE VIEW GEOMETRY IN COMPUTER VISION.
Cambridge University Press, 2003 (2nd edition).
2. Visione Computazionale - Tecniche di ricostruzione tridimensionale. Franco Angeli 2013.
Su diversi argomenti saranno messi a disposizione
degli studenti sia appunti di lezione che articoli in lingua inglese tratti dalla
letteratura recente.
Altre Informazioni
Sito web del corso: www.dsi.unifi.it/colombo/viscomp.html.