Quali sono i principi della visione artificiale 3D? I principi della visione artificiale 3D? - Blog

La visione 3D è un campo multidisciplinare che coinvolge la computer grafica, la visione artificiale e l'intelligenza artificiale. Ha lo scopo di consentire alle macchine di comprendere ed elaborare le informazioni nello spazio tridimensionale, ottenendo la percezione della profondità, il riconoscimento e la comprensione di oggetti e scene.

Compiti principali

Ricostruzione 3D

Stima della profondità di scene 3D o campionamento digitale delle superfici di oggetti, nonché elaborazione e visualizzazione di dati 3D; ricostruzione monoculare, ricostruzione binoculare, ricostruzione basata sulla luce strutturata-, ricostruzione basata sul laser-; ricostruzione 3D su larga-scala, ricostruzione 3D mobile.

Stima della posa

Calcolo della posizione e dell'orientamento di telecamere o oggetti nello spazio fisico tridimensionale e monitoraggio in tempo reale-.

Comprensione 3D

Rilevamento, riconoscimento e recupero di oggetti, nonché segmentazione ed etichettatura semantica di scene o oggetti.

Principi di funzionamento

L'imaging visivo 3D è uno dei metodi più importanti per la percezione delle informazioni nei robot industriali e può essere suddiviso in metodi di imaging ottico e non-ottico. Attualmente, i metodi ottici sono i più utilizzati.

Metodo del tempo-del-volo (TOF).

Questo metodo calcola la distanza di un oggetto misurando la differenza di tempo tra l'emissione e la ricezione della luce. Prendendo come esempio una fotocamera TOF, ogni pixel utilizza la differenza temporale del volo della luce per ottenere la profondità dell'oggetto. Nei metodi di misurazione classici, il sistema di rilevamento inizia a cronometrare quando emette un impulso luminoso, memorizza il tempo di andata e ritorno-quando riceve l'eco della luce del target e stima la distanza del target in base a una formula.

Si divide in TOF diretto (DTOF) e TOF indiretto (I-TOF). DTOF viene solitamente utilizzato in sistemi a-punto singolo e ottenere immagini 3D a livello di area-spesso richiede una tecnologia di scansione; I-TOF estrapola indirettamente il tempo del viaggio di andata e ritorno dalle misurazioni- dell'intensità della luce, eliminando la necessità di tempistiche precise, ed è attualmente una soluzione commercializzata per mixer elettronici e ottici basati su telecamere TOF. L'imaging TOF può essere utilizzato per l'acquisizione di immagini 3D ad ampio campo visivo, a lunga-distanza, a bassa-precisione e a basso-costo e viene utilizzato per la percezione ambientale in sistemi intelligenti senza pilota (come robot, veicoli senza pilota, droni, ecc.).

Imaging 3D con proiezione di luce strutturata

L'imaging 3D con proiezione di luce strutturata è attualmente il metodo principale per la percezione della visione 3D nei robot. Un proiettore proietta uno specifico schema di illuminazione a luce strutturata sull'oggetto target, come strisce o modelli di codice Gray, e una fotocamera cattura l'immagine modulata dal target. A causa delle ondulazioni della superficie dell'oggetto, il modello di luce strutturata viene deformato sulla superficie dell'oggetto. Elaborando le immagini e utilizzando modelli visivi per confrontare i modelli prima e dopo la deformazione e analizzando la distorsione del modello, è possibile calcolare le informazioni sulle coordinate tridimensionali di ciascun punto sulla superficie dell'oggetto target.

Nelle applicazioni dei sistemi mano-oculari robotici, per scenari in cui non è richiesta un'elevata precisione di misurazione 3D (come la pallettizzazione, la depallettizzazione e la presa 3D), il metodo di proiezione di modelli di macchie pseudo-casuali per ottenere informazioni 3D sul target è piuttosto diffuso. Questo metodo è comunemente utilizzato nell'ispezione industriale e nella modellazione 3D e può ottenere rapidamente dati 3D della superficie dell'oggetto. Un sistema di imaging a luce strutturata è costituito da diversi proiettori e telecamere. Le forme strutturali comuni includono: proiettore singolo-fotocamera singola, proiettore singolo-doppia fotocamera, proiettore singolo-fotocamere multiple, fotocamera singola-proiettori doppi e fotocamera singola-proiettori multipli.

Il principio di funzionamento di base dell'imaging 3D con proiezione di luce strutturata è il seguente: il proiettore proietta uno specifico modello di illuminazione di luce strutturata sull'oggetto target, la fotocamera cattura l'immagine modulata dal target e quindi le informazioni 3D dell'oggetto target vengono ottenute attraverso l'elaborazione delle immagini e modelli visivi. I tipi comuni di proiettori includono: display a cristalli liquidi (LCD), proiezione digitale con modulazione della luce (DLP: come dispositivi a microspecchio digitale (DMD)) e proiezione diretta con pattern LED laser.

In base al numero di proiezioni di luce strutturata, l'imaging 3D con proiezione di luce strutturata può essere suddiviso in metodi 3D a scatto singolo e 3D a scatto multiplo. La luce strutturata a scatto singolo- utilizza principalmente la codifica del multiplexing spaziale e la codifica del multiplexing di frequenza. Le forme di codifica comuni includono: codifica del colore, indicizzazione in scala di grigi, codifica della forma geometrica e motivi maculati casuali. Attualmente, nelle applicazioni dei sistemi mano-oculari robotici, per scenari in cui non è richiesta un'elevata precisione di misurazione 3D, come la pallettizzazione, la depallettizzazione e la presa 3D, è ampiamente utilizzato il metodo di proiezione di modelli maculati pseudo-casuali per ottenere informazioni 3D sul target.

I metodi 3D a ripresa multipla-utilizzano principalmente la codifica-multiplexing temporale. Le forme comuni di codifica dei modelli includono: codifica binaria, codifica multi-spostamento di fase-frequenza e metodi di codifica ibridi (come il codice Gray e le frange di sfasamento-di fase). Il principio di base dell'imaging 3D a luce strutturata è mostrato nella figura seguente. Un modello di luce strutturato viene generato utilizzando un computer o uno speciale dispositivo ottico e quindi proiettato sulla superficie dell'oggetto in prova utilizzando un sistema di proiezione ottica. Un dispositivo di acquisizione dell'immagine (come una fotocamera CCD o CMOS) viene utilizzato per catturare l'immagine a luce strutturata modulata e deformata dalla superficie dell'oggetto. Gli algoritmi di elaborazione delle immagini vengono quindi utilizzati per calcolare la corrispondenza tra ciascun pixel dell'immagine e i punti sul contorno dell'oggetto. Infine, le informazioni sul contorno tridimensionale dell'oggetto vengono calcolate utilizzando il modello della struttura del sistema e la relativa tecnologia di calibrazione. Nelle applicazioni pratiche, vengono comunemente utilizzate la proiezione del codice Gray, la proiezione della frangia a sfasamento sinusoidale-o un codice Gray ibrido e la tecnologia 3D a sfasamento sinusoidale-.

Per le superfici ruvide, la luce strutturata può essere proiettata direttamente sulla superficie dell'oggetto per la misurazione dell'immagine visiva; tuttavia, per la misurazione 3D di superfici lisce altamente riflettenti e oggetti specchiati, la proiezione di luce strutturata non può essere proiettata direttamente sulla superficie sottoposta a test e la misurazione 3D richiede l'uso di tecniche di riflessione speculare.

In questo schema, le frange non vengono proiettate direttamente sul contorno dell'oggetto in prova, ma piuttosto su uno schermo di diffusione, oppure viene utilizzato uno schermo LCD (display a cristalli liquidi) per visualizzare direttamente le frange. La fotocamera acquisisce le informazioni sulla frangia modulate dai cambiamenti di curvatura della superficie luminosa attraverso il percorso della luce riflessa, quindi calcola la morfologia tridimensionale del contorno.

Scansione di immagini 3D

I metodi di scansione dell'imaging 3D possono essere suddivisi in metodi di scansione, triangolazione attiva e metodi confocali cromatici. La portata di scansione utilizza un raggio di luce collimato per scansionare l'intera superficie del bersaglio per la misurazione 3D. I metodi tipici di scansione della portata includono: metodi di volo a-punto singolo-di-volo, come la modulazione di frequenza a onda continua (FM-CW) e la portata a impulsi (LiDAR); interferometria a diffusione laser, come interferometri basati su interferenze multi-lunghezze d'onda, interferenze olografiche, interferenze di luce bianca e principi di interferenza maculata; e metodi confocali, come il confocale cromatico e la messa a fuoco automatica.

Nei metodi di scansione 3D a-punto singolo, il metodo del-tempo a punto singolo-di-volo è adatto per la scansione a lunga-distanza, ma la precisione della misurazione è relativamente bassa, generalmente nell'ordine del millimetro. Altri metodi di scansione a-punto singolo includono l'interferometria laser a-punto singolo, la microscopia confocale e la triangolazione laser attiva a-punto singolo. Questi metodi offrono un'elevata precisione di misurazione, ma il primo richiede un ambiente controllato. La scansione in linea offre una precisione moderata e un'efficienza elevata. La triangolazione laser attiva e la microscopia confocale cromatica sono particolarmente adatte per la misurazione 3D sull'effettore finale di un braccio robotico. La triangolazione attiva si basa sul principio della triangolazione, utilizzando un raggio collimato o uno o più raggi planari per scansionare la superficie target per la misurazione 3D.

Il fascio di luce viene solitamente ottenuto nei seguenti modi: collimazione laser, espansione del fascio prismatico su superficie cilindrica o quadrica, luce non-coerente (come luce bianca, sorgente luminosa a LED) proiettata attraverso piccoli fori, fessure (reticoli) o diffrazione della luce coerente. La triangolazione attiva può essere divisa in tre tipi: scansione a-punto singolo, scansione a-linea singola e scansione a linea-multipla. Attualmente, la maggior parte dei prodotti disponibili in commercio per gli effettori finali dei bracci robotici sono scanner a-punto singolo e a linea-singola.

Nei metodi di scansione multi-linea, l'identificazione affidabile dei numeri marginali rappresenta una sfida. Per identificare con precisione i numeri delle frange, due serie di piani di luce perpendicolari vengono solitamente ripresi ad alta velocità in alternanza. Ciò consente anche la scansione "Flying Triangulation", il cui processo di scansione e ricostruzione 3D è mostrato nella figura seguente. La proiezione multi-linea e l'imaging a flash singolo- producono una vista 3D sparsa. Diverse sequenze di viste 3D vengono generate tramite la scansione della proiezione di frange longitudinali e trasversali, quindi viene generato un modello di superficie 3D completo, denso e ad alta risoluzione tramite la registrazione delle immagini 3D.

La microscopia confocale cromatica sembra in grado di scansionare e misurare oggetti ruvidi e lisci, opachi e trasparenti, come superfici riflettenti e superfici di vetro trasparenti, ed è attualmente ampiamente utilizzata in campi come l'ispezione 3D delle cover dei telefoni cellulari. La scansione confocale cromatica ha tre tipi: scansione di misurazione della distanza assoluta a-punto singolo-dimensionale, scansione di array di punti multipli-e scansione a linea continua. La figura seguente mostra esempi di misurazione della distanza assoluta e scansione in linea continua. Anche la scansione in linea continua è un tipo di scansione in serie, ma con una serie di punti più ampia e densa.

Imaging 3D con visione stereo

La visione stereo si riferisce generalmente alla ricostruzione della struttura 3D o delle informazioni sulla profondità di un oggetto target acquisendo due o più immagini da diversi punti di vista. I segnali visivi della percezione della profondità possono essere suddivisi in segnali oculari e segnali binoculari (disparità binoculare). Attualmente, la visione stereo 3D può essere ottenuta attraverso la visione monoculare, la visione binoculare, la visione multi-vista e l'imaging 3D del campo luminoso (occhio composto elettronico o fotocamera a matrice). I segnali di percezione della profondità della visione monoculare di solito includono: prospettiva, differenze di lunghezza focale, immagini multi-vista, occlusione, ombre, parallasse del movimento, ecc.

Nella visione robotica, ciò può essere ottenuto anche utilizzando l'imaging speculare e altri metodi di forma-da-X. I segnali visivi della percezione della profondità della visione binoculare includono: posizione di convergenza degli occhi e disparità binoculare. Nella visione artificiale, due telecamere vengono utilizzate per acquisire due immagini del punto di vista della stessa scena target da due punti di vista, quindi viene calcolata la disparità dei punti corrispondenti nelle due immagini del punto di vista per ottenere le informazioni sulla profondità 3D della scena target. Un tipico processo di calcolo della visione stereoscopica binoculare comprende i seguenti quattro passaggi: correzione della distorsione dell'immagine, rettifica della coppia di immagini stereo, registrazione dell'immagine e calcolo della mappa di disparità di riproiezione della triangolazione.

L'imaging visivo multi-vista, o l'imaging stereo multi-vista, utilizza una o più fotocamere per acquisire più immagini della stessa scena target da più punti di vista per ricostruire le informazioni tridimensionali-della scena target.

L'imaging stereo multi{0}}vista viene utilizzato principalmente nei seguenti scenari: utilizzo di più fotocamere da diversi punti di vista per acquisire più immagini della stessa scena target, quindi utilizzo della ricostruzione stereo basata su funzionalità-e altri algoritmi per ottenere informazioni sulla profondità della scena e sulla struttura spaziale; utilizzando la tecnica della struttura-from-motion (SFM), utilizzando la stessa telecamera con i suoi parametri intrinseci invariati, per acquisire più immagini da diversi punti di vista per ricostruire le informazioni tridimensionali-della scena target. Questa tecnologia viene comunemente utilizzata per tracciare un gran numero di punti di controllo in una scena target, recuperando continuamente le informazioni strutturali 3D della scena, nonché la posa e la posizione della telecamera. L'imaging in campo chiaro differisce dai tradizionali principi di imaging delle fotocamere. Le fotocamere tradizionali formano un'immagine 2D direttamente sul piano di imaging dopo che la luce passa attraverso l'obiettivo.

Le telecamere a campo luminoso aggiungono una serie di microlenti davanti al piano del sensore. La luce incidente attraverso la lente principale passa nuovamente attraverso ciascuna microlente e viene ricevuta dalla schiera fotosensibile, ottenendo così informazioni sulla direzione e posizione dei raggi luminosi. Ciò consente di elaborare successivamente i risultati dell'immagine, ottenendo un effetto "prima scatta, poi metti a fuoco" e consentendo il recupero della struttura tridimensionale della scena utilizzando queste informazioni. In campi come la realtà virtuale e la realtà aumentata, la tecnologia di imaging del campo luminoso aiuta a fornire un'esperienza visiva più realistica e consente una percezione tridimensionale e un'interazione con la scena più accurate.

Il principio dell'imaging 3D in campo luminoso differisce strutturalmente dai principi dell'imaging delle tradizionali fotocamere CCD e CMOS. Le fotocamere tradizionali riproducono la luce direttamente sul piano di imaging dopo aver attraversato l'obiettivo, producendo generalmente un'immagine 2D. Le telecamere a campo luminoso aggiungono una serie di microlenti davanti al piano del sensore, facendo sì che la luce incidente attraverso la lente principale passi nuovamente attraverso ciascuna microlente e venga ricevuta dalla serie fotosensibile, ottenendo così informazioni sulla direzione e posizione dei raggi luminosi. Ciò consente la post-elaborazione dei risultati dell'immagine, ottenendo un effetto "prima scatta, poi metti a fuoco".