Cum ajută vederea artificială la îmbunătățirea automatizării

By Jody Muelaner

Vederea artificială reprezintă o colecție de tehnologii care oferă echipamentelor automate (industriale sau de altă natură) o înțelegere de nivel înalt a mediului din apropierea lor, pornind de la imagini. Fără un software de vedere artificială, imaginile digitale nu ar fi nimic mai mult decât simple colecții de pixeli neconectați între ei, cu valori diferite de culoare și intensități de tonuri pentru un astfel de echipament. Vederea artificială permite computerelor (de obicei conectate la comenzile utilajelor) să detecteze marginile și formele din astfel de imagini pentru a permite, la rândul lor, rutinelor de procesare de nivel superior să identifice obiecte de interes predefinite. În acest sens, imaginile nu se limitează neapărat la imagini fotografice în spectrul vizibil; ele pot include și imagini obținute cu ajutorul semnalelor infraroșii, cu laser, raze X și ultrasunete.

Imaginea utilizării vederii artificiale pentru aplicații robotice mai sofisticateFigura 1: utilizarea vederii artificiale pentru aplicații robotice mai sofisticate este în creștere. (Sursa imaginii: John6863373 | Dreamstime.com)

O aplicație destul de frecventă a vederii artificiale în mediul industrial este identificarea unei anumite piese dintr-un container care conține un amestec de piese aranjate aleatoriu (amestecate). În acest caz, vederea artificială poate ajuta roboții din sistemul pick-and-place să preia automat piesa potrivită. Desigur, recunoașterea acestor piese cu ajutorul feedback-ului imagistic ar fi relativ simplă dacă toate ar fi aranjate frumos și orientate în același mod pe o tavă. Cu toate acestea, algoritmii puternici de vedere artificială pot recunoaște obiecte aflate la distanțe diferite față de camera de luat vederi (și, prin urmare, care par să fie de dimensiuni diferite pentru senzorul de imagine), precum orientate diferit.

Cele mai sofisticate sisteme de vedere artificială au permis crearea unor modele noi și emergente mult mai sofisticate decât cele de preluare a pieselor din containere – poate nu mai ușor de recunoscut decât în cazul vehiculelor autonome, de exemplu.

Imagine cu înțelegerea la nivel înalt a mediului, pe care vederea artificială o oferă sistemelorFigura 2: vederea artificială oferă sistemelor (industriale sau de altă natură) o înțelegere de nivel înalt a mediului înconjurător, pornind de la imagini. (Sursa imaginii: Wikimedia)

Tehnologii legate de vederea artificială

Termenul de vedere artificială este uneori rezervat pentru a face referire la metode matematice mai bine stabilite și mai eficiente de extragere a informațiilor din imagini. În schimb, termenul „vedere computerizată” descrie, de obicei, sisteme mai moderne și mai solicitante din punct de vedere computațional – inclusiv abordări de tip „cutie neagră” care utilizează învățarea artificială sau inteligența artificială (AI). Cu toate acestea, vederea artificială poate servi, de asemenea, ca un termen general care cuprinde toate metodele de extragere a informațiilor de nivel înalt din imagini; în acest context, vederea computerizată descrie teoriile de funcționare care stau la baza acesteia.

Există numeroase tehnologii de extragere a semnificației de nivel înalt din imagini. În cadrul comunității de cercetare, astfel de tehnologii sunt adesea considerate ca fiind separate de vederea artificială. Cu toate acestea, din punct de vedere practic, toate sunt moduri diferite de a obține vederea artificială... și în multe cazuri, acestea se suprapun.

Prelucrarea digitală a imaginilor este o formă de prelucrare a semnalelor digitale care implică îmbunătățirea, restaurarea, codificarea și comprimarea imaginilor. Avantajele față de procesarea analogică a imaginilor includ reducerea la minimum a zgomotului și a distorsiunilor, precum și disponibilitatea unui număr mult mai mare de algoritmi. Una dintre primele utilizări ale îmbunătățirii imaginilor a fost corectarea primelor imagini ale suprafeței lunare, realizate de aproape. În acest scop s-a utilizat cartografierea fotogrammetrică, precum și filtre de zgomot și corecții pentru distorsiunile geometrice rezultate din alinierea camerei de luat vederi cu suprafața lunară.

Imagine cu controlerul de circuit integrat (CI) DLPC350 de la Texas InstrumentsFigura 3: controlerul circuitului integrat (CI) DLPC350 furnizează semnale de declanșare de intrare și de ieșire pentru sincronizarea modelelor afișate cu o cameră. Acesta funcționează cu dispozitive digitale cu micro-oglindă (DMD) concepute pentru a asigura vederea artificială 3D pentru echipamentele industriale, medicale și de securitate. De fapt, aplicațiile includ atât scanarea 3D, cât și sistemele de metrologie. (Sursa imaginii: Texas Instruments)

Îmbunătățirea digitală a imaginilor implică adesea creșterea contrastului și poate efectua, de asemenea, corecții geometrice pentru unghiul de vizualizare și distorsiunea obiectivului. Compresia se realizează în mod obișnuit prin aproximarea unui semnal complex la o combinație de funcții cosinus – un tip de transformare Fourier cunoscut sub numele de transformată cosinus discretă sau DCT. Formatul de fișier JPEG este cea mai populară aplicație a DCT. Transformările Fourier se pot utiliza și pentru restaurarea imaginilor, în scopul de a elimina zgomotul și neclaritățile.

Fotogrammetria utilizează un anumit tip de identificare a caracteristicilor pentru a extrage măsurători din imagini. Aceste măsurători pot include informații 3D atunci când s-au obținut mai multe imagini ale aceleiași scene din poziții diferite. Cele mai simple sisteme de fotogrammetrie măsoară distanța dintre două puncte dintr-o imagine cu ajutorul unei scări. În acest scop, în mod normal, este necesară includerea în imagine a unei scări de referință cunoscute.

Detectarea caracteristicilor permite computerelor să identifice marginile și colțurile sau punctele dintr-o imagine. Acesta este un prim pas necesar pentru fotogrammetrie, precum și pentru identificarea obiectelor și a mișcării. Detectarea bulelor poate identifica regiuni cu margini care sunt prea netede pentru detectarea marginilor sau a colțurilor.

Recunoașterea tiparelor se utilizează pentru a identifica obiecte specifice. În forma cea mai simplă, acest lucru poate însemna căutarea unei anumite piese mecanice bine definite de pe un transportor.

Reconstrucția 3D determină forma 3D a obiectelor pe baza imaginilor 2D. Aceasta poate fi realizată prin metode fotogrammetrice în care înălțimea elementelor comune (identificate în imagini din diferite puncte de observație) este determinată prin triangulație. Reconstrucția 3D este, de asemenea, posibilă folosind o singură imagine 2D; în acest caz, software-ul interpretează (printre altele) relațiile geometrice dintre marginile sau regiunile de umbrire.

Imaginea scanerelor 3D care captează imagini 2D ale unui obiectFigura 4: scanerele 3D captează imagini 2D ale unui obiect pentru a crea un model 3D al acestuia. În unele cazuri, modelele digitale sunt apoi folosite pentru a imprima copii 3D. (Sursa imaginii: Shenzhen Creality 3D Technology Co.)

Un om poate reconstrui mental cu ușurință un cub dintr-o simplă reprezentare grafică liniară – și o sferă dintr-un cerc umbrit. Umbrirea indică pantele suprafețelor. Cu toate acestea, procesul unei astfel de deducții este mai complicat decât pare, deoarece umbrirea este un parametru unidimensional, în timp ce panta există în două dimensiuni. Acest lucru poate duce la ambiguități – fapt demonstrat de arta care arată obiecte imposibil de realizat în plan fizic.

Imagine cu determinarea computerizată a formei 3D a unei piese de prelucrat dintr-o imagine 2DFigura 5: determinarea computerizată a formei 3D a unei piese de prelucrat dintr-o imagine 2D este plină de provocări.

Cum se comandă sarcinile care implică vederea artificială

Multe sisteme de vedere artificială combină progresiv tehnicile de mai sus, începând cu operațiuni de nivel scăzut și trecând apoi, una câte una, la operațiuni de nivel superior. La nivelul cel mai de jos, toți pixelii unei imagini sunt păstrați ca date cu lățime de bandă mare. Apoi, fiecare operațiune din secvență identifică caracteristicile imaginii și reprezintă informațiile de interes cu cantități relativ mici de date.

Operațiunile de nivel scăzut pentru îmbunătățirea și restaurarea imaginii sunt primele, urmate de detectarea caracteristicilor. În cazul în care se utilizează mai mulți senzori, operațiunile de nivel scăzut pot fi efectuate de procese distribuite dedicate senzorilor individuali. Odată ce se detectează caracteristicile din imaginile individuale, se pot efectua măsurători fotogrammetrice de nivel superior – la fel ca orice identificare de obiecte sau alte sarcini care se bazează pe datele combinate de la mai multe imagini și mai mulți senzori.

Calcule directe și algoritmi de învățare

În contextul vederii artificiale, un calcul direct este un set de funcții matematice definite manual de un programator uman. Acestea acceptă intrări, cum ar fi valorile pixelilor imaginii, pentru a produce ieșiri, precum coordonatele marginilor unui obiect. În schimb, algoritmii de învățare nu sunt scriși direct de oameni, ci sunt instruiți prin intermediul unor seturi de date-mostră care asociază intrările cu ieșirile dorite. Prin urmare, acestea funcționează ca niște cutii negre. În prezent, majoritatea acestor metode de învățare artificială utilizează învățarea profundă bazată pe rețele neuronale artificiale pentru a face calculele.

Imaginea senzorilor de imagine din seria Banner Engineering iVuFigura 6: senzorii de imagine din seria iVu pot identifica piesele de prelucrat în funcție de tip, dimensiune, locație, orientare și culoare. Componentele pentru vederea artificială pot accepta configurarea și monitorizarea pe un ecran integrat, HMI la distanță sau PC. Camera, controlerul, obiectivul și lumina sunt toate preintegrate. (Sursa imaginii: Banner Engineering Corp.)

Învățarea artificială simplă pentru aplicații industriale este adesea mai sigură și mai puțin solicitantă din punct de vedere computațional dacă se bazează pe calculul direct. Desigur, există limite la ceea ce se poate obține prin calcul direct. De exemplu, nu s-ar putea spera niciodată să execute recunoașterea avansată a tiparelor necesară pentru identificarea persoanelor după chipurile lor, în special nu dintr-o transmisiune video dintr-un spațiu public aglomerat. În schimb, învățarea automată se descurcă foarte bine cu astfel de aplicații. Nu este de mirare că învățarea automată este din ce în ce mai des utilizată pentru operațiunile de nivel inferior cu vedere artificială, inclusiv pentru îmbunătățirea, restaurarea și detectarea caracteristicilor imaginilor.

Îmbunătățirea abordărilor de învățare (nu a algoritmilor)

Maturizarea tehnologiei de învățare în profunzime a făcut evident faptul că nu algoritmii de învățare în sine au nevoie de îmbunătățiri, ci modul în care aceștia sunt instruiți. O astfel de rutină de instruire îmbunătățită se numește vedere computerizată centrată pe date. În acest caz, sistemul de învățare profundă acceptă seturi de instruire foarte mari, formate din mii, milioane sau chiar miliarde de imagini – și apoi stochează informațiile rezultate pe care algoritmii săi le extrag din fiecare imagine. Algoritmii învață în mod eficient prin exersarea exemplelor de lucru și apoi prin consultarea unei „cărți de răspunsuri” pentru a verifica dacă au ajuns la valorile corecte.

O poveste veche din primele zile ale recunoașterii digitale a tiparelor servește drept avertisment. Armata americană intenționa să utilizeze vederea artificială pentru recunoașterea țintelor, iar demonstrațiile efectuate de către contractanții din domeniul apărării au identificat în mod fiabil tancurile fabricate în SUA și în Rusia. Diferite tancuri au fost toate diferențiate corect din fotografiile aeriene ale furnizorului, unul după altul. Dar, atunci când s-a testat din nou cu propria bibliotecă de imagini a Pentagonului, sistemul a tot dat răspunsuri greșite. Problema a fost că toate imaginile furnizorului de apărare reprezentau tancuri americane în deșert și tancuri rusești pe câmpuri verzi. În loc să recunoască tancuri diferite, sistemul recunoștea în schimb fundalurile de culori diferite. Morala? Pentru a fi utili, algoritmii de învățare trebuie să primească date de instruire atent selecționate.

Concluzie: vedere pentru siguranța celulelor de lucru robotizate

Vederea artificială nu mai este o tehnologie de nișă. Cea mai mare parte a implementării se înregistrează în aplicațiile industriale. În acest caz, cea mai importantă evoluție este modul în care vederea artificială completează acum sistemele de siguranță ale instalațiilor industriale care emit alarme sau anunțuri sonore atunci când personalul fabricii intră într-o zonă de lucru fără cască de protecție, mască sau alt echipament de protecție adecvat. De asemenea, vederea artificială poate completa sistemele care anunță atunci când utilajele mobile, cum ar fi stivuitoarele, se apropie prea mult de oameni.

Aceste sisteme și alte sisteme similare de vedere artificială pot înlocui uneori sistemele de protecție fizice din jurul roboților industriali, pentru a permite operațiuni mai eficiente. De asemenea, acestea pot înlocui sau îmbunătăți sistemele de siguranță bazate pe bariere luminoase, care opresc pur și simplu utilajele dacă un lucrător al fabricii intră într-o celulă de lucru. Atunci când vederea artificială monitorizează podeaua fabricii din jurul celulei de lucru, este posibil ca roboții din astfel de celule să încetinească treptat pe măsură ce oamenii se apropie de zona lor.

Pe măsură ce designul mediilor industriale evoluează pentru a permite roboți colaborativi și alte echipamente pentru celula de lucru care sunt sigure pentru personalul fabricii (chiar și în timp ce echipamentul funcționează), acestea și alte sisteme bazate pe vederea artificială vor deveni o parte mult mai comună a proceselor din fabrică.

Disclaimer: The opinions, beliefs, and viewpoints expressed by the various authors and/or forum participants on this website do not necessarily reflect the opinions, beliefs, and viewpoints of DigiKey or official policies of DigiKey.

About this author

Image of Dr. Jody Muelaner

Jody Muelaner

Dr. Jody Muelaner is an engineer who has designed sawmills and medical devices; addressed uncertainty in aerospace manufacturing systems; and created innovative laser instruments. He has published in numerous peer-reviewed journals and government summaries … and has written technical reports for Rolls-Royce, SAE International, and Airbus. He currently leads a project to develop a e-bike detailed at betterbicycles.org. Muelaner also covers developments related to decarbonization technologies.