Popa - Prelucrarea numerica a imaginilor (2006).pdf
August 30, 2017 | Author: Mariana Rusu | Category: N/A
Short Description
Download Popa - Prelucrarea numerica a imaginilor (2006).pdf...
Description
Mircea Virgil Popa Romana Oancea
Ştefan Demeter Alina Hangan
Prelucrarea numerică a imaginilor Aplicatii ale reţelelor neuronale în prelucrarea imaginilor
1
Cuprins I. 1.
PRELUCRAREA NUMERICĂ A IMAGINILOR ................................................................ 5 Imagini digitale ....................................................................................................................... 6 1.1 Reprezentarea imaginilor digitale ......................................................................................... 6 1.2 Imaginea digitală – semnal bidimensional............................................................................ 8 2. Achiziţia şi conversia analog – numerică a imaginilor ......................................................... 11 2.1 Achiziţia imaginilor ............................................................................................................ 11 2.2 Conversia analog – numerică a imaginilor ......................................................................... 12 3. Memorarea şi compresia imaginilor ..................................................................................... 14 3.1 Stocarea imaginilor ............................................................................................................. 14 3.1.1 Stocarea imaginilor în memorie................................................................................... 14 3.1.2 Stocarea imaginilor în fişiere ....................................................................................... 15 3.2 Compresia imaginilor.......................................................................................................... 17 4. Restaurarea imaginilor .......................................................................................................... 18 4.1 Modele ale imaginii observate ............................................................................................ 19 4.2.Estimarea degradării ........................................................................................................... 20 4.3. Restaurarea adaptivă a imaginilor...................................................................................... 21 4.4. Restaurarea imaginilor pe baza funcţiei de vizibilitate a zgomotului................................ 22 4.5. Metode de reducere a zgomotului...................................................................................... 23 4.5.1. Modele de zgomot....................................................................................................... 23 4.5.2. Tipuri de filtre utilizate pentru reducerea zgomotului ................................................ 25 1. Filtre de mediere aritmetică .............................................................................................. 25 2.Filtre de ordine ................................................................................................................... 26 3.Filtrul binar ........................................................................................................................ 29 4. Alte tipuri de filtre............................................................................................................. 29 4.5.3 Concluzii privind utilizarea diferitelor tipuri de filtre ................................................. 31 5. Operaţii de îmbunătăţire a imaginilor în domeniul spaţial ................................................... 31 5.1.Operaţii punctuale ............................................................................................................... 33 5.1.1. Modificarea de contrast............................................................................................... 33 5.1.2. Limitarea şi binarizarea imaginilor ............................................................................. 34 5.1.3. Inversarea (negativarea ) imaginilor ........................................................................... 35 5.2. Operaţii de tip fereastră...................................................................................................... 35 5.2.1. Extragerea unui bit ...................................................................................................... 36 5.2.2. Compresia de contrast................................................................................................. 36 5.2.3. Scăderea imaginilor .................................................................................................... 36 5.2.4 Modelarea imaginilor prin histograme......................................................................... 36 5.3. Operaţii spaţiale ................................................................................................................. 39 5.3.1. Filtrarea spaţială.......................................................................................................... 39 5.3.2. Inversarea de contrast şi scalare statistică................................................................... 45 5.3.3. Mărimea şi interpolarea imaginilor (zooming) ........................................................... 45 5.4 Pseudocolorarea imaginilor................................................................................................. 46 5.5 Îmbunătăţirea imaginilor color............................................................................................ 48 6. Operaţii de îmbunătăţire a imaginilor în domeniul transformat ........................................... 50 6.1. Principalele transformări folosite în prelucrarea de imagini.............................................. 50 6.1.1. Transformarea Fourier ................................................................................................ 51 6.1.2. Transformarea Cosinus ............................................................................................... 52 6.1.3. Transformarea Sinus ................................................................................................... 53 6.1.4. Transformarea Hartley ................................................................................................ 53 6.1.5. Transformarea Hadamard ........................................................................................... 53 6.1.6. Transformarea Walsh.................................................................................................. 54 2
6.1.7. Transformarea Slant .................................................................................................... 54 6.1.8. Transformarea Haar..................................................................................................... 55 6.1.9. Transformarea Karhunen-Love ................................................................................... 55 6.1.10. Transformarea wavelet.............................................................................................. 56 6.2. Filtrare în domeniul frecvenţă ............................................................................................ 57 6.2.1.Filtrul trece jos ............................................................................................................. 57 6.2.2. Filtrul trece sus ............................................................................................................ 60 6.2.3. Filtrul homomorfic ...................................................................................................... 61 6.2.4. Operaţii de transformare.............................................................................................. 63 7. Segmentarea imaginilor......................................................................................................... 65 7.1. Segmentarea orientată pe regiuni ....................................................................................... 65 7.1.1. Segmentarea bazată pe histogramă ............................................................................. 65 7.1.2. Tehnici de fixare a pragului (thresholding)................................................................. 66 7.1.3. Determinarea automată a pragurilor: metoda Bhattacharya........................................67 7.1.4. Segmentarea cu prag optim ......................................................................................... 68 7.1.5. Creşterea şi fuziunea regiunilor................................................................................... 69 7.2. Segmentarea orientată pe contururi.................................................................................... 71 7.2.1. Metode derivative........................................................................................................ 71 7.2.2. Metoda filtrelor trece-sus ............................................................................................ 74 7.2.3. Extragerea conturului din imagini binarizate ..............................................................74 8. Analiza de imagine................................................................................................................ 75 8.1 Măsurarea imaginilor .......................................................................................................... 75 8.1.1 Măsurarea strălucirii..................................................................................................... 75 8.1.2 Determinarea locaţiei ................................................................................................... 76 8.1.3 Orientarea ..................................................................................................................... 78 8.2 Extragerea caracteristicilor imaginilor ................................................................................80 8.2.1 Caracteristici de formă ................................................................................................. 80 8.2.2 Caracteristici de tip transformare ................................................................................. 88 8.2.2.1 Transformata Fourier – procesarea în domeniul frecvenţelor................................... 89 8.2.2.2 Descriptorii Fourier (DF) .......................................................................................... 90 8.3 Identificarea trăsăturilor ...................................................................................................... 92 8.4 Extragerea trăsăturilor .........................................................................................................94 8.4.1 Organizarea şi vizualizarea trăsăturilor........................................................................ 94 8.4.2 Selecţia trăsăturilor....................................................................................................... 94 8.4.3 Clasificarea................................................................................................................... 94 8.5 Recunoaşterea formelor....................................................................................................... 95 8.5.1 Metode de recunoaştere cu decizie teoretică............................................................... 95 8.5.2 Recunoaşterea obiectelor folosind „shape-from-shading”........................................... 97 8.5.3 Aplicaţii ale folosirii culorilor în recunoaşterea formelor............................................ 98 2.5.3.1 Potrivirea culorilor .................................................................................................... 98 8.5.3.2 Localizarea culorilor ................................................................................................. 99 8.5.3.3 Potrivirea culorilor după şablon .............................................................................. 100 9. Concluzii ............................................................................................................................. 101 10. Bibliografie...................................................................................................................... 102 II. UTILIZAREA REŢELELOR NEURONALE ÎN PRELUCRAREA IMAGINILOR ....... 104 1. Introducere .......................................................................................................................... 105 1.1 Inteligenţa artificială ................................................................................................... 105 1.2 Specificul calculului neuronal..................................................................................... 105 1.3 Structura unei reţele neuronale.................................................................................... 106 2. Reţele neuronale supervizate utilizate pentru refacerea imaginilor degradate.................... 109 2.1 Distorsiunile imaginilor............................................................................................... 109 2.2 Perceptronul multistrat ................................................................................................ 109 3
2.3 Algoritmul backpropagation ....................................................................................... 110 2.4 Metode de accelerare a vitezei de convergenţă........................................................... 112 2. 4.1. Metoda momentului ................................................................................................. 112 2.4.2. Rata de învăţare variabilă.......................................................................................... 113 2.4.3. Evitarea minimelor locale ......................................................................................... 113 2.4.4. Ruperea simetriei şi iniţializarea ponderilor ............................................................. 114 2.5 Reţele neuronale artificiale recurente. Reţele Hopfield .............................................. 115 2.6 Reţele cu funcţii de transfer radiale ............................................................................ 116 2.6.1. Funcţii radiale şi problema interpolării..................................................................... 116 2.6.2. Arhitectura reţelelor RBF.......................................................................................... 116 2.6.3. Instruirea reţelelor neuronale radiale ........................................................................ 117 2.6.4. Determinarea separată a parametrilor ....................................................................... 118 3. Reţele neuronale nesupervizate utilizate pentru refacerea imaginilor degradate................ 121 4. Aplicaţii ale reţelelor neuronale.......................................................................................... 127 4.1 Aplicaţii ale reţelelor feedforward pentru eliminarea zgomotelor.............................. 127 4.2 Aplicaţii ale reţelelor neuronale Elman pentru eliminarea zgomotelor ...................... 143 4.3 Aplicaţii ale reţelelor neuronale Hopfield pentru eliminarea zgomotelor .................. 156 4.4 Aplicaţii ale reţelelor RBF pentru eliminarea zgomotelor.......................................... 157 5. Concluzii ............................................................................................................................. 159 6. Bibliografie ......................................................................................................................... 160
4
I.
PRELUCRAREA NUMERICĂ A IMAGINILOR
5
1.
Imagini digitale
De obicei, cuvântul „imagine” se referă la reproducerea sau reprezentarea realităţii înconjurătoare. O importanţă deosebită o are mecanismul fizic prin intermediul căruia se realizează reproducerea sau reprezentarea. Prin „imagine” se poate înţelege şi reprezentarea plastică (desen, schiţă, schemă, fotografie) a lumii înconjurătoare, dar din punctul de vedere al televiziunii, imaginea reprezintă distribuţia valorilor unei anumite mărimi, care să redea cu o anumită fidelitate caracteristicile spaţiale şi de radiaţie ale obiectelor.
1.1 Reprezentarea imaginilor digitale La început, imaginile sunt semnale, dar nu funcţii temporale, ci funcţii definite pe un domeniu spaţial. Orice imagine este o structură bidimensională (tablou, matrice) de date. Un element al imagini se numeşte pixel (cuvânt preluat din engleza, unde provine de la picture element). Aceste date pot fi numere naturale, reale sau complexe, reprezentate însă pe un număr finit de biţi. . După tipul datelor din acesta structură bidimensională, imaginile prelucrate pot fi împărţite în mai multe categorii: • imagini scalare, în care fiecare componentă este un scalar (un unic număr); ca exemple de astfel de imagini se pot da imaginile monocrome (în care punctele au doar două valori posibile, ce corespund unui conţinut binar al imaginii, în general alb-negru) şi imaginile cu nivele de gri (de tipul imaginii de luminanţă de pe ecranele televizoarelor alb-negru). • imagini vectoriale, în care fiecare componentă este un vector de numere; cazul particular cel mai de interes este acela al imaginilor color, în care vectorul are trei elemente (ce corespund celor trei constituente de bază ale oricărei culori); în general, pentru imaginile multicomponentă, vectorul asociat fiecărui punct din imagine are mai multe elemente (caz ce corespunde imaginilor preluate în mai multe benzi de frecvenţă, aşa cum sunt imaginile de teledetecţie ale sateliţilor, imaginile de termodetecţie în benzile de infraroşu,...). Tot în categoria imaginilor vectoriale intră însă şi imaginile stereo (o pereche de imagini ale aceleiaşi scene, luate din unghiuri diferite) şi secvenţele de imagini. După natura lor, imaginile pot fi clasificate ca imagini abstracte, imagini non-vizibile şi imagini vizibile. Imaginile abstracte sau modelele sunt de fapt funcţii matematice, continue sau discrete, de doua variabile. Imaginile non-vizibile, care, evident, nu pot fi percepute în mod direct de ochiul uman, sunt de fapt achiziţii ale unor câmpuri bidimensionale de parametri fizici (presiune, temperatură, densitate, ...). În fine, imaginile ce pot fi percepute în mod direct de către ochiul uman (deci imaginile vizibile) sunt la rândul lor imagini optice, generate ca distribuţii de intensitate luminoasă (aşa ca hologramele, imaginile de interferenţă şi difracţie) sau imagini propriu-zise (de luminanţă - în sensul curent al termenului, ce se referă la fotografii, desene, picturi, schiţe, scheme şi altele din aceeaşi categorie). O altă împărţire a imaginilor scalare se poate face după semnificaţia ce se dă valorii numerice a pixelilor. Vom distinge astfel imagini de intensitate şi imagini indexate. O imagine de intensitate este o imagine în care valoarea fiecărui pixel este o măsură directă a intensităţii luminoase sau a mărimii fizice preluate de senzor, ca de exemplu în imaginile cu nivele de gri. Pixelii unei imagini de intensitate pot avea orice fel de valori: reale sau naturale (depinzând dacă imaginea este sau nu cuantizată). O imagine indexată este acea imagine în care valoarea fiecărui pixel este un indice prin care se regăseşte informaţia de culoare asociată pixelului respectiv. Deci, pentru afişarea sau reprezentarea unei imagini indexate este necesară o informaţie suplimentară, de asociere între indici şi culori. Această asociere se face prin intermediul tabelei de culoare. Tabela de culoare este o matrice în care fiecare linie conţine descrierea unei culori (deci cele trei componente ce definesc 6
culoarea - în mod tipic intensităţile relative de roşu, verde şi albastru ce compun culoarea dată printr-un amestec aditiv). Deci tabela de culoare are trei coloane; numărul de linii al tabelei de culoare este egal cu numărul de culori din imaginea reprezentată şi este în mod tipic o putere a lui doi (16, 256, ...). Indicele (valoarea pixelului) va fi numărul de ordine al liniei din tabela de culoare pe care se găseşte descrierea culorii. Este evident că valorile pixelilor unei imagini indexate nu pot fi decât numere naturale (deoarece sunt indici într-o matrice). Fiecare pixel ce aparţine unei imagini, care este reţinută într-un calculator, are o anumită valoare ce descrie strălucirea pixelului şi/sau ce culoare ar trebui să aibă. În funcţie de valorile pe care le au pixelii putem diferenţia mai multe tipuri de imagini, dintre acestea amintim imaginile binare, imaginile gri şi imaginile color. Imagini binare Imaginile binare sunt imaginile ale căror pixeli au doar două valori de intensitate posibile. Sunt de obicei reprezentate în alb şi negru. Numeric, cele două valori sunt 0 pentru negru şi 1 sau 255 pentru alb. Acestea se obţin cel mai des prin prăguirea imaginilor color sau a imaginilor în gri, şi se folosesc pentru a separa un obiect de fundal. Imagini gri O imagine pe o scară gri (cu nivele de gri) este o simplă imagine în care singurele culori folosite sunt umbre de gri. Motivul pentru care s-a realizat diferenţierea acestor imagini de alte categorii de imagini color este acela că, trebuie să fie reţinută mai puţină informaţie pentru fiecare pixel din imaginea originală. De fapt, o culoare gri este acea culoare în care componentele de culoare roşie, verde şi albastră au aceeaşi intensitate în spaţiul RGB aşa că, este nevoie să se specifice o singură valoare a intensităţii pentru fiecare pixel, în opoziţie cu cele trei intensităţi necesare a fi specificate pentru fiecare pixel dintr-o imagine color. Adesea, scala de gri este reprezentată ca fiind un întreg pe 8 biţi, dând 256 de umbre posibile ale griului, de la negru la alb. Dacă nivelele sunt uniform despărţite, atunci diferenţa dintre două nivele de gri succesive este semnificativ mai bună decât cea realizată de ochiul uman. Imaginile gri sunt foarte comune, în mare parte poate pentru că instrumentele de reprezentare şi captură hardware a imaginii pot suporta, în cele mai multe cazuri, numai imagini pe 8 biţi. Oricum imaginile gri sunt mai mult decât suficiente pentru multe aplicaţii, aşa că, nu este nevoie să se folosească imagini mult mai grele şi complicate pentru procesare, cum sunt imaginile color. Imagini color Este posibil să se creeze (aproape) toate culorile vizibile prin combinarea a trei culori primare ─roşu, verde şi albastru. Aceasta se întâmplă datorită faptului că ochiul uman are doar trei receptori de culoare diferiţi, fiecare dintre ei fiind sensibil la una dintre aceste culori. Diferitele combinaţii realizate pentru stimularea acestor receptori au arătat că ochiul uman distinge aproximativ 350000 de culori. O imagine color RGB este o imagine multi-spectrală cu câte o bandă pentru fiecare culoare primară, aceasta determinând producerea unei infinităţi de combinaţii a celor trei culori, pentru fiecare pixel. O imagine RGB cere ca pentru fiecare pixel să fie specificată intensitatea a trei componente de culoare (roşie, verde şi albastră). De obicei fiecare componentă de intensitate este stocată pe 8 biţi întregi, aşa că fiecare pixel necesită 24 de biţi pentru a se putea specifica complet şi exact culoarea. Aceste imagini sunt cunoscute ca fiind imagini color pe 24 de biţi (24-bit color images). Folosirea a 24 de biţi pentru a reţine informaţia color permite reprezentarea a 224=16777216 de culori, şi acest lucru este suficient pentru a acoperi foarte bine întregul spectru de percepţie a culorilor de către om. Sunt însă multe dezavantaje în folosirea imaginilor color pe 24 de biţi. Poate cel mai important este faptul că aceste imagini cer de trei ori mai multă memorie, mai mult spaţiu pe disc şi timpul de procesare este mult mai mare. De exemplu, o imagine pe 24 biţi de 512X512 necesită pentru memorare 750 Kb în formă necomprimată. 7
Din cauza acestor dezavantaje, multe imagini folosesc o hartă de colorare pe 8 biţi pentru a restricţiona numărul de culori la 256. Folosind această metodă este necesar să stochezi un singur index pe 8 biţi pentru fiecare pixel, nu pe 24 biţi. Formatul imaginilor pe 8 biţi conţine 2 părţi: o hartă de colorare care descrie ce culori sunt prezente în imagine şi un şir cu valorile indecşilor pentru fiecare pixel din imagine. Când o imagine pe 24 biţi este transformată într-o imagine pe 8 biţi este necesar să se elimine unele culori, având loc un proces numit cuantizare. Acest lucru duce la unele degradări calitative ale imaginii, dar, în practică, efectele observate pot fi foarte mici şi, oricum, aceste degradări sunt inevitabile dacă perifericul folosit (ecran sau imprimantă) este capabil să folosească numai 256 de culori. Imagini multi-spectrale Imaginile multi-spectrale pot conţine chiar şi mai mult de trei componente pentru fiecare pixel şi, prin extindere, acestea sunt reţinute într-un vector pentru fiecare valoare a unui pixel, sau în planuri separate de culori. O imagine multi-spectrală este o colecţie de mai multe imagini monocrome a aceleiaşi scheme, fiecare dintre ele fiind luată cu un diferit senzor. Fiecare imagine este considerată a fi o bandă. O binecunoscută imagine multi-spectrală (sau imagine bandă) este imaginea color RGB, care conţine o imagine roşie, una verde şi una albastră. Fiecare dintre aceste imagini este luată cu ajutorul unui senzor sensibil la o anumită lungime de undă. În procesarea imaginilor, imaginile multi-spectrale sunt cel mai des folosite pentru aplicaţiile de teledetecţie. Sateliţii de obicei iau câteva imagini din banda de frecvenţă în spectru vizual şi non-vizual. De exemplu, Landsat 5 produce 7 imagini bandă cu lungimea de undă cuprinsă între 450 şi 1250 nm.
1.2 Imaginea digitală – semnal bidimensional Imaginea formată în planul focal al unui sistem optic cu lentile poate fi descrisă prin funcţii depinzând de coordonatele în plan (carteziene, polare) şi de timp. În cele ce urmează se presupune că imaginile sunt staţionare pe durata achiziţiei. Cu această ipoteză se defineşte funcţia nivel de gri G ca fiind legea ce asociază unui punct (x,y) din domeniul de definiţie D (de regulă interiorul unui dreptunghi D din planul ℜ2) un număr corespunzător strălucirii (luminanţei) din acel punct: G:D→ℜ. (1.1) Valoarea G(x,y) se numeşte nivel de gri în punctul (x,y). Dacă se dispune de un senzor vizual, atunci se poate considera că G asociază punctului un număr care corespunde tensiunii la ieşirea senzorului, când el detectează strălucirea din punctul respectiv. Semnalul provenit de la senzorul vizual poate fi eşantionat spaţial (în plan) şi cuantizat (în nivel). În acest fel se obţine imaginea numerică caracterizată prin funcţia G (având semnificaţia de mai sus): G : M1 →M2 sau G : M1 →ℜ.Unde s-a notat: M1 ⊂ N, M2⊂N, în care N reprezintă mulţimea numerelor naturale, iar M1={0,1,...,n1-1} şi M2={0,1,...,n2-1}. Perechea de numere (n1,n2)= n1xn2 se numeşte dimensiunea imaginii. Datorită dezvoltării puternice a tehnicilor numerice de calcul un interes deosebit îl prezintă imaginile numerice. Dacă se notează cu ∆x şi ∆y paşii de eşantionare spaţială (pe orizontală respectiv pe verticală), atunci n1∆x=a şi n2∆y=b, unde constantele a şi b reprezintă laturile dreptunghiului D din relaţia (1.1). Un element de imagine (pixel) este un triplet: (1.2) Ei,j,G={i,j,G(i,j)}, i∈M1, j∈M2. O imagine numerică este o mulţime finită de elemente de imagine i∈M1, j∈M2, mulţimile M1 şi M2 fiind definite mai sus. Imaginea numerică se poate caracteriza prin matricea de dimensiune n1xn2: 8
G (0,1) G (0, n2 − 1) G (0,0) G (1,0) ( 1 , 1 ) ( 1 , 1 ) − G G n 2 [G ] = . ..... ..... ..... ..... G (n1 − 1, n2 − 1) G (n1 − 1,0)
(1.3)
Originea imaginii se ia colţul din stânga sus. Atunci când se doreşte aplicarea unor tehnici monodimensionale de prelucrare sau de transmitere a semnalelor, matricea G poate fi transformată în vector prin aranjarea în stivă a coloanelor sale (analog se poate proceda pentru aranjare în stivă a liniilor) prin aşezare în ordine una după alta. În general, pentru prelucrarea imaginilor în vederea analizei şi interpretării se utilizează tehnici specifice bidimensionale, iar pentru transmiterea imaginilor se utilizează tehnici monodimensionale. La o privire generală există multe similitudini între procesarea semnalelor bidimensionale (2D) şi a celor unidimensionale. În cazul semnalelor 1D vorbim despre filtrare, transformare Fourier, transformare Fourier Discretă, transformare Fourier rapidă. Când vorbim despre procesarea semnalelor 2D ne gândim la aceleaşi operaţiuni, doar că se realizează pe două direcţii. Deci, conceptele generale folosite în 2D pot fi văzute în multe cazuri ca extensii directe ale rezultatelor din procesarea semnalelor 1D. La o privire mai atentă apar unele deosebiri astfel: - cantitatea datelor manipulate în cazul semnalelor 2D este mult mai mare decât în cazul semnalelor 1D. De aceea în acest caz contează foarte mult eficienţa de calcul a algoritmilor de procesare ca şi noile realizări în tehnica hard. -o a doua diferenţă rezidă din faptul că procedeele matematice de calcul sunt mai puţin dezvoltate pentru procesarea semnalelor 2D decât pentru cele 1D. De exemplu, multe sisteme 1D sunt descrise cu ajutorul ecuaţiilor diferenţiale, în timp ce multe sisteme 2D pot fi descrise prin ecuaţii diferenţiale parţiale despre care se cunoaşte mai puţin. Pentru ca funcţia imagine f(x,y) să poată fi prelucrată cu ajutorul calculatorului, trebuie să fie digitizată atât în spaţiu cât şi în amplitudine. Digitizarea în domeniul coordonatelor spaţiale (x,y) este numită eşantionarea imaginii, iar digitizarea amplitudinii se numeşte cuantizarea nivelului de gri. Să presupunem că o imagine continuă f(x,y) este aproximată printr-o reţea rectangulară de dimensiune NXN, eşantioane dispuse la distanţe egale unele de altele aşa cum se arată în ecuaţia de mai jos, în care fiecare element din tabloul 2D este o mărime discretă: f ( 0,0) f ( 0,1).... f ( 0, N − 1)
f (1,0) f (1,1)..... f (1, N − 1) f (x, y) = .
(1.4)
. f ( N − 1,0) f ( N − 1,1).... f ( N − 1, N − 1) Membrul drept al ecuaţiei de mai sus reprezintă o imagine digitală în care fiecare element al tabloului este denumit element de imagine sau pixel. Procesul de digitizare de mai sus necesită luarea unei decizii privind mărimea lui N, ca şi asupra numărului de nivele discrete de gri alocate fiecărui pixel. De obicei, se iau aceste cantităţi ca puteri întregi ale lui doi, lucru care aduce unele simplificări în operaţiunea de procesare digitală a imaginii: N=2n, iar G=2m, unde cu G am notat nivelul de gri. Dacă se dispune de un senzor vizual, atunci se poate considera că G asociază punctului un număr care corespunde tensiunii obţinute la ieşirea senzorului, când el măsoară strălucirea din punctul respectiv. Dacă notăm cu b numărul biţilor necesari pentru a memora o imagine digitală, în funcţie de mărimea imaginii (N) şi numărul nivelelor de gri (G) rezultă: b=N*N*m (biţi). 9
Apare în acest moment ca firească întrebarea referitoare la cât de mulţi pixeli şi cât de multe nivele de gri trebuie să se folosească în procesul de digitizare a unei imagini. Rezoluţia unei imagini, adică gradul de sesizare a detaliilor acesteia depinde puternic de N şi m. Cu cât N şi m sunt mai mari, cu atât imaginea digitală va aproxima mai bine originalul. Dar, din păcate, se observă că necesarul de memorie şi în consecinţă şi timpul de procesare cresc rapid cu creşterea lui N şi m. Este interesant de analizat efectul pe care îl au asupra calităţii imaginii modificările lui N şi m. Este însă greu să definim o imagine “bună” deoarece cerinţele de calitate diferă în funcţie de aplicaţia avută în vedere. În funcţie de N imaginile se pot clasifica în 3 categorii: a) Imagini cu rezoluţie scăzută Acestea sunt imagini de 256x256. Este rezoluţia spaţială minimă care furnizează imagini de o calitate acceptabilă. Se folosesc pentru prelucrarea imaginilor preluate în infraroşu, tomografii, radiografii, imagini pentru testarea unor algoritmi. b) Imagini cu rezoluţie medie Acestea sunt imagini de 512x512 pixeli, comparabile cu calitatea imaginilor de televiziune. Se folosesc în activităţi de supraveghere, recunoaştere a ţintelor, etc. c) Imagini de mare rezoluţie În această categorie putem aminti imaginile furnizate de sateliţi pentru cercetarea resurselor sau alte scopuri, eşantionate la 3000x4000 pixeli, imaginile sintetizate pe calculator pentru film cinematografic de 35mm sau 70 mm eşantionate la 8000x8000 pixeli. Dacă numărul punctelor de eşantionare se micşorează, atunci la refacerea imaginii analogice din imaginea digitală, pentru a fi afişată pe ecran, apare un efect perturbator de tip “tablă de şah”. Numărul de eşantioane şi de nivele de gri necesar pentru a realiza o reproducere corespunzătoare a unei imagini depinde de tipul imaginii, adică de conţinutul acesteia în detalii. De exemplu, un portret este mai sărac în detalii decât o imagine care reprezintă tribunele unui stadion. Dacă numărul nivelelor de gri scade sub 64, apare un fenomen supărător de “contururi false”, fenomen mult mai accentuat pe măsură ce numărul nivelelor de gri scade. Fie două imagini cu acelaşi număr de pixeli, una cu detalii multe, iar alta cu detalii puţine. Pentru aceiaşi calitate a imaginilor numărul nivelelor de gri în imaginea cu detalii mai multe poate fi mai mic decât în imaginea cu detalii mai puţine. Acest lucru se datorează faptului că ochiul este mai puţin sensibil în aprecierea nuanţelor de gri în zonele cu modificări abrupte ale nivelului de gri. Din această cauză efectul de “contur fals” este întâlnit mai frecvent în imaginile cu detalii puţine. În unele cazuri, mai ales în prelucrarea optică a imaginilor, este convenabil ca imaginea să fie reprezentată în alt domeniu decât cel iniţial (spaţial) şi anume într-un domeniu obţinut prin transformare ortogonală bidimensională de tip sinusoidal (Fourier). Fie D=R2 si G:R2->R funcţia nivel de gri. Presupunând că sunt îndeplinite condiţiile: ∞ ∞
1.
∫ ∫ G (x , y ) dxdy < ∞ ;
(1.5)
−∞−∞
2. G are un număr finit de discontinuităţi şi un număr finit de maxime şi minime în orice dreptunghi finit, se defineşte Transformata Fourier, ∞ ∞ 1 ℘(u , v) = ℑ{G ( x, y )} = G ( x, y ) exp[− j 2π (ux + vy )]dxdy (1.6) 4π −∫∞−∫∞ ∞ ∞
G ( x, y ) =
∫ ∫℘(u, v) exp[ j 2π (ux + vy)]dudv
(1.7)
− ∞− ∞
Coordonatele x şi y se numesc coordonate spaţiale. Pentru u şi v constante, considerând funcţiile cos 2π(ux+vy), sin2π(ux+vy), în planul (x,y) se obţin drepte echidistante, paralele, pe care funcţiile respective iau valori constante. Pentru calculul Transformatei Fourier discrete bidimensionale se procedează în modul următor: a) Liniile matricei iniţiale se înlocuiesc cu transformatele Fourier discrete ale lor (monodimensionale). 10
b) În noua matrice se înlocuiesc coloanele cu transformatele Fourier discrete ale lor. Matricea rezultată este Transformata Fourier Discretă a matricei iniţiale. În reprezentarea Fourier a imaginilor, matricea [G] este înlocuită cu matricea [℘ ], de aceeaşi dimensiune, care, în anumite condiţii, poate oferi facilităţi de calcul sau de transmisie.
2.
Achiziţia şi conversia analog – numerică a imaginilor
2.1 Achiziţia imaginilor Indiferent de domeniul de aplicaţie, utilizarea calculatoarelor impune un format numeric pentru informaţia prelucrată. Vederea artificială respectă această regulă şi lucrează cu imagini numerice. Pentru a obţine imaginea numerică (digital image) este nevoie de două elemente: senzorul şi convertorul (digitizer). Senzorul este un element fizic care percepe o radiaţie electromagnetică într-o anumită bandă de frecvenţă (ultraviolete, infraroşu, vizibilă, raze X). Ieşirea senzorului este o mărime electrică, în general o tensiune, proporţională cu energia radiaţiei electromagnetice primită de senzor. În funcţie de aplicaţie, banda de frecvenţă şi senzorul aferent sunt diferite. Convertorul este un dispozitiv electronic care primeşte mărimea electrică furnizată de senzor şi o transformă într-un format numeric. Pentru aplicaţiile de vedere artificială, cel mai frecvent, senzorii sunt identificaţi cu numele generic de camere de luat vederi. Datorită acestui lucru prima etapă în procesul de prelucrare a imaginilor îl constituie achiziţia. Cele mai cunoscute camere de luat vederi au fost, în ordinea apariţiei şi utilizării istorice, camerele vidicon şi camerele matriceale (solid state). Lumina este focalizată pe suprafaţa senzorului prin intermediul unui sistem de lentile la nivelul căruia are loc o transformare optică care depinde de natura şi caracteristicile lentilei, respectiv ale luminii şi sursei de lumină. O condiţie pentru obţinerea unei imagini ideale este ca planul de focalizare să coincidă cu planul senzorului. Funcţionarea camerelor video cu vidicon se bazează pe principiul fotoconductibilităţii: o imagine focalizată pe suprafaţa tubului produce un relief de conductibilităţi proporţional cu distribuţia de străluciri din imaginea optică. Un fascicul de electroni focalizat pe suprafaţa posterioară a ţintei fotosensibile a tubului explorează punct cu punct această suprafaţă şi prin neutralizarea sarcinilor electrice, creează o diferenţă de potenţial care produce pe un electrod colector un curent proporţional cu relieful de străluciri de pe faţa anterioară a ţintei. Imaginea digitală este obţinută prin eşantionarea şi cuantizarea acestui semnal. Camerele matriceale sunt formate din elemente fotosensibile, senzori individuali. Fiecare element fotosensibil poate fi privit ca o capacitate individuală care acumulează o sarcină mai mare sau mai mică în funcţie de intensitatea luminoasă primită. Citirea sarcinilor nu se poate face în acelaşi timp pentru toate elementele (este evident că nu putem avea practic, din punct de vedere tehnologic, un circuit electronic cu sute de mii sau milioane de pini) şi ca urmare un proces de baleiere rămâne necesar. Aici, baleierea este de fapt un transfer al sarcinilor către dispozitivul care face efectiv citirea. Rezultatul va fi tot o mărime electrică variabilă în timp u(t). Dispozitivele videocaptoare integrate sunt compuse din elemente semiconductoare discrete, numite fotocapacităţi MOS, care dau la ieşire un potenţial proporţional cu intensitatea luminii incidente. Există două tipuri de asemenea dispozitive: liniare şi matriciale. Un senzor liniar constă dintr-un şir de asemenea fotocapacităţi semiconductoare şi poate produce o imagine bidimensională prin mişcarea relativă între scenă şi detector. Un senzor matricial este compus dintr-o matrice de fotocapacităţi MOS şi poate capta o imagine într-un mod similar unui tub videocaptor. Tehnologia utilizată în dispozitivele 11
videocaptoare integrate se bazează pe circuitele cu transfer de sarcină (CCD –„charge coupled devices”). Senzorii CCD captează lumina în mici fotocelule şi şi-au primit numele de la modul în care sarcinile sunt citite după expunere. Pentru aceasta, mai întâi sarcinile din prima linie sunt transferate într-un registru de citire. De acolo, semnalele sunt preluate de un amplificator şi ulterior de un convertor analog – numeric. După ce o linie a fost citită, sarcinile ei din registrul de citire sunt şterse. Următoarea linie va fi transferată în registrul de citire, iar toate liniile sunt transferate cu o linie mai jos. Sarcinile din fiecare linie sunt cuplate astfel încât la fiecare transfer din linia curentă în linia următoarea are loc şi un transfer din linia precedentă în linia curentă. În acest mod se poate citi o linie întreagă la un moment dat.
2.2 Conversia analog – numerică a imaginilor Pentru a putea fi utilizată de către dispozitivele de calcul, informaţia analogică despre imagine, obţinută la ieşirea senzorului vizual, trebuie convertită într-o reprezentare numerică. Presupunând imaginea staţionară pe durata achiziţiei, ea comportă două aspecte principale: a) Suprafaţa imaginii să fie eşantionată (spaţial) în n1,n2 puncte (n1 linii si n2 coloane); aceasta este automat realizată, prin construcţie, în cazul senzorilor vizuali CCD; b) Semnalul electric ce reprezintă iluminarea în punctul imaginii(i,j), să fie cuantificat cu un număr de biţi reprezentând 2k nivele de gri. Pentru digitizare, imaginea se eşantionează cu ajutorul unei reţele discrete, iar fiecare eşantion (sau pixel) este cuantizat folosind un număr finit de biţi. Pentru afişare, imaginea digitală se converteşte din nou în forma analogică. O metodă simplă de eşantionare este explorarea (scanarea) imaginii, linie după linie, şi eşantionarea fiecărei linii. De exemplu, camera video cu tub vidicon sau având un dispozitiv videocaptor de tip CCD, face o asemenea scanare a imaginii chiar în procesul de captare. Alte tipuri de imagini, cum ar fi filmele sau paginile tipărite, se scanează în mod analog, cu ajutorul unor echipamente numite scanere. Eşantionarea poate fi uşor înţeleasă dacă se ştie că transformata Fourier a unei funcţii eşantionate este duplicatul scalat, respectiv periodic, al transformatei Fourier a funcţiei originale. Pentru a demonstra aceasta, se va considera o imagine eşantionată ideal, care se reprezintă ca un tablou bidimensional de funcţii Dirac delta, situate pe o reţea dreptunghiulară cu pasul ∆x,∆y definită de:
g p (x , y; ∆ x , ∆ y ) =
∞
∞
∑ ∑ δ ( x − m ∆ x , y − n∆ y )
(2.1)
m = −∞ n = −∞
Imaginea eşantionată este definită prin următoarea ecuaţie:
f s = f ( x , y ) g p ( x , y; ∆ x , ∆ y ) =
∞
∑ ∑ f ( m∆ x , n∆ y )δ ( x − m∆ x , y − n∆ y )
(2.2)
m , n = −∞
Din proprietatea de unicitate a transformatei Fourier se ştie că, dacă spectrul imaginii originale se poate reface folosind spectrul imaginii eşantionate, atunci vom putea obţine şi imaginea interpolată pe baza imaginii eşantionate. Dacă frecvenţele de eşantionare pe cele două axe, x şi y, sunt de două ori mai mari decât lărgimea de bandă, respectiv dacă: ξxs>2ξx0 , ξys>2ξy0 ,sau dacă intervalele de eşantionare sunt mai mici decât jumătate din 1/l (1/lărgimea de bandă) corespunzătoare, ∆x 0 (6.56) atunci transformarea inversă a lui S(k, l), notată cu c(m,n) se numeşte transformată cepstrum generalizată. În practică se adaugă o constantă pozitivă la │υ(k,l)│ pentru ca logaritmul să nu tindă la minus infinit. Imaginea c(m,n) se mai numeşte şi transformarea homomorfică generalizată K a imaginii şi are proprietatea că reduce dinamica imaginii în domeniul transformatei şi o măreşte în domeniul cepstral. Algoritmul de prelucrare este dat în figura 6.13. u(m,n)
AUAT
v(k,l)
[Logv(k,l)]eje(k,l)
s(k,l)
A-1S(AT)-1
Fig. 6.13 Filtrarea homomorfică şi cepstrum
64
c(m,n)
7.
Segmentarea imaginilor
Segmentarea imaginilor se referă la descompunerea unei scene (imagini) în componentele sale. În urma procesului de segmentare vor fi extrase din imagine obiecte distincte, regiuni ce satisfac anumite criterii de uniformitate, sau alte elemente. În Digital Image Signal Processing de Wahl se propune o definiţie matematizată a procesului de segmentare, şi anume segmentarea unei imagini f este definită ca partiţionarea [completă] a lui f într-un ansamblu de mulţimi disjuncte nevide şi conexe, ce satisfac fiecare un anumit criteriu, criteriu ce nu mai este respectat pentru reuniunea oricăror două elemente ale partiţiei. Alegerea unei tehnici specifice de segmentare (partiţionare a imaginii) este legată de mai multe aspecte caracteristice imaginii de analizat şi cerinţelor utilizatorului. După natura şi conţinutul imaginii, tehnicile de segmentare trebuie să ţină cont de prezenţa în imagine a diverse categorii de artefacte: • reflexii, iluminare neomogenă; • zgomot suprapus informaţiei utile; • zone texturate După primitivele de extras, tehnicile de segmentare se împart în două categorii fundamentale: tehnicile de segmentare orientate pe regiuni şi tehnicile de segmentare orientate pe contur. Primitivele extrase din imagine sunt regiuni (forme) şi zone texturate pentru tehnicile orientate pe regiuni, sau entităţi de tip discontinuitate (frontiere, segmente de dreaptă, unghiuri) pentru tehnicile orientate pe contur. În cadrul segmentării orientate pe regiuni se disting câteva categorii principale de tehnici: • etichetarea imaginilor binare • segmentarea pe histogramă • creşterea şi fuziunea regiunilor • segmentarea texturilor • segmentarea prin metode de clustering Tehnicile principale de segmentare orientata pe contururi sunt: • extragerea contururilor prin metode de gradient şi derivative; • extragerea contururilor prin metode neliniare; • extragerea contururilor prin metode liniare optimale; • extragerea contururilor prin modelare matematică În continuare vor fi prezentate doar o parte dintre aceste tehnici, cele care sunt considerate a fi semnificative.
7.1. Segmentarea orientată pe regiuni 7.1.1. Segmentarea bazată pe histogramă În general, operaţia de segmentare orientată pe regiuni urmăreşte extragerea din imagine a zonelor (regiunilor) ocupate de diferitele obiecte prezente în scenă. Un obiect se defineşte ca o entitate caracterizată de un set de parametri ale căror valori nu se modifică în diferitele puncte ce aparţin entităţii considerate. Mai simplu, se poate spune că obiectul are proprietatea de uniformitate a parametrilor de definiţie. Unul dintre cei mai simpli parametri de definiţie este nivelul de gri al punctului. Nivelul de gri, ce este preluat de senzorul de imagine şi asociat luminanţei imaginii, corespunde în scenă unei proprietăţi fizice (reflectanţă, transmitivitate etc.). În acest caz, histograma imaginii (funcţia de densitate de probabilitate a variabilei aleatoare discrete ale cărei realizări sunt nivelele de gri din imagine) reflectă distribuţia în scenă a proprietăţii fizice înregistrate. Caracteristicile histogramei se bazează pe histograma unei regiuni din imagine. Dacă u este o variabilă aleatoare care reprezintă nivelul de gri într-o anumită zonă a imaginii, atunci se defineşte 65
probabilitatea pu(x)=p[u=x], respectiv numărul pixelilor cu nivel de gri “x” raportat la numărul total al pixelilor din zonă, pentru x=0,1,...,L-1. Pentru o imagine f de MxN pixeli şi L nivele de gri, histograma este definită ca probabilitatea (frecvenţa relativă) de apariţie în imagine a diferitelor nivele de gri posibile. 1 M −1 N −1 h(i ) = (7.1) ∑∑ δ (i − f (m, n)) , i=0,1,...,L-1 MN m =0 n =0 Dacă nivelul de gri (respectiv proprietatea fizică pe care acesta o reprezintă) caracterizează în mod suficient obiectele din scenă, histograma imaginii va prezenta o structură de moduri dominante - intervale de nivele de gri ce apar cu probabilitate mai mare. Fiecare asemenea mod (maxim al histogramei) va reprezenta o anumită categorie de obiecte.
7.1.2. Tehnici de fixare a pragului (thresholding) Separarea modurilor histogramei (şi deci identificarea obiectelor din imagine) se face prin alegerea unui nivel de gri T, numit prag de segmentare. Acest prag de segmentare se alege pe minimul global al histogramei. Din imaginea iniţială f de nivele de gri se construieşte o imagine de etichete (imagine etichetată) g. E 0 ,0 ≤ f (m, n ) < T (7.2) g (m, n ) = E1 , T ≤ f (m, n ) < L Imaginea etichetată va fi descrisă de două etichete: E0 pentru punctele al căror nivel de gri este mai mic decât pragul T şi E1 pentru punctele al căror nivel de gri este mai mare decât pragul T. Etichetele E0 şi E1 pot fi valori numerice (0 şi 1, sau 0 şi 255) sau pot fi şiruri de simboluri sau alţi identificatori. Această transformare este o transformare punctuală (noua valoare din punctul (m,n) depinde doar de valoarea anterioara din punctul (m,n)) şi poartă numele de binarizare. Aceasta denumire provine din faptul ca rezultatul transformării (imaginea etichetată) este o imagine binară deci o imagine caracterizată doar de două valori. Se poate remarca de asemenea faptul că binarizarea este un caz particular al transformării de modificare liniară a contrastului, în care limitele domeniilor de contrastare sunt egale (T1=T2) şi contrastarea se face la valorile limită ale nivelelor de gri (α=0, β=L-1). Segmentarea pe histogramă (numită şi prăguire sau thresholding) semnifică determinarea unor nivele de gri ce separă modurile histogramei. Tuturor punctelor din imagine al căror nivel de gri corespunde unui acelaşi mod, li se asociază o aceeaşi etichetă (număr, şir de simboluri), rezultând o imagine etichetată, ce pune în evidentă diferitele obiecte ale scenei iniţiale. În cazul general al existenţei mai multor praguri de segmentare Tk, transformarea de segmentare pe histogramă este descrisă de: g(m,n)=Ek , dacă Tk ≤ f (m, n ) < Tk +1 , unde T0=0 , Tc=L , k=0,1,...,C-1. (7.3) Pragurile Tk se aleg prin inspecţia histogramei, în minimele locale ale acesteia. Acest tip de segmentare multinivel este mai puţin eficientă decât binarizarea, din cauza dificultăţii de stabilire a pragurilor care să izoleze eficient intervalele de interes din histogramă, mai ales atunci când numărul modurilor este mare. Trebuie de asemenea remarcat faptul că este necesară cunoaşterea numărului de tipuri de obiecte din imagine, pentru alegerea corespunzătoare a numărului de praguri de segmentare. În marea majoritate a cazurilor, segmentarea obţinută nu este corectă (există regiuni prost etichetate); ca o regulă generală de îmbunătăţire a performanţelor, se recomandă aplicarea, înaintea segmentării, a unor operaţii de filtrare (eliminare a zgomotului), contrastare, îmbunătăţire, netezire a histogramei - numite preprocesări. În general, se admite clasificarea metodelor de segmentare pe histogramă după atributele global, local şi dinamic. Aceste atribute se refera la modul de calcul al pragurilor de segmentare Tk în funcţie de nivelul de gri din fiecare punct al imaginii f(m,n), coordonatele punctelor din imagine (m,n) şi o anumită proprietate locală p(m,n) a punctului (m,n), conform ecuaţiei: Tk = Tk ( f(m,n) , p(m,n) , (m,n) ) (7.4)
66
Segmentarea se numeşte globală dacă pragurile depind doar de nivelele de gri ale punctelor imaginii: Tk = Tk ( f(m,n) ). Datorită acestui lucru se poate spune că segmentarea multinivel este în mod evident o metodă de tip global. Segmentarea se numeşte locală dacă pragurile depind de nivelul de gri şi de anumite atribute locale calculate pentru vecinătăţi ale fiecărui punct: Tk = Tk ( f(m,n) , p(m,n) ) (7.5) Segmentarea se numeşte dinamică dacă pragurile depind de poziţionarea punctelor în imagine (forma cea mai generală a modului de deducere pragurilor).
7.1.3. Determinarea automată a pragurilor: metoda Bhattacharya Metoda Bhattacharyya se bazează pe descompunerea histogramei în moduri individuale Gaussiene, adică se încearcă exprimarea histogramei imaginii ca o sumă ponderată de funcţii de densitate de probabilitate de tip normal (Gaussian). Modelarea modurilor histogramei imaginilor prin distribuţii normale este o presupunere ce se întâlneşte în multe tehnici de prelucrare şi analiză a imaginilor. Aceasta pare a fi justificată din considerentul că imaginea provenind dintr-o imagine ideală, în care fiecare tip de obiect este reprezentat de un unic nivel de gri, peste care s-a suprapus un zgomot alb, aditiv, gaussian. În acest mod, mediile modurilor din histogramă corespund nivelelor de gri ce caracterizează obiectele scenei, iar variantele acestor moduri sunt determinate de zgomotul suprapus imaginii (care nu este obligatoriu să afecteze în acelaşi mod toate nivelele de gri). Pentru segmentarea după metoda Bhattacharyya nu este necesară precizarea unui număr de clase (praguri de segmentare), acesta urmând a fi determinat în mod automat.
N (µ k , σ k )( x ) =
1 e σ k Rπ
−
( x − µ k )2 2σ k2
(7.6)
Ideea de plecare a metodei este de a determina parametrii caracteristici ai unei distribuţii normale. Pentru o distribuţie normală derivata logaritmului este:
µ δ ln N (µ k , σ k )x x = 2 + k2 = mk x + nk δx σk σk
(7.7)
Se observă prin examinarea expresiei de mai sus că derivata logaritmului distribuţiei normale este o dreaptă de pantă negativă, din ai cărei parametri se pot deduce media şi varianta distribuţiei. Parametrii statistici ai distribuţiei sunt daţi de ecuaţiile de mai jos:
σk =
1 mk
şi µ k =
nk mk
(7.8)
Această observaţie poate fi aplicată şi pentru o mixtură de distribuţii normale. Dacă se consideră că ca histograma h a imaginii este compusă prin superpoziţia aditivă a C moduri gaussiene N(µk, sk) , adică : C
h( x ) = ∑ wk N (µ k , σ k )( x )
(7.9)
k =1
Din parametrii dreptei se pot determina deci parametrii statistici ai distribuţiei locale.Aşadar, pentru aplicarea metodei la segmentarea pe histogramă a imaginilor, se va studia comportamentul derivatei logaritmului histogramei, adică a funcţiei z(a): h(a ) z (a ) = ln (7.10) , a = 1, L − 1 h(a − 1) Pentru funcţia astfel construită, se determină intervalele pe care acesta este descrescătoare; limitele superioare ale acestor intervale sunt pragurile Tk de segmentare pe histogramă. 67
Suplimentar, pe fiecare dintre aceste intervale se poate face o aproximare liniară a punctelor şi pe baza parametrilor deduşi pentru dreapta de aproximare se pot calcula, parametrii statistici locali. Principalele inconveniente ale metodei derivă din faptul că presupunerea alcătuirii histogramei imaginii numai din moduri gaussiene nu este întotdeauna adevărată. Ca rezultat, metoda Bhattacharrya va identifica un număr mai mare de praguri decât este necesar, producând fenomenul de suprasegmentare.
7.1.4. Segmentarea cu prag optim Metoda de segmentare cu prag optim face apel la teoria deciziilor (criteriul de decizie Bayes) pentru stabilirea valorii pragurilor de segmentare ce optimizează un anumit criteriu de eroare. Informaţiile apriori necesare pentru aplicarea unei asemenea tehnici sunt numărul de tipuri de obiecte din imagine, C, procentele de ocupare a imaginii de către fiecare tip de obiecte, Pi şi distribuţia nivelelor de gri ce caracterizează fiecare tip de obiect, pi(x). Atunci histograma imaginii va fi determinata de mixtura distribuţiilor tipurilor de obiecte: C
C
i =1
i =1
h( x ) = ∑ Pi pi ( x ), ∑ Pi = 1
(7.11)
Cazul cel mai simplu şi mai des folosit este cel al binarizării, în care trebuie determinat un unic prag T ce separă distribuţiile celor două tipuri de obiecte din imagine (în mod tipic, obiecte “utile” şi fundal). Criteriul ce se urmăreşte optimizat este eroarea de segmentare (clasificare) a punctelor din imagine, adică este dat de numărul de pixeli ce aparţin primului tip de obiect, dar au nivelul de gri mai mare ca pragul T (fiind deci alocaţi greşit celui de-al doilea tip de obiect) şi numărul de pixeli ce aparţin celui de-al doilea tip de obiect, dar au nivelul de gri mai mic decât pragul de segmentare T (fiind deci alocaţi greşit primului tip de obiect). Aşadar, eroarea de segmentare va fi dată de: +∞
T
T
−∞
E (T ) = P1 ∫ p1 ( x )dx + P2
∫ p (x )dx
(7.12)
2
Pragul optim va minimiza eroarea de segmentare a pixelilor. Minimizarea erorii conduce la rezolvarea ecuaţiei, în necunoscuta T: ∂E (T ) (7.13) =0 ∂T Derivând se obţine forma echivalentă a ecuaţiei: P1 p1 (T ) = P2 p 2 (T ) . După cum a fost menţionat şi în secţiunea dedicată tehnicilor de segmentare ce nu folosesc informaţii apriori despre imagine (metoda Bhattacharyya), presupunerea că distribuţia nivelelor de gri a diferitelor tipuri de obiecte este de tip normal (Gaussian) este relativ des întâlnită. în aceste condiţii, distribuţiile p1(x) şi p2(x) sunt distribuţii normale, N1(µ1,s1)(x) şi N2(µ2,s2)(x), iar ecuaţia devine: − 1 P1 e σ 1 2π
(T − µ 1 )2 2 σ 12
− 1 = P2 e σ 2 2π
(T − µ 2 )2 2 σ 22
(7.14)
Prin logaritmare, se obţine următoarea ecuaţie de gradul 2 în necunoscuta T: 1 µ µ µ2 µ2 Pσ 1 (7.15) T 2 2 − 2 − 2T 12 − 22 + 12 − 22 − 2 ln 1 2 = 0 P2σ 1 σ1 σ 2 σ1 σ 2 σ1 σ 2 Una dintre simplificările uzuale este presupunerea că s1=s2=s. Această presupunere implică modelarea imaginii în nivele de gri ca o imagine cu doar două nivele de gri µ1 şi µ2, afectată de un zgomot Gaussian aditiv, având varianta s2. În aceste condiţii, ecuaţia de gradul 2 devine o ecuaţie liniară, a cărei soluţie este: 68
T=
µ1 + µ 2
−
P σ2 ln 1 µ1 − µ 2 P2
(7.16) 2 Metoda se poate extinde şi pentru imagini ce conţin mai mult de două tipuri de obiecte. În acest caz este însă necesară presupunerea suplimentară de localizare a modurilor, astfel încât să se poată considera, ca şi în cazul metodei Bhattacharyya, că influenţa fiecărui mod este limitată la intervale nesuprapuse de nivele de gri.
7.1.5. Creşterea şi fuziunea regiunilor Pentru aplicarea cu succes a tehnicilor de segmentare pe histogramă prezentate anterior trebuiesc îndeplinite neapărat câteva condiţii (deja enunţate). Aplicarea tehnicilor de segmentare pe histogramă este condiţionată în primul rând de reprezentarea diferitelor clase de obiecte din imagine pe intervale de nivele de gri diferite care nu se suprapun (sau se suprapun parţial pe porţiuni foarte mici). Apoi este necesară cunoaşterea numărului de tipuri de obiecte diferite. Dar se presupune că valorile prag corespunzătoare se pot determina cu o precizie destul de mare. Chiar dacă toate aceste condiţii enunţate sunt îndeplinite, nu se poate garanta condiţia de conexitate a regiunilor obţinute în urma segmentării. Acest lucru este evident, atât timp cât două obiecte de acelaşi tip, neconexe, primesc prin segmentarea pe histogramă o aceeaşi etichetă, şi formează în imaginea de etichete o regiune neconexă. O metodă care respectă toate condiţiile impuse de definiţia matematică a segmentării este creşterea regiunilor. Creşterea regiunilor
Principiul pe care se bazează creşterea regiunilor este simplu: se aleg în imagine puncte reprezentative pentru fiecare obiect individual şi categorie de obiecte, pe baza cărora are loc un proces de aglomerare a pixelilor vecini acestora, ce au aceleaşi proprietăţi (în particular acelaşi nivel de gri). În urma acestui proces de aglomerare (adăugare de puncte) se obţin zone (regiuni) de pixeli cu aceleaşi caracteristici, deci obiecte individuale. Procesul se opreşte în momentul în care fiecare punct al imaginii a fost alocat unei regiuni. Evident, metoda astfel descrisă pe scurt, are doua etape esenţiale: alegerea punctelor de start (puncte iniţiale), numite germeni sau seminţe, şi creşterea propriu-zisă a regiunilor. Numărul final de regiuni rezultate este egal cu numărul de germeni aleşi iniţial pentru creştere. În principiu, este de dorit ca fiecare obiect individual aflat în imagine să fie marcat de câte un germene. Dacă în interiorul unui aceluiaşi obiect se găsesc mai mulţi germeni, pentru fiecare dintre ei va fi crescută o regiune, iar acesta determină ca obiectul iniţial să fie împărţit artificial prin segmentare în mai multe regiuni. Parţial, acest neajuns se poate corecta printr-o etapă ce urmează creşterii regiunilor, şi anume fuziunea regiunilor adiacente ce au proprietăţi asemănătoare. Dacă în interiorul unui obiect nu este ales nici un germene, obiectul respectiv va fi înglobat de regiunile ce cresc pornind de la germeni din vecinătatea sa spaţială, iar astfel, respectivul obiect nu apare ca o regiune distinctă şi este pierdut, rezultând o eroare gravă de segmentare. Pentru a preveni efectul unor neuniformităţi de iluminare pe suprafaţa imaginii, aceasta este împărţită în ferestre nesuprapuse. În fiecare astfel de fereastră se alege un număr de germeni, al căror plasament spaţial este aleator (germenii se distribuie uniform pe suprafaţa imaginii). Germenii se aleg astfel încât nivelul lor de gri să fie reprezentativ pentru obiectele prezente local (deci nivelul de gri al germenilor trebuie să corespundă unor maxime ale histogramei locale). În plus, trebuie verificat ca plasamentul spaţial al germenilor să se facă în interiorul regiunilor şi nu pe frontiera acestora. Verificarea se poate face simplu pe baza calculului unui operator derivativ local, ca de exemplu laplacianul, dacă valoarea acestuia nu depăşeşte un anumit procent prestabilit (10% - 20%) din diferenţa maximă de nivele de gri a ferestrei, punctul ales este considerat ca plasat corect. O verificare suplimentară încearcă să prevină o eventuală suprasegmentare (împărţirea artificială a unui acelaşi obiect în mai multe regiuni), eliminând germenii plasaţi în interiorul aceluiaşi obiect. Verificarea se face pe baza calculului variaţiei nivelelor de gri de-a lungul drumurilor arbitrare ce unesc perechi de germeni. Daca există o cale ce uneşte doi germeni de-a 69
lungul căreia nivelul de gri nu variază cu mai mult de 20% - 30% din diferenţa maximă a nivelelor de gri din fereastră, cei doi germeni sunt plasaţi în interiorul unei zone de nivele de gri uniforme, deci în interiorul unui acelaşi obiect. În aceste condiţii unul dintre cei doi germeni ai perechii este eliminat, deoarece este redundant. Dacă de-a lungul tuturor căilor ce unesc perechea de germeni nivelul de gri variază mai mult decât pragul ales, atunci se consideră că cei doi germeni sunt plasaţi în interiorul unor obiecte diferite (deoarece căile ce unesc germenii traversează regiuni de frontieră). În practică, examinarea tuturor drumurilor (căilor) ce unesc perechi de germeni este extrem de costisitoare din punctul de vedere al timpului de calcul. De aceea se verifică doar căile formate din segmente verticale şi orizontale, şi eventual, dreapta ce uneşte cele două puncte (dacă această dreaptă poate fi reprezentată de o secvenţă de puncte conexe). Valorile procentuale ale pragurilor de comparaţie, precum şi numărul de germeni distincţi ce rămân după procesul de reducere, nu trebuie considerate ca fixe; nu există valori standardizate şi alegerea acestora se face pe baza condiţiilor particulare (legate de conţinutul imaginii) şi a experienţei utilizatorului. Pornind de la germenii aleşi, regiunile sunt obţinute printr-un proces de creştere aproape simultană, început de la aceştia, până când toţi pixelii imaginii sunt repartizaţi unei regiuni. Cvasisimultaneitatea creşterii poate fi realizată cu un algoritm serial, prin alocarea pixelilor ce sunt adiacenţi (vecini) zonelor deja segmentate. Această alocare trebuie să ţină seama de criteriul ca regiunile crescute să fie uniforme: nivelul de gri al pixelului ce se adaugă nu trebuie să difere cu mai mult de un prag prestabilit faţă de nivelul de gri al germenului regiunii la care se alocă. În acelaşi timp, la o singura trecere, numărul de puncte ce se adaugă unei regiuni nu poate depăşi un număr prestabilit (condiţia încearcă să asigure creşterea relativ uniformă şi izotropă a tuturor regiunilor). Dacă adăugarea de noi pixeli se blochează (criteriul de uniformitate nu mai este respectat), diferenţa maxim admisă pentru nivelul de gri poate fi crescută în etape, până la epuizarea pixelilor imaginii. Avantajele pe care le are o asemenea tehnică de creştere a regiunilor sunt acelea că nu mai este necesară nici o informaţie privind conţinutul imaginii, regiunile crescute sunt conexe şi nu există puncte neetichetate (nealocate vreunei regiuni) şi poziţia frontierelor dintre diferitele regiuni corespunde poziţiei frontierelor percepute subiectiv în imagine. Fuziunea regiunilor
O extindere a principiului utilizat în creşterea regiunilor, şi anume adăugarea la o regiune a unor entităţi (pixeli în acest caz) a căror proprietăţi sunt similare cu cele ale obiectului de bază (regiunea), se află la baza tehnicilor de fuziune a regiunilor. Fuziunea regiunilor constă în reunirea iterativă a regiunilor adiacente (începând de la nivelul unor entităţi atomice ale imaginii - deci pixelii) până când regiunile adiacente devin suficient de diferite. Procesul de fuziune a regiunilor poate fi aplicat şi în urma unei creşteri a regiunilor, pentru a înlătura efectele unei eventuale suprasegmentări. Există mai multe criterii de fuziune a regiunilor adiacente, a căror acţiune de verificare a deosebirii între regiuni se face fie prin inspecţia frontierei comune, fie prin caracterizarea interiorului regiunii. Pentru două regiuni adiacente Ri şi Rj, al căror perimetru este Perim(Ri) şi Perim(Rj), putem determina Pm=min (Perim(Ri), Perim(Rj)) şi P lungimea frontierei comune. Pe această frontieră comună se disting puncte slabe (ns) şi puncte tari (nt). Un punct slab este acel punct pentru care diferenţa nivelelor de gri între vecinii din regiunile adiacente este foarte mică (mai mică decât un anumit prag fixat). Un punct tare este acel punct pentru care diferenţa de nivele de gri între vecinii din regiunile adiacente este foarte mare (mai mare ca un anumit prag fixat). Cu aceste notaţii, criteriile de fuziune a regiunilor Ri şi Rj sunt: • dacă numărul de puncte slabe raportat la perimetrul minim este important, ns/Pm>q1 • dacă numărul de puncte slabe de pe frontiera comună este mare, ns/P>q2 • dacă numărul de puncte tari de pe frontiera comună este mic, nt/Pdmax dmax=n(i1)-n(i2) lm=i1 cm=i2 În acest algoritm lm şi cm indică cele mai îndepărtate puncte în timp ce dmax indică diametrul obiectului. 7.Numărul de goluri Unele proprietăţi topologice ale figurii pot fi determinate direct, cum ar fi numărul de goluri. Găsirea găurilor din interiorul figurii poate fi făcută fie direct, dacă aria este măsurată şi figurile etichetate, sau prin inversarea imaginii şi găsirea figurilor care nu ating contururile imaginii. 8.Colţurile Această caracteristică poate fi obţinută din reprezentarea contururilor. De exemplu prezenţa unui colţ este detectată ca o secvenţă de creştere (sau descreştere) a valorilor codurilor din şirul de valori de-a lungul graniţei. Similar, segmentele drepte sunt reprezentate prin valori ale codurilor din lanţ care nu variază semnificative o lungime selectată. În ambele cazuri, decizia de cât de mult trebuie să varieze este importantă, şi pe ce distanţă, este o definiţie arbitrară. Lanţul de coduri pentru un contur sau pentru o linie de schelet este esenţial de când distanţa de vecinătate dintre 2 pixeli poate varia în numai 45 grade. 9.Numărul de laturi O altă proprietate topologică a figurilor este numărul de laturi. În cazul unei structuri dintr-o pilitură, a firelor dintr-un metal sau a câmpurilor obţinute în urma unei survolări aeriene, numărul de laturi pe care fiecare figură le are este numărul altor figuri cu care aceasta se alătură. Deoarece figurile sunt separate atunci trebuie să existe o linie de pixeli de fond care le separă. În multe cazuri această linie este produsă de procesarea imaginilor, prin scheletizarea imaginii originale de intrare şi apoi prin inversarea ei pentru a definii pixelii. Cuantificarea numărului de vecini pentru fiecare figură poate fi realizată prin verificarea numărului de identificare a figurii a cărei pixeli ating fondul. Etichetarea figurilor în funcţie de numărul de vecini ne poate dezvălui câteva proprietăţi interesante ale structurii. Numărul de laturi pe care le are o formă poate fi descris şi în alt fel. Dacă punctele din colţuri sunt definite cum s-a prezentat anterior, atunci numărarea laturilor este realizată direct din şirul de valori care reprezintă conturul. Cel de al doilea mod de abordare, care este mai puţin sensibil la micile neregularităţi ale pixelilor din contur, foloseşte poligonul convex sau limitat. Acest poligon este de obicei construit cu un număr fix şi destul de mare de părţi. De exemplu rotirea axelor în 16 paşi va forma un poligon cu 32 de laturi.
83
10.Grosimea Grosimea unei forme este definită ca fiind numărul de eroziuni, realizate cu acelaşi element structural, care sunt necesare pentru a eroda complet obiectul. Se observă că o asemenea definiţie a grosimii formei depinde de structura elementului considerat. De exemplu o curbă deschisă realizată dintr-o înşiruire de câte un pixel are grosimea 1, deoarece o singură eroziune este suficientă pentru a o elimina. O caracteristică a formei uşor modificată, poate fi definită ca numărul de eroziuni de care este nevoie pentru a distruge legăturile formei. În cazul în care forma conţine o porţiune de istm, va fi ruptă după un număr mic de eroziuni (fig 8.4). Evoluţia numărului de componente conectate care sunt create în urma erodării formei poate fi de asemenea analizată statistic pentru a genera caracteristici ale formei care să reflecte lăţimea istmurilor. Fig.8.4 Reprezentarea grosimii formei: această formă este ruptă în două după un număr mic de eroziuni 11.Momentele statistice Momentele statistice alături de descriptorii Fourier, sunt printre cei mai cunoscuţi descriptori ai formei. La fel ca şi descriptorii, acestea pot fi obţinute din conturul formei, dar şi din regiunile 2D. Dacă g reprezintă imaginea formei, atunci momentele standard 2D sunt definite ca: P −1 Q −1
mr ,s = ∑∑ p r q s g ( p, q ) .
(8.11)
p =0 q =0
Pentru a obţine translaţia invarianţei trebuie să fie calculate momentele centrale: P −1 Q −1 m m (8.12) µ r , s = ∑∑ ( p − p ) r ⋅ (q − q ) s ⋅ g ( p, q) unde p = 1,0 şi q = 0,1 . m0 , 0 m0 , 0 p =0 g =0 Una dintre cele mai frumoase caracteristici expusă de aceşti descriptori ai formei, care a fost folosită în analiza formei, este aceea că primele momente au o interpretare geometrică, fiind posibilă reconstrucţia formei din setul complet de momente. 12.Simetria Simetria reprezintă o caracteristică importantă care poate fi decisivă pentru soluţia efectivă a multor probleme care apar în caracterizarea şi clasificarea formelor. Cel mai important lucru care trebuie reţinut este faptul că există mai multe tipuri de simetrii. În continuare vom prezenta cum poate fi exprimat numeric gradul de simetrie bilaterală dintr-o reprezentare conţinută într-o imagine binară. Se consideră imaginea din figura 8.5a. Primul pas constă în reflexia figurii în funcţie de orientarea axei principale. După aceea se umplu golurile cauzate de reflexie, şi această versiune rezultată este suprapusă peste figura originală, figura 8.5b. Se observă că valorile pixelilor imaginii rezultate sunt limitate astfel: 0 pentru fundal, 1 pentru porţiuni ale figurii care sunt asimetrice, iar 2 pentru pixelii simetriei, apoi se calculează simetria. Acelaşi lucru este prezentat în figurile 8.5c şi 8.5d, dar pentru o formă mult mai simetrică.
84
Fig.8.5 13.Semnătura formei Ideea fundamentală, de a reprezenta forma printr-un semnal sau o semnătură, este de a genera unul sau mai multe semnale care oarecum descriu forma bidimensională a obiectului. Se observă că o semnătură unidimensională se poate obţine, aceasta fiind bazată pe reprezentarea contururilor şi a regiunilor, şi există o mulţime de modalităţi diferite de a defini aceste semnături. Este important de subliniat că semnătura formei descrie formele printr-un semnal unidimensional, şi de aceea se permite folosirea tehnicilor de procesare 1D pentru analiza formelor. În general, semnătura bazată pe contur este creată prin începerea dintr-un punct iniţial de pe contur, şi traversarea lui în sensul acelor de ceasornic sau invers. O simplă semnătură care ilustrează acest concept este de a plănui distanţa dintre fiecare punct de pe contur şi centru formei în funcţie de secvenţa anterioară, care se comportă ca un parametru. Figura 7.6 b ne arată un exemplu a semnăturii d(u) obţinută din conturul din figura 8.6 a. Este important de notat că aceste semnale sunt periodice pentru curbele închise, deoarece se poate traversa conturul de un număr infinit de ori. O alternativă şi în acelaşi timp şi un foarte popular mod de a definii axele de coordonate ale semnăturii, este de a lua unghiul dintre linia care uneşte punctul curent şi centrul de greutate al formei, şi un vector de referinţă sau o axă. Acest mod de abordare prezintă inconvenientul că pentru un unghi dat se poate obţine mai mult decât un punct de intersecţie. Pentru a împiedica această problemă, este definită o parametrizare a semnăturii bazată pe unghiuri prin variaţia continuă a unghiului dintre linia de referinţă şi linia de rotaţie. În cazul în care linia curentă intersectează conturul formei în mai mult de un punct, unele funcţii ale punctelor intersectate pot fi luate ca valorile semnăturii respective. De exemplu, semnătura poate fi calculată ca maximul, minimul sau valoarea medie până la centrul de greutate, cu referire la toate punctele intersectate definite de fiecare unghi. Rezultatele semnăturii sunt periodice în cazul curbelor închise. Semnăturile bazate pe regiuni pot fi de asemenea obţinute dintr-un semnal 1D, dar ele folosesc întreaga informaţie din formă. Un exemplu al acestei posibilităţi este folosirea semnăturilor bazate pe proiecţii, care sunt definite prin proiectarea valorilor pixelilor din imagine de-a lungul unei linii perpendiculare pe o orientare de referinţă. Acest concept este apropiat de transformata Hough.
85
Fig.8.6 figura originală (a) şi distanţa până la centru bazată pe semnătură 14.Descriptori topologici Formele pot fi analizate şi luând în considerare aspectele lor structurale, nu numai caracteristicile metrice. Un exemplu de aspect structural este şi prezenţa golurilor într-o formă. Câteva dintre cele mai importante caracteristici topologice folosite pentru analiza formelor sunt: - numărul de goluri NH; -numărul de componente conectate NC. Este important de reţinut că această caracteristică se aplică formelor compuse (ex. recunoaşterea caracterelor arabe); - numărul lui Euler, care este definit ca E=NC-NH. 15.Aproximarea poligonală-descriptor de bază al formei Odată ce conturul formei a fost reprezentat printr-un poligon, următoarele caracteristici ale formei pot fi extrase prin proceduri directe: - numărul de colţuri sau vârfuri; - valorile statistice ale unghiului şi a laturilor (mijlocul, media, variaţia şi momentele); - lungimea maximă şi minimă a laturilor; - raportul maxim şi minim dintre laturi; - raportul maxim şi minim dintre unghiuri; - raportul dintre cel mai mare unghi şi sume celorlalte unghiuri; - raportul dintre deviaţia standard a laturilor şi unghiurilor; - măsurarea simetriei. Măsurarea simetriei pentru segmentele poligonale este definită L t t A prin: S = ∫ ( ∫ k (l )dl − )dt unde t este un parametru de-a lungul curbei, ∫ k (l )dl este măsura 0 0 0 2 schimbării unghiulare până la t, A este numărul total de schimbării unghiulare a segmentului curbei şi L este lungimea segmentului curbei. 16.Descriptori ai formei bazaţi pe regiuni, texturi şi grafuri Neomogenitatea dintr-o imagine implică şi existenţa mai multor tipuri de caracteristici ale imaginii care redau independent informaţii celui care le vede. Deşi variaţia dintre diferite imagini poate fi mare, totuşi un număr destul de mare de imagini poate fi caracterizat de un număr mic de tipuri de caracteristici. Acestea sunt de obicei reţinute sub forma a trei categorii: regiuni, texturi şi muchii. În continuare vă vom prezenta caracteristicile principale ale celor trei categorii enumerate. Regiunile netede de obicei cuprind cea mai mare parte a unei imagini deoarece suprafeţele unor obiecte artificiale sau naturale, când sunt privite de la distanţă, par a fi netede. Un model simplu pentru o regiune netedă este alocarea unui nivel constant de gri unui domeniu determinat. În opoziţie cu regiunile, muchiile cuprind numai o parte foarte mică din aria unei imagini. Fără îndoială cea mai mare parte a informaţiilor este conţinută de acestea. Acest lucru este uşor de realizat dacă se priveşte o hartă a muchiilor dintr-o imagine, după detecţia acestora, se poate uşor deduce conţinutul original al imaginii, numai din reprezentarea muchiilor. Datorită faptului că
86
muchiile reprezintă locaţii ale unei treceri abrupte a valorii nivelelor de gri între regiuni adiacente, cel mai simplu model de muchie este deci o variabilă random de înaltă frecvenţă, în opoziţie cu modelul regiunilor care foloseşte random de joasă frecvenţă. Oricum, acest model simplu nu ia în considerare constrângerea structurală din muchii, ceea ce poate conduce la confuzia acestora cu regiunile care au aceeaşi frecvenţă. Modelele de muchii mai sofisticate includ modelul faţetă, care aproximează diferite regiuni cu valori constante ale nivelului de gri din jurul muchiilor cu diferite funcţii continue. Mai există şi modelul de profil al muchiei, care descrie secţiunea unidimensională a muchiei în direcţia variaţiei maxime a nivelului de gri. Au fost făcute încercări de a modela acest profil folosind o funcţie treaptă şi diferite funcţii monoton crescătoare. Oricum, aceste modele caracterizează cel mai mult amplitudinea valorii de tranziţie a nivelului de gri din locaţia muchiilor. Diagrama muchiilor în termenii trecerii prin zero a celei de-a doua derivate, obţinută printr-o filtrare Log (Laplacian of Gaussian) caracterizează poziţia muchiilor într-o imagine.
Modelul faţetă
Modelul profilului muchiilor
Modelul trecerii prin zero
Fig.8.7
Apariţia texturilor este de obicei datorată prezenţei unui obiect natural în imagine. Texturile de obicei au o apariţie „zgomotoasă”, deşi ele sunt diferite în mod evident de zgomot, deoarece în acestea există, de obicei, anumite forme care se disting între ele. Datorită acestei apariţii „zgomotoase” este normal ca acest model al texturii să folosească un câmp random bidimensional. Cel mai simplu mod de abordare este să foloseşti variabile distribuite independent şi identic, cu variaţii apropiate. Identificarea diferitelor planuri de informaţii conţinute în texturi este o problemă foarte importantă în cadrul problemelor de analiză de imagini. Această problemă poate fi abordată atât într-un mod global, cât şi într-un mod local. Abordarea din punct de vedere global implică identificarea punctelor care dispar din gradientul texturii sau din informaţia spectrală. Această metodă se învârte în jurul analizei structurale a texturii pre-segmentate, dar totuşi nu se potriveşte prea mult în analiza scenelor care conţin mai multe plane. Un alt mod de abordare este şi măsurarea distorsiunilor spectrale pentru a putea face o estimare locală a parametrilor pozaţi. În acest caz există un număr de caracteristici locale ale domeniului de frecvenţă care pot folosi funcţiile Gabor[2]1sau distribuţia Wigner[3]2.Metodele domeniului Fourier pentru analiza formelor din texturi se învârt în jurul simplificării din punct de vedere geometric, pentru a obţine măsuri ale distorsiunilor affine locale ale texturii. Una dintre metodele de acest tip, considerate în literatura de specialitate, este metoda realizată de Krumm şi Shafer’s[4]3.Această metodă foloseşte proiecţia spectrală pentru a estima orientarea locală a suprafeţei. Acest lucru se realizează prin regăsirea parametrilor proiecţiei affine care minimizează numeric suma pătratelor diferite din spectrul local. Odată ce parametrii fixaţi au fost reţinuţi, fiecare spectru local de putere este din nou proiectat într-un plan paralel. Planele texturii sunt segmentate folosind o dendrogramă bazată pe metoda ciorchinelui Figurile pot fi reprezentate şi cu ajutorul regiunilor sau al grafurilor. În aceste situaţii pot fi extrase foarte uşor următoarele caracteristici ale formei: 1
M.R.Turner „Texture discrimination by gabor function”, Biological Cybernetics, Nr. 55, 1986, pag.271 T.R.Reed, H.Wechler „Segmentation of textured images and gestalt organisation using spatial/spectral frequency”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Nr.12(1),1986, pag 1-12 3 J.Krumm, S.A.Shafer „Texture segmentation and shape in the same image”, IEEE International Conference on Computer Vision, 1995, pag. 121-127 2
87
- numărul de părţi care constituie figura; - numărul de joncţiuni; - numărul de extremităţi; - numărul de ramuri; - mărimile ramurilor; - statistica geodezică; - statistica transformărilor de distanţă. 17.Descriptori simpli ai complexităţii O proprietate a formelor este complexitatea. În multe situaţii se apelează la aceasta pentru a putea clasifica obiectele. De exemplu, neuronii au fost organizaţi în clase morfologice luând în considerare complexitatea formei lor (în special arborele dendritic). În timp ce complexitatea este, într-un fel, un concept ambiguu, este interesant să fie legată de alte proprietăţi geometrice cum ar fi suprafaţa de acoperire spaţială. Acest concept este cunoscut şi ca „space-filling capability", ceea ce indică capacitatea entităţilor biologice de a interacţiona sau de a umple spaţiul din jur. Cu alte cuvinte, acoperirea spaţială defineşte interfaţa figurii cu mediul extern ceea ce determină capacităţi importante ale entităţilor biologice. Un alt exemplu ar fi faptul că o bacterie cu o formă cât mai complexă (şi deci cu o acoperire spaţială mai mare) va găsi mai probabil mâncare decât una cu o formă simplă. La o scară mai mare, putem spune că acea cantitate de apă pe care o absoarbe un copac este legată de suprafaţa pe care se întind rădăcinile sale, de complexitatea acestora. Complexitatea este legată de acoperirea spaţială în sensul că, cu cât este mai complexă figura, cu atât este mai mare capacitatea de acoperire spaţială. Fiind P şi A perimetrul figurii, respectiv aria sa, câteva măsuri ale complexităţii pot fi definite astfel: * circularitatea definită ca P2/A; * raportul de subţiere este invers proporţional cu circularitatea şi se defineşte ca fiind A 4 ⋅π ( 2 ) ; P *raportul dintre arie şi perimetru A/P ;
*(
P − P 2 − 4π ⋅ A
P + P 2 − 4π ⋅ A [O’Higgins,1997];
)
reprezintă o relaţie între raportul de subţiere şi circularitate
*ortogonalitatea este definită ca
(8.13) A , unde MER reprezintă minimul de dreptunghiuri area(MER)
închise; *temperatura unui contur este definită ca fiind T = (log 2 (
2P )) −1 , unde H este perimetrul P−H
componentei convexe a formei; *textura, analiza texturii din imagine este o importantă parte ea însăşi, dar poate fi folosită şi ca un mijloc de a defini caracteristicile formei. Tehnicile de analiză a texturii produc un rezultat calculând pixel cu pixel, astfel că valoarea unui pixel obţinut este relaţionată de textura din jurul lui din imaginea iniţială.
8.2.2 Caracteristici de tip transformare În multe cazuri procesarea imaginilor se realizează în domeniul spaţial. Oricum se poate dori să se realizeze o prelucrare a imaginii în domeniul frecvenţelor pentru a se îndepărta frecvenţele informaţiilor nedorite înainte de a analiza imaginea. Zgomotul adăugat unei imagini are în general un spectru de frecvenţe mai mare decât componentele imaginii normale, acest lucru este determinat de decorelarea spaţială a componentelor sale. Printr-o filtrare trece jos în domeniul spaţial sau în 88
domeniul frecvenţelor spaţiale se poate suprima o mare parte a sa. Nu există deosebiri între rezultatele obţinute prin filtrarea în domeniul spaţial şi filtrarea în domeniul Fourier, alegerea fiind dată de considerente de implementare. Totuşi procesarea în domeniul Fourier, spre deosebire de convoluţie ne permite o privire cantitativă şi intuitivă în natura procesului de zgomot, utilă în proiectarea filtrelor de suprimare a zgomotului în domeniul spaţial.
8.2.2.1 Transformata Fourier – procesarea în domeniul frecvenţelor După cum s-a prezentat şi în capitolele anterioare transformata Fourier este un important instrument de procesare a imaginii care este folosit pentru a descompune o imagine în componentele ei sinus şi cosinus. Rezultatul transformării este reprezentat de o imagine în domeniul Fourier, sau domeniul frecvenţelor, în timp ce imaginea de intrare este echivalenta din domeniul spaţial. Această transformată produce la ieşire o imagine formată din valori complexe care poate fi reprezentată cu două imagini, fie partea reală şi cea imaginară, sau cu amplitudine şi fază. În procesarea imaginilor, de cele mai multe ori numai amplitudinea este reprezentată, deoarece conţine cele mai multe informaţii ale structurii geometrice din imaginea spaţială. Oricum, dacă se doreşte re-transformarea imaginii Fourier în imaginea corectă din domeniul spaţial, după unele procesări realizate în domeniul frecvenţelor, trebuie să se ţină cont atât de amplitudinea cât şi de faza din imaginea Fourier. Transformările de imagini furnizează informaţii din domeniul frecvenţă, folosind caracteristicile de transformare, care se extrag prin filtrarea zonală a imaginii transformate. Filtrele zonale se numesc “filtre mască” şi reprezintă, în spaţiul bidimensional al frecvenţelor spaţiale, “ferestre” de diferite dimensiuni şi forme, cu ajutorul cărora este selectat un anumit domeniu al frecvenţelor spaţiale. În general, informaţia de înaltă frecvenţă poate fi folosită pentru detectarea muchiilor sau a contururilor, iar măştile unghiulare pentru determinarea orientării. De exemplu, o imagine care conţine linii paralele de orientare θ va avea energie mare de-a lungul unei linii la un unghi π/2+θ, trecând prin originea transformării Fourier bidimensionale. Fundamentul tehnicilor în domeniul frecvenţelor spaţiale îl constituie teorema de convoluţie. Fie g(x,y) o imagine rezultată prin convoluţia imaginii f(x,y) şi un operator invariant la deplasare h(x,y) adică: g(x,y)=h(x,y)*f(x,y) (8.14) Conform teoremei de convoluţie se ştie că în domeniul frecvenţă se obţine relaţia: G(u,v)=H(u,v)F(u,v), unde G,H,F sunt transformatele Fourier ale funcţiilor spaţiale g, h şi respectiv f. Transformata H(u,v) este numită funcţie de transfer a procesului. În aplicaţiile tipice de îmbunătăţire a imaginilor este dată funcţia imagine f(x,y), iar scopul după calcularea transformatei Fourier F(u,v) este de a selecta H(u,v) astfel încât imaginea dorită dată de −1 g ( x, y ) = ℑ {H (u, v) ⋅ F (u, v)} să îndeplinească anumite condiţii. De exemplu accentuarea muchiilor din f(x,y) se poate face folosind o funcţie H(u,v) care să favorizeze componentele de înaltă frecvenţă din F(u,v). Teorema de convoluţie impune ca H(u,v) şi h(x,y) să fie de aceleaşi dimensiuni, dacă H(u,v) este de mărime 256*256 la fel să fie şi h(x,y) pentru a obţine acelaşi rezultat prin filtrarea în domeniul spaţial ca în cazul filtrării în domeniul frecvenţă. Convoluţia cu măşti de asemenea dimensiuni se realizează mult mai eficient în domeniul frecvenţă. Analiza armonică este cunoscută şi drept analiză spectrală sau desfăşurarea imaginii. Aceasta începe prin conversia conturului într-o funcţie unghiulară sau ρ(ϕ). Aceasta permite determinarea termenilor ai şi bi din seria: ρ(ϕ)=a0+a1cos(ϕ)+b1sin(ϕ)+a2cos(2ϕ)+b2sin(2ϕ)+… . (8.15) Această serie este infinită, sau cel puţin continuă cu atât de mulţi termeni câţi sunt pe margine. Oricum, este o caracteristică a analizei Fourier faptul că numai primii termeni sunt necesari pentru a păstra cele mai multe detalii despre caracteristicile formei. După cum se arată în figura 8.10 cu numai 10-25 de termeni din serie, forma originală poate fi refăcută cu o precizie foarte mare. În cele mai multe cazuri, informaţia de fază δi pentru fiecare termen din serie poate fi ignorată fără a crea
89
2
prea mare efect, şi un singur coeficient ci poate fi folosit pentru fiecare frecvenţă. ci = ai + bi
ρ (ϕ ) = ∑ ci ⋅ sin( 2πiϕ − δ i )
2
şi
(8.16)
Primele câteva valori ale lui c din reprezentarea Fourier a conturului conţin o mare cantitate de informaţii despre caracteristicile formei.
8.2.2.2 Descriptorii Fourier (DF) Descriptorii Fourier sunt una dintre cele mai cunoscute metode de reprezentare a formelor în cadrul aplicaţiilor de vizualizare sau de recunoaştere folosind şabloane. Ar trebui să ne gândim că descriptorii Fourier se referă la o clasă de metode, nu la o singură metodă, deoarece există multe feluri diferite în care pot fi definiţi aceşti descriptori ai unei forme. Ideea principală care stă la baza acestui tip de metode se referă la faptul că, forma care ne interesează se prezintă sub forma unor semnale 1D sau 2D, apoi este calculată transformata Fourier a acestor semnale, şi se extrag descriptorii Fourier din această reprezentare. Aceşti descriptori au fost propuşi pentru prima dată de R.L.Cosgriff în 1960, şi au devenit cunoscuţi mai târziu, prin lucrările lui Gosta H.Granlund referitoare la recunoaşterea formelor folosind modele.Proprietăţile acestora sunt prezentate mai jos: *simplitatea implementării şi eficienţa calculului Orice definiţie a descriptorilor Fourier poate fi exprimată prin aplicarea transformatei Fourier N −1
FD(s) = ∑ u(n)e − j 2πns / N , s=0,1…N-1;
(8.17)
t =0
*cea mai mare cantitate de informaţie din contur este concentrată de-a lungul primei componente, cea de joasă frecvenţă. Este cunoscut faptul că cea mai mare parte din energia conturului obţinută din obiect în aplicaţiile de analiză de imagini se concentrează în coeficienţii de joasă frecvenţă.
Fig.8.8 un neuron artificial
Fig.8.9 Semnalele şi descriptorii Fourier (modulul şi faza)obţinuţi din conturul formei din fig 8.8
90
Fig.8.10 reconstrucţia formei din figura 8.8 prin folosirea a 2i coeficienţi,pentru i=10,30,60,100
*pot fi obţinute câteva caracteristici adiţionale din descriptorii Fourier. Fondul matematic al teoriei analizei Fourier furnizează un set larg de instrumente pentru analiza formelor. De exemplu, este posibil să evaluezi câteva măsuri ale formei direct din descriptorii Fourier. Au fost propuse multe moduri de abordare a analizei formelor bazate pe tehnica Fourier, şi acestea pot fi denumite toate descriptori Fourier. Dacă u(n) reprezintă conturul şi U(s) transformata Fourier, atunci U(s) este definită ca fiind 2π
− j sn 1 N −1 U (s) = ∑u(n)e N s=-N/2+1,…,N/2. N n=0
(8.18)
Această serie Fourier a lui u(n) poate fi folosită pentru a defini un set de descriptori invarianţi la translaţie, la rotaţie sau la shimbarea parametrilor. Aceşti descriptori Fourier pot fi definiţi ca: 0, s = 0 . NFD au fost aplicaţi pentru caracterizarea FD(s)=|NFD(s)| cu NFD( s ) = U ( s ) / U (1), s ≠ 0 formelor din cadrul imaginilor mamografice[Sken 1994]. Au fost folosiţi pentru a defini un alt descriptor:
N /2 NFD ( s ) / s ∑ s = ( N / 2 ) +1 FF = . N /2 NFD ( s ) ∑
(8.19)
s = − ( N / 2 ) +1
Autorii lucrării în care a apărut acest descriptor au susţinut că acesta este mai puţin sensibil la zgomotul de înaltă frecvenţă. Mai mult, valorile acestuia sunt cuprinse în intervalul [0.1]. În ciuda succesului pe care îl are, abordarea analizei armonice a fost puţin folosită în afara studiilor prin sedimentare. Principala cauză este faptul că termenii de frecvenţă nu au corespondent în concepţia umană. Informaţiile despre forme pe care noi le extragem vizual din imagine nu dezvăluie aceşti factori numerici. Distincţia dintre două sedimente bazate pe armonica a 7-a poate fi înţeleasă oarecum ca şi prezenţa frecvenţei în neregularităţile conturului obiectului, dar pentru 91
observatorul uman aceasta este mascată de alte variabile. Succesele pe care le au programele actuale bazate pe algoritmii de măsurare au reuşit să depăşească îndemânarea umană nu numai cantitativ (în termeni de exactitate şi precizie), dar şi calitativ (în termeni de tipuri de lucruri care pot fi măsurate). Dar acest lucru nu înseamnă că omenirea se simte confortabil folosind aceste instrumente. Analiza armonică foloseşte caracteristici sau trăsături ale formei care sunt destul de diferite de cele pe care le foloseşte viziunea umană. Pe de altă parte, parametrii topologici sunt cei care par mult mai evidenţi pentru cei mai mulţi dintre observatori. Când se cere să se diferenţieze stelele de pe steagul american, australian sau israelian nu se vorbeşte despre dimensiuni şi unghiuri, ci despre număr de puncte. Cea mai evidentă diferenţă între un disc şi litera ‘O’ nu este forma eliptică a literei, ci prezenţa centrului gol. Proprietăţile topologice sunt puţin diferite de cele metrice. Dacă figura a fost desenată pe o bucată de cauciuc, întinderea ei până la orice mărime cu orice distorsiune nu va schimba topologia.
8.3 Identificarea trăsăturilor Recunoaşterea sau identificarea trăsăturilor într-o imagine este un subiect foarte bogat şi în acelaşi timp foarte complicat. Implementările care utilizează logica vagă sau reţele neuronale pentru a combina informaţiile de intrare, toate încep prin realizarea măsurărilor care au fost prezentate în această lucrare. Aceste metode sunt folosite pentru a recunoaşte feţe, ţinte militare din fotografiile făcute din avion, amprente şi în sarcinile zilnice cum ar fi citirea unui text tipărit sau scris cu mâna. Multe sisteme oferă o clasificare rudimenară a trăsăturilor bazată fie pe valorile limită de intrare date de utilizator, fie pe datele măsurate pe un set de trăsături de exerciţiu. Multe dintre acestea pot să folosească diferiţi parametrii, şi pot opera într-un spaţiu de mari dimensiuni unde clasele sunt descrise geometric, de obicei ca nişte cutii sau elipse. De exemplu, se consideră 4 clase de obiecte de exerciţiu (fig 8.11) şi se realizează măsurători asupra acestora. Nu există o singură mărime sau un singur parametru care să le distingă pe cele 4 clase, dar combinaţia a doi parametrii (aria şi factorul de formă) poate determina o primă diferenţă. Măsurările individuale sunt prezentate în figura 8.12, pentru a arăta ciochinele de puncte. Unele programe pot determina adunări de puncte pentru a găsi o clasificare, dar în exemplu dat se presupune că obiectele de exerciţiu sunt deja cunoscute şi cele 4 clase sunt stabilite. În acest exemplu bidimensional ar fi posibil să descrii clasele prin împărţirea spaţiului în regiuni cu contururi simple (poligoane). Oricum, un mod de abordare mult mai flexibil, care este chiar şi mai uşor de calculat este să determini media şi deviaţia standard a valorilor parametrilor măsuraţi pentru fiecare grupă de exerciţiu, şi să se folosească acestea pentru a desena elipse. Cele desenate în figură au axa mare şi cea mică egală cu de două ori deviaţia standard a datelor, aşa că se aşteaptă ca un procent destul de mic dintre puncte să fie în afara elipselor. fig.8.11 un exemplu cu patru clase de antrenament cu trăsături diferite. Două dintre acestea au aceiaşi formă, dar diferă mărimea, în timp ce celelalte au aceiaşi mărime,dar diferă forma. Nu este de ajuns să se măsoare doar un singur parametru pentru a le putea clasifica.
92
fig.8.12 o reprezentare a valorii ariei şi a factorului de formă care au fost calculate pentru formele prezentate în figura 2.11, fiecare este codată cu ajutorul unei culori în funcţie de clasă.
Obiectele necunoscute sunt reprezentate şi măsurate după cum se arată în figura 8.13. Valorile măsurate pentru aceeaşi parametrii sunt reţinute într-un graf şi distanţa de la centru la fiecare elipsă este măsurată. Cea mai apropiată clasă este raportată ca şi identificare (în acest exemplu prin colorarea trăsăturii în imagine). Dacă punctul nu este în elipsă atunci identificarea este marcată să indice un grad mai scăzut de încredere (liniile negre din jurul formelor din figură). Fig.8.13 Un exemplu de forme necunoscute care trebuie identificate folosind reprezentarea din figura 8.12. Codurile de culoare identifică clasa a cărei valoare medie a ariei şi a factorului de formă este mai apropiată de cea obţinută pentru o formă necunoscută care a fost măsurată.
Acest mod de abordare este extrem de rapid de aplicat, poate urca uşor şi la dimensiuni mai mari (mai mulţi parametrii măsuraţi) şi permite ca noi clase să fie adăugate uşor, prin măsurarea unei noi populaţii de obiecte de exerciţiu, dar, în acelaşi timp, are şi multe limitări. Selectarea măsurării celui mai bun parametru pentru a distinge clase variate este departe de a fi simplă, iar în exemplul dat acest lucru a fost lăsat pe baza judecăţii umane. Există însă unele metode statistice care sunt capabile să sorteze dintr-un număr mare de parametrii măsurabili cel mai economic set pentru a-l folosi. Altă limitare este şi presupunerea că ciorchinele de puncte, pentru fiecare clasă, este descris de deviaţia medie şi standard. De fapt, acest lucru este observat în cazul măsurărilor de mărime (sau uneori pentru logaritmii valorilor mărimii), dar rareori pentru parametrii de formă sau pentru valorile culorii sau densităţii. Este posibil să se facă modele “non-parametrice” pentru clase, de exemplu prin construirea unei histograme n-dimensionale de observaţii, dar acest lucru se apropie de o implementare logică a tehnicilor de identificare, şi se cer mult mai multe observaţii în seturile de exerciţiu. A treia limitare este bineînţeles cerinţa setului de exerciţiu. Selectarea unei populaţii de forme reprezentative din fiecare clasă, care sunt echilibrate statistic, şi includerea tuturor variantelor este foarte dificil de realizat. Folosirea unei populaţii de exerciţiu mare poate deveni consumatoare de timp sau foarte scumpă, şi a unei populaţii mici poate fi chiar părtinitoare. Spre deosebire de alte moduri de clasificare, această metodă nu poate învăţa din greşelile ei sau nu se poate îmbogăţi prin experienţă. 93
O altă limitare este şi faptul că distanţa de la un punct măsurat la centru fiecărei clase are însemnătate specială. Pentru un necunoscător calcularea acestei distanţe se ridică la presupunerea că măsurarea spaţiului este ortogonală şi toate axele de distanţă au aceiaşi însemnătate. De exemplu, de ce trebuie o diferenţă de 0,1 a factorului de formă să aibă aceeaşi importanţă cu o diferenţă de 0,1 a mărimii? Şi, dacă se întâmplă ca factorul de formă să folosească parametrii de mărime (dacă lungimea şi rotunjimea ar fi cele două axe din exemplul precedent), este echivalent cu un graf de axe care nu sunt carteziene, sau cu o elipsă a cărei axă mare şi mică nu sunt paralele cu axele parametrice. Este uşor să enumeri slăbiciunile acestui mod simplu şi direct de abordare, dar de asemenea este adevărat că multe dintre problemele de clasificare automată, pentru care este folosită analiza de imagini, sunt destul de simple astfel că aceste metode funcţionează. Implementare unei metode mult mai riguroase, bazată pe mai multe tehnici statistice, este întotdeauna o opţiune atunci când este nevoie să se rezolve probleme mai complicate.
8.4 Extragerea trăsăturilor Problema extragerii trăsăturilor implică două probleme importante: cum să vizualizezi şi să organizezi trăsăturile; ce trăsături să extragi şi cum să măsori trăsăturile selectate ale obiectelor.
8.4.1 Organizarea şi vizualizarea trăsăturilor Datorită faptului că problema analizei datelor implică multe observaţii, este important să fie organizate aceste date într-un mod sensibil, înainte de a fi prezentate şi analizate de oameni sau de aparate. Unul dintre cele mai tradiţionale modele este acela în care se foloseşte un tabel în care obiectele sunt reprezentate pe linie, iar trăsăturile pe coloană.
8.4.2 Selecţia trăsăturilor Procesul de selectare al trăsăturilor potrivite a fost de multe ori identificat ca fiind mai critic decât algoritmii de clasificare. De aceea nu există reguli definitive, universal valabile, pentru a defini ce trăsături trebuie folosite în fiecare situaţie specifică. Există totuşi câteva repere care ne sunt folositoare în rezolvarea acestor probleme: *să se caute întotdeauna trăsături discriminative ale obiectelor luate în considerare; *să se ocolească trăsăturile cu un coeficient de corelaţie mare; *să se păstreze numărul de trăsături cât de mic este posibil; *să se considere frecvent, dar nu întotdeauna, trăsături care sunt invariante la unele transformări geometrice; *să se folosească trăsături care pot fi măsurate obiectiv prin diferite metode fără a implica prea mulţi parametrii.
8.4.3 Clasificarea Clasificarea include un domeniu larg de decizii teoretice care se folosesc pentru identificarea imaginilor sau a părţilor componente ale acesteia. Toţi algoritmii de clasificare se bazează pe presupunerea că imaginea analizată este descrisă de una sau mai multe caracteristici, şi fiecare dintre aceste trăsături aparţine uneia dintre clasele distincte. Aceste clase pot fi specificate apriori de un analist (se realizează în cazul clasificării supravegheate), sau trăsăturile determinate sunt adunate automat într-un set de clase prototip în cadrul căruia analistul specifică numai numărul de categorii dorite (clasificare nesupravegheată). În cadrul clasificării imaginilor se analizează proprietăţile numerice a unor trăsături variate ale imaginilor şi datele obţinute se organizează în categorii. Algoritmii tipici de clasificare au două faze: faza de pregătire (training) şi faza de testare (testing). În prima fază, cea de pregătire, proprietăţile caracteristice ale trăsăturilor imaginii sunt izolate, şi, pe baza acestora, este creată o descriere unică a fiecărei categorii clasificate. Ulterior, în faza de testare, aceste partiţii ale proprietăţilor sunt folosite pentru a clasifica trăsăturile imaginilor. 94
O componentă foarte importantă a procesului de clasificare o reprezintă descrierea claselor de pregătire. În cadrul clasificării supravegheate pot fi folosite, pentru a extrage descriptorii diferitelor clase, procesele statistice (ex. cele bazate pe cunoaşterea apriori a probabilităţii de distribuţie a funcţiilor) sau procesele de distribuţie liberă. În timp ce clasificarea nesupravegheată se bazează pe algoritmi de adunare care segmentează automat datele de pregătire în clase prototip. În ambele cazuri criteriul motivaţional care stă la baza construirii claselor de pregătire este reprezentat de faptul că acestea trebuie să fie: - independente- schimbarea descrierii unei clase de pregătire trebuie să nu schimbe valoarea alteia; - descriminatorii- diferite trăsături ale imaginii trebuie să aibă descrieri semnificative diferite; - de încredere - toate trăsăturile imaginii din cadrul unui grup de pregătire trebuie să împărtăşească descrierile comune definitorii ale acelui grup. O modalitate convenabilă de a realiza o descriere parametrică a acestui model este printr-un vector de trăsături (v1, v2, ...,vn), unde n este numărul de atribute care descriu fiecare trăsătură a imaginii şi a clasei de pregătire. Această reprezentare ne permite să considerăm că fiecare trăsătură a imaginii ocupă un anumit punct, iar fiecare clasă de pregătire ocupă un subspaţiu dintr-un spaţiu de clasificare n-dimensional. Văzută în acest mod, problema clasificării este aceea de a determina cărui sub-spaţiu îi aparţine fiecare vector de trăsături.
8.5 Recunoaşterea formelor 8.5.1 Metode de recunoaştere cu decizie teoretică a)Metode de recunoaştere utilizând modele (şabloane) Una din primele şi cele mai simple metode de recunoaştere a formelor este potrivirea cu modelul. Fiecărei clase îi corespunde un model. Forma de clasificat este comparată cu acest model şi pe baza criteriului de clasificare stabilit în prealabil, forma de intrare se atribuie unei anumite clase. O astfel de abordare se utilizează mult în cazul dispozitivelor automate de recunoaştere a caracterelor şi a codurilor bancare. Criteriul de clasificare este un criteriu de similitudine a formei de intrare cu modelul. Pentru detectarea obiectului sau caracterului în imagine, aceasta este baleiată cu o fereastră(mască) ce reprezintă obiectul sau caracterul model până când modelul şi obiectul din imagine se suprapun. În cazul imaginilor binare, cel mai simplu criteriu de similitudine îl constituie numărul maxim de coincidenţe între pixelii şablonului şi pixelii porţiunii de imagine comparate cu şablonul. Metoda este afectată de zgomot, distorsiuni şi rotiri de imagine şi nu poate fi aplicată atunci când imaginea este cuantizată în mai multe nuanţe de gri. În acest caz se adoptă drept criteriu de similitudine fie distanţa D dintre şablon şi fereastra imagine, fie funcţia de corelaţie normalizată dintre şablon şi fereastra de imagine,R. Astfel, dacă GS este funcţia de gri pentru şablon şi GIo,Jo-funcţia nivel de gri pentru fereastra de imagine cu originea în punctul (Io, Jo)-originea ferestrei fiind în colţul din stânga sus: GS : MS x NS ->N GIo,Jo : MIo x NJo->N unde n1xn2 este dimensiunea imaginii, msxns este dimensiunea modelului. Funcţia distanţă D dintre şablon şi fereastra de imagine se defineşte prin: ms −1ns −1
D(i0 , j 0 ) = { ∑ ∑ [G s (i, j ) − Gi0 , j0 (i + i0 , j + j 0 )] 2 }1 / 2
(8.20)
i =0 j =0
Se consideră că obiectul din fereastra de imagine aparţine clasei şablonului dacă această distanţă este zero. Datorită prezenţei zgomotului, în loc de D(io,jo)=0, se adoptă criteriul D(io,jo)=minD(i,j)=TR , unde TR este un nivel prestabilit iar – 1
View more...
Comments