Original Article:
"https://www.cc.gatech.edu/~parikh/relative.html"

Atribute relative

Premiul Marr (pentru cea mai bună lucrare), 2011

Devi Parikh şi Kristen Grauman

motivation


Rezumat


"Atribute" vizuale care pot fi numite om pot beneficia de diferite sarcini de recunoaştere. Cu toate acestea, tehnici existente limitează aceste proprietăţi pînă la etichete categorice (de exemplu, o persoană "zâmbeşte" sau nu, o scenă este "uscată" sau nu), şi astfel nu reuşesc să captureze relaţii semantice mai generale. Noi propunem să modelăm atribute relative. Având în vedere datele de antrenare profesională care prevăd cum categorii de obiect/scena se referă în funcţie de atribute diferite, vom afla o funcţie de clasament pentru fiecare atribut. Funcţiile învăţate de ranjare prezic puterea relativă a fiecărei proprietăţi în imagini noi. Noi am construit apoi un model generativ în spaţiul comun de ranjare a atributelor de ieşire, şi propunem o nouă formă de învăţare de la zero, în care supraveghetorul se referă la categoria de obiect nevăzut prin obiecte vazut anterior, prin atributele acestora (de exemplu, "urşii sunt mai blănari decât girafe"). Noi aratăm în continuare modul în care atributele propuse relative permit descrieri mai bogate sub formă de text pentru imagini noi, care, în practică, sunt mult mai precise pentru interpretarea umană. Noi demonstrăm abordarea pe seturi de date de feţe şi de scene din natură, şi aratăm avantajele sale clare faţă de predicţie tradiţională a atributelor binare pentru aceste sarcini noi.


Motivatia


Atribute binare sunt restrictive si pot fi nenaturale. În exemplele de mai sus, în timp ce imaginea de pe partea de sus-stânga şi din dreapta-sus se poate caracteriza ca una naturală şi artificială, respectiv, ce aţi putea spune despre imaginea din centru sus? Singurul mod semnificativ pentru a o caracteriza este de a o descrie cu referinţă la alte imagini: este mai naturală decât imaginea din dreapta, dar mai mult artificială decât imaginea din stânga.


Propunere


În această lucrare, noi propunem să modelăm atribute relative. Spre deosebire de estimarea prezenţei unui atribut, un atribut relativ indică puterea a unui atribut într-o imagine cu privire la alte imagini. În afară de a fi mai natural, atributele relative oferă un mod mai bogat de comunicare, permiţând astfel accesul la supraveghere umană mai detaliată (şi potenţial mai mare de acurateţe a recunoaşterii), precum şi capacitatea de a genera mai multe descrieri informative de imagini noi.

Noi elaborăm o abordare care învaţă o funcţie de clasament pentru fiecare atribut, având în vedere constrângerile de similaritate relative pe perechi de exemple (sau mai mult, în general, o comandă parţială pe unele exemple). Funcţia de ranjare învăţată poate estima un grad real de apreciere pentru imagini care indică puterea relativă a prezenţei atributului în ele.

Noi introduce forme noi de învăţare de la zero şi de descriere a imaginii, care exploatează predicţii a atributelor relative.


Abordare


Învăţarea atributelor relative: fiecare atribut relativ este învăţat printr-o învăţare la rangul de formulare, supraveghere comparativă dată, după cum se arată mai jos:

rank

Distincţia între o funcţie de învăţare margine mare de rang (dreapta), care execută comanda dorită la puncte de antrenare (1-6), şi un clasificator de margine mare binară (stânga), care separă doar două clase (+ şi -), şi nu păstrează neapărat ordonarea dorită pe puncte prezentate mai jos:

classifier

Învăţare nouă de la zero: Noi studiem următoare instalare

  • Categoriile N total: categorii S văzute (imagini asociate sunt disponibile) + categorii U nevăzute (imagini nu sunt disponibile pentru aceste categorii)

  • Categorii S văzute sunt descrise faţă de celălalte prin atribute (nu toate perechi de categorii trebuie să fie legate de toate atributele)

  • Categorii U nevazute sunt descrise în raport cu (un subset de) categorii vazute din punct de vedere (un subset de) a atributului

Noi am instruit mai întâi un set de atribute relative care utilizează supravegherea prevăzută cu privire la categoriile văzute. Aceste atribute pot fi, de asemenea, pre-antrenate de date externe. Noi am construit apoi un model generativ (Gaussian) pentru fiecare categorie văzută folosind răspunsurile de atribute relative la imagini din categoriile văzute. Deducem apoi parametrii de modele generative de caregorii nevazute prin utilizarea descrierilor relative cu privire la categoriile văzute. Vom folosi o vizualizare de abordare simplă pentru acest lucru, care este demonstrat de mai jos:

shot

O imagine de testare este atribuită la categoria cu asemănare maximă.

Generarea automată a descierilor relative textuale de imagini: eu, luînd o imagine I ce trebuie să fie descrisă, noi evaluăm toate funcţiile de rang pe I. Pentru fiecare atribut, vom identifica două imagini de referinţă situate pe fiecare parte a I, care nu sunt prea departe sau prea aproape de la I. Imaginea I este apoi descrisă în raport cu aceste două imagini de referinţă, după cum se arată mai jos:

description

După cum sa văzut mai sus, în plus la descrierea imaginei în raport cu alte imagini, abordarea noastră poate descrie, de asemenea, o imagine în raport cu alte categorii, rezultând într-o descriere pur textuală. În mod evident, descrierile relative sunt mult mai precise şi informative decât descrierea binară convenţională.


Experimente şi Rezultate


Noi efectuăm experimente pe două seturi de date:

(1) Recunoaştere a scenei în aer liber (Outdoor Scene Recognition, sau OSR), care conţine 2688 de imagini din 8 categorii: coasta C, pădurea F, autostradă H, în interiorul oraşului I, munte M, panoramă deschisă O, strada S şi casă înaltă T. Vom utiliza caracteristicile esenţiale pentru a reprezenta imagini.

(2) Un subset al bazei de date cu pozele a persoanelor publice (Public Figures Face Database, sau PubFig), care conţine 772 de imagini din 8 categorii: Alex Rodriguez A, Clive Owen C, Hugh Laurie H, Jared Leto J, Miley Cyrus M, Scarlett Johansson S, Viggo Mortensen V şi Zac Efron Z. Noi folosim GIST caracteristici concatenate esenţiale şi de culoare pentru a reprezenta aceste imagini.

Lista de atribute utilizate pentru fiecare set de date, împreună cu binar şi adnotări de atribute relative sunt prezentate mai jos:

table

Învăţarea de la zero:

Noi comparăm abordarea noastră propusă pentru două linii de bază. Primele sunt atribute relative pe bază de scor (SRA, de la eng. Score-based Relative Attributes). Această linie de bază este aceeaşi ca şi în abordarea noastră, cu excepţia faptului că utilizează scorurile unui clasificator binar (atribute binare) în loc de scoruri a funcţie de ranjare. Linia de bază ajută la evaluarea de nevoia a funcţie de ranjare la cele mai bune atribute relative a modelului. A doua linia noastră de bază este Predicţii Atributelor Directe (DAP, de la eng. Direct Attribute Prediction), modelul introdus de Lampert et al. în CVPR 2009. Acest lucru ajută la evalurea iniţială a beneficiilor tratamentului relativ de atribute, spre deosebire de categorice. Noi am evaluat aceste abordări diferite pentru numerele din categoriile nevazute, diferite cantităţi de date utilizate pentru a antrena atributele, variind numărul de atribute utilizate pentru a descrie categoriile nevăzute, şi diferite niveluri de "slăbiciuni" în descrierea categoriilor nevăzute. Detalii despre instalare experimentală poate fi găsite în lucrarea noastră. Rezultatele sunt prezentate mai jos:

results

Descrieri de imagine auto-generate:

În scopul de a evalua calitatea de descrieri noastre de imagine în raport cu omologii binare, am realizat un studiu de imagini oameni. Noi am generat o descriere a unei imagini folosind abordarea noastră, precum şi atributele de bază binare. Noi am prezentat subiectele cu această descriere, împreună cu trei imagini. Una dintre cele trei imagini a fost imaginea care trebuia să fie descrisă. Sarcina subiecţilor a fost de a clasifica cele trei imagini pe care au crezut ca a fost cea mai probabil asemănătoare cu descriere. Cu cît e mai precisă descrierea, cu atît subiectele au şansele mai mari de a identifica imaginea corectă. O ilustrare a unei sarcini prezentate la subiecţi este prezentată mai jos:

study

Rezultatele studiului sunt prezentate mai jos. Vedem că subiecţii pot identifica imaginea corectă cu mai multă precizie cu ajutorul atributelor relative noastre propuse, comparativ cu atributele binare.

study

Exemplu de imagini cu descrieri binare, precum şi descrieri referitoare la categorii sunt prezentate mai jos:

Imagine

Binare descrieri

Descrieri relative

im1

nenaturală
închisă
perspectivă

Mai naturală decît o casă înaltă, dar mai puţin decît muntele,
mai deschisă pădurea
mai deschisă decît casă înaltă, dar mai închisă decît coasta, mai multă perspectivă decît la casă înaltă

im2

nenaturală
închisă
perspectivă

Mai naturală decît în interiorul oraşului, dar mai puţin decît autostrada, mai deshisă decît strada, dar mai puţin decît coasta, mai multă perspectivă decît pe autostradă, dar mai puţină decît în interiorul oraşului

im3

naturală
deschisă
perspectivă

Mai naturală decît o casă înaltă, dar mai puţin decît muntele,
mai deschisă decît muntele,
lmai puţină perspectivă decît într-o imagine cu cîmp deschis

im4

albă
fără zîmbet
frunte vizibilă

Mai alb decît AlexRodriguez
mai mult zîmbitoare decît JaredLeto, şi mai puţin decît ZacEfron
frunte mai vizibilă decît la JaredLeto, şi mai puţin vizibilă decît la MileyCyrus

im5

albă
fără zîmbet
frunte nu este vizibilă

Mai alb decît AlexRodriguez, mai puţin alb decît MileyCyrus
mai puţin zîmbitor decît HughLaurie
frunte mai vizibilă decît la ZacEfron, lşi mai puţin vizibilă decăt la MileyCyrus

im6

Nu este tînăr
gene dense
faţă rotundă

mai tânăr decât CliveOwen, mai tânăr decât ScarlettJohansson
gene mai mult dense decît la ZacEfron, mai puţin dense decât la AlexRodriguez
Faţă rotundă mai mult decît la CliveOwen, mai puţin rătundă decît la ZacEfron

Datele


Noi oferim atributele relative învăţate şi previziunile lor pentru cele două seturi de date utilizate în lucrarea noastră: Recunoaştere a scenei în aer liber (OSR, Outdoor Scene Recognition) şi subset de date a pozelor cu personalităţi publice (PubFig, Public Figures Face Database ().

README

Download


Codul


Noi am modificat implementarea RankSVM lui Olivier Chappelle pentru a instrui atribute relative cu constrângeri de similaritate. Codul nostru modificat poate fi găsit aici – here.

Dacă utilizaţi codul nostru, vă rugăm să citaţi lucrarea următoare.


Publicaţii


D. Parikh şi K. Grauman

Atribute relative