La visió d'una màquina
Tota mena d'aparells creats pels humans han après a detectar objectes o persones, però encara no saben comprendre les imatges que capten
Veure-hi, observar i entendre el que veiem és un procés que les persones fem amb tanta naturalitat que a vegades se’ns fa difícil imaginar com n’és de complex per a les màquines. La ciència ha invertit més de 60 anys en desenvolupar tecnologia per fer que les màquines observin el seu entorn i el comprenguin. Hem avançat enormement i, tot i això, encara són a les beceroles del que ens agradaria que fessin. A les pel·lícules i als llibres les màquines hi veuen com nosaltres, però no és cert.
Per veure-hi, les màquines necessiten adquirir imatges i saber-les interpretar. Per captar imatges, els ulls de les màquines sovint són càmeres. Una gran part del desenvolupament de la tecnologia de les càmeres digitals la devem a la carrera espacial, durant la qual es buscaven maneres de posicionar els coets a l’espai mirant els estels. Per a les màquines, les imatges estan formades per milers de punts. Comparat amb les primeres càmeres en blanc i negre i amb poca resolució (imatges petites amb pocs punts), actualment disposem de càmeres de color, molt ràpides i amb molta resolució. Avui fins i tot disposem de càmeres que poden captar la profunditat de cada punt. Ja es veu que és informació molt valuosa si volem, per exemple, navegar sense col·lisions, o agafar coses.
La visió artificial
Les màquines fan operacions matemàtiques sobre les imatges per extreure’n informació. Això és el que anomenem visió artificial. Amb la tecnologia clàssica, el que es fa és buscar característiques com, per exemple, cantonades (per saber on acaba una taula), taques de color (per localitzar peces) o ulls i boques (per detectar si hi ha una cara a la imatge). En l'actualitat, en aquest camp hi ha una revolució gràcies a l’aparició de les xarxes neuronals profundes, que s’entrenen amb milions d’imatges per tal que aprenguin a detectar objectes. És la mateixa tecnologia que hi ha darrere dels actuals assistents de veu o els traductors automàtics de text.
De les màquines i els robots, però, n’esperem que facin coses, que es moguin o que ens portin coses; en definitiva, que interaccionin amb l’entorn. En entorns controlats això és relativament senzill. Per exemple, en una fàbrica sabem exactament on són les peces que hem de veure o el cotxe que cal soldar o pintar, i en coneixem la mida, la forma i els colors. En canvi, en entorns poc controlats, com ara el carrer o l'interior d'una casa, sovint aquesta informació no es té i la tasca esdevé molt més difícil.
Trobar objectes i manipular roba
Dos dels projectes d’investigació en què treballem actualment a l’Institut de Robòtica i Informàtica Industrial (IRI) ens n’ofereixen bons exemples. Al projecte ROB-IN investiguem com un robot podria ajudar les persones grans que viuen soles. Clarament, aquest és un entorn poc controlat, on no sabem a priori on és la persona o si n’hi ha d’altres que l’acompanyen. No sabem on seran els objectes o si hi haurà llums oberts, per exemple. Ens agradaria que el robot recollís el que ens ha caigut o busqués les claus o les ulleres que no sabem on hem deixat. Per això cal que el robot sàpiga trobar els objectes dins de casa i, sobretot, proveir-se de prou informació per poder agafar-los. Nosaltres ho fem ensenyant prèviament els objectes al robot, ja que generalitzar-ho per a qualsevol objecte ara mateix no és viable. El robot també ha de saber què està fent la persona o si està acompanyada, ja que en aquest cas potser no volem que interrompi l’activitat. Pel que fa a la detecció de persones, en canvi, hi ha multitud de solucions que podem fer servir, que han estat desenvolupades sobretot per a videojocs immersius i per a conducció autònoma.
Així doncs, detectar persones o formes predefinides és relativament senzill, però copsar l’estat d’objectes deformables com la roba és molt complicat. I de roba n’hi ha per tot arreu. Al projecte Clothilde desenvolupem maneres d’entendre com un mateix objecte, com ara una samarreta, pot tenir diferents aspectes. En el cas de la roba, a més, encara que s’extregui tota la informació (com està plegada o on són les mànigues) es perd tan bon punt es manipula l’objecte. Per resoldre-ho, intentem destriar el gra de la palla, és a dir, ens focalitzem només en les parts rellevants, com ara els colls i les vores, de manera que la visió pugui ser molt ràpida.
En resum, les màquines han après a veure el món (detectar objectes o persones), però la comprensió del que veuen encara és molt limitada. Les persones, naturalment, entenem el que veiem i sabem determinar què és important perquè coneixem el context. Però per a les màquines tot té la mateixa importància. Ens cal investigar en millors mètodes per generalitzar, entendre el context i saber destriar les parts rellevants de les imatges. En aquest sentit, la visió artificial és la manera més potent per aconseguir que les màquines puguin entendre el món i és un element imprescindible per tal que ens puguin servir millor.