Les nostres mans són estructures amb una gran complexitat, i això representa un gran desafiament per als algoritmes de les IA actuals. Com podem veure a la imatge que il·lustra aquest article, una de les mans té cinc dits més el polze. Veure mans amb 6 o més dits és habitual en les imatges generades per intel·ligències artificials. Però, per què passa?.
Les nostres mans, si bé comparteixen una estructura bàsica comuna, presenten una gran diversitat en termes de mida, forma i característiques anatòmiques. Aquesta diversitat es pot observar no només entre individus, sinó també dins del mateix individu en una i altra mà. Per exemple, els dits poden tenir una longitud o amplada lleugerament diferent, i les articulacions poden ser més prominents en un mà que en l’altra. També pot canviar la coloració de la pell, hi poden haver grans, pigues, ferides, etc.
A més de la variabilitat individual, les mans també poden assumir una àmplia gamma de posicions i gestos. Des de la posició de repòs fins a la realització d’accions específiques com agafar objectes, escriure, tocar un instrument musical o fer gestos comunicatius. Les persones tenim les mans en constant moviment, adoptant una gran varietat de posicions diferents.
Això planteja un desafiament per a les intel·ligències artificials, ja que han de ser capaces de reconèixer i interpretar una àmplia gamma de posicions que poden prendre les mans en diferents situacions (una abraçada, una carícia, una salutació, etc.). Les IA han de comprendre les relacions espacials entre els diferents elements de la mà en cada posició. Han de ser capaces de generar dibuixos que capturin aquesta diversitat amb precisió i realisme. Les nostres mans tenen una capacitat increïble de comunicar intencions, emocions i significats subtils.
La comprensió d’aquesta variabilitat anatòmica és clau per a les IA que intenten dibuixar mans humanes de manera realista. Requereix una capacitat de percepció i anàlisi molt sofisticada per part de l’algoritme, així com una àmplia exposició a diferents tipus de mans i posicions durant el procés d’entrenament. Reproduir la gran varietat de posicions i gestos que les nostres mans poden fer, requereix una comprensió profunda de la comunicació no verbal i una capacitat per interpretar el context en què es produeixen aquests gestos.
Els detalls subtils com l’articulació dels dits, les arrugues de la pell i les ombres poden donar realisme a un dibuix d’una mà. Però capturar aquests detalls amb precisió requereix un nivell d’atenció als detalls que les IA encara estan aprenent a dominar.
Les IA aprenen mitjançant l’anàlisi de grans quantitats de dades, principalment bancs d’imatges d’internet. Però pot ser que els bancs d’imatges consultats per la IA no disposin d’imatges en la posició desitjada. Això limitar la capacitat de la IA de dibuixar mans amb precisió en totes les situacions.
Quan demanem a una IA que ens dibuixi mans, podem fer servir alguns trucs que ens poden ajudar a obtenir un millor resultat. Per exemple:
- Quan escrivim el “prompt”, intentem descriure acuradament la posició de les mans.
- També ajuda a la IA si li fem dibuixar mans que facin servir accessoris, com per exemple guants o anells.
- Algunes IA permeten fer servir fotos de referència. Si li proporcionem a la IA una imatge de referència, el dibuix final millorarà molt.