LDO

LDO

Logiciel de Discernement d’Objets

Principe

LDO est un logiciel qui permet de dissocier des objets sur des images capturées à l’aide d’une caméra (ou accessoirement d’un appareil photo.)

Il se constitue :

D’une base de données images.
D’une base de données mots et définitions.
D’un moteur de recherche images, mots et définitions.

Principe de fonctionnement

Les images capturées par une ou plusieurs caméra(s) sont enregistrées dans une base de données images.

Pour chaque image la définition image (1) est enregistrée dans une case de la base de données images.

Les entrées de la base de données permettent quant à elles de classer les images par séquences, groupes de séquences ou objets.

Ainsi, si l’on désire discerner des objets sur une image, il suffit de donner l’image en question comme référence au moteur de recherche qui va chercher les similitudes qu’il y a dans toutes les images qu’il y a dans la base de données images.

Le logiciel va alors analyser pixel par pixel toutes les images, pour dresser la liste de toutes les images où il y a des similitudes.

Ainsi, lorsque le logiciel trouve une similitude entre deux images différentes, il peut extraire la définition image (1) de ces similitudes afin de reconstituer une image supplémentaire où un objet apparaît bien discerné et bien dissocié de la scène dans laquelle il était à la base inséré.

Exemple :

On prend comme référence une image constituée d’une scène représentant une casserole dans une cuisine.

Sur cette référence le moteur de recherche trouve la même casserole qui apparaît dans une autre image représentant une casserole dans un salon.

Ainsi en ne conservant que les similitudes des deux images, le logiciel créer automatiquement une image supplémentaire, où l’on ne voit que la casserole sur fond transparent.

La définition image définie l’image par la liste de chaque pixel dans l’image.

Chaque pixel est listé par ordre de positionnement dans l’image, dans l’ordre d’affichage à l’écran.

Chacun de ses pixels étant affublé d’un code couleur.

A noter que cet exemple est très bien pour en illustrer le principe, mais en vérité les capacités du logiciel sont beaucoup plus développées que ça.

En fait le logiciel replace dans l’ordre les objets tels qu’ils ont été détourés dans la séquence, de telle sorte qu’un simple mouvement de caméra peut permettre le détourage de l’objet (sans forcément avoir besoin d’un arrière plan différent, comme il est question dans l’exemple précédent.)

Cela fonctionne comme ceci :

Par exemple une séquence se compose de 50 images.

L’image 2 est comparée à l’image 1, la similitude des pixels de ces deux images constitue la première image de l’objet A.

Ensuite l’image 3 est comparée à l’image 2, la similitude des pixels de ces deux images constitue la deuxième image de l’objet A, ainsi de suite jusqu’à la fin de la séquence, de telle sorte qu’un tour complet de l’objet peut permettre de le détourer dans son intégralité.

Note : Si cette technique n'est pas suffisante au détourage de l'objet, il faut recommencer l'exercice en ajoutant en plus la comparaison des similitudes.

Chaque objet peut alors être nommé et défini pour être répertorié dans la base de données mots et définitions.

Ainsi par la suite le moteur de recherche peut retrouver n’importe quel objet, que ce soit par comparaison d’images, de mots ou de définitions.

Ce qui implique que plus les bases de données sont chargées d’informations, plus les objets peuvent être discernés facilement.

Exemple d’utilisation de la base données mots et définitions : Le personnage d’un film est détouré en entier. Mais dans le film celui-ci change de chemise régulièrement. Ainsi on notera dans la base de données :

Mot : « Joe »

Définition : Personnage qui porte : chemises blanche - bleue - verte.

Ainsi grâce à cette base de données, il est possible de retrouver :

Soit toutes les images où figure Joe.
Soit toutes les images où Joe figure avec une chemise blanche.
Soit toutes les images où Joe figure avec une chemise bleue.
Soit toutes les images où Joe figure avec une chemise verte.

Il est également possible de se rapporter à un mot, ou groupe de mots contenu(s) dans la définition (sélection d’un ou plusieurs mots/clic sourie droit/rapporter.)

Ainsi la base de données mots et définitions est croisée avec la base de données images, les deux étant reliées par des variables (par exemple dans la base de données mots et définitions, la variable «Images de chemise » peut comprendre une liste d’images variable, dépendant de la liste contenue dans la base de données images.)

Note : Avant cette invention, pour dissocier un objet d’une image il fallait avoir recours à un logiciel de compositing afin d’opérer une rotoscopie.

Il fallait alors délimiter les contours d’un objet à la main à l’aide d’une courbe et de points vectoriels, puis déplacer chaque point de la courbe image par image pour conserver le contour de l’objet, ce qui représente un travail très long et fastidieux pour tout infographiste qui s’y colle.

Note importante concernant la précision de calcul :

Comme pour l’œil humain, LDO discerne des objets à des niveaux différents de précision.

De base, le discernement est sensiblement imprécis : La comparaison d’images se fait par petits groupes de pixels.

En revanche, une option du logiciel peut permettre un discernement plus précis : La comparaison d’images se fait pixel par pixel.

Ceci est très important car cela peut permettre au logiciel de discerner des objets avec plus de facilité, surtout si l’objet est très complexe et difficile à discerner (comme par exemple des fougères au milieu des bois), ou bien que la luminosité diffère d’une image à l’autre (par exemple si une ombre ou un reflet se promène sur l’objet…)

Comme ce document n’est que théorique, je ne saurais trop dire sur quoi exactement les différents niveaux de précisions doivent s’ajuster. Mais plusieurs options peuvent être envisagées :

Le logiciel réajuste toutes les images sur le même niveau de luminosité avant de comparer les images (pour ainsi éviter de perdre des pixels sur des zones d’ombres.)
La comparaison d’images se fait par groupes de pixels, ainsi le logiciel calcul la moyenne colorimétrique du groupe de pixel.
La comparaison des pixels s’établie en fonction d’une certaine marge de manœuvre, sur les paramètres de couleur, luminosité, saturation, etc.

Ainsi en étant sensiblement imprécis dans la prise en compte des pixels, le détourage des objets peut se faire avec beaucoup plus de précision. (Concept un peu flou, mais pourtant bien logique…)

OPTION 3D

Grâce au LDO, en comparant plusieurs séquences complètes d’images, il serait possible d’obtenir des objets bien discernés vus sous différents angles, de telle sorte qu’il serait possible de concevoir intégralement des objets en 3D.

Mais pour cela il faudrait prendre toutes les images d’un objet discerné et les remettre dans l’ordre au sein d’un cube 3D quadrillé.

Ce serait possible de le faire manuellement : Il faudrait alors disposer les images selon le même angle de vu, de telle sorte que les objets les plus éloignés apparaissent dans les cases les plus éloignées du cube 3D…

Mais ce serait également possible de le faire automatiquement, grâce au LRO3D

Note : En fait, cette technique fait assez vaguement penser à de la 2.5D (plus communément appelée « fausse 3D », où il est question d’appliquer des sprites 2D sur un panneau 3D qui fait toujours face à la caméra) que l’on retrouve dans certains vieux jeux-vidéos.

Mais ici la technique est encore totalement différente et bien plus esthétique.

Et il faut surtout bien comprendre que cette technique n’est réellement intéressante qu’avec une base de données contenant un très grand nombre d’images.

Heureusement, à l’aide d’une ou plusieurs caméras, à raison de 25images/secondes il ne faudrait que très peu de temps pour constituer des bibliothèques d’images suffisamment volumineuses pour être utilisées à cet effet.

LRO3D

Logiciel de Reconstitution d’Objets 3D.

A partir d’images issues de LDO, LRO3D pourrait reconstituer automatiquement des objets 3D de toute pièce.

Pour cela il doit prendre un repère sur l’objet à reconstituer : Un petit groupement de pixels qui n’apparaît qu’à un endroit précis de l’objet. Si cela est difficile à trouver sur un objet il est possible de coller sur l’objet de petites vignettes colorées (jaune fluo par exemple) qui contraste bien avec l’objet (à noter que cette technique est quelque peu apparentée à certaines techniques de motion capture, 3D numérique.)

Ainsi en suivant image par image le tracé de mouvement du repère de l’objet, il est possible de définir quel est son emplacement dans un espace 3D, case après case au sein d’un cube 3D quadrillé.

Note : S’il n’y a pas assez d’images de l’objet pour pouvoir combler toutes les cases du cube quadrillé, soit la dernière image vue reste figée (laissant malheureusement un peu l’impression d’avoir affaire à une image 2D), soit comme solution de dépannage il pourrait toujours être possible de combler les vides à l’aide d’autres images d’objets similaires (par exemple compléter un objet en argent par un objet d’une forme similaire en acier…)

D’où également la possibilité de concevoir des objets totalement hybrides…

Bon, il s’agit là d’un détail vraiment sommaire, mais je le note tout de même car toute une gamme de logiciels pourrait voir le jour dans le but de solutionner ce type de problématique...

(Morphing, flou d’objet, fractales, etc. De très nombreuses choses peuvent être envisagées…)

Ce qui n’est finalement pas si négligeable car ainsi même des objets incomplets visuellement pourraient tout de même voir le jour en 3D.

LDS

Logiciel de Discernement de Sons

Si LDO peut permettre de discerner des objets au sein d’une séquence d’images, alors il est toutafait possible d’appliquer le même principe de fonctionnement pour discerner des sons.

Dans un logiciel de montage, il est possible de voir une représentation d’un son sur une courbe oscillatoire.

Sur cette courbe il est possible de repérer un son de la façon suivante :

Chaque son est constitué d’une phase d’attaque (endroit où la courbe oscille brusquement très fort) et une phase de relâchement (endroit où la courbe oscille de moins en moins jusqu’à plus du tout.)

Dans un studio de musique, le travail des ingénieurs du son consiste à isoler chaque son des instruments de musique du fond sonore, afin d’obtenir le son le plus pure possible.

Pour cela ils découpent la courbe de telle sorte que chaque son soit bien isolé du fond sonore.

Mais cette technique et très longue et très fastidieuse et demande d’enregistrer chaque instrument bien à part à l’aide de toute une batterie de micros.

Qui plus est, il est impossible (ou tout du moins très difficile) d’isoler deux sons superposés avec cette technique (par exemple, si on entend un train qui passe pendant que quelqu’un joue du piano, et que l’on enregistre le tout à l’aide d’un seul micro, les deux sons s’ajouteront pour constituer le volume sonore, et il sera impossible (ou très difficile) de dissocier les deux sons par la suite.)

En revanche, à l’aide d’une base de données courbes de sons et d’un moteur de recherche sons, LDS permet d’isoler les sons et de les répertorier, opérant de la même façon que LDO pour discerner des objets dans une séquence d’images…

Aperçu rapide de quelques perspectives

LRV

Logiciel de Réalisation Vidéo

Faisant appel, entre autres, aux technologies développées par LDO, LRO3D et LDS, LRV permet de réaliser de toute pièce des films vidéo.

L’utilisateur se contente d’inscrire des mots dans un espace 3D, et en appuyant sur « Entrée » de véritables objets visuels 3D (fixe ou animés) apparaissent dans la scène, remplaçant ainsi les mots.

Il est alors possible de disposer les scènes dans l’ordre que l’on désire sur une time-line afin de construire des films vidéo.

LCJV

Logiciel de Conception de Jeux Vidéo.

Faisant appel, entre autres, aux technologies développées par LDO, LRO3D et LDS, LCJV permet de réaliser de toute pièce des jeux vidéo.

L’utilisateur se contente de placer des instances dans un espace 3D, chacune de ses instances peut contenir des bouts de programmes informatiques qui permettent d’afficher tel ou tel objet visuel 3D (fixe ou animés, paramétrés au sein des instances) dans la scène, en fonction du scénario interactif conçu par le concepteur.

(Exemple : Une instance contient le personnage nommé « Joe », qui peut soit courir, marcher, sauter, ou parler, en fonction de différents paramètres programmés par le concepteur.)

Ainsi, lorsqu’un joueur joue au jeu vidéo, les différents objets visuels 3D (fixe ou animés, paramétrés au sein des instances) s’affichent dans la scène au fur et à mesure de ses déplacements dans l’espace 3D.

LC3DR

Logiciel de Conversion 3D Relief

Grace à LC3DR, toutes les images contenues dans LDO sont converties automatiquement en images 3D relief pouvant être vues grâce à des lunettes adaptées à cet effet.

Les images peuvent ensuite être utilisées dans les logiciels LRO3D, LRV et LCJV…

Auteur : Christophe Vanhille