Gemini IA rend les robots au bureau beaucoup plus utiles

Posted by pourbatterie from the Agriculture category at 12 Jul 2024 01:05:04 am.

Thumbs up or down

Share this page:

Perdu dans un immeuble de bureaux, un magasin à grande surface ou un entrepôt inconnu? Demandez simplement au robot le plus proche son chemin.
Une équipe de chercheurs de Google a combiné les pouvoirs du traitement du langage naturel et de la vision par ordinateur pour développer un nouveau moyen de navigation robotique dans le cadre d'une nouvelle étude publiée mercredi.
Essentiellement, l'équipe a entrepris d'enseigner à un robot - dans ce cas un robot de tous les jours - comment naviguer dans un espace intérieur en utilisant des invites en langage naturel et des entrées visuelles. La navigation robotique exigeait que les chercheurs non seulement cartographient l'environnement à l'avance, mais fournissent également des coordonnées physiques spécifiques dans l'espace pour guider la machine. Les progrès récents de ce que l'on appelle la navigation Vision Language ont permis aux utilisateurs de simplement donner aux robots des commandes en langage naturel, comme "aller à l'établi". Les chercheurs de Google poussent ce concept un peu plus loin en incorporant des capacités multimodales, afin que le robot puisse accepter le langage naturel et les instructions d'image en même temps.
>>>HB6181V1ECW-41 PourHUAWEI
Huawei HONOR MagicBook 16 Pro

Par exemple, un utilisateur dans un entrepôt serait en mesure de montrer au robot un article et de demander : "sur quelle étagère cela se passe-t-il?" Tirant parti de la puissance de Gemini 1,5 Pro, l'IA interprète à la fois la question parlée et les informations visuelles pour formuler non seulement une réponse, mais aussi un chemin de navigation pour conduire l'utilisateur au bon endroit dans l'entrepôt. Les robots ont également été testés avec des commandes telles que "Emmenez-moi dans la salle de conférence avec les doubles portes", "Où puis-je emprunter du désinfectant pour les mains" et "Je veux stocker quelque chose hors de la vue du public. Où dois-je aller?"
Ou, dans la bobine Instagram ci-dessus, un chercheur active le système avec un "robot OK" avant de demander à être conduit quelque part où "il peut dessiner". Le robot répond par "donnez-moi une minute. Penser avec Gemini"... avant de partir vivement à travers le bureau DeepMind de 9 000 pieds carrés à la recherche d'un grand tableau blanc mural.
>>>
Compatible:
HB4593J6ECW-31
Batteries pour PC portable pour
Huawei MateBook 13 2020 WRT-W29
Pour être honnête, ces robots pionniers connaissaient déjà la disposition de l'espace de bureau. L'équipe a utilisé une technique connue sous le nom de "navigation multimodale d'instructions avec visites de démonstration (MINT)". Cela impliquait que l'équipe guide d'abord manuellement le robot dans le bureau, en indiquant des zones et des fonctionnalités spécifiques en utilisant le langage naturel, bien que le même effet puisse être obtenu en enregistrant simplement une vidéo de l'espace à l'aide d'un smartphone. À partir de là, l'IA génère un graphique topologique où il fonctionne pour faire correspondre ce que ses caméras voient avec le "cadre d'objectif" de la vidéo de démonstration.
Ensuite, l'équipe utilise une politique de navigation hiérarchique Vision-Language-Action (VLA) "combinant la compréhension de l'environnement et le raisonnement de bon sens", pour enseigner à l'IA comment traduire les demandes des utilisateurs en action de navigation.
Les résultats ont été très fructueux, les robots atteignant "des taux de réussite de 86 % et 90 % de bout en bout sur des tâches de navigation auparavant irréalisables impliquant un raisonnement complexe et des instructions utilisateur multimodales dans un grand environnement réel", ont écrit les chercheurs.
Cependant, ils reconnaissent qu'il y a encore place à l'amélioration, soulignant que le robot ne peut pas (encore) effectuer de manière autonome sa propre tournée de démonstration et notant que le temps d'inférence disgracieux de l'IA (combien de temps il faut pour formuler une réponse) de 10 à 30 secondes tourne l'interaction avec le système une étude en patience.

0 Comments

Add a comment