Liste des modèles disponibles sur Gemini. |
Gemini 2.5 Flash est l’un des nouveaux modèles d’IA de Google. Grâce à ses capacités d’inférence, le modèle peut connecter plusieurs applications telles que Google Search, Google Maps et YouTube.
Grâce à cette capacité, les utilisateurs peuvent demander à Gemini de résumer des vidéos sur YouTube, notamment s'ils souhaitent gagner du temps lors du visionnage de longues vidéos.
Pour utiliser le modèle, visitez simplement le site Web de Gemini si vous utilisez un ordinateur, ou téléchargez l'application du même nom sur iOS ou Android. Ensuite, appuyez sur le nom du modèle dans le coin supérieur gauche, sélectionnez Gemini 2.5 Flash (expérimental) .
Résumé des faits saillants des sports
Sur le Web, les utilisateurs peuvent saisir une demande pour le chatbot, puis faire glisser et déposer le lien vidéo, tandis que les appareils mobiles doivent copier le lien.
Par exemple, on peut demander aux Gémeaux de résumer les principaux événements dans des vidéos de moments forts sportifs, qui durent environ 5 à 20 minutes.
Tapez simplement une commande comme « Que s’est-il passé dans ce match ? », puis collez le lien vidéo et appuyez sur Entrée . Quelques secondes plus tard, Gemini fournit des résultats avec quelques points forts, ainsi que les horodatages correspondants dans la vidéo.
![]() |
La capacité des Gémeaux à résumer les moments forts des vidéos sportives. |
Les utilisateurs peuvent demander à Gemini de continuer à regrouper certains sujets. Par exemple, le chatbot a pu indiquer avec précision le premier joueur à tirer, mais l'horodatage était décalé de quelques secondes par rapport à l'heure de la vidéo.
Il est probable que l'outil s'appuie sur les commentaires pour regrouper les vidéos sportives, de sorte que la chronologie est également basée sur les mots du commentateur plutôt que sur l'image réelle.
Grâce à ses capacités de raisonnement et de synthèse, les utilisateurs peuvent demander à Gemini de rechercher des informations sur Internet sur des sujets liés à la vidéo.
Résumé vidéo long
Ensuite, Gemini peut résumer de longues vidéos. Pour un podcast d’une durée d’1 heure et 40 minutes, il suffit de quelques secondes à l’outil pour résumer les principaux sujets et contenus abordés.
Si vous trouvez les commentaires fragmentaires et incomplets, vous pouvez demander à Gemini de les résumer plus en détail. Chaque sujet est également accompagné d'une chronologie correspondante dans la vidéo pour un suivi rapide.
![]() |
La capacité de Gemini à résumer près de 2 heures de podcasts vidéo. |
Gemini s'appuie toujours sur la traduction de la parole ou du texte, et non sur une analyse réelle des images vidéo. Par exemple, l'IA n'a pas fourni de détails sur l'équipe d'accueil de l'émission même si leurs noms apparaissaient dans la vidéo, et n'a même pas répertorié l'intégralité du contenu principal même s'il était mentionné dans la description.
En retour, Gemini fait un excellent travail en résumant rapidement l'audio de la vidéo, y compris une analyse détaillée si on lui en demande plus.
Bien entendu, en plus des podcasts, les utilisateurs peuvent demander à Gemini de résumer d'autres vidéos longues, comme des tutoriels, des analyses techniques... pour saisir l'idée principale et se référer à des informations complémentaires si nécessaire.
Résumé de l'entretien vidéo
Les vidéos d’interview sont également un genre qui nécessite souvent un résumé. Grâce à ses capacités d'analyse audio, Gemini peut synthétiser assez bien les points forts de la vidéo d'interview de l'acteur, car la vidéo d'interview contient beaucoup de discours.
![]() |
Capacités de résumé des entretiens vidéo de Gemini. |
Cependant, c’est aussi le seul avantage des Gémeaux. Cet outil ne peut pas encore analyser d’autres éléments que l’audio dans une vidéo, tels que les lieux d’interview, les expressions, les actions des personnes dans la vidéo ou les détails liés à l’image.
Dans l’ensemble, Gemini fait un bon travail de synthèse audio des vidéos YouTube, tout en analysant et en récupérant les informations pertinentes à condition qu’elles soient mentionnées verbalement. Avec des informations sous forme visuelle, les utilisateurs doivent encore regarder la vidéo pour saisir l’intégralité du contenu.
Source : https://znews.vn/tom-tat-video-youtube-mien-phi-voi-gemini-post1549612.html
Comment (0)