Peu de paramètres, beaucoup de données

PaLM 2, le dernier grand modèle de langage (LLM) de Google, annoncé la semaine dernière, utilise près de cinq fois plus de données d'entraînement que son prédécesseur de 2022, ce qui lui permet de réaliser des tâches de programmation, de mathématiques et de création de contenu plus avancées.

Lors de la conférence Google I/O pour les développeurs, le géant de la recherche a présenté PaLM 2, un modèle de langage entraîné sur 3 600 milliards de tokens. Ces tokens sont des séquences de mots, les éléments de base utilisés pour entraîner le modèle de langage à prédire le mot suivant.

La version précédente de PaLM a été lancée en 2022 et a été émise avec 780 milliards de jetons.

Lors de l'événement Google I/O de la semaine dernière, Sundar Pichai, PDG de Google, a présenté PaLM 2, le tout dernier modèle de langage à grande échelle de l'entreprise.

Bien que Google ait vanté ses prouesses en intelligence artificielle dans les domaines de la recherche, de la messagerie électronique, du traitement de texte et des tableurs, l'entreprise s'est montrée réticente à révéler la taille ou les détails de ses ensembles de données d'entraînement. OpenAI a également gardé secrets les détails de sa dernière spécification d'entraînement LLM, GPT-4.

Les entreprises technologiques attribuent cette situation à la compétitivité de leurs secteurs d'activité. Google et OpenAI rivalisent d'ingéniosité pour attirer les utilisateurs grâce à leurs chatbots plutôt qu'avec les moteurs de recherche traditionnels.

Compact, puissant et économique

Google affirme que PaLM 2 est plus compact que ses prédécesseurs, ayant été entraîné avec 340 milliards de paramètres contre 540 milliards pour la version précédente. Cela démontre l'efficacité accrue de la technologie de l'entreprise pour l'exécution de tâches complexes.

Pour ce faire, PaLM 2 utilise une nouvelle technique appelée « optimisation de calcul étendue », qui offre « de meilleures performances globales, notamment une inférence plus rapide avec moins de paramètres, ce qui réduit la surcharge ».

Le dernier modèle d'IA linguistique de Google, entraîné sur plus de 100 langues, réalise diverses tâches pour 25 fonctionnalités et produits, dont le chatbot expérimental Bard. PaLM 2 se décline en quatre versions selon leur taille, de la plus petite à la plus grande : Gecko, Loutre, Bison et Licorne.

D'après la documentation publique, PaLM 2 est plus puissant que tous les modèles existants. LlaMA de Facebook, lancé en février, a été entraîné sur 1 400 milliards de jetons. De son côté, OpenAI a récemment communiqué la taille des données d'entraînement de ChatGPT, une version de GPT-3, qui s'élevait à 300 milliards de jetons.

L'essor des applications d'IA a suscité la controverse autour de cette technologie. Plus tôt cette année, El Mahdi El Mhamdi, chercheur principal chez Google Research, a démissionné pour protester contre le manque de transparence du géant de la recherche.

Cette semaine, le PDG d'OpenAI, Sam Altman, a également témoigné devant la sous-commission judiciaire du Sénat américain sur la protection de la vie privée et la technologie dans le contexte de la popularité croissante de l'IA, où le « père » de ChatGPT a convenu avec les législateurs que de nouvelles réglementations sont nécessaires pour encadrer l'IA.

(Selon CNBC)

Source