Citation
Bughin, J. (Déc 2024). Le plateau de performance des modèles de langage (LLM): un épisode, pas une fin de l’AI generatrice (GenAI). Management et Datascience, 8(3). https://doi.org/10.36863/mds.a.39227.
L'auteur
Jacques Bughin
(jacquesbughin@machaonadvisory.com) - PE/VC senior advisor FortinoCapital and Antler, retired as seniro partner McKinsey, Board Mmeber, seniro advsior Accenture Researcxh and Portulans institute - ORCID : https://orcid.org/0000-0002-1973-3656
Copyright
© 2024 l'auteur. Publication sous licence Creative Commons CC BY-ND.
Déclaration d'intérêts
Le ou les auteurs déclarent ne pas avoir connaissance de conflit d'intérêts impliqués par l'écriture de cet article.
Financements
Le ou les auteurs déclarent ne pas avoir bénéficié de financement pour le travail mis en jeu par cet article.
Aperçu
Le plateau de performance n'est pas la fin de l'évolution des IA, mais un signal que de nouvelles stratégies d'innovation sont nécessaires. L'accent passe désormais de l'expansion brute des modèles à des approches plus sophistiquées et ciblées, favorisant l'efficacité, l'adaptabilité. En adoptant ces remèdes, l'IA pourra surmonter ces limites et continuer à offrir des gains exponentiels dans divers domaines.
Contenu
L’IA génératrice… de l’explosion au premier plateau
Les grands modèles de langage (LLM) ont démontré des capacités d’intelligence artificielle remarquables, du traitement du langage naturel aux tâches créatives. Ces LLMs, tels que GPT d’OpenAI, Llama de Meta ou Claude d’Antropic, s’appuient sur des modèles fondamentaux tels que les transformateurs génératifs pré-entraînés ( GPT) et sur une volumétrie de données provenant de sources de données publiques hétérogènes telles que Common Crawl, GitHub et les forums en ligne.
En général, le paradigme a été « plus c’est gros, mieux c’est », avec des modèles passant du milliard au trillard de jetons (tokens), et une précision accrue en cours de route. Mais alors que l’ utilisation des LLM s’est répandue de manière agressive chez les consommateurs et les entreprises, le récent engouement est également contrebalancé par un scepticisme important, dont la diminution des rendements d’échelle, où les gains marginaux en précision ou en utilité nécessitent des augmentations exponentielles des coûts computationnels, et où les données disponibles deviennent redondantes ou obsolètes, réduisant leur pertinence pour une génération fiable de résultats en dehors des réponses incohérentes (« hallucinations ») qui persistent dans les LLMS.
La loi de mise à l’échelle brisée n’est pas un LLM brisé
Pour beaucoup, si « les améliorations de performance LLM plafonnent » , ces lacunes montrent que l AI est très fragile et que les attentes fondées sur ces technologies peuvent être inappropriées– une bulle est en train de se développer.
Si l’on se fie à l’histoire, toutefois, les technologies naissantes ont toujours connu un parcours semé d’embûches et se sont améliorées en cours de route. Si l’on établit un parallèle avec l’internet, l’accès à l’internet est passé de 50 Mb/heure en 1995 à 1G/seconde 25 ans plus tard, soit plus de 1000 fois plus vite, créant le monde que nous connaissons aujourd’hui, avec la domination des FAANGS, des médias sociaux, des influenceurs, des « fake news », des plateformes et des écosystèmes, et la « softwarisation » majeure de nos économies.
Les LLM sont également à l’aube de grandes innovations. Nous avons déjà souligné ailleurs un ensemble d’innovations clés, telles que les systèmes d’IA hybrides qui combinent le raisonnement symbolique avec les LLM pour améliorer le coût et l’interprétabilité. Nous avons enfin mentionné l’essor des modèles multimodaux et les voies attrayantes des modèles à fondation liquide (LFM) qui contournent l’architecture du transformateur pour atteindre une performance élevée à différentes échelles tout en conservant des empreintes de mémoire plus petites et une inférence plus efficace. Nous citons ici, cinq autres innovations récentes qui peuvent créer une nouvelle vague de développement pour l IA et les LLMS. Celles ci sont:
- Retrieval-Augmented Generation (RAG), qui comble le fossé entre les données d’entraînement statiques et les connaissances dynamiques en temps réel.
- L’apprentissage en contexte (ICL), qui élimine la nécessité d’une mise au point en fournissant des exemples dans l’invite.
- Détection et atténuation des hallucinations, qui analyse les activations du modèle interne pour détecter les inexactitudes et permet de corriger les erreurs en temps réel, réduisant ainsi la dépendance à l’égard de la validation humaine.
- Le First-Time Compute, qui déplace l’attention du calcul de la phase d’apprentissage vers l’inférence, avec des améliorations massives en termes de performances, pour une taille beaucoup plus faible. Ceci est particulièrement utile dans les applications en temps réel où une meilleure qualité de sortie est souhaitée mais peut être équilibrée avec la rentabilité.
- LLM2Vec. LLM2Vec, qui affine la représentation du langage en introduisant l’attention bidirectionnelle.
Les avantages de l’innovation
En termes de rentabilité, les innovations telles que le irsdt Time Computel, sont essentielles pour réduire les coûts de calcul, en particulier pour les grandes entreprises ou les solutions basées sur le cloud. Des techniques telles que RAG, LLM2Vec et Many-Shot ICL améliorent de manière significative la performance de précision de tout modèle LLM, en particulier pour les applications spécialisées ou orientées vers les tâches. En outre, les systèmes basés sur la recherche (RAG) et l’apprentissage par renforcement (RLHF) peuvent réduire considérablement les problèmes d’hallucination en basant les réponses sur des données réelles et vérifiées ou sur le retour d’information humain.
Sur la base de la collecte d’études de cas sur les gains de performance liés aux innovations susmentionnées, l’adéquation des gains aux fonctions de l’entreprise et la concurrence entre les technologies (par exemple, la combinaison de RAG avec First-Time Compute réduit considérablement les coûts, car les pré-calculs peuvent être intégrés dans les mécanismes de recherche, mais à l’inverse, RAG et First-Time Compute minimisent les calculs redondants mais sont initialement gourmands en ressources), nous constatons que le LLM qui s’appuie sur ces innovations textuelles réduit les coûts, la précision et les besoins en données, c’est-à-dire :
- Les progrès en matière de formation multimodale et de paradigmes efficaces en termes de données (modèles plus petits mais diversifiés) atténueront encore les contraintes en matière de données.
- Les améliorations matérielles (quantification, GPU efficaces) et les algorithmes optimisés (par exemple, les matrices éparses) amplifieront les économies.
- Plateau de précision : les améliorations se poursuivront, mais par définition, elles deviendront de plus en plus faibles car nous sommes déjà proches de la frontière.
Plus particulièrement, nous avons effectué des analyses Monte Carlo du potentiel, qui démontrent ce qui suit :
- Il existe une probabilité inférieure à 10 % que ces technologies n’apportent pas d’améliorations ; dans le cas contraire, il s’agit d’un risque plus qu’acceptable à prendre.
- L’interquartile converge à long terme vers la moyenne, ce qui signifie que la convergence dans la combinaison des technologies est visible – et l’interquartile implique toujours une réduction de 50 % de l’utilisation des données par rapport à aujourd’hui – c’est-à-dire que nous pouvons réduire le rythme des besoins en données de moitié par rapport à ce qui est nécessaire aujourd’hui. Bien que cela semble peu, cela équivaut à des billions de tokens à la taille actuelle de la plupart des plus grands modèles LLM, – et cela ne prend pas en compte l’effet de levier multimodal, ou les données synthétiques.
- La précision peut continuer à augmenter avec des gains de l’ordre de 20 à 40 % – encore une fois, par rapport à la précision des modèles qui atteignent une moyenne de 80 % pour de nombreuses actions cérébrales telles que les mathématiques et le raisonnement, il s’agit d’un avantage majeur à prendre en considération.
Mais le plus important est d’examiner la combinaison de ces tendances, en termes de coût par requête effective de données consommées – la courbe de performance peut encore démontrer la continuation de la loi d’échelle, avec un gain de plus de 40 % dans le meilleur quartile de simulations et toujours plus de 20 % dans 75 % des simulations. Notons en passant que 30% est plus ou moins la loi de Moore, ce qui signifie que celle-ci se perpétue dans le contexte d’amélioration des LLMS.
A ces niveaux de courbe de performance, la démocratisation du LLM devient plus que réelle, même pour les petites entreprises :
Conclusions
- Les LLM ne sont pas morts – mais il faut pivoter vers d’autres paradigmes que celui del ‘abondance des données
- De nombreuses innovations démontrent que l’efficacité du LLM est la voie à suivre, face à la force brutale des données et au risque d’épuisement des données fraiches
- Il n’y a pas de regret à adopter TOUTES ces améliorations technologiques
- Attendez-vous à de nouveaux modèles commerciaux à l’avenir, où la démocratisation du LLM se fera peut-être en échange d’un accès à des données privilégiées (par exemple, celles de l’entreprise).
Bibliographie
- Aggeri, F., Elmquist, M., & Pohl, H. (2009). Managing learning in the automotive industry–the innovation race for electric vehicles. International Journal of Automotive Technology and Management, 9(2), 123-147.
- BehnamGhader, P., Adlakha, V., Mosbach, M., Bahdanau, D., Chapados, N., & Reddy, S. (2024). Llm2vec: Large language models are secretly powerful text encoders. arXiv preprint arXiv:2404.05961.
- Bughin, J. (2024). The role of firm AI capabilities in generative AI-pair coding. Journal of Decision Systems, 1-22.
- Cambon, A., Hecht, B., Edelman, B., Ngwe, D., Jaffe, S., Heger, A., … & Teevan, J. (2023). Early LLM-based Tools for Enterprise Information Workers Likely Provide Meaningful Boosts to Productivity. Microsoft Research. MSR-TR-2023-43.
- Coutinho, M., Marques, L., Santos, A., Dahia, M., França, C., & de Souza Santos, R. (2024, July). The role of generative AI in software development productivity: A pilot case study. In Proceedings of the 1st ACM International Conference on AI-Powered Software (pp. 131-138).
- Cusumano, M. A. (1988). Manufacturing innovation: lessons from the Japanese auto industry. MIT Sloan Management Review.
- Kean, M. A. (2004). Biotech and the pharmaceutical industry: Back to the future. Organisation for Economic Cooperation and Development. The OECD Observer, (243), 21.
- Malerba, F., & Orsenigo, L. (2001). Towards a history-friendly model of innovation, market structure and regulation in the dynamics of the pharmaceutical industry: the age of random screening. Roma, Italy: CESPRI-Centro Studi sui Processi di Internazionalizzazione.
- Reshmi, L. B., Vipin Raj, R., & Balasubramaniam, S. (2024). 12 Generative AI and LLM: Case Study in Finance. Generative AI and LLMs: Natural Language Processing and Generative Adversarial Networks, 231.
- Schlie, E., & Yip, G. (2000). Regional follows global: Strategy mixes in the world automotive industry. European Management Journal, 18(4), 343-354.
- Shimokawa, K. (2010). Japan and the global automotive industry. Cambridge University Press.
- Snell, C., Lee, J., Xu, K., & Kumar, A. (2024). Scaling llm test-time compute optimally can be more effective than scaling model parameters. arXiv preprint arXiv:2408.03314.
- Wang, F., Lin, C., Cao, Y., & Kang, Y. (2024). Benchmarking General Purpose In-Context Learning. arXiv preprint arXiv:2405.17234.
- Xu, P., Ping, W., Wu, X., Xu, C., Liu, Z., Shoeybi, M., & Catanzaro, B. (2024). Chatqa 2: Bridging the gap to proprietary llms in long context and rag capabilities. arXiv preprint arXiv:2407.14482.
- Yue, Z., Zhuang, H., Bai, A., Hui, K., Jagerman, R., Zeng, H., … & Bendersky, M. (2024). Inference scaling for long-context retrieval augmented generation. arXiv preprint arXiv:2410.04343.
Date de publication
6 décembre 2024
Catégorie
Revue
ORCID
https://orcid.org/0000-0002-1973-3656
Affiliation
PE/VC senior advisor FortinoCapital and Antler, retired as seniro partner McKinsey, Board Mmeber, seniro advsior Accenture Researcxh and Portulans institute
Liens d'intérêts : Le ou les auteurs déclarent ne pas avoir connaissance de conflit d'intérêts impliqués par l'écriture de cet article.
Financement : Le ou les auteurs déclarent ne pas avoir bénéficié de financement pour le travail mis en jeu par cet article.
(Il n'y a pas encore d'évaluation.)
Commentaires
(Il n'y a aucune ressource liée.)