Vladimir Malinovsky, un chercheur du département scientifique de Yandex, a développé un service révolutionnaire qui permet de faire fonctionner de grands modèles de langage avec 8 milliards de paramètres sur des ordinateurs ordinaires ou même des smartphones, directement via un navigateur web. Voici un aperçu de cette technologie innovante :
Accessible sur des Appareils Standards
- Le service utilise Llama 3.1-8B, un grand modèle de langage réduit en taille par huit fois—de 20 Go à 2,5 Go.
- Les utilisateurs peuvent tester le service sur une page web dédiée, où le modèle est téléchargé sur leur appareil pour une utilisation hors ligne.
Fonctionnalité Hors Ligne
- Après le téléchargement, le modèle fonctionne entièrement sans nécessiter de connexion internet, garantissant la confidentialité et l'indépendance des services cloud.
Performance
- La vitesse du modèle dépend de la puissance de traitement de l'appareil :
- Par exemple, sur un MacBook Pro avec un processeur M1, le modèle génère environ 3-4 caractères par seconde.
Construit avec des Technologies Modernes
- Rust et WebAssembly :
- Le service est écrit en Rust et utilise WebAssembly, une technologie qui permet aux applications de fonctionner efficacement dans un navigateur web sur plusieurs plateformes et langages.
Techniques de Compression Avancées
- Le service utilise des méthodes de pointe développées en collaboration par :
- Yandex Research
- Institut de Science et Technologie d'Autriche (ISTA)
- Université de Science et Technologie du Roi Abdullah (KAUST)
Deux Outils Principaux
- Compression de Modèle :
- Compresse les modèles jusqu'à huit fois, leur permettant de fonctionner sur un seul GPU au lieu de plusieurs.
- Correction d'Erreur :
- Réduit les erreurs introduites lors de la compression, assurant la haute qualité des réponses du réseau neuronal.
Lancement et Open Source
- Le projet a été présenté pour la première fois en été 2024 et a depuis été rendu accessible au public.
- Le code source est librement accessible sur GitHub, invitant les développeurs à explorer et à développer cette innovation.