Vladimir Malinovsky, un chercheur du département scientifique de Yandex, a développé un service révolutionnaire qui permet de faire fonctionner de grands modèles de langage avec 8 milliards de paramètres sur des ordinateurs ordinaires ou même des smartphones, directement via un navigateur web. Voici un aperçu de cette technologie innovante :

Accessible sur des Appareils Standards

  • Le service utilise Llama 3.1-8B, un grand modèle de langage réduit en taille par huit fois—de 20 Go à 2,5 Go.
  • Les utilisateurs peuvent tester le service sur une page web dédiée, où le modèle est téléchargé sur leur appareil pour une utilisation hors ligne.

Fonctionnalité Hors Ligne

  • Après le téléchargement, le modèle fonctionne entièrement sans nécessiter de connexion internet, garantissant la confidentialité et l'indépendance des services cloud.

Performance

  • La vitesse du modèle dépend de la puissance de traitement de l'appareil :
    • Par exemple, sur un MacBook Pro avec un processeur M1, le modèle génère environ 3-4 caractères par seconde.

Construit avec des Technologies Modernes

  • Rust et WebAssembly :
    • Le service est écrit en Rust et utilise WebAssembly, une technologie qui permet aux applications de fonctionner efficacement dans un navigateur web sur plusieurs plateformes et langages.

Techniques de Compression Avancées

  • Le service utilise des méthodes de pointe développées en collaboration par :
    • Yandex Research
    • Institut de Science et Technologie d'Autriche (ISTA)
    • Université de Science et Technologie du Roi Abdullah (KAUST)

Deux Outils Principaux

  1. Compression de Modèle :
    • Compresse les modèles jusqu'à huit fois, leur permettant de fonctionner sur un seul GPU au lieu de plusieurs.
  2. Correction d'Erreur :
    • Réduit les erreurs introduites lors de la compression, assurant la haute qualité des réponses du réseau neuronal.

Lancement et Open Source

  • Le projet a été présenté pour la première fois en été 2024 et a depuis été rendu accessible au public.
  • Le code source est librement accessible sur GitHub, invitant les développeurs à explorer et à développer cette innovation.