Un employé de Yandex Research développe un service pour exécuter le modèle de langage Llama 3.1 "sur un ordinateur ordinaire" Un employé de Yandex Research développe un service pour exécuter le modèle de langage Llama 3.1 "sur un ordinateur ordinaire"

Vladimir Malinovsky, un chercheur du département scientifique de Yandex, a développé un service révolutionnaire qui permet de faire fonctionner de grands modèles de langage avec 8 milliards de paramètres sur des ordinateurs ordinaires ou même des smartphones, directement via un navigateur web. Voici un aperçu de cette technologie innovante :

Accessible sur des Appareils Standards

Le service utilise Llama 3.1-8B, un grand modèle de langage réduit en taille par huit fois—de 20 Go à 2,5 Go.
Les utilisateurs peuvent tester le service sur une page web dédiée, où le modèle est téléchargé sur leur appareil pour une utilisation hors ligne.

Fonctionnalité Hors Ligne

Après le téléchargement, le modèle fonctionne entièrement sans nécessiter de connexion internet, garantissant la confidentialité et l'indépendance des services cloud.

Performance

La vitesse du modèle dépend de la puissance de traitement de l'appareil :
- Par exemple, sur un MacBook Pro avec un processeur M1, le modèle génère environ 3-4 caractères par seconde.

Construit avec des Technologies Modernes

Rust et WebAssembly :
- Le service est écrit en Rust et utilise WebAssembly, une technologie qui permet aux applications de fonctionner efficacement dans un navigateur web sur plusieurs plateformes et langages.

Techniques de Compression Avancées

Le service utilise des méthodes de pointe développées en collaboration par :
- Yandex Research
- Institut de Science et Technologie d'Autriche (ISTA)
- Université de Science et Technologie du Roi Abdullah (KAUST)

Deux Outils Principaux

Compression de Modèle :
- Compresse les modèles jusqu'à huit fois, leur permettant de fonctionner sur un seul GPU au lieu de plusieurs.
Correction d'Erreur :
- Réduit les erreurs introduites lors de la compression, assurant la haute qualité des réponses du réseau neuronal.

Lancement et Open Source

Le projet a été présenté pour la première fois en été 2024 et a depuis été rendu accessible au public.
Le code source est librement accessible sur GitHub, invitant les développeurs à explorer et à développer cette innovation.

Accessible sur des Appareils Standards

Fonctionnalité Hors Ligne

Performance

Construit avec des Technologies Modernes

Techniques de Compression Avancées

Deux Outils Principaux

Lancement et Open Source

Plus dans cette catégorie AI

L'éthique des armes autonomes : L'IA peut-elle être régulée dans la guerre ?

OpenAI annonce la prochaine famille de modèles de raisonnement — o3

Nvidia dévoile un superordinateur compact d'IA pour développeurs — Il tient dans votre main

OpenAI publie officiellement le générateur de vidéos Sora en accès libre

Rejoignez notre communauté 👋