Optimisation des coûts d’inférence via distillation IA appliquée
Optimisation des coûts d’inférence via distillation IA appliquée • Distillation de modèles Mise en place d’une architecture de distillation pour reproduire les performances d’un grand modèle sur un plus petit, réduisant considérablement les coûts d’inférence. Ce travail vise à rendre l’usage d’agents intelligents plus accessible dans des environnements à contraintes budgétaires ou matérielles.