- Donner des capacités visuelles à un grand modèle de langage
- Questions et raisonnement sur les images
- Objectif double
- Comprendre le contenu d’une image et pouvoir interagir avec lui
- Créer un système demandant moins de ressources
- Données et modèles
- Visual Question Answering (https://visualqa.org/)
- Détecteur d’objets YOLO, représentations CLIP
- Toolformer pour l’interaction entre les systèmes
- Adaptation PEFT
Document décrivant l’avancement du projet : https://docs.google.com/document/d/1sLhBEUKv521Mi0NZHNOK2CT45E-TM53PKyS2EQvWa2E/edit?usp=sharing
Rejoindre le discord : https://discord.gg/4fG53GF4