Hackathon | ETAL 2023

Donner des capacités visuelles à un grand modèle de langage
- Questions et raisonnement sur les images
Objectif double
- Comprendre le contenu d’une image et pouvoir interagir avec lui
- Créer un système demandant moins de ressources
Données et modèles
- Visual Question Answering (https://visualqa.org/)
- Détecteur d’objets YOLO, représentations CLIP
- Toolformer pour l’interaction entre les systèmes
- Adaptation PEFT