Hackathon

  • Donner des capacités visuelles à un grand modèle de langage
    • Questions et raisonnement sur les images
  • Objectif double
    • Comprendre le contenu d’une image et pouvoir interagir avec lui
    • Créer un système demandant moins de ressources
  • Données et modèles
    • Visual Question Answering (https://visualqa.org/)
    • Détecteur d’objets YOLO, représentations CLIP
    • Toolformer pour l’interaction entre les systèmes
    • Adaptation PEFT

Document décrivant l’avancement du projet : https://docs.google.com/document/d/1sLhBEUKv521Mi0NZHNOK2CT45E-TM53PKyS2EQvWa2E/edit?usp=sharing

Rejoindre le discord : https://discord.gg/4fG53GF4