Justification visuelle du raisonnement spatio-temporel dans les modèles multimodaux vision-langage // Grounding and reasoning over space and time in Vision-Language Models (VLM)
2 months ago
Saclay
Les modèles vision-langage (VLMs) récents, comme BLIP, LLaVA et Qwen-VL, ont montré de bonnes performances sur des tâches multimodales, mais présentent encore des lacunes en raisonnement spatio-temporel.Les benchmarks actuels confondent souvent raisonnement visuel et connaissances générales,