Spitzen-Sprachmodelle scheitern an Aufgaben, die Kleinkinder lösen
Während multimodale LLMs heute Textaufgaben auf Doktorandenniveau lösen können, versagen sie bei visuellen Aufgaben, die Kleinkinder im Alter von drei bis fünf Jahren beherrschen.