Het SlowFast-LLaVA-model van Apple is een innovatief groot videotaalmodel (VLM) dat is ontworpen om zowel gedetailleerde ruimtelijke als langdurige temporele informatie in video’s te begrijpen. Dit model, gebaseerd op het LLaVA-taalmodel, is uniek omdat het een “training-vrije” benadering gebruikt, wat betekent dat het direct prestaties van topklasse levert zonder extra aanpassing of fijnafstelling op specifieke videogegevens. Dit is een belangrijke doorbraak, aangezien veel vergelijkbare modellen uitgebreide training nodig hebben om goed te functioneren.
Hoe het SlowFast-principe werkt 🎥
Het model dankt zijn naam aan de SlowFast-architectuur, een tweeledige benadering die het menselijk waarnemingsvermogen nabootst. Een mens neemt een video zowel in detail als in grote lijnen waar. Het SlowFast-model doet hetzelfde met twee afzonderlijke stromen:
- Slow Stream: Deze stroom verwerkt video’s met een lage framesnelheid, maar met een hoge resolutie per frame. Dit stelt het model in staat om de gedetailleerde, statische inhoud en objecten in een video te analyseren. Het richt zich op de ‘wat’ en ‘waar’ van de video.
- Fast Stream: Deze stroom verwerkt video’s met een hoge framesnelheid, maar met een lagere resolutie per frame. Hierdoor kan het model beweging en dynamische veranderingen efficiënt vastleggen. Het focust op de ‘hoe’ en ‘wanneer’ van de acties in de video.
Door de output van beide stromen te combineren, kan SlowFast-LLaVA een uitgebreid begrip van een video opbouwen, van de kleinste details tot de algemene gebeurtenissen. - Het model kan hierdoor complexe vragen over video’s beantwoorden en taken uitvoeren die verder gaan dan wat enkel tekst- of beeldgebaseerde modellen kunnen.