Meer metadata, minder grip?

Door Jeroen Keulemans, Business Developer bij Bindinc.

Vorige week kwam Gracenote met een onderzoek dat voor iedereen in streaming en content discovery interessant is: Plot holes in AI. Het rapport laat zien wat er kan gebeuren wanneer je AI laat werken zonder voldoende betrouwbare en actuele data eronder. 

Want een LLM dat niet goed “geground” is, haalt feiten niet netjes op uit een bron. Het voorspelt wat waarschijnlijk klinkt. En precies daar wordt metadata belangrijk. Als er te weinig goede metadata beschikbaar is, gaat zo’n systeem zelf de gaten vullen. Soms levert dat een antwoord op dat logisch klinkt, maar gewoon niet klopt. 
Meer metadata uit content halen

Voor VOD platformen wordt dat al snel concreet. Als je AI inzet om kijkers sneller naar relevante content te brengen, moet het systeem de intentie van die kijker goed kunnen begrijpen. Gebeurt dat niet, dan krijg je aanbevelingen die op papier misschien kloppen, maar voor de gebruiker niet relevant voelen. Dan help je de kijker niet vooruit, maar maak je de zoektocht juist langer. 

Hoe los je dat op? Voor een deel lijkt het antwoord simpel. Loop rond op een beurs als NAB of IBC en je wordt overspoeld door bedrijven, groot en klein, die AI-oplossingen bieden om metadata uit content te halen: persoonsherkenning, locatieherkenning, OCR, transcriptie, emotieherkenning, ga zo maar door. Met de juiste tools was er nog nooit zoveel metadata beschikbaar. Dus dan is het probleem opgelost, toch? Meer metadata betekent beter vindbare content en betere aanbevelingen. 

De metadata-paradox

Niet dus. Honderden of duizenden metadatavelden betekenen op zichzelf nog niet veel. Data is niet hetzelfde als informatie. De metadata-paradox: hoe rijker en uitgebreider de metadata rond content wordt, hoe groter de noodzaak om die metadata te structureren, wegen en interpreteren. Meer data leidt niet automatisch tot betere keuzes of systemen. Zonder Interpretatielaag kan het juist méér complexiteit veroorzaken. 

Stel: twee verschillende programma’s krijgen allebei tags als Reality, Familie, Drama en Lifestyle. Op papier lijken ze dus behoorlijk op elkaar. Een systeem dat vooral velden vergelijkt, zou kunnen denken: prima, dit zijn ongeveer dezelfde titels. 

Voor de kijker wordt dat verschil enorm wanneer het aan de ene kant gaat om The Kardashians: celebritycultuur, glamour, beauty, ondernemerschap en een wereldberoemde familie als merk. En aan de andere kant om een realitytitel die óók over familie, relaties en drama gaat, maar waarbij de kern veel meer ligt bij sociale druk, religieuze gemeenschap en dating. 

Behoefte aan duiding

De losse datapunten kunnen dus allemaal kloppen, maar ze vertellen nog niet wat een titel betekent. Waarom kijkt iemand? Welke sfeer heeft het programma? Welk publiek slaat erop aan? Dat is het verschil tussen data en informatie. Data zegt: deze content heeft deze kenmerken. Informatie ontstaat pas wanneer je begrijpt hoe die kenmerken samenhangen. En relevantie ontstaat pas wanneer je die betekenis koppelt aan de intentie van de kijker. Er is interpretatie nodig. 

Dus al die leuke AI-bedrijfjes ten spijt: de oplossing is niet simpelweg “meer metadata”. Natuurlijk helpt het als AI modellen metadata kunnen extraheren. Sterker nog, dat brengt veel binnen handbereik wat vroeger handwerk was. Maar hoe meer data er komt, hoe groter de behoefte aan duiding: wat betekent die data, hoe verhoudt die zich tot andere signalen, en wat betekent dat voor een specifieke toepassing? Precies daarom is de Interpretatielaag harder nodig dan ooit. 

Jeroen Keulemans
Business Developer

Meer weten

Ben je benieuwd wat Bindinc. voor je kan betekenen? Neem contact met met Jeroen Keuelemans via jeroen.keulemans@bindinc.nl.

Meld je hier aan voor onze nieuwsbrief om op de hoogte te blijven.