Stora språkmodeller (LLM) som ChatGPT, Gemini, Claude, Perplexity och Grok tolkar i första hand videoinnehåll genom textuella signaler. De kan:
- Extrahera insikter från videotranskriptioner.
- Tillhandahålla länkar till videor som anses relevanta för en användares fråga.
- Analysera en videos transkription och metadata när du uttryckligen uppmanas.
I praktiken behandlar LLM:er skriftspråk; de kan ännu inte analysera rörliga bilder och ljudströmmar direkt. Denna begränsning beror till stor del på den stora datamängden som är involverad. Till exempel väger 100 ord vanlig HTML ungefär 0,8 KB, medan samma innehåll som återges som en 45-sekunders HD-video upptar ungefär 20 MB – ungefär 25 000 gånger mer data. Följaktligen kan endast specialiserade sökrobotar för närvarande dissekera videofiler på begäran, och sökrobotar för allmänna ändamål saknar fortfarande kapacitet att göra det för varje video som påträffas.
På grund av detta måste videooptimering för LLM:er fokusera på omgivande textmetadata. Nyckelelementen är:
Transkriptioner, titlar och beskrivningar
Varje video bör ha en fullständig transkription, en tydlig titel och en detaljerad beskrivning som förklarar dess innehåll. Dessa element måste exponeras direkt i sidans källa – fria från JavaScript-omslag eller iframes – så att LLM-sökrobotar kan läsa dem. Tyvärr är mer än 95 % av webbvideor beroende av JavaScript eller iframe-leverans, vilket döljer deras metadata från många AI-system.
Wistias LLM-vänliga inbäddningar löser detta problem genom att bädda in transkriptet som vanlig HTML-text i inbäddningskoden och sedan använda JavaScript för att ersätta den texten med videospelaren. Detta tillvägagångssätt säkerställer att sökrobotar och användare som inte kan rendera video fortfarande får den textmässiga reservfunktionen.
För webbplatser som bäddar in YouTube-videor gäller samma princip. YouTubes iframe-inbäddningar är osynliga för LLM-sökrobotar, så det enda pålitliga sättet för en AI att förstå videon är att inkludera transkriptionen som synlig text på sidan. Det är viktigt att ladda upp korrekta, flerspråkiga transkriptioner till YouTube, även om dessa transkriptioner inte kommer att ingå i LLM:s allmänna utbildningsuppsättning på grund av YouTubes användarvillkor som förbjuder massskrapning.
Vad sägs om Geminis förhållande till YouTube?
Det är en vanlig missuppfattning att Googles ägande av både Gemini och YouTube garanterar sömlös integration. Även om Gemini kan komma åt en databas med YouTube-videor med ytterligare metadata, förblir dess funktion lik andra LLM:er:den förlitar sig på webbciteringar och referenser för att identifiera relevanta videor. Rankningen av videor i sökresultaten översätts inte automatiskt till de videor som markerats av Gemini.
Framtidsutsikter:Kommer LLM:er att bearbeta videofiler direkt?
Experter räknar med att inom de närmaste åren kommer LLM:er att skaffa sig beräkningskraften att tolka videoinnehåll mer som människor. Men huruvida denna förmåga blir mainstream beror på det inkrementella värdet den ger kontra bearbetningskostnaden. Aktuella prognoser tyder på att 2028 kan LLM:er kunna analysera JavaScript på ett sätt som är jämförbart med Googlebot, och 2031 kan de rutinmässigt bearbeta inkapslade videofiler. Tills dess är regeln enkel:om innehållet inte är läsbart som text förblir det osynligt för AI.