REC

Tips om videoinspelning, produktion, videoredigering och underhåll av utrustning.

 WTVID >> Videoproduktionsguide >  >> Filmutrustning >> Kamera

Visual Reasoning AI:Revolutionerande livesändning med scenförståelse

Artificiell intelligens (AI) har redan förändrat videopostproduktion. Det finns nu AI-verktyg för allt från textning till specialeffekter till redigering. Det är till och med möjligt att skapa extra ramar för att förlänga ett klipp som är för kort. Dessa AI-modeller fungerar dock alla med video som redan har skapats. Nästa gräns är livevideo.

Visual Reasoning AI är en ny teknik född från ett partnerskap mellan PTZOptics och Moondream.ai. Det ger scenförståelse till kameror och livevideoarbetsflöden i realtid. Det är gratis, öppen källkod och körs i alla moderna webbläsare.

Men vad är det exakt, och hur fungerar det?

Vision Language Model

Stora språkmodeller (LLM) har dominerat AI-konversationen de senaste åren. Utbildade på textdata driver de chatbotarna och virtuella assistenter som har blivit allt mer bekanta. Men en LLM förstår bara ord.

En Vision Language Model (VLM) som Moondream är annorlunda. En VLM kan förstå video, bilder och ljud samt textinmatning. Detta innebär att Moondream kan tolka visuell information och ljudinformation och sedan generera text och andra utdata som svar på vad den "ser".

Moondream är en öppen källkod VLM skapad av M87 Labs, baserat i Seattle. Den är designad för att förstå bilder, upptäcka objekt och analysera scener. Eftersom det är öppen källkod kan det installeras och köras lokalt utan kostnad. Molnbaserad åtkomst är också tillgänglig, men det innebär användningsavgifter.

Visual Reasoning AI

Visual Reasoning AI ger praktisk automatisering till professionella audiovisuella arbetsflöden, som streaming, sändning och liveproduktion. I sin kärna genererar tekniken naturliga språkbeskrivningar av vad en kamera fångar i realtid.

Utöver beskrivningen kan den lokalisera och markera alla objekt som specificeras på vanligt språk, samt räkna och spåra objekt inom kamerans synfält. Det kanske mest anmärkningsvärda är att det analyserar scener för att förutse vad som sannolikt kommer att hända härnäst, och utlöser automatiska svar som att flytta robotkameror, skicka varningar eller uppdatera instrumentpaneler.

Resultatet är ett flexibelt verktyg som kan konfigureras för ett brett utbud av produktionsscenarier.

Så fungerar det

Visual Reasoning AI:Revolutionerande livesändning med scenförståelse Bild med tillstånd:Visual Reasoning AI

Visual Reasoning är en molnbaserad lösning, vilket innebär att det inte finns någon programvara att ladda ner eller installera och ingen speciell hårdvara krävs. Den körs på stationära datorer, bärbara datorer, surfplattor och smartphones via alla moderna webbläsare och är kompatibel med alla kameror, inklusive webbkameror, PTZ-kameror och smartphonekameror.

Efter att ha loggat in på webbplatsen Visual Reasoning kan anslutna kameror läggas till i gränssnittet. Moondream VLM bearbetar en enda videobild i taget, så för att analysera livevideo fångar den flera bildrutor med ett visst intervall. Dessa bilder laddas upp till Moondream.ai-plattformen, där AI:n tolkar förändringar över tid.

Det är värt att notera att detta tillvägagångssätt ram för ram introducerar en naturlig begränsning. Med två sekunders intervall är systemet väl lämpat för miljöer med måttlig takt (möten, presentationer, gudstjänster) men kan ha svårt att hänga med i snabba åtgärder som sporter i högt tempo. Intervallinställningen tillåter operatörer att balansera lyhördhet mot bearbetningsbelastning, men kontinuerlig analys i realtid är inte vad detta system erbjuder för närvarande.

AI:n kan beskriva en scen på naturligt språk, identifiera personer, föremål och platser. Det kan också spåra och räkna antalet personer som visas i ett videoflöde över tid. Funktionen för upptäckt av flera objekt ritar avgränsande rutor runt specifika föremål i scenen - en operatör skriver helt enkelt en beskrivning på vanlig engelska, till exempel "dörr", "bok" eller "man i röd skjorta", och Visual Reasoning kartlägger en färgad ruta runt föremålet. Flera objekt kan identifieras samtidigt, med anpassningsbara boxfärger.

Visuellt resonemang och videoproduktion

Webbplatsen Visual Reasoning erbjuder nio gratis verktyg med öppen källkod för professionell AV- och sändningsanvändning. De mest övertygande visar vad som blir möjligt när AI-scenförståelse tillämpas på direktkamerakontroll.

PTZ Auto-Tracker

Visual Reasoning AI:Revolutionerande livesändning med scenförståelse Bild med tillstånd:Visual Reasoning AI

PTZ Auto-Tracker kombinerar Visual Reasoning AI med PTZOptics kamerakontroll för att skapa ett intelligent spårningssystem. Istället för att förlita sig på rörelsedetektering eller fasta zoner, accepterar den naturliga språkbeskrivningar av sitt motiv ("högtalaren i den blå jackan" eller "spelaren med bollen") och styr kameran för att panorera, luta och zooma därefter. För produktioner utan dedikerade kameraoperatörer, såsom gudstjänster, konferenspresentationer eller småskaliga sportsändningar, är det här teknikens potential är mest uppenbar.

Multimodal Fusion

Multimodal Fusion är kanske det mest ambitiösa av de nio verktygen. Den analyserar video och ljud samtidigt, vilket ger Visual Reasoning en fylligare sensorisk bild av scenen. I en presentationsmiljö betyder detta att systemet kan upptäcka vem som talar och byta kamera automatiskt. Vid ett livemusikframträdande kan den identifiera ljudet av ett visst instrument och styra en PTZ-kamera för att följa den artisten – en förmåga som vanligtvis kräver att en skicklig mänsklig regissör fattar beslut på en del av en sekund.

Scoreboard Extractor läser och digitaliserar resultattavlans information från alla videoflöden. En kamera riktad mot en resultattavla på ett gym eller en stadion visar källan, och AI:n extraherar relevant data. Sporter som för närvarande stöds inkluderar fotboll, fotboll, basket och volleyboll, med möjligheten att specificera vilken data som ska övervakas. Den extraherade informationen kan sedan läggas över på ett sändningsflöde.

Färgassistent

Färgassistentverktyget kan analysera färgegenskaperna för en referensbild. Det kommer sedan att ge rekommendationer för att matcha dina kamerainställningar. Detta är idealiskt för multikameraproduktioner där du behöver konsekventa färger på olika kameramodeller. Du kan också använda verktyget Color Assistant för att få ett specifikt filmiskt utseende. AI-modellen förstår färgtemperatur, mättnad, kontrast och tonegenskaper.

Zonövervakning

Zone Monitor låter dig definiera anpassade regioner i ditt videoflöde. Den upptäcker sedan automatiskt när specifika föremål eller personer kommer in, lämnar eller stannar i dessa zoner. Detta kan vara användbart för filmskapare av vilda djur, få fjärrkameror att följa specifika djur och ignorera andra arter.

Scenbeskrivning

Scenbeskrivningen genererar automatiskt naturliga språkbeskrivningar av vad som händer i ditt videoflöde. Det kan vara användbart för innehållsanalys eller som en tillgänglighetsfunktion.

Detekteringsboxar

Detektionsrutor identifierar de objekt du väljer i ditt videoflöde och ritar exakta begränsningsrutor runt dem.

Smart räknare

Smart Counter använder Visual Reasoning AI för att korrekt räkna personer, fordon eller andra objekt som du anger när de går in i och lämnar en scen.

Scenanalysator

Med Scene Analyzer kan du ställa frågor om vad som händer i din video. Visual Reasoning AI kommer då att svara med omedelbara svar.

Kraften i visuellt resonemang

Visual Reasoning-systemet är designat för att vara modulärt – dess verktyg kan konfigureras och kombineras för att passa olika produktionsmiljöer. En demonstration på företagets hemsida illustrerar detta med ett styrelsemötesscenario. När deltagarna kommer in i rummet, räknar AI:n och identifierar dem. När mötet börjar avgör Visual Reasoning vem som talar och ändrar kameravyn därefter. Den upptäcker också när ett videoflöde visas på en bildskärm och klipper till den källan.

Systemet sträcker sig till mer dynamiska miljöer som livemusik. Genom att övervaka ljud vid sidan av video kan den upptäcka en sångare och styra en kamera att följa dem. Under ett instrumentalt solo känner den igen ljudet, identifierar motsvarande instrument och artist inom scenen och flyttar en PTZ-kamera för att fånga dem. När solot slutar, skärs det tillbaka till en bred bild av hela scenen.

Eftersom Visual Reasoning bygger på en vision-språkmodell, accepterar den naturliga språkinstruktioner snarare än att kräva traditionell programmering. Detta innebär att operatörer kan beskriva vad de vill att systemet ska göra i klartext och konfigurera om det relativt snabbt för olika sammanhang, såsom konferenser, gudstjänsthus, liveteater, sportbevakning och så vidare. Instruktioner kan förberedas före en händelse, varvid systemet sedan fungerar autonomt under produktionen.

Prövar

Det finns en Playground-sida på Visual Reasoning-webbplatsen där du kan uppleva tekniken och prova verktygen. Du kan använda den med din smartphone, stationära dator, bärbara dator eller surfplatta. Lägg bara till din e-post så skickar Visual Reasoning dig en länk för att logga in. Det finns en gräns för hur många förfrågningar du kan skicka till AI. Du kan dock gå till webbplatsen Moondream.ai för att begära en gratis API-nyckel för mer åtkomst.

Ett stort steg framåt för AI-videoproduktion

Visual Reasoning representerar ett betydande steg framåt för AI-videoproduktion och -sändning. När den paras ihop med PTZOptics-kameror, möjliggör den automatiserade kamerasystem som kan skräddarsys för specifika produktionsscenarier. Tekniken är öppen källkod och gratis att använda, vilket innebär att dess utveckling sannolikt kommer att accelerera i takt med att adoptionen växer och fler användare bidrar till dess utveckling.


  1. Hur man fyller i ett saknat skott

  2. Hur jag tog det här prisbelönta Night Sky Group -fotot

  3. DJI:s Mini 2-drönare lägger till pro-grade-funktioner och en prishöjning på $50

  4. ExoLens tillkännager objektivtillägg för iPhone 7

  5. iPhone 11 Pro-kameran är fantastisk, men den har några anmärkningsvärda problem

Kamera
  1. Hur man använder fyllning av fotografi

  2. 2024:s topp 11 polyfoniska synth-plugins för varje genre

  3. Sällsynta och extrema kameralinser:Utforska världens mest avancerade optik

  4. Bör alla fotografer ha en YouTube -kanal?

  5. Hur man blandar omgivande ljus och fyllningsflask för utomhusporträtt

  6. Hur man markerar och delar en kartplats från iPhone

  7. Fem bästa bomstänger för din budget 2022

  8. Hur man AirPlay-videor från iPhone till LG TV