Ein Blick hinter die Kulissen der Vision AI im Streaming

Abirami Vina

3 Minuten lesen

10. Dezember 2024

Erfahren Sie, wie Computer Vision Streaming-Plattformen mit personalisierten Empfehlungen und Echtzeit-Inhaltsanalysen für ein besseres Nutzererlebnis verbessert.

Haben Sie sich jemals gefragt, wie Streaming-Plattformen es so einfach machen, Ihre Lieblingssendungen zu sehen? Vor nicht allzu langer Zeit war die Unterhaltung noch ganz anders. Das Fernsehprogramm war festgelegt, und die Zuschauer sahen in der Regel das, was gerade ausgestrahlt wurde. Streaming-Dienste haben dieses Paradigma verändert. Erhebungen zeigen, dass der weltweite Markt für Video-Streaming im Jahr 2023 auf 106,83 Milliarden Dollar geschätzt wurde und bis 2034 voraussichtlich 865,85 Milliarden Dollar erreichen wird.

Künstliche Intelligenz (KI) hat bei dieser Entwicklung eine entscheidende Rolle gespielt. Insbesondere erleben wir eine Zunahme der Innovationen im Bereich der Computer Vision in diesem Bereich. KI ermöglicht es Streaming-Plattformen, Videoinhalte zu verstehen und zu interpretieren, indem Bilder analysiert und Muster erkannt werden. 

Durch die Verarbeitung visueller Daten können Plattformen mit Hilfe von Computer Vision intelligentere Empfehlungen erstellen, die Organisation von Inhalten verbessern und sogar interaktive Funktionen optimieren. In diesem Artikel erfahren Sie, wie Computer Vision Streaming-Plattformen dabei hilft, die Bereitstellung von Inhalten zu verbessern, die Nutzerinteraktion zu optimieren und die Suche nach Inhalten zu vereinfachen. Fangen wir an!

__wf_reserved_inherit
Abb. 1. Der globale Video-Streaming-Markt.

Erforschung von Computer Vision und Streaming-Plattformen

Bei Streaming-Plattformen kann Computer Vision dabei helfen, Videos in Einzelbilder zu zerlegen und sie mit Modellen wie Ultralytics YOLO11 zu analysieren. YOLO11 kann anhand von großen Datensätzen mit markierten Beispielen individuell trainiert werden. Markierte Beispiele sind Bilder oder Videoframes, die mit Details wie den darin enthaltenen Objekten, den stattfindenden Aktionen oder der Art der Szene versehen sind. So kann das Modell lernen, ähnliche Muster zu erkennen. Diese Modelle sind in der Lage, Objekte zu erkennen, Szenen zu klassifizieren und Muster in Echtzeit zu identifizieren, was wertvolle Einblicke in den Inhalt ermöglicht.

Um die Funktionsweise besser zu verstehen, sehen wir uns einige Beispiele dafür an, wie Computer Vision in Streaming-Plattformen eingesetzt wird, um das Nutzererlebnis zu optimieren und Inhalte besser zugänglich zu machen.

Szenenerkennung für personalisierte Empfehlungen

Bei der Szenenerkennung handelt es sich um eine Computer-Vision-Technik, die Bilder oder Videoframes auf der Grundlage ihres visuellen Inhalts und ihrer Themen kategorisiert. Sie kann als eine spezielle Form der Bildklassifizierung betrachtet werden, bei der der Schwerpunkt auf der Identifizierung der allgemeinen Umgebung oder Atmosphäre einer Szene und nicht auf einzelnen Objekten liegt. 

Ein System zur Szenenerkennung kann beispielsweise Szenen in Kategorien wie "freies Schlafzimmer", "Waldweg" oder "felsige Küste" einteilen, indem es Merkmale wie Farben, Texturen, Beleuchtung und Objekte analysiert. Mit der Szenenerkennung können Streaming-Plattformen Inhalte effektiv kennzeichnen und organisieren.

__wf_reserved_inherit
Abb. 2. Kategorisierung von Szenen mithilfe von KI.

Sie spielt eine Schlüsselrolle bei personalisierten Empfehlungen. Wenn ein Nutzer häufig Inhalte anschaut, die ruhige Außenbereiche wie "sonnige Küsten" oder trendige Innenräume wie "stilvolle Küche" zeigen, kann die Plattform Sendungen oder Filme mit ähnlichen Bildern empfehlen. Die Szenenerkennung vereinfacht die Entdeckung von Inhalten und präsentiert den Nutzern Empfehlungen, die ihren Sehgewohnheiten entsprechen.

Erstellung von Bildern und Miniaturansichten

Bei der Erstellung von Bildern und Miniaturansichten geht es darum, visuelle Vorschauen für Videos zu erstellen, um Zuschauer anzulocken und wichtige Momente hervorzuheben. KI und Computer Vision können diesen Prozess automatisieren, um sicherzustellen, dass die Thumbnails relevant und auffällig sind.

Das Verfahren funktioniert folgendermaßen:

  • Frame-Analyse: Ein Computer-Vision-System kann damit beginnen, Tausende von Videobildern zu scannen, um herausragende Momente zu identifizieren. Dazu können emotionale Ausdrücke, Schlüsselaktionen oder visuell auffällige Szenen gehören, die den Inhalt des Videos am besten repräsentieren.
  • Bewegungsanalyse: Sobald potenzielle Bilder ausgewählt sind, kann Vision AI verwendet werden, um zu prüfen, ob sie scharf und frei von Unschärfe sind, was die allgemeine visuelle Qualität der Miniaturansicht verbessert.
  • Objekt-Erkennung und Szenenanalyse: Mithilfe von Modellen wie YOLO11 (die Computer-Vision-Aufgaben wie Objekterkennung und Instanzsegmentierung unterstützen) kann das System wichtige Elemente im Bild erkennen, z. B. Objekte, Personen oder Einstellungen. Dieser Schritt bestätigt, dass die Miniaturansicht das Wesentliche des Videos genau wiedergibt.
  • Bildverfeinerung: Die ausgewählten Bilder werden dann unter Berücksichtigung von Faktoren wie Kamerawinkel, Beleuchtung und Komposition verfeinert.
  • Personalisierung: Schließlich können Algorithmen des maschinellen Lernens verwendet werden, um die Miniaturansichten auf der Grundlage der Benutzerpräferenzen und des Sehverhaltens zu personalisieren. Auf diese Weise wird das Bildmaterial auf den individuellen Geschmack zugeschnitten, was die Wahrscheinlichkeit erhöht, dass es die Aufmerksamkeit auf sich zieht und das Engagement fördert.

Ein gutes Beispiel für eine ähnliche Anwendung in der Praxis ist die Verwendung von Computer Vision bei Netflix zur automatischen Erstellung von Miniaturansichten. Durch die Analyse von Einzelbildern, um Emotionen, Kontext und filmische Details zu erkennen, erstellt Netflix Miniaturansichten, die den Vorlieben der einzelnen Zuschauer entsprechen. So können Nutzer, die romantische Komödien mögen, eine Miniaturansicht sehen, die einen heiteren Moment hervorhebt, während Action-Fans eine intensive, energiegeladene Szene präsentiert wird.

__wf_reserved_inherit
Abb. 3. Die Miniaturansichten von Fernsehsendungen können an die Vorlieben der Zuschauer angepasst werden.

Automatisierte Inhaltsvorschauen 

Wenn Sie durch eine Streaming-Plattform scrollen, sind die kurzen, auffälligen Vorschaubilder, die Sie sehen, nicht zufällig. Sie werden sorgfältig mit Technologien wie Computer Vision erstellt, um die Aufmerksamkeit zu erregen und die interessantesten Momente eines Videos hervorzuheben. Sobald die besten Momente ausgewählt sind, werden sie zu einer flüssigen, ansprechenden Vorschau zusammengefügt. 

Der Prozess der Auswahl dieser Momente umfasst mehrere wichtige Schritte:

  • Szenensegmentierung: Das Video wird in kleinere Abschnitte unterteilt, die auf natürlichen Übergängen basieren, wie z. B. Änderungen der Beleuchtung, des Kamerawinkels oder des Bildmaterials.
  • Bewegungserkennung: Dynamische, actiongeladene Momente werden erkannt, um sicherzustellen, dass die Vorschau Aufmerksamkeit erregt.
  • Salienz-Modelle: Visuelle Merkmale wie Farbe, Helligkeit und Kontrast werden analysiert, um die auffälligsten Teile einer Szene zu identifizieren.
  • Analyse des Gesichtsausdrucks: Momente mit starken emotionalen Ausdrücken werden ausgewählt, um eine tiefere Verbindung mit den Zuschauern herzustellen.

Kategorisierung und Verschlagwortung von Inhalten

Die Möglichkeit, Filme nach Genre, Stimmung oder bestimmten Themen zu durchsuchen, hängt von einer genauen Kategorisierung und Kennzeichnung der Inhalte ab. Beliebte Streaming-Plattformen nutzen Computer Vision, um diesen Prozess zu automatisieren, indem sie Videos auf Objekte, Aktionen, Einstellungen oder Emotionen analysieren und dann entsprechende Tags zuweisen. Dies hilft bei der Organisation großer Medienbibliotheken und macht personalisierte Empfehlungen genauer, da die Inhalte mit den Vorlieben der Zuschauer übereinstimmen.

KI-Techniken wie Szenensegmentierung, Objekterkennung und Aktivitätserkennung können zur effektiven Kennzeichnung von Inhalten eingesetzt werden. Durch die Identifizierung von Schlüsselelementen wie Objekten, emotionalen Tönen und Handlungen erstellen sie detaillierte Metadaten für jeden Titel. Die Metadaten können dann mithilfe von maschinellem Lernen analysiert werden, um Kategorien zu erstellen, die es den Nutzern erleichtern, das Gesuchte zu finden und das Browsing-Erlebnis insgesamt zu verbessern.

__wf_reserved_inherit
Abb. 4. Ein Beispiel für die automatische Kategorisierung von Inhalten für personalisierte Streaming-Empfehlungen.

Vorteile und Herausforderungen von KI-gestützten Streaming-Plattformen

Computervision verbessert Streaming-Plattformen mit innovativen Funktionen, die das Nutzererlebnis verbessern. Hier sind einige einzigartige Vorteile, die Sie beachten sollten:

  • Adaptive Streaming-Qualität: Computer Vision kann Videoszenen analysieren, um bewegungsintensive oder detaillierte Momente zu erkennen, die eine höhere Qualität erfordern. Diese Erkenntnisse können dann genutzt werden, um die Streaming-Qualität an das Gerät und die Internetgeschwindigkeit des Nutzers anzupassen.
  • Echtzeit-Verhaltensüberwachung: KI kann zur Überwachung von Live-Streams eingesetzt werden, um Piraterie in Echtzeit zu erkennen. Sie kann auch unerlaubte Aktionen wie das Hinzufügen von Overlays (z. B. Logos oder Werbung) oder die erneute Ausstrahlung von Streams auf anderen Plattformen erkennen.
  • Energieeffiziente Bereitstellung von Inhalten: Mit den Erkenntnissen von Vision AI kann die Bereitstellung von Inhalten durch die Analyse der Nutzernachfrage und der Betrachtungsmuster optimiert werden. Durch die lokale Zwischenspeicherung beliebter Inhalte und die Anpassung der Videoqualität werden die Bandbreitennutzung und der Energieverbrauch reduziert, wodurch das Streaming nachhaltiger wird.

Trotz der vielen Vorteile gibt es bei der Umsetzung dieser Innovationen auch einige Einschränkungen zu beachten:

  • Hohe rechnerische Anforderungen: Bildverarbeitungsalgorithmen erfordern eine hohe Rechenleistung für die Verarbeitung und Analyse von Videoinhalten, was zu höheren Kosten und einem höheren Energieverbrauch führen kann.
  • Bedenken hinsichtlich des Datenschutzes: Da Computer Vision auf große Datensätze von Benutzerinteraktionen und -inhalten zurückgreift, kann sie Bedenken hinsichtlich des Datenschutzes und der Sicherheit aufwerfen.
  • Datenverzerrung: Computer-Vision-Modelle können Verzerrungen in ihren Trainingsdaten widerspiegeln. Dies kann dazu führen, dass sie bestimmte Arten von Inhalten bevorzugen und die Vielfalt der Empfehlungen verringern.

Die Zukunft der KI in Streaming-Plattformen

Innovationen wie Edge Computing und 3D-Technologie tragen dazu bei, die Zukunft des Unterhaltungserlebnisses zu gestalten. Edge Computing kann eingesetzt werden, um Videos näher an dem Ort zu verarbeiten, an dem sie gestreamt werden. Dadurch werden Verzögerungen reduziert und Bandbreite gespart, was besonders für Live-Streaming und interaktive Inhalte wichtig ist. Schnellere Reaktionszeiten bedeuten flüssigere und ansprechendere Erlebnisse für die Zuschauer.

Gleichzeitig verleiht die 3D-Technologie Shows, Filmen und interaktiven Funktionen mehr Tiefe und Realismus. Diese Fortschritte öffnen auch die Tür zu neuen Möglichkeiten wie Augmented Reality (AR) und Virtual Reality (VR). Mit Geräten wie VR-Headsets können die Zuschauer in völlig neue Umgebungen eintauchen. Die Grenzen zwischen der digitalen und der physischen Welt können verwischt werden, um eine ganz neue Ebene des Engagements zu schaffen.

__wf_reserved_inherit
Abbildung 5. Umgestaltung des Streamings mit VR-gesteuerten interaktiven Erlebnissen.

Die wichtigsten Erkenntnisse

Computer Vision definiert Streaming-Plattformen neu, indem es die Videoanalyse intelligenter, die Kategorisierung von Inhalten schneller und die Empfehlungen personalisierter macht. Mit Modellen wie Ultralytics YOLO11 können Plattformen Objekte erkennen und Szenen in Echtzeit klassifizieren. Dies erleichtert die Kennzeichnung von Inhalten und verbessert die Art und Weise, wie Sendungen und Filme vorgeschlagen werden.

Streaming-Plattformen, die mit Vision AI integriert sind, bieten den Zuschauern fesselndere Erlebnisse und gewährleisten gleichzeitig einen reibungsloseren und effizienteren Betrieb der Plattform. Im Zuge des technologischen Fortschritts werden Streaming-Dienste wahrscheinlich interaktiver werden und ein umfassenderes und intensiveres Unterhaltungserlebnis bieten.

Neugierig auf KI? Besuchen Sie unser GitHub-Repository, um mehr zu erfahren und sich mit unserer Community zu vernetzen. Entdecken Sie verschiedene Anwendungen von KI im Gesundheitswesen und Computer Vision in der Landwirtschaft.

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert