Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Ein Blick hinter die Kulissen von Vision AI im Streaming

Abirami Vina

3 Minuten Lesezeit

10. Dezember 2024

Entdecken Sie, wie Computer Vision Streaming-Plattformen mit personalisierten Empfehlungen und Echtzeit-Inhaltsanalysen für eine bessere Benutzererfahrung verbessert.

Haben Sie sich jemals gefragt, wie Streaming-Plattformen es so einfach machen, Ihre Lieblingssendungen anzusehen? Vor nicht allzu langer Zeit war Unterhaltung noch ganz anders. Die Fernsehprogramme waren festgelegt, und die Zuschauer sahen im Allgemeinen das, was auf Sendung war. Streaming-Dienste haben dieses Paradigma verändert. Umfragen zeigen, dass der globale Video-Streaming-Markt im Jahr 2023 auf 106,83 Milliarden Dollar geschätzt wurde und bis 2034 voraussichtlich 865,85 Milliarden Dollar erreichen wird.

Künstliche Intelligenz (KI) war entscheidend für diese Entwicklung. Insbesondere sehen wir eine Zunahme von Computer Vision-Innovationen in diesem Bereich. Vision AI ermöglicht es Streaming-Plattformen, Videoinhalte zu verstehen und zu interpretieren, indem sie Frames analysieren und Muster erkennen. 

Durch die Verarbeitung von visuellen Daten hilft Computer Vision Plattformen, intelligentere Empfehlungen zu erstellen, die Inhaltsorganisation zu verbessern und sogar interaktive Funktionen zu erweitern. In diesem Artikel werden wir untersuchen, wie Computer Vision Streaming-Plattformen hilft, die Inhaltsbereitstellung zu verbessern, die Benutzerbindung zu verfeinern und die Inhaltsentdeckung zu vereinfachen. Los geht's!

Abb. 1. Der globale Video-Streaming-Markt.

Erkundung von Computer Vision und Streaming-Plattformen

Wenn es um Streaming-Plattformen geht, kann Computer Vision helfen, Videos in einzelne Frames zu zerlegen und diese mithilfe von Modellen wie Ultralytics YOLO11 zu analysieren. YOLO11 kann auf großen Datensätzen mit gelabelten Beispielen kundenspezifisch trainiert werden. Gelabelte Beispiele sind Bilder oder Video-Frames, die mit Details wie den darin enthaltenen Objekten, den stattfindenden Aktionen oder der Art der Szene versehen sind. Dies hilft dem Modell, ähnliche Muster zu erkennen. Diese Modelle können Objekte erkennen, Szenen klassifizieren und Muster in Echtzeit identifizieren und so wertvolle Einblicke in den Inhalt liefern.

Um besser zu verstehen, wie das funktioniert, sehen wir uns einige Beispiele an, wie Computer Vision in Streaming-Plattformen eingesetzt wird, um die Benutzererfahrung zu optimieren und Inhalte zugänglicher zu machen.

Szenenerkennung für personalisierte Empfehlungen

Szenenerkennung ist eine Computer-Vision-Technik, die Bilder oder Video-Frames anhand ihres visuellen Inhalts und ihrer Themen kategorisiert. Sie kann als eine spezielle Form der Bildklassifizierung betrachtet werden, bei der der Fokus auf der Identifizierung der Gesamtumgebung oder Atmosphäre einer Szene und nicht auf einzelnen Objekten liegt. 

Beispielsweise könnte ein Szenenerkennungssystem Szenen in Kategorien wie „leeres Schlafzimmer“, „Waldweg“ oder „felsige Küste“ einteilen, indem es Merkmale wie Farben, Texturen, Beleuchtung und Objekte analysiert. Die Szenenerkennung ermöglicht es Streaming-Plattformen, Inhalte effektiv zu taggen und zu organisieren.

Abb. 2. Kategorisierung von Szenen mithilfe von KI.

Sie spielt eine Schlüsselrolle bei personalisierten Empfehlungen. Wenn ein Nutzer häufig Inhalte mit ruhigen Außenbereichen wie „sonnigen Küsten“ oder trendigen Innenräumen wie „stilvoller Küche“ ansieht, kann die Plattform Sendungen oder Filme mit ähnlichen visuellen Elementen empfehlen. Die Szenenerkennung vereinfacht die Inhaltsermittlung und präsentiert den Nutzern Empfehlungen, die ihren Sehgewohnheiten entsprechen.

Bild- und Thumbnail-Generierung

Bild- und Thumbnail-Generierung ist der Prozess der Erstellung visueller Vorschauen für Videos, um Zuschauer anzulocken und wichtige Momente hervorzuheben. KI und Computer Vision können diesen Prozess automatisieren, um sicherzustellen, dass Thumbnails relevant und aufmerksamkeitsstark sind.

So funktioniert der Prozess:

  • Frame-Analyse: Ein Computer-Vision-System kann zunächst Tausende von Video-Frames scannen, um herausragende Momente zu identifizieren. Dazu können emotionale Ausdrücke, wichtige Aktionen oder visuell beeindruckende Szenen gehören, die den Inhalt des Videos am besten widerspiegeln.
  • Bewegungsanalyse: Sobald potenzielle Frames ausgewählt sind, kann Vision AI verwendet werden, um zu überprüfen, ob sie scharf und frei von Unschärfe sind, wodurch die gesamte visuelle Qualität des Thumbnails verbessert wird.
  • Objekterkennung und Szenenanalyse: Mithilfe von Modellen wie YOLO11 (die Computer-Vision-Aufgaben wie Objekterkennung und Instanzsegmentierung unterstützen) kann das System wichtige Elemente im Frame erkennen, wie z. B. Objekte, Charaktere oder Einstellungen. Dieser Schritt bestätigt erneut, dass das Thumbnail die Essenz des Videos genau widerspiegelt.
  • Bildverfeinerung: Die ausgewählten Frames werden dann unter Berücksichtigung von Faktoren wie Kamerawinkel, Beleuchtung und Komposition verfeinert.
  • Personalisierung: Schließlich können Algorithmen für maschinelles Lernen verwendet werden, um die Thumbnails basierend auf den Vorlieben der Nutzer und ihrem Sehverlauf zu personalisieren. Dadurch werden die visuellen Elemente auf den individuellen Geschmack zugeschnitten, wodurch sie eher die Aufmerksamkeit erregen und das Engagement fördern.

Ein gutes Beispiel für eine ähnliche Anwendung in der Praxis ist die Verwendung von Computer Vision durch Netflix zur automatischen Generierung von Thumbnails. Durch die Analyse von Frames zur Erkennung von Emotionen, Kontext und filmischen Details erstellt Netflix Thumbnails, die den Vorlieben der einzelnen Zuschauer entsprechen. So sehen beispielsweise Nutzer, die romantische Komödien mögen, ein Thumbnail, das einen unbeschwerten Moment hervorhebt, während Action-Fans eine intensive, energiegeladene Szene präsentiert bekommen.

Abb. 3. Die Miniaturansichten von Fernsehsendungen können an die Vorlieben der Zuschauer angepasst werden.

Automatisierte Content-Vorschauen 

Wenn Sie durch eine Streaming-Plattform scrollen, sind die kurzen, auffälligen Vorschauen, die Sie sehen, nicht zufällig. Sie werden sorgfältig mit Technologien wie Computer Vision erstellt, um Aufmerksamkeit zu erregen und die überzeugendsten Momente eines Videos hervorzuheben. Sobald die besten Momente ausgewählt sind, werden sie zu einer flüssigen, ansprechenden Vorschau zusammengefügt. 

Der Prozess hinter der Auswahl dieser Momente umfasst mehrere wichtige Schritte:

  • Szenensegmentierung: Das Video wird in kleinere Abschnitte unterteilt, basierend auf natürlichen Übergängen, wie z. B. Änderungen in der Beleuchtung, Kamerawinkel oder visuellen Elementen.
  • Bewegungserkennung: Dynamische, actiongeladene Momente werden identifiziert, um sicherzustellen, dass die Vorschau Aufmerksamkeit erregt.
  • Saliency-Modelle: Visuelle Merkmale wie Farbe, Helligkeit und Kontrast werden analysiert, um die auffälligsten Teile einer Szene zu identifizieren.
  • Gesichtsausdrucksanalyse: Momente mit starken emotionalen Ausdrücken werden ausgewählt, um eine tiefere Verbindung zu den Zuschauern herzustellen.

Inhaltskategorisierung und -verschlagwortung

Die Möglichkeit, Filme nach Genre, Stimmung oder spezifischen Themen zu durchsuchen, basiert auf einer akkuraten Inhaltskategorisierung und -verschlagwortung. Beliebte Streaming-Plattformen nutzen Computer Vision, um diesen Prozess zu automatisieren, indem sie Videos auf Objekte, Aktionen, Einstellungen oder Emotionen analysieren und dann relevante Tags zuweisen. Dies hilft, große Medienbibliotheken zu organisieren und personalisierte Empfehlungen genauer zu gestalten, indem Inhalte mit den Präferenzen der Zuschauer abgeglichen werden.

Vision-AI-Techniken wie Szenensegmentierung, Objekterkennung und Aktivitätserkennung können verwendet werden, um Inhalte effektiv zu verschlagworten. Durch die Identifizierung von Schlüsselelementen wie Objekten, emotionalen Tönen und Aktionen erstellen sie detaillierte Metadaten für jeden Titel. Die Metadaten können dann mithilfe von maschinellem Lernen analysiert werden, um Kategorien zu erstellen, die es Benutzern erleichtern, das zu finden, wonach sie suchen, und das gesamte Browsing-Erlebnis zu verbessern.

Abb. 4. Ein Beispiel für die automatische Kategorisierung von Inhalten für personalisierte Streaming-Empfehlungen.

Vorteile und Herausforderungen von KI-gestützten Streaming-Plattformen

Computer Vision verbessert Streaming-Plattformen mit innovativen Funktionen, die das Benutzererlebnis verbessern. Hier sind einige einzigartige Vorteile, die es zu berücksichtigen gilt:

  • Adaptive Streaming-Qualität: Computer Vision kann Videoszenen analysieren, um bewegungsintensive oder detailreiche Momente zu erkennen, die eine höhere Qualität erfordern. Diese Erkenntnisse können dann verwendet werden, um die Streaming-Qualität an das Gerät und die Internetgeschwindigkeit des Benutzers anzupassen.
  • Echtzeit-Verhaltensüberwachung: KI kann verwendet werden, um Live-Streams zu überwachen und Piraterie in Echtzeit zu erkennen. Sie kann auch unbefugte Aktionen wie das Hinzufügen von Overlays (z. B. Logos oder Werbung) oder das erneute Ausstrahlen von Streams auf andere Plattformen identifizieren.
  • Energieeffiziente Inhaltsbereitstellung: Vision-AI-Erkenntnisse können die Inhaltsbereitstellung optimieren, indem sie die Nutzernachfrage und das Sehverhalten analysieren. Das lokale Zwischenspeichern beliebter Inhalte und das Anpassen der Videoqualität reduziert die Bandbreitennutzung und den Energieverbrauch, wodurch das Streaming nachhaltiger wird.

Trotz der vielfältigen Vorteile gibt es auch bestimmte Einschränkungen, die bei der Implementierung dieser Innovationen zu beachten sind:

  • Hoher Rechenaufwand: Computer-Vision-Algorithmen erfordern eine hohe Rechenleistung, um Videoinhalte zu verarbeiten und zu analysieren, was zu erhöhten Kosten und Energieverbrauch führen kann.
  • Bedenken hinsichtlich des Datenschutzes: Da Computer Vision auf großen Datensätzen von Benutzerinteraktionen und Inhalten basiert, kann dies Bedenken hinsichtlich des Datenschutzes und der Datensicherheit aufwerfen.
  • Datenverzerrung: Computer-Vision-Modelle können Verzerrungen in ihren Trainingsdaten widerspiegeln. Dies könnte dazu führen, dass sie bestimmte Arten von Inhalten bevorzugen und die Vielfalt der Empfehlungen verringern.

Die Zukunft der KI in Streaming-Plattformen

Innovationen wie Edge Computing und 3D-Technologie tragen dazu bei, die Zukunft unserer Unterhaltungserlebnisse zu gestalten. Edge Computing kann verwendet werden, um Videos näher an dem Ort zu verarbeiten, an dem sie gestreamt werden. Dies reduziert Verzögerungen und spart Bandbreite, was besonders wichtig für Live-Streaming und interaktive Inhalte ist. Schnellere Reaktionszeiten bedeuten flüssigere und ansprechendere Erlebnisse für die Zuschauer.

Gleichzeitig verleiht die 3D-Technologie Shows, Filmen und interaktiven Funktionen Tiefe und Realismus. Diese Fortschritte eröffnen auch neue Möglichkeiten wie Augmented Reality (AR) und Virtual Reality (VR). Mit Geräten wie VR-Headsets können Zuschauer in vollständig immersive Umgebungen eintauchen. Die Grenzen zwischen der digitalen und der physischen Welt können verschwimmen, um ein völlig neues Maß an Engagement zu schaffen.

Abb. 5. Neugestaltung des Streamings mit VR-gesteuerten interaktiven Erlebnissen.

Wesentliche Erkenntnisse

Computer Vision definiert Streaming-Plattformen neu, indem es die Videoanalyse intelligenter, die Inhaltskategorisierung schneller und die Empfehlungen personalisierter macht. Mit Modellen wie Ultralytics YOLO11 können Plattformen Objekte erkennen und Szenen in Echtzeit klassifizieren. Dies erleichtert die Inhaltsverschlagwortung und verbessert die Art und Weise, wie Shows und Filme vorgeschlagen werden.

Mit Vision AI integrierte Streaming-Plattformen bieten den Zuschauern ansprechendere Erlebnisse und gewährleisten gleichzeitig einen reibungsloseren und effizienteren Plattformbetrieb. Mit dem Fortschritt der Technologie werden Streaming-Dienste wahrscheinlich interaktiver und bieten reichhaltigere und immersivere Unterhaltungserlebnisse.

Neugierig auf KI? Besuchen Sie unser GitHub-Repository, um mehr zu erfahren und sich mit unserer Community zu vernetzen. Entdecken Sie verschiedene Anwendungen von KI im Gesundheitswesen und Computer Vision in der Landwirtschaft.

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert