Khám phá GPT-4, AI đa phương thức tiên tiến của OpenAI, vượt trội trong các tác vụ văn bản-hình ảnh, lý luận phức tạp và các ứng dụng thực tế như chăm sóc sức khỏe và giáo dục.
GPT-4 (Generative Pre-trained Transformer 4) là một Mô hình Đa phương thức Lớn (LMM) tinh vi do OpenAI phát triển, đánh dấu một cột mốc quan trọng trong lĩnh vực Trí tuệ Nhân tạo (AI) . Là phiên bản kế nhiệm của GPT-3 được sử dụng rộng rãi, GPT-4 mở rộng khả năng của các Mô hình Ngôn ngữ Lớn (LLM) tiêu chuẩn bằng cách chấp nhận không chỉ văn bản mà còn cả hình ảnh đầu vào. Khả năng xử lý và diễn giải dữ liệu trực quan cùng với thông tin văn bản cho phép GPT-4 thực hiện các tác vụ phức tạp, thu hẹp khoảng cách giữa Xử lý Ngôn ngữ Tự nhiên (NLP) và hiểu biết trực quan, biến nó thành một mô hình nền tảng mạnh mẽ cho nhiều ứng dụng đa dạng.
Được xây dựng trên kiến trúc Transformer có khả năng mở rộng, GPT-4 giới thiệu một số cải tiến về kiến trúc và đào tạo được trình bày chi tiết trong báo cáo kỹ thuật . Những cải tiến này cho phép mô hình thể hiện hiệu suất ngang bằng con người trên nhiều tiêu chuẩn chuyên môn và học thuật.
Tính linh hoạt của GPT-4 đã giúp nó được tích hợp vào nhiều lĩnh vực, thúc đẩy sự đổi mới trong Trí tuệ nhân tạo .
Điều quan trọng là phải phân biệt giữa LMM đa năng như GPT-4 và các mô hình Thị giác Máy tính (CV) chuyên biệt. Mặc dù GPT-4 có thể mô tả hình ảnh, nhưng nó tốn kém về mặt tính toán và không được tối ưu hóa cho khả năng định vị chính xác, tốc độ cao cần thiết trong các tình huống suy luận thời gian thực .
Ngược lại, các mô hình như YOLO11 được xây dựng có mục đích cho các nhiệm vụ như Phát hiện đối tượng và Phân đoạn hình ảnh . A YOLO Mô hình này cung cấp tọa độ hộp giới hạn và nhãn lớp chính xác tính bằng mili giây, lý tưởng cho phân tích video hoặc hệ thống tự động. Các phiên bản tiếp theo như YOLO26 sắp ra mắt nhằm mục đích mở rộng hơn nữa ranh giới về tốc độ và độ chính xác trên các thiết bị biên.
Thông thường, các công nghệ này hoạt động tốt nhất khi kết hợp với nhau: YOLO mô hình có thể nhanh chóng trích xuất dữ liệu có cấu trúc (đối tượng và vị trí) từ nguồn cấp dữ liệu video, sau đó chuyển đến GPT-4 để tạo bản tóm tắt ngôn ngữ tự nhiên của cảnh.
Ví dụ sau đây minh họa cách sử dụng ultralytics để trích xuất tên đối tượng được phát hiện, sau đó có thể đưa vào mô hình như GPT-4 để tạo ra câu chuyện.
from collections import Counter
from ultralytics import YOLO
# Load the YOLO11 model for efficient object detection
model = YOLO("yolo11n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names for text processing
detected_classes = [model.names[int(cls)] for cls in results[0].boxes.cls]
object_counts = dict(Counter(detected_classes))
# Output structured data suitable for a GPT-4 prompt
print(f"Scene Objects for GPT Analysis: {object_counts}")
GPT-4 khác biệt cơ bản so với các mô hình chỉ sử dụng bộ mã hóa như BERT . BERT giúp máy móc "hiểu" văn bản bằng cách xem xét ngữ cảnh theo hai chiều (hữu ích cho phân tích cảm xúc ), trong khi GPT-4 là một mô hình dựa trên bộ giải mã được tối ưu hóa cho việc tạo văn bản và dự đoán mã thông báo tiếp theo trong một chuỗi. Ngoài ra, các tác nhân AI hiện đại thường sử dụng GPT-4 như một "bộ não" để chia nhỏ các mục tiêu phức tạp thành các bước hành động, một khả năng được hỗ trợ bởi cấu trúc suy luận tiên tiến của nó.