Tìm hiểu cách các token đóng vai trò là đơn vị thông tin cơ bản trong trí tuệ nhân tạo. Khám phá vai trò của chúng trong xử lý ngôn ngữ tự nhiên (NLP), thị giác máy tính và phát hiện từ vựng mở với YOLO26.
Trong kiến trúc phức tạp của trí tuệ nhân tạo hiện đại, một token đại diện cho đơn vị thông tin cơ bản, nguyên tử mà mô hình xử lý. Trước khi thuật toán có thể diễn giải một câu, phân tích một đoạn mã phần mềm hoặc nhận dạng các đối tượng trong hình ảnh, dữ liệu đầu vào thô phải được chia nhỏ thành các phần tử rời rạc, được chuẩn hóa này. Việc phân đoạn này là một bước quan trọng trong quá trình tiền xử lý dữ liệu , chuyển đổi các đầu vào không có cấu trúc thành định dạng số mà mạng nơ-ron có thể tính toán hiệu quả. Trong khi con người cảm nhận ngôn ngữ như một dòng suy nghĩ liên tục hoặc hình ảnh như những cảnh trực quan liền mạch, các mô hình tính toán yêu cầu các khối xây dựng chi tiết này để thực hiện các thao tác như nhận dạng mẫu và phân tích ngữ nghĩa.
Để nắm bắt được cơ chế hoạt động của máy học , điều cần thiết là phải phân biệt giữa đơn vị dữ liệu và quy trình được sử dụng để tạo ra nó. Sự phân biệt này giúp tránh nhầm lẫn khi thiết kế các đường dẫn dữ liệu và chuẩn bị tài liệu đào tạo trên Nền tảng Ultralytics .
Bản chất của một token thay đổi đáng kể tùy thuộc vào phương thức xử lý dữ liệu, đặc biệt là giữa lĩnh vực văn bản và hình ảnh.
Trong lĩnh vực Xử lý Ngôn ngữ Tự nhiên (NLP) , token là đầu vào cho các Mô hình Ngôn ngữ Lớn (LLM) . Các phương pháp ban đầu chỉ ánh xạ tới toàn bộ từ, nhưng các kiến trúc hiện đại sử dụng các thuật toán từ con như Mã hóa Cặp Byte (BPE) . Phương pháp này cho phép các mô hình xử lý các từ hiếm bằng cách chia chúng thành các âm tiết có nghĩa, cân bằng kích thước từ vựng với phạm vi ngữ nghĩa. Ví dụ, từ "unhappiness" có thể được phân tách thành "un", "happi" và "ness".
Khái niệm mã hóa token đã được mở rộng sang lĩnh vực thị giác máy tính với sự ra đời của Vision Transformer (ViT) . Không giống như các mạng tích chập truyền thống xử lý pixel trong các cửa sổ trượt, Transformer chia một hình ảnh thành một lưới các mảng có kích thước cố định (ví dụ: 16x16 pixel). Mỗi mảng được làm phẳng và được coi là một token hình ảnh riêng biệt. Cách tiếp cận này cho phép mô hình sử dụng các cơ chế tự chú ý để hiểu mối quan hệ giữa các phần xa nhau của hình ảnh, tương tự như cách Google Research ban đầu áp dụng Transformer cho văn bản.
Token đóng vai trò là cầu nối giữa dữ liệu của con người và trí tuệ máy móc trong vô số ứng dụng.
Đoạn mã sau đây minh họa cách thức hoạt động của... ultralytics Gói này sử dụng các mã thông báo văn bản để hướng dẫn.
phát hiện đối tượngTrong khi công nghệ tiên tiến nhất
YOLO26 được khuyến nghị cho suy luận tốc độ cao, phân loại cố định. YOLO -Kiến trúc World cho phép người dùng định nghĩa các lớp dưới dạng mã thông báo văn bản trong quá trình thực thi một cách độc đáo.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")
# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])
# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results showing only the tokenized classes
results[0].show()
Hiểu về token là điều cơ bản để định hướng trong lĩnh vực trí tuệ nhân tạo tạo sinh và phân tích nâng cao. Cho dù đó là giúp chatbot giao tiếp trôi chảy hay hỗ trợ hệ thống thị giác phân biệt giữa các lớp đối tượng tinh tế, token vẫn là đơn vị tiền tệ thiết yếu của trí tuệ máy móc được sử dụng bởi các framework như PyTorch và TensorFlow .