Tìm hiểu cách các mã thông báo, thành phần cơ bản của mô hình AI, hỗ trợ NLP, thị giác máy tính và các tác vụ như phân tích tình cảm và phát hiện đối tượng.
Trong lĩnh vực Trí tuệ nhân tạo (AI) và Học máy (ML) , đặc biệt là trong Xử lý ngôn ngữ tự nhiên (NLP) và ngày càng phổ biến trong thị giác máy tính , một 'mã thông báo' đại diện cho đơn vị dữ liệu nhỏ nhất mà một mô hình xử lý. Hãy coi mã thông báo là các khối xây dựng cơ bản mà các mô hình AI sử dụng để hiểu và phân tích thông tin, cho dù đó là văn bản, hình ảnh hay các dạng dữ liệu khác. Chúng rất cần thiết để chuyển đổi đầu vào thô thành định dạng mà các thuật toán có thể diễn giải và học hỏi, tạo thành cơ sở cho nhiều tác vụ AI phức tạp.
Mã thông báo là đầu ra riêng biệt của một quá trình được gọi là phân loại. Ví dụ, trong NLP, một câu như " Ultralytics YOLO "nhanh và chính xác" có thể được phân chia thành các từ riêng lẻ: ["Ultralytics", "YOLO", "is", "fast", "and", "accurate"]
. Tùy thuộc vào chiến lược mã hóa cụ thể, mã thông báo cũng có thể là các đơn vị từ phụ (ví dụ: "Ultra", "lytics") hoặc thậm chí là các ký tự riêng lẻ. Sự phân tích này biến đổi văn bản liên tục hoặc dữ liệu phức tạp thành các phần có thể quản lý được.
Lý do các mã thông báo rất quan trọng là vì hầu hết các mô hình học sâu , bao gồm các kiến trúc mạnh mẽ như Transformers được sử dụng trong nhiều hệ thống AI hiện đại, không thể xử lý trực tiếp dữ liệu thô, không có cấu trúc. Chúng yêu cầu đầu vào ở định dạng có cấu trúc, thường là định dạng số. Mã thông báo hóa cung cấp cầu nối này. Sau khi dữ liệu được mã hóa, mỗi mã thông báo thường được ánh xạ thành một biểu diễn số, chẳng hạn như ID trong từ vựng hoặc phổ biến hơn là các biểu diễn vectơ dày đặc được gọi là nhúng . Các nhúng này nắm bắt các mối quan hệ ngữ nghĩa giữa các mã thông báo, mà các mô hình học được trong quá trình đào tạo.
Có nhiều phương pháp khác nhau để phân chia dữ liệu thành các mã thông báo:
Điều quan trọng là phải phân biệt mã thông báo với các thuật ngữ liên quan:
Token là yếu tố cơ bản trong nhiều lĩnh vực AI. Sau đây là hai ví dụ cụ thể:
Dịch máy: Trong các dịch vụ như Google Dịch , một câu đầu vào bằng một ngôn ngữ trước tiên được mã hóa. Các mã thông báo này được xử lý bởi một mô hình trình tự sang trình tự (thường là một Transformer ), sau đó tạo ra các mã thông báo đại diện cho câu đã dịch bằng ngôn ngữ đích. Lựa chọn mã thông báo ảnh hưởng đáng kể đến độ chính xác và độ trôi chảy của bản dịch. Các LLM như GPT-4 và BERT phụ thuộc rất nhiều vào quá trình xử lý mã thông báo cho các tác vụ bao gồm dịch, tạo văn bản và phân tích tình cảm . Các kỹ thuật như điều chỉnh lời nhắc và nối lời nhắc liên quan đến việc thao tác các chuỗi mã thông báo đầu vào để hướng dẫn hành vi của mô hình.
Thị giác máy tính với Transformers: Mặc dù theo truyền thống được liên kết với NLP, các mã thông báo hiện đóng vai trò trung tâm trong các mô hình thị giác máy tính tiên tiến như Vision Transformers (ViTs) . Trong ViT, một hình ảnh được chia thành các bản vá có kích thước cố định, không chồng chéo (ví dụ: 16x16 pixel). Mỗi bản vá được coi là một 'mã thông báo trực quan'. Các mã thông báo này được nhúng tuyến tính và đưa vào kiến trúc Transformer , sử dụng các cơ chế chú ý để phân tích mối quan hệ giữa các phần khác nhau của hình ảnh. Phương pháp này được sử dụng cho các tác vụ như phân loại hình ảnh , phát hiện đối tượng và phân đoạn hình ảnh . Các mô hình như Mô hình phân đoạn bất kỳ ( SAM ) sử dụng phương pháp dựa trên mã thông báo này. Ngay cả trong các mô hình tích chập như Ultralytics YOLOv8 hoặc Ultralytics YOLO11 mới hơn, hệ thống ô lưới được sử dụng để phát hiện có thể được xem như một dạng mã thông báo không gian ngầm định.
Hiểu về token là điều cơ bản để nắm bắt cách các mô hình AI diễn giải và xử lý thông tin. Khi AI phát triển, khái niệm token và phương pháp tạo ra chúng sẽ vẫn là trọng tâm để xử lý nhiều loại dữ liệu khác nhau và xây dựng các mô hình tinh vi hơn cho các ứng dụng từ phân tích hình ảnh y tế đến xe tự hành . Các nền tảng như Ultralytics HUB cung cấp các công cụ để quản lý tập dữ liệu và đào tạo mô hình , thường liên quan đến dữ liệu được mã hóa ngầm hoặc rõ ràng.