Thuật ngữ

Mã thông báo

Tìm hiểu cách các mã thông báo, thành phần cơ bản của mô hình AI, hỗ trợ NLP, thị giác máy tính và các tác vụ như phân tích tình cảm và phát hiện đối tượng.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Trong lĩnh vực Trí tuệ nhân tạo (AI)Học máy (ML) , đặc biệt là trong Xử lý ngôn ngữ tự nhiên (NLP) và ngày càng phổ biến trong thị giác máy tính , một 'mã thông báo' đại diện cho đơn vị dữ liệu nhỏ nhất mà một mô hình xử lý. Hãy coi mã thông báo là các khối xây dựng cơ bản mà các mô hình AI sử dụng để hiểu và phân tích thông tin, cho dù đó là văn bản, hình ảnh hay các dạng dữ liệu khác. Chúng rất cần thiết để chuyển đổi đầu vào thô thành định dạng mà các thuật toán có thể diễn giải và học hỏi, tạo thành cơ sở cho nhiều tác vụ AI phức tạp.

Hiểu về Token

Mã thông báo là đầu ra riêng biệt của một quá trình được gọi là phân loại. Ví dụ, trong NLP, một câu như " Ultralytics YOLO "nhanh và chính xác" có thể được phân chia thành các từ riêng lẻ: ["Ultralytics", "YOLO", "is", "fast", "and", "accurate"]. Tùy thuộc vào chiến lược mã hóa cụ thể, mã thông báo cũng có thể là các đơn vị từ phụ (ví dụ: "Ultra", "lytics") hoặc thậm chí là các ký tự riêng lẻ. Sự phân tích này biến đổi văn bản liên tục hoặc dữ liệu phức tạp thành các phần có thể quản lý được.

Lý do các mã thông báo rất quan trọng là vì hầu hết các mô hình học sâu , bao gồm các kiến trúc mạnh mẽ như Transformers được sử dụng trong nhiều hệ thống AI hiện đại, không thể xử lý trực tiếp dữ liệu thô, không có cấu trúc. Chúng yêu cầu đầu vào ở định dạng có cấu trúc, thường là định dạng số. Mã thông báo hóa cung cấp cầu nối này. Sau khi dữ liệu được mã hóa, mỗi mã thông báo thường được ánh xạ thành một biểu diễn số, chẳng hạn như ID trong từ vựng hoặc phổ biến hơn là các biểu diễn vectơ dày đặc được gọi là nhúng . Các nhúng này nắm bắt các mối quan hệ ngữ nghĩa giữa các mã thông báo, mà các mô hình học được trong quá trình đào tạo.

Phương pháp mã hóa

Có nhiều phương pháp khác nhau để phân chia dữ liệu thành các mã thông báo:

  • Phân tách văn bản dựa trên từ: Phân tách văn bản dựa trên khoảng trắng và dấu câu. Đơn giản nhưng gặp khó khăn với các từ vựng lớn và các từ không xác định.
  • Phân loại theo ký tự: Sử dụng các ký tự riêng lẻ làm mã thông báo. Xử lý bất kỳ từ nào nhưng tạo ra chuỗi rất dài.
  • Phân tích từ phụ: Sự cân bằng giữa các phương pháp từ và ký tự. Các kỹ thuật như Mã hóa cặp byte (BPE) hoặc WordPiece chia các từ thành các đơn vị con chung, xử lý hiệu quả các từ vựng lớn và các từ hiếm. Chúng được sử dụng rộng rãi trong các Mô hình ngôn ngữ lớn (LLM) .

Mã thông báo so với các khái niệm liên quan

Điều quan trọng là phải phân biệt mã thông báo với các thuật ngữ liên quan:

  • Mã thông báo so với Mã hóa: Mã thông báo là đơn vị đầu ra (ví dụ: ' Ultralytics ', 'bản vá hình ảnh'), trong khi mã hóaquá trình tạo ra các đơn vị này từ dữ liệu thô.
  • Token so với Embedding: Token là một đơn vị đầu vào rời rạc. Một Embedding thường là một vectơ số dày đặc biểu diễn token, nắm bắt ý nghĩa của nó theo cách mà mô hình có thể hiểu được. Token thường được chuyển đổi thành nhúng từ hoặc nhúng trực quan trước khi đưa vào mô hình.

Ứng dụng của Token

Token là yếu tố cơ bản trong nhiều lĩnh vực AI. Sau đây là hai ví dụ cụ thể:

  1. Dịch máy: Trong các dịch vụ như Google Dịch , một câu đầu vào bằng một ngôn ngữ trước tiên được mã hóa. Các mã thông báo này được xử lý bởi một mô hình trình tự sang trình tự (thường là một Transformer ), sau đó tạo ra các mã thông báo đại diện cho câu đã dịch bằng ngôn ngữ đích. Lựa chọn mã thông báo ảnh hưởng đáng kể đến độ chính xác và độ trôi chảy của bản dịch. Các LLM như GPT-4BERT phụ thuộc rất nhiều vào quá trình xử lý mã thông báo cho các tác vụ bao gồm dịch, tạo văn bảnphân tích tình cảm . Các kỹ thuật như điều chỉnh lời nhắcnối lời nhắc liên quan đến việc thao tác các chuỗi mã thông báo đầu vào để hướng dẫn hành vi của mô hình.

  2. Thị giác máy tính với Transformers: Mặc dù theo truyền thống được liên kết với NLP, các mã thông báo hiện đóng vai trò trung tâm trong các mô hình thị giác máy tính tiên tiến như Vision Transformers (ViTs) . Trong ViT, một hình ảnh được chia thành các bản vá có kích thước cố định, không chồng chéo (ví dụ: 16x16 pixel). Mỗi bản vá được coi là một 'mã thông báo trực quan'. Các mã thông báo này được nhúng tuyến tính và đưa vào kiến trúc Transformer , sử dụng các cơ chế chú ý để phân tích mối quan hệ giữa các phần khác nhau của hình ảnh. Phương pháp này được sử dụng cho các tác vụ như phân loại hình ảnh , phát hiện đối tượngphân đoạn hình ảnh . Các mô hình như Mô hình phân đoạn bất kỳ ( SAM ) sử dụng phương pháp dựa trên mã thông báo này. Ngay cả trong các mô hình tích chập như Ultralytics YOLOv8 hoặc Ultralytics YOLO11 mới hơn, hệ thống ô lưới được sử dụng để phát hiện có thể được xem như một dạng mã thông báo không gian ngầm định.

Hiểu về token là điều cơ bản để nắm bắt cách các mô hình AI diễn giải và xử lý thông tin. Khi AI phát triển, khái niệm token và phương pháp tạo ra chúng sẽ vẫn là trọng tâm để xử lý nhiều loại dữ liệu khác nhau và xây dựng các mô hình tinh vi hơn cho các ứng dụng từ phân tích hình ảnh y tế đến xe tự hành . Các nền tảng như Ultralytics HUB cung cấp các công cụ để quản lý tập dữ liệu và đào tạo mô hình , thường liên quan đến dữ liệu được mã hóa ngầm hoặc rõ ràng.

Đọc tất cả