Thuật ngữ

Mã thông báo

Tìm hiểu cách các mã thông báo, thành phần cơ bản của mô hình AI, hỗ trợ NLP, thị giác máy tính và các tác vụ như phân tích tình cảm và phát hiện đối tượng.

Trong trí tuệ nhân tạo, token là đơn vị dữ liệu cơ bản, rời rạc mà một mô hình xử lý. Trước khi một mô hình AI có thể phân tích văn bản hoặc hình ảnh, dữ liệu thô phải được chia nhỏ thành các phần dễ quản lý này. Đối với mô hình ngôn ngữ , token có thể là một từ, một phần của từ (từ phụ) hoặc một ký tự đơn lẻ. Đối với mô hình thị giác máy tính (CV) , token có thể là một phần nhỏ, có kích thước cố định của một hình ảnh. Quá trình chia nhỏ dữ liệu này là bước đầu tiên quan trọng trong quy trình tiền xử lý dữ liệu , vì nó chuyển đổi dữ liệu phức tạp, phi cấu trúc thành định dạng có cấu trúc mà mạng nơ-ron có thể hiểu được.

Token so với Token hóa

Điều cần thiết là phải phân biệt giữa 'token' và ' token hóa '.

  • Mã thông báo : Đơn vị riêng lẻ thu được từ quá trình phân tích. Đây là dữ liệu thực tế—chẳng hạn như từ "học" hoặc một mảng hình ảnh 16x16 pixel—được đưa vào mô hình.
  • Phân tích mã hóa : Phương pháp hoặc quy trình thực hiện việc phân tích này. Đây là hành động chuyển đổi một chuỗi văn bản hoặc hình ảnh thành một chuỗi mã thông báo.

Nói tóm lại, token hóa là hành động và token là kết quả của hành động đó.

Các loại Token và tầm quan trọng của chúng

Mã thông báo (token) là nền tảng cho cách các mô hình AI nhận thức và diễn giải dữ liệu. Sau khi dữ liệu được mã hóa, mỗi token thường được ánh xạ thành một biểu diễn vectơ số gọi là nhúng (embedding) . Các nhúng này nắm bắt ý nghĩa ngữ nghĩa và bối cảnh, cho phép các mô hình được xây dựng bằng các nền tảng như PyTorch hoặc TensorFlow học các mẫu phức tạp.

  • Mã thông báo từ và từ phụ : Trong Xử lý ngôn ngữ tự nhiên (NLP) , việc sử dụng toàn bộ từ làm mã thông báo có thể dẫn đến khối lượng từ vựng khổng lồ và các vấn đề với những từ chưa biết. Mã thông báo hóa từ phụ, sử dụng các thuật toán như Mã hóa cặp byte (BPE) hoặc WordPiece , là một giải pháp phổ biến. Nó chia nhỏ các từ hiếm thành các phần nhỏ hơn, có nghĩa hơn. Ví dụ: từ "tokenization" có thể được chia thành hai mã thông báo: "token" và "##ization". Phương pháp này, được sử dụng bởi các mô hình như BERTGPT-4 , giúp mô hình xử lý các từ vựng và cấu trúc ngữ pháp phức tạp. Bạn có thể khám phá các triển khai hiện đại trong các thư viện như Hugging Face Tokenizers .

  • Mã thông báo thị giác : Khái niệm mã thông báo mở rộng ra ngoài phạm vi văn bản, tiến vào thị giác máy tính. Trong các mô hình như Vision Transformer (ViT) , một hình ảnh được chia thành một lưới các mảng (ví dụ: 16x16 pixel). Mỗi mảng được làm phẳng và được coi là một "mã thông báo thị giác". Điều này cho phép các kiến trúc Transformer mạnh mẽ, vốn vượt trội trong việc xử lý chuỗi bằng cách tự chú ý , thực hiện các tác vụ như phân loại hình ảnhphát hiện đối tượng . Phương pháp tiếp cận dựa trên mã thông báo này cũng là nền tảng cho các mô hình đa phương thức hiểu cả hình ảnh và văn bản, chẳng hạn như CLIP .

Ứng dụng trong thế giới thực

Việc sử dụng mã thông báo là nền tảng cơ bản cho vô số hệ thống AI, từ các ứng dụng đơn giản đến các mô hình phức tạp, hiện đại.

  1. Dịch máy : Các dịch vụ như Google Dịch phụ thuộc rất nhiều vào mã thông báo. Khi bạn nhập một câu, trước tiên nó được chia nhỏ thành một chuỗi các mã thông báo văn bản. Một mô hình chuỗi-sang-chuỗi tinh vi sẽ xử lý các mã thông báo này, hiểu ý nghĩa chung của chúng và tạo ra một chuỗi mã thông báo mới trong ngôn ngữ đích. Các mã thông báo đầu ra này sau đó được lắp ráp lại thành một câu dịch mạch lạc. Quy trình này cho phép dịch theo thời gian thực trên hàng chục ngôn ngữ.

  2. Xe tự hành : Trong lĩnh vực xe tự hành , các mô hình phải diễn giải các cảnh thị giác phức tạp theo thời gian thực. Một mô hình như Ultralytics YOLO11 xử lý dữ liệu camera để thực hiện các tác vụ như theo dõi đối tượngphân đoạn thực thể . Trong khi các mô hình dựa trên CNN cổ điển như YOLO không sử dụng "token" một cách rõ ràng giống như Transformers, các biến thể Vision Transformer được thiết kế để phát hiện thì có. Chúng phân tích dữ liệu thị giác đầu vào thành các token (miếng vá) để xác định và định vị người đi bộ, các phương tiện khác và tín hiệu giao thông với độ chính xác cao. Sự hiểu biết về môi trường được mã hóa này rất quan trọng cho việc điều hướng an toàn. Việc quản lý toàn bộ quy trình làm việc, từ thu thập dữ liệu đến triển khai mô hình , có thể được đơn giản hóa bằng các nền tảng như Ultralytics HUB .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard