Tìm hiểu cách các token, các khối xây dựng của mô hình AI, cung cấp năng lượng cho NLP, thị giác máy tính và các tác vụ như phân tích tình cảm và nhận diện đối tượng.
Trong trí tuệ nhân tạo, token là đơn vị dữ liệu rời rạc, cơ bản mà một mô hình xử lý. Trước khi một mô hình AI có thể phân tích văn bản hoặc hình ảnh, dữ liệu thô phải được chia thành các phần nhỏ dễ quản lý này. Đối với một mô hình ngôn ngữ (language model), một token có thể là một từ, một phần của từ (một từ gốc) hoặc một ký tự đơn lẻ. Đối với một mô hình thị giác máy tính (computer vision - CV), một token có thể là một vùng nhỏ, kích thước cố định của hình ảnh. Quá trình chia nhỏ dữ liệu này là một bước quan trọng đầu tiên trong quy trình tiền xử lý dữ liệu (data preprocessing), vì nó chuyển đổi dữ liệu phức tạp, phi cấu trúc thành một định dạng có cấu trúc mà mạng nơ-ron (neural networks) có thể hiểu được.
Điều cần thiết là phân biệt giữa 'token' và 'tokenization' (quá trình mã hóa token).
Tóm lại, mã hóa (tokenization) là hành động và mã thông báo (token) là kết quả của hành động đó.
Token là các khối xây dựng cho cách các mô hình AI nhận thức và diễn giải dữ liệu. Sau khi dữ liệu được token hóa, mỗi token thường được ánh xạ tới một biểu diễn vectơ số gọi là embedding. Các embedding này nắm bắt ý nghĩa ngữ nghĩa và ngữ cảnh, cho phép các mô hình được xây dựng bằng các framework như PyTorch hoặc TensorFlow học các mẫu phức tạp.
Từ và mã thông báo (token) dưới từ: Trong Xử lý ngôn ngữ tự nhiên (NLP), việc sử dụng toàn bộ từ làm mã thông báo có thể dẫn đến vốn từ vựng khổng lồ và các vấn đề với các từ không xác định. Mã hóa token dưới từ, sử dụng các thuật toán như Mã hóa cặp byte (BPE) hoặc WordPiece, là một giải pháp phổ biến. Nó chia nhỏ các từ hiếm thành các phần nhỏ hơn, có ý nghĩa. Ví dụ: từ "tokenization" có thể trở thành hai mã thông báo: "token" và "##ization". Cách tiếp cận này, được sử dụng bởi các mô hình như BERT và GPT-4, giúp mô hình xử lý vốn từ vựng và cấu trúc ngữ pháp phức tạp. Bạn có thể khám phá các triển khai hiện đại trong các thư viện như Hugging Face Tokenizers.
Visual Tokens (Mã thông báo hình ảnh): Khái niệm về tokens (mã thông báo) mở rộng từ văn bản sang thị giác máy tính. Trong các mô hình như Vision Transformer (ViT), một hình ảnh được chia thành một lưới các patch (ví dụ: 16x16 pixels). Mỗi patch được làm phẳng và được coi là một "visual token" (mã thông báo hình ảnh). Điều này cho phép các kiến trúc Transformer mạnh mẽ, vốn vượt trội trong việc xử lý các chuỗi bằng cách sử dụng self-attention (cơ chế tự chú ý), thực hiện các tác vụ như phân loại ảnh và nhận diện đối tượng. Cách tiếp cận dựa trên token này cũng là nền tảng cho các mô hình đa phương thức có thể hiểu cả hình ảnh và văn bản, chẳng hạn như CLIP.
Việc sử dụng token là nền tảng cho vô số hệ thống AI, từ các ứng dụng đơn giản đến các mô hình phức tạp, hiện đại.
Dịch máy: Các dịch vụ như Google Dịch dựa nhiều vào mã thông báo (token). Khi bạn nhập một câu, trước tiên nó sẽ được chia thành một chuỗi các mã thông báo văn bản. Một mô hình sequence-to-sequence phức tạp xử lý các mã thông báo này, hiểu ý nghĩa chung của chúng và tạo ra một chuỗi mã thông báo mới trong ngôn ngữ đích. Các mã thông báo đầu ra này sau đó được lắp ráp lại thành một câu dịch mạch lạc. Quá trình này cho phép dịch theo thời gian thực trên hàng chục ngôn ngữ.
Xe tự hành: Trong lĩnh vực xe tự hành, các mô hình phải diễn giải các cảnh trực quan phức tạp trong thời gian thực. Một mô hình như Ultralytics YOLO11 xử lý các nguồn cấp dữ liệu camera để thực hiện các tác vụ như theo dõi đối tượng và phân đoạn thể hiện (instance segmentation). Mặc dù các mô hình dựa trên CNN cổ điển như YOLO không sử dụng rõ ràng "token" theo cách tương tự như Transformers, nhưng các biến thể transformer thị giác (vision transformer) được thiết kế để phát hiện thì có. Chúng chia nhỏ đầu vào trực quan thành các token (các vùng) để xác định và định vị người đi bộ, các phương tiện khác và tín hiệu giao thông với độ chính xác cao. Sự hiểu biết được mã hóa (tokenized) này về môi trường là rất quan trọng để điều hướng an toàn. Việc quản lý toàn bộ quy trình làm việc, từ thu thập dữ liệu đến triển khai mô hình, có thể được hợp lý hóa bằng cách sử dụng các nền tảng như Ultralytics HUB.