Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Tokenization

Khám phá sức mạnh của token hóa trong NLP và ML! Tìm hiểu cách chia văn bản thành các token giúp tăng cường các tác vụ AI như phân tích tình cảm và tạo văn bản.

Tokenization là quá trình cơ bản để chia một luồng dữ liệu, chẳng hạn như văn bản thô hoặc hình ảnh, thành các đơn vị rời rạc nhỏ hơn gọi là token. Đây là bước đầu tiên quan trọng trong quy trình tiền xử lý dữ liệu cho hầu hết tất cả các hệ thống Trí tuệ nhân tạo (AI). Bằng cách chuyển đổi dữ liệu phi cấu trúc thành định dạng tiêu chuẩn, tokenization cho phép các mô hình máy học diễn giải, phân tích và học các mẫu một cách hiệu quả. Nếu không có bước này, hầu hết các mô hình sẽ không thể xử lý lượng dữ liệu lớn và đa dạng cung cấp năng lượng cho các ứng dụng AI hiện đại.

Mức độ Liên quan và Ứng dụng Thực tế

Tokenization rất quan trọng vì hầu hết các kiến trúc học sâu đều yêu cầu đầu vào bằng số thay vì văn bản hoặc pixel thô. Bằng cách chuyển đổi dữ liệu thành các token rời rạc, sau đó chúng ta có thể ánh xạ các token này thành các biểu diễn số, chẳng hạn như embedding. Các vectơ số này nắm bắt ý nghĩa ngữ nghĩa và các mối quan hệ, cho phép các mô hình được xây dựng bằng các framework như PyTorch hoặc TensorFlow học hỏi từ dữ liệu. Bước nền tảng này củng cố vô số ứng dụng AI:

  1. Xử Lý Ngôn Ngữ Tự Nhiên (Natural Language Processing - NLP): Token hóa là trung tâm của hầu hết tất cả các tác vụ NLP.

    • Dịch máy: Các dịch vụ như Google Dịch mã hóa câu đầu vào bằng ngôn ngữ nguồn, xử lý các mã này bằng các mô hình phức tạp (thường dựa trên kiến trúc Transformer), sau đó tạo mã bằng ngôn ngữ đích, cuối cùng được lắp ráp thành câu đã dịch.
    • Phân tích cảm xúc (Sentiment Analysis): Để xác định xem đánh giá của khách hàng là tích cực hay tiêu cực, văn bản trước tiên được mã hóa thành token. Sau đó, mô hình sẽ phân tích các token này để phân loại cảm xúc tổng thể. Tìm hiểu thêm về Phân tích cảm xúc (Sentiment Analysis). Các kỹ thuật như điều chỉnh prompt (prompt tuning) cũng dựa vào việc thao tác các chuỗi token. Đối với các nhà phát triển, các thư viện như spaCyNLTK cung cấp các công cụ mã hóa token mạnh mẽ.
  2. Thị giác máy tính (Computer Vision - CV): Mặc dù theo truyền thống liên quan đến NLP, khái niệm này mở rộng sang thị giác máy tính.

    • Vision Transformers (ViT): Trong các mô hình như Vision Transformers (ViT), hình ảnh được chia thành các vùng có kích thước cố định. Như đã giải thích trong bài báo nghiên cứu ViT gốc, các vùng này được coi là 'token trực quan' và được làm phẳng thành các chuỗi. Các chuỗi này sau đó được đưa vào mạng Transformer, sử dụng các cơ chế như self-attention để hiểu các mối quan hệ giữa các phần hình ảnh khác nhau. Điều này cho phép các tác vụ như phân loại hình ảnhnhận diện đối tượng.
    • Các mô hình đa phương thức (Multimodal Models): Các mô hình như CLIPYOLO-World kết nối thị giác và ngôn ngữ bằng cách xử lý cả mã thông báo văn bản và mã thông báo hình ảnh để thực hiện các tác vụ như phát hiện đối tượng zero-shot. Tương tự, các mô hình phân đoạn ảnh (image segmentation) tiên tiến như Segment Anything Model (SAM) cũng sử dụng các khái niệm tương tự như mã thông báo.

Các Phương Pháp Token Hóa Phổ Biến

Có nhiều chiến lược khác nhau để mã hóa dữ liệu, mỗi chiến lược có những ưu điểm và nhược điểm riêng. Việc lựa chọn phương pháp có thể ảnh hưởng đáng kể đến hiệu suất của mô hình.

  • Mã hóa Token dựa trên từ: Phương pháp này chia văn bản dựa trên khoảng trắng và dấu chấm câu. Mặc dù đơn giản và trực quan, nhưng nó gặp khó khăn với vốn từ vựng lớn và các từ "ngoài từ vựng" (các từ không thấy trong quá trình huấn luyện).
  • Mã hóa Token Dựa trên Ký tự: Phương pháp này chia văn bản thành các ký tự riêng lẻ. Nó giải quyết vấn đề từ vựng ngoài tập huấn luyện nhưng có thể dẫn đến các chuỗi rất dài làm mất ý nghĩa ngữ nghĩa cấp cao, khiến các mô hình khó học các mối quan hệ giữa các từ hơn.
  • Mã hóa Subword: Đây là một phương pháp kết hợp đã trở thành tiêu chuẩn cho các mô hình NLP hiện đại. Nó chia các từ thành các đơn vị con nhỏ hơn, có ý nghĩa. Các từ thông dụng vẫn là các mã thông báo đơn lẻ, trong khi các từ hiếm được chia thành nhiều mã thông báo subword. Phương pháp này xử lý hiệu quả các từ phức tạp và tránh vấn đề ngoài từ vựng. Các thuật toán phổ biến bao gồm Byte Pair Encoding (BPE)WordPiece, được sử dụng trong các mô hình như BERTGPT.

Tokenization so với Tokens

Điều quan trọng là phải phân biệt giữa 'Tokenization' (quá trình phân tách văn bản thành token) và một 'Token'.

  • Tokenization (Mã hóa thành token): Đề cập đến quá trình phân tách dữ liệu thành các đơn vị nhỏ hơn. Đây là một bước tiền xử lý cơ bản đối với cách thức hoạt động của các mô hình ngôn ngữ.
  • Token: Đề cập đến kết quả của quá trình token hóa – đơn vị riêng lẻ (từ, tiểu từ, ký tự hoặc vùng ảnh) mà mô hình xử lý.

Hiểu về tokenization là nền tảng để nắm bắt cách các mô hình AI diễn giải và học hỏi từ nhiều loại dữ liệu khác nhau. Quản lý bộ dữ liệu và huấn luyện mô hình thường liên quan đến các nền tảng như Ultralytics HUB, giúp đơn giản hóa quy trình tiền xử lý dữ liệuhuấn luyện mô hình. Khi AI phát triển, các phương pháp tokenization tiếp tục thích ứng, đóng vai trò quan trọng trong việc xây dựng các mô hình phức tạp hơn cho các tác vụ từ tạo văn bản đến hiểu biết trực quan phức tạp trong các lĩnh vực như xe tự hànhphân tích hình ảnh y tế.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard