Thuật ngữ

Mã hóa

Khám phá sức mạnh của mã thông báo trong NLP và ML! Tìm hiểu cách chia văn bản thành mã thông báo giúp tăng cường các tác vụ AI như phân tích tình cảm và tạo văn bản.

Token hóa là quá trình nền tảng để chia nhỏ một luồng dữ liệu, chẳng hạn như văn bản thô hoặc hình ảnh, thành các đơn vị nhỏ hơn, riêng biệt được gọi là token. Đây là bước đầu tiên quan trọng trong quy trình tiền xử lý dữ liệu cho hầu hết các hệ thống Trí tuệ Nhân tạo (AI) . Bằng cách chuyển đổi dữ liệu phi cấu trúc sang định dạng chuẩn hóa, token hóa cho phép các mô hình học máy diễn giải, phân tích và học các mẫu một cách hiệu quả. Nếu không có bước này, hầu hết các mô hình sẽ không thể xử lý lượng dữ liệu khổng lồ và đa dạng, vốn là nền tảng cho các ứng dụng AI hiện đại.

Sự liên quan và ứng dụng trong thế giới thực

Token hóa rất quan trọng vì hầu hết các kiến trúc học sâu đều yêu cầu đầu vào số chứ không phải văn bản thô hoặc pixel. Bằng cách chuyển đổi dữ liệu thành các token rời rạc, chúng ta có thể ánh xạ các token này thành các biểu diễn số, chẳng hạn như nhúng . Các vector số này nắm bắt ý nghĩa ngữ nghĩa và các mối quan hệ, cho phép các mô hình được xây dựng bằng các nền tảng như PyTorch hoặc TensorFlow học hỏi từ dữ liệu. Bước nền tảng này là nền tảng cho nhiều ứng dụng AI:

  1. Xử lý ngôn ngữ tự nhiên (NLP) : Phân tích mã thông báo là trọng tâm của hầu hết các tác vụ NLP.

    • Dịch máy: Các dịch vụ như Google Dịch sẽ mã hóa câu đầu vào bằng ngôn ngữ nguồn, xử lý các mã này bằng các mô hình phức tạp (thường dựa trên kiến trúc Transformer ), sau đó tạo các mã ở ngôn ngữ đích, cuối cùng được lắp ráp thành câu đã dịch.
    • Phân tích cảm xúc: Để xác định xem đánh giá của khách hàng là tích cực hay tiêu cực, trước tiên văn bản được mã hóa. Sau đó, mô hình sẽ phân tích các mã hóa này để phân loại cảm xúc tổng thể. Tìm hiểu thêm về Phân tích cảm xúc . Các kỹ thuật như điều chỉnh nhanh cũng dựa trên việc thao tác chuỗi mã thông báo. Đối với các nhà phát triển, các thư viện như spaCyNLTK cung cấp các công cụ mã hóa mạnh mẽ.
  2. Thị giác máy tính (CV) : Mặc dù theo truyền thống gắn liền với NLP, khái niệm này mở rộng sang thị giác máy tính.

    • Vision Transformers (ViT): Trong các mô hình như Vision Transformers (ViT) , hình ảnh được chia thành các mảng có kích thước cố định. Như đã giải thích trong bài nghiên cứu gốc về ViT , các mảng này được coi là "mã thông báo trực quan" và được làm phẳng thành các chuỗi. Các chuỗi này sau đó được đưa vào mạng Transformer , sử dụng các cơ chế như tự chú ý để hiểu mối quan hệ giữa các phần hình ảnh khác nhau. Điều này cho phép thực hiện các tác vụ như phân loại hình ảnhphát hiện đối tượng .
    • Mô hình đa phương thức: Các mô hình như CLIPYOLO-World kết nối tầm nhìn và ngôn ngữ bằng cách xử lý cả mã thông báo văn bản và mã thông báo trực quan để thực hiện các tác vụ như phát hiện đối tượng không cần chụp. Tương tự, các mô hình phân đoạn hình ảnh tiên tiến như Mô hình Phân đoạn Bất kỳ (SAM) cũng sử dụng các khái niệm tương tự như mã thông báo.

Các phương pháp mã hóa thông dụng

Có nhiều chiến lược khác nhau để mã hóa dữ liệu, mỗi chiến lược đều có những đánh đổi riêng. Việc lựa chọn phương pháp có thể ảnh hưởng đáng kể đến hiệu suất của mô hình.

  • Phân tách văn bản dựa trên từ: Phương pháp này phân tách văn bản dựa trên khoảng trắng và dấu câu. Mặc dù đơn giản và trực quan, nhưng nó gặp khó khăn với các từ vựng lớn và các từ "ngoài vốn từ vựng" (những từ không xuất hiện trong quá trình huấn luyện).
  • Phân tách văn bản dựa trên ký tự: Phương pháp này chia văn bản thành các ký tự riêng lẻ. Phương pháp này giải quyết được vấn đề thiếu từ vựng nhưng có thể dẫn đến các chuỗi rất dài, mất đi ý nghĩa ngữ nghĩa cấp cao, khiến mô hình khó học mối quan hệ giữa các từ.
  • Phân tách từ thành các token phụ: Đây là một phương pháp kết hợp đã trở thành tiêu chuẩn cho các mô hình NLP hiện đại. Phương pháp này chia nhỏ các từ thành các đơn vị nhỏ hơn, có ý nghĩa hơn. Các từ phổ biến vẫn là token đơn lẻ, trong khi các từ hiếm được chia thành nhiều token phụ. Phương pháp này xử lý hiệu quả các từ phức tạp và tránh được vấn đề thiếu từ vựng. Các thuật toán phổ biến bao gồm Mã hóa cặp byte (BPE)WordPiece , được sử dụng trong các mô hình như BERTGPT .

Mã hóa so với Mã thông báo

Điều quan trọng là phải phân biệt giữa 'Tokenization' và ' Token '.

  • Phân chia dữ liệu:quá trình chia nhỏ dữ liệu thành các đơn vị nhỏ hơn. Đây là bước tiền xử lý cơ bản trong cách thức hoạt động của các mô hình ngôn ngữ .
  • Mã thông báo: Chỉ kết quả của quá trình mã hóa – đơn vị riêng lẻ (từ, từ phụ, ký tự hoặc hình ảnh) mà mô hình xử lý.

Hiểu về token hóa là nền tảng cơ bản để nắm bắt cách các mô hình AI diễn giải và học hỏi từ các loại dữ liệu đa dạng. Việc quản lý tập dữ liệu và mô hình đào tạo thường liên quan đến các nền tảng như Ultralytics HUB , giúp hợp lý hóa quy trình tiền xử lý dữ liệuđào tạo mô hình . Khi AI phát triển, các phương pháp token hóa tiếp tục thích ứng, đóng vai trò quan trọng trong việc xây dựng các mô hình tinh vi hơn cho các tác vụ từ tạo văn bản đến hiểu biết hình ảnh phức tạp trong các lĩnh vực như xe tự hànhphân tích hình ảnh y tế .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard