Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

ColBERT

Khám phá ColBERT, kiến trúc mạng neural tiên tiến giúp tìm kiếm nhanh và chính xác. Tìm hiểu cách tương tác muộn (late interaction) tối ưu hóa truy xuất thông tin và RAG.

ColBERT (Contextualized Late Interaction over BERT) là một kiến trúc mạng nơ-ron tiên tiến được thiết kế cho truy xuất thông tin hiệu quả và chính xác cao. Được giới thiệu trong một bài báo nghiên cứu năm 2020 nổi bật bởi các nhà nghiên cứu tại Đại học Stanford, nó giải quyết các điểm nghẽn tính toán của các phương pháp so sánh văn bản truyền thống. Mặc dù các công cụ tìm kiếm đôi khi có thể nhầm lẫn thuật ngữ này với tên của người dẫn chương trình trò chuyện nổi tiếng, trong lĩnh vực học máy, ColBERT đại diện cho một bước tiến lớn trong cách các thuật toán hiểu, đối chiếu và xếp hạng khối lượng lớn dữ liệu văn bản.

Link to this sectionTìm hiểu về Late Interaction#

Để hiểu rõ ColBERT, điều cần thiết là phải nắm được những hạn chế của các tiền nhiệm trong xử lý ngôn ngữ tự nhiên (NLP). Theo truyền thống, các nhà phát triển phải chọn giữa hai kiến trúc để tìm kiếm:

  1. Bi-encoders: Các model này nén toàn bộ tài liệu thành một biểu diễn vector duy nhất. Mặc dù chúng cực kỳ nhanh và tích hợp tốt với các cơ sở dữ liệu vector hiện đại, chúng thường làm mất đi các chi tiết ngữ cảnh tinh tế.
  2. Cross-encoders: Các model này đánh giá truy vấn và tài liệu cùng một lúc. Điều này mang lại độ chính xác cao nhưng đòi hỏi sức mạnh tính toán khổng lồ, khiến chúng trở nên chậm chạp một cách không thực tế cho tìm kiếm ngữ nghĩa quy mô lớn.

ColBERT giới thiệu một cơ chế mới gọi là late interaction. Thay vì nén tài liệu thành một vector đơn lẻ, ColBERT mã hóa từng từ hoặc token một cách độc lập. Khi người dùng gửi truy vấn, model sẽ so sánh các embedding của các token truy vấn với các token tài liệu bằng cách sử dụng một phép toán nhẹ có tên là "MaxSim" (Độ tương tự tối đa). Cách tiếp cận này trì hoãn sự tương tác giữa truy vấn và tài liệu cho đến lớp tính toán cuối cùng, giúp duy trì độ chính xác cao của cross-encoder trong khi vẫn đạt tốc độ tương đương với bi-encoder.

Link to this sectionCác ứng dụng trong thực tế#

Hiệu suất của ColBERT biến nó thành một framework lý tưởng để xử lý các tập dữ liệu khổng lồ trong thời gian thực.

  • Retrieval-Augmented Generation (RAG): Trong các hệ thống AI hiện đại, các mô hình ngôn ngữ lớn (LLM) được phát triển bởi các tổ chức như OpenAI thường dựa vào các cơ sở tri thức bên ngoài để ngăn chặn hiện tượng ảo giác. ColBERT thường được sử dụng làm công cụ truy xuất để lấy ngay lập tức các tài liệu doanh nghiệp phù hợp nhất, mà LLM sau đó sẽ sử dụng để xây dựng câu trả lời có tính thực tế và ngữ cảnh cao.
  • Thương mại điện tử và Hệ thống gợi ý: Các nhà bán lẻ sử dụng ColBERT để hỗ trợ các tìm kiếm phức tạp trên trang web. Khi khách hàng nhập một truy vấn tìm kiếm rất cụ thể, ColBERT sẽ khớp chính xác ý định ngữ cảnh của các token truy vấn với hàng triệu mô tả sản phẩm mà không cần dựa vào việc khớp từ khóa chính xác nhưng kém linh hoạt.

Link to this sectionMô phỏng toán tử MaxSim#

Cốt lõi của late interaction trong ColBERT là toán tử MaxSim, tính toán độ tương tự cosin tối đa giữa các token truy vấn và tài liệu. Đoạn mã Python sau đây minh họa khái niệm này bằng cách sử dụng PyTorch tensors cơ bản:

import torch

# Simulated embeddings for a query (4 tokens) and a document (10 tokens)
# Dimensions: [batch_size, num_tokens, embedding_dimension]
query_embeddings = torch.randn(1, 4, 128)
doc_embeddings = torch.randn(1, 10, 128)

# Compute dot product similarity between all query and document tokens
token_similarities = torch.matmul(query_embeddings, doc_embeddings.transpose(1, 2))

# MaxSim: Find the maximum similarity for each query token across all doc tokens
max_similarities, _ = torch.max(token_similarities, dim=2)

# Sum the maximum similarities to get the final ColBERT score
colbert_score = max_similarities.sum(dim=1)
print(f"ColBERT Document Score: {colbert_score.item():.4f}")

Link to this sectionPhân biệt các khái niệm liên quan#

Việc phân biệt ColBERT với các model nổi bật khác trong hệ sinh thái AI là rất hữu ích để hiểu công dụng chuyên biệt của nó:

  • ColBERT so với BERT: Mặc dù cả hai đều dựa trên cùng một kiến trúc Transformer cơ bản, BERT tiêu chuẩn thường được triển khai như một cross-encoder nặng và chậm cho các tác vụ tìm kiếm. ColBERT sửa đổi đặc biệt kiến trúc này bằng late interaction để làm cho quá trình tìm kiếm có khả năng mở rộng cao.
  • ColBERT so với CLIP: CLIP là một model đa phương thức được thiết kế để kết nối văn bản và hình ảnh, cho phép các vision model hiểu được các prompt ngôn ngữ tự nhiên. Ngược lại, ColBERT tập trung hoàn toàn vào các tác vụ truy xuất văn bản-văn bản.
  • Truy xuất văn bản so với Thị giác máy tính: Trong khi ColBERT xử lý văn bản, việc phân tích dữ liệu thị giác đòi hỏi các kiến trúc chuyên dụng. Đối với các tác vụ thị giác thực tế như phát hiện đối tượng hoặc phân đoạn đối tượng, các kỹ sư dựa vào các vision model hiện đại nhất như Ultralytics YOLO26. Các nhóm có thể quản lý tập dữ liệu, huấn luyện model và triển khai liền mạch các quy trình này vào môi trường production bằng cách sử dụng Ultralytics Platform trực quan.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning