Semantic Chunking
Tìm hiểu cách semantic chunking bảo toàn ngữ cảnh dữ liệu để cải thiện độ chính xác cho AI và RAG. Khám phá cách trích xuất các visual chunk bằng Ultralytics YOLO26.
Semantic chunking là một kỹ thuật tiền xử lý dữ liệu nâng cao được sử dụng trong machine learning (ML) và artificial intelligence (AI) để chia các tập dữ liệu lớn thành các phân đoạn nhỏ hơn và có ý nghĩa. Nếu bạn đang tự hỏi "chunking là gì" trong ngữ cảnh AI, đó là quá trình chia nhỏ các chuỗi dữ liệu phi cấu trúc dài—như tài liệu, video hoặc âm thanh—thành các đoạn hoặc phần có thể quản lý được. Định nghĩa chunking tiêu chuẩn thường liên quan đến việc chia dữ liệu theo số lượng ký tự hoặc khoảng thời gian cố định. Tuy nhiên, "meaning chunking" hay semantic chunking tiến xa hơn bằng cách phân tích ngữ cảnh và nhóm các thông tin liên quan lại với nhau. Điều này đảm bảo thông điệp cốt lõi vẫn còn nguyên vẹn, ngăn chặn việc mất ngữ cảnh vốn thường xảy ra với các phương pháp chia nhỏ tùy tiện.
Link to this sectionSemantic Chunking Hoạt Động Như Thế Nào?#
Để hiểu cách thực hiện semantic chunking, cần xem xét vai trò của nó trong các đường ống tạo sinh hiện đại. Vậy, semantic chunking trong RAG là gì? Khi chuẩn bị dữ liệu cho một vector database, một embedding model sẽ phân tích các câu liền kề hoặc các yếu tố trực quan và tính toán mối quan hệ của chúng. Sử dụng các chỉ số thống kê như cosine similarity, hệ thống xác định các điểm mà chủ đề thay đổi—thường được gọi là các điểm ngắt (breakpoints)—và chia dữ liệu tại đó. Điều này đảm bảo rằng các đoạn dữ liệu được truy xuất bởi một Large Language Model (LLM) trong quá trình truy vấn chứa đựng những tư duy hoàn chỉnh và mạch lạc, giúp cải thiện đáng kể độ chính xác của phản hồi được tạo ra. Các nghiên cứu gần đây về RAPTOR và adaptive graph clustering làm nổi bật cách mà chiến lược nhận biết ngữ cảnh này vượt trội hơn so với phương pháp chia kích thước cố định.
Link to this sectionSemantic Chunking trong Computer Vision#
Mặc dù thường gắn liền với Natural Language Processing (NLP), semantic chunking cũng rất quan trọng trong computer vision và multimodal AI. Ví dụ, trong document analysis, một semantic chunk trực quan có thể giữ một biểu đồ cùng với chú thích giải thích của nó thay vì tách chúng ra dựa trên ranh giới trang nghiêm ngặt. Các nhà cung cấp đám mây và các công cụ API nâng cao cung cấp các cấu hình semantic chunking chuyên dụng để quản lý các loại dữ liệu phức tạp này.
Các nhà phát triển có thể tận dụng mô hình Ultralytics YOLO26 để tự động hóa việc trích xuất các đoạn trực quan này. Bằng cách phát hiện các đối tượng trong một hình ảnh hoặc video, bạn có thể tạo ra các phân đoạn nghĩa được định vị đại diện cho nội dung cốt lõi của cảnh quay.
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model to extract visual semantics
model = YOLO("yolo26n.pt")
# Run inference to detect objects within a visual scene
results = model("scene.jpg")
# Group detected object classes to form a semantic visual chunk
visual_chunk = [model.names[int(cls)] for cls in results[0].boxes.cls]
print(f"Semantic visual chunk elements: {visual_chunk}")Link to this sectionCác ứng dụng trong thực tế#
Semantic chunking giải quyết các thách thức quan trọng trong nhiều luồng công việc AI khác nhau. Dưới đây là hai ví dụ cụ thể:
- Multimodal RAG for Document AI: Khi phân tích các tệp PDF phức tạp, chẳng hạn như báo cáo tài chính, visual chunking đảm bảo rằng các bounding boxes bao quanh các bảng biểu được nhóm lại cùng với tóm tắt văn bản tương ứng của chúng. Điều này cho phép các trợ lý AI trả lời các câu hỏi cực kỳ cụ thể một cách chính xác mà không làm mất ngữ cảnh số liệu.
- Automated Video Summarization: Trong an ninh và giám sát, các luồng video liên tục được chia đoạn theo ngữ nghĩa dựa trên các sự kiện được phát hiện—chẳng hạn như một người đi vào khu vực hạn chế. Sử dụng object tracking, hệ thống nhóm các khung hình liên quan thành một đoạn video có thể hành động thay vì trả về một lát cắt ngẫu nhiên 10 giây. Các nhóm quản lý các tập dữ liệu khổng lồ này thường dựa vào Ultralytics Platform để chú thích, huấn luyện và triển khai các đường ống phức tạp hướng sự kiện như vậy một cách liền mạch.
Link to this sectionCác khái niệm liên quan#
Điều quan trọng là phải phân biệt kỹ thuật này với các thuật ngữ AI tương tự:
- Action Chunking: Trong khi semantic chunking nhóm dữ liệu theo ý nghĩa để truy xuất tối ưu, action chunking nhóm các chuỗi chuyển động vật lý (như quỹ đạo của cánh tay robot) thành các hành động có thể thực thi đơn lẻ trong lĩnh vực robot.
- Semantic Search: Semantic chunking là giai đoạn chuẩn bị dữ liệu quan trọng giúp cho việc truy xuất thông tin chính xác trở nên khả thi, trong khi semantic search là quá trình truy vấn thực tế để tìm nạp các đoạn đã được chuẩn bị đó dựa trên ý định của người dùng.






