Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Giải mã suy đoán

Khám phá cách giải mã suy đoán giúp tăng tốc độ suy luận của AI lên 2-3 lần. Tìm hiểu cách kỹ thuật này tối ưu hóa LLM và Ultralytics Sử dụng YOLO26 để xuất dữ liệu nhanh hơn và hiệu quả hơn.

Giải mã suy đoán là một kỹ thuật tối ưu hóa nâng cao được sử dụng chủ yếu trong các Mô hình Ngôn ngữ Lớn (LLM) và các tác vụ tạo ngôn ngữ tuần tự khác để tăng tốc đáng kể quá trình suy luận mà không làm giảm chất lượng đầu ra. Trong quá trình tạo ngôn ngữ tự hồi quy truyền thống, mô hình tạo ra từng token một, mỗi bước chờ bước trước đó hoàn thành. Quá trình này có thể chậm, đặc biệt là trên phần cứng mạnh mẽ, nơi băng thông bộ nhớ, chứ không phải tốc độ tính toán, thường trở thành nút thắt cổ chai. Giải mã suy đoán giải quyết vấn đề này bằng cách sử dụng một mô hình "bản nháp" nhỏ hơn, nhanh hơn để dự đoán một chuỗi các token trong tương lai song song, sau đó được xác minh trong một lần duy nhất bởi mô hình "mục tiêu" lớn hơn, chính xác hơn. Nếu bản nháp chính xác, hệ thống sẽ chấp nhận nhiều token cùng một lúc, giúp quá trình tạo ngôn ngữ tiến lên một bước nhảy vọt.

Cách giải mã suy đoán hoạt động như thế nào

Cơ chế cốt lõi dựa trên quan sát rằng nhiều từ trong một chuỗi—chẳng hạn như các từ chức năng như "the," "and," hoặc các từ hoàn chỉnh rõ ràng—rất dễ dự đoán và không yêu cầu toàn bộ sức mạnh tính toán của một mô hình lớn. Bằng cách chuyển giao những dự đoán dễ dàng này cho một mô hình trung gian nhẹ, hệ thống giảm số lần cần phải gọi mô hình nặng.

Khi mô hình mục tiêu xem xét chuỗi được soạn thảo, nó sử dụng bước xác minh song song. Vì GPU được tối ưu hóa cao cho xử lý theo lô, việc kiểm tra đồng thời năm mã thông báo được soạn thảo mất khoảng thời gian tương đương với việc tạo ra một mã thông báo duy nhất. Nếu mô hình mục tiêu đồng ý với bản nháp, các mã thông báo đó sẽ được hoàn thiện. Nếu nó không đồng ý ở bất kỳ điểm nào, chuỗi sẽ bị cắt ngắn, mã thông báo chính xác được chèn vào và quá trình lặp lại. Phương pháp này đảm bảo rằng đầu ra cuối cùng giống hệt về mặt toán học với những gì mô hình mục tiêu sẽ tạo ra một cách độc lập, duy trì độ chính xác đồng thời tăng tốc độ lên gấp 2 đến 3 lần trong nhiều trường hợp.

Các Ứng dụng Thực tế

Kỹ thuật này đang làm thay đổi cách các ngành công nghiệp triển khai trí tuệ nhân tạo tạo sinh, đặc biệt là trong những lĩnh vực mà độ trễ là yếu tố then chốt.

  • Hoàn thành mã theo thời gian thực: Trong các môi trường phát triển tích hợp (IDE), trợ lý lập trình AI phải đưa ra gợi ý ngay lập tức khi nhà phát triển gõ. Giải mã dự đoán cho phép các trợ lý này soạn thảo toàn bộ dòng mã bằng cách sử dụng một mô hình nhỏ, trong khi một mô hình nền tảng lớn hơn xác minh cú pháp và logic ở chế độ nền. Điều này tạo ra trải nghiệm người dùng nhanh chóng, liền mạch, mang lại cảm giác như đang gõ mã theo thời gian thực chứ không phải chờ phản hồi từ máy chủ.
  • Chatbot tương tác trên thiết bị biên: Việc chạy các mô hình học ngôn ngữ bậc cao (LLM) mạnh mẽ trên điện thoại thông minh hoặc máy tính xách tay gặp nhiều khó khăn do tài nguyên phần cứng hạn chế. Bằng cách sử dụng giải mã suy đoán, thiết bị có thể chạy một mô hình nhỏ, được lượng tử hóa cục bộ để soạn thảo phản hồi, đồng thời thỉnh thoảng truy vấn một mô hình lớn hơn (dựa trên đám mây hoặc một mô hình cục bộ nặng hơn) để xác minh. Cách tiếp cận kết hợp này cho phép tương tác trợ lý ảo chất lượng cao với độ trễ tối thiểu, giúp trí tuệ nhân tạo biên trở nên khả thi hơn cho các tác vụ phức tạp.

Mối quan hệ với các khái niệm khác

Điều quan trọng là phải phân biệt giải mã suy đoán với các chiến lược tối ưu hóa tương tự.

  • Lượng tử hóa mô hình : Mặc dù lượng tử hóa làm giảm độ chính xác của trọng số mô hình (ví dụ: từ FP16 xuống INT8) để tiết kiệm bộ nhớ và tăng tốc độ tính toán, nhưng nó làm thay đổi mô hình vĩnh viễn và có thể làm giảm hiệu suất một chút. Ngược lại, giải mã suy đoán không làm thay đổi trọng số của mô hình mục tiêu và đảm bảo phân bố đầu ra giống nhau.
  • Chưng cất tri thức : Quá trình này bao gồm việc huấn luyện một mô hình học sinh nhỏ hơn để bắt chước một mô hình giáo viên lớn hơn. Mô hình học sinh thay thế hoàn toàn mô hình giáo viên. Trong giải mã suy đoán, mô hình nhỏ (người soạn thảo) và mô hình lớn (người kiểm chứng) hoạt động song song trong quá trình suy luận , chứ không phải là mô hình này thay thế mô hình kia.

Ví dụ triển khai

Mặc dù việc giải mã suy đoán thường được tích hợp vào các khung phục vụ, nhưng khái niệm xác minh dự đoán là nền tảng cho trí tuệ nhân tạo hiệu quả. Dưới đây là một ví dụ minh họa sử dụng PyTorch Để minh họa cách một mô hình lớn hơn có thể chấm điểm hoặc xác minh một chuỗi các đầu vào ứng cử viên, tương tự như bước xác minh trong giải mã suy đoán.

import torch


def verify_candidate_sequence(model, input_ids, candidate_ids):
    """Simulates the verification step where a target model checks candidate tokens."""
    # Concatenate input with candidates for parallel processing
    full_sequence = torch.cat([input_ids, candidate_ids], dim=1)

    with torch.no_grad():
        logits = model(full_sequence)  # Single forward pass for all tokens

    # Get the model's actual predictions (greedy decoding for simplicity)
    predictions = torch.argmax(logits, dim=-1)

    # In a real scenario, we check if predictions match candidate_ids
    return predictions


# Example tensor setup (conceptual)
# input_ids = torch.tensor([[101, 2054, 2003]])
# candidate_ids = torch.tensor([[1037, 3024]])
# verify_candidate_sequence(my_model, input_ids, candidate_ids)

Tác động đến sự phát triển AI trong tương lai

Khi các mô hình tiếp tục phát triển về kích thước, sự chênh lệch giữa khả năng tính toán và băng thông bộ nhớ—thường được gọi là "bức tường bộ nhớ"—ngày càng mở rộng. Giải mã suy đoán giúp thu hẹp khoảng cách này bằng cách tối đa hóa cường độ tính toán của mỗi lần truy cập bộ nhớ. Hiệu quả này rất quan trọng cho việc triển khai bền vững trí tuệ nhân tạo tạo sinh ở quy mô lớn, giảm cả mức tiêu thụ năng lượng và chi phí vận hành.

Các nhà nghiên cứu hiện đang tìm cách áp dụng các nguyên tắc suy đoán tương tự vào các nhiệm vụ thị giác máy tính . Ví dụ, trong việc tạo video , một mô hình đơn giản có thể phác thảo các khung hình tương lai, sau đó được tinh chỉnh bởi một mô hình khuếch tán có độ chính xác cao. Khi các framework như PyTorchTensorFlow tích hợp các tối ưu hóa này một cách tự nhiên, các nhà phát triển có thể kỳ vọng độ trễ suy luận nhanh hơn trên nhiều phương thức hơn, từ văn bản đến dữ liệu hình ảnh phức tạp được xử lý bởi các kiến ​​trúc tiên tiến như Ultralytics YOLO26 .

Đối với những người quản lý vòng đời của các mô hình như vậy, việc sử dụng các công cụ như Nền tảng Ultralytics đảm bảo rằng các tập dữ liệu và quy trình huấn luyện cơ bản mạnh mẽ, cung cấp nền tảng vững chắc cho các kỹ thuật suy luận nâng cao. Cho dù bạn đang làm việc với các mô hình ngôn ngữ lớn hay phát hiện đối tượng hiện đại, việc tối ưu hóa quy trình suy luận vẫn là một bước quan trọng để chuyển từ nguyên mẫu sang sản phẩm hoàn chỉnh.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay