Scaling Laws
Khám phá các quy luật mở rộng mạng thần kinh (neural scaling laws) và khả năng tính toán tại thời điểm kiểm thử (test-time compute) trong AI. Tìm hiểu cách việc mở rộng tài nguyên và tối ưu hóa định hướng cho các model như Ultralytics YOLO26 mới.
Các quan sát thực nghiệm về neural scaling trong trí tuệ nhân tạo cho thấy hiệu suất của model cải thiện một cách có thể dự đoán được khi tăng các tài nguyên cụ thể—chẳng hạn như sức mạnh tính toán, kích thước tập dữ liệu và số lượng tham số. Ban đầu được phổ biến bởi các nghiên cứu từ các tổ chức như OpenAI và Google DeepMind, những mối quan hệ theo định luật lũy thừa (power-law) này cho thấy việc mở rộng tài nguyên mang lại sự sụt giảm có thể tính toán được về cross-entropy loss. Hiểu được các nguyên tắc này cho phép các nhà nghiên cứu và kỹ sư phân bổ ngân sách hàng triệu đô la một cách hiệu quả, dự đoán chính xác kích thước cần thiết của một neural network để đạt được accuracy mục tiêu trước khi bắt đầu một đợt training quy mô lớn.
Link to this sectionSự tiến hóa của việc mở rộng Pre-Training#
Công thức gốc của các quy tắc này, được gọi là Kaplan scaling laws giới thiệu vào năm 2020, xác định rằng hiệu suất của model ngôn ngữ mở rộng mượt mà theo sức mạnh tính toán training tăng dần. Khung này sau đó đã được tinh chỉnh bởi Chinchilla Scaling Laws vào năm 2022, tiết lộ rằng để có hiệu quả training tối ưu, cả kích thước model và dữ liệu training phải được mở rộng với tỷ lệ bằng nhau. Ví dụ, nếu bạn tăng gấp đôi số tham số của model, bạn cũng phải tăng gấp đôi số lượng token training. Mô hình này đã hướng dẫn thành công việc phát triển các Large Language Models (LLMs) hiện đại được xây dựng bằng các framework như PyTorch và TensorFlow, đảm bảo rằng các cụm GPUs khổng lồ được sử dụng hiệu quả mà không gây rủi ro overfitting hoặc lãng phí tính toán.
Link to this sectionSự thay đổi mô hình: Mở rộng tính toán tại thời điểm kiểm thử (Test-Time Compute Scaling)#
Trong khoảng thời gian từ 2024 đến 2025, như được nêu trong annual AI progress reports, ngành công nghiệp AI đã trải qua một sự thay đổi lớn hướng tới mở rộng tại thời điểm inference. Khi việc pre-training các model lớn hơn bắt đầu chạm ngưỡng hiệu quả giảm dần và rào cản về dữ liệu, các nhà nghiên cứu đã khám phá cách scale LLM test-time compute trực tiếp. Bằng cách cung cấp cho các model nhiều sức mạnh xử lý hơn trong quá trình inference, chúng có thể cải thiện đáng kể khả năng lập luận phức tạp.
Các kỹ thuật như Chain-of-Thought (CoT) và Best-of-N sampling cho phép các model khám phá nhiều lộ trình trước khi đưa ra câu trả lời. Định luật mở rộng tại thời điểm kiểm thử này, được tiên phong bởi các model tiên tiến như OpenAI's o1 và DeepSeek-R1, cùng với các advanced reasoning models khác, chứng minh rằng việc tăng cường tính toán trong giai đoạn dự đoán có thể cho phép một kiến trúc nhỏ hơn, hiệu quả cao vượt qua một model legacy khổng lồ trên các bài kiểm tra logic khắt khe.
Link to this sectionCác ứng dụng trong thực tế#
Các nguyên tắc mở rộng chi phối sự phát triển vượt xa việc tạo văn bản, chi phối nặng nề các pipeline computer vision và object detection hiện đại.
- Phân bổ tài nguyên cho các Foundation Models: Các công ty phát triển hệ thống tự lái dựa vào các công thức mở rộng để tính toán chính xác số lượng ảnh được chú thích cần thiết để giảm tỷ lệ lỗi Mean Average Precision (mAP) xuống mức an toàn, sẵn sàng cho sản xuất. Bằng cách sử dụng Ultralytics Platform để data annotation hợp tác và distributed training dựa trên đám mây, các đội ngũ có thể dự tính chi phí của họ về mặt toán học trước khi triển khai.
- Kích thước Model và Triển khai tại Edge: Các công thức mở rộng ảnh hưởng trực tiếp đến thiết kế kiến trúc của các model hiện đại như Ultralytics YOLO26. Bằng cách cung cấp một hệ thống model thống nhất được mở rộng toán học từ Nano (n) đến Extra Large (x), các nhà phát triển có thể đánh đổi một cách có dự báo giữa các yêu cầu độ chính xác khắt khe và inference latency dựa trên các giới hạn phần cứng edge cụ thể của họ.
Link to this sectionVí dụ mã nguồn: Mở rộng tại thời điểm Inference trong Computer Vision#
Trong computer vision, bạn có thể tận dụng một hình thức thực tế của mở rộng tại thời điểm kiểm thử được gọi là Test-Time Augmentation (TTA). Bằng cách tiêu tốn thêm tài nguyên tính toán trong prediction phase để evaluate multiple augmented versions của một hình ảnh, model cải thiện độ tin cậy phát hiện một cách có dự báo, phản chiếu các kỹ thuật tìm kiếm lập luận được thấy trong các LLM tiên tiến.
from ultralytics import YOLO
# Load the recommended YOLO26 model (nano version for high speed)
model = YOLO("yolo26n.pt")
# Perform standard inference (faster, lower test-time compute)
results_standard = model("https://ultralytics.com/images/bus.jpg")
# Perform inference-time scaling via Test-Time Augmentation (TTA)
# Predictably improves accuracy by utilizing more compute during prediction
results_tta = model("https://ultralytics.com/images/bus.jpg", augment=True)
print(f"Standard detections: {len(results_standard[0].boxes)}")
print(f"Scaled TTA detections: {len(results_tta[0].boxes)}")Link to this sectionĐịnh luật mở rộng so với các khái niệm liên quan#
Mặc dù liên quan chặt chẽ đến khả năng phần cứng, các quy tắc mở rộng AI đo lường cụ thể hiệu quả phần mềm và thuật toán liên quan đến phần cứng đó.
- Định luật mở rộng so với Định luật Moore: Định luật Moore là một quan sát phần cứng lâu đời dự đoán rằng số lượng bóng bán dẫn trên một vi mạch tăng gấp đôi sau mỗi hai năm. Ngược lại, việc mở rộng AI theo dõi về mặt toán học cách khả năng thực tế của model cải thiện khi có quyền truy cập vào nguồn lực phần cứng đang mở rộng đó.
- Mở rộng Training so với Mở rộng Inference: Các công thức training tính toán sự kết hợp tối ưu nhất giữa tham số và dữ liệu về mặt tính toán trong quá trình tạo model ban đầu. Ngược lại, mở rộng inference đo lường cách việc tiêu tốn thêm tài nguyên tính toán một cách linh hoạt cho các bước tìm kiếm và xác minh ngay trước khi tạo đầu ra giúp cải thiện kết quả cuối cùng mà không cần bất kỳ quá trình retraining nào.






