Thuật ngữ

Phương pháp nhúng vị trí quay (Rotary Position Embedding - RoPE)

Khám phá cách thức mã hóa vị trí tương đối (Rotary Position Embedding - RoPE) nâng cao hiệu suất của bộ chuyển đổi. Tìm hiểu vai trò của nó trong LLM và Ultralytics Nhiệm vụ thị giác YOLO26.

Kỹ thuật nhúng vị trí xoay (Rotary Position Embedding - RoPE) là một kỹ thuật hiệu quả cao được sử dụng trong các kiến trúc mạng nơ-ron hiện đại để đưa thông tin vị trí vào các token được nhúng. Trong các mô hình học sâu như transformer , các token đầu vào được xử lý đồng thời chứ không phải tuần tự. Vì các mô hình này thiếu khả năng nhận biết thứ tự vốn có, chúng cần các cơ chế bên ngoài để hiểu trình tự dữ liệu. RoPE giải quyết vấn đề này bằng cách mã hóa vị trí tuyệt đối của một token bằng ma trận xoay và tích hợp liền mạch các phụ thuộc vị trí tương đối vào cơ chế chú ý , cho phép các mô hình hiểu rõ hơn mối quan hệ giữa các token dựa trên khoảng cách của chúng với nhau.

Cách thức hoạt động của phương pháp nhúng vị trí quay

Không giống như các phương pháp truyền thống thêm một vectơ vị trí cố định vào biểu diễn token, RoPE áp dụng phép quay hình học cho các đặc trưng của token trong không gian đa chiều. Góc quay này tỷ lệ thuận với vị trí của token trong chuỗi. Khi mô hình tính toán điểm chú ý giữa hai token, các thuộc tính toán học của các phép quay này đảm bảo rằng điểm số thu được phụ thuộc một cách tự nhiên vào khoảng cách tương đối giữa chúng. Cách tiếp cận này cho phép các hệ thống AI tiên tiến duy trì nhận thức cấu trúc mạnh mẽ trên các cửa sổ ngữ cảnh lớn hơn nhiều mà không cần quá nhiều bộ nhớ.

Để hiểu cách thức hoạt động này trong thực tế, các nhà phát triển thường triển khai RoPE bằng cách sử dụng tensor các thao tác trong các framework như PyTorch . Dưới đây là một đoạn mã đơn giản, có thể chạy được, minh họa cách logic xoay cốt lõi được áp dụng cho các đặc trưng đầu vào trong quá trình huấn luyện hoặc suy luận mô hình:

import torch


def apply_rotary_emb(x, cos, sin):
    # A simplified PyTorch demonstration of applying rotary embeddings
    # Splits the feature dimension and rotates the halves
    half_dim = x.shape[-1] // 2
    x1, x2 = x[..., :half_dim], x[..., half_dim:]

    # Rotate the components to encode relative positional information
    rotated_x = torch.cat((-x2, x1), dim=-1)

    # Combine original features with cosine and sine transformations
    return (x * cos) + (rotated_x * sin)


# Example usage with dummy token features and sinusoidal matrices
dummy_features = torch.randn(2, 10, 64)  # (batch_size, sequence_length, features)
cos, sin = torch.randn(2, 10, 64), torch.randn(2, 10, 64)
embedded_features = apply_rotary_emb(dummy_features, cos, sin)

Ứng dụng thực tiễn của RoPE

Các phép nhúng quay đã trở thành tiêu chuẩn công nghiệp cho việc mô hình hóa chuỗi, đặc biệt là trong các tác vụ xử lý ngôn ngữ tự nhiên (NLP) nâng cao và các hệ thống thị giác hiện đại.

Mô hình ngôn ngữ quy mô lớn (LLM): RoPE là cơ chế mã hóa vị trí nền tảng đằng sau một số hệ thống tạo văn bản mạnh mẽ nhất thế giới, bao gồm cả kiến trúc LLaMA của Meta . Bằng cách tận dụng RoPE, các Mô hình ngôn ngữ quy mô lớn (LLM) này có thể xử lý toàn bộ sách hoặc cơ sở mã trong một lần nhắc lệnh duy nhất, cung cấp khả năng ngoại suy chuỗi chưa từng có, khái quát hóa vượt xa độ dài được thấy trong quá trình huấn luyện.
Mô hình Vision Transformer và Phát hiện Đối tượng: Trong lĩnh vực thị giác máy tính , các token hình ảnh được tạo ra từ các mảng ảnh đòi hỏi cấu trúc không gian chính xác. Trong khi các mô hình tích chập như Ultralytics YOLO26 tự nhiên nắm bắt được hệ thống phân cấp không gian thông qua các trường tiếp nhận cục bộ, các kiến trúc tự chú ý như Vision Transformer thường tích hợp các phần mở rộng 2D giống như RoPE. Điều này giúp các quy trình phát hiện đối tượng và phân đoạn đối tượng dựa trên Transformer hiểu rõ hơn vị trí tương đối của các yếu tố hình ảnh, cải thiện độ chính xác trong các cảnh phức tạp.

Phân biệt RoPE với phương pháp nhúng vị trí tuyệt đối

Điều quan trọng là phải phân biệt RoPE với các phép nhúng vị trí tuyệt đối tiêu chuẩn. Phép nhúng tuyệt đối gán một vectơ cố định, độc lập cho mỗi vị trí trong một chuỗi, có nghĩa là mô hình phải tự học cách vị trí thứ 5 liên quan đến vị trí thứ 10. Mặt khác, RoPE tích hợp trực tiếp khái niệm khoảng cách vào các phép biến đổi token. Sự khác biệt cơ bản này làm cho RoPE vượt trội hơn hẳn trong việc hiểu văn bản dài và các quy trình AI tạo sinh, nơi các chuỗi có độ dài thay đổi đáng kể.

Khi phát triển và mở rộng quy mô các kiến trúc khổng lồ này, việc quản lý dữ liệu và cơ sở hạ tầng một cách hiệu quả là vô cùng quan trọng. Để tối ưu hóa việc chú thích tập dữ liệu, huấn luyện trên đám mây và triển khai trên tất cả các môi trường biên, các nhà phát triển thường dựa vào các công cụ toàn diện do Nền tảng Ultralytics cung cấp, nền tảng này đảm nhiệm các công việc nặng nhọc trong việc đưa nghiên cứu thị giác máy tính tiên tiến vào sản xuất. Việc sử dụng RoPE kết hợp với việc tinh chỉnh các phương pháp thực hành tốt nhất đảm bảo các quy trình AI hiện đại vẫn duy trì độ chính xác cao và khả năng tính toán mạnh mẽ.

Phương pháp nhúng vị trí quay (Rotary Position Embedding - RoPE)

Xuất ra hơn 17 định dạng. Triển khai tại 43 khu vực toàn cầu.

Huấn luyện YOLO26 trên GPU H100 với giá 2,39 đô la/giờ.

Giấy phép doanh nghiệp linh hoạt để thúc đẩy các dự án AI thị giác của bạn.

Giấy phép doanh nghiệp được thiết kế để hỗ trợ dự án tiếp theo của bạn.

Gán nhãn nhanh hơn tới 10 lần với tính năng gán nhãn thông minh

Ghi chú. Đào tạo. Triển khai. Tất cả trong một nền tảng.

Cách thức hoạt động của phương pháp nhúng vị trí quay

Ứng dụng thực tiễn của RoPE

Phân biệt RoPE với phương pháp nhúng vị trí tuyệt đối

Đọc thêm trong danh mục này

Cách xuấtYOLO Ultralytics bằng Ultralytics

Phát hiện việc xếp pallet không an toàn bằng Ultralytics

Hướng dẫn về cách chú thích đa giác với Ultralytics Nền tảng

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!