GPU가 딥 러닝을 가속화하고, 워크플로를 최적화하며, 실제 애플리케이션을 가능하게 함으로써 AI 및 머신 러닝을 어떻게 혁신하는지 알아보세요.
그래픽 처리 장치(GPU)는 원래 프레임 버퍼 내 이미지 조작 및 생성을 가속화하여 디스플레이 출력을 위해 설계된 특수 전자 회로입니다. 게임 및 전문 시각화를 위한 컴퓨터 그래픽 렌더링에서 기원을 두었으나, GPU는 현대 인공지능(AI)의 핵심 엔진으로 진화했습니다. 표준 프로세서가 소수의 강력한 코어를 사용하여 작업을 순차적으로 처리하는 것과 달리, GPU 수천 개의 작고 효율적인 코어로 구성되어 여러 작업을 동시에 처리하도록 설계되었습니다. 이 병렬 컴퓨팅으로 알려진 능력은 딥 러닝(DL) 과 복잡한 신경망(NN)의 기반이 되는 대규모 행렬 및 벡터 연산에 탁월한 효율성을 제공합니다.
머신 러닝(ML) 에 GPU가 필수적인 주된 이유는 고속 행렬 곱셈을 수행할 수 있는 능력 때문입니다. PyTorch 와 TensorFlow 이 하드웨어 가속을 활용하도록 특별히 최적화되어 있습니다. 이로 인해 모델 훈련 시간이 크게 단축되어 일반 프로세서에서 수 주가 소요될 작업을 GPU 수 시간 내로 수행할 수 있습니다. 이러한 장치의 연산 처리량은 일반적으로 FLOPS (초당 부동소수점 연산 횟수)로 측정되며, YOLO26과 같은 최첨단 모델의 까다로운 요구 사항을 처리하는 하드웨어 성능을 평가하는 핵심 지표입니다.
하드웨어 환경을 이해하기 위해서는 GPU 다른 처리 GPU 구분하는 것이 도움이 됩니다:
고성능 GPU의 도입은 다양한 산업 전반에 걸쳐 혁신을 촉진해 왔습니다:
사용 시 ultralytics 패키지는 GPU 활용이 GPU 효율적인 워크플로우를 위해 적극 권장됩니다.
라이브러리는 자동 장치 감지를 지원하지만, 사용자가 장치를 명시적으로 지정할 수도 있습니다.
다음 예제는 GPU 가능한 첫 번째 GPU에서 YOLO26 모델을 훈련하는 방법을 보여줍니다:
from ultralytics import YOLO
# Load the YOLO26n model
model = YOLO("yolo26n.pt")
# Train the model on the first available GPU (device=0)
# This significantly accelerates training compared to CPU usage
results = model.train(data="coco8.yaml", epochs=5, imgsz=640, device=0)
훈련 외에도 GPU는 모델 배포에서 핵심적인 역할을 수행합니다. 추론 시 효율성을 극대화하기 위해 모델은 종종 TensorRT와 같은 최적화된 형식으로 변환됩니다. TensorRT와 같은 최적화된 형식으로 변환됩니다. 이는 신경망을 재구성하여 GPU 완벽하게 일치시켜 지연 시간을 줄입니다. 고성능 로컬 하드웨어를 사용할 수 없는 개발자를 위해 Ultralytics 클라우드 기반 솔루션을 제공하여 데이터셋을 관리하고 강력한 원격 GPU 모델을 훈련시킵니다. 이러한 접근성은 엣지 AI 혁신을 주도하여 복잡한 컴퓨터 비전(CV) 작업을 현장의 소형 저전력 장치에 배포할 수 있게 합니다.