언어 애플리케이션의 효율적인 개발을 위해 사전 학습된 모델을 제공하는 선도적인 자연어 처리 플랫폼인 HuggingFace의 개발자 지원 엔지니어인 Merve Noyan을 만나 YOLO VISION 2023 (YV23) 이벤트의 주요 내용을 살펴보는 시간을 가져보겠습니다. Merve는 강연에서 오픈 소스 컴퓨터 비전의 세계에 대한 놀라운 인사이트를 공유했습니다.
트랜스퍼 러닝, 트랜스포머, 오픈 소스 컴퓨터 비전 에코시스템의 매혹적인 세계로 여러분을 초대합니다.
Merve는 한 신경망에서 다른 신경망으로 지식을 옮길 수 있는 마술 지팡이인 전이 학습에 대한 간단한 입문서로 시작을 알렸습니다. 가장자리와 모서리와 같은 초기 계층의 보편적인 특징에 대해 모델을 학습시킨 다음 특정 작업에 맞게 미세 조정한다고 상상해 보세요. 이것이 바로 데이터 의존성을 줄이고 정확도를 높이는 전이 학습의 핵심입니다.
Merve는 ResNet 및 Inception과 같은 고전적인 컨볼루션 백본을 강조하며 앞으로의 혁신 여정을 위한 발판을 마련했습니다.
트랜스포머가 특별한 이유는 무엇일까요? Merve는 이를 수수께끼에 비유하며 기존의 컨볼루션 기반 모델과 어떻게 다른지 설명했습니다. 그 비결은 레이블이 지정된 데이터 없이도 특징을 포착하는 자기 지도 학습을 수행할 수 있는 능력에 있습니다. 그녀가 소개한 트랜스포머 기반 모델에는 비전 트랜스포머, 데이터 이피션트 트랜스포머, 클립, 스윔 클립 등 스타급 모델들이 포함되어 있습니다.
객체 감지를 위해 설계된 트랜스포머 모델을 지원하는 Ultralytics와 공통점이 있습니다. 이 모델은 효과적인 하이브리드 인코더, IOU 인식 쿼리 선택, 조정 가능한 추론 속도를 특징으로 합니다. 특히, 이 모델은 예측, 훈련, 검증, 내보내기를 위한 옵션을 제공하는 다른 Ultralytics YOLOv8 모델의 친숙한 패턴을 준수합니다.
그런 다음 Merve는 고전적인 컴퓨터 비전 작업을 위한 8,000개 이상의 모델과 멀티모달 애플리케이션을 위한 10,000개 이상의 모델을 갖춘 HuggingFace의 보물창고에 대해 알아봤습니다. 허깅페이스 허브는 무려 3,000개 이상의 데이터 세트를 자랑하며 개발자와 애호가 모두에게 놀이터가 되고 있습니다. Merve는 다양한 사용 사례에 바로 사용할 수 있는 모델을 제공하는 HuggingFace의 일관된 API 덕분에 원활한 경험이 가능하다고 강조했습니다.
강연은 실제 데모로 전환되어 모델을 얼마나 쉽게 작업할 수 있는지 보여주었습니다. 모델과 프로세서의 인스턴스화부터 트레이너 API를 사용한 미세 조정까지, Merve는 HuggingFace 트랜스포머 라이브러리가 개발자의 가장 친한 친구라는 점을 분명히 했습니다. 그녀는 개인적으로 가장 좋아하는 파이프라인 API를 소개하며 사용자의 워크플로를 간소화하기도 했습니다.
Merve는 시각적 질문에 대한 답변을 위한 Plot 모델, 이미지 캡션을 위한 Blip, 이미지 세분화를 위한 강력한 Segment Anything 모델 등 몇 가지 환상적인 애플리케이션을 소개하며 강연을 마무리했습니다. 기술을 깊이 파고들지 않고도 손쉽게 모델을 사용할 수 있는 HuggingFace 에코시스템의 파이프라인 API가 주목을 받았습니다.
마지막으로 머브가 선보인 엘리시안 디퓨전으로 착시 효과를 만들어내는 쇼케이스는 AI의 세계에 재미를 더하는 매력적인 경험이었습니다.