비전 AI

컴퓨터 비전 작업을 위해 Google Gemini 2.5를 직접 경험해 보십시오

객체 감지, 이미지 캡셔닝, Vision AI 솔루션을 위한 OCR과 같은 컴퓨터 비전 작업을 위해 Google Gemini 2.5를 직접 경험하는 방법을 확인하십시오.

ABAbirami Vina

5 min readMarch 31, 2025

AI 기술은 매우 빠르게 발전하고 있으며, 거의 매일 새로운 혁신이 화제가 되고 있습니다. 최근의 획기적인 성과 중 하나는 3월 26일에 출시된 Google DeepMind의 최신 멀티모달 모델인 Gemini 2.5입니다. 전통적인 Large Language Models (LLMs)이 방대한 양의 데이터를 학습하여 사람과 유사한 텍스트를 생성할 수 있는 반면, Gemini 2.5는 그 이상의 기능을 제공합니다.

이 모델은 이미지, 오디오, 비디오를 처리할 수 있는 "사고형 모델(thinking model)"로 설계되었습니다. 향상된 추론 및 코딩 기술을 갖추고 있습니다. 흥미롭게도 이 모델은 기계가 객체 탐지, 이미지 캡셔닝, 광학 문자 인식(OCR)과 같은 시각적 데이터를 해석하고 분석하는 컴퓨터 비전 작업에서도 매우 뛰어난 성능을 발휘합니다.

Gemini 2.5를 사용하여 이미지 콘텐츠를 이해하기

그림 1. Gemini 2.5를 사용하여 이미지의 내용을 이해하는 예시.

이 글에서는 Gemini 2.5의 컴퓨터 비전 기능을 직접 실습해 볼 수 있도록 도와주는 Ultralytics 노트북 중 하나를 살펴보겠습니다. 또한 Gemini 2.5의 주요 기능을 자세히 살펴보고, 이를 활용하여 실제 환경을 위한 컴퓨터 비전 솔루션을 구축하는 방법을 소개하겠습니다. 시작해 보겠습니다!

Link to this sectionGemini 2.5 개요: 기능 및 역량#

방금 출시된 Gemini 2.5 모델 시리즈의 첫 번째 버전은 Gemini 2.5 Pro의 실험적 릴리스입니다. 이 모델은 답변을 제공하기 전에 응답 과정을 스스로 생각하여 복잡한 문제를 해결하도록 설계되었습니다. 강화 학습(모델이 피드백을 통해 학습하는 방식)과 사고의 사슬(Chain-of-thought) 프롬프팅(문제를 해결하기 위해 단계별로 접근하는 방식)과 같은 방법을 사용합니다.

이 모델의 주요 기능 중 하나는 100만 토큰(대략 100만 개의 단어 또는 단어 조각)을 처리할 수 있는 거대한 컨텍스트 윈도우이며, 이는 향후 200만 토큰까지 확장될 것으로 예상됩니다. 즉, 모델이 한 번에 많은 정보를 수용할 수 있어 더욱 상세하고 정확한 결과를 도출할 수 있습니다.

Gemini 2.5는 언어 처리 외에도 다음의 컴퓨터 비전 작업에 사용할 수 있습니다:

객체 탐지: 이미지 내의 객체를 식별하고 위치를 찾는 과정입니다. 감시 시스템이나 자율 주행 자동차와 같은 애플리케이션에 사용될 수 있습니다.
이미지 캡셔닝: 이 작업은 이미지에 대한 설명 텍스트를 생성하는 것을 포함합니다. 시각적 콘텐츠를 더 쉽게 이해할 수 있도록 접근성을 높여줍니다.
광학 문자 인식(OCR): 이 기술은 이미지에 포함된 텍스트를 편집 가능한 기계 판독 가능 텍스트로 변환합니다. 문서 디지털화 및 데이터 입력 자동화에 유용합니다.

Link to this sectionGoogle Gemini 2.5와 다른 모델 간의 벤치마킹 및 비교#

현재 AI 분야에는 여러 멀티모달 모델이 존재하므로 Gemini 2.5 Pro가 다른 모델들과 어떻게 비교되는지 이해하는 것이 중요합니다. Google DeepMind가 공유한 벤치마킹 결과에 따르면, Gemini 2.5 Pro는 다양한 작업에서 인상적인 성능을 보여줍니다.

예를 들어, 고급 추론과 일반 지식을 테스트하기 위해 많은 과목을 다루는 어려운 시험을 시뮬레이션한 'Humanity’s Last Exam'이라는 테스트에서 Gemini 2.5 Pro는 약 18.8%의 점수를 기록하여, 약 14%를 기록한 OpenAI의 o3-mini와 같은 모델을 능가합니다.

Gemini 2.5 Pro의 벤치마크 성능 개요

그림 2. Gemini 2.5 Pro의 벤치마크 성능 개요.

또한 이 모델은 수학 및 코딩 챌린지에서도 매우 우수한 성능을 발휘하며, 종종 OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta, DeepSeek R1과 같은 모델의 성능과 대등하거나 그 이상의 결과를 보여주어, 복잡한 작업을 처리하고 대량의 데이터를 다루는 능력을 입증했습니다.

Link to this sectionGemini 2.5 실습하기: Google Gemini API 사용 방법#

Gemini 2.5 Pro는 여러 플랫폼에서 사용할 수 있습니다. Google AI Studio에서 실험해 볼 수 있으며, Gemini Advanced 사용자는 Gemini 앱을 통해 액세스할 수 있습니다. Google DeepMind는 출시 발표에서 이 모델이 곧 Vertex AI에서도 지원될 예정이라고 밝혔습니다. 이러한 액세스 지점 덕분에 개발자는 실제 AI 애플리케이션에 Gemini 2.5 Pro를 쉽게 활용할 수 있습니다.

하지만 복잡한 설정 없이 몇 분 만에 Google Gemini API를 시작하고 컴퓨터 비전 기능을 더 잘 이해하고 싶다면, Gemini 2.5 Pro를 사용한 객체 탐지 및 이미지 캡셔닝과 같은 작업을 보여주는 Ultralytics 노트북을 확인해 보시기 바랍니다. 이제 노트북에서 기대할 수 있는 내용을 자세히 살펴보겠습니다.

Link to this sectionGoogle Gemini 2.5 노트북으로 추론 설정하기#

Ultralytics 노트북을 시작하고 Google Gemini 2.5를 사용하려면 먼저 Google AI Studio를 통해 API 키를 생성해야 합니다. 이 키를 통해 Gemini API에 액세스하여 모델을 사용할 수 있습니다.

API 키를 확보한 후에는 환경에 필요한 라이브러리가 설치되어 있는지 확인하십시오. 여기에는 Ultralytics의 패키지와 Google의 AI 툴킷이 포함됩니다. 이 단계는 노트북에 명확하게 설명되어 있으므로 지침을 쉽게 따라 워크스페이스를 설정할 수 있습니다.

모든 설정이 완료되면 API 키를 입력하여 Gemini API에 연결할 수 있으며(아래 참조), 이는 워크스페이스와 모델 간의 연결을 생성합니다. 그 후 이미지와 텍스트 프롬프트를 Gemini 2.5로 보낼 준비가 완료됩니다.

기본적으로 이미지를 제공하고 간단한 지시(예: "이 이미지에서 객체 탐지" 또는 "무엇이 보이는지 설명")를 모델에 전달하면 필요한 결과를 반환합니다. 이 직관적인 프로세스를 통해 Gemini 2.5의 컴퓨터 비전 기능을 쉽게 탐색할 수 있습니다.

Link to this sectionGoogle Gemini 2.5를 활용한 객체 탐지#

노트북의 주요 예제 중 하나는 Gemini 2.5 Pro를 사용한 객체 탐지입니다. 이 예제에서는 모델에 이미지와 객체를 탐지하라는 간단한 프롬프트를 제공합니다.

모델은 이미지를 처리하고 발견된 각 객체에 대한 좌표 및 라벨 세트를 반환합니다. 이러한 좌표는 정규화된 형식으로 제공됩니다. 이후 Ultralytics Python 패키지의 함수를 사용하여 이러한 정규화된 값을 이미지의 실제 크기에 맞게 변환하고 아래와 같이 각 객체 주위에 선명한 BBox를 그립니다.

객체 탐지를 위해 Google Gemini 2.5 사용하기

그림 3. 객체 탐지를 위해 Google Gemini 2.5 사용하기.

Link to this sectionGemini 2.5를 이용한 이미지 캡셔닝#

노트북의 또 다른 흥미로운 예제는 Gemini 2.5 Pro를 사용한 이미지 캡셔닝입니다. 이 예제에서는 모델에 이미지와 함께 이미지에 있는 내용을 설명하는 상세한 캡션을 생성하라는 프롬프트를 제공합니다.

그런 다음 모델은 시각적 콘텐츠를 분석하고 이미지의 내용과 맥락을 모두 포착하는 내러티브를 반환하며, 종종 여러 문장으로 구성됩니다. 이 기능은 접근성을 개선하고, 시각적 정보를 요약하며, 창의적인 스토리텔링을 향상하는 데 유용합니다.

Link to this sectionGoogle Gemini 모델로 OCR 정확도 향상하기#

Gemini 2.5 Pro의 이미지 내 텍스트 판독 능력을 사용하는 컴퓨터 비전 작업은 OCR입니다. 노트북에서는 텍스트가 포함된 이미지와 함께 해당 텍스트를 추출하라는 프롬프트를 모델에 제공할 수 있습니다. 모델은 이미지를 처리하고 아래와 같이 탐지된 텍스트와 텍스트가 위치한 좌표를 모두 반환합니다.

그 후 Ultralytics Python 패키지의 함수를 사용하여 이러한 정규화된 좌표를 실제 이미지 크기로 변환하고 텍스트 영역 주위에 bounding boxes를 그립니다. 이러한 주석이 달린 출력은 텍스트가 어디에 있는지 명확하게 보여주며, 문서 디지털화, 데이터 입력 자동화 및 접근성 개선에 유용합니다.

Google Gemini 2.5를 사용하여 이미지에서 텍스트 데이터 추출하기

그림 4. Google Gemini 2.5를 사용하여 이미지의 텍스트 데이터 추출하기.

Link to this sectionGoogle Gemini 2.5의 실제 활용 사례#

Google Gemini 2.5 Pro를 다양한 컴퓨터 비전 작업에 사용하는 방법을 살펴보았으니, 이제 이러한 기능을 활용할 수 있는 실제 애플리케이션을 살펴보겠습니다.

예를 들어 Gemini 2.5 Pro의 객체 탐지 기능은 대규모 이미지 세트를 자동으로 라벨링하고 정리하여 dataset 생성이나 콘텐츠 관리와 같은 작업을 훨씬 빠르게 수행하도록 돕습니다. 또한 소매업이나 농업과 같은 분야에서 이미지 분석에 사용할 수 있습니다. 예를 들어, 매대에서 제품을 탐지하거나 농장 사진에서 작물 스트레스 징후를 식별하는 등의 작업이 가능합니다.

식물의 건강 상태를 분석하는 Gemini 2.5 Pro

그림 5. 식물의 건강 상태를 분석하는 Gemini 2.5 Pro.

한편, 모델의 이미지 캡셔닝 기능은 시각 장애인이 이미지의 내용을 이해하도록 도울 수 있습니다. 예를 들어, 붐비는 거리의 사진이 있다면 모델은 차량 유형, 보행자의 활동, 조명 단서를 기반으로 한 시간대까지 언급하며 장면을 상세히 설명하는 캡션을 생성할 수 있습니다.

또한 Gemini 2.5의 OCR 기능은 다양한 애플리케이션에서 사용될 수 있습니다. 예를 들어 페이지나 영수증을 스캔하여 인쇄된 문서를 디지털화할 수 있습니다. 이 기능은 데이터 입력 작업 자동화, 양식 처리, 또는 명함과 간판에서 텍스트를 읽는 데 이상적입니다.

전반적으로 Google Gemini 2.5 Pro는 광범위한 실용적 AI 애플리케이션의 문을 열어줍니다.

Link to this section핵심 요약#

텍스트 생성 및 분석을 넘어, Google Gemini 2.5 Pro는 객체 탐지, 이미지 캡셔닝, OCR과 같은 컴퓨터 비전 작업에 활용될 수 있습니다. 거대한 컨텍스트 윈도우와 향상된 추론 능력을 통해 실제 시나리오에서 잘 작동하는 상세하고 맥락을 인식하는 결과를 생성합니다.

AI 모델이 계속 발전함에 따라 Gemini 2.5 Pro와 같은 도구는 산업 전반에서 복잡한 문제를 해결하기 쉽게 만들고 있습니다. 시각적 이해에서 언어 처리에 이르기까지 광범위한 작업을 처리할 수 있는 유연한 멀티모달 솔루션을 찾는 조직이 많아짐에 따라 AI의 도입은 더욱 확대될 것으로 보입니다.

커뮤니티의 일원이 되어 GitHub 리포지토리에서 최첨단 AI 프로젝트에 대해 알아보십시오. 솔루션 페이지에서 농업 분야의 Vision AI 응용 사례와 제조업에서의 AI 역할을 확인해 보십시오. 라이선스 플랜을 살펴보고 지금 바로 컴퓨터 비전 솔루션을 구축하십시오!

Explore solutions

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

컴퓨터 비전 작업을 위해 Google Gemini 2.5를 직접 경험해 보십시오

Link to this sectionGemini 2.5 개요: 기능 및 역량#

Link to this sectionGoogle Gemini 2.5와 다른 모델 간의 벤치마킹 및 비교#

Link to this sectionGemini 2.5 실습하기: Google Gemini API 사용 방법#

Link to this sectionGoogle Gemini 2.5 노트북으로 추론 설정하기#

Link to this sectionGoogle Gemini 2.5를 활용한 객체 탐지#

Link to this sectionGemini 2.5를 이용한 이미지 캡셔닝#

Link to this sectionGoogle Gemini 모델로 OCR 정확도 향상하기#

Link to this sectionGoogle Gemini 2.5의 실제 활용 사례#

Link to this section핵심 요약#

Explore solutions

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

미래의 AI를 함께 구축합시다!