YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
비전 AI

자연어 처리와 컴퓨터 비전의 결합

자연어 처리(NLP)와 컴퓨터 비전(CV)이 어떻게 협력하여 더 스마트하고 교차 모달적인 AI 시스템으로 산업을 변화시킬 수 있는지 배우십시오.

ABAbirami Vina
4 min read
자연어 처리와 컴퓨터 비전의 결합

자연어 처리(NLP)컴퓨터 비전(CV)은 최근 몇 년간 큰 인기를 얻은 인공지능(AI)의 두 가지 독자적인 분야입니다. AI 기술의 발전 덕분에 이 두 분야는 그 어느 때보다 긴밀하게 연결되어 있습니다.

이에 대한 좋은 예가 자동 이미지 캡셔닝입니다. 컴퓨터 비전을 사용하여 이미지 내용을 분석하고 이해하는 동시에, 자연어 처리를 사용하여 이미지를 설명하는 캡션을 생성할 수 있습니다. 자동 이미지 캡셔닝은 소셜 미디어 플랫폼에서 접근성을 개선하고, 콘텐츠 관리 시스템에서 이미지를 효율적으로 정리하고 태그를 지정하는 데 흔히 사용됩니다.

NLP와 비전 AI의 혁신은 다양한 산업 분야에서 여러 사용 사례를 이끌어냈습니다. 본 글에서는 NLP와 컴퓨터 비전을 더 자세히 살펴보고 두 기술이 어떻게 작동하는지 논의하겠습니다. 또한 두 기술을 병행하여 사용하는 흥미로운 응용 사례도 탐구해 보겠습니다. 시작해 봅시다!

Link to this sectionNLP와 비전 AI 이해하기#

NLP는 컴퓨터와 인간 언어 간의 상호작용에 중점을 둡니다. 이는 기계가 텍스트나 음성을 의미 있게 이해, 해석 및 생성할 수 있도록 합니다. 이를 활용하여 번역, 감성 분석 또는 요약과 같은 작업을 수행할 수 있습니다.

반면, 컴퓨터 비전은 기계가 이미지와 영상을 분석하고 처리하도록 돕습니다. 사진 내 객체 탐지, 안면 인식, 객체 추적 또는 이미지 분류와 같은 작업에 사용할 수 있습니다. 비전 AI 기술은 기계가 시각적 세계를 더 잘 이해하고 상호작용할 수 있게 합니다.

이미지 분류의 예시

그림 1. 이미지 분류의 예.

computer vision과 통합될 때, NLP는 텍스트와 이미지를 결합하여 visual data에 의미를 더하고 더 깊은 이해를 가능하게 합니다. "백문이 불여일견"이라는 말처럼, 이미지가 텍스트와 결합되면 더욱 강력해져 더 풍부한 통찰력을 제공합니다.

Link to this sectionNLP와 컴퓨터 비전이 함께 작동하는 사례#

여러분은 아마도 휴대전화로 사진 속 텍스트를 번역할 때처럼 일상적인 도구에서 NLP와 컴퓨터 비전이 함께 작동하는 것을 인지하지 못한 채 사용해 보셨을 것입니다.

실제로 Google 번역은 자연어 처리와 컴퓨터 비전을 모두 사용하여 이미지 속 텍스트를 번역합니다. 다른 언어로 된 거리 표지판 사진을 찍으면, 컴퓨터 비전이 텍스트를 식별하고 추출하며, NLP가 이를 원하는 언어로 번역합니다.

NLP와 CV는 협력하여 프로세스를 원활하고 효율적으로 만들어, 사용자가 실시간으로 언어 장벽을 넘어 정보를 이해하고 소통할 수 있게 합니다. 이러한 기술의 매끄러운 통합은 의사소통의 장벽을 허뭅니다.

이미지에서 텍스트를 번역하는 Google 번역 기능

그림 2. Google의 번역 기능.

NLP와 컴퓨터 비전이 함께 작동하는 다른 응용 분야는 다음과 같습니다.

  • 자율주행 자동차: CV는 도로 표지판, 차선 및 장애물을 탐지하는 데 사용될 수 있으며, NLP는 음성 명령이나 도로 표지판의 텍스트를 처리할 수 있습니다.
  • 문서 판독기: 비전 AI는 스캔된 문서나 손글씨에서 텍스트를 인식할 수 있고, 자연어 처리는 그 정보를 해석하고 요약할 수 있습니다.
  • 쇼핑 앱 내 시각적 검색: 컴퓨터 비전은 사진 속 제품을 식별하고, NLP는 검색어를 처리하여 추천 기능을 개선합니다.
  • 교육 도구: CV는 필기 노트나 시각적 입력을 인식할 수 있으며, NLP는 콘텐츠를 기반으로 설명이나 피드백을 제공할 수 있습니다.

Link to this section컴퓨터 비전과 NLP를 연결하는 핵심 개념#

이제 컴퓨터 비전과 자연어 처리가 어떻게 사용되는지 살펴보았으니, 이들이 어떻게 결합하여 교차 모달(Cross-modal) AI를 구현하는지 알아봅시다.

교차 모달 AI는 컴퓨터 비전의 시각적 이해와 NLP의 언어 이해력을 결합하여 텍스트와 이미지 전반의 정보를 처리하고 연결합니다. 예를 들어, 의료 분야에서 교차 모달 AI는 X-레이를 분석하고 잠재적인 문제에 대한 명확한 서면 요약을 생성하여 의사가 더 빠르고 정확한 결정을 내릴 수 있도록 돕습니다.

Link to this section자연어 이해(NLU)#

자연어 이해는 텍스트의 의도, 맥락, 의미, 어조 및 구조를 분석하여 의미를 해석하고 추출하는 데 중점을 두는 NLP의 특별한 하위 분야입니다. NLP가 원시 텍스트를 처리하는 반면, NLU는 기계가 인간 언어를 더 효과적으로 이해하도록 합니다. 예를 들어, 파싱은 작성된 텍스트를 기계가 이해할 수 있는 구조화된 형식으로 변환하는 NLU 기술입니다.

NLP와 NLU 간의 관계를 나타내는 다이어그램

그림 3. NLP와 NLU의 관계.

NLU는 시각적 데이터에 이해가 필요한 텍스트가 포함되어 있을 때 컴퓨터 비전과 함께 작동합니다. 컴퓨터 비전은 광학 문자 인식(OCR)과 같은 기술을 사용하여 이미지, 문서 또는 영상에서 텍스트를 추출합니다. 여기에는 영수증 스캔, 표지판 텍스트 읽기 또는 필기 노트 디지털화와 같은 작업이 포함될 수 있습니다.

그 후 NLU는 추출된 텍스트를 처리하여 의미, 맥락 및 의도를 파악합니다. 이러한 조합은 시스템이 단순히 텍스트를 인식하는 것을 넘어 더 많은 작업을 수행할 수 있게 합니다. 시스템은 영수증에서 비용 항목을 분류하거나 어조와 감정을 분석할 수 있습니다. 컴퓨터 비전과 NLU는 시각적 텍스트를 의미 있고 실행 가능한 정보로 전환합니다.

Link to this section프롬프트 엔지니어링#

프롬프트 엔지니어링은 대규모 언어 모델(LLM) 및 비전-언어 모델(VLM)과 같은 생성형 AI 시스템이 원하는 출력을 생성하도록 안내하기 위해 명확하고 정밀하며 상세한 입력 프롬프트를 설계하는 과정입니다. 이러한 프롬프트는 AI 모델이 사용자의 의도를 이해하도록 돕는 지침 역할을 합니다.

효과적인 프롬프트 엔지니어링을 위해서는 모델의 역량을 이해하고 정확하고 창의적이며 통찰력 있는 응답을 생성하는 능력을 극대화할 수 있는 입력을 작성해야 합니다. 이는 텍스트와 이미지를 모두 다루는 AI 모델의 경우 특히 중요합니다.

OpenAI의 DALL·E 모델을 예로 들어보겠습니다. "말을 타고 있는 우주비행사의 사실적인 이미지"를 생성하라고 요청하면, 묘사에 따라 정확히 그 결과를 생성할 수 있습니다. 이러한 기술은 전문가들이 아이디어를 텍스트에서 시각적 목업으로 빠르게 전환하여 시간을 절약하고 생산성을 높일 수 있는 그래픽 디자인 분야에서 매우 유용합니다.

OpenAI의 DALL-E를 사용하여 생성된 이미지

그림 4. OpenAI의 DALL-E를 사용하여 생성된 이미지.

이것이 어떻게 컴퓨터 비전과 연결되는지 궁금할 수 있습니다. 이것은 단지 생성형 AI가 아닌가요? 실제로는 두 분야가 밀접하게 관련되어 있습니다. 생성형 AI는 컴퓨터 비전의 기반 위에 구축되어 완전히 새로운 시각적 출력을 생성합니다.

텍스트 프롬프트로부터 이미지를 생성하는 생성형 AI 모델은 텍스트 설명과 쌍을 이루는 방대한 이미지 데이터셋으로 학습됩니다. 이를 통해 언어와 객체, 질감, 공간적 관계와 같은 시각적 개념 간의 관계를 학습할 수 있습니다.

이 모델들은 현실 세계 이미지에서 객체를 인식하는 기존 컴퓨터 비전 시스템과 같은 방식으로 시각적 데이터를 해석하지 않습니다. 대신, 학습된 개념에 대한 이해를 사용하여 프롬프트를 기반으로 새로운 시각 자료를 생성합니다. 이러한 지식과 잘 설계된 프롬프트를 결합함으로써 생성형 AI는 사용자의 입력에 맞는 사실적이고 상세한 이미지를 생성할 수 있습니다.

Link to this section질의응답(QA)#

질의응답 시스템은 자연어 질문을 이해하고 정확하며 관련성 높은 답변을 제공하도록 설계되었습니다. 정보 검색, 의미론적 이해, 딥러닝과 같은 기술을 사용하여 질문을 해석하고 응답합니다.

OpenAI의 GPT-4o와 같은 고급 모델은 시각적 질의응답(VQA)을 처리할 수 있는데, 이는 이미지를 분석하고 이미지에 대한 질문에 답변할 수 있음을 의미합니다. 그러나 GPT-4o가 직접 컴퓨터 비전 작업을 수행하는 것은 아닙니다. 대신, 전문 이미지 인코더를 사용하여 이미지를 처리하고 특징을 추출한 후 이를 언어 이해력과 결합하여 답변을 제공합니다.

ChatGPT의 시각적 질의응답 기능

그림 5. ChatGPT의 시각적 질의응답 기능. 이미지 제공: 저자.

다른 시스템은 컴퓨터 비전 기능을 완전히 통합함으로써 한 단계 더 나아갈 수 있습니다. 이러한 시스템은 이미지나 영상을 직접 분석하여 객체, 장면 또는 텍스트를 식별할 수 있습니다. 자연어 처리와 결합하면 시각적 콘텐츠에 대한 더 복잡한 질문을 처리할 수 있습니다. 예를 들어, 시각적 요소를 탐지하고 해석함으로써 "이 이미지에 어떤 객체가 있는가?" 또는 "영상에 누가 나오는가?"와 같은 질문에 답할 수 있습니다.

Link to this section제로샷 학습(ZSL)#

제로샷 학습(ZSL)은 AI 모델이 별도의 학습 없이도 새롭고 보지 못한 작업을 처리할 수 있게 하는 머신러닝 방법입니다. 이는 설명이나 의미론적 관계와 같은 추가 정보를 사용하여 모델이 이미 알고 있는 것(학습된 클래스)을 새롭고 보지 못한 범주에 연결함으로써 이루어집니다.

In natural language processing, ZSL helps models understand and work with topics they haven’t been trained on by relying on relationships between words and concepts. Similarly, in computer vision, ZSL allows models to recognize objects or scenes they’ve never encountered before by linking visual features, like wings or feathers, to known concepts, such as birds.

ZSL은 언어 이해와 시각적 인식을 결합하여 NLP와 CV를 연결하며, 두 분야를 모두 포함하는 작업에 특히 유용합니다. 예를 들어 시각적 질의응답에서 모델은 이미지를 분석하는 동시에 관련 질문을 이해하여 정확한 응답을 제공할 수 있습니다. 또한 이미지 캡셔닝과 같은 작업에도 유용합니다.

Link to this section핵심 요약#

자연어 처리와 컴퓨터 비전을 결합하여 텍스트와 이미지를 모두 이해할 수 있는 AI 시스템이 탄생했습니다. 이 결합 기술은 자율주행 자동차가 도로 표지판을 읽도록 돕는 것부터 의료 진단을 개선하고 소셜 미디어를 더 안전하게 만드는 것까지 다양한 산업에서 사용되고 있습니다. 이러한 기술이 발전함에 따라 삶은 더욱 편리해질 것이며, 광범위한 분야에서 새로운 기회가 열릴 것입니다. 더 자세한 내용을 알아보려면 당사의 GitHub 저장소를 방문하고 커뮤니티에 참여해 보세요. 당사 솔루션 페이지에서 자율주행 자동차농업 분야의 AI 응용 사례를 탐색해 보십시오. 🚀

Explore solutions

Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.