Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
IA de visão

Uma história dos modelos de visão

Explora a história, conquistas, desafios e direções futuras dos modelos de visão.

MOMostafa Ibrahim
5 min read
Uma história dos modelos de visão

Link to this sectionO que é visão computacional#

Imagina entrar numa loja onde uma câmara identifica o teu rosto, analisa o teu humor e sugere produtos adaptados às tuas preferências — tudo em tempo real. Isto não é ficção científica, mas uma realidade possibilitada pelos modernos modelos de visão. De acordo com um relatório da Fortune Business Insight, o tamanho do mercado global de visão computacional foi avaliado em 20,31 mil milhões de USD em 2023 e projeta-se que cresça de 25,41 mil milhões de USD em 2024 para 175,72 mil milhões de USD até 2032, refletindo os rápidos avanços e a crescente adoção desta tecnologia em várias indústrias.

O campo da visão computacional permite que computadores detetem, identifiquem e analisem objetos dentro de imagens. Semelhante a outros campos relacionados com IA, a visão computacional tem experimentado uma evolução rápida nas últimas décadas, alcançando avanços notáveis.

A história da visão computacional é extensa. Nos seus primeiros anos, os modelos de visão computacional eram capazes de detetar formas e contornos simples, muitas vezes limitados a tarefas básicas como reconhecer padrões geométricos ou diferenciar entre áreas claras e escuras. No entanto, os modelos de hoje podem realizar tarefas complexas como deteção de objetos em tempo real, reconhecimento facial e até interpretar emoções a partir de expressões faciais com uma precisão e eficiência excecionais. Esta progressão dramática destaca os passos incríveis dados em poder computacional, sofisticação algorítmica e a disponibilidade de vastas quantidades de dados para treino.

Neste artigo, vamos explorar os marcos fundamentais na evolução da visão computacional. Viajaremos através dos seus primórdios, mergulharemos no impacto transformador das Convolutional Neural Networks (CNNs) e examinaremos os avanços significativos que se seguiram.

Link to this sectionOs primórdios da visão computacional#

Tal como em outros campos de IA, o desenvolvimento inicial da visão computacional começou com pesquisa fundamental e trabalho teórico. Um marco significativo foi o trabalho pioneiro de Lawrence G. Roberts sobre reconhecimento de objetos 3D, documentado na sua tese "Machine Perception of Three-Dimensional Solids" no início da década de 1960. As suas contribuições estabeleceram as bases para futuros avanços no campo.

Link to this sectionOs primeiros algoritmos - deteção de contornos#

A investigação inicial em visão computacional focou-se em técnicas de processamento de imagem, como deteção de contornos e extração de características. Algoritmos como o operador Sobel, desenvolvido no final da década de 1960, foram dos primeiros a detetar contornos ao calcular o gradiente da intensidade da imagem.

Uma imagem demonstrando deteção de arestas

Fig 1. Uma imagem a demonstrar a deteção de contornos, onde o lado esquerdo mostra o objeto original e o lado direito apresenta a versão com os contornos detetados.

Técnicas como os detetores de contornos Sobel e Canny desempenharam um papel crucial na identificação de limites dentro das imagens, os quais são essenciais para reconhecer objetos e compreender cenas.

Link to this sectionMachine Learning e visão computacional#

Link to this sectionReconhecimento de padrões#

Na década de 1970, o reconhecimento de padrões surgiu como uma área chave da visão computacional. Investigadores desenvolveram métodos para reconhecer formas, texturas e objetos em imagens, o que abriu caminho para tarefas de visão mais complexas.

Reconhecimento de padrões

Fig 2. Reconhecimento de Padrões.

Um dos primeiros métodos para reconhecimento de padrões envolvia a correspondência de modelos (template matching), onde uma imagem é comparada a um conjunto de modelos para encontrar a melhor correspondência. Esta abordagem era limitada pela sua sensibilidade a variações de escala, rotação e ruído.

Correspondência de modelos dentro de uma imagem

Fig 3. Um modelo no lado esquerdo encontrado dentro da imagem da direita.

Os primeiros sistemas de visão computacional eram limitados pelo escasso poder computacional da época. Os computadores das décadas de 1960 e 1970 eram volumosos, caros e tinham capacidades de processamento limitadas.

Link to this sectionMudar o jogo com Deep Learning#

Link to this sectionDeep Learning e Convolutional Neural Networks#

O deep learning e as Convolutional Neural Networks (CNNs) marcaram um momento crucial no campo da visão computacional. Estes avanços transformaram drasticamente a forma como os computadores interpretam e analisam dados visuais, permitindo uma vasta gama de aplicações que anteriormente eram consideradas impossíveis.

Link to this sectionComo funcionam as CNNs?#

Arquitetura de uma Rede Neuronal Convolucional (CNN)

Fig 4. Arquitetura de uma Convolutional Neural Network (CNN).

  1. Camadas Convolucionais: As CNNs utilizam camadas convolucionais, que são um tipo de modelo de deep learning projetado para processar dados estruturados semelhantes a grelhas, tais como imagens ou sequências, através da aprendizagem automática de padrões hierárquicos, para analisar uma imagem usando filtros ou kernels. Estes filtros detetam várias características, como contornos, texturas e cores, deslizando pela imagem e calculando produtos internos. Cada filtro ativa padrões específicos na imagem, permitindo que o modelo aprenda características hierárquicas.
  2. Funções de Ativação: Após a convolução, funções de ativação como a ReLU (Rectified Linear Unit), que é uma função de ativação popular em deep learning que produz o input diretamente se for positivo, e zero caso contrário, ajudando as redes neuronais a aprender relações não lineares nos dados de forma eficiente. Isto ajuda a rede a aprender padrões e representações complexas.
  3. Camadas de Pooling: As camadas de pooling fornecem uma operação de subamostragem que reduz a dimensionalidade do mapa de características, ajudando a extrair as características mais relevantes enquanto reduz o custo computacional e o overfitting.
  4. Camadas Totalmente Conectadas: As camadas finais de uma CNN são camadas totalmente conectadas que interpretam as características extraídas pelas camadas convolucionais e de pooling para fazer previsões. Estas camadas são semelhantes àquelas em redes neuronais tradicionais.

Link to this sectionEvolução dos modelos de visão CNN#

A jornada dos modelos de visão tem sido extensa, apresentando alguns dos mais notáveis:

  • LeNet (1989): A LeNet foi uma das primeiras arquiteturas de CNN, usada principalmente para reconhecimento de dígitos em cheques manuscritos. O seu sucesso estabeleceu as bases para CNNs mais complexas, provando o potencial do deep learning no processamento de imagem.

  • AlexNet (2012): A AlexNet superou significativamente os modelos existentes na competição ImageNet, demonstrando o poder do deep learning. Este modelo utilizou ativações ReLU, dropout e aumento de dados, estabelecendo novos padrões na classificação de imagens e despertando um interesse generalizado nas CNNs.

  • VGGNet (2014): Ao usar filtros convolucionais menores (3x3), a VGGNet alcançou resultados impressionantes em tarefas de classificação de imagens, reforçando a importância da profundidade da rede para atingir uma maior precisão.

  • ResNet (2015): A ResNet resolveu o problema de degradação em redes profundas ao introduzir a aprendizagem residual. Esta inovação permitiu o treino de redes muito mais profundas, levando a um desempenho de topo em várias tarefas de visão computacional.

  • YOLO (You Only Look Once): O YOLO revolucionou a deteção de objetos ao estruturá-la como um único problema de regressão, prevendo diretamente bounding boxes e probabilidades de classe a partir de imagens completas numa única avaliação. Esta abordagem permitiu a deteção de objetos em tempo real com uma velocidade e precisão sem precedentes, tornando-a adequada para aplicações que requerem processamento instantâneo, como condução autónoma e vigilância.

Link to this sectionAplicações de visão computacional#

Link to this sectionCuidados de saúde#

As utilizações da visão computacional são inúmeras. Por exemplo, modelos de visão como o Ultralytics YOLOv8 são utilizados em imagiologia médica para detetar doenças como cancro e retinopatia diabética. Analisam raios-X, ressonâncias magnéticas e TACs com alta precisão, identificando anomalias precocemente. Esta capacidade de deteção precoce permite intervenções oportunas e melhores resultados para os pacientes.

Deteção de tumor cerebral usando Ultralytics YOLOv8

Fig 5. Deteção de Tumor Cerebral usando Ultralytics YOLOv8.

Link to this sectionPreservação ambiental#

Os modelos de visão computacional ajudam a monitorizar e proteger espécies ameaçadas ao analisar imagens e vídeos de habitats selvagens. Identificam e rastreiam o comportamento animal, fornecendo dados sobre a sua população e movimentos. Esta tecnologia informa estratégias de conservação e decisões políticas para proteger espécies como tigres e elefantes.

Com a ajuda da visão de IA, outras ameaças ambientais como incêndios florestais e desflorestação podem ser monitorizadas, garantindo tempos de resposta rápidos por parte das autoridades locais.

Uma imagem de satélite de um incêndio florestal

Fig 6. Uma imagem de satélite de um incêndio florestal.

Link to this sectionDesafios e direções futuras#

Embora já tenham alcançado conquistas significativas, devido à sua extrema complexidade e à natureza exigente do seu desenvolvimento, os modelos de visão enfrentam inúmeros desafios que requerem investigação contínua e avanços futuros.

Link to this sectionInterpretabilidade e explicabilidade#

Os modelos de visão, especialmente os de deep learning, são frequentemente vistos como "caixas negras" com transparência limitada. Isto deve-se ao facto de tais modelos serem incrivelmente complexos. A falta de interpretabilidade prejudica a confiança e a responsabilidade, especialmente em aplicações críticas como, por exemplo, nos cuidados de saúde.

Link to this sectionRequisitos computacionais#

Treinar e implementar modelos de IA de última geração exige recursos computacionais significativos. Isto é particularmente verdade para modelos de visão, que frequentemente requerem o processamento de grandes quantidades de dados de imagem e vídeo. Imagens e vídeos de alta definição, estando entre os inputs de treino que mais consomem dados, aumentam a carga computacional. Por exemplo, uma única imagem HD pode ocupar vários megabytes de armazenamento, tornando o processo de treino intensivo em termos de recursos e demorado.

Isto necessita de hardware potente e algoritmos de visão computacional otimizados para lidar com os extensos dados e cálculos complexos envolvidos no desenvolvimento de modelos de visão eficazes. A investigação em arquiteturas mais eficientes, compressão de modelos e aceleradores de hardware como GPUs e TPUs são áreas chave que irão impulsionar o futuro dos modelos de visão.

Estas melhorias visam reduzir as exigências computacionais e aumentar a eficiência do processamento. Além disso, alavancar modelos pré-treinados avançados como o YOLOv8 pode reduzir significativamente a necessidade de treino extensivo, simplificando o processo de desenvolvimento e aumentando a eficiência.

Link to this sectionUma paisagem em constante evolução#

Hoje em dia, as aplicações dos modelos de visão são generalizadas, variando desde cuidados de saúde, como a deteção de tumores, a utilizações quotidianas como monitorização de tráfego. Estes modelos avançados trouxeram inovação a inúmeras indústrias ao fornecer maior precisão, eficiência e capacidades que eram anteriormente inimagináveis.

À medida que a tecnologia continua a avançar, o potencial dos modelos de visão para inovar e melhorar vários aspetos da vida e da indústria permanece ilimitado. Esta evolução contínua sublinha a importância da investigação e desenvolvimento contínuos no campo da visão computacional.

Curioso sobre o futuro da visão de IA? Para mais informações sobre os últimos avanços, explora os Ultralytics Docs e vê os seus projetos no Ultralytics GitHub e no YOLOv8 GitHub. Adicionalmente, para insights sobre aplicações de IA em várias indústrias, as páginas de soluções sobre Carros Autónomos e Manufatura oferecem informações particularmente úteis.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática