Descubra a classificação de imagens com Ultralytics YOLO: treine modelos personalizados para saúde, agricultura, varejo e muito mais usando ferramentas de ponta.
A classificação de imagens é uma tarefa fundamental em visão computacional (VC) que envolve atribuir um rótulo único e específico a uma imagem inteira a partir de um conjunto predefinido de categorias. O objetivo principal é identificar o assunto principal de uma imagem e categorizá-lo de acordo. Por exemplo, um modelo de classificação analisaria uma imagem e produziria um rótulo como "gato", "cachorro" ou "carro". Esta tarefa forma a base para muitas aplicações de VC mais complexas e é um componente central de aprendizado de máquina (ML). O processo se baseia em algoritmos, principalmente Redes Neurais Convolucionais (CNNs), para aprender características distintivas de grandes conjuntos de dados rotulados.
Os modelos de classificação de imagens são treinados usando aprendizado supervisionado, onde recebem um grande número de imagens que já foram rotuladas manualmente com a classe correta. Durante o treinamento, a rede neural aprende a identificar padrões, texturas, formas e combinações de cores associadas a cada categoria. Esse aprendizado é alcançado por meio de um processo chamado retropropagação, que ajusta os parâmetros internos do modelo, ou pesos, para minimizar a diferença entre suas previsões e os rótulos reais.
Os modelos modernos de classificação frequentemente usam arquiteturas de aprendizado profundo com muitas camadas. As primeiras camadas podem aprender a reconhecer características simples como bordas e cantos, enquanto as camadas mais profundas combinam essas para identificar estruturas mais complexas como olhos, rodas ou rostos. A camada final da rede normalmente usa uma função softmax para produzir uma pontuação de probabilidade para cada classe possível. A classe com a maior probabilidade é escolhida como a previsão final. Fundamental para este processo é a extração de características, onde o modelo aprende automaticamente as características mais informativas para a tarefa de classificação.
A classificação de imagens é usada em vários setores para automatizar e dimensionar tarefas de reconhecimento visual. Dois exemplos proeminentes incluem:
Embora intimamente relacionada a outras tarefas de visão computacional, a classificação de imagens tem um propósito distinto. É importante diferenciá-la de:
Em resumo, a classificação informa o que está em uma imagem, a detecção informa o que e onde, e a segmentação fornece um mapa detalhado em nível de pixel de tudo na cena.
Embora renomados para detecção de objetos, os modelos Ultralytics YOLO também se destacam em tarefas de classificação de imagens. Modelos de última geração como o YOLOv8 podem ser facilmente treinados ou ajustados em conjuntos de dados personalizados usando o intuitivo pacote Ultralytics Python ou a plataforma sem código Ultralytics HUB.
Nossa documentação fornece recursos extensivos, incluindo dicas de treinamento de modelos e um guia detalhado sobre como usar o YOLO11 para classificação de imagens. Os desenvolvedores podem aproveitar modelos pré-treinados em conjuntos de dados de referência como ImageNet, CIFAR-100 e Caltech-101 ou treinar um novo modelo do zero. Para aqueles interessados nos avanços mais recentes, recursos como o Papers With Code oferecem uma visão geral abrangente dos modelos de melhor desempenho. Você também pode comparar o desempenho do modelo YOLO em benchmarks padrão. Frameworks como PyTorch e TensorFlow fornecem a base para construir e treinar esses modelos.