Descubra a classificação de imagens com o Ultralytics YOLO: treine modelos personalizados para cuidados de saúde, agricultura, retalho e muito mais, utilizando ferramentas de ponta.
A classificação de imagens é uma tarefa fundamental na visão computacional (CV) que envolve a atribuição de um rótulo único e específico a uma imagem inteira a partir de um conjunto predefinido de categorias. O objetivo principal é identificar o tema principal de uma imagem e categorizá-la em conformidade. Por exemplo, um modelo de classificação analisa uma imagem e atribui-lhe uma etiqueta como "gato", "cão" ou "carro". Esta tarefa constitui a base de muitas aplicações de CV mais complexas e é um componente essencial da aprendizagem automática (ML). O processo baseia-se em algoritmos, nomeadamente Redes Neuronais Convolucionais (CNN), para aprender caraterísticas distintivas a partir de grandes conjuntos de dados rotulados.
Os modelos de classificação de imagens são treinados utilizando a aprendizagem supervisionada, onde são alimentados com um vasto número de imagens que já foram rotuladas manualmente com a classe correta. Durante o treino, a rede neuronal aprende a identificar padrões, texturas, formas e combinações de cores associadas a cada categoria. Esta aprendizagem é conseguida através de um processo denominado retropropagação, que ajusta os parâmetros internos do modelo, ou pesos, para minimizar a diferença entre as suas previsões e as etiquetas reais.
Os modelos de classificação modernos utilizam frequentemente arquitecturas de aprendizagem profunda com muitas camadas. As primeiras camadas podem aprender a reconhecer caraterísticas simples, como arestas e cantos, enquanto as camadas mais profundas as combinam para identificar estruturas mais complexas, como olhos, rodas ou rostos. A camada final da rede utiliza normalmente uma função softmax para produzir uma pontuação de probabilidade para cada classe possível. A classe com a maior probabilidade é escolhida como previsão final. A chave para este processo é a extração de caraterísticas, em que o modelo aprende automaticamente as caraterísticas mais informativas para a tarefa de classificação.
A classificação de imagens é utilizada em vários sectores para automatizar e escalonar tarefas de reconhecimento visual. Dois exemplos proeminentes incluem:
Embora intimamente relacionada com outras tarefas de visão computacional, a classificação de imagens tem um objetivo distinto. É importante diferenciá-la de:
Em resumo, a classificação diz-lhe o que está numa imagem, a deteção diz-lhe o quê e onde, e a segmentação fornece um mapa detalhado, ao nível dos pixels, de tudo o que está na cena.
Embora sejam conhecidos pela deteção de objectos, os modelos Ultralytics YOLO também se destacam em tarefas de classificação de imagens. Modelos de última geração como o YOLO11 podem ser facilmente treinados ou ajustados em conjuntos de dados personalizados usando o pacote intuitivo Ultralytics Python ou a plataforma sem código Ultralytics HUB.
A nossa documentação fornece recursos extensivos, incluindo dicas de treino de modelos e um guia detalhado sobre como utilizar o YOLO11 para classificação de imagens. Os programadores podem aproveitar modelos pré-treinados em conjuntos de dados de referência como ImageNet, CIFAR-100 e Caltech-101 ou treinar um novo modelo de raiz. Para os interessados nos últimos avanços, recursos como Papers With Code oferecem uma visão geral abrangente dos modelos com melhor desempenho. Também é possível comparar o desempenho do modelo YOLO em benchmarks padrão. Estruturas como PyTorch e TensorFlow fornecem a base para a construção e treinamento desses modelos.