Confianza
Defina las puntuaciones de confianza de la IA. Descubra cómo los modelos miden la certeza de las predicciones, establecen umbrales de fiabilidad y distinguen la confianza de la precisión.
En el aprendizaje automático, la puntuación de confianza es un valor numérico asignado a una predicción individual, que indica la certeza del modelo de que la predicción es correcta. Expresado como un porcentaje o un valor de probabilidad entre 0 y 1, cuantifica la "creencia" del modelo en su propio resultado para una única instancia. Por ejemplo, en una tarea de detección de objetos, un modelo como Ultralytics YOLO11 podría identificar un coche en una imagen y asignar una puntuación de confianza de 0,95 (o 95%), lo que sugiere que está muy seguro de su hallazgo. Esta puntuación es un resultado crítico que ayuda a los usuarios a filtrar, priorizar e interpretar los resultados del modelo en situaciones reales.
La puntuación de confianza suele derivarse de la salida de la capa final de una red neuronal (NN), a menudo una función softmax o sigmoide. Este valor es fundamental en las aplicaciones prácticas, donde se establece un umbral de confianza para descartar las predicciones que caen por debajo de un cierto nivel de certeza. Al ajustar este umbral, los desarrolladores pueden equilibrar la compensación entre capturar todas las detecciones relevantes y minimizar los falsos positivos, una consideración clave en el despliegue del modelo.
Aplicaciones reales
Las puntuaciones de confianza son esenciales para que los sistemas de IA sean más fiables y procesables. Permiten a los sistemas calibrar la incertidumbre y activar diferentes respuestas en consecuencia.
- Vehículos autónomos: En los coches autónomos, las puntuaciones de confianza son vitales para la seguridad. Un detector de objetos puede identificar a un peatón con un 98% de confianza, una señal clara para que el vehículo reduzca la velocidad o se detenga. Por el contrario, si detecta un objeto con sólo un 30% de confianza, el sistema podría marcarlo como incierto y utilizar otros sensores para verificar su naturaleza antes de actuar. Esto ayuda a evitar accidentes al centrarse en las amenazas de alta incertidumbre. Para más detalles sobre este tema, puede leer sobre el papel de la IA en los coches autoconducidos.
- Análisis de imágenes médicas: Cuando un modelo de IA analiza exploraciones médicas en busca de signos de enfermedad, como la detección de tumores en imágenes médicas, la puntuación de confianza tiene un valor incalculable. Una detección con un 99% de confianza puede marcarse inmediatamente para que la revise un radiólogo. Un hallazgo con un 60% de confianza puede marcarse como "ambiguo" o "necesita más revisión", lo que garantiza que los casos inciertos reciban un escrutinio humano sin abrumar a los expertos con falsas alarmas. La FDA ofrece orientaciones sobre IA/ML en dispositivos médicos.
Confianza frente a otras métricas
Es importante no confundir la puntuación de confianza de una predicción individual con las métricas de evaluación global del modelo. Aunque están relacionadas, miden aspectos diferentes del rendimiento:
- Precisión: Mide el porcentaje global de predicciones correctas en todo el conjunto de datos. Proporciona una idea general del rendimiento del modelo, pero no refleja la certeza de las predicciones individuales. Un modelo puede tener una gran precisión pero realizar algunas predicciones con poca confianza.
- Precisión: Indica la proporción de predicciones positivas que fueron realmente correctas. Una precisión alta significa menos falsas alarmas. La confianza refleja la creencia del modelo en su predicción, que puede coincidir o no con la exactitud.
- Recall (Sensibilidad): Mide la proporción de casos positivos reales que el modelo identificó correctamente. Una recuperación alta significa menos detecciones fallidas. La confianza no está directamente relacionada con el número de positivos reales encontrados.
- Puntuación F1: La media armónica de Precision y Recall, proporcionando una única métrica que equilibra ambas. La confianza sigue siendo una puntuación a nivel de predicción, no una medida agregada del rendimiento del modelo.
- Precisión media (mAP): Una métrica común en la detección de objetos que resume la curva precisión-recuerdo a través de diferentes umbrales de confianza y clases. Mientras que el cálculo de mAP implica umbrales de confianza, la puntuación de confianza se aplica a cada detección individual.
- Calibración: Se refiere al grado de concordancia entre las puntuaciones de confianza y la probabilidad real de acierto. Las predicciones de un modelo bien calibrado con un 80% de confianza deberían ser correctas aproximadamente el 80% de las veces. Las puntuaciones de confianza de las redes neuronales modernas no siempre están bien calibradas, como se explica en la investigación sobre calibración de modelos.
En resumen, la confianza es un resultado valioso para evaluar la certeza de las predicciones individuales de la IA, lo que permite un mejor filtrado, priorización y toma de decisiones en aplicaciones del mundo real. Complementa, pero es distinta, de las métricas que evalúan el rendimiento general de un modelo, como las que puede seguir y analizar con herramientas como Ultralytics HUB.