Cuando creamos modelos, es importante evaluar su desempeño para saber si son buenos o no. Para hacer esto, utilizamos datos de prueba que ya conocemos (o cuya probabilidad de ser correctos es alta) y los comparamos con las predicciones que hace el modelo. Así podemos medir su precisión y determinar su rendimiento.
Para esto, dependiendo del tipo de modelo, disponemos de varias herramientas, listadas en el cuadro inferior.
OJO: Accuracy paradox o paradoja de la precisión
La paradoja de la precisión es un fenómeno que ocurre en modelos de clasificación binaria cuando una precisión alta se obtiene a pesar de que el modelo no es muy bueno en la tarea de clasificación.
La precisión es una métrica comúnmente utilizada para evaluar la efectividad de un modelo de clasificación binaria, y se define como el número de predicciones correctas dividido por el número total de predicciones. Sin embargo, la precisión sola puede ser engañosa ya que no considera el contexto completo de la clasificación.
Por ejemplo, si tenemos un conjunto de datos con una distribución de clases desequilibrada, en la que la clase positiva es mucho menos común que la clase negativa, un modelo que siempre predice la clase negativa tendría una precisión alta. Esto se debe a que la mayoría de las predicciones serían correctas, ya que la mayoría de las instancias pertenecen a la clase negativa. Sin embargo, este modelo no sería útil para la tarea de clasificación ya que siempre predice la clase negativa, sin considerar las instancias positivas.
La mayoría de las predicciones serían correctas, ya que la mayoría son negativas, pero el modelo no sería útil para clasificar instancias positivas.
Por otro lado, un modelo que siempre predice la clase positiva puede tener una precisión baja. Sin embargo, este modelo sería útil si la detección de la clase positiva es la prioridad en la tarea de clasificación, como en el caso de la detección de fraudes.
En resumen, la paradoja de la precisión puede ocurrir cuando la precisión es utilizada como la única métrica para evaluar modelos de clasificación binaria. Por lo tanto, es importante considerar el contexto completo de la clasificación y utilizar otras métricas, como la sensibilidad y la especificidad, para evaluar la efectividad del modelo.
Testing VS Training data
Para evaluar la calidad de un modelo de aprendizaje automático, es importante utilizar un conjunto de datos de prueba que no haya sido utilizado para entrenar el modelo.
Para lograr esto, se puede tomar una muestra del conjunto de datos original que represente aproximadamente el 20-30% de los datos, y asegurarse de que estos registros no se utilicen para entrenar el modelo.
En cambio, estos registros se utilizarán para evaluar el modelo una vez que se haya entrenado con el conjunto de datos restante. Esto es importante para evitar que el modelo se ajuste demasiado al conjunto de datos de entrenamiento y no pueda generalizar bien a nuevos datos.
Herramientas para evaluar modelos
Tipo de modelo | Objetivo | Herramienta de evaluación |
---|---|---|
Clasificación binaria | Evaluar el rendimiento general del modelo | Matriz de confusión, Precisión, Recall, F1-score |
Clasificación binaria | Evaluar el rendimiento del modelo a diferentes umbrales de decisión | Curva de precisión-recall, Curva ROC |
Clasificación multiclase | Evaluar el rendimiento general del modelo | Matriz de confusión multiclase |
Clasificación multiclase | Evaluar el rendimiento del modelo en cada clase | Precisión, Recall, F1-score por clase |
Regresión | Evaluar la capacidad predictiva del modelo | Error medio absoluto, Error cuadrático medio |
Regresión | Evaluar el rendimiento del modelo a diferentes umbrales de decisión | Curva de ganancia, Curva de lift |