Aprendizaje Supervisado
Aprendizaje Supervisado
Al trabajar con Inteligencia Artificial (IA), es inevitable entrenar los algoritmos para que cumplan las tareas que les asignamos. Existen varios métodos de entrenamiento, pero en general podemos agruparlos en supervisados y no supervisados. Además de estos dos, existe el aprendizaje por refuerzo (Véase aquí).
En este artículo solo se tratará el aprendizaje supervisado. Este podría definirse como un tipo de aprendizaje en IA en el que un algoritmo es entrenado con variables que incluyen los valores que queremos predecir; a estos valores conocidos se les llama “etiquetas” y se usan también para la evaluación del modelo. El aprendizaje supervisado se puede subdividir en dos tipos: clasificación y regresión.
En cuanto a clasificación, el objetivo es predecir las etiquetas de clase categóricas de nuevos registros, con base en observaciones pasadas. Dependiendo de la etiqueta, se puede decir que la clasificación es binaria o multiclase. Cuando solo existen dos clases (es decir, la etiqueta es discreta) se trata de clasificación binaria, y si existen más de dos clases entonces es clasificación multiclase [1].
Respecto a regresión, se trata del proceso estadístico predictivo en el que el modelo intenta predecir un valor continuo (como ventas, precio, calificaciones) mediante la relación entre variables dependientes e independientes. Es decir, se encuentra una ecuación en la que se sustituyen los valores de las variables y como resultado se obtiene el valor a predecir [2].
Existen muchos algoritmos que usan este tipo de entrenamiento, a continuación, se presentan algunos de los más comunes [3]:
Regresión lineal: Probablemente el más sencillo de todos, se trata de una regresión en la que al graficar la ecuación se forma una línea recta. Para obtener dicha ecuación, se usa el método de los cuadrados mínimos.
Regresión logística: Es una regresión usada principalmente en problemas de clasificación binaria. A pesar de la aparente incongruencia, se trata de una regresión porque el resultado de la ecuación es la probabilidad de que pertenezca a una clase, que dependiendo del umbral que se utilice, se clasifica como positivo o negativo.
Support Vector Machine (SVM): Típicamente se usa para problemas de clasificación, pero también se puede usar para regresión. En este algoritmo se construye un hiperplano que separa las clases de datos lo más posible.
Árboles de decisión: Algoritmo de clasificación similar a un diagrama de flujo, en el que se evalúan valores en cada nodo para llegar a una clasificación al final.
Random Forest: Este algoritmo consiste en combinar una gran cantidad de árboles de decisión independientes entre sí para reducir la varianza. Debido al conjunto de árboles, se le dio el nombre de “bosque”.
Lic. Daniela Rodríguez Galindo
Fuentes
[1] Roman, V. (2019, Marzo 27). Aprendizaje Supervisado: Introducción a la Clasificación y Principales Algoritmos. Obtenido de Medium: https://medium.com/datos-y-ciencia/aprendizaje-supervisado-introducci%C3%B3n-a-la-clasificaci%C3%B3n-y-principales-algoritmos-dadee99c9407
[2] Wilson, A. (2019, Septiembre 29). A Brief Introduction to Supervised Learning. Obtenido de towards data science: https://towardsdatascience.com/a-brief-introduction-to-supervised-learning-54a3e3932590
[3] IBM Cloud Education. (2020, Agosto 19). What is Supervised Learning? Obtenido de IBM: https://www.ibm.com/cloud/learn/supervised-learning