La minería de datos y la lucha contra la obesidad

Hoy quiero hablar de dos cuestiones elementales: En primer lugar, de la minería de datos. Esta es una técnica que se utiliza en los análisis para procesar y explorar grandes conjuntos de datos. La herramienta no es nueva. Siempre existieron grandes volúmenes de datos, así como la necesidad de analizarlos, pero es a partir de los años ochenta del siglo XX cuando Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetske-Shapiro, entre otros muchos, consolidaron el término de “minería de datos” usando la técnica KDD: "knowledge discovery in databases".

By tuespacio

6 noviembre, 2023

0

1719

Ricardo Chacón– Escuela de Ciencias de la Comunicación

Universidad Dr. José Matías Delgado/ 6 de diciembre 2023

Hoy quiero hablar de dos cuestiones elementales: En primer lugar, de la minería de datos. Esta es una técnica que se utiliza en los análisis para procesar y explorar grandes conjuntos de datos. La herramienta no es nueva. Siempre existieron grandes volúmenes de datos, así como la necesidad de analizarlos, pero es a partir de los años ochenta del siglo XX cuando Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetske-Shapiro, entre otros muchos, consolidaron el término de “minería de datos” usando la técnica KDD: «knowledge discovery in databases».

En resumidas cuentas, la minería de datos no es otra cosa que un campo de la estadística y de las ciencias de la computación que se refiere al proceso que intenta descubrir patrones en grandes volúmenes y conjuntos de datos.

Y en segundo lugar: lo que hace diferente a la minería de datos en la actualidad es esa amalgama de tres disciplinas científicas que han dado pasos agigantados en el último siglo. Estos son: la estadística, la inteligencia artificial y el aprendizaje profundo. Este último, el “machine learning”[1], no es otra cosa que un conjunto de algoritmos que puede aprender de los datos para hacer predicciones.

Las bases de datos y las computadoras (ahora con inteligencia artificial) han hecho crecer exponencialmente la minería de datos. En este contexto, queremos traer a cuenta un trabajo de Castrillón, O. D. (2021) quien, utilizando la minería de datos, hace un acercamiento a la obesidad. El principal objetivo de esta investigación es identificar las variables más influyentes en el grado de obesidad por medio de técnicas de minería de datos y del uso de la plataforma WEKA.

Se reestructura una base de datos existente con 2,111 registros, dieciséis variables independientes y una variable dependiente (grado de obesidad). Se agrega la variable “índice de masa corporal” y se emplea el algoritmo J48 para realizar un proceso de selección estadística. Los resultados muestran que las variables independientes más influyentes son: género, estatura, peso e índice de masa corporal.

El porcentaje de éxito supera el 97% por medio del algoritmo J48 y otras técnicas inteligentes ejecutadas con la misma plataforma mediante validación cruzada. Al suprimir las variables más influyentes, la edad e historia familiar tienen una influencia moderada. Se concluye que es responsabilidad de cada persona ser consiente y controlar cada una de estas variables si desea un control efectivo de su peso corporal.

En resumidas cuentas, en su análisis de minería de datos sobre la obesidad, Castrillón (2021) utilizó una metodología mixta que combina técnicas cuantitativas y cualitativas. En primer lugar, realizó un análisis exploratorio de datos utilizando estadísticas descriptivas y correlaciones para identificar las variables más influyentes en la obesidad. Luego, aplicó técnicas de minería de datos, como el análisis de componentes principales y la regresión logística, para modelar la relación entre las variables y la obesidad. Además, utilizó entrevistas a expertos en nutrición y salud para complementar los resultados obtenidos por las técnicas cuantitativas.

Sobre las variables más influyentes en la obesidad, Castrillón (2021) concluye lo siguiente:

Las variables relacionadas con la alimentación, como la ingesta de alimentos ultraprocesados y la falta de consumo de frutas y verduras, son factores importantes en el desarrollo de la obesidad.
El sedentarismo y la falta de actividad física también son variables significativas en la obesidad. La falta de ejercicio regular y el tiempo prolongado dedicado a actividades sedentarias, como ver televisión o usar dispositivos electrónicos, contribuyen al aumento de peso.
Otro factor influyente en la obesidad es el entorno social. Estar rodeado de personas con hábitos poco saludables, como amigos o familiares con sobrepeso u obesidad, puede aumentar el riesgo de desarrollar esta condición.
Además, el estudio destaca la importancia de variables psicológicas en la obesidad, como el estrés y la depresión. Estos factores pueden afectar los hábitos alimentarios y promover conductas poco saludables.

En resumen, el estudio de Castrillón (2021) identifica varias variables influyentes en la obesidad, incluyendo la alimentación, el sedentarismo, el entorno social y las variables psicológicas. Estos hallazgos proporcionan información importante para comprender y abordar esta problemática de salud

Si quieres profundizar en el tema puedes tomar nota de la siguiente bibliografía mínima, si se quiere, pero elemental para entender y usar la minería de datos. De manera particular, cito la segunda edición de «Minería de datos y análisis predictivo» que proporciona una cobertura completa de varios métodos y modelos de minería de datos, incluidas reglas de asociación, agrupación en clústeres, redes neuronales, regresión logística y análisis multivariado.

El libro ofrece un enfoque unificado de caja blanca para la minería de datos, lo que permite a los lectores obtener información sobre el funcionamiento interno de los métodos a través de problemas de análisis prácticos. Además, incluye más de 750 ejercicios de capítulos para que los lectores evalúen su comprensión del material.

El libro también presenta un estudio de caso detallado que reúne las lecciones aprendidas a lo largo del texto. Es adecuado para estudiantes de informática y estadística, así como para estudiantes de MBA y directores ejecutivos.

Bibliografía

[1] La Fundéu recomienda “aprendizaje automático” en vez de “machine learning”. Ver: https://www.fundeu.es/recomendacion/aprendizaje-automatico-mejor-que-machine-learning/, consultado el 17 de octubre de d023.

Mahmood, Safaei., Elankovan, A, Sundararajan., Maha, Driss., Wadii, Boulila., Azrulhizam, Shapi’i. (2021). A systematic literature review on obesity: Understanding the causes & consequences of obesity and reviewing various machine learning approaches used to predict obesity. Computers in Biology and Medicine, doi: 10.1016/J.COMPBIOMED.2021.104754

Cynthia, J., Stein, Cynthia, J., Stein., Cynthia, J., Stein, Graham, A., Colditz, Graham, A., Colditz (2004). The epidemic of obesity. The Journal of Clinical Endocrinology and Metabolism, doi: 10.1210/JC.2004-0288

Bruce, E., Blaine., C., A., Johnson. (2005). Obesity, self-complexity, and compartmentalization: on the implications of obesity for self-concept organization. Eating and Weight Disorders-studies on Anorexia Bulimia and Obesity, doi: 10.1007/BF03327497

Daniel, T., Larose., Chantal, D., Larose. (2015). Data Mining and Predictive Analytics.

Castrillón, O. D. (2021). Las variables más influyentes en la obesidad: un análisis desde la minería de datos. Información tecnológica, 32(6), 123-132.

Obesidad, Epigenética e Inteligencia Artificial

Arrabales, R. Obesidad, Epigenética e Inteligencia Artificial.