19 ene. 2015

Cantidad grande de datos.


publicado en La Jornada Morelos el 19 de enero de 2015.
 
El concepto de “Cantidad grande de datos” (Big Data, en inglés) abarca aspectos científicos, de ingeniería y comerciales. Cada una de estas comunidades empezó a construirlo a partir de sus propias necesidades y experiencias. Hace un par de años, la Fundación Nacional de Ciencias, de Estados Unidos (NSF), definió a Big Data como la unión de un conjunto de datos numerosos, diversos, complejos y distribuidos que han sido generados por instrumentos, sensores, transacciones por internet, correo electrónico, videos y cualquier otra fuente digital disponible hoy y en el futuro. Desde el punto de vista académico y de negocios se ha definido a Big Data como una colección de datos complejos, diversos, heterogéneos y con alto valor potencial que es difícil de procesar y analizar en un tiempo razonable. Las características principales de Big Data se establecen con cuatro parámetros: volumen, velocidad, variedad y veracidad.
Yong Shi, miembro de la Academia de Ciencias de China, publicó el artículo “Big Data: historia, estado actual y retos hacia delante” (Big Data History, Current Status, and Challenges going Forward, The Bridge, Winter 2014, Volume 44, Number 4). Donde delinea el inicio de los esfuerzos para analizar cantidades grandes de información y hace una revisión de las áreas profesionales y académicas actuales que realizan actividades en Big Data, e incluye las medidas tomadas por diversos gobiernos.
Desde mediados del siglo pasado y en función del incremento en los usos comerciales y científicos de las computadoras, muchas instituciones han desarrollado bases de datos para almacenar y analizar la información que han recolectado, indica el autor. Las herramientas matemáticas utilizadas para manejar estos conjuntos de datos han mejorado, de realizar estadísticas básicas a incorporar métodos de inteligencia artificial. Hace veinte años, se empezó a utilizar el término “minería de datos”, que intersecta la intervención humana, el aprendizaje automático, el modelaje matemático y las bases de datos, y es el método más común para analizar datos. Así, la investigación teórica en este campo requiere del esfuerzo conjunto de matemáticos, sociólogos, economistas, ingenieros en computación y científicos en administración. El valor crítico de la minería de datos es obtener conocimiento útil.
El autor propone que existen tres problemas a resolver para lograr grandes beneficios por el uso de Big Data en la ciencia, la ingeniería y los negocios: la transformación de datos no estructurados y medio estructurados a unos estructurados; el modelado sistemático, la complejidad y la incertidumbre; y el entendimiento de la relación entre los datos, los conocimientos y las decisiones, y las propias heterogeneidades de cada uno de ellos.
En el campo académico de Big Data todavía falta dilucidar plenamente los principios, reglas básicas y propiedades de los datos no y medio estructurados; debido a la complejidad que presentan, asegura el autor. Esta complejidad se refiere no sólo a la variedad de objetos que pueden ser representados en los datos, sino que cada conjunto de datos puede presentar una imagen parcial de un objeto dado. Así, aunque un conjunto de datos puede representar con precisión un aspecto del objeto, también puede que no describa al objeto completo.
Esta representación parcial de un objeto dado, considera el autor, junto con la cantidad y variedad de los datos generan acervos de gran complejidad. También, existe incertidumbre en los datos por los cambios en su naturaleza y tipos de representación. Además, al aplicar un cierto método analítico para el análisis de los datos se introduce un sesgo particular en el conocimiento del objeto. Si cambiamos este sesgo, entonces el conocimiento previo ya no es de tanta utilidad.
Los tomadores de decisiones dependían tradicionalmente del conocimiento aprendido directamente de otros y de su propia experiencia. Así, plantea el autor, la toma de decisiones también se podía clasificar en estructurada, medio estructurada o no estructurada, y dependía de cómo se asignaban las responsabilidades en una organización. La necesidades que tenían los tomadores de decisiones de datos, información y conocimientos (cuantitativos o no) difería según el nivel de responsabilidad. Los operadores tomaban decisiones con datos estructurados, los gerentes con medio estructurados y los directivos con no estructurados.
Sin embargo, la existencia del Big Data cambió de manera disruptiva el proceso de toma de decisiones, ya que la adquisición actual de conocimiento está cada vez más basada en la minería de datos. Las funciones de los operadores, gerentes y ejecutivos pueden alinearse para tomar mejores decisiones al utilizar nuevos métodos analíticos para generar conocimientos en este ambiente.
La mejor aplicación del Big Data, propone el autor, vendrá de contribuciones teóricas y rompimientos tecnológicos en los tres problemas arriba descritos. Estos esfuerzos ampliarán sus aplicaciones de la tecnología de la información a los multimedia, finanzas, seguros, educación, salud y negocios, entre otros; impulsando la inversión, dirigiendo el consumo, mejorando la productividad e incrementando la competitividad.
En Morelos, debemos impulsar el desarrollo de Big Data y establecer políticas públicas para el uso gratuito y transparente de este conocimiento y sus aplicaciones. Así, lograremos los más amplios beneficios ambientales, sociales y económicos para nuestras comunidades.

No hay comentarios: