Ciencia de datos

En el mundo actual de la tecnología que nos rodea, donde la computación en la nube se va haciendo parte de nuestro día a día (quien no usa los servicios de Google, Facebook, Twitter, Dropbox, o Evernote); dónde hay cada vez una mayor cantidad de dispositivos que están las 24 horas del día conectadas a internet (desde teléfonos, tabletas y TVs hasta automóviles), acercándonos aún más al concepto de la Internet de las cosas. En este mundo dónde estamos generando datos constantemente, en el mundo de la Big Data; se esta haciendo cada vez más necesario un nuevo perfil de profesionales de la información que puedan aplicar las técnicas de la Ciencia de Datos.

¿Qué es la Ciencia de Datos?

La Ciencia de Datos es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados. Es una continuación de algunos campos de análisis de datos como la estadística, la minería de datos, el aprendizaje automático y el análisis predictivo. Comprende tres áreas distintas y superpuestas: las habilidades de un estadístico que sabe cómo modelar y resumir conjuntos de datos (los cuales cada vez tienen mayor tamaño); las habilidades de un informático que pueda diseñar y utilizar algoritmos para almacenar, procesar y visualizar eficientemente estos datos; Y la experiencia sobre el campo o dominio, lo que podríamos pensar como una formación clásica en un tema; la cual es necesaria tanto para formular las preguntas correctas como para poner sus respuestas en contexto.

El proceso de la Ciencia de Datos

En general, el proceso que utiliza la Ciencia de Datos para explorar el mundo usando datos es el siguiente:

  1. El primer paso consiste en establecer un objetivo de investigación. El propósito principal aquí es asegurarse de que todos los interesados comprendan el qué, cómo y por qué del proyecto. Siempre debemos tener bien en claro cual es la pregunta que queremos responder con la ayuda de los datos.

  2. El segundo paso consiste en la obtención de los datos. Los datos deben estar disponibles para poder ser analizados. Este paso incluye encontrar los datos adecuados y obtener acceso a los mismos. El resultado de esta etapa suelen ser los datos en su forma cruda, que probablemente necesitarán ser pulidos y transformados antes de que puedan ser utilizados.

  3. Ahora que ya tenemos los datos sin procesar, el siguiente paso es prepararlos. Esto incluye la transformación de los datos de una forma cruda a una forma en la que puedan ser utilizados directamente en los modelos. Para poder lograr esto, debemos detectar y corregir diferentes tipos de errores en los datos, combinar datos de diferentes fuentes y transformarlos. Una vez completado este paso, podemos avanzar hacia la visualización de datos y el modelado.

  4. El cuarto paso es la exploración de datos. El objetivo de este etapa es obtener una comprensión profunda de los datos. Buscaremos patrones, correlaciones y desvíos basados en técnicas visuales y descriptivas. Los conocimientos adquiridos en esta fase nos permitirán comenzar con el armado del modelo.

  5. Finalmente llegamos al paso principal y más importante: la construcción de modelos. En esta etapa intentamos obtener los conocimiento o hacer las predicciones de acuerdo a los lineamientos establecidos en la primer etapa. Aquí podemos utilizar todas las técnicas y herramientas que nos proporciona el Machine Learning. El objetivo es obtener el modelo o la combinación de modelos que mejor resultados nos proporcionen.

  6. El último paso del proceso de la Ciencia de Datos es presentar los resultados y automatizar análisis. Un buen modelo no sirve de nada si no es utilizado para mejorar la eficiencia y obtener mejores resultados. En esta última etapa debemos presentarle los resultados del análisis a las personas responsables de tomar las decisiones en las organizaciones para que los modelos puedan ser adoptados.

En general, estas etapas no siguen una progresión lineal desde el paso 1 al 6. Si no que, a menudo, debemos regresar e iterar entre las diferentes etapas de acuerdo a los resultados que vayamos obteniendo. Actualmente, a los profesionales que se dedican a esta disciplina, se los conoce como Científicos de datos

Científico de datos

Los Data Scientists o Científicos de datos son profesionales, generalmente con conocimientos multidisciplinarios, que poseen el entrenamiento y la curiosidad necesarias para realizar descubrimientos en el intrincado mundo de la Big Data. Ellos son capaces de darle forma a la enorme cantidad de datos desestructurados que generamos día a día y hacer su análisis posible. Se encargan de identificar potenciales fuentes de información, unirlas y depurar el conjunto de resultados; los Científicos de datos ayudan a los encargados de tomar las decisiones a moverse de un análisis ad hoc de los datos hacia una constante conversación con ellos.

Los Científicos de datos se encargan de encontrar patrones en los datos, hacer descubrimientos en base a ellos, y comunicar las implicaciones de lo que han aprendido a través de su análisis, para indicar nuevas oportunidades de negocios. Ellos aconsejan a los ejecutivos y gerentes de productos sobre las implicaciones de los datos para los productos, procesos y decisiones.

Si bien, una primera impresión, se imaginaría a los Científicos de datos como personas con un fuerte perfil analítico y mucho conocimiento estadístico y matemático, esta impresión estaría por demás errada. Ellos se caracterizan más por su parte científica; una de las facetas dominantes de su personalidad es su intensa curiosidad, el deseo por ir más allá de la superficie de los problemas, encontrar las preguntas en lo más profundo de ellos, e ir depurándolas hasta crear un claro conjunto de hipótesis que puedan ser probadas con datos concretos. Es por esto, que algunos de los más renombrados Científicos de datos en las principales empresas de tecnología del mundo, vienen de campos poco convencionales como la Física y las Ciencias Sociales.

Lo que motiva a los Científicos de datos no es armar hermosos reportes con información estructurada, para eso ya existen los analistas financieros; lo que realmente motiva a los Científicos de datos es crear nuevas cosas, no solo dar consejo; ellos quieren crear soluciones que funcionen y generen un impacto innovador para el negocio y los consumidores.

Una podría pensar a los Científicos de datos como un híbrido entre hacker, analista, comunicador y consejero; personas que tengan el conocimiento técnico necesario para manejar y analizar grandes cantidades de datos, pero que a su vez tengan la suficiente noción y entendimiento de los negocios y la habilidad para comunicar los datos de una forma efectiva. Una combinación realmente rara de darse, pero sumamente efectiva!.

En lo que hace al apartado técnico, una de las habilidades básicas que todo buen Científicos de datos debería tener, es sin duda la habilidad de escribir código, programar. Un buen Científicos de datos debería ser eficiente con al menos un lenguaje de programación de alto rendimiento (como C, C++ o Java) y tener nociones sobre los principales lenguajes que se manejan en internet (HTML, CSS3, Javascript, PHP).

También debería poseer buenos conocimientos sobre probabilidad y estadística, aquí lenguajes de programación con R y Python, pueden resultar realmente útiles.

Y finalmente, debería poseer conocimientos sobre los principales frameworks para el manejo de la Big Data, como por ejemplo Hadoop; conocimientos sobre la infraestructura de la computación en la nube; y sobre las principales bases de datos, tanto SQL como NoSQL.

Los siguientes son ejemplos del trabajo realizado por los Científicos de datos:

  • Evaluación de modelos estadísticos para determinar la validez de los análisis.
  • Utilizar el aprendizaje automático para construir mejores algoritmos predictivos.
  • Pruebas y mejora continua de la precisión de los modelos de aprendizaje automático.
  • Construir visualizaciones de datos para resumir la conclusión de un análisis avanzado.

Los Científicos de datos aportan un enfoque y una perspectiva totalmente nuevos a la comprensión de los datos.

Otros roles relacionados con datos

Además del rol de científico de datos existen otros roles relacionados con el manejo de datos, los cuales muchas veces se confunden pero no son exactamente lo mismo. Estos roles son:

Analista de datos

Los Analistas de datos aportan valor a sus empresas mediante la obtención de datos, su utilización para responder preguntas y la comunicación de los resultados para ayudar a tomar decisiones. Las tareas más comunes realizadas por los analistas de datos incluyen la limpieza de datos, la realización de análisis y la creación de visualizaciones. Dependiendo de la industria, el Analista de datos puede tener varios títulos diferentes (por ejemplo, analista de negocios, analista de inteligencia de negocios, analista de operaciones, analista de bases de datos). Independientemente del título, el Analista de datos es un generalista que puede encajar en muchos roles y equipos para ayudar a otros a tomar mejores decisiones basadas en datos.

La naturaleza de las habilidades requeridas dependerá de las necesidades específicas de la empresa, pero estas son algunas de ellas:

  • Limpieza y organización de datos en bruto.
  • Uso de estadísticas descriptivas para obtener una vista panorámica de sus datos.
  • Análisis de tendencias interesantes encontradas en los datos.
  • Creación de visualizaciones y cuadros de mando para ayudar a la empresa a interpretar y tomar decisiones con los datos.
  • Presentación de los resultados de un análisis técnico a clientes empresariales o equipos internos.

El Analista de datos aporta un valor significativo tanto a los aspectos técnicos como no técnicos de una organización.

Ingeniero de datos

Los Ingenieros de datos construyen y optimizan los sistemas que permiten a los científicos y analistas de datos realizar su trabajo. Cada empresa depende de los datos sean exactos y accesibles, para que las personas puedan trabajar con ellos. El Ingeniero de datos se asegura de que cualquier dato sea recibido, transformado, almacenado y hecho accesible para otros usuarios.

Los Ingenieros de datos son responsables de construir las herramientas para trabajar con datos y, a menudo, tienen que usar técnicas complejas para manejar los datos a escala. A diferencia de los científicos y analistas de datos, la ingeniería de datos se inclina mucho más hacia un conjunto de habilidades de desarrollo de software.

Un buen Ingeniero de datos debe permitir que los científicos o analistas de datos puedan concentrarse en resolver problemas, en lugar de tener que preocuparse por aspectos más técnicos de la disciplina, como por ejemplo mover los datos de una fuente a otra.

La mentalidad del Ingeniero de datos suele estar más centrada en la construcción y la optimización. Los siguientes son ejemplos de tareas en las que un ingeniero de datos podría estar trabajando:

  • Creación de APIs para el consumo de datos.
  • Integración de conjuntos de datos externos o nuevos en los procesos de datos existentes.
  • Aplicación de transformaciones de atributos para los modelos de aprendizaje automático.
  • Supervisar y probar continuamente los sistemas para asegurar un rendimiento optimizado.