Perfil de Data Scientist - Hireline México
/ Perfil de Data Scientist

¿Qué es un Data Scientist?

Un Data Scientist es un experto en Data Science, área que se enfoca en la recolección de datos, análisis e interpretación de la Big Data, a través de metodologías científicas y estadísticas.

Su objetivo es recolectar, manipular la información y crear mecanismos para convertirla en recursos que mejoren las oportunidades de los negocios .

Y es que entre mayor cantidad de datos tiene una empresa de su mercado, obtiene mejores conocimientos con los que puede generar mayores beneficios.

Para cumplir su objetivo, el Data Scientist estudia la Big Data y su comportamiento, pudiendo realizar también análisis predictivos, conocimientos estadísticos, procesamientos matemáticos, y más.

Esto lo realiza con ayuda de técnicas estadísticas, diseño de métodos de desarrollo y creación de modelos para lograr técnicas estadísticas y crear conocimientos a partir de ello.

Este perfil se diferencia del Data Analyst, ya que tiene habilidades para crear modelos estadísticos con el método científico tradicional que le permitan la extracción y medición de los datos.

El papel del Data Scientist se ha vuelto muy importante para las empresas, a partir de la aceleración de la digitalización en las organizaciones. 

El insumo más importante de las empresas en la actualidad es la información que brindan los datos , ya que sólo a partir de ellos se pueden tomar decisiones.

Por lo tanto, tener equipos que desarrollen tecnología para la obtención y análisis de datos es indispensable.

data scientist

¿Qué es la Data Science?

La Data Science es el campo de estudio que utiliza el método científico para estudiar los flujos de información y proporciona técnicas para el análisis del Big Data .

En la Ciencia de Datos se plantean hipótesis y se crea conocimiento, a través de la investigación y desarrollo de software para el análisis de información.

La Data Science puede utilizar recursos como la Inteligencia Artificial u otras herramientas en sus procesos, pero depende de las características y objetivos de las empresas. 

Sin embargo, el objetivo principal del Data Scientist siempre será apoyar a las empresas a tomar decisiones basadas en datos . 

Relación entre IA y Data Science

La relación entre estas dos especialidades de la tecnología puede confundir a algunos, sin embargo, es más simple de lo que parece.

Dentro de las actividades del Data Scientist están la extracción, manipulación y análisis de datos, para las cuales pueden hacer uso de la Inteligencia Artificial y generar predicciones y clasificaciones de esos análisis.

Por ello la IA es una de tantas herramientas de las que puede disponer el Data Scientist .

Al mismo tiempo, estos dos campos de estudio pueden estar en constante interacción, proporcionándoles herramientas y métodos que complementen las actividades del otro.

Por ejemplo, los sistemas de recomendación de YouTube o los asistentes de voz dependen mucho de la IA, pero estas herramientas también necesitan de otros roles como el Machine Learning Engineer, NLP Scientist y otros que, a su vez, necesitan de herramientas y conocimientos del Machine Learning.

Diferencias entre Data Scientist y Data Analyst

Entre las diferencias de estos dos perfiles de tecnología podemos encontrar estos puntos principales:

Data Analyst:

  • El Data Analyst enfoca sus esfuerzos en la comprensión y análisis de los datos para presentar resultados.

  • El Data Analyst genera informes detallados y sustenta los hallazgos.

  • Puede ejemplificar los resultados y aplicar propuestas con situaciones reales.

Data Scientist:

  • El Data Scientist construye modelos de análisis a través de otras herramientas o lenguajes.

  • Realiza las preguntas correctas y crea estrategias y mecanismos para obtener la información adecuada.

  • Se interesa en la parte técnica de trabajar con la información.

Para comprender mejor estos perfiles, te recomendamos leer el artículo del blog Data Analyst VS Data Scientist: ¿qué hacen dentro del Big Data?

¿Qué hace el Data Scientist?

Las actividades del científico de datos pueden variar, dependiendo de la industria en la que se encuentre, el modelo de negocio de la empresa donde colabora y los objetivos de ella.

Sin embargo, el proceso por el cual obtiene información siempre es el mismo, y aquí te lo mostramos:

1 Extracción de los datos

En este primer paso del proceso, el Data Scientist extrae datos de diversas fuentes, que considera útil a partir de un análisis. El volumen de datos puede ser Small Data , Medium Data o Big Data .

La cantidad de fuentes de información de las cuales se puede extraer datos es variable, y la forma de extracción de datos la puede sistematizar o crear el mismo científico, a través de sus conocimientos en programación y estadísticos.

2 Limpieza de datos

En este paso el científico realiza una limpieza de los datos, en otras palabras, elimina los datos que no son necesarios de acuerdo con la metodología y el objetivo de la investigación, prepara la información que sí será utilizada, transforma variables categóricas a numéricas, normaliza valores, entre otras actividades.

En este punto el científico de datos debe tomar decisiones para que la selección de la información que se quiere obtener sea fiel al objetivo general, y finalmente sea valor para la empresa.

3 Procesamiento de los datos

Esta parte del proceso es la que más atención recibe de parte del Data Scientist. Para realizar esta actividad el especialista utiliza diferentes métodos estadísticos, así como análisis matemáticos y métodos predictivos.

También puede hacer uso de softwares analíticos, Machine Learning, modelos predictivos, clustering (agrupación por características similares), e interpretación personal.

Es aquí donde se puede determinar el éxito o fracaso del proceso del Data Scientist, ya que aquí debe utilizar las herramientas y métodos adecuados para extraer información.

De ser necesario, el científico crea métodos o desarrolla herramientas con ayuda de otros especialistas, para procesar los datos y obtener la información que se requiere para las necesidades específicas de la empresa.

4 Visualización de resultados

Dependiendo de cada equipo de trabajo, el Data Scientist puede realizar la presentación de resultados obtenidos en vez del Data Analyst.

Aunque el científico de datos puede ser más técnico, debe tener la capacidad de presentar la información y explicar todo el proceso de investigación que realizó, para que los interesados en la información puedan entenderla.

actividades del data scientist

Conocimientos

Los conocimientos que debe dominar este perfil de tecnología se conforman por tres áreas que se complementan entre sí . 

El siguiente diagrama de Venn creado por Drew Comway, explica con mayor precisión estos conocimientos que debe tener el Data Scientist.

Este diagrama se conforma por tres círculos de diferente color, los cuales representan a cada área de conocimiento que debe manejar el Data Scientist. 

Como resultado entre la superposición de los tres elementos, se obtienen habilidades duras o hard skills que, al mismo tiempo, dan paso a la existencia de la Data Science .

Matemáticas y Estadística 

El primer círculo o área de conocimiento corresponde al área de las matemáticas y la estadística . Este conocimiento le hace posible entender el manejo de los datos.

Es decir, el área matemática ayuda a la creación de modelos para obtener valor de los datos.

No es necesario que este perfil tenga un alto grado de estudios en ciencias matemáticas, pero sí que entienda los fenómenos estadísticos, para obtener los resultados que más creen valor a las empresas.

En la Ciencia de Datos se trabaja con experimentación, como en cualquier otra ciencia, y se busca la creación de conocimiento. Esto es posible gracias a las matemáticas y estadísticas.

Los principales conocimientos matemáticos que debe conocer el Data Scientist son:

  1. Álgebra lineal

  2. Cálculo multivariable

  3. Red neuronal desde cero

  4. Teoría de probabilidad

Experiencia sustantiva

De acuerdo con Drew Conway, las matemáticas brindan comprensión de los datos de una manera simplista, por decirlo de alguna manera. 

Las habilidades matemáticas y la experiencia sustantiva nos da como resultado la Investigación tradicional.

Pero la conjunción entre estas dos áreas no alcanza para crear la Data Science, ya que falta el uso de la tecnología para el tratamiento de los datos en grandes cantidades.

En la Data Science se necesitan conocimientos y experiencia en el área en la que se está aplicando la Data Science , para entender el porqué y el para qué del tratamiento de los datos.

Con este conocimiento se pueden poner a prueba los modelos matemáticos aplicados a los modelos de negocios y, con los cuales, se pueden entender los fenómenos de la Big Data.

Los conocimientos más importantes que debe tener el Data Scientist, para dirigir las investigaciones y desarrollo de modelos, se enfocan en procesos cognitivos como los siguientes:

  • Dirigir la investigación por el camino correcto para obtener resultados funcionales.

  • Análisis de patrones de comportamientos.

  • Filtrado de funciones para capturar información.

  • Economía del comportamiento.

Hacking skills o habilidades informáticas

El título de esta área de conocimiento puede parecer peligrosa hasta cierto punto, pero no se refiere al tipo de hacking o hackeo que probablemente estés pensando. Este término tiene que ver con las habilidades informáticas que son de utilidad para la Data Science .

Algunas de estas habilidades pueden ser trabajar con ficheros de texto desde la línea de comandos, la comprensión de las operaciones vectoriales y matriciales y el pensamiento algorítmico.

A esto debemos agregar las otras habilidades informáticas que se el Data Scientist debe tener para el manejo de datos con diferentes tecnologías como los siguientes:

  • Herramientas para el machine learning como: Spark, Hadoop, Cloudera, Scala, Scikit y TensorFlow

  • Lenguajes de programación como: R, Python.

  • Bases de datos SQL y NoSQL para la extracción, análisis de datos, y desarrollo de algoritmos de Machine Learning.

Recordemos que las tres áreas se complementan, ya que si solo se tienen conocimientos informáticos y sustanciales no se pueden crear y aplicar modelos de tratamiento de los datos para obtener resultados, por ello esta zona es llamada la zona de peligro.

De igual manera, si solo se tiene conocimiento sobre informática y matemáticas se obtiene el machine learning por sí solo, faltando metodologías para la creación del conocimiento y la iteración constante.

conocimientos del data scientist

Habilidades

Dentro de las habilidades del Data Scientist podemos encontrar la siguientes:

  • Pensamiento crítico , para reconocer las herramientas y métodos adecuados para encontrar los datos.

  • Planificación , para llevar a cabo el proceso de la Ciencia de Datos de inicio a fin.

  • Trabajo en equipo , para colaborar con otros especialistas en la Big Data.

Comunicación efectiva , para mostrar resultados obtenidos.

Plan de Carrera

Ya que los conocimientos del Data Scientist se conforman por tres áreas principales, el especialista puede provenir de cualquiera de las tres. Por ejemplo, puede obtener un título en Matemáticas y estadística y posteriormente especializarse en programación para la Data Science.

De igual manera puede surgir como un especialista de la programación y posteriormente ahondar en el estudio de las matemáticas, complementado así sus conocimientos.


¿Cuánto gana un Data Scientist en México?

De acuerdo con el Reporte de Mercado Laboral TI realizado por Hireline, el sueldo mensual neto de un Data Scientist es de $69,369.50 MXN.

Sueldo por ubicación

Jalisco $88,500.00
Ciudad de México $60,555.56
Nuevo León $52,500.00
Remoto: México $65,000.00
Querétaro $85,000.00
Guanajuato $55,000.00
Remoto: LATAM $57,500.00

*Los sueldos mostrados son en MXN.

69369.5
7500.00