BIG DATA - Analisis

¿Qué es?

Es el proceso de examinar grandes cantidades de datos de una variedad de tipos para descubrir patrones ocultos, correlaciones desconocidas y otra información útil.

Este proceso proporciona ventajas competitivas ante otras organizaciones rivales y suele generar beneficios para el negocio, tales como el marketing más efectivo y mayores ingresos.

Su objetivo principal es ayudar a las empresas a tomar mejores decisiones de negocios al permitir a los científicos y otros usuarios de datos analizar grandes volúmenes de datos transaccionales, así como otras fuentes de datos que puedan haber quedado sin explotar por la inteligencia de negocio convencional.

El análisis puede hacerse con herramientas de software que se usan en disciplinas analíticas avanzadas, como el análisis predictivo y la minería de datos. Sin embargo, las fuentes de datos no estructurados tal vez no encajen en los almacenes de datos tradicionales. Además, estos pueden no ser capaces de manejar las demandas de procesamiento de grandes datos.

Tipos de análisis:

Dependiendo de la información que se quiera sacar del big data, podemos encontrar varios tipos de análisis:

Análisis descriptivo: Consiste en simplificar y resumir los datos en paquetes más pequeños para poder manejarlos mejor. Este proceso es relativamente fácil y constituye uno de los procesos de análisis que más se practica en las empresas. Este análisis permite visualizar un escenario presente y su estado.

Análisis diagnóstico: Se centra en determinar los factores y eventos que contribuyeron a un escenario presente.

Análisis predictivo: Consiste en contrastar datos recientes e históricos empleando técnicas como la minería de datos, modelos y estadísticas, para ofrecer casos o escenarios futuros posibles. Este análisis permite hacer predicciones basadas en la probabilidad.

Análisis prescriptivo: No solo permite ver varios escenarios futuros, sino que también sugiere las posibles decisiones a tomar frente a estos escenarios, y las consecuencias probables de dichas decisiones.

Fases del análisis:

Los tres tipos de análisis tienen estas fases en común:

Obtención de datos: Para empezar, resulta muy importante poner especial cuidado a la hora de recoger datos. Los resultados obtenidos en la última fase dependerán de la calidad de los datos que se recompilen en esta primera etapa.
Preparación de datos: En esta fase se produce la primera manipulación de datos con el objetivo de hacerlos manejables. Esta manipulación consiste en filtrar y limpiar los datos, eliminando duplicados o errores que induzcan a nuevos errores en las subsiguientes etapas. De esta forma, los datos se convierten al formato más adecuado para su procesamiento.
Procesamiento de datos: En esta fase se llevan a cabo las grandes manipulaciones. Los datos serán sometidos a los métodos y tratamientos más indicados en función del objetivo del análisis, de tal manera que se obtenga una estructura de datos organizada y diferenciada que facilitará la extracción de información valiosa.
Análisis e interpretación de datos: Una vez organizados los datos, hay que transformarlos en información que aporte valor. Existe una serie de metodologías que pueden ser aplicadas según el resultado que se busque, como la minería de datos o el machine learning. Toda la información útil que ha sido extraída debe llegar al usuario final en forma de informes, gráficos u otro tipo de soporte de visualización, para que este la pueda interpretar correctamente.

Técnicas de análisis:

Existen diferentes técnicas analísticas que se adaptan tanto a las características de los datos recopilados como a las preguntas a las que se quiere dar respuesta. Estas técnicas responden a dos enfoques: el objetivo con el que se analizan los datos y la naturaleza de estos.

Según el objetivo:

Técnicas descriptivas: cuentas, sumas y medias, tasas de variación, tasas de frecuencias, test A/B, análisis factorial y de clúster, árboles de decisión, análisis espacial, aplicación de la teoría de grafos.

Técnicas predictivas: series temporales, técnicas de progresión, redes neuronales, machine learning y deep learning, algoritmos de boosting como XGBoost.

Técnicas prescriptivas: métodos de probabilidad condicionada, técnicas de regresiones, reglas de asociación, método de Montecarlo y simulación estocástica, algoritmos genéticos y técnicas de optimización espacial.

Según la naturaleza:

Según el volumen de datos: las técnicas que más aprovechan el factor del volumen son las que explotan el aprendizaje automático del machine learning por dos vías:

- La recalibración continua del modelo a modo de aprendizaje (una red neuronal, por ejemplo).

- La capacidad para combinar distintos modelos, ya sea una misma técnica aplicada a distintas submuestras o la ejecución de diversas técnicas que compiten entre sí (técnicas de bagging, random forest o boosting, por ejemplo).

Según la tipología de los datos: ahora las bases de datos no son solo numéricas, sino que también es posible trabajar con textos, voz o imagen. La explotación de estos textos o imágenes permite llevar a cabo los siguientes tipos de análisis:

- Semántico, partiendo de bases de lenguaje natural.

- De sentimiento, capaz de distinguir estados de ánimo en función de los términos utilizados.

- Multimedia, que permite identificar patrones a partir de imágenes, como el seguimiento de personas y objetos dentro de un video.

Aprendizaje automático:

También conocido como Machine Learning, se trata de una rama de la inteligencia artificial que emplea un conjunto de algoritmos para otorgar autonomía a los ordenadores y sistemas informáticos para que aprendan de sus errores u optimicen sus aciertos sin intervención humana.

Estos sistemas identifican patrones complejos a partir de incalculables volúmenes de datos, procesándolos para predecir el comportamiento.

Basan su comportamiento en una experiencia o conocimiento previo que los orienta en sus decisiones.

Un ejemplo de su uso en big data sería Amazon, que utiliza machine learning para indagar entre sus millones de productos para ofrecer al usuario aquellos que más se ajustan a su perfil.

Redes neuronales:

Este tipo de técnicas consiste en modelos computacionales, inspirados por la estructura y el funcionamiento de redes neuronales biológicas. De la misma forma que las células y conexiones trabajan y se establecerían dentro del cerebro, estas redes permiten encontrar patrones en los datos.

Su especialidad son los patrones no lineales, y están recomendadas tanto para las aplicaciones que implican aprendizaje supervisado como no supervisado.

Un ejemplo sería la identificación de clientes en riesgo de abandono.

Aprendizaje de reglas de asociación:

Este conjunto de técnicas se emplean para descubrir relaciones entre variables en grandes bases de datos. La generación y prueba de posibles reglas es el resultado de la aplicación de algoritmos.

En la práctica, uno de sus usos más comunes es el análisis de la cesta de la compra, que permite a los minoristas determinar qué productos se compran con mayor y menos frecuencia para optimizar su planificación y decisiones de abastecimiento.

Algoritmos genéticos:

Este tipo de técnicas está también inspirada en la naturaleza, y es que tiene un vertiente Darwiniana, puesto que se basa en la evolución natural, la supervivencia del más fuerte.

Al aplicar esta técnica, las soluciones potenciales se codifican para ser combinadas entre sí e incluso someterse a mutaciones, igual que podría hacerse en un laboratorio con cromosomas. Así, tras ser estudiados, los cromosomas individuales se seleccionan para la supervivencia en un entorno modelado que determina la aptitud o el rendimiento de cada uno en comparación con el resto de la población.

Los algoritmos genéticos se suelen emplear para fines tan dispares como optimizar el rendimiento de una cartera de inversiones o para mejorar la programación de trabaos en procesos de fabricación.

Análisis de series temporales:

En este caso, se analizan secuencias de puntos de datos, que representan valores en sucesivos tiempos, para extraer las características más significativas de la información.

Podría decirse que se trata de un modelo para predecir valores futuros de una serie temporal en base a los valores pasados conocidos de la misma u otras series.

Una de sus aplicaciones en la empresa es el pronóstico de cifras de ventas.

Bibliografía:

https://searchdatacenter.techtarget.com/es/definicion/Analisis-de-big-data

https://www.horusgestion.com/blog/analisis-de-datos-en-big-data-tipos-y-fases/

https://www.artelnics.com/es/

https://www.cognodata.com/blog/tecnicas-analisis-datos-era-big-data/

http://noticias.universia.es/ciencia-tecnologia/noticia/2017/09/12/1155659/machine-learning-como-usa-big-data.html

https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/10-tecnicas-de-analisis-de-datos-para-estadisticas-de-big-data