Debido al crecimiento exponencial de datos en todos los ámbitos y a una gran velocidad, las tecnologías de procesamiento, almacenamiento y visualización de datos convencionales dejan de ser válidas por motivos de: capacidad, tiempo de procesado y volumen de datos.
Por ello, las tecnologías relativamente nuevas de Big Data proporcionan nuevas herramientas de procesamiento y almacenamiento de datos diseñadas para solventar los inconvenientes mencionados anteriormente.
Tecnologías de procesamiento:
Procesan los datos de forma diferente. Un ejemplo de técnica empleada es el MapReduce.
El MapReduce es un framework que proporciona un procesamiento de datos paralelo y distribuido. Está orientado a resolver problemas de conjuntos de datos de gran tamaño y utiliza el sistema de archivos distribuido HDFS.
Sus funciones principales son: Map (se encarga del mapeo y se aplica a cada elemento de la entrada de datos) y Reduce (pasa una lista de todos los valores asociados a una clave).
Tiene una arquitectura de maestro/esclavo. Cuenta con un servidor (JobTracker) y varios servidores esclavos (TaskTrackers), uno por cada nodo cluster. Un nodo cluster es un conjunto de varios servidores que se construyen e instalan para trabajar como si fuesen uno solo.
Algunas de las tecnologías de procesamiento de datos más utilizadas son: Hadoop MapReduce, Apache Spark o Apache Lynx.
Tecnologías de almacenamiento:
Para la masiva cantidad de datos no son válidas las bases de datos tradicionales. Por ello se implementaron las bases de datos NoSQL. Debido a la gran variedad de escenarios encontramos varios tipos de estas bases de datos:
Bases de datos columnares: gestionan los datos en columnas en lugar de filas. Proporciona beneficios como comprimir altamente los datos o que es autoindexable (utiliza menos espacio en disco que una base de datos normal).
Bases de datos key-valued: son muy sencillas ya que simplemente se encargan de almacenar claves y valores. Se asemejan mucho a diccionarios o hashtables, pero con la diferencia de que están diseñadas para almacenar gran cantidad de información.
Bases de datos documentales: diseñadas para almacenar datos semi-estructurados como documentos. Ofrecen más flexibilidad en el almacenamiento y organización de los datos en formato JSON en lugar de las simples filas y columnas.
JSON (JavaScript Object Notation) es un formato de representación de datos formulado por JavaScript. Por su naturaleza textual también es utilizado por otros lenguajes de programación.
Algunas de las tecnologías de bases de datos Big Data son: Apache Cassandra Hbase, Amazon DynamoDB o Google BigTable.
Ejemplos de herramientas:
Una ventaja en este ámbito es que un gran número de las mejores herramientas utilizadas para Big Data son Open Source. Algunos ejemplos de herramientas que ofrecen soluciones en el almacenamiento, procesamiento y análisis de los datos son:
Hadoop: considerado como framework estándar para trabajar con grandes volúmenes de datos. Es utilizado por empresas como Facebook y Yahoo!.
MongoDB: una de las bases de datos NoSQL más famosa orientada a documentos.
ElasticSearch: potente herramienta para la búsqueda de grandes cantidades de datos.
-- --
Evolución de las tecnologías Big Data:
A pesar de la gran evolución que están sufriendo las tecnologías basadas en el Big Data, todavía hay ciertos aspectos que mejorar, como pueden ser:
Machine Learning: Es una disciplina del ámbito de la ingeniería artificial que crea sistemas que aprenden automáticamente. La máquina aprende un algoritmo que revisa los datos y es capaz de predecir comportamientos futuros. Esto nos ayudará a la hora de analizar grandes cantidades de datos.
La privacidad: Debido al crecimiento de los datos, el riesgo de sufrir un ciberataque es muy alto.
Blockchain: La combinación de Blockchain y Big Data podría hacer que la verificación de datos transferibles sea perfecta.
Bibliografía:
https://www.brainsins.com/es/blog/principales-tecnologias-big-data-hadoop/107625
https://www.teldat.com/blog/es/procesado-de-big-data-base-de-datos-de-big-data-clusters-nosql-mapreduce/
http://www.iic.uam.es/innovacion/herramientas-big-data-para-empresa/
https://www.campusbigdata.com/big-data-blog/item/130-predicciones-de-la-tecnologia-big-data-para-el-2019
https://blogs.solidq.com/es/big-data/que-es-mapreduce/
https://www.informaticaparatunegocio.com/blog/fundamentos-una-base-datos-columnar/
http://www.cantabriatic.com/redis-una-base-de-datos-nosql-key-value/
https://smarterworkspaces.kyocera.es/blog/las-bases-datos-documentales/
https://cleverdata.io/que-es-machine-learning-big-data/
https://www.gb-advisors.com/es/blockchain-y-big-data/