Big Data Arquitectura de Datos

Big Data Arquitectura de Datos

Data Ingestion:

La incorporación de datos son procesos que permiten la importación de datos para ser almacenados y posteriormente ser usados, en otras palabras, es extraer o absorber información de otras fuentes. Este proceso normalmente es conocido como Extract, Transform, Load (ETL).  Este proceso permite extraer, transformar y cargar la información basado en restricciones de como formatear la información para ser guardado en esquemas.

ETL a menudo permite validad información a través de restricciones, además permite realizar Data Quality según el esquema modelado. Como lo indica este proceso se debe de diseñar métodos y querys que permiten extraer, transferir y cargar información a base de datos relaciones, es decir que estén estructurados a través de un modelo relacional.

Extract (Fuente de datos) ->  Transform (Línea procesamiento) ->  Load (Modelo Relacional)

Sin embargo, en los últimos años la generación de información crece de manera exponencial la mayoría de las fuentes de datos están almacenados en datos semiestructurados y no estructurados sumados a los estructurados a través de un modelo relacional.

Sin duda alguna en los datos estructurados existe grandes volúmenes de información aplicar ETL es eficiente, pero los semi y no estructurados están configurados en características diferentes.

Hoy en día existe la definición 3Vs de Big Data, normalmente los Data Scientists describen big data en tres dimensiones Volumen, Velocidad, Variedad. También algunos agregan 4Vs de Big Data como por ejemplo IBM agrega el concepto Veracidad, e inclusive Valor formando 5Vs de Big Data.

Si definimos a Big Data Volumen de información exponencial, mayor Velocidad de análisis de información en tiempo real y sobre todo Variedad de formatos de datos. Sin duda alguna utilizar el proceso de ETL no seria muy optimo porque las diferentes fuentes de Extract son divergentes por sus formatos, la Transform de información tardaría porque la línea de procesamiento requerirá más tiempo, finalmente Load información.

A partir de este punto deberías de pensar en Schema On Write como en las bases de datos relaciones y pensar en Schema On Read.

De esta manera el esquema de lectura se podrá acceder a la fuente de información para ser consultado de manera más rápida, la carga de información y la extracción se aplicarán en el procesamiento analítico en ellas se validarán las reglas, normalización, validaciones, data quality, etc. Este proceso se le conoce como Extract, Load, Transform ELT.

Extract (Fuente de datos) ->  Transform (Data Lake) ->  Load (Línea de procesamiento)

Data Lake:

Un Data Lake es un método de almacén de datos que almacenan fuentes de información a través de repositorios o sistema de información en su formato original. Esto permite la diversificación de varios esquemas y formatos, que pueden ser estructurados a través de un modelo relacional, semiestructurados e inclusive no estructurados.

Es posible implementar Hadoop Distributed File System (HDFS), AWS Glue and Amazon S3 o MapR-FS.

Data Science:

La Data Science es un campo interdisciplinario que permite extraer conocimiento a través de los datos que pueden ser estructurados, semi o no estructurados. Utilizando métodos estadísticos, procesos, algoritmos, técnicas, análisis de datos, modelos de fenómenos reales a través de Machine Learning.

Data Access:

La mayor parte de la información son accedidos por profesionales por ingenieros o científicos de datos a través de herramientas disponibles de Apache Spark a través de Hive, Pig, etc.

También pueden que otros sistemas necesitan conectarse a estos datos Apache Spark proporciona adaptadores o conexiones que permiten utilizar herramientas de Business Intelligence.

Para que usuarios finales utilicen herramientas BI y podrán acceder a los informes y resultados de los análisis.

Esta entrada ha sido publicada en Big Data y etiquetada como , , , , , , . Guarda el enlace permanente.

1 respuesta a Big Data Arquitectura de Datos

  1. Emanuel Quim dijo:

    Hola, interesante blog, me interesa contactarme con su persona sobre el código de arboles binarios en C++, dejo mi correo electrónico emaq86@gmail.com

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.