×

calendar_month 14 May 2021

bookmark Artículos

Introducción a Data Lake Microsoft Azure

¿Qué es un Data Lake?

Un data lake es un repositorio de almacenamiento centralizado que contiene informacion de multiples fuentes y con un gran volumen de datos en un formato granular y sin procesar. El principal beneficio de un data lake es la centralización de fuentes de contenido en un solo repositorio para la explotacion de la data en infornacion para la toma de decisiones.

Una vez que el contenido está en el data lake, puede normalizarse y enriquecerse. Esto puede incluir extracción de metadatos, conversión de formatos, aumento, extracción de entidades, reticulación, agregación, des-normalización o indexación.

¿Qué es un Microsoft Azure Data Lake?

Es un repositorio aprovisionado en el ecosistema de Azure para almacenar información de múltiples fuentes en un formato simple y sin procesar para luego tomar esa data como insumo para un transformación y llevarla hacia un lago de datos o un datawarehouse (Logical Data Warehouse) donde será analizada y minada.

¿Qué es Azure Data Factory?

Azure Data Factory es el servicio de integración de datos y ETL basado en la nube que permite crear flujos de trabajo basados en datos para orquestar el movimiento de datos y transformar los datos a escala. Con Azure Data Factory, puede crear y programar flujos de trabajo basados en datos (llamados canalizaciones) que pueden ingerir datos de distintos almacenes de datos. Basicamente permite la ingesta hacia el ecositema de Azure. En algunos casos cuando se va a extraer desde un servidor on premise es necesario primero instalar o configurar el servicio de Integration Runtime que sirve como puente seguro para la estracción.

¿Qué es Azure Blob Storage?

Azure Blob Storage es un almacenamiento de objetos escalable de formas masivas para cualquier tipo de datos e imágenes no estructuradas (imágenes, vídeos, audio, documentos, etc.) de forma más sencilla y rentable.

Hecho por: Anthony Campodónico

Leave a Reply

Your email address will not be published. Required fields are marked *