¿Cómo instalar Apache Hive?

Apache Hive LogoCon la irrupción del Big Data y las Business Analytics, han surgido nuevas tecnologías que nos permiten realizar esas tareas de manera sencilla y eficaz. Una de esas tecnologías es Apache Hive, un programa para almacenar datos construida para su utilización en Hadoop, facilitando la consulta y la gestión (resumen, análisis, etc.) de grandes volúmenes de datos almacenados de forma distribuida. A continuación veremos cómo instalar Apache Hive.

Apache Hive permite el análisis de grandes conjuntos de datos almacenados en los sitemas de ficheros HDFS de Hadoop y en otros sitemas de ficheros compatibles como el de Amazon S3, utilizados para el BigData. Además, Hive ofrece un mecanismo para estructurar los datos y consultarlos utilizando un lenguaje similar a SQL llamado HiveQL. Este lenguaje permite realizar operaciones MapReduce de forma transparente, facilitando el trabajo de map/reduce a los programadores. Para agilizar las consultas, permite la creación de índices, tales como índices de mapa de bits.
Seguir leyendo

¿Cómo instalar Apache Hadoop?

Apache Hadoop LogoA continuación vamos a ver qué es Apache Hadoop y los pasos necesarios para instalar Apache Hadoop en una máquina con sistema operativo Ubuntu Linux. Apache Hadoop es un framework de software que soporta aplicaciones distribuidas. Permite desarrollar aplicaciones que tengan que trabajar con miles de nodos y petabytes (Mil Terabytes o un millón de Gigabytes) de datos.
Está desarrollado con el lenguaje de programación Java y está inspirado en documentos Google para MapReduce y el sitema de archivos de Google (GFS – Google File System).

Hadoop consiste básicamente en el paquete Hadoop Common, que contiene los archivos y scripts necesarios para hacer que Hadoop funcione.

Utiliza Hadoop Distributed File System (HDFS), un sistema de archivos distribuido, escalable y portátil desarrollado para el framework Hadoop.
Seguir leyendo