Con la irrupción del Big Data y las Business Analytics, han surgido nuevas tecnologías que nos permiten realizar esas tareas de manera sencilla y eficaz. Una de esas tecnologías es Apache Hive, un programa para almacenar datos construida para su utilización en Hadoop, facilitando la consulta y la gestión (resumen, análisis, etc.) de grandes volúmenes de datos almacenados de forma distribuida. A continuación veremos cómo instalar Apache Hive.
Apache Hive permite el análisis de grandes conjuntos de datos almacenados en los sitemas de ficheros HDFS de Hadoop y en otros sitemas de ficheros compatibles como el de Amazon S3, utilizados para el BigData. Además, Hive ofrece un mecanismo para estructurar los datos y consultarlos utilizando un lenguaje similar a SQL llamado HiveQL. Este lenguaje permite realizar operaciones MapReduce de forma transparente, facilitando el trabajo de map/reduce a los programadores. Para agilizar las consultas, permite la creación de índices, tales como índices de mapa de bits.
Seguir leyendo