Bitácora de Capitán: Entendiendo Hadoop

Con la explosión de internet se empezaron a generar grandes cantidades de datos, sobre todo datos no estructurados. El problema es que analizar los datos se vuelve costoso, en primer lugar por la cantidad y luego por su falta de estructura.

Hadoop es un framework desarrollado en JAVA para sistemas de archivos distribuidos que permite el procesamiento de grandes volúmenes de datos, ya sean estructurados o no, de manera escalable mediante clusters. Además permite una alta disponibilidad. Puede migrar de unos cuantos nodos hasta miles de ellos de forma rápida y confiable.

Trabaja con una arquitectura maestro/esclavo donde existe un nodo maestro encargado de realizar el procesamiento y almacenar la información en múltiples nodos esclavos. También existe un nodo esclavo pasivo, que toma las funciones del nodo maestro cuando este falla.

Así mismo, los nodos están agrupados en Racks (Capaces de mantener hasta 40 nodos maestros) y estros se comunican con otros Racks para intercambiar información y procesos cliente, el cual es cualquier petición de un nodo maestro (almacenamiento o recuperación de data).

La idea subyacente está en los procesos cliente. Estos se dan en cada nodo maestro por demanda, lo que quiere decir que solo usa los recursos del nodo, o en su defecto, los del rack. Esto reduce el tráfico en la red troncal permitiendo máyor concurrencia.

Hadoop se aprovecha del uso de XML para intercambio de información, por lo que es muy sencillo agregar nuevos racks y nodos a un ecosistema.

Adicionalmente, permite trabajar con distinto hardware, incluyendo servidores económicos. Lo que viene bien pues abarata costos y distribuye aún más el procesamiento.

Fuentes:

http://www.cloudera.com/content/cloudera/en/about/hadoop-and-big-data.html

http://es.wikipedia.org/wiki/Hadoop

http://momentotic.com/2013/05/16/que-es-hadoop/

Bitácora de Capitán

sábado, 11 de abril de 2015

Entendiendo Hadoop

No hay comentarios.:

Publicar un comentario