摘要:Este artículo presenta una comparativa del rendimiento de las herramientas Hadoop y Giraph para de procesamiento de grandes volúmenes de información o Big Data con el fin mostrar su utilidad para el procesamiento de Big Graph. El análisis y procesamiento de grandes volúmenes de información representa un verdadero desafío en la actualidad. Ya existen metodologías y herramientas libres para el procesamiento de Big Data como las mencionadas: Hadoop para el procesamiento de grandes volúmenes de datos, principalmente no estructurados, y Giraph para el procesamiento de grandes grafos o Big Graph. En esta comparativa, este trabajo presenta un análisis del costo en tiempo de ejecución práctico de la implementación del algoritmo PageRank, el cual permite clasificar páginas Web según su relevancia, y de algoritmos para encontrar un árbol de expansión mínima en un grafo. Los experimentos muestran que el uso de Giraph para el procesamiento de Big Graph reduce el tiempo de ejecución en un 25% respecto a los resultados con el uso de Hadoop.
其他摘要:This article presents a comparison of the performance of the tools Hadoop y Giraph for the analysis and processing of large volumes of information or Big Data, with the aim of showing their usefulness for Big Graph processing. The analysis and processing of large volumes of information represents a real challenge nowadays. There already exist Big Data methodologies and free processing tools such as those mentioned above: Hadoop for processing large volumes of data, mainly non-related data, and recently Giraph for processing large graphs or Big Graph. In this comparison, this paper presents an analysis of the execution time cost for the practical implementation of the PageRank algorithm, which classifies Web pages according to their relevance, and of algorithms to find the minimum spanning tree in a graph. Experiments show that the use of Giraph for processing Big Graphs reduces the execution time by 25% with respect to the results obtained using Hadoop.