Spark_Spark资讯 - 与非网

基于DPU云盘挂载的Spark优化解决方案

1. 方案背景和挑战 Apache Spark，作为当今大数据处理领域的佼佼者，凭借其高效的分布式计算能力、内存计算优化以及强大的生态系统支持，已牢固确立其在业界的标杆地位。Spark on Kubernetes（简称K8s）作为Spark与Kubernetes这一领先容器编排平台深度融合的产物，不仅继承了Spark的强大数据处理能力，还充分利用了Kubernetes在资源管理、服务发现和弹性伸

中科驭数

2174

08/14 15:34

云计算 DPU

如何利用DPU加速Spark大数据处理？ | 总结篇

近年来，随着存储硬件的革新与网络技术的突飞猛进，如NVMe SSD和超高速网络接口的普及应用，I/O性能瓶颈已得到显著改善。然而，在2020年及以后的技术背景下，尽管SSD速度通过NVMe接口得到了大幅提升，并且网络传输速率也进入了新的高度，但CPU主频发展并未保持同等步调，3GHz左右的核心频率已成为常态。

中科驭数

2369

04/02 15:57

DPU 数据处理

一文理解Spark的基本概念和工作原理

在Hadoop 1.x版本中，采用的是MRv1版本的MapReduce编程模型，包括3个部分：运行时环境（JobTracker和TaskTracker）、编程模型（MapReduce）、数据处理引擎（MapTask和ReduceTask）。但是MRv1存在以下不足：

IT有得聊

5322

02/28 08:52

大数据分析 Spark

基于DPU和HADOS-RACE加速Spark 3.x

Apache Spark（下文简称Spark）是一种开源集群计算引擎，支持批/流计算、SQL分析、机器学习、图计算等计算范式，以其强大的容错能力、可扩展性、函数式API、多语言支持（SQL、Python、Java、Scala、R）等特性在大数据计算领域被广泛使用。其中，Spark SQL 是 Spark 生态系统中的一个重要组件，它允许用户以结构化数据的方式进行数据处理，提供了强大的查询和分析功能。

中科驭数

2965

02/26 08:51

DPU RDMA

spark与hadoop

Spark和Hadoop都是大数据处理领域中非常重要的技术。Spark是一个快速、通用、可扩展的数据处理引擎，能够在内存中进行计算，适合于需要迭代计算的场景，如机器学习等。Hadoop是一个分布式计算平台，适用于海量数据的离线处理和存储。两者各有优劣，可以根据具体场景进行选择。

sick

398

2021/03/11

Spark