大規模データの分析を強力にサポート: Apache Sparkの概要

大規模データの分析を強力にサポート: Apache Sparkの概要

2023-01-04 Apache Sparkは大規模なデータを扱うためのオープンソースの統合分析エンジンです。 Apache Spark 3.0からはGPUを扱った並列分散処理、3.2ではSpark上でPandas APIの利用が可能となりました。この記事では大規模データを処理するSparkの概要についてまとめます。