よしたく blog

ほぼ週刊で記事を書いています

Google Colaboratoryで Sparkを使うための準備

Python実践データ分析100本ノック | 下山 輝昌, 松田 雄馬, 三木 孝行 |本 | 通販 | Amazonを実践していて、環境構築なしにJupyterNotebookと同じ環境が使えるのでGoogle Colaboratoryを使う機会が増えています。 100本ノックでSparkを使うことはないと思っていますが、いずれSparkも使ってみたいと思うのでGoogle ColaboratoryでSparkを使えるように設定してみました。

インストール

今回はSpark3.0とJDK11で実施してみます。

Google Colaboratoryでは「!」をコマンドの先頭につけるとLinuxコマンドを使うことができます。apt-getを使って「JDK 11」をインストールします。次にSpark3.0をダウンロードして、解凍します。最後に、システムの中でSparkを見つけるために「findspark」もインストールします。

!apt-get upgrade
!apt-get update
!apt-get install openjdk-11-jdk -qq > /dev/null
!wget -q http://ftp.meisei-u.ac.jp/mirror/apache/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz
!tar xvf spark-*
!pip install -q findspark

環境変数の設定

Google Colaboratory上でPysparkを使うために環境変数に設定します。 JDKとSparkの場所を教えてあげます。

import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-11-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.0-bin-hadoop2.7"

実行する

import をおこない実行してみます。 出力内容も確認します。

import findspark
findspark.init()

import pyspark
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate() 
spark
SparkSession - in-memory
SparkContext
Spark UI
Version
    v3.0.0
Master
    local[*]
AppName
    pyspark-shell