Python実践データ分析100本ノック | 下山 輝昌, 松田 雄馬, 三木 孝行 |本 | 通販 | Amazonを実践していて、環境構築なしにJupyterNotebookと同じ環境が使えるのでGoogle Colaboratoryを使う機会が増えています。 100本ノックでSparkを使うことはないと思っていますが、いずれSparkも使ってみたいと思うのでGoogle ColaboratoryでSparkを使えるように設定してみました。
インストール
今回はSpark3.0とJDK11で実施してみます。
Google Colaboratoryでは「!」をコマンドの先頭につけるとLinuxコマンドを使うことができます。apt-getを使って「JDK 11」をインストールします。次にSpark3.0をダウンロードして、解凍します。最後に、システムの中でSparkを見つけるために「findspark」もインストールします。
!apt-get upgrade !apt-get update !apt-get install openjdk-11-jdk -qq > /dev/null !wget -q http://ftp.meisei-u.ac.jp/mirror/apache/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz !tar xvf spark-* !pip install -q findspark
環境変数の設定
Google Colaboratory上でPysparkを使うために環境変数に設定します。 JDKとSparkの場所を教えてあげます。
import os os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-11-openjdk-amd64" os.environ["SPARK_HOME"] = "/content/spark-3.0.0-bin-hadoop2.7"
実行する
import をおこない実行してみます。 出力内容も確認します。
import findspark findspark.init() import pyspark from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() spark
SparkSession - in-memory SparkContext Spark UI Version v3.0.0 Master local[*] AppName pyspark-shell