# Start Spark session
import pyspark
from pyspark.sql import SparkSession

conf = pyspark.SparkConf().setAll([('spark.master', 'local[2]'),
                                   ('spark.app.name', 'PySpark Cluster Analysis')])
spark = SparkSession.builder.config(conf=conf).getOrCreate()

print (spark.version)
print (pyspark.version)

# Import modules
import matplotlib.pyplot as plt
import pandas as pd

# Show plots in notebook
%matplotlib inline

from pyspark.sql.types import StructType, StructField 
from pyspark.sql.types import StringType, IntegerType, DoubleType, TimestampType

# Specify schema
schema = StructType ([ \
    StructField ("rowID",IntegerType(),True), \
    StructField ("hpwren_timestamp",TimestampType(),True), \
    StructField ("air_pressure",DoubleType(),True), \
    StructField ("air_temp",DoubleType(),True), \
    StructField ("avg_wind_direction",DoubleType(),True), \
    StructField ("avg_wind_speed",DoubleType(),True), \
    StructField ("max_wind_direction",DoubleType(),True), \
    StructField ("max_wind_speed",DoubleType(),True), \
    StructField ("min_wind_direction",DoubleType(),True), \
    StructField ("min_wind_speed",DoubleType(),True), \
    StructField ("rain_accumulation",DoubleType(),True), \
    StructField ("rain_duration",DoubleType(),True), \
    StructField ("relative_humidity",DoubleType(),True)
])

# Read in data and put in Spark DataFrame

from os.path import expanduser
HOME = expanduser("~")

# Set input file
data_path = HOME + '/data/'
# ==> YOUR CODE HERE

df = spark.read.csv (inputfile, header=True, schema=schema).cache()

==> YOUR CODE HERE

==> YOUR CODE HERE

# Use describe().  Can convert to pandas for nicer output.
==> YOUR CODE HERE

# Drop NAs, then get count of rows.  Save the results in a new dataframe.
==> YOUR CODE HERE

from pyspark.ml.feature import VectorAssembler

featuresUsed = ['air_pressure', 'air_temp', 'avg_wind_direction', 'avg_wind_speed', 'max_wind_direction', 
        'max_wind_speed','relative_humidity']
assembler = VectorAssembler(inputCols=featuresUsed, outputCol="features_unscaled")
assembled = assembler.transform(workingDF)

# Show first row of assembled data
==> YOUR CODE HERE

from pyspark.ml.feature import StandardScaler

scaler = StandardScaler(inputCol="features_unscaled", outputCol="features", withStd=True, withMean=True)
scalerModel = scaler.fit(assembled)
scaledData = scalerModel.transform(assembled)

# Show first row of scaled data
==> YOUR CODE HERE

%%time
import utils

# Only need to run this once to find value(s) to try for k
# Set to False if already know value for k
create_elbow_plot = True 

# Get elbow plot using subset of data
if create_elbow_plot == True:
    sampledData = scaledData.filter((scaledData.rowID % 20) == 0).select("features").cache() 
    k_attempts = range(5,15)
    print('Trying k from {} to {} with {} samples\n'.format(list(k_attempts)[0],
                                                          list(k_attempts)[-1], 
                                                          sampledData.count()))
    wsseList = utils.elbow(sampledData, k_attempts)
    utils.elbow_plot(wsseList, k_attempts)

scaledData.printSchema()

from pyspark.ml.clustering import KMeans

scaledDataFeat = scaledData.select("features").cache()

# Set number of clusters
nClusters = 11

kmeans = KMeans(k=nClusters, seed=1)

# Fit model to scaledDataFeat.  Save fitted model as 'model'
# ==> YOUR CODE HERE

# Get model's cluster centers
==> YOUR CODE HERE

# Show cluster centers
pd.DataFrame(centers,columns=featuresUsed)

# Show cluster sizes 

model.summary.clusterSizes

centersNamed = utils.pd_centers(featuresUsed,centers)
print(centersNamed.columns.values)

numClusters = len(centersNamed.index)
colors_used = utils.parallel_plot(centersNamed, numClusters)

utils.parallel_plot(centersNamed[centersNamed['relative_humidity'] < -0.5], 
                   numClusters, colors=colors_used);

==> YOUR CODE HERE

==> YOUR CODE HERE

==> YOUR CODE HERE

# Specify file name
==> YOUR CODE HERE

model.write().overwrite().save(model_file)

==> YOUR CODE HERE

PySpark Cluster Analysis on Weather Data¶

CIML Summer Institute¶

UC San Diego¶

Setup¶

Read in data¶

Explore data¶

Print schema¶

Count rows¶

Show summary statistics¶

Prepare data¶

Drop nulls¶

Create feature vector¶

Scale data¶

Perform cluster analysis¶

Generate elbow plot to determine value(s) for k¶

Perform Clustering Using K-Means¶

Generate cluster profile plots¶

Profiles for All Clusters¶

Clusters Capturing Dry Days¶

Clusters Capturing Humid Days¶

Clusters Capturing Hot Days¶

Clusters Capturing Windy Days¶

Save Model¶

Stop Spark session¶