快捷導(dǎo)航

如何使用pycharm連接Databricks的步驟詳解

更新時(shí)間：2020年09月23日 11:50:40 作者：NancyNancy_

這篇文章主要介紹了如何使用pycharm連接Databricks,本文分步驟給大家介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值，需要的朋友可以參考下

在本地使用pycharm連接databricks，大致步驟如下：

首先，為了讓本地環(huán)境能夠識(shí)別遠(yuǎn)端的databricks集群環(huán)境，需要收集databricks的基本信息和自己databricks的token，這些信息能夠讓本地環(huán)境識(shí)別databricks；接著，需要使用到工具 anaconda創(chuàng)建一個(gè)虛擬環(huán)境，連接databricks；最后，將虛擬環(huán)境導(dǎo)入pycharm。

（下面的圖渣渣，因?yàn)橹苯油线M(jìn)來的）

第0步：檢查

檢查java版本，需要時(shí)1.8開頭的版本，如果不是，請(qǐng)到這里下載：https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

在這里插入圖片描述

第1步：收集databricks的信息

查看python版本 (還不知道怎么看，這里cluster的python版本為3.7)
查看Runtime Version

在這里插入圖片描述

查看cluster ulr，解析出下面信息

在這里插入圖片描述

生成token,點(diǎn)擊這個(gè)小人-user setting

在這里插入圖片描述

最后，這是我們收集到的所有信息

在這里插入圖片描述

第2步：安裝anaconda

如果已經(jīng)安裝anaconda，請(qǐng)略過這一步
沒有安裝，可以看這個(gè)教程
http://chabaoo.cn/article/196286.htm

第3步：使用anaconda創(chuàng)建虛擬環(huán)境

下面的參數(shù)信息，使用第一步收集的信息
打開anaconda的命令行

在這里插入圖片描述

創(chuàng)建一個(gè)3.7版本的虛擬隔離環(huán)境

conda create -n dbconnect python=3.7

在這里插入圖片描述

使用環(huán)境

conda activate dbconnect

在這里插入圖片描述

卸載pyspark，如果是新創(chuàng)建的環(huán)境，可以不用執(zhí)行這步（這是為了確保，創(chuàng)建的環(huán)境不能有pyspark的包，因?yàn)闀?huì)產(chǎn)生包的問題）

pip uninstall pyspark

在這里插入圖片描述

下面開始安裝包，但是為了讓安裝速度快一些，使用清華鏡像

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/
conda config --set show_channel_urls yes

在這里插入圖片描述

查看是否切換到鏡像

conda config --show channels

可以看到已經(jīng)切換

在這里插入圖片描述

安裝connect包，第一步中確定的run的版本為6.4，故選擇6.4.* （用公司的網(wǎng)絡(luò)，下載很慢，我用自己的熱點(diǎn)）

pip install -U databricks-connect==6.4.*

在這里插入圖片描述

連接遠(yuǎn)端databricks，并輸入第一步收集的相關(guān)信息

databricks-connect configure

在這里插入圖片描述

測(cè)試是否已經(jīng)連接上：

databricks-connect test

已經(jīng)在啟動(dòng)節(jié)點(diǎn)了

在這里插入圖片描述

查看databricks,可以看到

在這里插入圖片描述

第4步：pycharm導(dǎo)入虛擬環(huán)境

打開pycahrm，點(diǎn)擊setting

在這里插入圖片描述

選擇解釋器，點(diǎn)擊小齒輪的add'

在這里插入圖片描述

選擇剛才我們創(chuàng)建好的dbconnect

在這里插入圖片描述

點(diǎn)擊ok，可以看到已經(jīng)選好了環(huán)境

在這里插入圖片描述

不知道為啥連接不到遠(yuǎn)端的包，我的項(xiàng)目還需要在本地安裝一些用的包

conda install scikit-learn==0.22.1
conda install pandas==0.24.2
conda install pyarrow==0.15.1

在這里插入圖片描述

在pycharm測(cè)試運(yùn)行一下：

import pandas as pd
import numpy as np

# Generate a pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

from pyspark.sql import *
spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame(pdf)

print(df.head(5))

去databrick的cluster log看一下，已經(jīng)啟動(dòng)了節(jié)點(diǎn)，正在運(yùn)行

在這里插入圖片描述