如何使用pycharm連接Databricks的步驟詳解
在本地使用pycharm連接databricks,大致步驟如下:
首先,為了讓本地環(huán)境能夠識(shí)別遠(yuǎn)端的databricks集群環(huán)境,需要收集databricks的基本信息和自己databricks的token,這些信息能夠讓本地環(huán)境識(shí)別databricks;接著,需要使用到工具 anaconda創(chuàng)建一個(gè)虛擬環(huán)境,連接databricks;最后,將虛擬環(huán)境導(dǎo)入pycharm。
(下面的圖渣渣,因?yàn)橹苯油线M(jìn)來(lái)的)
第0步:檢查
檢查java版本,需要時(shí)1.8開(kāi)頭的版本,如果不是,請(qǐng)到這里下載:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html
第1步:收集databricks的信息
查看python版本 (還不知道怎么看,這里cluster的python版本為3.7)
查看Runtime Version
查看cluster ulr,解析出下面信息
生成token,點(diǎn)擊這個(gè)小人-user setting
最后,這是我們收集到的所有信息
第2步:安裝anaconda
如果已經(jīng)安裝anaconda,請(qǐng)略過(guò)這一步
沒(méi)有安裝,可以看這個(gè)教程
http://chabaoo.cn/article/196286.htm
第3步:使用anaconda創(chuàng)建虛擬環(huán)境
下面的參數(shù)信息,使用第一步收集的信息
打開(kāi)anaconda的命令行
創(chuàng)建一個(gè)3.7版本的虛擬隔離環(huán)境
conda create -n dbconnect python=3.7
使用環(huán)境
conda activate dbconnect
卸載pyspark,如果是新創(chuàng)建的環(huán)境,可以不用執(zhí)行這步(這是為了確保,創(chuàng)建的環(huán)境不能有pyspark的包,因?yàn)闀?huì)產(chǎn)生包的問(wèn)題)
pip uninstall pyspark
下面開(kāi)始安裝包,但是為了讓安裝速度快一些,使用清華鏡像
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/ conda config --set show_channel_urls yes
查看是否切換到鏡像
conda config --show channels
可以看到已經(jīng)切換
安裝connect包,第一步中確定的run的版本為6.4,故選擇6.4.* (用公司的網(wǎng)絡(luò),下載很慢,我用自己的熱點(diǎn))
pip install -U databricks-connect==6.4.*
連接遠(yuǎn)端databricks,并輸入第一步收集的相關(guān)信息
databricks-connect configure
測(cè)試是否已經(jīng)連接上:
databricks-connect test
已經(jīng)在啟動(dòng)節(jié)點(diǎn)了
查看databricks,可以看到
第4步:pycharm導(dǎo)入虛擬環(huán)境
打開(kāi)pycahrm,點(diǎn)擊setting
選擇解釋器,點(diǎn)擊小齒輪的add'
選擇剛才我們創(chuàng)建好的dbconnect
點(diǎn)擊ok,可以看到已經(jīng)選好了環(huán)境
不知道為啥連接不到遠(yuǎn)端的包,我的項(xiàng)目還需要在本地安裝一些用的包
conda install scikit-learn==0.22.1 conda install pandas==0.24.2 conda install pyarrow==0.15.1
在pycharm測(cè)試運(yùn)行一下:
import pandas as pd import numpy as np # Generate a pandas DataFrame pdf = pd.DataFrame(np.random.rand(100, 3)) from pyspark.sql import * spark = SparkSession.builder.getOrCreate() df = spark.createDataFrame(pdf) print(df.head(5))
去databrick的cluster log看一下,已經(jīng)啟動(dòng)了節(jié)點(diǎn),正在運(yùn)行
到此這篇關(guān)于如何使用pycharm連接Databricks的步驟詳解的文章就介紹到這了,更多相關(guān)pycharm連接Databricks內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python tkinter分隔控件(Seperator)的使用
這篇文章主要介紹了Python tkinter分隔控件(Seperator)的使用,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-04-04在Python web中實(shí)現(xiàn)驗(yàn)證碼圖片代碼分享
這篇文章主要介紹了在Python web中實(shí)現(xiàn)驗(yàn)證碼圖片代碼分享,具有一定參考價(jià)值,需要的朋友可以了解下。2017-11-11Python BautifulSoup 節(jié)點(diǎn)信息
這篇文章主要介紹了Python BautifulSoup 節(jié)點(diǎn)信息,文章圍繞主題展開(kāi)詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,需要的小伙伴可以參考一下2022-08-08Python中Scipy庫(kù)在信號(hào)處理中的應(yīng)用詳解
信號(hào)處理作為數(shù)字信號(hào)處理領(lǐng)域的關(guān)鍵技術(shù),涵蓋了從信號(hào)獲取、傳輸、存儲(chǔ)到最終應(yīng)用的一系列處理步驟,在這篇博客中,我們將深入探討Python中Scipy庫(kù)在信號(hào)處理領(lǐng)域的應(yīng)用,需要的朋友可以參考下2023-12-12