Python?查看數據類型與格式
Python查看數據類型與格式
一般我們拿到一個數據,會先看一下這個數據有多少行多少列,各個字段是什么,數據格式類型是什么。在開始講數據格式前,需要先梳理一下各個數據類型。
我們常使用的庫一般是numpy和pandas,Numpy下的核心是數組(array,ndarray),Pandas下的核心是數據框(Series,DataFrame)
先隨機創(chuàng)一點數據用來測試
import pandas as pd import numpy as np df=pd.DataFrame(np.random.randint(5,10,size=(10,2)),columns=['a','b']) Array=np.random.randint(5,10,size=(10,2)) #假設我們不知道df和Array是什么數據類型
查看現有的數據是數據框類型還是數組矩陣類型
語法:type(XXX),適用于tuple/list/array/ndarray/Series/Dataframe
print(type(df)) #輸出 class 'pandas.core.frame.DataFrame'這是DataFrame類型的數據 print(type(Array)) #輸出class 'numpy.ndarray'這是多維數組 print(type(tuple(Array))) #輸出'tuple'這是元組 print(type(list(df['a']))) #輸出'class list'這是一個list類型
查看數據格式是字符串還是數字格式
這里需要區(qū)分一下Numpy和Pandas的查看方式略有不同,一個是dtype,一個是dtypes
print(Array.dtype) #輸出int64 print(df.dtypes) #輸出Df下所有列的數據格式 a:int64,b:int64
Python數據類型bytes
1 bytes類型的特性
Python 3.x之后,Python自帶字符默認使用utf-8格式編碼和顯示
- Python默認字符串string數據類型是utf-8顯示形式的序列
- bytes數據類型是utf-8格式的二進制形式的不可變序列
- bytearray數據類型是utf-8格式的二進制形式的可變序列
1.1 ASCII表
2 bytes類型創(chuàng)建與轉化
2.1 bytes類型與數字
數字類型并不是字符串,無法直接生成對應的bytes類
Python對數字類型定義了特殊意義
① 當入參為數字時,表示創(chuàng)建nul(\x00)的向量
byte_str = bytes(10) print(byte_str) >>> b'\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00'
② 當入參為數字的序列時,直接轉為bytes的序列,且對應值相同,將數字序列直接寫入底層應該使用這種方法
byte_str = bytes([1, 10, 0xF]) print(byte_str) >>> b'\x00\x10\x0f'
③ 當二進制數據在[33, 126]區(qū)間時,屬于ASCII表上可顯示字符范圍,會直接顯示對應的字符
數字直接使用bytes創(chuàng)建
byte_str = bytes([33, 48, 126]) print(byte_str) >>> b'!0~'
2.2 bytes類型與ASCII字符
2.2.1 創(chuàng)建bytes數據
① 使用b''創(chuàng)建
byte_str = b'Python' print(byte_str) >>> b'Python'
② 使用bytes()創(chuàng)建不可變序列
byte_str = bytes('Python', encoding='utf-8') print(byte_str) >>> b'Python'
③ 使用bytearray()創(chuàng)建可變序列
byte_str = bytearray('Python', encoding='utf-8') print(byte_str) >>> bytearray(b'Python')
2.2.2 還原bytes數據
① 使用bytes.decode()還原不可變序列
byte_str = bytes('Python', encoding='utf-8') utf_str = bytes.decode(byte_str) print(utf_str) >>> 'Python'
② 使用bytearray.decode()還原可變序列
byte_str = bytearray('Python', encoding='utf-8') utf_str = bytearray.decode(byte_str) print(utf_str) >>> 'Python'
2.3 bytes類型與漢字
在UTF-8中,每個漢字用3個Byte表示
byte_str = bytes('我是', encoding='utf-8') print(byte_str) >>> b'\xe6\x88\x91\xe6\x98\xaf'
還原:
byte_str = b'\xe6\x88\x91\xe6\x98\xaf' utf_str = bytes.decode(byte_str) print(utf_str) >>> '我是'
3 bytes類型切片迭代
① 通過bytes[index]方式返回的是底層int類型
byte_str = b'a' print(type(byte_str[0])) print(byte_str[0]) >>> <class 'int'> >>> 97
byte_str = b'abc' print(type(byte_str[2])) print(byte_str[2]) >>> <class 'int'> >>> 99
② 通過for ... in bytes方式返回的是底層int類型
byte_str = b'abc' for byte in byte_str: ? ? print(type(byte)) ? ? print(byte) ? ?? >>> <class 'int'> >>> 97 >>> <class 'int'> >>> 98 >>> <class 'int'> >>> 99
③ 通過bytes[start:end]方式返回的是底層bytes類型
byte_str = b'a' print(type(byte_str[:])) print(byte_str[:]) >>> <class 'bytes'> >>> b'a'
以上為個人經驗,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關文章
Python密碼學Caesar?Cipher凱撒密碼算法教程
這篇文章主要為大家介紹了Python密碼學Caesar?Cipher凱撒密碼算法教程,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-05-05Python深度學習之使用Albumentations對圖像做增強
諸如RandomCrop和CenterCrop之類的某些增強功能可能會變換圖像,使其不包含所有原始邊界框. 本示例說明如何使用名為RandomSizedBBoxSafeCrop的變換來裁剪圖像的一部分,但保留原始圖像的所有邊界框,需要的朋友可以參考下2021-05-05Centos7下源碼安裝Python3 及shell 腳本自動安裝Python3的教程
這篇文章主要介紹了Centos7下源碼安裝Python3 shell 腳本自動安裝Python3的相關知識,本文給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下2020-03-03