Python3 掃描庫文件并獲取版本號信息的操作方法

1. 目的
在 C/C++ 開發(fā)中使用了第三方庫,具體說是 .a, .lib, .dll 等文件,想通過 Python 查詢出這些文件中的版本號信息。
有人可能好奇,這里簡單消除可能得疑慮:
- 為什么不用源代碼,而用庫?
因為庫文件提供了良好的隔離性,避免了繁雜的編譯選項指定, 避免了潛在的不小心改了代碼導致的不一致
- 為什么不用包管理工具來設定和查詢庫文件的版本?
因為 C/C++ 歷史包袱較多,不像 Java 的 Mavan, 更不像 Rust 的 Cargo + Crates。雖然有 vcpkg, conan 和 xmake 等, 但是公司自研的庫并不能很好的用這些工具管理起來
于是乎, 實際工作中不少人的工程里, 把若干個 .a 文件放在 lib 目錄下,每個庫文件名字中并沒有包含版本號信息; 而項目的運行結果不符合預期、展開排查時, 或者遞交版本時, 需要清晰的列出這些依賴庫文件的版本信息。
使用 Python 的原因:跨平臺, 開發(fā)速度快。
2. 原理
查詢庫文件的版本號,其實是另一個通用問題的特定版本。
通用的問題是:在一個二進制文件中, 查找所有的字符串, 找出符合預設規(guī)則的那些字符串。
查詢版本號,無非是對于公司的版本號有自己的規(guī)定, 可以從所有的字符串結果中進行過濾。由于不同公司、不同項目可能有不同的版本號規(guī)則,我們重點關注兩點:
- 怎樣從二進制文件獲取字符串
- 怎樣從若干字符串中獲取想要的那個
Linux: strings 命令
在 Linux 下可以使用自帶的 strings 命令, 來列出一個二進制文件中的所有字符串。以常用的 ls 命令為例,我們進行查詢:
zz@Legion-R7000P% which strings /usr/bin/strings zz@Legion-R7000P% strings /bin/ls | more

Windows: strings 命令
Windows 并不默認帶有 strings 命令, 不過微軟官方提供了一個版本:
https://docs.microsoft.com/zh-cn/sysinternals/downloads/strings

3. 基于 Python 實現(xiàn) strings 命令
對于 Windows 用戶, 如果安裝有 Python, 則可以基于 Python 實現(xiàn) strings 命令等同的函數;由于 strings 的結果是非常多的字符串,往往還需要按版本號字符串特點進行過濾(正則匹配),繼續(xù)使用 Python 的正則模塊進行匹配是比較容易的。
def strings(fname):
"""
Remake `strings` command in Python
This function behaves like `strings` command in linux/windows.
If no desired result returned, you may just tweak the regular expression pattern.
ref: https://gist.github.com/berdario/114b2daf9b43fe924676
Example:
import arczip
for word_bytes in arczip.strings(lib_pth):
word = word_bytes.decode()
if ('version' in word):
print(word)
"""
from mmap import mmap, ACCESS_READ
import re
pattern = '([\w/.\s(:)-]{10,200})'
with open(fname, 'rb') as f, mmap(f.fileno(), 0, access=ACCESS_READ) as m:
for match in re.finditer(pattern.encode(), m):
yield match.group(0)代碼短小精悍,簡單解釋下:
- 我們認為“字符串”是可以用一個正則表達式表示的: 英文字母、空格、短橫杠
-、點.、冒號:
([\w/.\s(:)-]{10,200})'- 我們認為字符串的長度至少為10, 至多為 200. 這個限制的目的是, 如果允許的字符串長度太長, 搜索時間會變慢,太短則很多單個字符不符合預期結果
- 使用
yield, 迭代方式返回結果 - 支持 Windows, 支持 Linux, 基于 Python3
4. 基于Python的版本號查找
調用剛剛實現(xiàn)的 strings() 函數, 對得到的結果進行正則匹配,例如需要以公司名字開頭,并且版本號是4位數字、用.分隔的,那么可以是這樣的實現(xiàn):
# 匹配版本號
def containVersion(word):
versionPattern = r"_\d{1,3}.\d{1,3}.\d{1,10}.\d{1,5}"
match = re.search(versionPattern, word)
if (match is not None):
return True
return False
# 給定庫文件, 打印匹配到的版本號
def print_module_version(lib_pth):
for word_bytes in strings(lib_pth):
word = word_bytes.decode()
if (word.startswith('YourCompany') and containVersion(word)):
print(word)
elif (word.startswith('your_company') and containVersion(word)):
print(word)5. 最終調用:一句話使用
if __name__ == '__main__':
print_module_version('D:/work/kaku-project/lib/windows-x64/libObjectDetection.lib')
print_module_version('D:/work/kaku-project/lib/windows-x64/libObjectDetection.dll')
print_module_version('D:/work/kaku-project/lib/linux-arm64/libObjectDetection.a')到此這篇關于Python3: 掃描庫文件并獲取版本號信息的文章就介紹到這了,更多相關Python獲取版本號信息內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Python mutiprocessing多線程池pool操作示例
這篇文章主要介紹了Python mutiprocessing多線程池pool操作,結合實例形式分析了Python多線程模塊multiprocessing進程池相關操作技巧,需要的朋友可以參考下2019-01-01
Python Web開發(fā)模板引擎優(yōu)缺點總結
這篇文章主要介紹了Python Web開發(fā)模板引擎優(yōu)缺點總結,需要的朋友可以參考下2014-05-05

