python實現(xiàn)從pdf文件中提取文本,并自動翻譯的方法

更新時間：2018年11月28日 09:09:37 作者：PlPyRbC

今天小編就為大家分享一篇python實現(xiàn)從pdf文件中提取文本,并自動翻譯的方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

針對Python 3.5.2 測試

首先安裝兩個包：

$ pip install googletrans

$ pip install pdfminer3k

googletrans會提供一個命令translate，這個命令會調(diào)用google translate api執(zhí)行自動翻譯：

python pdf文件中提取文本,并自動翻譯

pdfminer3k會提供一個工具腳本pdf2txt.py：

$ pdf2txt.py xxx.pdf

從stackoverflow搜索到可以去除頁眉和頁腳的命令(強烈推薦)：

使用Ubuntu提供的pdftotext工具：

$ pdftotext -y 50 -H 650 -W 1000 -nopgbrk sva.pdf

$ pdftotext -f 147 -l 166 -y 50 -H 650 -W 1000 -nopgbrk sva.pdf

谷歌翻譯并不能識別段落或者整句，如果一個整句中出現(xiàn)換行符，會發(fā)現(xiàn)翻譯就不完整了，以網(wǎng)頁版谷歌翻譯測試：

python pdf文件中提取文本,并自動翻譯

因此需要將pdf轉(zhuǎn)換好的文本文件進行拼接，借用linux args 命令，實現(xiàn)此功能，將整個文件的換行符全部去掉。

但是問題又出現(xiàn)了，整個文件變成一行，我們的段落結(jié)構(gòu)都消失了，那么我們需要手動添加delimiter，設(shè)置為一個特殊字符@。

python pdf文件中提取文本,并自動翻譯

執(zhí)行如下命令：

cat trans_src.txt |xargs |xargs -0 -d '@' -i{} translate -d zh-cn {} |tee trans_dst.txt

cat sva_src_1to2.txt |xargs |xargs -0 -d '&' -i{} translate -d zh-cn {} |xargs -d'\n' -n4 | awk -F'zh-cn' '{print $2}' | awk -F'[][]' '{print $2}' | tee sva_dst_1to2.txt

將翻譯后的文本重定向到一個文件，然后對文件進行簡單的后處理，就可以了。

python pdf文件中提取文本,并自動翻譯

以上這篇python實現(xiàn)從pdf文件中提取文本,并自動翻譯的方法就是小編分享給大家的全部內(nèi)容了，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

python框架Django實戰(zhàn)商城項目之工程搭建過程圖文詳解
這篇文章主要介紹了python框架Django實戰(zhàn)商城項目之工程搭建過程,這個項目很像京東商城，項目開發(fā)采用前后端不分離的模式，本文通過圖文并茂的形式給大家介紹的非常詳細，需要的朋友可以參考下
2020-03-03
github配置使用指南
Git是一個分布式的版本控制系統(tǒng)，最初由Linus Torvalds編寫，用作Linux內(nèi)核代碼的管理。在推出后，Git在其它項目中也取得了很大成功，尤其是在Ruby社區(qū)中。目前，包括Rubinius、Merb和Bitcoin在內(nèi)的很多知名項目都使用了Git，作為一個程序猿，不會github那確實有點坑了
2014-11-11
python爬取網(wǎng)站數(shù)據(jù)保存使用的方法
這篇文章主要介紹了使用Python從網(wǎng)上爬取特定屬性數(shù)據(jù)保存的方法，其中解決了編碼問題和如何使用正則匹配數(shù)據(jù)的方法，詳情看下文
2013-11-11
在Django的模型和公用函數(shù)中使用惰性翻譯對象
這篇文章主要介紹了在Django的模型和公用函數(shù)中使用惰性翻譯對象,Django是豐富多彩的Python框架中人氣最高的一個,需要的朋友可以參考下
2015-07-07
python如何實現(xiàn)向上取整
這篇文章主要介紹了python如何實現(xiàn)向上取整問題，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教
2023-01-01
vscode+PyQt5安裝詳解步驟
這篇文章主要介紹了vscode+PyQt5安裝詳解步驟,文中通過示例代碼介紹的非常詳細，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2020-08-08
chatGPT之Python?API啟用上下文管理案例詳解
chatGPT已經(jīng)爆火一段時間了，我想大多數(shù)的開發(fā)者都在默默的在開發(fā)和測試當(dāng)中，可能也是因為這個原因所以現(xiàn)在很難找到關(guān)于開發(fā)中遇到的一些坑或者方法和技巧，這篇文章主要介紹了chatGPT之Python?API啟用上下文管理,需要的朋友可以參考下
2023-03-03
Python實現(xiàn)制度轉(zhuǎn)換（貨幣，溫度，長度）
這篇文章主要介紹了Python實現(xiàn)制度轉(zhuǎn)換（貨幣，溫度，長度），文中通過示例代碼介紹的非常詳細，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2019-07-07
Python使用pyinstaller實現(xiàn)學(xué)生管理系統(tǒng)流程
pyinstaller是一個非常簡單的打包python的py文件的庫,下面這篇文章主要給大家介紹了關(guān)于Python?Pyinstaller庫安裝步驟以及使用方法的相關(guān)資料,文中通過圖文介紹的非常詳細,需要的朋友可以參考下
2023-02-02
Python 內(nèi)置函數(shù)memoryview(obj)的具體用法
本篇文章主要介紹了Python 內(nèi)置函數(shù)memoryview(obj)的具體用法，小編覺得挺不錯的，現(xiàn)在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2017-11-11