首页 > 酒水资讯 > 酒水新闻

什么翻译软件可以直接翻译,什么翻译软件可以直接翻译文档

酒易淘 酒水新闻 2022-09-03 09:45:01

品牌名称:酱香白酒加盟 所属行业:酒水 > 白酒

基本投资:10~50万元 投资热度:

加盟意向:1634 门店数量:534家

索要资料 查看详情

  

  来源:早起Python   

  

  作者:陈   

  

  大家好,我是个早起的人。   

  

  本文将和大家分享一个实用的Python办公自动化脚本“「利用Python批量翻译英文Word文档并保留格式”,最后的效果甚至比一些付费软件还要好!我们先来看看具体的工作内容。   

  

  一、需求描述中手头有大量外文文档(本案例以5为例,命名为test1.docx test2.docx等),其中一个如下:   

  

     

  

  基本需求:「批量将这些文档的内容全部翻译成中文,并转存到新的文件中」,大意如下:   

  

     

  

  高级需求:当基本需求得到满足时,就需要「保留原文档的格式」了。效果如下:   

  

     

  

  二、逻辑梳理(一)翻译API   

  

  这个需求的核心是翻译,策略是使用网络的翻译API,这里推荐百度翻译开放平台,不考虑并发数的话可以用标准版,免费使用不限字符量!   

  

     

  

  百度翻译开放平台:http://api.fanyi.baidu.com/api/trans/product/index   

  

     

  

  在使用百度通用翻译API之前,需要完成以下工作:   

  

  使用百度账号登录百度翻译开放平台(http://API . fanyi . Baidu . com);注册成为开发者,获取APPID;进行开发者认证(如果只需要标准版,可以跳过);打开通用翻译API服务:打开链接参考技术文档和演示代码。   

  

  完成后,您可以在您的个人页面上看到ID和密钥。这一点很重要!下面给出整理好的通用翻译 API 的 demo,已经对输出做简单修改,代码拿走就能用!   

  

     

  

     

  

  如你所见,测试内容翻译准确。注意,如果需要多次访问API,免费版有并发和时间限制,可以用time模块休眠一秒。   

  

  (2)格式修改   

  

  高级需求的难点在于保持格式。简单地说,原文档的页面格式和段落格式是什么,翻译后对应的部分就是什么。.   

  

  基于上述逻辑关系,只需要获取原文档的相应内容,并将其赋给新翻译的文档即可。(暂时只能满足页面设置和段落设置的统一。对于段落中特定词语的格式修改,需要基于自然语言进行NLP处理,以保证准确性,本文不涉及。)   

  

  2.1页面样式   

  

  只要页面样式包括边距、方向、高度、宽度等。从原始文档中可以看出,它采用了窄边距。但是我们不需要知道如何设置窄边距的四个方向。我们只需要在代码中呈现新旧文档的变量传递,如下   

  

     

  

  2.2段落风格   

  

  段落的样式包括对齐、缩进、间距等。在原始文档中,采用段落后缩进,标题居中。这些设置在变量转移中可以做得很好。如果原始文档中未设置的变量值为None   

  

     

  

  2.3文本块样式修改   

  

  用于字体大小、粗体、斜体、颜色等样式调整。建立空列表,遍历原文档每一段每一个文字块,获取相应属性并放到各自的列表中就采用了。对于同一段落,具有最多文本块属性的选项被分配给翻译文档对。   

应段落(如同一段全部或大部分的文字是加粗,则翻译后对应段落所有文字块均设置为加粗) 对NLP感兴趣的读者可自行尝试如何高度还原英文文档中某些特定词语的样式修改,并在翻译后的文档中体现出来

  

  

上面的代码不包含对字体的设置,因为没必要把英文的字体传递给中文文档。对中文字体的设置之前的文章有提到过,比较复杂,直接见代码:

  

from docx.oxml.ns import qnrun.font.name = '微软雅黑'r = run._element.rPr.rFontsr.set(qn('w:eastAsia'), '微软雅黑')(三)整体实现步骤

  

现在每个部分操作均以完成,考虑到本例中有多个文档均需要翻译,故全部逻辑如下:

  

利用 glob 模块批处理框架可获取某个文件的绝对路径由 python-docx 完成 Word 文件实例化后对段落进行解析解析出的段落文本交给百度通用翻译 API,解析返回的 Json 格式结果(上面的修改 demo 中已经完成了这一步)并重新写入新的文件同个文件全部解析、翻译并写入新文件后保存文件三、代码实现导入需要的模块,除翻译 demo 中需要的库外还需要 glob 库批量获取文件、python-docx 读取文件、time 模块控制访问并发。为什么要 os 模块见下文:

  

import requestsimport randomimport jsonfrom hashlib import md5import timefrom docx import Documentimport globimport os对原 demo 的部分内容进行保留,涉及到 query 参数的代码需要移动到后面的循环中。保留的部分:

  

  

效果如下

  

  

获取到段落文本后,可以将段落文本赋值给 query 参数,调用 API demo 的后续代码。输出结果的同时用 add_paragraph 将结果写入新文档:

  

  

最后保存成新文件,期望命名为 原文件名_translated 的形式,可用 os.path.basename 方法获取并经字符串拼接达到目的:

  

wordfile_new.save(path + r'\\' + os.path.basename(file)<:-5> + '_translated.docx')

  

单个文件操作完成后将读取和创建文件的代码块放到批处理框架内:

  

  

完成了上面的内容后,基本需求就完成了。根据我们梳理的对样式的修改知识,再把样式调整的代码加进来就行了,最终完整代码如下:

  

  

代码运行完毕后得到五个新的翻译后文件

  

  

翻译效果如下,可以看到英文被翻译成中文,并且样式大部分保留!

  

  

至此,所有文档都被成功翻译,当然这是机器翻译的,具体应用时还需要对关键部分进一步人工调整,不过整体来说还是一次成功的Python办公自动化尝试!

免费咨询
免费获取加盟资料