易翻译支持多种文件与输入格式:文本(TXT、纯文本文字)、文档(Word、PDF、Excel、PPT)、图片(JPG、PNG、TIFF等,含拍照OCR)、音频(实时语音或MP3、WAV等录音)、视频与字幕(视频音轨转写或SRT/VTT字幕)、以及常用本地化资源(CSV、JSON、PO、XLIFF等)。

先说清楚“格式”到底指什么
当我们问“能翻啥格式?”其实有两个层面:一是文件的外包装,也就是扩展名(.docx、.pdf、.mp3 等);二是文件里信息的表现形式,比如纯文本、图片文字、音频语音、视频音轨、字幕时间码、或程序里面的字符串。把这两个层面分清楚,后面就好解释了——不同格式需要不同的处理链:直接文本→直接翻,图片→OCR→翻,音频→转写→翻,视频→分离音轨或字幕→翻。
用费曼法则来讲:像讲给朋友听
想象你把一张A4纸、一个录音文件和一张旅游照片递给朋友,让他帮你翻成另一种语言。朋友能做哪些事?看到纸就直接读并翻,听录音要先写下文字再翻,照片里的文字得先识别才能翻。易翻译的工作方式,就是把这些“先识别、再翻译、最后还原格式”的步骤自动串起来。
易翻译常见支持的文件与输入格式(概览)
- 纯文本与键入内容:直接输入或复制粘贴的文本(TXT、直接文本框)。快速、最稳定。
- 常见办公文档:Word(.doc/.docx)、Excel(.xls/.xlsx/CSV)、PowerPoint(.ppt/.pptx)——通常支持保留文本与基础排版。
- PDF:数字PDF(可选文本层)优先保留排版;扫描PDF先做OCR再翻译,结果受扫描质量影响。
- 图片:JPG、JPEG、PNG、BMP、TIFF 等(拍照或从相册导入),通过OCR识别图片文字后翻译。
- 音频:实时语音互译或文件翻译(常见格式如MP3、WAV、M4A等),先转写为文本再翻译。
- 视频与字幕:视频音轨转写或对现有字幕文件(如SRT、VTT、ASS)进行翻译与时间码保留。
- 本地化与开发文件:CSV、JSON、PO/POT、XLIFF 等资源文件可通过导入/导出或专门的字符串抽取来翻译。
- 对话与实时口译场景:双语对话模式、实时语音翻译功能,适合会议、旅行等情境。
一个表格,帮你快速定位
| 类型 | 常见扩展名 | 处理方式/备注 |
| 纯文本 | TXT,直接输入 | 直接翻译,格式最简单 |
| 办公文档 | DOC/DOCX、XLS/XLSX、PPT/PPTX | 保留结构与基础排版,复杂表格/样式可能需要后期校正 |
| 可直接翻译可选文本PDF;扫描件需OCR,低分辨率影响识别 | ||
| 图片 | JPG/PNG/TIFF/BMP | 通过OCR识别文本,复杂背景或手写字识别率下降 |
| 音频 | MP3/WAV/M4A/AAC/FLAC | 先转写再翻译;多人交谈或噪声会影响转写准确度 |
| 视频/字幕 | MP4/MKV/AVI + SRT/VTT/ASS | 可转写音轨或直接翻译字幕文件,保持时间轴 |
| 本地化资源 | CSV/JSON/PO/XLIFF/RESX | 字符串抽取翻译,保持键值结构,适合软件本地化 |
每种格式的细节、注意点与最佳实践
1. 纯文本与手工输入
这是最简单的场景。直接复制粘贴或在输入框键入,翻译结果最快、最可靠。优点是格式简单,换行、空格等都能被程序识别。小提示:如果文本包含特殊编码(如HTML实体、控制字符),导入前先做一次清洗。
2. Word、Excel、PPT 等办公文档
办公文档通常包含样式、表格、批注和嵌入对象。易翻译类工具通常分两种策略:一是直接在保留文档结构的前提下替换文本;二是导出为中间格式(如TXT或XML)进行翻译后再导回。实践中:
- 简单的文字和表格翻译通常没问题。
- 复杂排版(文本框、图文混排、SmartArt、宏)可能需要人工调整。
- Excel中的公式、单元格格式要慎重,最好只翻译文本单元格。
3. PDF 文件
如果PDF是“可选文本层”的(即可以选中文本),翻译较为直接,能保留版面;如果是扫描件,需要OCR:把图片变成可编辑文本。这一步的准确率受扫描分辨率、文字大小、字体样式影响。数学公式、化学式、表格复杂布局通常是PDF翻译的痛点。
4. 图片与拍照(OCR)
拍照取词是易翻译的常见功能。识别流程是:拍照 → OCR识别 → 文本提取 → 翻译。实践要点:
- 光线充足、文字清晰、背景干净,识别率最高。
- 竖排/多栏/曲面文字(例如书脊)识别可能出错。
- 手写体识别比印刷体要困难,准确率低,通常需要人工校对。
5. 音频与实时语音
音频翻译其实是两步走:先做语音识别(ASR),得到原文稿,再把稿子交给翻译引擎。实时互译则是把这两步合并在低延迟链路上。注意事项:
- 多人同时说话、方言、口音和背景噪声会降低识别准确度。
- 行业术语、专有名词可能识别为近似词,需要人工校正或添加自定义词库。
- 对于要求高的会议记录,建议先获取音频并以适当分段后再处理。
6. 视频与字幕的处理
如果视频已经有字幕文件(SRT/VTT/ASS),翻译最简单:读取字幕文本,翻译后生成新的字幕并保留时间轴。如果没有字幕,就提取音轨做转写,再生成字幕。视频本身的嵌入式字幕、硬字幕(burned-in)则需要OCR或人工重新制作。
7. 本地化文件和开发资源
软件和网站本地化常用的文件格式包括CSV、JSON、PO、XLIFF、RESX等。好的工作方式是:
- 先用工具抽取字符串或导出为通用中间格式(如XLIFF),
- 翻译后再把翻译内容映射回原结构,保持键与占位符(%s、{0})不被误改。
- 注意占位符、HTML标签、转义字符等不能被随意翻译或删除。
常见问题与解决办法(Troubleshooting)
翻译后格式乱掉了怎么办?
这是很多人遇到的。解决办法包括:
- 选择“保留格式”或“保留布局”模式(如果应用提供);
- 先导出文本翻译,再把翻译填回源文件;
- 对于复杂文档,先做翻译样例、手动校对,然后批量应用。
OCR 识别错误多怎么办?
提高图片质量(分辨率、光线),尽量让文字水平;如果是手写或竖排文字,手动输入会更高效。必要时使用第三方专业OCR再导入翻译。
音频多人对话识别错位怎么办?
建议先把音频用专业工具做声源分离或手动标注说话人,再逐段转写,这样翻译结果更清晰,会议记录也更好用。
隐私、大小与其他实际限制
很多人关心三个问题:文件大小、隐私与专业术语准确性。常见提示:
- 文件大小:应用通常对单文件大小和批量上传有限制(从几十MB到几百MB不等),遇到限制可分割文件或压缩媒体。
- 隐私与安全:敏感文档(合同、证件、涉密资料)建议查看应用的隐私政策或使用本地离线模式(若支持)。企业用户可询问是否有企业版或私有部署。
- 术语一致性:对专业文本(法律、医药、科技)建议使用术语表(Glosarry)或人工后编辑以保证准确性。
实用小技巧(让翻译更好用)
- 如果你要翻译带表格的Excel,先把需要翻译的列导出为CSV,翻译后再合并回来,避免公式丢失。
- 翻译包含代码片段或占位符的文本时,请把占位符标注出来,或使用带占位符保护的模式。
- 大量文档翻译推荐批处理或使用API(若应用提供),流程化能节省大量时间。
- 制作字幕时,翻译后注意字符长度与时间轴匹配,避免字幕太长导致观看体验差。
举几个真实场景,怎么操作
场景一:旅游时拍照翻菜单
步骤:打开拍照取词 → 对准菜单拍照 → OCR识别出菜名与描述 → 立即翻译并显示。重点是拍清楚、横拍尽量水平,避免反光。
场景二:接到一份PDF合同要翻成英文
步骤:先确认PDF是否为可选文本层;若是,直接导入选择保留布局翻译;若为扫描件,先OCR转文本,再翻译并人工校对条款与专用词。合同类建议人工审校以保证法律效力。
场景三:要把会议录音做成中英文对照稿
步骤:上传录音或在会场用实时翻译 → 生成中文转写与英文译文 → 导出时间戳文本或字幕。多人场景建议先分离说话人或手动标注,以免对话错位。
结尾的那些话(随便想了下)
总之,易翻译能处理的“格式”比你想象的要多,但最核心的是理解“先识别/再翻译/最后还原”的流程。好用的工具会把这套流程尽量自动化,但复杂或专业的材料,还是逃不开人工校对。用的时候别忘了留一点耐心:上传前检查文件清晰度、保留占位符、以及是否需要批注术语表,很多小问题就能提前避免。嗯,这样想来,翻译其实就是把看得见的东西一步一步拆开再重组,机器帮你做大部分活,但最后那点儿“人味儿”还得靠你。