雷火UX全球本地化ChatGPT测评：它是一个好用的翻译工具吗？

编辑：中国配音网时间：2024-03-26

雷火UX全球本地化ChatGPT测评：它是一个好用的翻译工具吗？,

坏笑声配音,永顺话搞笑配音,鸽子笑配音　　近年来，人工智能技术不断进步，其应用场景持续拓展和深化。AIGC，即利用人工智能技术来生成内容，已经突破了大众对AI技术的认知和想象边界。随着其在语音、文本、图像、视频等内容创作及其他方面上表现出的出众能力，可能对艺术家、工程师、设计师等各行各业的大批从业者带来了巨大的挑战，其引发的时代变革显而易见。

　　ChatGPT(Chat Generative Pre-trained Transformer)，是人工智能技术驱动的自然语言处理工具，即AIGC的一款具体的应用和产品。它能够通过理解和学习人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码，写论文等任务。

　　对于游戏行业来说，AIGC可能应用的场景包括：AI绘图，AI配音，文案策划，收集素材和资料更加快捷，运营可以使用模板进行写作，程序员可以用它来编写和调试计算机程序等。

　　那么，对于本地化业务而言，ChatGPT的翻译功能是否能够在实际应用场景落地呢？本文将选取《永劫无间》不同风格译文，以人工译员翻译结果为标准，使用BLEU打分和人工测评的方式，比较Deepl和ChatGPT两款机器翻译工具的翻译结果，以期得到一个初步结论。

　　首先我们进行了一系列测试前准备，确定了测试工具、数据、标准等维度的选取。

　　选择Deepl的原因是它在翻译质量方面表现相对更准确，尤其在单词和短语的翻译上表现更佳。相对来说，Google Translate适用于一般性的翻译任务，例如日常用语、简单的商务沟通等，但翻译质量相对普通。Deepl则适用于更加专业的翻译任务，例如翻译技术文档、学术论文等，或者需要对翻译质量有较高要求的场合。

　　BLEU（Bilingual Evaluation Understudy），即双语评估替补。它是用来评估机器翻译跟专业人工翻译之间的对应关系，核心思想就是机器翻译越接近专业人工翻译，质量就越好。BLEU是机器翻译领域最悠久、最常用、最经典的指标。大部分机器翻译论文甚至只使用这一个指标作为系统的评价标准，其重要性可见一斑。

　　BLEU评分虽然是一种广泛使用的自动评估方法，但也存在一些缺点：无法考虑语义和上下文信息，对标准参考文本数量敏感，只能基于n-gram匹配，无法处理稀有词汇，因此，需要结合其他评估方法进行综合评估，以准确地评估翻译质量。

　　本文选取了《永劫无间》的四个不同类型的现有译文，包括技能描述、故事背景、动作描述和文学古风。为了比较Deepl和ChatGPT的翻译效果，我们分别使用它们进行“中译英”、“中译西”、“英译西”操作。同时，我们将人工译员翻译结果作为标准，使用BLEU对上述译文进行打分。通过对比各种译文的BLEU得分，可以评估Deepl和ChatGPT在翻译质量方面的表现，为后续分析提供依据。

　　首先我们通过BLEU得分来初步比较一下Deepl和ChatGPT二者的表现。

　　绝对得分，BLEU的分数高低能够说明机器翻译的质量好坏，分数越高表示机器翻译结果与参考翻译之间的匹配程度越高，机器翻译的质量越好。通常来说，评分高于40可以认为是较好的机器翻译结果。而在我们的测评结果中，Deepl和ChatGPT各自仅有一项得分超过40。说明目前阶段，机器翻译结果与人工翻译结果的相似程度较低，实践效果欠佳。

　　相对得分，12个BLEU评分中，ChatGPT仅有5个评分高于Deepl，这说明ChatGPT译文与人工译文相似度低于Deepl；

　　为了验证这一结果的可靠性，我们查询了其他学者的测试结果，针对50个句子进行BLEU测评的结果显示，Deepl和ChatGPT中译英的平均得分均低于40，且ChatGPT译文与人工译文相似程度低于Deepl；

　　纵向来看，无论是Deepl还是ChatGPT，英翻西的分数都高于中翻西的分数。这主要有两个原因：

　　一是因为语料库规模，Deepl和ChatGPT的翻译都是基于各自的互联网语料库，而显然英翻西的语料库比中翻西更为丰富。据估计，目前用于机器翻译的英语-西班牙语语料库数量已经达到数百万到千万级别；而中文翻译成西班牙语的语料库数量则只有数万到十万级别。

　　二是因为语言相似程度，中文和西班牙语相似度较低，中文属于汉藏语系，西班牙语属于罗曼语系，语法和词汇差异很大；虽然英文属于日耳曼语系，西班牙语属于罗曼语系，但是两者都属于印欧语系，语法和词汇有很多相似；同时相对于亚洲文化，同处于西方世界的英语和西班牙语的文化背景差异较小。

　　凭借着庞大的互联网语料库和巧妙的语法规则设置，机器翻译的语法几乎都是合规的。在翻译长句时，机器翻译可以熟练地运用各种状语和从句，将原文完整地表达出来，呈现出了一个较好的翻译结果。

　　但是，在需要主观判断时，有一些细微的不足。例如，英翻西的英雄技能，英语在翻译英雄技能时，省略了整段话的主语，人工译员处理的时候，考虑到描述的是英雄技能，所以将英雄作为主语，而Deepl将玩家作为了主语，ChatGPT直接处理成了无人称句式。相比之下，在需要主观判断的时候，人工译员更胜一筹；

　　机器翻译在用词方面的表现一般。对于简单的动作描写和故事叙述，机器翻译能够胜任。然而，一旦遇到需要深入理解的词语，比如游戏术语、成语俗语、文化背景以及神话典故等等，机器翻译就会面临巨大的挑战，往往难以准确地翻译，甚至可能出现严重错误。这是因为这些词语具有复杂的含义和文化背景，需要结合上下文和语境进行理解，而机器翻译目前还难以达到完全的人类理解水平。

　　“单双排”是一种最基本的游戏术语，用于描述游戏中玩家参与的模式。人工译员正确处理成了“Solo and Duos”。

　　“老当益壮”比喻年纪老，但体力和精神更加健壮。人工译员没有进行直译，而是采用了意译的方法，“move with the energy of a man half your age”；

　　Deepl处理则很直接，“old and strong”，简单粗暴；ChatGPT则相对智能了一些，“is aging like wine”，意思是“get better over time”（随着时间的流逝，越来越好），虽然进行了解读，但是和夸赞体力和精神意思不完全一致。而且用在此处“沈妙夸赞爷爷老当益壮”的语境下，也不合适。

　　“鱼化龙”是中国古代的一个传说故事，讲述了一个普通的鲤鱼通过不断努力，最终成功地变成了一条神龙的故事。中国玩家理解这个词，几乎没有文化障碍，但是西方玩家基本上没有这个文化背景。因此，人工译员为了更好的传达典故的内涵，在简单解释的基础上进行了翻译，“Like the ancient fish of legend, growing legs and rising to become dragons”。

　　“神机营”是明代京城禁卫军中三大营之一，是明朝军队中专门掌管火器的特殊部队。因此，人工译员在处理的时候，翻译成了“Firearms Division”（火器部门）。

　　而Deepl翻译成了“Divine Machine Camp”（神奇机器的营地），ChatGPT翻译成了“Divine Machine Corps”（神奇机器兵团），不知道外国玩家在看到神奇机器的时候，作何感想。

　　在描述宁红夜捆绑包梨园白素的时候，策划引用了越剧《白蛇传》唱词：“冲出峨嵋万重山，踏破云层往人间”。是白娘子化身为人类走出峨嵋山后的自白。这句唱词的主要含义是，白蛇冲破峨嵋重重山峰的阻隔，踏破云层，从天空来到人间。这表达了白蛇为了与许仙相守而不惜冒险出山，越过重重障碍，化身为人类形态来到人间。

　　目前阶段，以Deepl和ChatGPT为代表的机器翻译在语法方面表现良好，但是在涉及游戏术语、成语俗语、文化背景以及神话典故的理解，或者需要进行文学演绎时，表现欠佳。

　　整体来看，机器翻译结果和人工翻译结果相差较大，在实践中，需要译员对机器翻译结果做较大调整，方能满足要求；目前理想的工作模式还是人工为主，机器为辅；

　　以烹饪打比方，目前机器翻译的水平相当于准备并搭配好了部分原材料，等待厨师下锅烹饪，方能做出美味菜肴，厨师的水平对最终结果影响较大；

　　而和Deepl等机器翻译工具相比，ChatGPT作为一个可以不断迭代和学习的模型，将来可以到达的程度可能是速食食品的水平，简单加热即可食用，对人类烹饪水平几乎没有要求。但至于味道如何嘛，还需要时间来检验。不过可以预料到的是，ChatGPT未来可期！