中国配音网

雷火UX全球本地化ChatGPT测评:它是一个好用的翻译工具吗?

编辑:中国配音网

雷火UX全球本地化ChatGPT测评:它是一个好用的翻译工具吗?,

坏笑声配音,永顺话搞笑配音,鸽子笑配音  近年来,人工智能技术不断进步,其应用场景持续拓展和深化。AIGC,即利用人工智能技术来生成内容,已经突破了大众对AI技术的认知和想象边界。随着其在语音、文本、图像、视频等内容创作及其他方面上表现出的出众能力,可能对艺术家、工程师、设计师等各行各业的大批从业者带来了巨大的挑战,其引发的时代变革显而易见。

  ChatGPT(Chat Generative Pre-trained Transformer),是人工智能技术驱动的自然语言处理工具,即AIGC的一款具体的应用和产品。它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。

  对于游戏行业来说,AIGC可能应用的场景包括:AI绘图,AI配音,文案策划,收集素材和资料更加快捷,运营可以使用模板进行写作,程序员可以用它来编写和调试计算机程序等。

  那么,对于本地化业务而言,ChatGPT的翻译功能是否能够在实际应用场景落地呢?本文将选取《永劫无间》不同风格译文,以人工译员翻译结果为标准,使用BLEU打分和人工测评的方式,比较Deepl和ChatGPT两款机器翻译工具的翻译结果,以期得到一个初步结论。

  首先我们进行了一系列测试前准备,确定了测试工具、数据、标准等维度的选取。

  选择Deepl的原因是它在翻译质量方面表现相对更准确,尤其在单词和短语的翻译上表现更佳。相对来说,Google Translate适用于一般性的翻译任务,例如日常用语、简单的商务沟通等,但翻译质量相对普通。Deepl则适用于更加专业的翻译任务,例如翻译技术文档、学术论文等,或者需要对翻译质量有较高要求的场合。

  BLEU(Bilingual Evaluation Understudy),即双语评估替补。它是用来评估机器翻译跟专业人工翻译之间的对应关系,核心思想就是机器翻译越接近专业人工翻译,质量就越好。BLEU是机器翻译领域最悠久、最常用、最经典的指标。大部分机器翻译论文甚至只使用这一个指标作为系统的评价标准,其重要性可见一斑。

  BLEU评分虽然是一种广泛使用的自动评估方法,但也存在一些缺点:无法考虑语义和上下文信息,对标准参考文本数量敏感,只能基于n-gram匹配,无法处理稀有词汇,因此,需要结合其他评估方法进行综合评估,以准确地评估翻译质量。

  本文选取了《永劫无间》的四个不同类型的现有译文,包括技能描述、故事背景、动作描述和文学古风。为了比较Deepl和ChatGPT的翻译效果,我们分别使用它们进行“中译英”、“中译西”、“英译西”操作。同时,我们将人工译员翻译结果作为标准,使用BLEU对上述译文进行打分。通过对比各种译文的BLEU得分,可以评估Deepl和ChatGPT在翻译质量方面的表现,为后续分析提供依据。

  首先我们通过BLEU得分来初步比较一下Deepl和ChatGPT二者的表现。

  绝对得分,BLEU的分数高低能够说明机器翻译的质量好坏,分数越高表示机器翻译结果与参考翻译之间的匹配程度越高,机器翻译的质量越好。通常来说,评分高于40可以认为是较好的机器翻译结果。而在我们的测评结果中,Deepl和ChatGPT各自仅有一项得分超过40。说明目前阶段,机器翻译结果与人工翻译结果的相似程度较低,实践效果欠佳。

  相对得分,12个BLEU评分中,ChatGPT仅有5个评分高于Deepl,这说明ChatGPT译文与人工译文相似度低于Deepl;

  为了验证这一结果的可靠性,我们查询了其他学者的测试结果,针对50个句子进行BLEU测评的结果显示,Deepl和ChatGPT中译英的平均得分均低于40,且ChatGPT译文与人工译文相似程度低于Deepl;

  纵向来看,无论是Deepl还是ChatGPT,英翻西的分数都高于中翻西的分数。这主要有两个原因:

  一是因为语料库规模,Deepl和ChatGPT的翻译都是基于各自的互联网语料库,而显然英翻西的语料库比中翻西更为丰富。据估计,目前用于机器翻译的英语-西班牙语语料库数量已经达到数百万到千万级别;而中文翻译成西班牙语的语料库数量则只有数万到十万级别。

  二是因为语言相似程度,中文和西班牙语相似度较低,中文属于汉藏语系,西班牙语属于罗曼语系,语法和词汇差异很大;虽然英文属于日耳曼语系,西班牙语属于罗曼语系,但是两者都属于印欧语系,语法和词汇有很多相似;同时相对于亚洲文化,同处于西方世界的英语和西班牙语的文化背景差异较小。

  凭借着庞大的互联网语料库和巧妙的语法规则设置,机器翻译的语法几乎都是合规的。在翻译长句时,机器翻译可以熟练地运用各种状语和从句,将原文完整地表达出来,呈现出了一个较好的翻译结果。

  但是,在需要主观判断时,有一些细微的不足。例如,英翻西的英雄技能,英语在翻译英雄技能时,省略了整段话的主语,人工译员处理的时候,考虑到描述的是英雄技能,所以将英雄作为主语,而Deepl将玩家作为了主语,ChatGPT直接处理成了无人称句式。相比之下,在需要主观判断的时候,人工译员更胜一筹;

  机器翻译在用词方面的表现一般。对于简单的动作描写和故事叙述,机器翻译能够胜任。然而,一旦遇到需要深入理解的词语,比如游戏术语、成语俗语、文化背景以及神话典故等等,机器翻译就会面临巨大的挑战,往往难以准确地翻译,甚至可能出现严重错误。这是因为这些词语具有复杂的含义和文化背景,需要结合上下文和语境进行理解,而机器翻译目前还难以达到完全的人类理解水平。

  “单双排”是一种最基本的游戏术语,用于描述游戏中玩家参与的模式。人工译员正确处理成了“Solo and Duos”。

  “老当益壮”比喻年纪老,但体力和精神更加健壮。人工译员没有进行直译,而是采用了意译的方法,“move with the energy of a man half your age”;

  Deepl处理则很直接,“old and strong”,简单粗暴;ChatGPT则相对智能了一些,“is aging like wine”,意思是“get better over time”(随着时间的流逝,越来越好),虽然进行了解读,但是和夸赞体力和精神意思不完全一致。而且用在此处“沈妙夸赞爷爷老当益壮”的语境下,也不合适。

  “鱼化龙”是中国古代的一个传说故事,讲述了一个普通的鲤鱼通过不断努力,最终成功地变成了一条神龙的故事。中国玩家理解这个词,几乎没有文化障碍,但是西方玩家基本上没有这个文化背景。因此,人工译员为了更好的传达典故的内涵,在简单解释的基础上进行了翻译,“Like the ancient fish of legend, growing legs and rising to become dragons”。

  “神机营”是明代京城禁卫军中三大营之一,是明朝军队中专门掌管火器的特殊部队。因此,人工译员在处理的时候,翻译成了“Firearms Division”(火器部门)。

  而Deepl翻译成了“Divine Machine Camp”(神奇机器的营地),ChatGPT翻译成了“Divine Machine Corps”(神奇机器兵团),不知道外国玩家在看到神奇机器的时候,作何感想。

  在描述宁红夜捆绑包梨园白素的时候,策划引用了越剧《白蛇传》唱词:“冲出峨嵋万重山,踏破云层往人间”。是白娘子化身为人类走出峨嵋山后的自白。这句唱词的主要含义是,白蛇冲破峨嵋重重山峰的阻隔,踏破云层,从天空来到人间。这表达了白蛇为了与许仙相守而不惜冒险出山,越过重重障碍,化身为人类形态来到人间。

  目前阶段,以Deepl和ChatGPT为代表的机器翻译在语法方面表现良好,但是在涉及游戏术语、成语俗语、文化背景以及神话典故的理解,或者需要进行文学演绎时,表现欠佳。

  整体来看,机器翻译结果和人工翻译结果相差较大,在实践中,需要译员对机器翻译结果做较大调整,方能满足要求;目前理想的工作模式还是人工为主,机器为辅;

  以烹饪打比方,目前机器翻译的水平相当于准备并搭配好了部分原材料,等待厨师下锅烹饪,方能做出美味菜肴,厨师的水平对最终结果影响较大;

  而和Deepl等机器翻译工具相比,ChatGPT作为一个可以不断迭代和学习的模型,将来可以到达的程度可能是速食食品的水平,简单加热即可食用,对人类烹饪水平几乎没有要求。但至于味道如何嘛,还需要时间来检验。不过可以预料到的是,ChatGPT未来可期!