您所在的位置:首页 - 学术研究 - 学术动态

学术动态

上海外国语大学教授毛文伟为太阳成集团tyc9728师生作学术讲座

供图、供稿:盛尧 编辑:于洁莹

2026年4月1日下午,应9728太阳集团研究生院及语言工程与认知计算工信部重点实验室邀请,上海外国语大学日本文化经济学院教授、博士生导师毛文伟为学院师生作了题为《生成式语言模型汉日翻译的文本特征研究》的学术讲座。本次讲座由太阳成集团tyc9728日语系张鹏教授主持,刘芳教授及外国语言文学专业博士后、博士生、硕士生等参与了本次讲座。

图片1.png

讲座伊始,毛教授从时代背景切入,指出翻译研究的形式经历了从基于实例的微观研究,到统计翻译、神经网络翻译,再到生成式AI翻译研究的演变。其中,生成式AI支持更长上下文,具有强大的语言处理能力与广泛的知识库,已经成为效果最好的机器翻译方式之一。而探究生成式AI翻译与人工翻译在语言产出方面的差异,并使用分析结果指导译后编辑,已成为翻译研究的重要问题。

毛教授指出,为解决上述问题,可以借鉴使用计量文体学的方法。该方法通过TTR、词源比例、MVR等可量化指标,实现风格这一概念的量化。研究者通常将机器和人工译本置于同一多维评价体系下,量化并分析其差异。这为翻译质量评估提供了一项客观的新工具,有效揭示了不同翻译文本各自的风格与特征。

此后,毛教授以《阿Q正传》的日译本对比研究为例,通过对比词汇丰富度、文化负载词、词源、文体特征以及进行情感分析的方式,详细阐述了生成式模型译本和人类专家译本的区别。对比结果显示,在词汇上,两版本GPT的词汇丰富程度相对人工译本均较低,但GPT4的词汇丰富程度已经有所提高,逐步接近人类译者水平。在文化负载词方面,对于中文特有的概念,人类译者在翻译为日语时普遍进行了加译,对文化概念进行了补充说明。不同译者的加译策略略有区别。但生成式语言模型均没有进行补充说明,其中GPT3.5遗漏了原文信息,GPT4尝试使用日本的近似概念进行替代。同时,文化特有概念的漏译误译现象也更为普遍。

在日译本的词源方面,人工译本多用日本原生的和语词,表达更加生动。而语言模型则偏向使用汉语词,外来语占比也较高。文体特征上,语言模型的译本中,接续词占比显著高于人工译本。同时,使用的接续词种类较为单调,有滥用高频接续词的倾向。此外,人工译本基于日语习惯,使用副词使表达更加丰富,但语言模型未能掌握这一习惯

在情感分析研究中,毛教授使用外置的情感分析工具,将文本的情感倾向量化并映射到特定区间。接着,以等长分割的小说文段为横轴,情感数值为纵轴,得到了反映作品情感变化趋势的“情感弧线”。情感弧线对比结果显示,Claude、Gemini的情感走向与原文高度一致,甚至超过了人类译者。在大模型之间的情感表现之间也具有共性。

基于上述研究结果,毛教授指出,我们在进行译后编辑时,应重点关注词汇多样性、接续词选择、文化概念转换、语义准确性、情感恰当性等生成式语言模型不能妥善处理的问题。通过译者的专业知识,补齐语言模型翻译的短板。

图片2.png

在此后的提问环节,针对“生成式语言模型处理文化负载词时缺少加译”这一问题,毛教授指出,除结构化提示词外,还可以使用“one-shot”或“few-shot”的方法,给模型一些加译的实例,让模型学到加译的能力。这些方法在理论上可行,具体有效性还有待进一步研究。毛教授的讲座数据详实,为生成式语言模型翻译质量评估这一课题提供了全新的语言学视角。

e111a6ba8fe6d787cc18187e1470f94.jpg

(审核:赵满、徐嘉)