北理工太阳成集团tyc9728

学校主页公共服务

您所在的位置：首页 - 学术研究 - 学术动态

学术动态

上海外国语大学教授毛文伟为太阳成集团tyc9728师生作学术讲座

日期:2026-04-07 | 点击量:

供图、供稿：盛尧编辑：于洁莹

2026年4月1日下午，应9728太阳集团研究生院及语言工程与认知计算工信部重点实验室邀请，上海外国语大学日本文化经济学院教授、博士生导师毛文伟为学院师生作了题为《生成式语言模型汉日翻译的文本特征研究》的学术讲座。本次讲座由太阳成集团tyc9728日语系张鹏教授主持，刘芳教授及外国语言文学专业博士后、博士生、硕士生等参与了本次讲座。

图片1.png

讲座伊始，毛教授从时代背景切入，指出翻译研究的形式经历了从基于实例的微观研究，到统计翻译、神经网络翻译，再到生成式AI翻译研究的演变。其中，生成式AI支持更长上下文，具有强大的语言处理能力与广泛的知识库，已经成为效果最好的机器翻译方式之一。而探究生成式AI翻译与人工翻译在语言产出方面的差异，并使用分析结果指导译后编辑，已成为翻译研究的重要问题。

毛教授指出，为解决上述问题，可以借鉴使用计量文体学的方法。该方法通过TTR、词源比例、MVR等可量化指标，实现风格这一概念的量化。研究者通常将机器和人工译本置于同一多维评价体系下，量化并分析其差异。这为翻译质量评估提供了一项客观的新工具，有效揭示了不同翻译文本各自的风格与特征。

此后，毛教授以《阿Q正传》的日译本对比研究为例，通过对比词汇丰富度、文化负载词、词源、文体特征以及进行情感分析的方式，详细阐述了生成式模型译本和人类专家译本的区别。对比结果显示，在词汇上，两版本GPT的词汇丰富程度相对人工译本均较低，但GPT4的词汇丰富程度已经有所提高，逐步接近人类译者水平。在文化负载词方面，对于中文特有的概念，人类译者在翻译为日语时普遍进行了加译，对文化概念进行了补充说明。不同译者的加译策略略有区别。但生成式语言模型均没有进行补充说明，其中GPT3.5遗漏了原文信息，GPT4尝试使用日本的近似概念进行替代。同时，文化特有概念的漏译误译现象也更为普遍。

在日译本的词源方面，人工译本多用日本原生的和语词，表达更加生动。而语言模型则偏向使用汉语词，外来语占比也较高。文体特征上，语言模型的译本中，接续词占比显著高于人工译本。同时，使用的接续词种类较为单调，有滥用高频接续词的倾向。此外，人工译本基于日语习惯，使用副词使表达更加丰富，但语言模型未能掌握这一习惯

在情感分析研究中，毛教授使用外置的情感分析工具，将文本的情感倾向量化并映射到特定区间。接着，以等长分割的小说文段为横轴，情感数值为纵轴，得到了反映作品情感变化趋势的“情感弧线”。情感弧线对比结果显示，Claude、Gemini的情感走向与原文高度一致，甚至超过了人类译者。在大模型之间的情感表现之间也具有共性。

基于上述研究结果，毛教授指出，我们在进行译后编辑时，应重点关注词汇多样性、接续词选择、文化概念转换、语义准确性、情感恰当性等生成式语言模型不能妥善处理的问题。通过译者的专业知识，补齐语言模型翻译的短板。

图片2.png

在此后的提问环节，针对“生成式语言模型处理文化负载词时缺少加译”这一问题，毛教授指出，除结构化提示词外，还可以使用“one-shot”或“few-shot”的方法，给模型一些加译的实例，让模型学到加译的能力。这些方法在理论上可行，具体有效性还有待进一步研究。毛教授的讲座数据详实，为生成式语言模型翻译质量评估这一课题提供了全新的语言学视角。

（审核：赵满、徐嘉）