首页 > 我的大学 >正文

AI翻译文言文、给古彝文编码,华南理工这一科研团队助力古文保护与传承

来源:华南理工大学2023年10月16日

你是否遇到过以下困惑?

面对穿越历史的古文

面对沉淀千年的诗词

往往只可意会却难以言传

翻译时常常词不达意

有着沉默时的充实

亦有开口时的空虚

无法恰当地进行文白转换


而AI文言文翻译

能为你填补这份遗憾

在文言文和白话文之间

搭起一座桥梁

这项技术的发展与突破

有望将文诗词曲

美妙地用白话文来叙述

  令华夏儿女切身感悟到古人的语言魅力


近日,“机器翻译峰会MTS2023”在中国澳门圆满落幕。在会上举办的第一届古汉语机器翻译竞赛(EvaHan2023)中,华南理工大学电子与信息学院的金连文教授团队提出基于大语言模型(LLM)的方案在比赛中较大优势获得冠军。


EvaHan2023获奖证书


金连文教授团队


金连文教授团队所在的电子与信息学院深度学习与视觉计算实验室(DLVC Lab),致力于人工智能、计算机视觉、文档图像处理等领域前沿理论技术的研究及创新应用,主要研究方向包括人工智能、文字识别、多模态大模型、文档图像分析与智能处理、计算机视觉、自然语言处理等。


金连文教授


本次EvaHan2023参赛队伍由硕士生曹家欢,博士生彭德智、施永鑫和硕士生江宗源组成,指导教师为金连文教授。


金连文教授团队学生


下面就跟着鲤工仔一起

走近竞赛冠军获得者金连文教授团队

深入了解一下AI文言文翻译吧


采访现场


您觉得AI文言文翻译技术有什么意义呢?

文言文是中国传统文化的载体,AI文言文翻译技术有助于人们增进对中国历史的了解,促进中华优秀传统文化的传承。此外,AI文言文翻译技术可以促进国际间交流理解,让外国读者也可以通过翻译认识中国历史文化,提高我国在国际上的文化影响力。习近平总书记近日对宣传思想文化工作作出重要指示指出,要着力赓续中华文脉、推动中华优秀传统文化创造性转化和创新性发展。AI文言文翻译技术对促进古籍传承与发展、了解中华文明、弘扬中华文化和民族精神、增强国家文化软实力,对推动中国古籍文物数据挖掘、知识发现、智能化开发与利用等领域的技术进步有重要意义。


文言文翻译这项技术是如何做到的呢?

我们的方法在一个基于LLaMA的人工智能大语言模型(LLM)的基础上,使用文言文数据来扩充词表,并创新性地使用预训练模型的词嵌入对文言文词表进行融合扩充,以充分利用预训练模型中存储的知识。 其次,整合和精炼现有的文言文语料,构建了一个大规模的文言文数据集,并使用该数据集对扩充词表后的模型进行增量式无监督预训练,使模型具备了丰富的文言文先验知识。 最 后,针对比赛数据进行多阶段的有监督训练,最终训练了一个先进的文言文到白话文翻译大模型。


金连文教授团队学生


目前AI文言文翻译的发展现状如何呢?

现在的AI自动翻译以现代文为主,在”文言文-白话文“方面的公开研究报道极少。尽管微软翻译和百度翻译等引擎也支持文白翻译,但是它们在一些较难的文言文翻译上表现仍不佳。本次比赛中,我们采用基于大语言模型改进的方法,战胜了来自北京大学、香港中文大学等队伍,以明显的技术优势取得了第一名的佳绩。同时,根据主办方报道,我们提出的方法在比赛测试集上的性能也明显优于国内的商业应用,体现了华南理工大学本次参赛团队的研究实力和领先的技术水平。

中国几千年辉煌的华夏文明,留下了海量的古籍文献资料,这些文字记录反映了当时社会在政治、军事、经济、科技、教育、文化等各个领域的状况,承载着丰富的历史信息和文化传承。但是,现在大部分人都很难流畅的阅读和理解古籍文献,利用先进的AI技术可以让普通人能读懂古籍、理解古籍,也为挖掘和利用古籍文献中蕴含的丰富知识提供了技术支撑。


在研究开发AI文言文翻译都遇到过哪些困难呢? 

基于大模型的翻译系统对计算资源的需求很高,需要很大的GPU算力才能开展较完整的研究工作,寻找充足的计算资源是我们遇到的最大困难。 大模型一般有非常多的参数,在训练和推理的过程中,计算机运行的计算量是一个非常庞大的数字。 在计算资源有限的情况下,如何高效地训练我们的文言文翻译模型,是一个非常大的挑战。 本次竞赛我们有幸获得了合作企业给予的多台A100 GPU服务器的大力支持,才顺利完成了模型的训练和优化。


硕士生曹家欢讲解竞赛方案


获得冠军后,未来这项技术会进一步推向实际应用吗?

我们团队会继续在古籍理解和保护上深入研究。文言文翻译技术可以和文字识别等技术结合,形成较为完善的古籍数字化和理解方法;也可以和ChatGPT等大模型技术结合,形成可交互的古籍理解系统。如果有足够的算力支持,我们还将开展古籍对话大模型、数字人文大模型、文档图像理解大模型、多模态大模型等方向的研究工作。


团队成果的最新应用


古彝文示例


诚如团队所言,该项技术在古籍理解和保护上有着广阔的应用前景。9月26日,华南理工大学联合上海大学、合合信息发布了业内首个古彝文基础编码数据库,该项目针对现有的《西南彝志》、云贵一带字符,以智能图像处理、智能文字识别等AI技术开展统一编码,使古彝文在数字社会中有了“身份证号码”。


金连文教授担任了该项目的技术负责人。他表示,原生态彝文此前没有被系统性地进行数字化编码,古彝文没有公开数据集,标注困难,所以从最初语料的收集开始,就需要做大量的前置工作。再者,古彝文异体字繁多,每个字的异体写法少则两三种,多则几十种,且字体间风格差异大。因此,建立一个专门的数据库,通过基础编号将不同样式归纳,才能“破解”古彝文“一对多”的关系,解决文字查询问题。


在对7万6千字符的样本进行训练后,团队成功建立了包含上千个古彝文基础编码的数据库。通过API数据接口等形式,该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”一般,帮助人们降低古彝文书籍、文献阅读的门槛。


金连文教授团队学生


创新突破 勇于探索

用科技形成与古人交流的纽带

AI翻译

让文言文通俗易懂

让古语与白话交汇

 是今人与先贤思想的碰撞

是五千年文化薪火的赓续

【责任编辑:曹竞】

原创MV《扣好人生第一粒扣》致敬建队日

中国青年报客户端2023-10-13 15:20:35

黄金档期的动画片怎么“哑火”了

中国青年报2023-10-13 06:41:13

演唱会变身大型KTV 年轻人为啥乐意埋单

中国青年报2023-10-13 06:40:34

【vlog】带你打卡“民族团结花”盛开的千年拉萨八廓街

中国青年报客户端2023-10-12 10:58:38

温暖一平方|用竹子搭一个“小窝”

中国青年报客户端2023-10-11 23:52:21

温暖一平方|浙江省衢州市龙游县迎来首届“水脉艺术节”

中国青年报客户端2023-10-11 10:03:04

不一般的黄河大集,烟火气里升腾齐鲁文化底蕴

中国青年报客户端2023-10-11 17:54:57

首部大学生版黄梅戏《女驸马》公演

中国青年报2023-10-11 07:54:28

年轻人喜欢组的“旅游搭子”靠谱吗

中国青年报2023-10-10 06:43:00

两岸设计师联手描绘数字艺术里的“大美中国”

中国青年报2023-10-10 06:43:47

资讯网营销推广的工具有哪些咀嚼的读音商丘地区电视剧赵丽颖主演学网站设计的学校周易八卦怎样起卦音乐餐厅起名谢苗电影公信树立远大理想电影免费大全电影南京网站建设外贸姓皮男宝起名广东知名网站制作案例灵异真实故事周易解名 免费宝可梦内购破解版堪舆与周易哪家起名公司知名度高槿汐起名寓意太原会战起名佑青春作文张姓起名2019篮球图标的设计网站算命先生怎么说的范姓和王姓起名字襄阳设计网站冬季养生药膳周公解梦梦见和男朋友分手少年生前被连续抽血16次?多部门介入两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”淀粉肠小王子日销售额涨超10倍高中生被打伤下体休学 邯郸通报单亲妈妈陷入热恋 14岁儿子报警何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言张家界的山上“长”满了韩国人?男孩8年未见母亲被告知被遗忘中国拥有亿元资产的家庭达13.3万户19岁小伙救下5人后溺亡 多方发声315晚会后胖东来又人满为患了张立群任西安交通大学校长“重生之我在北大当嫡校长”男子被猫抓伤后确诊“猫抓病”测试车高速逃费 小米:已补缴周杰伦一审败诉网易网友洛杉矶偶遇贾玲今日春分倪萍分享减重40斤方法七年后宇文玥被薅头发捞上岸许家印被限制高消费萧美琴窜访捷克 外交部回应联合利华开始重组专访95后高颜值猪保姆胖东来员工每周单休无小长假男子被流浪猫绊倒 投喂者赔24万小米汽车超级工厂正式揭幕黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发当地回应沈阳致3死车祸车主疑毒驾恒大被罚41.75亿到底怎么缴妈妈回应孩子在校撞护栏坠楼外国人感慨凌晨的中国很安全杨倩无缘巴黎奥运校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变王树国卸任西安交大校长 师生送别手机成瘾是影响睡眠质量重要因素国产伟哥去年销售近13亿阿根廷将发行1万与2万面值的纸币兔狲“狲大娘”因病死亡遭遇山火的松茸之乡“开封王婆”爆火:促成四五十对奥巴马现身唐宁街 黑色着装引猜测考生莫言也上北大硕士复试名单了德国打算提及普京时仅用姓名天水麻辣烫把捣辣椒大爷累坏了

资讯网 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化