“名字无法显示”,困扰着6000万人的日常生活

图片
据不完全统计,全国有超过6000万人的姓名含有生僻字。图为福州三坊七巷的百家姓装饰品。(视觉中国 / 图)
洪⿰韦华(wěi)查过字典,自己名字的含义是“光明、美好”。在数字化社会,这个生僻的名字却让她遇到了不少麻烦。
她的微信实名最初用的是拼音,现在得转成汉字,可由于她买了理财产品,需要先把钱取出来才能做账户更名,而提现又需要和身份证相符的汉字实名,“进入死循环了”。
想买火车票,要到人工窗口用拼音认证12306账户,她花费了很长时间等待后台处理,“这还是在北京,据说外地有的小站根本没有处理生僻字的窗口”。账户有了,也只能购票,不能使用候补买票功能,坐飞机则必须在柜台办理登机后,拿纸质票去盖章。
2022年,洪⿰韦华由于无法实名认证北京健康宝,闭门不出将近一个月,当时超市还没推出派送服务,她靠着家中的存粮和阳台上的小葱勉强过活。她告诉南方周末记者,那段时间考虑过改名,但无法外出是最大的问题,即便能外出,也因没有健康宝无法去派出所现场申请。
同在北京、名字里带“”(dí)字的一位男性网友总结自己的经验,少数有授权流程、可以提供户口本等辅助证明的实名认证(如办理银行卡),能成功办理,大多数如买车险、公租房摇号,都是“给您往上反映”,最终解决不了。他吐槽:“甚至于我一个三十多岁的人了,玩个游戏,实名认证只能用父母的身份证号才能通过。”
2023年4月,一支居住在云南丽江、以鸟为图腾的家族,因信息系统中无法输入显示他们的“nià”姓,氏族里近700人不得不改姓“鸭”。
图片
生僻字征集小程序里,网友上传的部分生僻字。(资料图 / 图)
也有因地名生僻字遭遇日常办事受阻的情况。山东省泰安市岱岳区石蜡社区的居民,至今未能办上房产证。“蜡”是临时替代的同音字,原字为上分下石(⿱分石)。石“蜡”社区位于泰山脚下,是泰山玉的产地,最不缺的就是石头。传说古时候当地人把大石头分成小石头,从而有了“⿱分石”这个字。但这个字一般计算机显示不了,故日常大部分场合只能用“蜡”或“腊”替代。
据不完全统计,全国有超过6000万人名以及大量地名、古籍、方言中包含生僻字,其中多数因尚未数字化,无法在信息系统中正常使用。
刘汇丹是中国科学院软件研究所工程师,他在帮助居民解决问题的过程中发现,安装输入法等软件之后,测绘系统能够正确显示和打印社区地址,而不动产登记系统仍然无法显示。解决生僻字问题困难重重,除了输入法和字库,还需要业务系统配合升级改造。
“有时候感觉我做的这个事情就跟《我不是药神》里面的主角类似,他是给人治病,我是给信息处理设备和信息处理系统治病。”刘汇丹对南方周末记者说。
随着近年来实名制逐步落地,生僻字姓名者的困境愈发凸显。
1
“名字无法显示”者联盟
刘汇丹的姓名没有生僻字,他本以为,生僻字的电子化早已经不是问题。毕竟他的专业研究方向就与中文信息处理相关,前辈老师是中国最早一批让汉字进入计算机信息系统的学者。
直到2020年,刘汇丹发现不是这样。当时,在银行供职多年的系统架构师马誉明找到他,提出许多人姓名里有生僻字,全社会应该共同解决这个问题。刘汇丹感到不可思议:“为什么到现在还有这样的问题?几个生僻字把这些人阻拦得寸步难行。”
刘汇丹与人联合开发生僻字字库和输入法,供银行业等系统使用,后来又和朋友众筹办了一个姓名生僻字处理平台。通过这个平台,天南地北的生僻姓名使用者找到了组织。
、、㱔、……南方周末记者进入“姓名生僻字交流群”,随着一个个招呼,扑面而来的是形态各异的姓名,有的字因为无法显示,被拆成两部分替代,有的字以拼音替代,有的简体字被更好打出的繁体字取代,有的字只能显示一个空白方框。名叫刘㛃(jié)的群友把微信昵称设置成了“名字无法显示”。生僻字使用者们顶着这样的“代号”在信息世界里发言:
“对‘人’生僻的字与对‘机器(IT系统)’生僻的字是两个概念,本群讨论的是后者。”
“我们遇到的困难就是,任何一件和名字有关的事都可能是个坎。”
“只是列举困难群众的事实,难以推动。需要把问题的根子也暴露出来。不然又是文章反响不错,效果一地鸡毛。”
从2020年创建以来,交流群的规模已超过500人,二群也建立起来。作为群主,刘汇丹估计,其中至少有两百多位生僻字姓名者。每个字的背后,也可能聚集了一批“难友”。群友文辰䶮(yǎn)加入的“䶮”字群,成员将近300人。
几乎每天都有群友分享自己在日常生活中遇到的不便。由于自己姓名里的生僻字无法在业务系统中显示或正常处理,办理银行卡、驾照,报税、报销,甚至购买海外商品等这类其他人能轻松完成的事情,对于他们而言都是一道道关卡。群里除了生僻字姓名者,还有金融行业处理生僻字的专业人员、公共服务机构和相关部门的工作人员、学者等。
“本身姓名有生僻字的人比例很小,又比较分散,如果不是最近上了热搜,可能大家还不会这么关注。因为有这个平台,把这拨人集中到一个微信群里面,大家互相交流一下办事的经验。有句古语说,久病成良医,他们现在大概也是这样一个状态。”刘汇丹对南方周末记者说。
图片
在信息化社会,姓名中的生僻字能让一个人寸步难行。图为2023年沈阳一家商场里的姓氏文化装置。(视觉中国 / 图)
2
76%的汉字都有可能是生僻字
(xí)庆拥有一个绝大多数人无法正确叫出的姓氏,他的生活里也充满了不便。学生时代,信息无法录入学籍系统,工作后,碰壁之处更多了。贷款无法获批、不能购买保险。在他最初缴纳社保时,“”字用“葸”(xǐ)字代替,社保局出具证明,证明这是同一个人。2021年社保系统升级,后台数据自动对齐人口库信息。然而,在社保局的系统里,“”却只能显示两个问号,导致无法制卡,庆多次投诉,反馈都是修改量太大,暂时解决不了。
生僻字电子化困境的源头在于,目前许多社会公共服务的信息系统仍在使用GBK编码字符集,与最新的GB 18030-2022编码字符集标准相比缺失甚多。技术上的遗留问题意味着,76%的汉字都有可能是日常生活中无法输入或显示的生僻字。
汉字编码标准GBK发布于1995年,只收录21003个汉字,许多姓名、地名中的生僻字并不包含其中。2000年,新的汉字编码标准GB 18030发布,并于2005年发布第二版。GB 18030共收录7万多个汉字,在GBK的基础上增加了中、日、韩语中的汉字和少数民族的文字及字符,基本能承担生僻字的表达。
但由于大部分业务系统数据库设置的编码字符集依旧是GBK,未收录的生僻字往数据库里存储时,就会变成问号。庆遭遇的便是这种情况。
刘汇丹指出,“很多信息系统积累了大量的数据,要做数据库的数据迁移,就是把原来的GBK重新建一个GB 18030或者是UTF8的数据库,把原来的数据导到现在的库里面。本身这个操作理论上比较简单,但实际操作会有风险,而且可能很少能找到有经验的技术人员。”
名字里带“”字的群友认为,“现在的‘费时费力’是当年开发系统的时候没有按照规范开发导致的,就好比一个一年级学生学的加法是1+1=3,一直学到高中了,那改起来是很痛苦。”
从占比来看,生僻字用户占中国总人口比例较低,业务机构是否会为这4%的人群付出系统改造的成本,在过去基本取决于对该问题主观的重视程度。
国家市场监管总局于2022年7月发布《信息技术 中文编码字符集》强制性国家标准(GB 18030-2022),要求到2023年8月1日,政务服务和公共服务的产品与系统要支持标准内的87887个汉字。
刘汇丹参与了新国标修订工作,他认为GB 18030-2022“虽然是一个强制性的国家标准,但是当前相关的监督执法工作几乎没有。目前市场通用的输入法只到2万多字。虽然国家标准本身没有要求支持那么大的字量(8万多字),但是大企业还是应该有责任感,对标最全的字库、最新的标准”。
洪⿰韦华指出,前端过滤同样是一个痛点。“哪怕没有生僻字字库导致无法正常显示也没关系,起码不要做GBK过滤,让前端拦截生僻字。一般只要前端不拦截,哪怕无法正常显示,也能通过实名认证。”
症结在于1995年发布的GBK里2万多个汉字的Unicode编码范围(名为“\u4e00-\u9fa5”的正则表达式)。这套编码范围沿袭至今,如今大量的程序开发书籍、互联网文章仍然采纳该正则表达式,广大程序员受其影响,开发的各类系统几乎都按此不完整的正则表达式对录入的姓名进行校验(其中包含一些近期开发的政府网站和面向公众服务的应用系统),导致大量生僻字姓名使用者在第一步实名注册时,就被“非法字符”的提示拒之门外。
3
外观相同的字,也未必“正确”
“䶮”字本是南汉皇帝刘䶮的自造字,后人将其解读为“飞龙在天”。文辰䶮的名字听起来霸气,缘由却是母亲度日如年的孕期。母亲怀文辰䶮时始终很辛苦,长期卧床,离不开氧气瓶、浓糖水和高渗葡萄糖。她时常独自在家,每过一天,就用笔在日历上画个圈。“儿子属龙,时间又如此难熬,于是就有了他名字里的‘䶮’。”
2019年文辰䶮高中毕业后发现,离开了熟人圈子,自己名字的正确使用成了一件需要捍卫的事。母亲曾劝他改名,他坚持不改,说要努力去改变。2020年,他拿到了“改名后”的身份证与户口本,曾用名栏的名字与现在的名字从外观上几乎看不出差异,但只有生僻姓名使用者知道背后的隐情——两个字的编码不同,原编码没有被很多系统收录。
这被称为“一字多码”,是造成生僻字姓名者寸步难行的重要原因之一,它同样是个历史遗留问题:在国际标准与国家标准设立时,曾划出一小片编码区块,本意是让用户小范围内自定义使用(即Private User Areas,PUA),但个别涉及对外信息交换的系统,也使用了自定义PUA编码,这导致许多生僻字存在两个以上编码。
刘汇丹创立的姓名生僻字处理平台上,有一个户籍查字功能,能同时提供姓名生僻字的正式码和PUA码,使用者通过直接复制编码来解决一字多码的问题。
户籍管理部门总共造了4700多个PUA字,目前大部分已有正式码。马誉明指出,PUA码权宜性地解决了早期居民户口登记问题,由官方标准收录后的生僻字,应空出码位,移入正式字区。然而,在发行二代身份证时,由于技术条件、人员认知的限制,导致不少证件仍然在使用临时码。同时,由于这些PUA编码未对公众公开,导致用字人只能“闭门造车”,自己使用另一编码造字,最典型的是搜狗输入法造了415个PUA码字。
腾讯业务公关侯芳负责生僻字项目,她表示,搜狗在推进把这些PUA码的字去除,“估计在2023年第二季度能够解决”。
不久前,一个用户向她反馈,自己在广州考过了一个初级证,继续报考中级时,系统查不到此前已经考过初级的信息,费尽周折才了解到,初级证书上的名字和现在输入的名字看起来是同一个字,实则编码不同,因此无法比对通过。
最终是以复制粘贴原来输入字的方式解决了问题。侯芳感慨,“像他(她)是属于学历比较高的,知道去寻求一些帮助。但是对于很多用户,真的是不知道往哪里去解决,很多人就会觉得是自己的问题,我应该换名改姓。”
文辰䶮在那之后恶补了大量知识,以此和各行各业的人斡旋,办理银行卡、驾驶证和各种实名认证,都是他反复与主管人员沟通推进的结果。有时,他个人问题的解决能推动业务部门系统升级,这是最理想的情况。有的机构则选择以“打补丁”的方式处理,把他的名字单独存进去,单独调取,这种处理办法治标不治本。
他曾写信向国家有关部门反映生僻姓名使用者的困境,“希望国家能同‘适老化App改造’一样,给予‘生僻字’群体同等的重视”。
“很多问题落到实处,需要的是人与人沟通,要耗费大量的时间精力。但难也难在这里,如果没有强大的抗压(能力)和足够的底气,很容易被踢皮球、甩烂锅,让一切重回事情的原点。”文辰䶮告诉南方周末记者,自己现在已经基本解决了日常问题,但“䶮”字群里的296个人,绝大多数不了解问题根源,没有有效的方法和手段维护自身权益,“个体差异化非常大。”
迥异于当前AI等前沿领域的红火热闹,从事汉字信息处理工作,刘汇丹对行内人关于“坐冷板凳”的描述深有体会。除去希望用自己积累的专业技术解决问题,养活自己和团队以外,刘汇丹对被边缘化的生僻字姓名者有一份特殊感情,“接触到这些人之后发现他们的生活太困难了,我自己于心不忍”。
图片
文辰䶮户口本上的姓名和曾用名,两个字看起来外观一模一样,其实编码不同,他因此遇到过很多麻烦。(受访者供图 / 图)
4
进行中的完整解决方案
2023年4月20日,第十四个“联合国中文日”当天,“生僻字征集”小程序上线,面向大众征集在字库“扩容”基础上仍无法打出的生僻字。
在上传的生僻字中,大部分已有了编码,尚未被赋码的字,将由工信部电子工业标准化研究院考证、审查后,赋予相应编码并收录进国标字库;腾讯搜狗输入法随之完成适配,汉仪字库为新编码汉字设计字形,之后便能在电脑、手机等信息系统中输入并显示目标生僻字。
能提供生僻字完整解决方案的产品,需要同时具备字库与输入法,刘汇丹告诉南方周末记者,国内目前有5家厂商能做到,“因为一群人背后默默的努力,生僻字的产品市场价格已经从天价腰斩。供应商多了,价格下来了,才能有助于解决问题吧”。
在生僻字处理方面,行业之间有着霄壤之别。金融行业远远领先,这既由于金融业本身是信息化程度最高的行业,更取决于其重视程度。2022年6月24日,中国人民银行正式印发《金融服务 生僻字处理指南》金融行业标准,规范生僻字输入、显示、打印、信息交换、存储、内部培训和投诉处理等各阶段的方法。首先是银行,目前传导至保险和证券行业,整个金融行业都把生僻字处理当成非常重要的工作来推进。
在“姓名生僻字交流群”里,一些银行的专业人员直接当起“客服”,面对群友的问题手把手指点。一家机构在生僻字处理上做得好或不好,常常在群友的评点中无所遁形。文辰䶮认为,“蚂蚁(支付宝)一直走在前列,非常重视生僻字,和各个机构一直在推动互联”。在支付宝实名认证环节,能够兼容处理生僻字姓名的多种变体,如PUA码、正式码、拼音、拆字、繁体字替代等。
2022年6月,蚂蚁集团成立了生僻字项目组,在支付宝平台上攻坚生僻字处理。工程师胡义兵与彭少华见证了这个小团队慢慢扩展到现在超过20人。
许多生僻字用户因无法正确打出姓名,在实名认证环节被卡住,他们为此研发了生僻字键盘,除了拼音,也能把字拆成几部分输入,如“䶮”,打出“龙天”也能找到。
解决系统互通互认问题的技术要点则在于,收录生僻字各种形态的映射表,做转码映射,帮助业务系统认定两个不同替代形式的字是同一个字。
虽然只是一个小步骤,但背后还涉及上下游系统的协同。胡义兵指出,“除了支付宝自己一些金融的、支付的业务之外,还有成千上万的小程序,比如说查公积金、查社保等等。只要是生僻字这条链路,可能都会遇到卡点,这就需要我们去配合国家有关的政务机构,逐一去打通,不仅仅是我们支付宝这一个机构努力就能完成的。”
5
生僻字意味着什么?
因为每天都在各种群里回消息,彭少华和一些生僻字用户成了朋友。其中一位叫健。健住在甘肃酒泉,他们家族的人基本聚居在甘肃、陕西、宁夏等西部地区,他还发来族人做的详尽的姓渊源考据。彭少华看完后感觉,一个生僻的姓氏,就是中国古汉语演变史的缩影。
在现实困难面前,许多亲戚选择改姓“葸”。健坚决不改。这位兰州大学临床医学专业的毕业生也是个古汉语爱好者,他实在不喜欢“葸”这个字,它唯一能组成的成语是“畏葸不前”。更为重要的是,这个从元代就诞生的古汉字,沿用流传了七百多年,活过了农业文明、工业文明,却活不过数字时代?这是他无法接受的。
中文的演变情况复杂,生僻字主要有两方面来源——时间与空间。历史积淀越长,字数越多,相对便有更多的字在不同时代的人际交流中淡出,同时,广阔的地理空间使得方言中保存了大量地名、姓名生僻字。
中国社会科学院语言研究所研究员谭景春举例,在畜牧业较为发达的时代,古人造了许多字来描述马,对马的分类十分详尽,如騑指三岁的马,駣指三四岁的马,畜牧业衰落后,这些字自然就减少了使用频率,变得生僻。
他强调,历史上存在过、已有古籍记载的生僻字,应予以承认,在相关的辞书中有所反映。现在一些家长倾向于选取生僻字给孩子命名,谭景春认为至少不应该提倡,“可能满足一些需求,但是造成的负面影响更大。对孩子不管是书写、别人的称谓、上户口,都会造成很多麻烦”。一些常用字的组合,同样能达到富含寓意的效果。
谭景春向南方周末记者表示,历史积淀形成的生僻字层出不穷,是古人今人共同的处境。然而,“以前不管是信息沟通,还是交通,都不方便,来往少,现在交流太多了。而且现在进入了信息时代,汉字用电脑输入代替了用手书写,所以生僻字数字化非常重要,是咱们交流的基础。”
潮汕人黄杭的名字带着故乡的印记,这个方言中特有的字,意思是“足够”。“汉字是中国文化的一部分,不应以实际使用的频次来定义汉字是否具有存在意义,甚至决定汉字的去留。”她说。
“⿰土只(zhuài)头”是江苏省宿迁泗洪的一个村名,有人在“生僻字征集”小程序手写上传了“土只”字的图片,并讲述了在商伟凡的《天地经纬 地名纵横谈》中读到的一段往事。当地一位老教师说:“多少年来,每逢新生入学第一课,我都要教他们认识家乡的名字——⿰土只头村。这个⿰土只字,笔画并不多,左为土,右为只。学会之后,孩子们总要问:咱村儿这么大,当年又是新四军的抗日根据地,为什么《新华字典》里没有这个字,连《辞海》里都找不到?”这位网友最后写道,“现在这个字已经编码,也算了却了老先生的一部分心愿,希望能早日在电脑上便捷地输入、交换这个字。”
(应受访者要求,马誉明为化名)

资讯网地道战观后感30字女孩起名字土seo基础培训班开茶叶店怎么起名字向着炮火看看家装设计效果图网站属鼠的起名带哪个字好网游之全球在线寒蝉鸣泣之时第二季周易测算是真的吗超级武圣姓尹的男孩起人名很吓人的鬼故事公司网站设计实现高端建设网站企业纸箱厂起什么名字玄奥周易选号起名 经典属鼠的起名带什么字好吗网页设计与网站建设教程企业网站排名提升软件优化导航网站怎么优化百度网站关键词优化排名张家港外贸网站制作十大宇宙未解之谜绿化公司取名起名大全参考周易生辰八字免费起名测算结果给姓钟的宝宝起名子最好的交友网360免费算命生辰八字少年生前被连续抽血16次?多部门介入两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”淀粉肠小王子日销售额涨超10倍高中生被打伤下体休学 邯郸通报单亲妈妈陷入热恋 14岁儿子报警何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言张家界的山上“长”满了韩国人?男孩8年未见母亲被告知被遗忘中国拥有亿元资产的家庭达13.3万户19岁小伙救下5人后溺亡 多方发声315晚会后胖东来又人满为患了张立群任西安交通大学校长“重生之我在北大当嫡校长”男子被猫抓伤后确诊“猫抓病”测试车高速逃费 小米:已补缴周杰伦一审败诉网易网友洛杉矶偶遇贾玲今日春分倪萍分享减重40斤方法七年后宇文玥被薅头发捞上岸许家印被限制高消费萧美琴窜访捷克 外交部回应联合利华开始重组专访95后高颜值猪保姆胖东来员工每周单休无小长假男子被流浪猫绊倒 投喂者赔24万小米汽车超级工厂正式揭幕黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发当地回应沈阳致3死车祸车主疑毒驾恒大被罚41.75亿到底怎么缴妈妈回应孩子在校撞护栏坠楼外国人感慨凌晨的中国很安全杨倩无缘巴黎奥运校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变王树国卸任西安交大校长 师生送别手机成瘾是影响睡眠质量重要因素国产伟哥去年销售近13亿阿根廷将发行1万与2万面值的纸币兔狲“狲大娘”因病死亡遭遇山火的松茸之乡“开封王婆”爆火:促成四五十对奥巴马现身唐宁街 黑色着装引猜测考生莫言也上北大硕士复试名单了德国打算提及普京时仅用姓名天水麻辣烫把捣辣椒大爷累坏了

资讯网 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化