创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
美女教师 保存汉字的百年费力,能让它留在AI期间吗? - 母子姐弟
丝袜美腿

美女教师 保存汉字的百年费力,能让它留在AI期间吗?

         发布日期:2024-11-09 22:14    点击次数:126

在倾注数十年心血后美女教师,1946 年 4 月,林语堂告捷发明了机械式中文打字机,取名“明快”,并向好意思国专利局提交了苦求。打字机键盘的 64 个键泄漏汉字的偏旁,8 个数字键用来选字,一共能打约 9 万个汉字。

林语堂是中国少数告捷的双语作者,出书了几十本中英秘书,不啻一次赢得诺贝尔体裁奖提名。但对他来说,中文打字机的发明和应用是其一世的梦想。为了研发,他用尽了我方畅销书的版税,欠债高达 12 万好意思元(很是于当今的 140 万好意思元),简直歇业。

虽然打字机称愿诞生,但这项翻新型的创新流年不利,遇上了中国内战和好意思苏冷战。林语堂 1948 年以 12 万好意思元的失掉价钱卖掉专利。到 1952 年专利持重获批之时,中国与世界依然大为不同。没能应用的明快打字机,成了林语堂的毕生缺憾。

耶鲁大学考验石静远(Jing Tsu)以为,长久来看,林语堂的费力是值得的。明快打字机将汉字书写体系导入了电传打字机等规模,也将汉语推向了世界舞台。它还为不久后发展起来的诡计机本事建筑基础(如机器翻译),对中国和西方来说均是如斯。

林语堂不是孤例。石静远发现,在汉字可能消一火之际,几代才略超卓的中国东说念主为救援汉字曾付出惊东说念主且具有创造性的费力,这些费力最终保全了汉字。但这些东说念主物与历史当今大多被淡忘或忽视。比如除了林语堂,航空工程师周厚坤也发明了中文打字机,他曾说,“文字无罪”。

那些号令肃除汉字的东说念主是更闻明的东说念主物,如鲁迅、陈独秀、瞿秋白、钱玄同。鲁迅说过“汉字永恒,中国必一火”。拉丁文字报 SIN WENZ BAO(《新文字报》)1940 年诞生于陕甘宁边区,已成为照顾汉字拉丁化的经典素材。

石静远将林语堂、周厚坤这些“边际”东说念主物与历史写成文章《汉字王国:让中国走向现代的话语翻新》(Kingdom of Characters:The Language Revolution that made China Modern)。这本书的英文版在 2022 年出书,并在 2023 年推出简体中文版。英秘书名中的“character”有“字”“东说念主物”的双重含义,亦然该书的主题。

本年 1 月,因患咽喉炎无法发声的石静远,接受了“误点 LatePost”的邮件访谈。

她认为,在一连串巨变的刺激下,中国东说念主启动行动,费力使我方的话语达到与西方字母话语同等的地位。从草根人人到现代中国的最高辅导层,包括常识分子、教师、工程师、普通公民、乖癖的发明家、职责所在的藏书楼照料员和话语调动者在内,人人全体动员,为寻求汉字的前途,发起了一场 1000 年来最生命交关的翻新。

“今天东说念主们所学所用的每一个汉字背后都站着一群为此插足了浩荡元气心灵的东说念主。这些东说念主仅凭着对汉语的执着与爱好,满腔抱负,筚路褴褛,开辟了一个探索和翻新的世界,开启了一段神勇而艰险的旅程。”石静远在《汉字王国》中写说念。

《汉字王国》的每一章都是对于汉字走向现代的一个支路口。石静远印象最深的是那些让汉字活下来成为可能的个东说念主。“他们的奉献精神和腐烂程度令东说念主颤抖,他们但愿汉字能在现代社会生涯下去的愿望令东说念主感动。”她心爱藏书楼学者杜定友的乖癖精神,他在战时护送数十万册典籍,以确保它们的安全。他不仅发明了一种索引法,还造了一个字 “圕”(发音念 tuǎn,风趣为 “藏书楼”)。

石静远对中文翻新的系统推敲始于 2010 年出书的专著《中国闹翻境遇里的声息和书写》(Sound and Script in Chinese Diaspora)。这本书探讨了中国大陆之外的作者,如何将汉语算作表达文化包摄和互异的绪论,其中有一章聚焦的恰是林语堂的打字机。自那以后,她称我方像童话里的女孩爱丽丝一样,掉入了 “兔子洞”,开启一段奇妙之旅。

她想进一步探究,中文和英文的本事竞争如何从翻译问题演变为数字期间的信息干戈?更首要的是,算作一个侨民,她一直想以一种清新且易懂的方式论述中西方之间的故事。

她以为,话语创造并翻开了世界。每个东说念主都知说念被污蔑的嗅觉和含义。几个世纪以来,汉字一直是中西方困惑、竞争和文化险阻的根源。推敲中国科学史的英国粹者李约瑟,就称汉字为“长城”。在中西交流史上,阅历过冒昧、落空、接受和摒除的戏巨变化。通过推敲字母和表意文字系统之间的互动或冲突,基本上不错勾画出这种干系的升沉。

此前,石静远的专科是中国现现代体裁,推敲转向汉语信息本事和话语翻新,她以为贼人心虚。因为她从不讲理于只作念一个坐在扶手椅上的体裁学者。她心爱从体裁基地动身,穿梭、漫游在不同的常识海洋,试图以新的方式将各点推敲起来,然后重新总结体裁推敲。

“体裁推敲是我了解万事万物的后台通行证。”石静远对“误点 LatePost”说。

中国境内的交流

《汉字王国》的篇幅只须 200 多页,但东说念主物和事件繁密,论述了从 1900 年到 2020 年整整 120 年的历史。这注定它是一部简史,莫得同类专题文章紧密、真切和复杂[1]。但也不错将它看作一册初学的导览。而且,由于作者采纳非编造写稿手法,文笔优好意思,可读性强。

第一章的着手,这么写说念:

“20 世纪的第一个春天。红松花依然怒放,泰山之巅仍笼罩着结拜白雪。一天薄暮,一个沙门在无东说念主注意的情况下到达了清王朝的东北海岸。暮色初临,他在烟台港下了船。船埠上一派嘈杂,却压不住响亮的笛韵歌声。在这个不久前被英国占领的方位,英国战船交易巡查,探照灯有轨则地来去扫过突入海中的岬角。沙门沿着海岸线急促而行,他那布满灰尘的僧袍中藏着一份将永恒改变汉语世界的文献。”

“其后见过这位行脚僧的东说念主若何也想不到他能作念出如斯惊世之举。他相貌普通,鼻子宽宽,两颊凹下,严厉的眼光偶合与他紧抿的嘴唇相当。……其实,这个衣衫褴褛、满面风尘的东说念主是个假沙门,他用的名字亦然假的,他的本名是王照。……往常两年间,他是朝廷重金赏格的钦犯。……王照归乡的愿望压倒了对被捕的胆寒。他筹办先到山东,然后迂回回到家乡——朔方口岸城市天津。他白昼执政地里打盹,夜里借着星光赶路,最多整宿走 24 公里。”

王照是 1898 年戊戌变法的号召者之一。变法失败后,为回避清廷捉拿,他逃到了日本。流一火期间,王照完成了他心目中的救国之法,迫不足待冒险归国。他的救国想路是,要救国得新民,要新民就得提高国东说念主的识字率,而要提高识字率就得斡旋国东说念主的读音,也即是配置一种中国的步骤话语。

秦朝的“一轨同风”斡旋了书面文字,但莫得斡旋白话,各地都有方言,像朔方东说念主和南边东说念主常常无法交流。但跨区域的官员们必须调换,他们迟缓发展出一种步骤话语,清朝时称之为“官话”。受地舆影响,“官话”也可细分,包括东北官话、北京官话、江淮官话、西南官话等等。

那份藏在王照僧袍里“改变汉语世界的文献”叫《官话合声字母》。在这本线装小册子里,王照利用汉字的 62 个基本组成部分来代表发音,创造了一套注音鲜艳系统来高傲一个整字的读音。他亦然提议将“北京官话”算作国度步骤话语的第一东说念主。

经过费力,逃犯王照以一名出书的《官话合声字母》迟缓在民间有了名气,致使出现抄袭或者稍加调动的版块。还有东说念主谎称官话字母的旨趣是另一册韵书提倡。王照无法隐忍我方的名声被污染。他决定夺回官话字母的总计权,以确保官话字母得到适合采纳和传授。

1904 年,王照投案自首,被判终身拘押。不外两个月后,为庆祝慈禧七十大寿,清廷赦免了除康有为、梁启超之外的总计戊戌变法参与者,王照也得以出狱。清廷其后接受了改进版的官话字母。到 1906 年,王照的官话字母启动在中国一半以上省份用于学童的汉语讲义。

1911 年辛亥翻新后的次年,中华民国涵养部涵养读音斡旋会制定“国音”,王照是 80 名代表之一。“国音”的照顾特殊热烈,广东代表想用粤语、四川代表力推四川话……每个方位的代表都想让我方的方言变成“国音”。

石静远记载了照顾中的一个插曲:一位吴地代表和邻座提到“人力车”,听惯了朔方官话的王照以为是在骂我方“王八蛋”。他从座位上跳起来要揪那东说念主的领子,致使追出了会议厅,“长长的走廊里逃逸者急促的脚步声袪除在王照的如雷吼怒声中”。吴地代表被吓得不敢回来开会。照顾最终,朔方官话成为“国音”。

“国音”的出现意味着中国有了步骤的“国语”,境内的交流险阻被冲破。中华东说念主民共和国涵养后,在“国语”的基础上,才有了“普通话”。

图片来自:《汉字王国》

在王照版官话合声字母基础上,发展出来的“注音鲜艳”与“汉语拼音”发音的对应表。面前,中国台湾延用民国的注音鲜艳,中国大陆采纳 1950 年代发明的汉语拼音。

为了保持叙事精辟,石静远“忍痛割爱”了一些让我方兴奋的发现。比如她曾与两位顶级神经科学家交流。一位是她在 2015 年春天的洛杉矶见到的欧文·比德曼(Irving Biederman),现已离世。

比德曼在 1983 年发表的一篇文章开启了东说念主类“识别”的推敲。他的实验发现,若是 A 画出一个咖啡杯的空洞,然后擦掉几条线,B 仍然能认出是一个杯子,因为大脑会为 B 填补空缺。但若是 A 擦掉空洞的要害部分,比如线条相交的方位,那么 B 就无法识别出杯子。事实解说,在模式识别中,东说念主类更心爱相交的线条,而非贯串的线条。

另一位是她在 2015 年夏天的巴黎见到的斯坦尼斯拉斯·迪昂(Stanislas Dehaene)。她想解说或者推翻一个神话:比较字母文字,用中体裁习、想考、阅读和书写照的对大脑的职守更大吗?因为 16 世纪以来,中西之间的许多争议都归罪于对这一互异的剖析。其时她和迪昂还照顾了如何想象一个实验来探究谜底。

其后典籍裁剪以为莫得神经科学的内容,叙事会更连贯,是以终末她就没写。但前边问题的谜底是:对,也分歧。石静远解释,学习中文需要更多启动成本,但一朝学会,阅读速率就会更快。事实上,大脑能相宜任何可用方法。阅念书面话语的才略配置在大脑中更深档次的结构之上,这些结构适用于识别模式。“仔细想想,汉字中充满了线条过火交叉点。”她说。

汉字与诡计机的交流

从发掘材料的角度看,《汉字王国》最为出色的是第六章(诡计机若何输出中文)和第七章(数字期间的中文化圈),尤其第七章简直全部基于作者的访谈和实地拜访。它们也共同组成信息期间的汉字翻新图景[2]。

1968 年,“牛棚”里的支秉彝意兴索然地生出念头:如何将汉字变成一种不需缅想,见到字就可按键输入诡计机的代码话语?

支秉彝意志到,要惩办这个问题,需要开发一套为每个汉字编码的系统。在六平方米的囚室,他用一支偷来的笔在粗略的陶制茶杯盖上,写下密密匝匝的几十个字,试着把每个字与一套可能采纳的罗马字母相对应。然后他把杯盖擦净,每天靠脑子记载历练进展。

24 年前,支秉彝在德国莱比锡大学赢得物理学博士学位。为了报効故国,他回绝了好意思国的高薪就业和侨民契机,遴选归国效能。他先在浙江大学等高校任教,后进入实业界,参与制订了里程碑式的《1959—1967 年科学本事发展出息筹办》。到 1964 年,支秉彝担任新涵养的上海电工仪器推敲所长处,负责推动中国电子通讯本事的发展。但出乎预见的“文化大翻新”,暂停了他的通讯功绩。

1969 年 9 月,支秉彝离开“牛棚”,被分拨从事扫地、看护仓库、在工场作念模具等做事更正就业。他把仓库当书斋,存放捡来的番邦报刊,连续埋头推敲汉字编码。他从这些报刊了解到,日本、好意思国等都在激动汉字的诡计机化。支秉彝大感得意,以为我方不是孤军作战。

最终,支秉彝决定团结“偏旁”“笔顺”“拼音”“笔画”来为汉字编码。他按照字的笔顺摆列组成该字的各个偏旁的纪律,使用每个偏旁的第一个拼音字母组成字的代码。比如“路”可分为 4 个偏旁:口(kou)、止(zhi)、攵(pu)和口(kou)。每个偏旁的首字母组合后即是“路”的代码“KZPK”。

代码限定为四个字母,是以若是测字后只须三个偏旁,则第四个字母泄漏这个字的终末一笔,比如“患”拆分为口(kou)、中(zhong)、心(xin)三个偏旁,末笔为“丶”(dian),代码则为“KZXD”。若是测字后是两个偏旁,除了末笔,再加一个本字泄漏代码。比如“吴”拆分为“口”(kou)、“天”(tian),末笔为“㇏”(na),本字为“吴”(wu),是以代码是“KTNW”。

1978 年,支秉彝在中国的《天然杂志》上持重先容了他的“见字识码”系统。除上述中枢原则外,他还补充了一些规则,以保证编码的唯一性。这种使用 26 个字母、4 个字母一组的编码方式的最大字码容量约为数学公式: 26⁴≈ 46 万,远超中国东说念主的常用汉字数量(3500 字)。

在那篇文章收尾,支秉彝瞻望了“见字识码”的应用,并辞谢地泄漏:“‘信息化期间’的一个首要课题是‘汉字(语)信息化’。通向‘信息化期间’的殿堂,也许还有千家万户,‘见字识码’方法能不行为翻开其中一扇派系孝顺一把钥匙呢?”

支秉彝的发明在 1978 年 7 月 19 日登上了《文陈说》头版——“汉字进入了诡计机”。那年底,十一届三中全会召开,调动敞开启动。亦然在这一年,支秉彝回到了上海电工仪器推敲所(新名为“上海仪器边幅推敲所”),两年后他当选中国科学院院士。

 “见字识码”发晴明,被上海电话局最初应用,并激发了汉字编码推敲的高涨,1980 年代涌现了 400 多种汉字编码输入法。在这些有筹办中,中国的“70 后”和“80 后”最熟悉的可能是王永民在 1983 年发明的“五笔字型输入法”,但对于“90 后”和“00 后”来说,“智能拼音输入法”才是他们的集体缅想。

惩办了汉字输入诡计机的贫苦,下一个问题则是如何将汉字变为数字输出信号。

1972 年尼克松访华之后,中国的海外干系改善。新华社于次年访日,参不雅了共同社,目击其如何印刷带有汉字的报纸。石静远叙述,新华社一滑东说念主看得满心惊奇,又备感狼狈。他们看到日本的排字工东说念主衣着白大褂,不慌不忙、如释重担地敲击键盘。就业样子如同病院病房一样干净整王人。而中国国内,印刷和通讯仍延续前几个世纪的工艺,主要用热排版术。印刷车间油污随处,噪声震耳欲聋。

1974 年 8 月,新华社和第四机械工业部纠合第一机械工业部、中国科学院、国度出书局,全部向国度筹办委员会和国务院发出号令,条目把汉语信息处理算作国度科技发展筹办的优先事项。神情赶紧得到批准,因批准日历是 1974 年 8 月,取名“748 工程”。

“748 工程”的功勋东说念主物是王选。他发明了第四代影相排版机,使用激光来裁剪和排版汉字,被誉为“现代毕昇”。王选的突破在于恰到自制地压缩字形——压缩太多可能会影响最终输出汉字体式的质料,压缩太少虽然粗略保证字的了了,却惩办不了缅想量过大的问题。

他将汉字笔画分为直线(横、竖、折)和弧线,每种直线对应一个数字代码,弧线则用数学上的矢量标明一个字中每条线的开首、长度和标的。通过配置一个数学公式,汉字被数字化了,达到压缩主见。最终,王选的压缩有筹办不错让汉字按比例收缩到 1︰500。

但他想象的汉字生成器需要高档诡计机芯片承担中央抵制的任务,中国分娩不出这种芯片。早在“文革”前,中国的芯片产业就逾期于好意思国等国。“文革”期间,英特尔发明了微处理器,日本在全球存储芯片市集上占据很大份额。“文革”舍弃后,中国的芯片产业百废待兴。

1979 年,王选迎来了他的贵东说念主李凡(Francis F. Lee)。李但凡麻省理工学院(MIT)电机工程学和诡计机科学的考验。他来中国的官方就业是匡助清华大学涵养第一个微信息处理实验室。这是石静远发现的被淡忘的孝顺者之一。她找到了李凡的儿子访谈,并看了李凡的私东说念主信件。

李凡在南京长大,1948 年离开中国到 MIT 上学,两年后就赢得电机工程学的学士学位,并启动攻读博士学位。出于供养妻儿的商量,他没读完博士就去公司就业,参与诡计机本事的前沿推敲。他先在好意思国无线电公司(RCA)供职,后去了雷明顿兰德公司的 UNIVAC 超等诡计机部门。1964 年,李凡回到 MIT,花了 16 个月拿到博士学位,并受聘为终身考验。

王选向李凡先容了我方的推敲。李凡深表钦佩,说他依然指派我方在 MIT 的一个博士生推敲汉字排版的课题,邀请王选去好意思国连续开展这个神情。王选持重想索了很久,终末婉拒了邀请。

石静远先容说,其时中国东说念主才大都外流。“748 工程”养精蓄锐想留住就业主说念主员。一次,一位神情照料东说念主致使下跪恳求诸君工程师留住。尽管如斯,不少顶尖的科学家和工程师照旧离开了。有些东说念主再也莫得回来。

离开中国前,李凡送给王选一件临别礼物。那是一册手册,先容了用于高性能处理的最先进的“Am2900”模块半导体芯片。“Am2900”仍在测试阶段,尚不决型。手封爵面上印着“研发中”的字样。石静远称,“这本手册改变了一切”,匡助王选完成了本事发明的终末一步。

1981 年,王选造出了诡计机汉字激光照排系统的第一部国产原型机——华光一号,后持重插足生意市集,并数次改进、走出洋门。1986 年,王选以他在北京大学的“748 工程”推敲为基础,创立了正直集团。石静远以为,正直集团是“中国的据说”,亦然一个“独有的搀杂体”——既有大学、政府参与,也有市集的力量加入,是“社会主义与成本主义创业新实践的团结”。

汉字文化圈的交流

跟着信息期间加快到来,互不相容的编码系统组成东说念主们的交流险阻,催生了斡旋编码的需求。第一套得到往常招供的编码步骤是 1960 年代早期发展出来的好意思国信回绝换步骤码(ASCII),但 ASCII 是为字母文字系统想象,并未商量汉字系统。到 1988 年,硅谷的工程师乔·贝克尔(Joe Becker)提倡“斡旋码”(Unicode)。

贝克尔等东说念主发起涵养了非渔利组织“斡旋码定约”。他们的生机得意东说念主心:斡旋码能起到总调换器的作用,涵盖各式话语总计现有的国度编码步骤。它将把包括西方文字和汉字在内的总计东说念主类文字系统归总到一套步骤之下,给每个字分拨一个步骤码,可在职何机器之间畅达。

但石静远指摘说念,他们“没特意志到话语文字的本事从来都是政事问题”。他们要斡旋亚洲的文字代码,殊不知牵缠的问题远比输入和输出方面的不兼容大得多。

比如,日本东说念主牢骚说,斡旋码定约背后是好意思国诡计机巨头的产业与生意利益,以好意思国大公司的利益为主来决定海外步骤是不公正的。韩国东说念主以为,字符编码斡旋忽视了一个事实,那即是汉字书写传统在东亚实质上依然演变为不同的文化系统。

一个基本问题是,应该把哪些字算作最常用的字纳入斡旋码的官方字符集?而且 “常用” 是对谁而言?斡旋码堪称代表东说念主类总计文字,但有些字在日本使用的频率比在中国或韩国高。还有,通用字符集应该以繁体字照旧简体字为基础?

为惩办汉字文化圈里面的争端,中国、韩国、日本在 1993 年涵养了表意文字就业组,次年越南也加入其中。表意文字就业组由斡旋码定约和非渔利组织“海外步骤化组织”纠合监管,每年开两三次会。会议内容是来自不同地区的就业组成员仔细扫视千千万万个字符,代表们常常争吵约束。

比如有些字历经好几个世纪后,时局发生了改变,却在日本和中国仍然具有一样的语义,那要斡旋吗?“読”和“读”即是例子。再比如,“骨”字在中国大陆(内地)、中国香港和中国台湾的写法不同,需要编三个码吗?照旧斡旋为一个码?

“骨”字在中国香港、中国大陆(内地)和中国台湾的不同写法,图片来自:《汉字王国》

石静远参加了表意文字就业组 2018 年的河内会议和 2020 年的深圳会议,不雅察并访谈了斡旋码定约和表意文字就业组的成员。

她向“误点 LatePost”回忆,这些东说念主来自不同方位,除了发起国,还有英国、好意思国等,将他们聚在全部的是对汉字的共同趣味趣味。战斗的确的东说念主,目击他们的表情和承诺,一窥他们的生活、想想和世界,是一次令东说念主激动饱读吹和心胸辞谢的阅历。

她铭记,有一位瑞典血缘、躯壳魁伟的编码员是个狂热的肉食动物,承接喝下一瓶酒,但脸少许都不红。有一位为苹果就业的凸起话语学家领有一座牧场,心爱膂力做事。还有一位诡计机科学家、斡旋码的首创东说念主之一。

“我在书里写到的每一个东说念主在我脑海中都寥若晨星在目。就好像我和他们全部生活,他们在我身上留住钤记。你不会健忘那些再见。”石静远说。

中国香港的代表陆勤对她说,“一个表意文字能否在斡旋码中得到我方唯一无二的代码,取决于它是被视为原字照旧异体字”。异体字不会有我方的代码,而是会被归入子集,算作归拢个字的另一个版块。石静远解释,这好比东说念主脸 emoji 不错有不同肤色。问题是,在其他肤色出现之前,最先高傲哪种肤色算作这一类 emoji 的代表。

说到底,原字和异体字之争是文化正宗性之争,是以各方才那么介意。石静远称,放纵 2020 年,斡旋码中的汉字数量是 92856 个。表意文字就业组畴昔濒临浩荡的就业量,按照一种算法,只是是评议中国提议的字就需要破钞两个多世纪。

日本、朝鲜、越南引入汉字的历史至少有 1000 多年。在日本的韩国粹者金文京曾在《中文与东亚世界》一书中,以“训读”为切口,追溯了汉字在东亚世界的传播与演变,揭示了东亚列国不同的话语不雅、国度不雅乃至世界不雅。“训读”指日文只借用汉字的形和义,不采纳汉字的音。咱们也能从满意会到汉字文化圈里面的复杂和争议的历史根源。

斡旋码是汉字全球数字化的说明,但在不同国度里面,也在推动汉字的数字步骤化。比如中国 2023 年履行新的《信息本事 中文编码字符集》(GB 18030-2022)强制性国度步骤。这一版块共收录 8.7 万多个汉字,比上一版加多 1.7 万多个字。更早的 2006 年,中国启动了世界上最大的文字数字化神情,声称要加多录入 50 万个汉字。

许多中国人人期待这么的变化。由于他们的姓名中有淡薄字,无法进入信息系统,带来许多浑沌,比如上户口、办身份证和银行卡、在病院建档、挪动支付等需要的实名认证。类似的还有含淡薄字的地名,由于无法在信息系统中高傲,就无法在舆图上找到。

石静远以为,汉字不仅代表着文化和传统,还被磨利升级为一种本事,准备成为中国数字生态系统的第一步和基础。汉语的数字影响范围并不限于中国,或世界其他地区的汉语社群。中国的数字本事和基础方法海涵更多东说念主加入。

“中国花了一个多世纪的时分学习如何结束我方话语的步骤化并将其迁徙为现代本事,今天它终于走到了这个位置。中国正在成为从东说念主工智能到量子天然话语处理,从自动化到机器翻译的各个规模的步骤制定者。这条路才刚刚启动。”她写说念。

好意思国东说念主和中国东说念主的交流

《汉字王国》原版的预设读者是好意思国群众,是以在补充历史配景上费了不少文字,但对于熟悉这些历史的中国读者,只怕会以为啰嗦与过剩。而且有指摘者认为,这本书采纳了和中国近代史教科书一样的辱没史不雅叙事,即近代中国受到列强不公对待,有着辱没感的国东说念主高亢前进,最终结束了中国崛起。

石静远不同意这个月旦,以为我方只是将辱没史算作起点,每一章论述的是中国和中国东说念主如缘何一种持续、灵验和出东说念主预感的方式,积极参与并在现代世界中配置我方的影响力。在阿谁不利于汉字生涯的世界里,他们逆潮而动,放浪地争论、推敲、测试我方的策略,为救援汉字作出我方的孝顺。

“话语是身份认同的要害,民族主义只可配置在这一基础之上。”她说。

《汉字王国》,石静远 著,林华 译,中信出书集团 2023 年 8 月版

石静远的父母来自中国大陆,但她出身在中国台湾,在国民党“戒严”的环境下长大。1983 年,9 岁的石静远随从母亲来到好意思国新墨西哥州的一个小幽静居。其时,母亲不会说英语,也莫得些许钱,父亲则留在台湾。在母亲期盼的眼光下,她像老成写汉字一样刻苦老成写英文字母,写字民风也从自右向左竖着写改为自左向右横着写。

石静远发现,学会写字母很容易,找到对字母这种时局的嗅觉却很难。她写下的英文不产生表意的空想,字母的发音似乎很是矍铄,莫得汉语的琅琅上口,不行引起情谊共识。这让她嗅觉奇怪。迟缓地,她在上了大学后,才简直学会用英语想考。

“汉英两种话语的世界并不逢迎,而是相冲。在表达胸臆、直观反馈、创造说明的时候,我老是先用汉语想考。至于英语,我嗅觉它如归拢种矫正器,把我掰来扭去塞入一个新模型。”她在书中写说念。

身为侨民的她显著两种话语背后的世界不雅过火冲突。在中好意思竞争确当下,她嗅觉华东说念主被推到公众视线,处于风暴中心,比如被怀疑和斥责不忠,致使从事本事间谍活动。特朗普执政时发起的“中国行动筹办”,让她猜测了冷战时的“麦卡锡主义”。

这些变化促使石静远有能源让好意思国东说念主更多了解中国。她在生活中战斗了太多偏见,举例她常被华盛顿的东说念主条目解释像《孙子兵法》之类的古代中国想想。“你会用苏格拉底解释好意思国政事吗?天然不会。那为什么你会认为中国停滞不前呢?”石静远牢骚说念。

她说,侨民阅历让我方深知,一个东说念主为了生涯甘心作念出什么样的费力。这亦然她对中国民族主义的意会。中国在 19 世纪和 20 世纪被西方列强分割,一直惦记逾期和沦陷。它当今将受害者阅历和失败的不雅念融进激励东说念主心的民族主义叙述中,称要“伟大复兴”。某种程度上,这亦然好意思国的故事,“再次伟大”。

“两个世纪多以来,中国都是西方的学生,但西方对中国了解得远远不够。”她但愿增进两者之间的交流与意会,文化则是其中一把钥匙。有东说念主以为文化过于软性,但石静远认为,文化是一种尽头无邪,但包罗万象的视线——它填补了经济或政事无法告诉咱们的东西。

“文化意会并非为了惩办紧迫时刻,而是为了缓解和瞩目危急时刻,就像咱们当今所处的这种情况。若是你推迟这个需要万古分配置的文化意会进程,就会为下一次冲突作念好齐全的准备。”她说[3]。

石静远的费力受到了折服,《汉字王国》入围了 2023 年度普利策奖非编造类决选名单。她称这本书在好意思国、英国、德国、荷兰都受到热烈海涵。但另一方面,一些好意思国主流媒体月旦这本书基本避让了政事问题。

“莫得哪位作者期望我方的书能谄媚总计东说念主”,她恢复说念,“若是你的主见是写一册谄媚总计东说念主的书,那么你就莫得写出一册老诚的好书。正因为对于中国的话题可能激发热烈争论,是以我想提供一个均衡的视角——关注中国东说念主过火文化”。

虽然石静远在《汉字王国》想了得中国东说念主的费力,但她也承认,尽管西方东说念主和中国东说念主有着不同的动机和主见,但中文翻新为中国东说念主和非中国东说念主都提供了契机。他们走到全部,提倡不同意见、张开竞争,将话语兵器化,并在悄然无声中互相补充。通过这些或友好或敌视的费力,最终推动了汉字的现代化程度。

举例,在法国东说念主和丹麦东说念主的费力下,才有了第一套中文电报码,况且万古分红为范本。再举例,1950 年代,MIT 考验塞缪尔·H. 考德威尔(Samuel H.Caldwell)负责了非渔利机构“图形艺术推敲基金会”的一个名为“Sinotype”研发神情。在林语堂的汉字索引和中文打字机的基础上,考德威尔发明了“21 笔系统”。“Sinotype”也被誉为第一台中文诡计机。

石静远发现,“中文诡计机之父”考德威尔一句汉语都不会说,一个汉字都不识。这一系统的 21 个汉字笔画是李凡和哈佛大学考验杨联陞两东说念主匡助遴选的。然则,这个事实从未公之世人,在图形艺术推敲基金会的官方先容册中也未说起。

“Sinotype”引起了好意思国政府的趣味趣味。五角大楼涵养了一个微型就业组,由国防部、中情局和行动互助委员会的东说念主员组成。这个小组认为,好意思国也许粗略利用“Sinotype”在奏凯向汉语世界传播信息方面取得浩荡上风。他们想请艾森豪威尔总统公通畅告“Sinotype”的发明。掌持第一台中文诡计机有可能在冷战年代的反共意志形态斗争中起到决定性作用。

然则,就业组经过进一步了解后决定,还需要更多把柄来解说“Sinotype”真如图形艺术推敲基金会所说是突破性本事。最终,五角大楼认为,算作宣传战的兵器,“Sinotype”的杀伤力还不够大。就好意思国的策略利益而言,用来破解俄语或汉语文献以及加密文献的机器翻译一类的本事愈加有用。

1960 年,考德威尔忽地离世,“Sinotype”也没了负责东说念主。按照墨磊宁的说法[4],“Sinotype”的生命仍在延续,几十年来在一个波折的因循链上挪动,其中的成员包括军事-工业-学界复合体中的各式机构:中情局、兰德公司、IBM、ITEK(一家好意思国安防承包商)、MIT、RCA,等等。到 1980 年代,该神情以“Sinotype II”的时局腾达。考德威尔等东说念主奠定的意见和本事框架成为中文诡计机发展的基础。

2023 年春,石静远应耶鲁大学校长之邀,开设了一门“意会中国的六把钥匙”(China in Six Keys)的讲座课程。这是一项荣誉,前次这个系列开设对于中国的课程是在 1996 年,讲者是已故历史学家史景迁。

她称,这六把钥匙或者六个要害,都会将历史与头条新闻或刻下争议推敲在全部,包括耶稣会士与中国宫廷的早期互动、中讳疾忌医火政事化、科幻演义和科学本事的发展等。举例,1790 年代英国马戛尔尼使团访华时,中国东说念主和英国东说念主因世界不雅不同发生冲突。他们分析了这些世界不雅如何体当今典礼的机密泄漏,以及他们的着装和互相展示的方式之中。

石静远以为,与在好意思国推敲中国的其他学者一样,她也温雅并但愿中好意思有一个更好的畴昔。但算作学者,她的就业很平常,就想加深两边的文化意会,以历史眼光看待刻下现实,提供一个更全面的视角。

“文化高于纷争,是弥合冲突的桥梁。就像我在《汉字王国》中写到的行动者,在每一场社会或政事崩溃后,总会有一些东说念主匡助打理残局,让一切变得更好。算作一名学者和教师,我的任务即是将这种对畴昔的但愿和敞开延续下去。”石静远说。

勾引porn

东说念主类与机器的交流

“五笔”好照旧“拼音”好,曾是东说念主们争执约束的话题。当今已无需争论,但问题背后的历史却能加深咱们对汉字的意会。

比较其他文字,汉字的三梗概素是“音”“形”“义”。以王照为代表的斡旋国语通顺,利用注音鲜艳惩办了汉字“音”的问题,其后的各式有筹办都是在这基础演出进。即使汉语拼音全是字母,莫得汉字的构件,但它本质上也被看作汉字的一种注音鲜艳。中国台湾延续了民国的注音鲜艳,是以它的主流诡计机输入法亦然“注音输入法”。

在新中国的汉字编码高涨前,民国曾有一场汉字索引竞赛。从 3000 年前的甲骨文启动,汉字即是一种象形文字,承担表“义”功能。耐久以来,东说念主们都是以举座视角看待汉字,以为不可拆解。但为了分类和检索,东汉的许慎在《说文解字》中汇编建筑了 540 个“部首”。部首泰斗且纯洁,一直延续到清朝,像《康熙字典》简化建筑了 214 个部首。

到了民国,东说念主们发现部首轨制依然无法相宜现代检索的需求,是以汉字拉丁化的声息启动出现。那些不肯废汉字的东说念主,则提倡了各式索引有筹办救援汉字,林语堂是其中的前驱。

上图为林语堂在 1946 年发明的机械式中文打字机的键盘。“首钮”有 36 个键,为一个字的“上偏旁”(位于字的左上角),类似他最早提倡的“头两笔”;“末钮”有 28 个键,为一个字的“下偏旁”(位于字的右下角),亦然一个字的末几笔。按下首钮和末钮后,机械滚筒动弹,在高傲窗会出现 8 个汉字。按下数字键遴选后,字就打好了。表面上,这款打字机不错打约 9 万个汉字。下图为明快打字机的机械想象。图片来自:《中文打字机》

在 1917 年的《新后生》杂志上,林语堂写了一篇《汉字索引制证明》。他先折服了 5 类基本笔画(横、直、撇、点、勾),然后在这基础上,折服了 19 个首笔画,囊括了总计汉字书写的第一笔。接下来,林语堂把第一笔和第二笔放在全部,找出了 28 个头两笔的花样,简直适用于总计汉字。

毋庸任何数字、字母或者代码,林语堂仅靠汉字特有的笔画和笔顺就配置了一套以头两笔分类的 28 种组合。石静远称,“在林语堂之前,莫得一个中国东说念主提倡过他这么完整的替代部首轨制的方法”。比较几百种的部首分类,28 种的“头两笔”分类彰着精辟,与英文字母 26 种分类的数量也诀别不大。

林语堂启发了其后者可贵汉字的“形”,通过拆分汉字、笔画笔顺和位置分析,配置不同的索引方法,比如王云五的四角号码法、杜定友的形位分析法,都是这个想路下的家具。到了林语堂 1946 年发明中文打字机,分类汉字的方法是“上偏旁”和“下偏旁”,一样如斯。

汉字的诡计机输入法秉承了汉字注音和索引的想路。一类是“音码”,即利用汉字的注音鲜艳来编码,代表是拼音输入法;另一类是“形码”,通过拆分汉字、笔画笔顺和位置分析来编码,五笔输入法即是代表;终末一类是“音形码”,即团结汉字的“音”和“形”编码,支秉彝的“见字识码”是典型。

从缅想方便角度,只侧重“音”或者“形”要比“音形”团结来得快。在莫得惩办同音字问题之前,虽然难记,但形码的准确度胜于音码。不外跟着预测文本、自动补全、云输入本事的发展,智能拼音输入法不但基本惩办了同音字的问题,还不错体现用户的个性化色调,普及了打字速率,天然取代了形码。天然,随之而来的担忧是监控和诡秘线路。

还有一种担忧是耐久使用音码,会形成忽视汉字的“形”,“提笔忘字”的惬心增多。类似的,耐久使用形码,会形成忽视汉字的“音”,说好步骤话语的才略着落。

墨磊宁莫得这种担忧。他以为,这些惬心并不代表中国存在大都文盲、失忆或者书写险阻的东说念主群,否则中国经济和涵养早就崩溃。相背,在信息期间,所谓的“书写”正在发生变化,而用来意会“话语”的表面框架和术语却莫得随之改变[5]。

他提倡关注“本事话语”,即汉字除“音”“形”“义”之外的总计内涵,比如汉字的分类、检索、传输、死一火、本色化,致使意见化的方式。这些是话语的基础方法,让话语粗略启动运作。

按照这个想路,诡计机的 “中文输入” 不错看作一种 “本事话语”。跟着语音识别、眼球跟踪、脑机接口、AI 本事的发展,也许不久键盘就不复存在,诞生新的 “本事话语”。

石静远以为,中文当今濒临的问题是总计话语都濒临的问题:当 ChatGPT 和 AI 能收受东说念主类的想维进程,并替东说念主类“想考”时,东说念主类该若何办?若是当今每种话语都能被拆解成一串串代码,那么东说念主类是否最终只可被导向一种话语——数字话语?正如沃尔特·翁在 1982 年的文章《白话文化与书面文化:语词的本事化》(Orality and Literacy)辅导咱们的那样,书写是东说念主类发明的第一项本事。它使咱们的想想成形,否则它们就像一团缠绕的碎屑。

她接着说,由于有了书写,东说念主类能将我方的想想外化,进步时空传递,并对其反想,形成更深档次的想想,从而发展出一种传统、分享的历史和时髦。畴昔可能有其他本事出现,让东说念主类能以当今咱们无法想象的规模来完成上述总计事情。至少当今,东说念主类依然在商量下载和保存我方的想想,通过脑电波感应交流。往常咱们以为脑电波感应这种无话语交流是离奇乖癖,但如今已在科技中体现。

“有时对变化产生一种走向末日的阑珊感是天然的反馈。事实上,咱们不知说念通讯本事的畴昔会发生什么,就像咱们的前辈可能无法想象咱们刻下的发展气象一样。他们可能梦到了,但不知说念具体的形态和时局。”她浮现,我方的下一册书其实即是关联汉语信息本事的畴昔。

图 1 为一台 1970 年代的双鸽牌机械式中文打字机。新中国浩荡使用的恰是这种活字的打字机。若是遭受莫得的字,一般是手写补充。图 2 为一种“预测文本”编排时局。总计这个词字盘一般有 2450 个字,都以类似关联方式编排,也不错根据个东说念主民风和打字需求随时调理。图 3 为两张字盘的热图对比,一张来自民国时期(左),一张来自天然话语编排通顺之后(右)。每个方格神采越深,泄漏该汉字与毗邻汉字组词的数量越多(从 0 到 8)。图 1 来自 wikiwand,图 2 和图 3 来自《中文打字机》。

比较《汉字王国》,墨磊宁的《中文打字机》有些方位写得更有创造性。比如,他将林语堂的中文打字机看作最早的中文输入系统。英文输入是“所打即所得”,中文输入则将打字进程迁徙为搜索进程,是一种“东说念主机交互”模式。

再比如,他称我方写稿《中文打字机》一书最大的发现是 1950 年代中国打字员和排版员的故事。这些大多无名的做事者通过日常的陶冶和费力,创造了个性化的天然话语汉字编排方式,包括常见的“词”,以及专盛名词和用语,举例“翻新”“政事”“社会主义”等。跟着成组出现的汉字之间的关联得到加强,同期也由于共产主义话语的访佛性特征,利用这种实验性编排方式,打字员每分钟最高不错打 70 个字。

墨磊宁认为,这即是已知最早实验和诈欺“预测文本”的本事。这种本事时局如今已成为中文搜索和输入法的浩荡特征。施行上,若是说 “输入法” 已成为现代中文信息本事的一大撑持,那么第二大撑持无疑即是预测文本。

与《汉字王国》的民族主义叙事不同,《中文打字机》和墨磊宁本年将出书的续集《中文诡计机》(The Chinese Computer: A Global History of the Information Age)都是全球史文章。他但愿反想信息本事在现代社会不对等的发展结构。

稍稍张开来说,现代的信息本事是为字母世界的东说念主所想象,并不存在所谓的普适主义。全球有 50% 以上的东说念主口使用非字母话语,为了融入信息本事,他们想出了各式具有创造性的惩办有筹办。中文只是一个代表,其他还有阿拉伯文、希伯来文、东南亚和南亚的文字等。

发祥于西方的全球史想祛除西方中心主义,是以墨磊宁其实是在月旦西方东说念主本事想象力的缺少,固守“QWERTY”键盘,远莫得中文输入创造的“东说念主机交互”和“预测文本”来得先进。这亦然 AI 的一个基础和发展标的。一些学者以为 AI 本质上即是预测机器[6]。

四通打字机是中国大陆较早使用的电子中文打字机。它使用输入法(一般是拼音或五笔)打字,舍弃了机械中文打字机的历史,但其后被个东说念主电脑取代。

经典的本事史叙事是贯串持续的本事创新,书写告捷者的据说。但墨磊宁、石静远等学者却将眼光投向了许多其时失败但从后视镜角度,具有奠基性意旨的本事创新者,致使还有无名的共和国打字员。这些东说念主早已被袪除在历史的尘埃之中。毕竟,一项本事的告捷并不单取决于本事自身的优劣,成本、政事和巧合等身分都可能说明作用。

另外,西方的工业、军事过火他诱骗和操作方式传播到非西方地区的传统叙事是“本事迁徙”和“本事扩散”,比如新型火炮、矿井钻机。但因为中文的电报、打字机和诡计机是一种根植于话语且以话语为中介的本事类型,超出了“本事迁徙”和“本事扩散”的维度,不行拿来就用。

这再次辅导咱们话语和文化的密切干系。在这个意旨上,鲁迅的名言应该更正,若是承载中国文化的汉字依然隐没,文化必将走向骤一火——皮之不存,毛将焉附?景仰汉字,也即是景仰中国文化,百年来保全汉字的各种费力应该被书写、被看见。

注释

1.比如 “第一章 推动官话翻新,斡旋宇宙话语” 的蔓延阅读有清华大学考验王东杰近 600 页的专著《声入心通:国语通顺与现代中国》;第二章到第四章(挤进打字机、中文在电报规模的逆袭、林语堂与中文检索的创新)的蔓延阅读有斯坦福大学考验墨磊宁(Thomas S. Mullaney)近 500 页的专著《中文打字机》(The Chinese Typewriter);“第五章 简体字与现代拼音的诞生” 的蔓延阅读有《逝年如水》和《甲骨文》(Oracle Bones),前者是参与想象汉语拼音有筹办的周有光的口述,后者是好意思国记者、作者何伟(Peter Hessler)的非编造文章。

2.支秉彝的故事除利用《汉字王国》材料,也团结了《中国科学本事群众传略》、支秉彝的文章等多种材料。

3.Jing Tsu: ‘The days of armchair scholarship are over if you’re studying China’

https://www.ft.com/content/a71c1744-00ef-4cd2-ad6d-d42d28399e31

4.America's Secret Cold War Mission to Build the First Chinese Computer

https://www.theatlantic.com/technology/archive/2016/09/autocomplete-was-invented-80-years-ago/499955/

5.历史学者墨磊宁:中文打字机,“最首要却被污蔑最深的发明”

https://www.infzm.com/contents/246743

6.参见 Prediction Machines : The Simple Economics of Artificial Intelligence 和 Power and Prediction: The Disruptive Economics of Artificial Intelligence 两本文章。

本文来自微信公众号:误点LatePost (ID:postlate)美女教师,作者:曾梦龙,裁剪:钱杨



 
友情链接:

Powered by 母子姐弟 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024

创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
JzEngine Create File False