王选语录

科学研究本身就是一种美,给人带来的愉快是最大的报酬,是一种高级享受。献身科学就没有权利再像普通人那么样生活,必然会失掉常人所能享受的不少乐趣,但也会得到常人享受不到的很多乐趣。

一个好的科学家或企业家首先应该是一个好人,才能带领队伍。什么叫好人?季羡林先生曾说过,考虑别人比考虑自己更多就是好人。这一标准我觉得可以再降低一点:考虑别人与考虑自己一样多就是好人。

我的座右铭是:“多做好事,少做错事,不做坏事”。

中国古代有句话,上士忘名,将名利彻底淡忘;中士立名,靠自己的成就把名立起来;下士窃名,自己不行就窃取人家的。我做不到上士,但是我不会为了立名而去窃名。

更多>>
 
回忆激光照排
艰难的起步

——激光照排系统研制回忆之一

近年来不少人问我,当初你是怎么想到要搞激光照排系统的。其实,我投入到精密照排的研制工作有一定的偶然性。1975年春,陈堃銶参加北大校内的一个调查组,调研学校行政管理、后勤、物资、财务和印刷厂等部门采用计算机、实现自动化的可能性。从调查中得知北京新华印刷厂和清华大学已合作搞了一个光机式照排机,即二代机,该设备曾试排过一些出版物,但机械故障多,一行字内常常出现高低不齐的现象,因而无法实际使用。调研中还第一次听说,国家有一个七四八工程,即汉字信息处理系统工程,分三个子项目:汉字通信、汉字情报检索和汉字精密照排。1975年5月,七四八工程办公室张淞芝与十五所、南京大学等承担单位的同志一起来到北大,介绍该工程的情况。

在七四八工程的三个子项目中,我独钟精密照排系统。因为我觉得,对于通信而言,汉字与西文无多大差别,不会有什么特色;而情报检索系统虽然价值大,从长远看有很大的发展前景,但当时中国的硬件条件、联网和使用情况还不足以使这类系统在较短时期内形成一个大的气候。尤其重要的是,情报检索系统的关键之一在于建大容量的库,只有出版采用计算机系统后,才能方便地获得建库所需的信息,特别是文献的全文信息。汉字精密照排的难度是显而易见的,正是它的难度和价值吸引了我。我当时病休在家,每月领40多元的劳保工资,但却可以自由选题,可以做自己想做的任何事情。这一事例也说明在可能的条件下让年轻人自由选题,做自己喜欢做的事情,才能激发创造的欲望。

从了解国外研究的现状开始

我搞研究工作有这样一个习惯,在一个项目开始之前总要了解清楚国外的研制现状和发展动向。为此查阅了照排系统方面的有关文献,以及Graphic Arts Monthly等印刷杂志上面的报道。这些调查对后来选择方向起了重要作用。当时国内还处于“四人帮”统治时期,是闭关锁国的,不像现在大家都很注意国外的动态。我在中国科技情报所借阅杂志时发现我常常是那些杂志的第一个借阅者。当时的条件是艰苦的。车费是不便报销的,从中关村到地处和平街的情报所为二角五分,但少坐一站就可省五分钱。我们的工作后来列入北大自选项目,但经费是没有来源的,因此复印资料时很谨慎,对于字数不多的页,常常靠手抄来节省复印费。

国外系统给我印象最深的是德国Hell的Digiset。Hell公司于1965年发明阴极射线管式(CRT)三代机,使三代机于70年代在欧美大为流行。有一份杂志登载了Digiset输出的线条图,质量很好。Digiset首创的数字式存储和数字式输出,被称为“真正的突破”,使高速输出和文图合一的处理成为可能。对国外状况的调查,使我于1975年得出下述结论: 数字式存储将占统治地位;光机式二代机,尤其是汉字二代机难度很大,但没有前途;字模管式三代机和飞点扫描式三代机正在走下坡路,很快将被数字存储的CRT三代机所淘汰。

1975年时,先于北大,国内已有五家在从事汉字照排系统的研制,可惜的是,其中两家选择了二代机的方案,另外三家分别选择了飞点扫描、字模管和全息模拟存储的技术途径。1975年秋,我去新华印刷厂参观了正在试排的二代机,对清华大学和长春光机所作出的努力和取得的成绩深感钦佩,尽管我认为这一方向是没有前途的。至于上海中华印刷厂的二代机,还要更好一些,1981年投入了试生产。应该讲这些尝试都是我国照排系统研制过程中有意义的历史事件。我国汉字信息处理系统的研制是从60年代末清华大学着手搞汉字照排机开始的;1973年首先在北京新华印刷厂,汉字进入了电脑(即清华大学研制的112机),是用一键九字的大键盘输入的,在试生产期间,每天都由熟练的大键盘操作员紧张地录入汉字,车间的黑板上还记录了每天的录入字数。有意思的是,日本汉字信息处理的研究也是从照排机开始的,这说明,用电脑取代铅字始终是人们的强烈愿望。

初步方案的提出和班子的筹建

一旦选择了数字存储的方案,汉字字形信息量太大,马上成为十分突出的问题。Digiset的黑白段描述方案压缩率低,日本京都大学的字根组合方案压缩率高但质量不好。区分横竖折等规则笔画和任意形状的不规则笔画,并用参数描述规则笔画的宽度、长度和各种笔锋,是1975年5月在一份书面报告中提出的,并由陈堃銶向数学系和无线电系的有关同志作了介绍。该书面报告打印后送到了当时北大校革委会负责人、八三四一部队军代表魏银秋手中。报告在北大印刷厂打印时,其内容被一些印刷工人得知后引起了兴奋的情绪,这件事当时给了我很大鼓舞,想不到一个微不足道的病号只是提出了一个初步方案,就受到了工人们如此强烈的反应,说明我们从事的研究工作是与他们休戚相关的,是有意义的。1975年5月的一个晚上,魏银秋召集数学系、无线电系、图书馆和印刷厂有关领导的会议,会一直开到半夜,确定了“数字存储、信息压缩和小键盘输入”的总体方案,先作为北大自选项目,并争取列入国家七四八工程的计划。会上决定成立协作攻关的会战组,后来就称为“七四八工程会战组”。今天在北大内,人们常把计算机研究所称为“七四八”。

万事开头难,会战组的组建是很不顺利的。数学系比较积极,派了陈堃銶、丁霭丽参加软件研制;中文系则派李一华、陈竹梅、石新春参加字模和输入方案方面的工作。其他系均不积极。会战组从1975年5月筹建,直到1977年4月,始终缺乏计算机方面的教师。我的编制在无线电系,但我是“吃劳保”的病号,无人管我,那时我也没有任何杂事,1976年一年可以集中全部精力来完善总体方案。应该说,魏银秋同志在1975年5月到1976年9月这段时间内对这一项目是非常积极的,没有他的支持,会战组很难成立。尽管他在“四人帮”统治期间犯有错误,但这件事还是做得对的。由于各系推诿,不愿出头,所以1976年3月24日由当时北大教育革命部部长张龙翔担任会战组组长,张龙翔同志从上任之日起直到后来任副校长和校长期间,始终全力支持这一项目。

北纬旅馆的论证会

1975年,七四八工程的精密照排系统子项目及部分经费已由当时的四机部(即电子工业部) 下达给北京市出版办公室,并指定北京新华印刷厂为第一用户。为了论证我国精密照排的技术方案,北京市出版办公室于1975年10月31日~11月3日在北纬旅馆召开了方案介绍和论证会。新华社钱乔其在会上介绍了云南大学的字模管三代机和小键盘编码输入方案,科学院自动化所毛绪瑾介绍了他们正在研制的飞点扫描西文三代机方案,新华印刷厂贝贵琴介绍了与清华大学合作研制的字模平板移动、静止曝光的二代机,樊景泉则介绍了上海有关单位的研制情况;北大也在会上介绍了字形信息压缩的方案,还把用软件还原、宽行打印机输出的一个“义”字拿到了会场。北大的方案引起了与会者的很大兴趣,新华社孙宝传(现为新华社技术局局长)给了好的评价,并表示了支持北大继续研究的态度。但会议最后上报方案时,仍选择了落后的二代机作为七四八工程的正式方案。1976年6月,一份印刷精美的北京市文件正式下达,上面盖了三个大印,明确规定了七四八工程采用二代机方案,并要求北京大学承担二代机的排版软件。我们当时的心情是沉重的,作为一名科技工作者,深知技术决策的错误必将带来人力物力方面的浪费,也将延误我国在照排领域内赶超世界先进水平。

字形信息压缩技术的模拟实验和任务下达

七四八工程的发起单位是五个,即四机部(电子工业部)、一机部(机械工业部)、科学院、国家出版局和新华社。新华社既是发起单位,又是第一用户,他们不赞成采用二代机方案,觉得速度慢、灵活性差、机械故障多,很难满足报纸的要求。新华社王豹臣等人1975年11月26日、12月19日两次来北大了解情况和观看软件还原字形的演示,对北大方案逐步有所了解。四机部七四八工程办公室张淞芝在决策中起了重要作用,1975年9月5日张淞芝第二次来北大,那次是随毛应一起来的,第一次听到了有关字形信息压缩技术的简单汇报;1975年11月27日又一次来北大,更详细了解方案;以后的多次接触,张淞芝对北大方案深信不疑。1976年2月11日,新华社、四机部和十五所的同志来北大详细听了方案介绍,这次介绍对决策起了很好的作用。1976年2月25日,我们第一次访问新华社,电务处孟处长等接待了我们,王豹臣明确表示,新华社赞成采用北大的方案,当时主管七四八工程的是四机部计算机工业管理局副局长郭平欣,他听了张淞芝和王豹臣的汇报后,倾向于采用北大方案。郭平欣不愧为电子和计算机方面的专家,在作出重大决策前他还需了解更多的情况。1976年4月16日和17日,我们在新华社报告方案,会场上我遇到张淞芝,张说: “郭局长今天专门让我来听清楚字模多级存储优化调度方案。”5月3日,郭局长又指定了10个字,要北大做压缩信息的软件复原实验,这10个字是“山五瓜冰边效凌纵缩露”,主要目的是想实际检测一下不同风格和框架的汉字的压缩率以及复原后的文字质量。5月4日,我们接到了这10个字的信,当晚由会战组组长张龙翔召集全组会议,决定突击一个半月完成模拟实验。因为以前的软件模拟均由陈堃銶负责,所以这次仍由她主持。当时使用的是北大计算中心的6912中型机,只能利用晚上和清晨的机时调程序,而纸带、宽行打印机和内存又经常出错,但经过大家的艰苦奋斗还是提前完成了任务。6月11日,郭平欣、张淞芝、新华社王豹臣、国家出版局副局长沈良等来校参观表演,郭局长看后很满意,很快设法说服十五所退出这一项目,由北大负责抓总。但任务的下达仍是曲折的,由于前面提到的北京市盖了三个大印的文件,已明确指出七四八任务下达给新华印刷厂,并采用二代机方案,再要下达任务就很困难;而当时正值“四人帮”反对“条条专政”的风口上,四机部无法给北大直接下达任务,必须通过北京市。郭平欣一旦选择了方向,就不顾障碍,想尽办法予以落实,1976年9月8日,经四机部刘寅副部长的同意,郭平欣签名发出一封信,这封信是张淞芝的笔迹写在普通的信纸上,就算给北京大学正式下达了研制任务。这封不起眼的信与上述盖了三个大印而且套红印刷,很像中央红头文件的二代机任务书相比,实在太寒酸了,但它体现了科学的精神,标志着中国印刷术腾飞的开始,是具有历史意义的。

激光输出方案的确定

1975年时我们打算采用阴极射线管输出方案,但国产高分辨率CRT尚未过关,幅面也很小;高灵敏度底片也无人研制;另外我从文献上看到,为保证CRT高质量输出,需研制一整套复杂的校正电路,例如非线性校正、像散校正和动态聚焦,这些都是德国Hell首创的技术,后来传到了美国,而我们对这些毫无经验。输出设备一直是困扰我们的严重技术困难。1976年4月初我听说邮电部杭州通信设备厂研制成报纸传真机,分辨率为24线/毫米,已用于《人民日报》报纸传真,其印刷质量符合报纸要求。很快我在北京的一次展览会上见到了这一设备,回校后询问物理系光学专家张合义: 北大是否有能力把该设备的录影灯光源改成激光光源,以进一步提高输出质量,使之不仅满足报纸也能满足更高的书版质量要求。张合义的回答是肯定的。但激光输出的控制器有严重的技术困难。

系统的输出分辨率是742线/英寸,相当于29.2线/毫米,这是1975年确定的;后来杭州通信设备厂和长春光机所生产的照排机一直使用这一分辨率,直到1989年以后系统才增加1016DPI和更高的分辨率的品种。今天国内1000多套照排系统中,大多数为742DPI。无论从毫米还是从英寸角度,742DPI都不是一个整齐的数字,当初是如何确定的呢?因为70年代时,中国报纸的正文字是五号,而不是现在的小五号,甚至六号字;书刊的正文字一般也是五号。我们当时把五号字看作主体字号,使其字心正好是96×96点,成为常规计算机字长的整倍数。742DPI刚好满足书报对文字分辨率的要求,从当时的技术条件看,再高的分辨率也会增加系统的难度。现在随着文图合一的处理和彩色系统的发展,人们追求越来越高的分辨率,目前配有3048DPI高精度输出设备的北大方正彩色照排系统已经供应用户。

当分辨率为742DPI时,一版报纸的点阵信息量近20MB。放在磁盘上速度跟不上,而且当时还没有国产磁盘,直到1978年底才有5MB的保加利亚磁盘可供使用;国产磁鼓的容量为500KB; 当时的国产计算机内存均用磁心,一块板为8KB,最多插8块板,即64KB,这也是当时国产DJS130机的最大内存容量。最头疼的是杭州通信设备厂研制的传真机不能走走停停,一旦扫描开始就要连续不断高速提供点阵信息给扫描头。这种扫描方式为逐线扫描(raster),与CRT三代机的逐字扫描完全不同。针对这种逐线扫描方式设计的控制器后来称为RIP(Raster Image Processor),但当时RIP这一名称还没有;RIP不仅能处理字形,也能处理图形和图像。华光Ⅱ、Ⅲ型的控制器不能处理图像,因而严格地说还不能算作RIP;华光Ⅳ型的控制器已能处理图片、照片、图形和底纹,可以称作RIP。

与困难重重、前途莫测的国产高分辨率CRT输出方案相比,杭州通信设备厂的报纸传真机实在太吸引人了,幅面宽、分辨率高、对齐精度好;更重要的是,它是现成的、已经每天在使用的设备。激光不能改变光点直径、逐线扫描和不能走走停停这三个特点又使控制器提供字形点阵十分困难。如何用一台500KB的磁鼓,两个32KB的交替访问的磁心存储器,使控制器在每页报纸扫描开始后,能够连续不断地高速提供多达20MB的一版版面点阵,而且两页之间还不许有长的停顿,成为几个月来折磨我的技术难题。经过冥思苦想,终于在1976年7月构思出挑选式读字模压缩信息送磁鼓、取一行字模压缩信息送磁心存储器和分段生成字形点阵并缓冲的方案。一个汉字字形每次只生成8条扫描线,每次只缓冲一版报纸的8条线。高速复原是靠专门硬件完成的,一个96×96点阵的五号字需反复分段复原16次;但由于速度很快,平均仍能得到约150字/秒的复原速度,能赶得上滚筒扫描的输出速度。这一难关找到解决办法后,于1976年8月决定采用激光输出方案。

张龙翔“挨批”和北京市科技局改变态度

1976年9月6日,北京新华印刷厂举行北京市七四八工程,即二代机方案的报告会,由北京市科教组和科技局主持,请北大去旁听,当时任会战组组长、北大教育革命部部长的张龙翔(后任校长) 参加旁听。我们并未介绍方案,但会上对北大方案颇多指责,说“北大想搞先进的系统,看来要先进到修正主义那里去了”, 其中以科技局的年轻人鲁延武口气最冲。会后张龙翔请他们来北大参观。9月8日北京科教组刘锦华、科技局鲁延武来北大,听取了方案的介绍,大为称赞。鲁延武认为北大方案有很多优点,激光输出也是可行的,态度完全变了,特别起劲和热情。他们还表示,回去后向北京市领导汇报,并努力说服新华印刷厂,尽可能统一到北大方案上。张合义是认识鲁延武的,事后我和他说起此事,我们都赞叹鲁延武的实事求是的科学作风。可惜的是,由于种种原因,二代机方案未能放弃。从1975年到1982年,北京存在两个七四八,一个是郭平欣副局长领导的七四八,一个是北京市七四八。新华社张学涛当时在郭局长领导的七四八办公室从事字频统计工作,他很热心支持北大的方案,自称郭局长领导的七四八是七四八正统,我们听后觉得很逗,因为使我们想起当时报上经常出现的日中友协(正统)。日中友协分裂成两派,与中国关系很紧密的那派称为日中友协(正统) 以示区别。

四路激光平行扫描

1976年8月采用逐段生成,找到了解决激光扫描控制器的技术困难的方法后,我仍有一块心病。杭州滚筒转速为1600转/分,提高转速有困难,由于一张底片上的两页小报需分两次扫描,所以实际输出速度只有每秒15个五号字。先进的第四代激光照排机比二代机快不了多少,使我深感忧虑。郭局长很支持激光输出方案,认为这是成熟技术,同时又说,1秒钟15个字,肯定有人说闲话。经过几个月的思索,突然于1976年11月的某一天,我想出能否用四路光在滚筒上平行扫描,从而使速度提高4倍。经过仔细研究,我断定控制器同时提供四位信息是可行的,这要求字形轮廓信息填充时就按四路平行扫描的要求进行处理和缓冲,输出和移位均按四路平行扫描的要求设计。这种方法虽然设计改动较大,但确是可行的。不过,我知道四路平行扫描主要困难不在控制器,而在于光学系统,对此我是一窍不通的。我急切地找到张合义,请教他从光学系统的角度有没有这种可能性。张合义沉思片刻后,肯定地回答我,说可以用四路光纤耦合的方法实现,这使我异常兴奋。张合义于1976年秋参加七四八工程,负责激光输出设备,尤其是光学系统的研制工作,这是系统中十分重要的部分。

原理性样机方案的形成

1976年,新华社受“四人帮”的严重干扰,七四八工程陷入停顿状态;北大内部的会战组也得不到充实。但我们却抓紧时间,充实和完善了原有的方案,并于1976年12月油印了方案说明的第一稿。进一步改进和具体化后,于1977年12月油印了几百份“七四八工程汉字精密照排系统方案说明”,这就是在北大和协作单位中流传较多的上中下三册蓝皮本。其中某些关键技术后来成为欧洲专利EP0095536的主要内容,并在华光系统的后来型号中继续使用。

原理性样机后来称为华光I型,是在闭关锁国的条件下研制的。我们并不是不了解国外计算机的发展状况,但当时的环境和形势不允许我们使用国外设备,甚至不许使用国外的元器件。在国产主机DJS130,国产500KB容量磁鼓、国产磁带机、国产磁心存储器和国产小规模集成电路的条件下,要研制成每秒输出60个字的激光照排系统,而杭州通信设备厂生产的滚筒扫描又不能走走停停,这确是一件困难、甚至是不可思议的任务,这也是我一生中承担的最困难的任务。

华光I型的某些技术具有长远的价值,不仅在华光系统的后来型号中继续使用,而且它们的某种变形和改进还会在今后的系统中继续采用。蓝皮本中我认为具有长远意义的是下述两点:

(1) 把汉字笔画分成规则和不规则两种,前者用参数描述其宽度、长度和笔锋变化。参数描述有利于控制变倍和低分辨率时的文字质量,类似于现在西方流行的HINT(提示信息)。70年代,激光打印机售价30多万美元,尚未普及,因此HINT对西文字形描述并不重要;而汉字笔画多,笔画之间的粗细匀称特别重要,即使在742DPI的较高分辨率下,横宽的一致性对宋体字的质量影响仍很大。例如宋体“量”字的九笔横在任何大小时都应保持宽度比例相同,而西文字母中没有这样突出的矛盾。我们1975年采用的参数描述和变倍时横宽的控制方法与现在西文PostScript字库中用HINT对西文字母杆部(Stem) 的宽度控制方法很类似。这种对规则笔画的参数描述仍具有长远价值。事实上,北京大学不断对这种描述方法作出改进。1991年10月在美国波士顿举行的栅格图像和数字排版国际会议(RIDT91) 上,我作了一个特邀报告,其中介绍了1975年提出的控制汉字规则笔画变倍质量的参数描述法,引起了与会者的兴趣和惊讶。他们说,汉字字形的复杂性和高密度使中国人比他们更早想到控制变倍质量的描述方法。现在Type l和True Type西文字库的HINT已发展到细致入微的地步,一套PostScript字库可以从最高精度的照排一直管到分辨率很低的显示器,Microsoft Windows 3.1中已支持True Type西文字库,使西文显示达到随意放大缩小而文字质量仍很好的地步,这是近年来在字模技术上的突破。这些HINT技术直接用到汉字上还有困难,目前汉字字库的水平与西文字库相比,尚有差距,主要表现在HINT的使用上。另外字模制作技术也有差距。

(2) 用两位标记点阵实现轮廓的快速填充。这种方法在今天三次曲线轮廓描述的复原中仍有意义,可能仍是一种最快的算法,尤其是采用专用芯片ASIC实现时更是如此。1976年我们发展了笔画多次交错时轮廓填充的算法和对标记点阵补写的算法,这些方法今天不仅对字形、尤其对非常复杂的图形处理仍有价值。

华光I型中还有不少内容是对付当时国内落后的硬件条件的,例如挖空心思地把磁鼓存储器设计成按索引查找方式访问;索引即字模码,用这种按内容查找的访问方法,使得系统能在固定的最小时间内从磁鼓上读出一行内出现的全部汉字压缩信息,从而使不能走走停停的照排机能够与系统相连,而控制器不会跟不上提供信息。又例如别出心裁地把磁带控制器设计成可以按布尔串进行挑选式访问,一次就把一本书内用到的全部汉字字形压缩信息读出并放在磁鼓上。当然,这些“创造”在华光I型以后很快就失去了意义。

以上的回忆写到1976年年底,粉碎“四人帮”使我们的工作有了转机,后来的发展将在“原理性样机的研制”中叙述。

本文刊登于《中国计算机报》,1994年8月9日;

《王选谈信息产业》,北京大学出版社,1999年1月