不要误会,实在是想不出更好的词来形容这个话题了,与“人言可畏”的真正含义毫无关系。
这些天和网友金缘通电子邮件,谈到一个问题,就是剧本的录入。金缘问:“是怎么录入啊?不会是一个一个字的往里敲吧!我没有接触过这方面工作,但是别人建网站时,大量的资料是用扫描仪扫进去,再用汉字识别软件把它转换成文字文件,再使用语音软件边念边校对。您们也是这样做的吗?”
这里涉及同一类的两个问题:文字识别和文字阅读。在文字阅读方面,现在的技术已经算是比较成熟了,至少在小豆子接触的中、英两种文字的文字到语音的程序,都是很流畅的(除了个别特殊发音的地方有时会念错)。而在文字识别方面,英文的识别已经较以前有了很大进步了。但由于中文比英文在字形上复杂得多,中文的光学字符识别(OCR)技术,小豆子认为离成熟尚早——尤其是对付像剧本这样有着特殊情况的输入源。
首先,为了提高识别的正确率,需要让程序“学”很多词句的组合,在一个地方看不清的时候,就要程序根据上下文来判断当前所缺字符字形与哪些字相似、此处该出现的词的词性以及其概率,然后做出选择。而由于剧本文学与普通的文字有着很多不同,如果按照普通文档来识别,错误率还是很高的。
其次,由于老书是繁体字,加上年头久远,纸质发黄,哪里是字哪里是纸分得不是那么明显,若强行采用黑白扫描,字中间就可能会是一团漆黑,使得电脑更难辨认。尤其是中文字库之大,形似而差几笔的字很多。所以这也是老剧本识别率低的一个原因。
但这也不是说敲字就保证没有错别字,只是这样产生的错别字更容易找出来(特指拼音,五笔字型或其他按字形输入的输入法,所产生的错别字有些类似于 OCR 的结果)。比如“已然”,如果用扫描,可能被扫描成“己然”,而若校对时候没有仔细看,就会被忽略掉;拼音如果拼错了,拼错的字在字形上与正确的字有很大差别,所以比较容易看出来。虽然直接敲字在录入的时候可能会费一些时间,但是在整理、校对和格式化的时候却能够省时。因此,两种方法只能说各有利弊而已。
参加录入剧本的朋友很多,在校对的时候,能够看出哪些是用拼音敲的,哪些是用扫描仪或五笔录入的。条条大路通罗马,这都是数字化的手段,不存在一定要使用什么录入方法的问题。当然不可否认,对于一些页面干净的新书,有些 OCR 程序还是有很高识别率的。
皇兄的二次校对对那些形似而实非的字是很敏感的,最近抓住一个“隹”,应为“佳”,实在厉害!
人的思想、语言比电脑要复杂得多得多了,在文字、语音识别、文字之间的翻译等等与人言有关的工作上,电脑永远也不能代替人(所以您若是位翻译,大可不必因为某个号称更强的翻译软件的出现而担心会丢掉饭碗)。电脑以及为人工智能而奋斗的人们,应该是最能体会“人言可畏”的吧。
论坛上,有些敏感词不让上传,不是有用打上空格的招儿?这也算是人脑胜电脑吧:)
黄熊
对了,不光加空格,还有如扌斥字和彤阴自这样的玩意儿,人能看懂,电脑要想全屏蔽了,根本不可能。