戏考网站的小优化(下)

(这个应该是几天前就写出来的东西,因为光顾着忙工作上的事儿了,所以就耽误了。)

戏考这次改版,剧本页面除了很多共有的改进外,还包括以下这些只有少出剧本才会有的改进,比如这个《战太平》剧本

剧本截图
剧本截图

有些剧本,是带有脚注的,这在以前是用①、②、③一类的数字符号来标注,你需要把页面移到最下面才能看到这些注释是什么。现在不一样了,充分利用超级链接的优势,把所有脚注都用链接连起来,点剧本正文的数字链接,就会被带到页面最下方相应的脚注处。同样,在脚注处点一下,又回到了页面正文。

PDF 格式的一大优势就是可以把字体嵌入到文件中。有些剧本里的字,在正常的中文字体里尚未被定义,而在最新的 Unicode 有定义了,像方正的“宋体超大字符集”就可以显示出来。所以对于有这样特殊字的剧本,戏考 PDF 的剧本可以正常显示,而纯文本的页面上,不是显示为一个空框,就是一个问号,或者什么都没有。这虽然显出来 PDF 的优势,但以前并没有一个针对纯文本的解决方案。现在则不同了,如果你浏览有特殊字的剧本,就会看到如下图中的那个方块,表示此字无法显示。更妙的是,当你把鼠标挪到上面的时候,会看到对这个异体字的形容。

剧本截图
剧本截图

另外,像有些剧本,一个本子里包含两个或以上的本子,有时会在正文中标出“头本”、“二本”或者剧名,在 PDF 格式里,这些都是被加粗加黑的。而以前纯文本并没有任何特殊处理。现在,这些也在纯文本中加粗加黑了,而究竟哪行加粗加黑,完全由现在的程序自己判断,并没有人为干预,换句话说,现在的程序可以明白一行文字是否是“头本”或者一个剧名、还是一个剧本的正文了。

所以,剧本的格式要做到统一,有一定规律可循,这样程序才能够对每一行如何格式化做出准确的判断。要让程序读懂京剧剧本其实并不难,重要的是,编程序的人,要了解京剧,并了解编程。小豆子自认为,还是可以胜任这一差事的。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注