让leeon不再眷念马桶——书评《精通正则表达式》

计算的世界大概都是由规则构成的。从最简单的二进制运算,到复杂的格式化文本,以及构建互联网络的各种协议,整个行业都在几十年如一日的定制、复制和客制化各种规则。

在一切变得越来越复杂的时候,我们终于为“分析这些原本很有规则的数据”发了愁。因为规则多到一定程度的时候,也就湮没了规则本身。

从一系列的数据中找到规则并描述这些规则的工具,是“正则表达式”——在早期,它确实就被译作“规则表达式”。更加重要的是,现今的各种语言内置了强大的正则表达式支持,使得这些“规则”可以被复用、编程,以及用于推理。当然,前提是你需要理解“规则表达式”自身的规则——那种象天书一样的符号集合。

JavaScript之父曾经创建了一个项目,用一个(内嵌于JS引擎的)规则表达式的子集,实现了一套JavaScript的语法分析、执行的引擎:“在JS中实现的JS(JS implemented in JS)”。

以分析150k代码为例,这个引擎大概需要8分钟。然而经过对正则表达式的优化,这可以降到8秒以下。我想,如果Brendan Eich也会用错正则表达式的话,大概没有太多的人能说自己精通正则表达式了。

在这些不太多的人中,应该包括《精通正则表达式》的作者:Jeffrey E.F.Friedl。当我看到这本《精通正则表达式》时,我确信了我的这一观点。

仔细地阅读这本大部头的书。我想,对于一个有一定经验的读者,这本书最大的价值在于:

  • 让你有机会了解各种正则表达式的流派、起源与差异;
  • 让你知道如何有效的优化和评估正则表达式性能;
  • 让你精通正则表达式的各种细节和陷井。

事实上,作为语言的使用者,上述这些正是通向精深至境的必由之路。语言之泛化源于种种环境的影响,却又宥于创生时的本质设定。有机会了解这些源初的设定,对于使用者来说,当是受益匪浅。而性能、细节与陷井,则是工程中排错调优的法宝,若有《精通正则表达式》这样的手册在侧,确是省了很多很多的功夫。

对于作者来说,这本《精通正则表达式》最艰难之处大概是在内容的组织上。不管是初学者还是老手,都很难在正则表达式中找到一个好的学习起点。所幸的事,Jeffrey的确找到了这样的一个起点。本书的第一、二章会让读者在正则表达式的全然无序中找到一点点清晰印象。

《精通正则表达式》一书的写法也是我非常之欣赏的。一直以来,向一个不懂或不太了解正则表达式的开发人员介绍正则表达式的原理,被认为是一项不可能完成的任务。然而在这本书中,作者使用了非常直观的图例,以至分析正则表达式时的一套完整的描述方法。

所有复杂莫名的(例如perl中用来做嵌套的动态表达式)代码都被解释得一清二楚。

另一方面,余晟的翻译也让我颇有好感。个人之见,读译作最麻烦之处在于一些名词上的不同翻译法,例如Interface何处译作“接口”与“界面”,便是一大难。很多译者在这样的问题上备受责难。侯捷先生以前的做法是在书稿前先说明,书稿后附一份对译表,以至于后来对译表成了一种标准的“侯氏译法”。另一些译者则选用比较便捷的方式,在通用的译法后面加注英文单词。余晟先生就采用了这样的译法,例如:“一系列字母和数字符号(alpha numeric characters)”。如果不采用这样的译法,我想中译版难有如此通顺。

读书的时候,想起来朋友leeon。他总喜欢把书捧进厕所,以至于连《程序语言设计-实践之路》这样的大部头也被他归于“厕所书”之列。我一直以来想告诫他这是一种对生理和心理都不太好的习惯,但终于没这样做。因为对于一个顽固分子来说,改变他的习惯的唯一方式,是让他的习惯受到阻碍,而不是某种形式的箴言。

好了,今天终于可以向他推荐这本《精通正则表达式》了。这是我唯一深信leeon不可能用很长的时间在马桶上阅读的书。因为复杂的正则会写得如同天书一般,而本书中那些浅显明了的解释,一定会让leeon有一种扼止不住的冲动,以至于要从马桶上弹射到计算机面前去写段代码来做做测试。

当然,在弹射之前leeon还有一些手续性的工作要做。只是,我想,那根本不是这本书的作者所要考虑的问题。^.^

又:

不过,我并不满意Jeffrey用Egrep来作为正则初学者的示例。我甚至认为拿Windows平台的DOS命令行中的那个名为FindStr的小工具来做示例都不错。

Jeffrey显然不是微软的fans,对正则表达式支持最好的perl语言也并不那么特别的亲近微软的平台。因此Jeffrey没有看到FindStr这样不起眼的小工具,大概也不是什么问题。只是对于读者来说,要找到一个名为Egrep的工具来做前两章的实验,可不是一件容易的事情。

回到初学者的话题,我仍然建议初学者拿一个惯用的工具来做基本的测试。我分析源代码时习惯于使用grep(Turbo Grep, 随borland产品发布),这是一个不错的推荐,对于读者来说,用FindStr也不错。当然如果你所使用的语言支持正则表达式,并且你已经有一定的实用经验,那么这些建议你权当我没说。

FindStr的基本使用:

  • FindStr /R "<一个正则表达式>"

.txtgrep的基本使用:

  • grep -r+ "<一个正则表达式>" *.txt