克里斯·克利尔菲尔德 安德拉什·蒂尔克斯: 系统崩溃显示了复杂性世界的脆弱 但好消息是,我们能让事情改变 | 访谈

长江日报记者周劼


《崩溃》一书的两位作者

事故如故事

事故是最好的老师。关于复杂性系统崩溃的认知就是从事故开始的。

1979年3月28日,美国宾夕法尼亚州萨斯奎哈纳河上的三里岛核电站发生事故,第2组反应堆涡轮机突然停转,堆芯压力和温度骤然升高,从大量放射性物质溢出,到反应堆彻底毁坏,前后不过两分钟。电站紧急关闭反应堆,6天以后,堆芯温度才开始下降,60%的铀棒受到损坏,反应堆最终瘫痪。这次事故最后定性为五级核事故(核事故共7个级别,级别越高,危害越大),也是美国历史上最严重的一次核事故。此事故导致周围14万居民撤离。

事故说起来就像故事。

三里岛核事故的起因居然是跟核完全无关的一个简单的管道工程问题。一个检修队当时正在对核电站的无核部分进行例行检修。检修时,热水蒸气偶然进入水泵,水泵温度压力升高,减压阀自动打开,但当压力恢复正常时,减压阀却没有关闭,本来应该漫过反应堆芯的冷却水都从减压阀流失了。而控制室的指示灯一直都显示阀门关闭正常,操作员也就一直认为反应堆芯的水量正常。冷却水流失,反应堆芯温度急升,紧急冷却系统自动启动,强行向反应堆芯注水,而操作员却认为正好相反,水太多了会有气体爆炸的危险,于是他们马上关闭了冷却系统的注水,堆芯开始熔化。

接二连三的警报响起,闪光灯亮成一片,让人心慌意乱。每个人都知道出了问题,但谁也不知道是什么问题,大家慌忙都戴上防辐射面具,这又让交流变得非常困难。灾难便不可阻止地发生了。

事后的调查报告还原了这些细节,却得出了一个“奇特而恐怖”的结论:三里岛事故是史上最严重的核事故之一,却无法归咎于明显的人为失误或重大的外部冲击。或多或少,它就是以离奇方式出现的许多小灾小难的组合。

不严密的供水系统、卡壳的阀门、模棱两可的指示灯,在调查清楚核电站内发生的所有小问题的离奇组合作用之前,检修员、操作员的行为都没有错。

那谁错了?

系统错了。一个系统的不同部分之间以人们意想不到的方式相互作用,多个小失误以无法预见的方式耦合,人们就不明白将会发生什么。

系统错在哪儿?错在两个地方:一是复杂性。复杂系统各部分之间并非线性关系,当各个部分存在着复杂的相互作用时,细小的变化也可能产生严重的结果,就是我们常说的蝴蝶效应。而对于一个复杂系统来说,我们无法一进去就能对混乱危险的局面一览无余,在大多数情况下,我们只能依赖间接的指示器评估形势,从杂乱的信息拼出完整的图像,因此,我们的判断很容易出错;二是紧密耦合。如果一个系统是紧密耦合的,则它的各个部分之间很少有松动或者缓冲。一个部分出现的失误很容易传导到其他部分。一个部分有漏洞,三传两导,整个系统瘫痪。

用《崩溃》一书中的话说:这是一次令人手足无措、史无前例的危机,而这次危机改变了我们对现代系统崩溃的一切知识。

身边的崩溃

崩溃不仅仅表现为大型的工程灾难,只要是复杂系统,它的崩溃随时可能发生在我们身边。比如随手翻阅新闻标题会看到:

·某某地方发生矿难

·某人遭遇电信诈骗,信用卡被盗刷

·某家汽车公司因制动开关失灵召回汽车

·某种病毒恐慌式蔓延

·某品牌饮料菌群超标

·某处森林大火,造成生态灾难

·某型号飞机安全隐患停飞

·某公司为文宣失误致歉

·某互联网金融公司资金断裂,人去楼空

……

这就是我们人类的生活,看上去各种糟糕,却也没有哪一天特别糟糕,每天都有几件灾难性的崩溃事件。我们身边也是如此,生意难做,开车怒路,夫妻吵架,朋友聚餐不欢而散,也无奈也司空见惯。

“生活在21世纪,我们依赖着数不清的复杂系统,它们深刻地影响着我们的生活—— 从输电网络到净水处理工厂,从交通系统和交流网络到医疗保健,一直到法律诉讼。但有时候,这些系统让我们陷入困境。事实证明,日常生活中的崩溃事件,如项目失误、招工对象不当,甚至是聚餐不欢而散这类事件,跟石油泄漏和登山死难这类事故有许多共同之处……在我们构建的这样一个庞大的机器世界中,我们自己是何等渺小与脆弱。而我们对于这种脆弱状态又是何等无知。”

我们根本无法完全了解这个复杂的世界,也就不能准确预测任何一个小小的错误可能引起的所有后果。

既然如此,有人会说,我们把系统简化一点,把各部分的耦合松散一点,不就安全了吗?话虽没错,可事实并非如此。就是聊天吧,以前几个人聚在一起聊天,聊完各自回家,既不复杂,也不紧密耦合。可是有了手机,有了社交软件,几十数百人在一个群里你一言我一语,“把并不总能联系在一起的事物联系了起来,在社交媒体的放大效应之下,火速传播,火速分享”,不复杂也复杂,不紧密也紧密耦合了。

这就是科技带给我们的方便,也带来了复杂和紧密耦合,不是想简化就能简化,想松散就能松散的。“我们无法倒拨历史的时钟,回归更为简单的世界。”

崩溃千万条,安全第一条

不是我不明白,这世界变化快。世界越来越复杂,耦合越来越紧密,崩溃的风险也越来越多,我们该怎么办?

人类有个好处,因傻吃亏,因吃亏变聪明。吃一堑长一智,堑和智是线性的,愚和智也是紧密耦合的。

《崩溃》一书的两位作者就想从人类诸多的崩溃事件中找出规律,也找出避免崩溃的方法,他们称之为“征服复杂性”。这种“征服”是厚厚的一本书的内容,有好多实用技巧,但归结为一点,却是古老的智慧:防患于未然。

最有道理的话可能最难落实到实践。每个人都知道防患于未然,但很多人都是在系统崩溃以后才明白这个道理。

就像本书的两位作者提醒的,明白了,做不到,才是崩溃留给我们的最大教训。

读+周刊记者电邮专访了远在美国的两位作者,请他们谈谈崩溃面前怎样才能不崩溃。

【访谈】人工智能能解决系统的脆弱性,但它本身就很脆弱

复杂系统的教训给予我们更大的教训

读+:您在书中提到了三里岛核电站事故,让我印象深刻的是:当一个复杂系统出现问题时,它会产生各种各样混乱的信息,这些不确定且自相矛盾的信息,让当时的决策者和救援者很难做出准确的判断。这种困难也是复杂系统的必然吗?

克里斯:它们不一定是不可避免的,但它们确实给我们提出明确的要求:我们必须以不同的方式处理复杂的系统。在一个复杂的系统中,我们不可能事先预料到所有出错的可能及所有可能的因应之法,因此,我们需要换一个思路,时刻关注并从可能出错的系统中学习。在许多方面,管理复杂系统和应对系统出错完全不同,它不仅仅是一个遵循规则的过程,而是跳出规则发现问题的过程。

读+:人类造就出各种各样复杂的系统,以应对更复杂的状况。但面临的问题似乎永远比系统所能应对的更复杂。很多事故,没有明显的人为失误,而是系统的一种必然崩溃,我们常说的bug或短板,从理论上来说,这是不可避免的吗?从这个角度来讲,人类应对危机的方法和思路是不是从根本上说就错了。

克里斯:任何系统都百密一疏,不是这里就是那里会导致崩溃,而我们永远无法防止所有可能性的发生。在过去的半个世纪中,人类已经扩展了科技疆域,驾驭了核动力,深入地壳寻找更多的石油,并开发了全球金融系统,这些系统让我们获得了庞大的能力,但它们也把我们带入了危险区,一旦系统崩溃,它们会让人死亡,摧毁环境,引发经济危机,这并不是说我们这种处于一种日常的不安全中,而是说我们在出乎意料的系统崩溃面前更加脆弱。这是复杂性给予我们的教训,而从中我们还得到两个更大的教训:一是,系统复杂性在增加,我们管理和纠正问题的“松弛度”——即平常说的麻痹性,也在增加。这种松弛度在面对既复杂又紧密耦合的系统时,会产生巨大的影响,或者说巨大的灾难;

二是,如何保护系统和预防问题的发生,还是有一些技巧的,比如,在有人提出问题时,管理者要勇于倾听、善于倾听;当系统发生一些漏洞或未遂事件时,要勤于追踪,勤于排查——不管问题的巨细如何。这些技巧都是好的,有点像在汽车上系安全带:不管事故的伤害如何,它总是有帮助的。

高科技不增加风险,但新旧结合容易出漏洞

读+:一些高科技,如网络、信息,让一些本不复杂的系统变成了复杂性系统,本不紧密耦合的系统变得紧密耦合,从这个角度说,越是高科技其实越脆弱吗?越复杂和越紧密耦合的系统是不是意味着它的漏洞越多,应对危险的能力越差?

 克里斯:我想我们得分清楚这里面的一个区别。一方面,高科技系统肯定会增加复杂性和紧密耦合,但它们也增加了能力,我们之所以选择高科技,就是我们在权衡后,宁可冒增加复杂性和紧密耦合的风险,也不愿意牺牲这些能力。另一方面,高科技系统本身并不一定更加复杂和紧密耦合,它增加的是旧系统的风险,新和旧的组合总容易出漏洞。例如,在过去的15年中,软件工程取得了很大的进步,现在可以更快地编写更可靠的软件,但是,当新软件与旧的遗留组件集成时,我们总是会看到各种问题。因此,在某种程度上,关键的问题是,一个系统拥有多少旧的(可以称之为“技术债务”),以及有多大的意愿改变这些旧的。

读+:有没有哪种科技,或者说,我们能否依赖科技能够明显地降低系统的崩溃风险?人工智能?大数据?

安德拉什:技术本身不会增加降低风险,而完全取决于我们如何使用它们。例如,人工智能可以帮助我们深入了解系统的脆弱性,但是人工智能本身是一个高度复杂的系统,在许多方面,它是一个黑匣子,它就是脆弱性,很容易遭受我们在书中描述的那种令人惊讶的失败。所以,这些技术给我们机会,也更需要我们仔细地管理它们。这本书的一个主要目标就是帮助人们在工作和日常生活中做到这一点。

物联网的悖论

读+:您在书中提到物联网会给我们提供一种浮士德式的交易,一方面它让我们能更便捷地做更多的事情,另一方面它也会为黑客创造一条捷径,更容易利用漏洞,攻击各种目标。越复杂的系统越难以避免这种悖论吗?

克里斯:这确实是一个悖论!它考验我们的利弊取舍。想象一下自动驾驶汽车,它是一台物联网汽车,也是一台容易受黑客攻击的目标,复杂的程序带有安全隐患,网络又使各部分的相互连接相互作用达到意想不到的程度,这是攻击者可以利用之处。而紧密耦合意味着,一旦黑客有了立足点,形势将急转直下,不易摆脱。要便利还是风险,制造商得扪心自问一下,增加这一功能、增加复杂性是否值得。

读+:我们知道现在很多的创新,如互联网经济、金融衍生品等等,其实就是将问题复杂化,将系统复杂化,然后在利用复杂性的漏洞来掩盖自己的错误,甚至实施骗局,这些对于信息不对称的普通人而言,该如何警惕呢?

安德拉什:事物反常即为妖,事物难理解即不可信。记住我们在书中引用的两句话:“当业务变得复杂而且分布广泛时,所有的限制都在这个区域内不复存在了,正是这个灰色地带,容易出现灰色的行为。”“建立一套复杂的规则,目的就是为自己的利益利用这些规则。”作为一个客户、投资者或一般老百姓,可以做的就是对那些描述得天花乱坠的黑匣子产品、公司和创新保持警惕,因为它们太过“先进”和复杂,难以理解。使用复杂性来欺骗的人经常会说:“它太复杂了,您无法理解它是如何工作的,但是请相信我们,它确实有效!!”从能源巨头安然公司(Enron)到四面楚歌的医疗检测公司Theranos,我们在各种案例中都看到了这种情况。但可惜的是,我们很容易上当。

读+:您在书中提到了另外一个悖论,在紧密耦合的复杂系统中,安全系统是遭造成灾难性后果的最大根源。安全措施降低安全。也就是说,当我们越注意防范危机时,可能越促进了危机的爆发。为什么会这样?

安德拉什:这个悖论的关键点在于,安全系统是有效的危机管理或者仅仅是叠床架屋的警报系统。我并不认为越重视危机管理,就越有可能制造危机。事实上,良好的风险管理是持续、系统地关注可能出现的故障,这能明显降低危机,在为这本书做研究时,我们看到了很多这样的例子,从大公司到医疗团队,再到处理日常风险的家庭。但事实是,如果把危机管理简化为拉警报,仅仅用更多的警告系统来修补脆弱的系统,就会陷入越警告越促进危机爆发的悖论,因为安全系统可能防止一些可预警的失误,因而人们倾向于尽可能多地使用这些措施,但安全措施本身变成了系统的一部分,就会增加复杂性,人们更容易因为始料未及的原因而遭遇失败。另外,当危机来袭时,太多的警报和预警系统会导致混乱,让人们不知所措。时间一长,人们厌倦了警报,不再关注,麻木以对。从医院到金融公司再到石油钻井平台,这个问题也无处不在。

认识智慧到运用智慧还需要克服很多问题

读+:我注意到您在提出面对复杂问题的因应之道时,有些智慧和中国日常生活的经验不谋而合,比如“预计最好的结果,做最坏的打算”“把复杂的问题简单化,不要把简单的问题复杂化”等等,我们古老的生存、生活智慧能为我们当下的复杂性问题提供解决思路吗?

安德拉什:古老的智慧至今仍能引起我们的共鸣,有助于我们驾驭复杂的系统。但问题是,即使我们知道应该做什么,也很难把“智慧”(最好的解决方案)付诸实践。管理复杂的系统需要谦逊的决策,敢于公开报忧,强调怀疑、不同意见和多元化,但这些往往违背我们的主观意愿和自然本性。就拿多元化来说吧,多元化最大的作用就是质疑共识,让整个团队变得更加多疑,无法顺利在一起工作,不太容易取得一致,这很讨厌,但却是在复杂、紧密耦合的系统中至关重要的一点,因为复杂系统中人们很容易错失重大威胁的线索,共识会蒙蔽双眼,让大家心安理得,而多元化就像一个减速器,让大家走出安乐窝,很难自以为是地快速作出决定。这就是多元化,它让我们在道理上明白,在实践中厌恶,但它的确有用。所以,从认识智慧到运用智慧,如我们书中所探讨的,还需要克服很多问题。

读+:我们知道很多事故发生的原因都是从结果倒推出来的。当这个原因发生时,我们根本没有办法判断它会造成什么样的后果,这个时候我们该怎么办?您认为应该鼓励人们见微知著地表达怀疑和提出问题,但这会不会造成很多虚惊一场的“狼来了”效应,反而降低了对于危险的关注?

安德拉什:这又是一种利弊的权衡。我们认为让人畅所欲言是至关重要的。他们的关注点是了解系统运行的重要数据来源。管理者必须明白,如果不鼓励人们畅所欲言,那么很快就噤若寒蝉。当然,畅所欲言中的很多信息和观点是错误的,你不能指望人们只带给你有用的信息,所以你需要权衡浪费时间在一些坏主意上的成本和错过一些关键东西的成本。但在复杂的系统中,忽视不同意见的代价远远大于倾听的不便。

读+:5G时代已经开启,物联时代即将来临,人类也即将进入一个更复杂的系统时代,在此过程中,有没有一些迫在眉睫的危机隐患?有没有崩溃的危险?人类社会做好了心理准备去应对这些危机吗?

克里斯:好消息是,我们有很多失败经验,能很好地从失败中总结教训,也有足够多的“遗留技术”——例如,相比于自动驾驶,人类驾驶技术更成熟——那些进入更复杂系统所产生的问题还处于边缘,不会有迫在眉睫的危险。但危机的挑战依然存在。另一个好消息是,一些特定的因应危机的技巧,比如我们在书中提到的那些,可以帮助管理者构建能够在复杂环境中茁壮成长的团队。其中许多技术技巧都很简单,但这并不意味着它们很容易实现。我们相信,管理复杂性的能力将在未来10到20年内使成功的团队、公司甚至政府脱颖而出。


评论一下
评论 0人参与,0条评论
还没有评论,快来抢沙发吧!
最热评论
最新评论
已有0人参与,点击查看更多精彩评论