从各种令人分心乱意的嘈杂声的本底中把有意义的信号辨别出来,是人们日常的一种实践技能。现在已经从数学上证明了它的存在,而且这正是使神经网络工作运转的根据。
“鸡尾酒会效应”是个司空见惯的问题。让50个人集中在一间小屋里,手里拿上饮料,然后观察他们相互交流时的窘况。随着喧闹声逐渐变响,人们不得不一再提高声音以使附近的人能听到自己在说什么。于是噪声变得更响,几乎任何时刻,大家都在叫嚷。交谈实际上变得不可能了。上述这种在社交活动中出现的现象成了令人费解的谜,那就是在现实生活中,交谈究竟是怎样成了无休止的喧闹声,所有的信号都被淹没在一片喧哗中。
可是,欣赏鸡尾酒会的人回来后总觉得自己是沉浸在谈话中的,尽管有时很拥挤,他们还是自认为从谈话中得到乐趣或受到启发。在一些社交活动的教科书中频繁提到鸡尾酒会效应的第二个原因是:即由此证明了有智慧的人类的确能把他们感兴趣的信号从各种令人不可忍受的噪音中区分出来。事实上,大脑的内部结构亦显示了那样做的杰出技能。可是,这一切是如何完成的呢?
两位来自德国基乐理论物理研究所的理论家L · 默基德(L · Molgedey)和H · G斯克斯特(H · G · Schuster),现在找到了一种解释以及与此相关的神经网络的详细说明。更确切地说,他们是参考了加利福尼亚技术研究所的约翰 · 赫普费尔德(John · Hopfield)提出的论点。这一论述表面上与此无关,实质上是个类似的问题——鼻涕虫是怎么从不同的添味剂和混合物中辨出气味的。
本文运用“解释”一词,与在其它提及人工智能的事物中运用一样,需要慎重。建立一个数学模式来说明一个智力活动的完成过程并不能证明大脑也是那样活动的。甚至近十几年前的大卫 · 马尔(David · Marr)有关立体视觉形成的美妙叙述与数学家们所称的“存在定理”也是全然不同的。但是,通过论证,了解大脑显然能够精确地完成计算工作是很有益的。而且如果借助硅来建立神经网络成为可能则更是大有裨益的。
的确,默基德和斯克斯特把要解决的问题的适用范围扩大了:把不同的无线电信号从被古怪地称作“以太”的物质中区分出来;从带有刺激性香味的混合物中区分不同的气味并传递到头脑中不同的源头,而大脑中混杂的电磁信号都被与之相联的外部装置清晰地记录下来,以上这一切均属他们的研究范围,更广泛地,他们甚至提出他们的论述可能与大脑区别不同物质即视觉范围有关。但“鸡尾酒会效应”(他俩没有更多地提到)则是一个有价值的开端。
那么在鸡尾酒会中不同人的声音是如何被辨别的呢?从形式来看是易懂的。假设听众的数量与说话者一样多,根据定义就像在真的鸡尾酒会上。再假设每个听者听到的信号是那些来自所有声源的线性组合。那么听者i接收到的信号Ii(t)可以表示为∑Cijaj(t),其中指数j是指不同声源中的一个,aj(t)是输出信号的时间变量,数量cij是人数,于是问题似乎清楚地解决了。有多少声源(说话者)就有多少线性方程。只要把所有听者的信号集中起来,借助解方程(或改变函项的底数),就可能准确地弄清各人在讲什么话。
然而,在一个真正的鸡尾酒会上就有个问题,即人数Cij是不确定的,(因为人们是要走动的)。而来自不同的声源的输出量实际上就是针对某个特定的对象,人们说出想到的话,或干脆保持沉默(也许更常见的是想好了再说)在实际情况下,通常人们头脑中并没有像预期的那样运用收集到的信息,甚至没有进行对话所需的足够时间。只有安排好一切事项才能使每位听者只接听唯一的一个声源。这一切是怎么做到的呢?
起先是很简单的事实,即来自不同声源的信号与时间无关(这是建立在鸡尾酒会不会变成大合唱的前提下),但各个声源的信号总会一定程度地自动与时间有关。默基德和斯克斯特简明地提出了<aj(t)aj(t')>,这是个用“<>”代表平均时间,(t'-t)表示绝对时间差的函数式。不过,其中又有一个数学上的难点:数量Cij这个矩阵函数是不对称的,但解题的要素则是测出与时间相关的听者接受的信号,从中减去上述函数数量,从而产生一个只与一个声源有关的信号。
由于只剩2个声源(及2个听众),问题就简单了。根据定理Ii(t)=C11a1(t)+C12a2(t),要让Ii(t)完全代表a1(t),很简单,只需减去C12a2(t),这个数量只需测出所有可能听到的信号及与之相关的系数就能得到。于是就变成了一个已被很好证明了的数学问题。而且有足够的信息来修正这个系数,事实上,他们不会比问题的定义变得更快。
实际上,鸡尾酒会上只要出现二个以上的人,计算就会稍微复杂些。尽管不同的声源之间是无关的,但听者信号(一般是来自所有声源的混合物)会交杂在一起。关键在于计算输出信号Ii(t)的修正量,这样就简化了对说话者的输出信号aj(t)的测量,只需集中起来自接受者的信息。原材料必须包含对< Ii(t)Ij(t)>和<Ii(t)Ij(t+T)>的测量,其中T是时间的小增值,需计算的是系数Cij、有关的声源的深度及自相关系数。
从事物的表面看,这一工作似乎完成了。的确,默基德和斯克斯特已能把两个孩子哭声的录音混在一起,通过直接运用他们的技术,他们还能把两个孩子各自的声音从被混合的声音中区分出来。毫无疑问,下一步将是用硅片制成电脑系统来观察它是否能像预期的那样起作用。与此同时,作者声称他们的技术甚至还可运用于非线性的混合信号中。那些习惯于召开嘈嘈嚷嚷鸡尾酒会的人们将发现他们必须用一个精心设计的耳机武装客人的日子不会久远了。
[Nature,1994年6月16日]