机器学笔记专栏
1一本索绪尔没写过的名著
说起来,索绪尔某种意义上算是幸运的。他于1913年逝世于日内瓦,死时几乎已回归到籍籍无名的状态,却永久躲开了两次世界大战的浩劫。
3年后,1916年,一本署名斐迪南·德·索绪尔的书,在乏人问津的状态下出版——当时一战正打得热火朝天、死伤枕藉,很少有人会去注意这么一本叫作《普通语言学教程》的书名乏味,内容对当时绝大多数人来说也很枯燥的教科书。而且这本书根本不是索绪尔本人“写”的(正如著名结构主义文学理论家乔纳森·卡勒所说,“他对语言学和其他学科的影响都来自一些他从未写过的东西”),而是他最后的几个学生——甚至未必称得上是标准意义上的学生,因为他只是在同事退休后匆忙接手了三学期课,而负责编辑工作的有两位甚至都没听过他这门课——整理出版的一部课堂笔记。6年后,大战尘埃落定余波未平之际,这本书终于出了第二版,然后再要等上整整27年,它才能在下一场大战又已落幕而冷战尚未开启的1949年,迎来自己的第三版。
但就是这么一本几乎名不正言不顺的“著作”,成了20世纪后半叶整个蔚为壮观的结构主义、符号学运动乃至作为它们的“逻辑后果”的解构主义、后现代主义的源头,更不必说语言学研究本身因此而发生的翻天覆地的变化。
作为最新的后续,我想说,甚至对于理解什么是真正的AI,对于在两条激烈斗争的AI发展“路线”(符号主义vs联结主义)中何去何从,对于我们究竟应怎样看待AI与人类智能之间的关系,它都依然极具启发性——只要我们还能在一片浮躁和喧嚣中,真正潜下心来读一读这本乍看很枯燥却预埋了无数思想上的“炸点”的“课本”。毕竟,火热的GPT系列是基于所谓“大语言模型”,那么你对语言和语言学一无所知的话,又怎么能真正理解GPT们到底在干什么和怎么干呢?并且当你深入了解了GPT们的运行方式,倒过来,很可能你会对人类语言(乃至完全基于语言的人类思维)的构造、功能及其运用,从根源上生成一种全新的、前人从未设想过的理解——再一次,就像马克思说的,“人体解剖是猴体解剖的一把钥匙”。
2符号与符号主义
木心说“唯美主义伤在不懂得美”,借用这个很聪明的“句式”,我想说,“(作为AI主要流派之一的)符号主义伤在不懂得符号”。
不妨以眼下明确以符号主义方式理解AI,并且在硅谷深具影响力的前创业企业家、现神经科学和认知心理学家盖瑞·马库斯为例。
马库斯虽然礼貌地对目前AI领域的进展表达了有限的认可,却在《如何创造可信的AI》一书中集中火力攻击了当下的主流——机器学习,尤其是机器学习中大火的“深度学习”。他认为:
“从现实角度来看,深度学习只不过攻克了智能机器这一巨大挑战中的一小部分。深度学习这类技术缺乏表示因果关系(例如疾病及其症状之间的关系)的方法,很可能在面对‘兄弟姐妹’或‘与之相同’等抽象概念时遇到问题。深度学习无法进行逻辑推理,在抽象知识的理解方面也有很长一段路要走……”
所以很显然,马库斯就是新一代对符号的本质不甚了了的“符号主义”者。他攻击主要基于统计学的深度学习,因为“统计数字经常能近似地表示意义,但永远不可能抓住真正的意思”,“如果不能精准地捕捉每个单词的意义,就更不能准确地捕捉复杂的思想或描述它们的句子”。
正是基于这一点,马库斯对于无人驾驶之类的AI技术应用不屑一顾,认为它们离可以真正“上路”还很遥远,理由和深度学习不能精准把握每一个单词的意义是一样的:当无人驾驶的汽车驶出实验环境,来到真正的公路上时,它会迷失于沿路各种千奇百怪的从未出现在训练数据集中的事物,因无法精准识别出它们究竟是什么东西,而无法做出合理的决策。
而事实上,每一个多少懂点索绪尔符号任意性理论的人,都知道无人驾驶根本不需要去识别出遇到的每一样东西到底是什么,它只要构建一个有效的差别系统就可以了:根据比如动量值来建立一个差异,从而区分出两种对立状态,有的东西可以撞,有的东西不可以撞,一个初步的自动驾驶系统就可以建立起来了,其他的都是进一步的细化工作。
此外,索绪尔明确指出“整体语言”是一个社会性的系统,而“个体语言”或“言语”是个人对这一系统的运用。再放到譬如无人驾驶上来,真正的AI无人驾驶,并不是一个产品,也不可能仅仅是企业行为——它必须是基于相关产品的整体社会转型。无人驾驶并不是说有一辆车,比如最好的特斯拉,它可以在现有的公路状况和城市环境下,将行驶过程中出现事故的可能性压低到可以忽略不计的程度。真正的无人驾驶一开始就是一个社会系统工程,是整个社会在出行方式上的根本转型。这种转型不仅要发生在所谓“交通”的整个运作模式上,也同时必须发生在每一个人的出行方式及其规范上。
打个比方,就像手机支付,不是某个人、某款手机、某家商场甚至某个支付系统的事情,而是整个社会的“支付生态”从收银机和刷卡向扫码的彻底转变。此时,个人的行为模式也(至少在某一重要方面)发生巨变,比如几乎不再随身携带钞票,因而钱包濒于淘汰,但手机却须臾