新智元笔记:工程语法和深度神经
汉语的类后缀(quasi-suffix)有不同的造词程度,“-者” 比“-家”强。“者” 是 bound morpheme,“家(home)” 通常是 free morpheme,突然来个“冷笑家”,打了个措手不及 @白老师。
不敢轻易给这种常用的 free morpheme 增加做类后缀的可能性,怕弄巧成拙。即便是人,乍一听这句子中的“冷笑家”也有点怪怪的感觉,怎么这样用词呢?如果硬要去模拟人的造词和理解合成词的功能,倒是有 heuristics,不知道值得不值得 follow:“冷笑”是 human 做 S 的动词,-家 是表示 human 的可能的后缀(“者” 比 “家” 更宽泛一些,可以表示机构或法人),这就为“冷笑家”作为合成词增添了一点语义的搭配证据,但还不足以站住,于是还有另一个 heuristic:“冷笑”的 subcat 的 human 语义坑不仅仅是S,其 O 也是 human: “张三冷笑李四”。而另一条路径(上面输出的 parse)是:"冷笑" 的 O 是"赞成“, 不搭。 这两个 heuristics (一个morphological,一个 syntactic)是如何在人脑里合力促成了正确的理解的,是一个可以想象但并不清晰的下意识过程。机器可以不可以模拟这个过程,利用这种合力做出逼近人类的语言理解呢?道理上当然可以。既然我都可以描述出来,那么硬做也可以做出它来。但是,在遇到这样的语料的时候,说句实话,通常选择不做。原因就是我以前说的:编制一个 NLU 系统,不能太精巧。【科研笔记:系统不能太精巧,正如人不能太聪明】
白:
赞成有俩坑,一个human,一个内容。就算被“的”强制为名词,这俩坑仍旧在。
我:
是,我还没来得及加上 “赞成” 的坑的考量进来,问题的复杂度更增加了。
精巧的路线是老 AI 的人和语言学家最容易陷入的泥潭。
老 AI 陷入精巧还不当紧,因为 老 AI 做的都是玩具,domain 极为狭窄,精巧不至于造成太大偏向。
白:
“这本书的出版”和“冷笑家的赞成”异曲同工,都是用填坑成分限定有坑的临时名词。
所以,两个坑其中一个是human,会给“-家”结构加分。
这是系统性的现象,与精巧无关。
我:
我就怕聪明反被聪明误。在 data driven 的NLU开发过程中,对于偶然出现的“怪怪“ 的语词或句子,
我通常是无视它的存在(除非这个现象反复出现)。
白老师总说是系统性的现象,但举出的例子常常是 “怪怪”的,是那种介于人话与“超人话”之间的东西,超人指的是,这类话常常是语言学家从头脑里想出来的,或者是高级知识分子抖机灵的作品。
白老师宋老师,还有 yours truly 都擅长写出这样句子,可是普罗不这样说话。
用白老师自己的话说,就是这类现象处于毛毛虫的的边缘毛糙的地方。
虽然是毛毛虫的一个部分,没有它其实无碍。
我指的是 “家” 作为类后缀的现象。
白:
对付这种既没有截然的肯定也没有截然的否定,而只是“加分”/“减分”的逻辑,统计比规则更在行。关键是模式长啥样。
分享: |
注: | 在此页阅读全文 |