新智元笔记：工程语法和深度神经

2016-05-29 | 来源: 李维博客 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

　　我：

　　汉语的类后缀（quasi-suffix）有不同的造词程度，“-者” 比“-家”强。“者” 是 bound morpheme，“家（home）” 通常是 free morpheme，突然来个“冷笑家”，打了个措手不及 @白老师。

　　不敢轻易给这种常用的 free morpheme 增加做类后缀的可能性，怕弄巧成拙。即便是人，乍一听这句子中的“冷笑家”也有点怪怪的感觉，怎么这样用词呢？如果硬要去模拟人的造词和理解合成词的功能，倒是有 heuristics，不知道值得不值得 follow：“冷笑”是 human 做 S 的动词，-家是表示 human 的可能的后缀（“者” 比 “家” 更宽泛一些，可以表示机构或法人），这就为“冷笑家”作为合成词增添了一点语义的搭配证据，但还不足以站住，于是还有另一个 heuristic：“冷笑”的 subcat 的 human 语义坑不仅仅是S，其 O 也是 human： “张三冷笑李四”。而另一条路径（上面输出的 parse）是："冷笑" 的 O 是"赞成“，不搭。这两个 heuristics （一个morphological，一个 syntactic）是如何在人脑里合力促成了正确的理解的，是一个可以想象但并不清晰的下意识过程。机器可以不可以模拟这个过程，利用这种合力做出逼近人类的语言理解呢？道理上当然可以。既然我都可以描述出来，那么硬做也可以做出它来。但是，在遇到这样的语料的时候，说句实话，通常选择不做。原因就是我以前说的：编制一个 NLU 系统，不能太精巧。【科研笔记：系统不能太精巧，正如人不能太聪明】

　　白:

　　赞成有俩坑，一个human，一个内容。就算被“的”强制为名词，这俩坑仍旧在。

　　我:

　　是，我还没来得及加上 “赞成” 的坑的考量进来，问题的复杂度更增加了。

　　精巧的路线是老 AI 的人和语言学家最容易陷入的泥潭。

　　老 AI 陷入精巧还不当紧，因为老 AI 做的都是玩具，domain 极为狭窄，精巧不至于造成太大偏向。

　　白:

　　“这本书的出版”和“冷笑家的赞成”异曲同工，都是用填坑成分限定有坑的临时名词。

女演员推特“潜规则”笔记只要能拍戏干啥都行(图)

亳州工程质量举报人被定了强奸罪

中国神经紧绷地审视俄罗斯朝鲜的和解

　　所以，两个坑其中一个是human，会给“-家”结构加分。

　　这是系统性的现象，与精巧无关。

　　我:

　　我就怕聪明反被聪明误。在 data driven 的NLU开发过程中，对于偶然出现的“怪怪“ 的语词或句子，

　　我通常是无视它的存在（除非这个现象反复出现）。

　　白老师总说是系统性的现象，但举出的例子常常是 “怪怪”的，是那种介于人话与“超人话”之间的东西，超人指的是，这类话常常是语言学家从头脑里想出来的，或者是高级知识分子抖机灵的作品。

　　白老师宋老师，还有 yours truly 都擅长写出这样句子，可是普罗不这样说话。

　　用白老师自己的话说，就是这类现象处于毛毛虫的的边缘毛糙的地方。

　　虽然是毛毛虫的一个部分，没有它其实无碍。

　　我指的是 “家” 作为类后缀的现象。

　　白:

　　对付这种既没有截然的肯定也没有截然的否定，而只是“加分”/“减分”的逻辑，统计比规则更在行。关键是模式长啥样。