文章内容
班门斧
发表于 2007-10-16 02:16 《北大中文论坛》
答网友 hu0303 于 2007-10-11 10:30 问:
“那么,黑人,黑户,简讯,快跑,快报,晚报,晚点,吃饭,吃面,心碎,碗碎等都是词了吗?”
首先,我们要从思想观念上认识到,西方的语言文字与汉语汉字是有本质区别的两种事物,西文的词(word)在汉语世界没有绝对对应的东西。任何一个西方山村农妇都清楚什么是“词”,但万计的中国语言文字专家搞了上百年,至今未能解决汉语分词问题。不是我们水平不如那些农妇,而是事物的本质不同。
西文之word,是指用来表义的“一个独立的字母组合”。原本,中文“词”这个字只是诗词、措词、言词等意思,后来与西方文化接触后,借用来套译 “word”,但事实上中文就没有与之对等的这么一种东西。本来,如果中文只研究自己的一套字词语法体系也没有什么问题,而要与西文对等类比的话,麻烦就多多了。
回到上面的具体问题上来,词也可以有广的理解和窄的定义。广的、松散的理解就是每两三个或三几个字一起可以用来表示一个意思,就是一个词。窄的定义大概可以是这样:除了单字词外,每组(两个字或以上)字结合在一起,不可再简单分割地表达一个特定的语义,就是一个词。作为人种名称的“黑人”是一个词,它不包括晒黑,或涂得很黑的汉人,这个“黑”字和“人”字是不可简单分立的。而“快跑”就不是一个词,它就只是“快”对“跑”的简单修饰(限定)。“今晚点什么菜?”“你晚点再吃这个面包吧?”这两个“晚点”就不是词。“这趟火车晚点了”中的“晚点”就是一个词了,即使这个事在凌晨五点发生也是“晚点”。由此类推,“黑人,黑户,简讯,快报,晚报,晚点,心碎”可以认为是词。“心碎”是词,“碗碎”就不是词了。至于“吃饭”,概指包括吃菜、面、汤的事件,就是词,“别夹菜了,快吃饭!”中的“吃饭”就不是词。
上面说过。“词”只是对西文的一个不精确对等的套译,因此,在中文这边,词与非词就没有一个绝对的界线。“猪肉”在小学教育上谁也不敢说它不是一个词,但这类词是可以自释的。大家都习以为常,熟视无睹了,我可以告诉大家,在最流行的几本汉语大小词典中,根本就没有“猪肉”这个词条(众人万万没有想到啊)。可以说“猪肉”不是词,仅仅是“猪”对“肉”的修饰限定。能够100%自释的“词”都可以认为不是词,100%不能自释的,如“头寸”就一定是词。至于中间界线划定在50%处或者67%处,真是没有一定之规,这就是中国语言文字专家群体至今都没能解决分词问题的本质所在。
早先,不能严格分词本来也不是什么问题,但是,随着数字信息时代的到来,涉及到语料的机器处理,机器分类、排序、存储、搜索等等,分词问题就上升为一个重大问题了。
一般人以为汉字在电脑中的困难是输入、输出、存储、显示等。错了,完全不是这么回事。随着电脑甚至手机在高速度、大容量方面的飞速发展,以及软件技术的成熟(汉字输入的方法及软件等),汉字的输入、输出、存储、显示问题已经很好地解决了。中文(汉字)在数码时代面临的关键问题是:汉语分词、汉字排序、汉字发展(包括优化汉字)----后一项是关于如何突破电脑对汉语汉字的局限(闷杀)的问题。
发表于 2007-10-16 02:16 《北大中文论坛》
答网友 hu0303 于 2007-10-11 10:30 问:
“那么,黑人,黑户,简讯,快跑,快报,晚报,晚点,吃饭,吃面,心碎,碗碎等都是词了吗?”
首先,我们要从思想观念上认识到,西方的语言文字与汉语汉字是有本质区别的两种事物,西文的词(word)在汉语世界没有绝对对应的东西。任何一个西方山村农妇都清楚什么是“词”,但万计的中国语言文字专家搞了上百年,至今未能解决汉语分词问题。不是我们水平不如那些农妇,而是事物的本质不同。
西文之word,是指用来表义的“一个独立的字母组合”。原本,中文“词”这个字只是诗词、措词、言词等意思,后来与西方文化接触后,借用来套译 “word”,但事实上中文就没有与之对等的这么一种东西。本来,如果中文只研究自己的一套字词语法体系也没有什么问题,而要与西文对等类比的话,麻烦就多多了。
回到上面的具体问题上来,词也可以有广的理解和窄的定义。广的、松散的理解就是每两三个或三几个字一起可以用来表示一个意思,就是一个词。窄的定义大概可以是这样:除了单字词外,每组(两个字或以上)字结合在一起,不可再简单分割地表达一个特定的语义,就是一个词。作为人种名称的“黑人”是一个词,它不包括晒黑,或涂得很黑的汉人,这个“黑”字和“人”字是不可简单分立的。而“快跑”就不是一个词,它就只是“快”对“跑”的简单修饰(限定)。“今晚点什么菜?”“你晚点再吃这个面包吧?”这两个“晚点”就不是词。“这趟火车晚点了”中的“晚点”就是一个词了,即使这个事在凌晨五点发生也是“晚点”。由此类推,“黑人,黑户,简讯,快报,晚报,晚点,心碎”可以认为是词。“心碎”是词,“碗碎”就不是词了。至于“吃饭”,概指包括吃菜、面、汤的事件,就是词,“别夹菜了,快吃饭!”中的“吃饭”就不是词。
上面说过。“词”只是对西文的一个不精确对等的套译,因此,在中文这边,词与非词就没有一个绝对的界线。“猪肉”在小学教育上谁也不敢说它不是一个词,但这类词是可以自释的。大家都习以为常,熟视无睹了,我可以告诉大家,在最流行的几本汉语大小词典中,根本就没有“猪肉”这个词条(众人万万没有想到啊)。可以说“猪肉”不是词,仅仅是“猪”对“肉”的修饰限定。能够100%自释的“词”都可以认为不是词,100%不能自释的,如“头寸”就一定是词。至于中间界线划定在50%处或者67%处,真是没有一定之规,这就是中国语言文字专家群体至今都没能解决分词问题的本质所在。
早先,不能严格分词本来也不是什么问题,但是,随着数字信息时代的到来,涉及到语料的机器处理,机器分类、排序、存储、搜索等等,分词问题就上升为一个重大问题了。
一般人以为汉字在电脑中的困难是输入、输出、存储、显示等。错了,完全不是这么回事。随着电脑甚至手机在高速度、大容量方面的飞速发展,以及软件技术的成熟(汉字输入的方法及软件等),汉字的输入、输出、存储、显示问题已经很好地解决了。中文(汉字)在数码时代面临的关键问题是:汉语分词、汉字排序、汉字发展(包括优化汉字)----后一项是关于如何突破电脑对汉语汉字的局限(闷杀)的问题。
发表于 2007-1-27 08:09
班氏“词结”论
班氏“词结”论
近代以来,中国文字学界受西方语言文字理论的束缚,一直迷惘困惑,找不到自己的出路。
西文表语义的基础是单词,单词由字母直接组合构成。西文也有词根,但词根这个层次发育不完全,而且词根也不是构成西方语言文字的主体。This is a book, I am going to read it. 没有什么词根可言,就是字母组合而堆砌出来的一列字母串,唯一的学习途径就是死记它们的字母组合和表义。
中文表义的基础是“字”,近代汉语发展成为以双字词为主体,但最根本的特点在于字依然是词的构成基础,字集是一个完整的相对独立的、相对有限的语义集合。
随着西风东渐,约百年来,文字学者们企图用西方的文字理论去解释汉语的文字体系,始终是焦头烂额,不得其门。他们用西方的圆筐来装中国的方块物,始终是不能妥帖踏实。最明显的一个例子就是,在西方老年农妇都不存在的分词问题,中国数以千计的语言文字大师始终搞不清楚,中文分词问题至今没能解决。难道是这个问题真的这么高深吗?难道是英国的老年农妇真的比中国的语言文字教授更有文字修养吗?绝对不是。这只能证明用西方的文字理论来套用在中文上是不适宜的。
中文的“字”是一种独特的东西,是用西方文字理论不能解释的东西。它一字一音,一字一义,它本身既可以是词,又可以作为词的组成部件。其本身有义,但又可以组合成与其字义相关或不相关的语词。
词本位派一直想用“词”来改造、统一汉语(中文),但始终是脱不开“字”的魔影,始终是作茧自缚,走投无路。
中文的分词问题未能解决,在语言学理论、文字改革、输入法研制、中文计算机信息处理等领域就始终是有一个门槛没能跨过,严重地障碍着中文信息事业的发展。
对这个困惑经过长期的思考和研究,班门斧对中文的本质有了一个新的发现,班氏提出一个全新的概念:“词结”理论。
在中文的构成序列中,其层次一般已知为:笔画、部首部件、字、词、词组、句子、段落、文章。词是描述一个特定事物的独立的语义单位(在西文里,它同时又是一个独立的外形结构)。中文的词可以由一个字或两三四个字组成。所谓“独立的语义单位”,如果把它拆分,就不能严格精确地表达原来的语义了(“革命”的特定含义是不能拆分为“革”和“命”的简单相加的)。词组一般而言是两个词的一种较松散的定向组合,具有并列、限定、修饰等语法作用。问题的关键在于,班氏发现在词和词组之间,实质上还有一个层次,班氏暂时命名这个层次为“词结”,是词的衍生物,但它比词组的结构更紧密的意思,词的结节。(请暂时忘记西洋语言文字理论的框框)
“运动场”,以前我们一般把这三个字看成为一个词,在信息处理的落后荒蛮时代不会有什么问题。但随着信息技术的发展,当我们深入研究语法结构,研制输入法编码、编制词典、搞文字改革、搞计算机中文语言文字处理的时候,问题就来了。停车场、养猪场、生料场、废料场也都是一个词吧?养牛、养马、养鸡、养狗、养鳖、养蟹的也要造出一个词,养蜈蚣场、养土拔鼠场、养尼罗河巴氏双勾盘式螺旋藻场,这些也应该是一个词吧。这样下去,没完没了,词典如何编写?词库如何构建?不但长度是一个麻烦,而且其组成是一个开放性的无限集,词典、词库、计算机语料处理是永远不能可靠地实现的。
班氏指出,汉语从单字词过渡到双字词,双字词的主导地位的确立,是汉语汉字发展进程中最伟大的一次革命(渐进式革命)。汉语用双字构词的方法,走上了一条光明大道,五千字可以组合出千万数量级的词库,避免了象英语那样走进海量构词的死亡之路。班氏发现,现代汉语词汇的主体是双字词,再附加上少量的单字词和少量的三字词。如“萨其马”(饼)等一些词不能切分,一旦切分,作为两个独立部分的简单相加就不能正确地表达其原义,则作为特定的三字词。
班氏定义,除了少量的一字词、特定的三字词外,中文的词一般而言是指双字词。同时,引入“词结”的概念。运动场、指挥官、个体户,这些是词结,“2+1”形式的词结。双职工、涮羊肉,这些则是“1+2”式的词结。
部分特殊的、正在语法发展进程中的,如:蓝筹股、爆米花,如果“蓝筹、爆米或米花”未被收入词库,则它们可以被视为三字词,一旦“蓝筹、爆米或米花”被收入词库,则它们分解演化为词结。
词结概念的确立,符合汉语说话朗读的发音节律,也符合汉语语义的构成科学,尤其是使中文的词集成为相对可计算、可操作、可处理的数据集,而不是一个不可操控、不可感知的无底深渊。
关于字词分层、词结概念等内容,是一个很大的课题,或应该写成一两本书,本文只是花絮式地作一个简单浅显的介绍。
本贴由班门斧于2007年1月03日05:32:41在〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表.
班门斧
发表于 2007-10-10 07:41
最近发现一组更好的例子:如“青霉素”。
在词汇研究没有进入数字化、机器化的人海战术的“冷兵器时代”,我们把“青霉素”看成为一个词是合适的。但当今再把它看作是一个词,对于中文处理的数字化、机器化而言,就是不科学了。看看“青霉素、红霉素、氯霉素、链霉素、金霉素、土霉素、赤霉素、磷霉素、新霉素、庆大霉素、万古霉素、阿奇霉素、黄曲霉素、麦迪霉素、表阿霉素、强力霉素、北里霉素、克拉霉素、平阳霉素、更生霉素、卡那霉素”等等,可见,我们不能再让机器语库承认“青霉素”之流是一个独立的词,而且它也超出了“最小的语义结构”的含义。
所以,在承认现代汉语以双字词为主体的客观现实的条件下,应该说“霉素”是一个词,“青霉素”只是一个词结而已。