文章内容

作者[班门斧] 发表于[2007-10-15 11:54:25]
班门斧
发表于 2007-10-16 02:16 《北大中文论坛》


答网友 hu0303 于 2007-10-11 10:30 问:
“那么,黑人,黑户,简讯,快跑,快报,晚报,晚点,吃饭,吃面,心碎,碗碎等都是词了吗?”


首先,我们要从思想观念上认识到,西方的语言文字与汉语汉字是有本质区别的两种事物,西文的词(word)在汉语世界没有绝对对应的东西。任何一个西方山村农妇都清楚什么是“词”,但万计的中国语言文字专家搞了上百年,至今未能解决汉语分词问题。不是我们水平不如那些农妇,而是事物的本质不同。

西文之word,是指用来表义的“一个独立的字母组合”。原本,中文“词”这个字只是诗词、措词、言词等意思,后来与西方文化接触后,借用来套译 “word”,但事实上中文就没有与之对等的这么一种东西。本来,如果中文只研究自己的一套字词语法体系也没有什么问题,而要与西文对等类比的话,麻烦就多多了。

回到上面的具体问题上来,词也可以有广的理解和窄的定义。广的、松散的理解就是每两三个或三几个字一起可以用来表示一个意思,就是一个词。窄的定义大概可以是这样:除了单字词外,每组(两个字或以上)字结合在一起,不可再简单分割地表达一个特定的语义,就是一个词。作为人种名称的“黑人”是一个词,它不包括晒黑,或涂得很黑的汉人,这个“黑”字和“人”字是不可简单分立的。而“快跑”就不是一个词,它就只是“快”对“跑”的简单修饰(限定)。“今晚点什么菜?”“你晚点再吃这个面包吧?”这两个“晚点”就不是词。“这趟火车晚点了”中的“晚点”就是一个词了,即使这个事在凌晨五点发生也是“晚点”。由此类推,“黑人,黑户,简讯,快报,晚报,晚点,心碎”可以认为是词。“心碎”是词,“碗碎”就不是词了。至于“吃饭”,概指包括吃菜、面、汤的事件,就是词,“别夹菜了,快吃饭!”中的“吃饭”就不是词。

上面说过。“词”只是对西文的一个不精确对等的套译,因此,在中文这边,词与非词就没有一个绝对的界线。“猪肉”在小学教育上谁也不敢说它不是一个词,但这类词是可以自释的。大家都习以为常,熟视无睹了,我可以告诉大家,在最流行的几本汉语大小词典中,根本就没有“猪肉”这个词条(众人万万没有想到啊)。可以说“猪肉”不是词,仅仅是“猪”对“肉”的修饰限定。能够100%自释的“词”都可以认为不是词,100%不能自释的,如“头寸”就一定是词。至于中间界线划定在50%处或者67%处,真是没有一定之规,这就是中国语言文字专家群体至今都没能解决分词问题的本质所在。

早先,不能严格分词本来也不是什么问题,但是,随着数字信息时代的到来,涉及到语料的机器处理,机器分类、排序、存储、搜索等等,分词问题就上升为一个重大问题了。

一般人以为汉字在电脑中的困难是输入、输出、存储、显示等。错了,完全不是这么回事。随着电脑甚至手机在高速度、大容量方面的飞速发展,以及软件技术的成熟(汉字输入的方法及软件等),汉字的输入、输出、存储、显示问题已经很好地解决了。中文(汉字)在数码时代面临的关键问题是:汉语分词、汉字排序、汉字发展(包括优化汉字)----后一项是关于如何突破电脑对汉语汉字的局限(闷杀)的问题。
QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
分享:
分享到微信

文章评论

班门斧
无题
班门斧
发表于 2007-1-27 08:09
班氏“词结”论

班氏“词结”论

近代以来,中国文字学界受西方语言文字理论的束缚,一直迷惘困惑,找不到自己的出路。

西文表语义的基础是单词,单词由字母直接组合构成。西文也有词根,但词根这个层次发育不完全,而且词根也不是构成西方语言文字的主体。This is a book, I am going to read it. 没有什么词根可言,就是字母组合而堆砌出来的一列字母串,唯一的学习途径就是死记它们的字母组合和表义。

中文表义的基础是“字”,近代汉语发展成为以双字词为主体,但最根本的特点在于字依然是词的构成基础,字集是一个完整的相对独立的、相对有限的语义集合。

随着西风东渐,约百年来,文字学者们企图用西方的文字理论去解释汉语的文字体系,始终是焦头烂额,不得其门。他们用西方的圆筐来装中国的方块物,始终是不能妥帖踏实。最明显的一个例子就是,在西方老年农妇都不存在的分词问题,中国数以千计的语言文字大师始终搞不清楚,中文分词问题至今没能解决。难道是这个问题真的这么高深吗?难道是英国的老年农妇真的比中国的语言文字教授更有文字修养吗?绝对不是。这只能证明用西方的文字理论来套用在中文上是不适宜的。

中文的“字”是一种独特的东西,是用西方文字理论不能解释的东西。它一字一音,一字一义,它本身既可以是词,又可以作为词的组成部件。其本身有义,但又可以组合成与其字义相关或不相关的语词。

词本位派一直想用“词”来改造、统一汉语(中文),但始终是脱不开“字”的魔影,始终是作茧自缚,走投无路。

中文的分词问题未能解决,在语言学理论、文字改革、输入法研制、中文计算机信息处理等领域就始终是有一个门槛没能跨过,严重地障碍着中文信息事业的发展。

对这个困惑经过长期的思考和研究,班门斧对中文的本质有了一个新的发现,班氏提出一个全新的概念:“词结”理论。

在中文的构成序列中,其层次一般已知为:笔画、部首部件、字、词、词组、句子、段落、文章。词是描述一个特定事物的独立的语义单位(在西文里,它同时又是一个独立的外形结构)。中文的词可以由一个字或两三四个字组成。所谓“独立的语义单位”,如果把它拆分,就不能严格精确地表达原来的语义了(“革命”的特定含义是不能拆分为“革”和“命”的简单相加的)。词组一般而言是两个词的一种较松散的定向组合,具有并列、限定、修饰等语法作用。问题的关键在于,班氏发现在词和词组之间,实质上还有一个层次,班氏暂时命名这个层次为“词结”,是词的衍生物,但它比词组的结构更紧密的意思,词的结节。(请暂时忘记西洋语言文字理论的框框)

“运动场”,以前我们一般把这三个字看成为一个词,在信息处理的落后荒蛮时代不会有什么问题。但随着信息技术的发展,当我们深入研究语法结构,研制输入法编码、编制词典、搞文字改革、搞计算机中文语言文字处理的时候,问题就来了。停车场、养猪场、生料场、废料场也都是一个词吧?养牛、养马、养鸡、养狗、养鳖、养蟹的也要造出一个词,养蜈蚣场、养土拔鼠场、养尼罗河巴氏双勾盘式螺旋藻场,这些也应该是一个词吧。这样下去,没完没了,词典如何编写?词库如何构建?不但长度是一个麻烦,而且其组成是一个开放性的无限集,词典、词库、计算机语料处理是永远不能可靠地实现的。

班氏指出,汉语从单字词过渡到双字词,双字词的主导地位的确立,是汉语汉字发展进程中最伟大的一次革命(渐进式革命)。汉语用双字构词的方法,走上了一条光明大道,五千字可以组合出千万数量级的词库,避免了象英语那样走进海量构词的死亡之路。班氏发现,现代汉语词汇的主体是双字词,再附加上少量的单字词和少量的三字词。如“萨其马”(饼)等一些词不能切分,一旦切分,作为两个独立部分的简单相加就不能正确地表达其原义,则作为特定的三字词。

班氏定义,除了少量的一字词、特定的三字词外,中文的词一般而言是指双字词。同时,引入“词结”的概念。运动场、指挥官、个体户,这些是词结,“2+1”形式的词结。双职工、涮羊肉,这些则是“1+2”式的词结。

部分特殊的、正在语法发展进程中的,如:蓝筹股、爆米花,如果“蓝筹、爆米或米花”未被收入词库,则它们可以被视为三字词,一旦“蓝筹、爆米或米花”被收入词库,则它们分解演化为词结。

词结概念的确立,符合汉语说话朗读的发音节律,也符合汉语语义的构成科学,尤其是使中文的词集成为相对可计算、可操作、可处理的数据集,而不是一个不可操控、不可感知的无底深渊。

关于字词分层、词结概念等内容,是一个很大的课题,或应该写成一两本书,本文只是花絮式地作一个简单浅显的介绍。




本贴由班门斧于2007年1月03日05:32:41在〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表.



班门斧
发表于 2007-10-10 07:41
最近发现一组更好的例子:如“青霉素”。

在词汇研究没有进入数字化、机器化的人海战术的“冷兵器时代”,我们把“青霉素”看成为一个词是合适的。但当今再把它看作是一个词,对于中文处理的数字化、机器化而言,就是不科学了。看看“青霉素、红霉素、氯霉素、链霉素、金霉素、土霉素、赤霉素、磷霉素、新霉素、庆大霉素、万古霉素、阿奇霉素、黄曲霉素、麦迪霉素、表阿霉素、强力霉素、北里霉素、克拉霉素、平阳霉素、更生霉素、卡那霉素”等等,可见,我们不能再让机器语库承认“青霉素”之流是一个独立的词,而且它也超出了“最小的语义结构”的含义。

所以,在承认现代汉语以双字词为主体的客观现实的条件下,应该说“霉素”是一个词,“青霉素”只是一个词结而已。

2007-10-15 11:59:45 | 引用
无题
小斧子兄弟的爱好还挺另类的说。。。:lol:

2007-10-15 18:55:07 | 引用
本那比经略
TreeCa
Re: 什么是“词”?
中国文学载体里有诗、词之分。西方一律为Peom,简直是混账!!!big_shy-b.gif

2007-10-15 19:03:39 | 引用
Re: 什么是“词”?
TreeCa 写道:
中国文学载体里有诗、词之分。西方一律为Peom,简直是混账!!!big_shy-b.gif


树大看帖比囫囵吞枣还快。。。

2007-10-15 19:06:28 | 引用
本那比经略
TreeCa
Re: 什么是“词”?
本那比经略 写道:

树大看帖比囫囵吞枣还快。。。


是快餐文化给害的。。。 f_papa.gif

2007-10-15 19:35:29 | 引用
Re: 什么是“词”?
TreeCa 写道:
中国文学载体里有诗、词之分。西方一律为Peom,简直是混账!!!big_shy-b.gif

你还别说,俺看到这个题目时,首先想到的也是这个意思。

2007-10-15 19:47:09 | 引用
春风拂面
逸立
Re: 什么是“词”?
此词非彼词···咳!咳!说完这话我舌头都短了··· icon_rolleyes.gif

2007-10-15 23:01:33 | 引用
Re: 什么是“词”?
班门斧是不是中文系的汉语专业毕业的?

2007-10-16 11:45:11 | 引用
凡凡
班门斧
Re: 什么是“词”?
凡凡Caroline 写道:
班门斧是不是中文系的汉语专业毕业的?


呵呵,多看几个贴。

2007-10-16 12:27:46 | 引用
关于汉语语言学的知识和教材
关于汉语语言学的知识和教材

内文:陈鑫海 (云帆) 发表于 2007-6-17 22:46
(标题为班门斧所加)

首先要学好现代汉语。推荐教材:
黄伯荣、廖旭东《现代汉语》(增订三版),高等教育出版社
胡裕树《现代汉语》(增订本),上海教育出版社
北大中文系《现代汉语》,商务印书馆
邵敬敏《现代汉语》,上海教育出版社
简单评价:
黄、廖本,八、九十年代“三大”现代汉语教材之一,在国内多为师范院校采用,深入浅出,资料丰富,自成体系,便于自学。自学时推荐使用配套版本的《教学参考资料及习题解答》(书名可能记错〉。
胡本,八、九十年代“三大”现代汉语教材之一,在国内多为综合性院校使用,有一定难度。使用时推荐参考《教学参考资料》,这是配合早期版本编的一部参考资料,一共厚厚三大本,现在已经颇不易得到。
邵本,新世纪替代胡本的教材,体系新颖,有现代语言学精神。有配套《教学用书》和《参考书》,涉及知识点较多,自学需有选择使用。
北大本,目前所知使用学校较少,(我只知道北大和人大在用),名家编写,自成体系。但不适合自学,最好用于课堂讲授。因为这本教材提纲挈领,很多知识点点到为止,但背后背景较深。推荐配合使用《现代汉语知识教程》(北大出版社)。

学习现代汉语,最重要的是掌握其语音、语法系统和最基本的分析方法,这是进一步学习古代汉语和语言学理论以及其他分支学科的重要基础。

第二要学好古代汉语,推荐教材:
王力《古代汉语》,经典教材,内容较多,有选择使用。
郭锡良《古代汉语》,在王本基础上有所改进。
许嘉璐《古代汉语》(高等教育出版社),高等师范院校教材,内容丰富,通论自成体系,文选有白文和古注读本的训练,适合提高。
现在的古代汉语教材,一般不在列有常用词分析,原因是现在的古汉语工具书比较多,也越来越完善。推荐使用工具书:
《古汉语常用字字典》、《王力古汉语字典》、《古代汉语词典》(商务)等等。
学习古代汉语,重要的是学习重要的实词和虚词的用法,掌握古今汉语语法特点的异同,以及相关的语文(工具书使用、诗词格律等)、文学(古代文体概况等)、文化常识。

语言学基本理论:推荐教材:
叶蜚声、徐通锵《语言学纲要》,经典教材,提纲挈领,主要把握其中“聚合与组合”两条线索,两条线索贯穿始终,且也是重要的、基本的分析方法。
刘伶等《语言学概要》(北师大出版社),早期重要教材,内容丰富。现在不大容易得到了。
还有很多,不一一列举了。
学习语言学理论,重要的是能够从宏观上认识语言学作为一门科学的地位、对象、目的和作用,能够从普通语言学的视角认识自己的母语,较全面地掌握国际音标,了解一些世界语言的普遍的、基本的特征(如元音三角、普遍语法特征等),能从多个角度对语言进行分类而不互相混淆(主要指类型学分类和发生学分类),能够认识语言演变和发展的动力,为进一步学习和研究语言学的各个分支学科打好基础。

文字学,推荐书目:
裘锡圭,《文字学概要》。经典教材。内容平实,便于自学。
周有光,《比较文字学初探》(上海教育)。拓宽视野,看看世界上的各种文字,别被汉字限制死了。
主要掌握文字的分类、汉字构成特点的一般知识。

汉语音韵学。推荐教材:
唐作藩,《音韵学教程》,深浅结合,知识全面,但自学有一定难度。
何九盈,《古汉语音韵学述要》,很好的参考书,其中讲“等韵学”的部分可以作为唐本的补充,属于非常重要的基础知识。
丁声树、李容《汉语音韵讲义》,适合自学,多用表格展示知识,一目了然。
学习音韵学的目的,是掌握《广韵》的语音系统及其分析方法和使用方法,为进一步学习和研究汉语史、汉语方言学做好前期准备。

汉语方言学,推进教材:
袁家骅:《汉语方言概要》(增订二版),语文出版社
候精一,《(汉语?)方言学概论》,上海教育。
学习方言学,最重要的是要掌握调查方言的方法,至于各大方言的基本概况,反在其次。理论知识比较重要的有:方言和语言的关系以及方言分区的标准。
语言的田野调查,是任何一个语言研究者必备的基本功。如果连这都不会,我看,那就不要谈什么研究了。所以,实际的调查实践非常非常重要!语言学可不只有理论,实践性也是很强的。

汉语史,推荐教材:
王力,《汉语史稿》。经典教材,学习目的是先树起一个框架,准备填充更多的内容。当然,允许在进一步的学习中有所更正。但作为基础、作为参照系,这本教材还没有过时呢。

汉语语法学,推荐教材:
朱德熙,《语法讲义》。经典中的经典。通过学习掌握结构主义的基本分析方法,特别是学习其对语法现象细腻的描写和分析。
吕叔湘,《汉语语法分析问题》,薄薄的小册子,提出了很多重大问题,到现在才解决了几个?
什么是大家、什么是经典,这两本书可以作为范例。

以上七个学科,是语言学,特别是汉语研究入门必备的。以北京大学为例,分别属于语言专业本科一至三年级的必修课。如果是非专业的同学,在不能全天候学习,且要从头认真学起的话,应该做好三至五年学完的准备。并且要按照一定的顺序,循序渐进,一环扣一环。在学习阶段,不要冒进,也不要被“新理论”、“新观点”所迷惑,基础最重要。打不好基础,一切都是白费。

推荐的核心学术期刊:《中国语文》,历史悠久,能够代表汉语研究的水平。《当代语言学》,开阔一下视野,他山之石可以攻玉。《民族语文》,获得更多材料,虽然是第二手的,但水平不差。《方言》,作为材料用,与前者相同。后两者对于初学者来说主要还是看看热闹,了解一下足以。
以书代刊的:《中国语言学报》,中国语言学会会刊,两年一本,现出至第十二期。国内语言学最高水平的学术会议论文集。内容涵盖(汉语及境内语言为主)语言学的各个方面。《语言学论丛》,现出至第三十四辑,除《民族语文》、《中国语文》以外,国际引用率最高的国内语言学刊物。文章水平高,紧紧追踪前沿、热点问题。代表北大汉语研究的实际水平。

2007-10-16 16:07:09 | 引用
班门斧
上一页12下一页

发表评论

Photo(相册)

没有任何相册

My Groups(群组)

地产投资
 
更多...

Good friend (好友)

The images, logos, trademarks used on this site and all forwarded content are the property of their respective owners.
We are not responsible for comments posted by our visitors, as they are the property of the poster.
All other content of this website is copyrighted by 加西网

skin by 126blog.com | page generation: 0.040

加西网为北美中文网传媒集团旗下网站