摘要:
本文介绍利用word尾注来注明文献引用,并用交叉引用自动生成文献列表,为论文撰写带来极大便利。最后给出参考文献格式。
撰写论文(或者开题报告或者文献综述)需要在文中标明引用,并生成参考文献列表。一种效率低下的方法,先把论文写好,再标注引用文献(我本科就是这么干的),需要大量重复性工作,在参考文献较多的时候,这种方法不具有可操作性(哪里还记得哪个地方引用哪个文献)。稍微改进的方法是,一边撰写一边生成参考文献列表,文档一旦修改(比如增加一个引用段落),可能会打断参考文献的排序。
尽管目前已有不少成熟文献管理软件,如国外的endnote、referencemanager、biblioscape,国内的noteexpress,但这些软件大多是为了方便文献阅读而设计的(比如做笔记,对文献归类等等),并没有集成文档撰写的功能。不过可以用office word的尾注功能来标明引用并生成参考文献列表。
一、标明引用
1.1 首次引用
把光标移到需标明参考文献的地方,菜单栏的插入--引用--脚注和尾注,弹出脚注和尾注选项框,设置如下,点插入即可。这时会自动跳到文档末尾,输入所引用文献的相关内容(可以先打
上文档标题,至于作者,期刊名称,发表年份,等初稿完成再添加,批处理),再点击数字,返回到刚才光标的位置。
但插入的是1,而不是[1],不符合要求,需要手动添加[],并选中[](可以连同数字一起选中),作上标操作(如图3所示),操作前与操作后结果见图2。我试过了,这一步不能用格式,如果格式刷[1],则数字1会变大,不过可以先格式刷左加中括号[,而后格式刷右中括号]。这里强烈建议,等论文即将定稿的时候再做这个工作,理由很简单:批量处理、提供效率。还建议先补上所有的[],再作上标操作。当然,如果同个地方插入多个文献引用(比如23、24),建议把[]加上,否则为2324,容易造成混淆。
1.2 再次引用
文档有些地方需要引用前面已经引用过的文献,这时操作方法跟1.1不同,否则同一个文献在参考文献列表出现两次。具体操作是这样的,把光标移到需标明参考文献的地方,菜单栏的插入--交叉引用,弹出交叉引用选项框,引用类型选尾注,引用内容选尾注编号(带格式),选中参考文献,插入即可。
温馨提示:如果同个地方插入多个文献引用(比如23、24),建议把[]加上,否则为2324,容易造成混淆。
二、参考文献列表生成
按上述的方法,会自动在文档末尾生成参考文献列表,但这还不符合要求,还需做一些工作,具体如下。修改前后的文献列表如下图:
2.1 去除尾注格式
复制(原格式的文献先留着,就当备份吧)所有参考文献到记事本(目的是去除尾注格式,即去除前面的编号1、2),这时会发现作者前面有空格,需要删除空格(如下图红色框框所示),并保证每条记录没有被回车分隔,这样才能保证2.2加项目编号后与原文献一一对应。处理完后,将文本拷回文档。
2.2 加编号
选中所有文献,菜单栏的格式-- 项目符号和编号--编号,随便选择一个(当然不能选无那个)--自定义,出现如下自定义编号列表,相关设置如下图(字体设置得看具体要求,通常学位论文是五号),最后确定。ok,大功告成,核对下原格式文献数目与新生成文献数目是否等同,若不等同,最可能的原因是没有作者前空格去掉或者一条文献中间被回车了(见2.1),撤消返回2.1再操作。(温馨提示:原格式文献不要删除,就放在文档末尾,以备不时之需,打印时最后那几页不打就是了)
附一:常用参考文献示例
参考文献格式各个学校、各个报刊要求不尽相同(但也大同小异),实际撰写论文,需参考相应的格式规范。下面举一例[1][2]:
(1)期刊
格式:序号 作者.文题[j].刊名, 出版年, 卷号(期号): 起-止页码
例子:[1]王浩刚,聂在平.三维矢量散射积分方程中奇异性分
析[j].电子学报,1999,27(12):68-71
(2)专(译)著
格式:序号 作者.书名[m](,译者). 版本(第一版不著录).出版地: 出版者, 出版年:起-止页码
例子:[2] 竺可桢.物理学[m].北京:科学出版社,1973:56-60
(3)论文集
格式:序号 作者.题名[c].编者.论文集名.出版地?出版者,出版年?起止页码
例子:[3] yi zhang, lemin li, bo li. network traffic modeling
using fully-stable cascades[c]. XX international conference on
communication,circuits and systems,vol.2:726-730
(4)学位论文
格式:序号 姓名.文题[d]. 授予单位所在地: 授予单位, 授予年, 起-止页码
例子:[4]陈念永.毫米波细胞生物效应及抗肿瘤研究[d]. 成都:电子科技大学,XX
(5)专利
格式:序号 申请者.专利名[p].国名,专利文献种类,专利号,批准日期
例子:[5] 姜锡洲. 一种温热外敷药制备方法[p].中国专利,881056073,1980-07-26
(5)技术标准
格式:序号 发布单位.技术标准代号.技术标准名称.出版地:出版者,出版日期 例子:[6] 中华人民共和国国家技术监督局.gb3100-3102. 中华人民共和国国家标准-量与单位.北京:中国标准出版社,1994-11-01
(6) 其他
报纸作者.题名[n].报纸名.出版日期(版次) 报告作者.题名[r].保存地点.年份 电子文献作者.题名[电子文献及载体类型标识].文献出处,日期
附二:文献类型及其标识(根据gb3469-83《文献类型与文献载体代码》规定)
(1)各类常用文献标识用单字母标识,具体如下:
?期刊[j]
?专著[m]
?论文集[c]
?学位论文[d]
?专利[p]
?标准[s]
?报纸[n]
?技术报告[r]
(2)电子文献载体类型用双字母标识,具体如下:
?磁带[mt]
?磁盘[dk]
?光盘[cd]
?联机网络[ol]
(3)电子文献类型标识
电子文献载体类型(即非纸张型载体电子文献,在参考文献标识中同时标明其载体类型)的参考文献类型标识方法为:[文献类型标识/载体类型标识]。
例如:
?联机网上数据库[db/ol]
?磁带数据库[db/mt]
?光盘图书[m/cd]
?磁盘软件[cp/dk]
?网上期刊[j/ol]
?网上电子公告[eb/ol]
参考资料:
[1] 研究生学位论文撰写格式规范.doc (电子科技大学)
[2] 博文《参考文献的类型[m][j][c][n][d][r][a][p][s][z]》
文章地址:
http://www.diyifanwen.com/fanwen/lunwengeshi/2580399.htm
下页更精彩12345下一页
文献引用标注方法
文献引用标注方法
撰写论文而引用他人文章的论点、材料和结果等,应按照国家标准《文后参考文献著录规则》标注和著录。文中规定使用的顺序编码制,是按引用文献出现的先后顺序,在文献的著者或成果叙述文字的右上角括号标注阿拉伯数字编排序号,然后在文后依次列出他人文章的出处,便于追踪查阅。常用的标注方式有以下3种:
1. 引用他人科研结果在句内标注
例1:骨髓增生异常综合征(MDS)至今尚缺乏有效的治疗方法,目前临床所用的造血细胞因子,小剂量化疗,诱导分化治疗都未能获得令人满意的疗效[1]。异基因造血干细胞移植是唯一可以治愈的途径[2]。Runde等[3]报道欧洲骨髓移植协作组对MDS进行的亲缘异基因骨髓移植共131例。
2. 句中引用多篇文献标注
例2:事实上,这一经典的固定方式存在着潜在的生物力学缺陷,即固定区与非固定区界面的高应力集中可导致弯钉、断钉、松动或拨出[9,13]。这些并发症可继发造成纠正丢失,椎体塌陷或后突畸形
正丢失率等并发症低于文献报道[8,9]。
3. 在句内作为文句的组成部分
例3:不脱钙骨的骨组织切片厚度、染色等与文献[3]相同,计量学检查由美国Colorado大学医学中心代谢性骨病研究室朱建民教授完成。又如,疗效评定标准,参照文献[1]。
[8-10,14]。本组螺钉断裂及椎体高度纠
文献综述、文献综述标注
文献综述、文献综述标注
[一 : 文献综述标注]
1、引言
汉语自动分词和词性标注是汉语信息处理中重要的基础性工作,它与语料库基础资源建设相辅相成,在中文信息处理中起着关键作用。经过将近20 年的研究,自动分词与词性标注技术、语料库的建设都取得了长足的进步,许许多多的系统应用而生;因此,对分词与词性自动标注系统进行公正的评测,将会对这项基础性的工作起到导向性的作用。二者之间有着十分密切的联系, 比如, 切分歧义是汉语分词所面临的一大难题, 其中能用语法知识消解的就约占90%以上,而涉及语义和语用知识的切分歧义则很少,另外,词性标注的质量高低直接影响着自动分词的效果好坏。
2、汉语自动分词
2.1 定义和产生原因
所谓的自动分词就是把连续的字串分割成词的序列。从处理过程来看,把自动分词可以看作是用计算机自动识别文本字符流中的词并在词与词之间加入明显切分标记的过程。
词是最小的能够独立运用的有意义的语言单位,英文单词之间以空格作为自然的分隔符。汉语是以字为基本的书写单位,词语之间没有明显的区分标志,计算机不能通过英文句子之间的空格方法区分汉语词,否则可能会出现错误。
如汉语中学生整体是一个词,但计算机不容易理解学和生两
个字合起来才能表示一个词,为了解决类似的问题,中文分词技术应运而生。
2.2 自动分词的分词方法
关于分词方法,苏联学者最先提出了关于 6-5-4-3-2-1的思想,这种方法中的匹配思想成为后来许多分词方法的基础。目前,汉语自动分词方法不下二十种,例如,最大匹配法、知识分词方法、链接法,在参考众多文献的基础上,综合各家之言,大体上可概括为四种类型:基于词典的分词方法、基于统计的分词方法、基于理解的分词方法和基于人工智能的分词方法。这些分词方法各有其特点,分别代表着不同的发展方向。其中基于词典的分词方法具有算法成熟,易于实现的特点,目前是使用最普遍切分方法;基于统计的分词方法由于有的歧义切分能力和低频词识别能力,受到越来越多的研究人员的重视,发展较快,但在实际使用中,很少单独使用,一般都与基于词典匹配的信息进行更多的处理,因而加大了实现的难度;基于人工智能的分词方法是目前理论上最为理想的分词方法,但是该类分词方法的研究还处于初级阶段,并且由于汉语自然语言复杂灵活,知识表示困难,所以对于这类分词技术还需要进行更深入和全面的研究。
2.3 自动分词研究现状
经过十几年的研究,汉语自动分词技术取得了令人瞩目的成果,出现了一些实用的自动分词系统,如:北京航空航天大学的c d w s分词系统,这些系统在分词的精确度和分词速度方面都具有
相当的水平,并在一些中文全文检索系统中得到了应用。中文自动分词技术取得了可喜的进步,具体表现在:
词是否有了清晰的界定。原来很难精确定义的词,现在可通过分词规范+词表+分词语料库的方法,使中文词语在真实文本中得到了可计算的定义,界定出词语的边界,这是实现计算机自动分词和可比评测的基础。
未登录词对分词精度的影响。对交集型歧义字串进行的大规模语料库调查,明确提出把分词歧义消解过程分解为侦察和消歧两个子过程的认识,都是近十年来分词研究的重大收获.
基于字的分词新方法.过去的分词方法大都依赖于一个事先编制好的词表或词典。自动分词过程就是通过词表和相关信息来做出词语切分的决策。基于字标注的分词方法实际上是构词方法。即把分词过程视为字在字串中的标注问题。这种方法的一个重要优势在于,它能够平衡地看待词表词和未登录词的识别问题。
2.4 困难和问题
尽管汉语自动分词取得了重大进展和突破,但仍有大量的问题困扰着这一领域的学者们。因为要自由进行汉语自动分词,至少会遇到以下一些困难:
(1) 中文原本没有词的概念 ,至今也没有统一的词的确切定义。汉语词与词之间既没有西文那样有明显的分隔符,也没有日文那样丰富的词尾变化。
(2)汉语迄今为此仍未有一部公认的、确切完备的并适合于计
算机自动处理的语法规则。
汉语无标准性的词法、复杂性的句法、模糊性的语法与多样性的语义,如汉语中大量存在多义词、同义词、词性变化、词义转借等现象,使汉语表达具有很大的灵活性,所以任何人都都很难对它进行完备的总结。
(3)中文构词方法的多样性和句法的意合性等特点也是造成自动分词困难的重要原因。中文造词的原料,不仅有字,而且有词、词组。造句的方式有以字造词、以词造词,甚至压句成词。如果没有语法、语义知识或语境的帮助就很难对有些句子进行正确切分。
(4)语音中所蕴含的部分有用信息在书面语中无从体现。
(5)新词在不断增加,如人名、地名、新产生的词、外来词等日益充实着汉语词汇。
但最重要的困难还是歧义切分和未登录词的问题。歧义切分有两种类型,一种是交集性切分歧义,另外一种是组合型切分歧义,如汉字串将来是一个词,其中将和来也可以单独成词,这就涉及到如何切分的问题。组合型歧义是切不切开的问题,交集型歧义是切在哪里的问题。未登录词即是指未包含在分词词表中的词,包括各类专名(人名、地名、企业字号和商标号等)、某些术语、缩略语和新词等,由于专用术语繁多,新名词、新概念层出不穷,这些词一般很难全部收录到词典中,但这些词往往在一定时期内呈现较高的检索概率。这就要求分词系统具有一定的未登录词识别能力,从而提高分词的准确性。
对于分词的歧义处理,目前已经进行了比较深入的研究,人们通过统计和规则相结合的方法,使得歧义字段的正确切分达到了较高的水平 ,同时也认识到歧义的解决需要细致的个性化的知识积累,对不同类型的歧义要有不同消歧方法,同时研究汉语的构词规则,增强歧义判别能力;另一方面,无论词表规模多么大,未登录词语的存在是必然的。因此,与分词的歧义处理相比较,未登录词语的处理成为影响分词精确率的最主要、最直接的因素,这也是当前的一个研究的难点和热点。
3 、汉语词性标注
3.1 基本含义和标注方法
词性标注即在给定的句子中判定每个词最合适的词性标记,关键是如何处理兼类词或多义词。词性标注的正确与否对后续的句法分析、语义分析有很大的影响,是中文信息处理的基础性课题之一。常用的词性标注模型有n 元模型、隐马尔科夫模型、最大熵模型、基于决策树的模型等。其中,隐马尔科夫模型是应用较广泛且效果较好的模型之一。
由于同一个词在不同的语境下会产生不同的词性特征,所以就产生了不同的标注方法。目前主要存在以下四种方法:基于规则的方法;统计方法;规则和统计结合方法;基于转换的错误驱动学习方法。基于规则的方法利用规则对多个词性的词进行消歧,利用上下文信息来排除多余词性。它能够利用现有研究成果,通过对语境中的词语、词类和词语的特征做细致描述,起到很好的排
歧作用,但主观性较强,覆盖率低;统计方法可以将一些不确定的知识量化,可以获得较好的效果和提高覆盖率,现在一般用统计方法来标注词性,据说可以获得95%以上的正确率,但实际消歧效果究竟怎样,尚不明确;规则和统计结合方法融合了二者的优点;基于转换的错误驱动学习方法是一种这种的方法,它在词性标注中能达到98%的正确率。
3.2 困难和问题
汉语词性标注的困难主要是因为汉语作为一种孤立语,缺乏严格意义上的形态标志和形态变化,词类判定基础是根据词的已实现的句法功能,对上下文的依赖特别严重。
汉语词性标注的困难具体可分为:?汉语缺乏词的形态变化,不能像印欧语那样,直接从词的形态变化上去辨别出词的类别;?常用词的兼类现象普遍。兼类词不仅使用频度高,而且兼类现象复杂多样,覆盖面广,兼类现象分布不均,汉语中大部分词类都有兼类现象,使得词类歧义排除的任务困难重重;?研究者本身的主观因素也会造成兼类词处理的困难。
4、应对策略
正因为在自动分词和词性标注上还面临很多的困难,所以我们今后的研究应着重在某些点上的有所为,才能有助于达到我们的想要的结果。结合自己的学习和对其他学者的总结,具体地讲,大概要抓以下一些工作:l)尽快建立一个质量高、易接受的通用词表。这是保证其它一切自动分词研究是否扎实、可靠的先决条件;2)
建立一套为学界同仁认同并遵守的汉语自动分词规范和词性标注规范和技术标准,建立词性标注平衡语料库,做好系统评测,各家的工作成果应尽量共享,避免简单重复;3)在通用词表及极大规模语料库的支持下,系统地发现那些频度高、稳定性好的切分歧义,并有针对性地给出解决办法;4)对覆盖型切分歧义的研究目前十分薄弱,统计手段似乎心有余而力不足,应该寻求新的对策;5)促进己有的各种专有名词识别机制向更加精细化方向发展,并增设少数民族人名等特殊字词的识别机制; 6)以已有工作为基础,构造更加合理的自动分词评测模型,争取评测工作的权威化、公开化、持续化。
汉语自动分词已经被研究了二十多年,涉及的内容很多,分词方法层出不穷,取得了不少成就,但目前仍是制约中文信息处理发展的一个瓶颈。词性标注是一个比较活跃的应用领域,它直接影响到语法分析、文本信息检索等诸多领域,它与自动分词相辅相成,词性标注错误必然导致分词错误。就目前情况来看,自动分词和词性标注在许多方面有许多的突破,但同时也都面临着很多的困难和挑战,相信随着科技的发展和知识的进步,这些难题终究会被逐一击破。
[二 : 文献综述]
浅析黑暗童谣的兴起、传播与湮灭 2013级新闻传播学 13140002057 毛嘉辰
摘要
从上世纪80年代起,一批内容血腥、立意阴暗的童谣广为流传,或隐喻当时百废待兴的政治局面,或暗指刚打开国门时市场失序的情况,同时,伦理、犯罪、凶杀等题材也有所涉及,与民众生活更为契合的教育、家庭、医疗内容也时有出现。童谣作为一种由儿童口耳相传的艺术形式,出现了与本身诉求不符的内容,并且广为传播,这一现象的根源和最终结果究竟如何,本文试图从黑暗童谣的兴起、传播与湮灭过程探寻答案。
关键词:黑暗童谣 乡村 预言 历史 传播 儿童
前言
本文的研究问题为黑暗童谣为何兴起、如何传播、如何消失湮灭。试图探寻黑暗童谣在儿童中广为传播的原因以及最终渐渐销声匿迹的原因,从而对儿童心理、黑暗童谣的特点以及当时的时代特色三者关系进行研究。
此课题在国内的研究尚属空白,参考文献也较为匮乏,所幸,研究童谣、儿童的论文较为丰富,从前人研究中可以探知儿童心理的趋同性、跟风性以及童谣本身的口语化、 押韵性等内容,给本文的研究提供了许多基础知识。
“童谣”是指适合儿童头口传诵的歌谣,形式比较简短。看到“童谣”二字,很多人都会想起幼时耳熟能详的那些儿歌,它们或由父母老师传授,或在游戏中习得。这些童谣内容大多充满童真童趣,也包涵常识、哲理、世界观等内容,但在社会高速发展的今天,一批“黑暗童谣”同时兴起,甚至有更加广泛的传唱度。
主体
一、黑暗童谣传播之根源
1.古代童谣的政治意味和谶谣文化
童谣一直到明朝前期都和谶谣文化脱不了关系,明代杨慎所著的《古今风谣》和清代杜文澜所著的《古谣谚》有非常齐全的记载。
如:晋元帝时预言了桓玄篡位的:
长干巷,巷长干。今年杀郎君,明年杀诸桓 --- 郎君指司马元显。 预言了李后主之死的“后园桃李不生花”。
索得娘来忘却家,后园桃李不生花。
猪儿狗儿都死尽,养得猫儿患赤瘕。
在《南唐近事》里这么解释:
娘,谓再娶周后。猪狗死,谓尽戌亥年(公元 975 年)。赤瘕,目病。猫有目病,则不能捕鼠,谓不见丙子之年也。
正德时代北京的童谣:
马倒不用喂,鼓破不用张。
马永成、张永、谷大用、魏彬四宦,专权害政,后皆废出。鼓,即谷也。燕京之音,呼谷为鼓云
在正史里面,童谣一般被记载在《五行志》里面:
一阵黄风一阵沙,千里万里无人家。
回头雪消不堪看,三眼和尚弄瞎马。
这里前两句说的是元末的乱世,三眼和尚暗指朱元璋,马指马上民族蒙元。 古人认为,黑暗童谣的传播主要是四个字:荧惑化童
在这些观点里面,都认为童谣是预言的一种,流传之时很少有人能理解,传播的载体“儿童”也并不理解自己所唱为何物,只有到事后才知分晓。
2,英语 / 日语 / 非普通话地区的灰 / 黑色童谣
暗黑系童谣并非中国独有,很多童谣实际上反映的是真实的故事:
《鹅妈妈童谣》里的肢解类黑色童谣
鹅妈妈童谣集总数共有八百多首,在英语系国家广为流传,不同时期的歌谣时间跨度差异几百年(目前主要有 17 世纪和 14 世纪就开始流传两种说法),内容五花八门,其中不乏恐怖暗黑之作。
比如:
Lizzie Borden took an ax
And gave her mother forty whacks.
When she saw what she had done,
She gave her father forty-one.
大意就是丽姿举起斧头砍了母亲四十下,然后意识到之后又砍了父亲四十一下 这首童谣的真实事件背景是:
1892 年 8 月 4 日那天,美国马塞诸萨州的 Fall River 银行家 Andrew Borden 被他 33 岁的女儿莉兹 Lizzie Borden 用斧头砍死在屋内,之后莉兹又把她继母用斧头砍死在二楼。引起社会哗然。经过一年多的侦讯审判后法官却对莉兹做出了无罪释放结论,再次引起舆论哗然。
但此处的关键是,两位被害人并不像童谣唱的被砍了八十多刀,实情是一共砍了 29 刀。唱成 40 和 41 刀也许只是为了押韵而已。
知更鸟之死和血腥玛丽也是其中的典型代表。
最著名的还有,这一首“妈妈杀了我,爸爸吃了我”
My mother has killed me,
My father is eating me,
My brothers and sisters sit under the table,
Picking up my bones,
And they bury them under the cold marble stones.
原始版本至少可追溯到德国,奥地利,匈牙利,英格兰,苏格兰和罗马尼亚的不同童话故事:
- 关于争夺继承权的德国童话杜松子树 Juniper tree(被收录于格林童话里):继母把前妻的小孩煮了之后给父亲吃:
My mother, she killed me,
My father, he ate me,
My sister Marlene,
Gathered all my bones,
- 关于疯了的母亲杀子的奥地利童话 The girl and the boy:
My mother cut off my head,
My sister carried me out,
My father gnawed my bones clean
- 匈牙利版本 The crow’s nest——母亲无缘无故地就把亲生儿子给煮了
- 英格兰版本 The rose tree 和 The satin frock(约克郡特有) 前者是继母杀女儿,后者是有洁癖的母亲把弄脏裙子的亲生女儿杀了(隐喻失贞)
- 苏格兰版本 The milk-white doo ——父亲抓了一只野兔给母亲做晚饭,结果她自己给吃光了,于是就把儿子煮成晚饭:
My minny me slew,
My daddy me chew,
My sister gathered by banes,
And put them between twa milk-white stanes
- 罗马尼亚版本 The Little Boy and the Wicked Stepmother ——顾名思义的继母杀子。
补充下评论里 @Orange 提出的伦敦桥 这首,最大众的版本是:
London Bridge is falling down,
Falling down, Falling down.
London Bridge is falling down,
My fair lady
这首童谣的解读目前主流倾向于描述伦敦桥被维京海盗摧毁重建的历史。另外一个富有争议性的说法是这是描述了古代的“人柱”现象,即把小孩活埋在建筑物的底部,让他们历经恐惧折磨的灵魂化为守护灵让建筑物得以长久保存。人柱是世界各地都有
的一种现象,但目前尚无证据证明伦敦桥里有人骨。
一个比较冷僻的说法是隐喻了亨利八世杀妻的历史,伦敦桥倒下
来暗指被关进伦敦塔之后斩首。鹅妈妈里还有另外的童谣影射了
这段历史,比如六便士之歌里的:
The king was in the parlour, counting out his money;
The queen was in the kitchen, eating bread and honey;
The maid was in the garden, Hanging out the clothes,
There came a little blackbird, And snapped off her nose.
前面二句暗指国王冷落了第一任王后阿拉贡的凯瑟琳,后面的
“女佣”则指第二任王后安妮(原来是凯瑟琳的女官),后来被斩
首。
而三只瞎眼老鼠这首则描写了亨利八世女儿玛丽一世处决三个
新教徒贵族的故事:
Three blind mice, three blind mice,
See how they run, see how they run,
They all ran after the farmer’s wife,
Who cut off their tails with a carving knife,
Did you ever see such a thing in your life,
As three blind mice?
其中”farmer’s wife“指的就是拥有大量土地的玛丽一世。
日语方面的暗黑童谣,现在很多都被改编成 V 家曲了(笑,比
较出名的有[笼中鸟][分分合合的罗刹与骨骸]和很出名的[通りゃ
んせ]
笼中鸟出自江户早期的记载,原文是:
かごめかごめ 竹笼眼竹笼眼
籠の中の鳥は 笼子里的小鸟
いついつ出やる 何时才能出来
夜明けの晩に 即将天亮的夜里
鶴と亀が滑った 鹤与龟滑倒了
後ろの正面だあれ, 背后的那个是谁
这个童谣是配合一个游戏玩的,一群小孩蹲一圈,然后中间一个蒙上眼睛当鬼,其他人开始唱,唱完中间的小孩猜他背后的人是谁。
这首童谣的表面重点在于“背后的那个是谁”,然而背后的深层含义却是德川家康和丰臣秀吉的政权更迭。有一种传说认为秀吉死后家康让天海掘了秀吉的墓,用竹子做了一副棺木,毁了丰国神社,并日夜不停挖土,最后取出秀吉的棺材,重新在殿后庶民的葬地里安葬。(竹笼=棺木,鹤与龟=日光东照宫的装饰=家康,背后=殿后的墓地)
3,迷因学因素
迷因 meme,是道金斯在《自私的基因》里面所创造的单词,大意是描述思想如何“基因化”,而互相传播影响甚至“进化”的文化传递过程。
迷因可以包括宗教概念,新闻,习惯,口号,谚语,笑话谣言等
等。在道金斯描述的过程里面,迷因的传播过程会出现达尔文式的天择原理,在复制传播时变异且竞争,有无法忽视的突变率,最终适者生存。
二、童谣传播的途径
一般来讲童谣传播的类型包括人际传播和大众传播,网络时代之前,主要靠口口相传,因这类童谣不太可能以文字形式流传,所以也造成面目各异的现象。另外也要考虑到**期间的特殊人员流动。
另外需要注意的就是童谣对“押韵”和“节奏感”本身的要求,《捡破烂》这首童谣反映的显然是特殊时代的一种性压抑和性渴望“耍流氓”,然而当它演变到了“捡破烂”的版本时,已经没有太多特殊意义了,也许只是因为琅琅上口于是才被不停复制而已。
从童谣的角度来看,“好玩”“易记忆”“易上口”“节奏感强”和“可以自我复制及散播”显然就是一个成功的童谣赖以流传下去的基础,在流传的过程中,对原始意义的抛弃而代之以更可笑的内容或者更押韵的词语也是它本身的一种进化。
当今科研界对黑暗童谣的广泛定义是,另类童谣,或者是灰色童谣,所以普遍采取一种较为中立客观的态度去研究,从此类童谣的性质、定义、描写等角度来分析研究,如饶琴《另类童谣的描写和调查分析》中,对此类童谣的定性分析
做出了较为全面的描述。
从此类童谣的教育意义进行考量,是普遍的做法,如马家安和余
妍霞《从灰色童谣看当前基础教育文化构建》,这类书从灰色童谣对教育、校园、儿童的影响落脚,大多持批判态度。
在前辈研究之基础上,我希望从黑暗童谣的传播学意义上进行研究。
总结
因研究事物的传播路径是一件较为繁杂且不易的工作,针对横跨整个中国的童谣传播,理清思路实属不易,通过访谈、问卷形式得出的结论也会存在许多偏颇之处,但力图理清思路与脉络将会对研究儿童心理、传播类型等方面有较大意义。
参考文献
饶琴《另类童谣的描写和调查分析》
马家安; 余妍霞《从灰色童谣看当前基础教育文化构建》,现代中小学教育 戴岳《 “灰色童谣”流行校园的教育隐忧及对策》,教育学术月刊
陈华《谈大众文化对儿童世界的影响与渗透——以“灰色童谣”为研究对象》 马家安; 余妍霞《让学生远离灰色童谣的对策》,课程.教材.教法
吴旭红《从灰色童谣看大众文化对青少年成长的影响》,中国教育学刊 任鹏; 宋冬冬《刍议“灰色童谣”折射出的教育问题》,教育探究
王黎华; 曹秋英《从灰色童谣看中小学生成长的文化环境》当代教育科学 陈芳《浅谈青少年用语规范——也谈“灰色童谣”》今
日南国(理论创新版) 岳倩《对“灰色童谣”的社会学解读》内蒙古师范大学学报(教育科学版)
蔚艳楠《从灰色童谣看后现代视角中学校德育的建构》内蒙古师范大学学报(教育科学版)
[三 : SARS文献综述]
抗SARS病毒药物研究及进展
摘要
2002年冬到2003年春有一种冠状病毒肆虐全球,这种严重急性呼吸综合征(Severe Acute Respiratory Syndrome,SARS,传染性非典型肺炎)的元凶就是SARS病毒。严重急性呼吸综合征(SARS)的爆发是对人类健康的严重威胁。在抗SARS冠状病毒(SARS-CoV)的小分子化合物和疫苗尚未面市之前,在已经注册上市的抗病毒药物中寻找对SARS-CoV有效的药物不失为一条捷径。近年来随着对SARS病毒的研究和在动物免疫中的实验,抗SARS病毒药物层出不穷,本文主要对SARS病毒和抗SARS病毒药物状况做一个综述。
关键词
SARS;抗病毒药物;冠状病毒;传染病;
前言
2002年底,中国广东等地出现了多例原因不明的、危机生命的呼吸系统疾病。随后,越南,加拿大和香港等地也先后报道了类
似病例。世界卫生组织将此类疾病命名为“严重急性呼吸道综合症”(SARS)。随后世界各国的实验室都致力于发现这种疾病的病原体。曾经有人在对SARS的前期研究中,猜测其为细菌性病原体,最终香港大学于2003年3月22日宣布分离出一种未知的冠状病毒,到此为止才确定了其本质。研究与开发防治SARS的有效药物毫无疑问是对医药界提出的挑战。经过科研工作者的不懈努力,最终合成了若干种抗SARS病毒药物。在临床上此类药物的治疗效果突出,最后,人类宣布战胜SARS病毒。虽然目前此种冠状病毒已经被控制,但是对好多人来说仍然心有余悸。这需要对该病毒不断研究,彻底了解其感染机制,以便研究出更适合此类病毒的药物。相信在不久的将来,会有更多的研究人员会加入到此抗病毒药物研制的行列中,使冠状病毒不在成为人类的威胁。
正文
冠状病毒粒子呈不规则
形状,直径约60-220nm。病毒
粒子外包着脂肪膜,膜表面有
三种糖蛋白:刺突糖蛋白(S,
Spike Protein,是受体结合位点、溶细胞作用和主要抗原位点);小包膜糖蛋白(E,Envelope Protein,较小,与包膜结合的蛋白);膜糖蛋白(M,Membrane Protein,负责营养物质的跨膜运输、新生病毒出芽释放与病毒外包膜的形成)。
2002年底,中国广东等地出现了多例原因不明的、危机生命的
呼吸系统疾病。随后,越南,加拿大和香港等地也先后报道了类似病例。世界卫生组织将此类疾病命名为“严重急性呼吸道综合症(SARS)”(SARS)。随后世界各国的实验室都致力于发现这种疾病的病原体。香港大学最先于2003年3月22日宣布分离出一种未知的冠状病毒。随后,有多个实验室在NJEM、Lancet等国际知名医学杂志上发表了关于该病原体的研究论文。4月12日加拿大BC肿瘤研究所基因组科学中心(BC Cancer Agency’s Genome Sciences Center)首先完成了该病毒的全基因组测序。[1]4月16日,WHO在上述各方面研究成果的基础上,正式宣布一种前所未知的冠状病毒,为导致严重急性呼吸道综合症(SARS)的病原体,并命名为SARS冠状病毒(SARS Coronavirus,SARS-CoV)。
感染SARS病毒的种株、剂量、感染途径、宿主的类型和免疫状态彼此相关。研究发现它的S糖蛋白在病毒的致病机制过程中发挥了关键的作用。S蛋白在致病机制中的重要性在于它介导病毒进入靶细胞和病毒扩散
(viral spread)的功能。同时,S蛋白在诱导机体对病毒产生免疫反应的过程中也发挥了重要作用,例如它是引起宿主细胞免疫的诱导蛋白,又是中和抗体作用的靶点。此外还发现被感染的宿主细胞MHC I类分子等蛋白翻译受到一定程度的抑制,同时一些与炎症有关的因子。包括IL一IB、克隆刺激因子I受体和TNF—a mRNA表达上调。[2]
在确定了SARS的病原体以及感染机制后,研究目标主要集中于
抗SARS.CoV的小分子化合物和疫苗。从已上市的药物中发现有效药物是一个非常有效的策略,因为这些药物的药学资料、毒理学资料和相关临床资料都已经比较完备,一旦发现有效的药物,就可以直接应用于临床治疗。
?.利巴韦林(ribavirin)
利巴韦林又名利巴韦林、三氮唑核苷、尼斯可等,是广谱强效的抗病毒药物,目前广泛应用于病毒性疾病的防治。它主要通过拮抗单磷酸次黄
嘌呤核苷酸脱氢酶而抑制病毒DNA或RNA的合成,曾用于治疗流感病毒、副流感病毒、呼吸道合胞病毒等RNA病毒引起的肺炎。因为利巴韦林有抗呼吸道多种病毒的作用,因而临床上经验性地用于治疗SARS。
由于利巴韦林对SARS.CoV的抑制作用具有争议,其不良反应除上述提及的静脉注射给药引起的溶血性贫血,骨髓抑制外,其他给药途径如气雾吸入给药还可能引起恶心、头痛、结膜炎,少数可致支气管痉挛。虽然认为每8小时1(2g剂量对某些SARS病例可能有效,但此剂量明显过高,有严重不良反应。我国中华医学会和中华中医药学会制订的《传染性非典型肺炎(SARS)诊疗方案》中明示利巴韦林SARS-CoV无效,不推荐临床应用。
[3]
?.黄芩甙(baicalin)
黄芩甙是一种黄酮类化合物,中药黄芩干品含有20,, 黄芩口
服不良反应很少。在临床上用于传染性肝炎,急性胆道感染,铅中毒,清热解毒,胸闷呕恶,肺热咳嗽,肿瘤疮毒胎动不安等。黄芩甙也能抑制SARS.CoV在Vero-E6细胞株的复制,E为100pg,mL。因此可以用于SARS防治。
?. 甘草甜素(glycynhizin)
甘草甜素是从甘草中分离的成分,又称甘草酸(gIycyrrhizic acid)。甘草甜素具有抗炎、抗病毒、抗变态反应、免疫调节等作用。推测甘草甜素可能通过影响细胞的信号通路,比如蛋白激酶C、酪氨酸激酶II、转录因子(如激活蛋白I和核因子KB)而发挥上述作用。不仅如此,甘草甜素及其糖苷配基代谢物可上调吞噬细胞中一氧化氮合酶的表达和促进一氧化氮生成。甘草酸苷抑制5O% 细胞病毒所需药物浓度为51-410mg,L,如达到4000mg,L则可完全阻断该病毒的复制,其机理可能与诱导NO生成有关。近年来,甘草甜素在治疗乙型肝炎、类风湿病、艾滋病等方面已取得进展。有关其抗SARS-CoV的研究显示,其具有良好的抗SARS-CoV效果。
IV.氯喹IchIoroquine)
氯喹是一种4-氨基喹啉类衍生物,已有60多年的临床应用历史,主要用于控制疟疾症状和治疗肠外阿米巴病,之后发现氯喹还具有免疫调节作
用,可抑制TNF(0c和IL(6的产生与释放。氯喹还有直接抗病毒效应,它可使核内的pH升高,抑制病毒进入所需的pH依赖性步骤,从而阻断其进入整个复制的周期,因此对黄病毒、逆转录
病毒、冠状病毒这些pH依赖性病毒的复制步骤有抑制作用。此外,病毒感染的一些症状可能由于炎症性反应造成,因此研究者提出在SARS-CoV的治疗中氯喹可能会有所作为。
V. 抗SARS病毒疫苗
目前核酸疫苗和活载体疫苗的研究受到广泛的重视,核酸疫苗最大的特点是疫苗抗原可能在靶细胞内以天然的方式合成、加工并传递给免疫系统。活载体疫苗也具有良好的免疫原性,并且活载体本身还可作为免疫佐剂。我国现尝试以质粒为载体介导的冠状病毒突起蛋白的核酸疫苗和以腺病毒为载体介导的冠状病毒突起蛋白基因工程疫苗[4]。易艳萍等通过反转录一PCR获得了SARS冠状病毒条样蛋白、核衣壳蛋白和膜蛋白基因,将所获得的可能与免疫保护相关的基因克隆至核酸疫苗表达载体pcDNA—Thy中,酶切及序列分析结果均表明载体结构正确,现已用于动物实验。靳彦文等报道通过将SARS冠状病毒免疫保护相关的核衣壳蛋白和辐条蛋白与霍乱毒素B亚基基因融合,并克隆至真核基因表达载体,所构建的DNA候选疫苗在细胞内可表达霍乱毒素B亚基与SARS抗原的融合蛋白,从而可用于评价是否可有效产生粘膜免疫。
VI. 抗SARS病毒多肽抑制物
据中国科学院院士、武汉大学现代病毒研究中心田波研究发现,SARS冠状病毒S蛋白中的HR1与HR2片段能够相互结合,形成六螺旋束的核心结构。衍生于病毒HR2的合成多肽CP-1,可以与病毒本身的HR2竞争性地与病毒的HR1片段结合,从而阻止膜融合,
使病毒无门而入。也就是说,CP-l肽正是利用病毒自己感染靶细胞的方式,一举击中病毒的死穴 对SARS病毒来说,克星就潜伏在自己身上,武汉大学与美国纽约血液中心合作研究的SARS病毒病理机制项目取得重大突破,已阐明SARS病毒的融合机制,发现SARS病毒融合的多肽抑制物。[5]SARS病毒融合的多肽抑制物的发现成为抗SARS病毒的多肽类药的研究方向。美国BrinVastag报道,一些原来用于抗AIDS的多肽类蛋白酶抑制剂在体外或临床试用中显示出对SARS
病毒有较好的抑制作用。
VII. 抗SARS病毒人源基因工程抗体
杜润蕾等科研人员运用噬菌体表面呈现技术,从多个SARS患者恢复期血中获得淋巴细胞,通过基因工程手段,构建了人源抗SARS病毒基因工程抗体文库,并筛选获得37株特异抗SARS病毒基因工程Fab抗体,其中11株人源抗体结合基因工程重组的SARS病毒(N)蛋白,其中1株在Western blot分析中与SARS病毒结合,识别SARS病毒N 蛋白线性位点[1 。抗SARS病毒人源基因工程抗体的研究成功有希望成为抗SARS病毒的抗体药(antibody drug),从而对SARS发挥良好的预防与治疗作用。
VIII.锌的化合物
SARS病毒传播途径中,经口腔的感染可能是重要的途径之一。而锌化合物被证明可以有效阻止多种病毒的细胞黏附功能,从而阻断病毒的入侵和危害。因此,含锌的口香糖可能是预防 S疾病
的一个方法。杨晓达副教授正在进行研制预防 S的口腔用药。采用德国DEGUSSA公司提供的氧化钛基的口香糖胶,加入醋酸锌、柠檬酸锌、苹果酸锌等不同锌配合物和口味调节物质,以期获得口感合适的咀嚼口胶。目前已制备各种锌化合物及口胶制品,正在测试锌的释放性质。
展望
抗SARS病毒药物的研究与开发已成为世界医药领域的热点。同时药物化学工作者在筛选抗SARS病毒药物的过程中进行了不懈的努力,但目前为止人们还没有开发研制出高效、副作用少、低毒的抗SARS病毒药物,这已向药物化学工作者提出了挑战。不过,针对SARS,我国早已启动了863重大科研项目,而且还启动了973项目的SARS研究专项,其中SARS防治药物为研究的重要内容,我国自然科学基金会也紧急启动了3项非典疫病的预防和流行病学的研究(5项疫病的免疫学研究,4项疫苗研制的基础研究 。因此(抗SARS病毒药物的研究与开发将会比以往抗病毒药物的研究与开发迅速得多。相信SARS防治药物的研究与开发会在近期内取得丰硕的成果。病毒性传染性疾病如:SARS、HIV、HBV、HCV等正越来越严重威胁人类的健康,通过对抗SARS病毒的疫苗及各种天然和人工合成药物的研究,也必将
进一步推动人类对病毒性疾病的发病原理和有效的药物防治的科学进程。近期又有许多关于冠状病毒的感染见于报端,如何完全抑制此类病毒是现代众多科研工作者不得不面临的问题,在不
久的将来,将有一大批学者、教授投入到此课题的研究之中。
参考文献
[1] 王福生,徐东平. SARS冠状病毒的特点和致病机制的研究[J].
传染病信息,2003,16(2):67-68.
[2] Navas S(SeoSH,ChuaMM(Murine coronavirus spike protein
determines the abbty of the vims to replicate in the liver and cause hepatitis(JV ,2001,75(5):2452—2457
[3] 8(Oshima M(Dinchuk JE(Joarder FS(ef a1(Suppression of
intestinal polyposis in Apc delta 71 6 knockout mice by inhibition of cyclOOxygenase 2 Cell,1 996,87(6):803-809
[4] 叶迅,孟夏,董继斌.严重急性呼吸道综合征冠状病毒疫苗研
究现状[J](生物化学与生物物理进展,2003,30(3):331—334
[5] Shuwen Liu,Gengfu Xiao,Yiban Chen,et a1(Interaction
between repeat 1 and 2 regions in spike protein of SARS associated coronavirus: implications for virus fusogenic mechanism and identification of fusion inhibitors[J](The Lancet,2004,363,9413
参考文献引用标注
参考文献引用标注
参考文献(即引文出处)的类型以单字母方式标识:
m专著,c论文集,n报纸文章,j期刊文章,d学位论文,r报告,s标准,p专利;对于不属于上述的文献类型,采用字母z标识。
参考文献一律置于文末。其格式为:
(一)专著
示例 [1] 张志建.严复思想研究[m]. 桂林:广西师范大学出版社,1989.
[2] [英]蔼理士.性心理学[m]. 潘光旦译注.北京:商务印书馆,1997.
(二)论文集
示例 [1] 伍蠡甫.西方文论选[c]. 上海:上海译文出版社,1979.
[2] 别林斯基.论俄国中篇小说和果戈里君的中篇小说[a]. 伍蠡甫.西方文论选:下册[c]. 上海:上海译文出版社,1979.
凡引专著的页码,加圆括号置于文中序号之后。
(三)报纸文章
示例 [1] 李大伦.经济全球化的重要性[n]. 光明日报,1998-12-27,(3)
(四)期刊文章
示例 [1] 郭英德.元明文学史观散论[j]. 北京师范大学学报
(社会科学版),1995(3).
(五)学位论文
示例 [1] 刘伟.汉字不同视觉识别方式的理论和实证研究[d]. 北京:北京师范大学心理系,1998.
(六)报告
示例 [1] 白秀水,刘敢,任保平. 西安金融、人才、技术三大要素市场培育与发展研究[r]. 西安:陕西师范大学西北经济发展研究中心,1998.
在正文中以上标形式写编号就是:
1.在引用处末尾,正常输入[1]
2.选中[1]
3.鼠标点击菜单栏上格式,选字体
4.在对话框界面中找到上标,在它前面方框里选中它。正文中编号[1],参考文献中[1]就再列出详细作者、文章名称等,正文中只要有数字就可以了,不需要列出参考文献详细信息
文章来源:
http://www.diyifanwen.com/fanwen/lunwengeshi/2579615.htm
下页更精彩12345下一页
文献综述标注
文献综述标注
汉语自动分词和词性标注是汉语信息处理中重要的基础性工作,它与语料库基础资源建设相辅相成,在中文信息处理中起着关键作用。经过将近20年的研究,自动分词与词性标注技术、语料库的建设都取得了长足的进步,许许多多的系统应用而生;因此,对分词与词性自动标注系统进行公正的评测,将会对这项基础性的工作起到导向性的作用。二者之间有着十分密切的联系,比如,切分歧义是汉语分词所面临的一大难题,其中能用语法知识消解的就约占蛞90%以柃上,而涉及语义和语用知识的切分歧义则很少,另外,祛帮词性标注的质量高低直接影朵响着自动分词的效果好坏。
2、汉语自动分词
定义和产生原因笛
所谓的自动分词就是把连续的字串分割成囡蓟词的序列。从处理过程来看,背把自动分词可以看作是用计算机自动识别文羁
本字符流鳏中的词并在词与词之间加入明显切分标记的过程。
词是最小的能够独立运用的有标 意义的语言单位,英文单词之间以空格作为自然的分隔坌堞符。汉语是以字为基本的书写 单位,词语之间没有明显秀的区分标志,计算机不能通过英文句げ子之间的空格方法区分汉语词,否则可能会出潇现错误。
如汉语中学生整庳体是一个词,但计算机不容易理解学和贶生两个字合起来才能表示一个词嗯,为了解决类似的问题夺,中文
1 / 7
分词技术蔻应运而生。
自动分词的分词方法
关于分词方法,苏点联学者最先提出了关于6-5-4-3-2-1囹的思想,这种方法中的匹配思想成溉仕为后来许多分词方法的基础。目前,汉语自动分词方法,不下二十种,例如,最大匹萌配膑法、知识分词方法、链接 法,在参考众多文献的基础纶上,综合各家之言,大体上可概括为四种类型,基于词牍恪典的分词方法、基于统计的分词方法、基于理解的分词棕方法和基于人工磁
智能的分词方法。这些分词方法各有其姜揲特点,分别代表着不同的发展方向。其中基于词典的分?词方法具有算法成熟,易
于实现的特点,目前是使用最 普遍切分方法射;基于统计的哮分词方法由于有的歧义切分鼐能力和低频词识别能力,受到越来越罄多的研究人员的重视,发展较快,但在实际使 吊用中,很少单独使用,一般都与基于词典匹配的信息进 行更多的处理,因Д
而加大了输实现的难度;基于人工智能脐的分词方法是目前理论上最为理想的分词方法,但是该 类分词方法的研究还处于初 级阶段,并且由于汉语自然语言复杂灵活,知识表示困 锚难,所以对于这类分词技术ぅ还需要进行更深入和全面的研究。踅
自动分词研究现状褒
经过十几年的研究,汉语自动分词技术取得了令人瞩灶目蟑的成果,出现了一些实用瞿的自动分词系统,如,北京航空航耗天大学的cdws分词系统鹿,这些系统在分词的精确度和分词速桫
2 / 7
度方面都具有相当的水平,并在一些中敉文全文检索系统中得愿
到了应用。中文自动分词技术取得逅了可喜的进步,具体表现谷
在,
词是否有了清晰的界定 。原来很难精确定义的词,胞现在可通过分词规范+词表漫+分词语料库的方法,使中獍文词语在真实文本中得到了可计算的定义 ,界定出词语的边界,这是实现计拎
算机自动分词和可比评测的基础。糟
未登录词对分词精度的影响 。对交集型歧义字串进行的 大规模语料库调查,明确提蒹出把分词歧义消解过程分解颛为侦察和消歧两个子过程的 认识,都是近十年来分词研矧究的重大收获.
基于字的ㄤ分词新方法.过去的分词方法大都依赖于一个傻
事先编制鬼好的词表或词典。自动分词过程就是通过词表和相篷
关信息来做出词语切分的决策。熙基于字标注的分词方法实际量嘞上是构词方法。即把分词过程视为字在字串中的标注问 麋题。这种方法的一个重要优吡势在于,它能够平衡地看待 词表词和未登录词的识别问题。
困难和问题
尽管汉ъ语自动分词取得了重大进展 和突破,但仍有大量的问题困扰着这一领域的学者们。芾饽因为要自由进行汉语自动分词笞,至少会遇到以下一些困难 :
(1)中文原本没有樊词的概念,至今也没有统一切的词的确切
3 / 7
定义。汉语词与词之间既没有西文那样有明掴显的分隔符吖,也没有日文那侔样丰富的词尾变化。
(2) 汉语迄今为此仍未有一部公认的、确切完备的并适滟
合于计算机自动处理的语法规萼诟则。
汉语无标准性的词法、复杂性的句法、模糊性的颁掾语法与多样性的语义,如汉语中大量存在多义词、同义ヒ词、词性变化、灯
词义转借等现象眺,使汉语表达具有很大梯的灵活性,所以任何人都都很难对它进行完备的总结。厦
(3)中文构词方法的多样麽性和句法的意合性等特点也青是造成自动分词困难的重要筠原因。中文造词的原料,不溏仅有字,而且有词、词组。 造句的方式有以字造词、以词造词岽,甚至压句成词。如果没有语法、语义知识或语Г境的帮助就很难对有妣
些句子进行正确切分。
(4)语音中所蕴含的部分有用信息坚倜在书面语中无从体现。
(5)。新词在不断增加,如人名、地名、新产生的词、外邪来斩词等日益充实着汉语词汇。
但最重要的困难还是歧蓑义切分和未登录词的问题。歧义 切分有两种类型,一种是交集性切分歧义,另外一税种是组合痰型切分歧义,如汉 字串将来是一个词,其中将和来也可以单,
独成词,这就涉及到如何切分的问题。组裥铵合型歧义是切不切开的问题,交集型歧义是切在哪里的 问题。未登录词即是指氖
未包含在分词词表中的词,包括 各类专名钭(人名、地名、企业窠
4 / 7
字号和商标号等)、某些术语、缩略语和新词等,由渑于专用术搐语繁多,新名词、新概念层出不穷,这些词一咀般很难全部收β
录到词典中,但这些词往往在一定时期内?邓呈现较高的检索概率。这就要求分词系统具有一定的未宣登录词识别能力,从而惧
提高分词的准确性。
对于分词ュ的歧义处理,目前已经进行磷了比较深入的研究,人们通积过统计和规则相结合的方法蚝,使得歧义字段的正确切分痘达到了较高的水平,同时也淙认识到歧义的解决需要细致泐的个性化的知识积累,对不鹈同类型的歧义要有不同消歧方法,痢同时研究汉语的构词 规则,增强歧义判别能力;另一方面锰,无论词表规模多樗么大,未登录词语的存在是荷必然的。因此,与分词的歧 义处理相比较,未登录词语霈的处理成为影响分词精确率的最主要、最直接的因素,,火这也是当前的一个研究的难 点和热点。
3、汉语词性标注骤
基本含义和标注方法铌
词性标注即在给定的句子抓中判定每个词最合适的词性俸标记,关键是如何处理兼类龠词或多义词。词性标注的正谄确与否对后续的句法分析、语义分析有很大的影响,是馐中文信息棠处理的基础性课题之一。常用的词性标注模型串省有n元模型、隐马尔科夫模鲍型、最大熵模型、基于决策山树的模型等。其中,隐马尔科夫模型是应用较广泛且效菘 果较好的模型之一。
5 / 7
由于同一个词在不同的语境下会贡产生不同的词性特征,锋
所以诈就产生了不同的标注方法。砂目前主要存在以下四种方法,基于规则的方法箱;统计方骗法;规则和统计结合方法;基于转伊换的错误驱动学习方法。基于规则的方法利用规拊 则对多个词性的词进行消歧,利用上下文信息来排除多 余词性。它能够殇
利用现有研究成果,通过对语境中的词菠栲语、词类和词语的特征做细致描述,起到很好的排歧作俟用,但主观性较强,覆盖凑
率低 ;统计方法可以将一些不确定的知识量化,可以获得砬挲较好的效果和提高覆盖率,现在一般用统计方法来标注弘词性,据 说可以获得95%以上的正确率,但实际消歧繇效果究竟怎样,曲
尚不明确;郫规则和统计结合方法融合了柄二者的优点;基于转换的错误驱动学习方法是一种这种肭的方法,它在词性标注中能 拓达到98%的正确率。
困难和问题讲
汉语词性标注的酣困难主要是因为汉语作为一种孤立语, 缺乏严格意义上 的形态标志和形态变化,词类判定基础是根筮
据词的已实现的句法功能,对上下文的 依赖特别严重。
汉语词性轶标注的困难具体可分为,?汉语缺乏词的形态钌
变化,不能像印欧语那样,直接从词等的形态变化上去辨别出钅
词的筏类别;?常用词的兼类现象牮普遍。兼类词不仅使用频度粽高,而且兼类现象复杂多样ц,覆盖面广,兼类现象分布不均,餐汉语中大部分词类都有兼类现象,使得词类歧义墁砦排除的任务
6 / 7
困难重重;?研耷究者本身的主观因素也会造笊成兼类词处理的困难。
4、应对策略辐
正因为在自动分词和词性标注上还面临很思瓞多的困难,所以我们今后的研究应着重在某些点上的有六晟所为,才能有助于达到我们诺的想要的结果。结合自己的学习和对其他学者的总附
结,具体地讲,大概要抓以下一箬丢些工作:l)尽快建立一个疼质量高、易接受的通用词表。这是保证其它一切自动分谙词研究是岿否扎实、可靠的先 决条件;2)建立一套为学算界同仁认同并遵守的汉语自娴动分词规范和词性标注规范和技术标准,建立词性
标注平衡语料库,做好系统评测 ,各家的工作成果应尽量徙
7 / 7