用户可定义的诊断信息处理技术

范文一：用户可定义的诊断信息处理技术

究

开赵金榜

发 (株洲电力机车研究所营销中心，湖南株洲 412001)

作者简介:赵金榜(1964-)，男，1988年毕业于上海铁道

大学(现同济大学)机车电摘要:采用Access 和VB6.0 设计来实现列车微机控制系统的故障诊断。在用户可定义的传动专业，高级工程师，从原则下，以列车状态信息的数学描述为基础，提出了列车状态信息的地面信息处理技术，给出了事电力机车电子控制系统可定义模板，并对故障数据进行解码，装库和分析，从而实现系统用户可定义功能。的开发设计工作和市场推关键词:列车;故障诊断;信息理理技术;可定义模板广工作。

中图分类号:TP391文献标识码:A文章编号:1000-128X(2004)02-0026-04

User-definableprocesstechnologyofdiagnosisinformation

ZHAO Jin-bang

(MarketingCenter,ZhuzhouElectricLocomotiveResearchInstitute,Zhuzhou,Hunan412001,China)

Abstract :AccessandVB6.0areusedforfailurediagnosisoftrainmicrocomputercontrolsystem.Undertheuser-definableguideline,itisproposedthegroundinformationprocesstechnologyoftrainstatusinformationbasedonitsmathematicaldescription.Thedefinable templateisgiven.Decoding,loadingandanalysisismadetothefailuredatasoastorealizetheuserdefinablefunction.

Keywords:train;failurediagnosis;informationprocessing;definablytemplate

这就要着重解决实现需求的程序模块设计问题。模块

0引言划分的好坏将会影响软件功能乃至整个系统性能。任何系统不可能永久不变，由于环境变化等因素，系统由于新车型的不断出现，车载计算机检测控制或需要不断地进行修改和完善。为不影响系统整体功能诊断系统所记录的信息也随着车型的不同而各不相的实现，修改和完善之处必须尽可能地局部化。这就同。如果针对不同的车载记录信息设计相应的处理软要求在进行系统的模块划分时，要使系统的内部联系件，则软件设计的工作量就非常大。尽可能地强，而模块间的外部联系尽可能地弱，即尽所谓用户可定义，就是不同用户可从自己的实际可能地提高模块的相对独立性。这样在对某一个模块需要出发，根据给定标准模板，制定出适合自己使用进行修改时，它所造成的影响只局限在本模块范围的模板，即用户使用的模板是可反复定义的。一般来内，而不至于影响整个系统。说，用于用户可定义的标准模板不应该过于复杂，否

则用来转化用户输入信息的知识表达式会很复杂，而

且处理问题的效率会降低。标准模板一般设置一些参

1信息描述数，如参数名、参数的值、参数存放地址等信息。要实现用户可定义，首先要分析不同用户的需列车车载系统记录的列车状态信息包括信息的求。本系统具有柔性结构，它极大地满足了用户在模记录时间和该时间点或时间段的列车状态，其格式极板维护方面的需求。其复杂。内容包括时间信息、过程信息(时间段信

弄清楚用户的需求后，便可进入设计阶段，开始息)、状态信息(时间点信息)、以编码形式表示的故

障记录和(故障发生时的)其他无量纲标量信息等。软件需求的实施工作，即开始解决“怎么做”的问题。

而过程信息和状态信息又分别由以字节和位表达的

二进制开关量和以百分数表达的模拟量等组成。模拟量信息具有不同的单位和不同的比例关系。信息所指

收稿日期:2003-09-15

向的目标既指向检测节点，又包含由节点与路径构成供了一个标准解码模板，新建的解码表文件就是按照的车载网络系统，同时还要指向车型与车号。不同的车型其记录内容和该解码模板的格式进行创建的。记录方式也完全不同。信息的记录在操作界面中的文本框内输入新建模板的文件表达方式分为十六进制ASCII 码方式和十进制ASCII 名，然后单击“新建”按钮，系统将调用CreateMB.frm 码方式。因此，地面综合处理系统接收车载信息的兼容程序模块。将标准模板格式复制到当前新建码表，即性就成为关键。兼容性的实现是建立在式(1 )所示的可完成新建模板的操作。如果不输入任何文件名，系信息描述模型之上的: 统将会生成名为New_MB.mdb 的新码表文件。

2.1.2 解码索引表维护, (t ) , (t) D 1 2 (1)AT P, , , unit, , Route, Series T T 解码索引表的作用就是定义车载记录数据中以T T ,

编码表达的信息，如故障编码(图 2 )。用户可根据实式中:P 表示一个事件;unit 为时间单位，一般以ms

际需要对新建的或者已经存在的解码模板中的解码为单位;Route 表示信息指向的路径;D 表示信息的

索引表进行修改，此时系统调用Mt-Tmplt.frm 模块。关联因子;δ表示信息类间的链接方式;Series 指向

,(t) ,(t)1 2 由车型车号构成的序号与网络节点; 和 T T T

的联合表达所记录的信息，若μ(t )=0 ，则表示时间 2

点信息，否则表示时间段信息，而是对信息获取 T

方式的一种描述。

2 实现技术

系统程序的实现过程包括设计变量定义模块和相应的通用处理模块，每个模块都可根据定义信息独

图2 解码索引表维护界面立完成某项功能。

模板界面中，每一条记录都包括2 项内容:wz 、通用处理模块的功能是可以定义的。对模板进行

syz、synr，用户可以对其进行修改，也可增加、删除一重新定义后，并不影响其他模块的功能，用户可利用

条记录。模板中 3 个字段的说明如下:自定义后的模板对故障数据进行解码、装库和分析

wz 字段:如果为“1000”，则为全局使用;如果为 (图1 )。

“200 ”则公共使用，其他为对应的字节号。对于某个

字节所对应的索引信息，该字节标识的是位置，例如

十六进制文件中，第14 字节是表示“分频模式”，该字

段的值是14 。 syz:表示的是索引值，如0，3，4，5，

6，7，15。 synr :表示索引值所对应的信息，

第 10 字节

(syz=10)对应PGD 脉冲发生器故障。

2.1.3 数据解码表维护同解码索引表的维护一样，

用户可根据实际需要

对新建的或者已经存在的解码模板中的数据解码表

进行修改。此时系统调用Mt-Decode.frm 模块。图3 为

H_Decode.mdb 模板的维护界面。用户可对其中的每一

条记录的各字段内容进行修改，或删除该记录，也可

增加一条新的记录。图1 模板对故障数据解码、装库和分析图解码表的字段说明以及各字段的取值如下(所有

的说明以系统中的十六进制数据为例):2.1 定义模板

对于组合的开关量字节，应该对每一个比特进行 2.1.1 新建数据文件格式描述

编写译码记录，例如若某一字节包含“顺序测试”、为了对车载记录信息的某种格式的故障状态信息进

“过分相”、“紧急制动” 等 8 条信息，则应该对应行解码，需要建立合适的解码表数据库文件。所

译码数据库中的 8 条信息。谓解码表就是对输入原始数据的定义表，内容包括原

字段说明:始数据中每一个字节的意义、单位、性质等。系统提

— 27 —

文件，生成一个装库文件。系统将解码索引的索引内容项赋给装库数据，此时，系统会给装库数据表的各

个字段赋值，为后面对数据块的解码做准备。 (2 )解码数据的处理。要对一块数据进行解码，先要将该数据块读入到一个数组中。首先，取得该块数据的时间和日期;第二个循环判断解码表字段起

始地址值，系统将根据解码表字段名称的值对年月日等时间和日期信息进行处理，并把取出的时间值赋给时间变量;然后再处理其他(除时间外)的信息解码。

2.2.2故障数据的分析故障数据经过解码和装库后，用户便可对其进行图3 数据解码表维护界面调用和分析，具体包括索引信息分析、开关量分析、模拟量分析和综合分析。 qsdz 表示该内容的开始地址，均以10 进制的方式(1)索引信息分析(DspQT.frm) 首先，系统将根写入，例如“顺序测试” 开始地址为 3。

据用户选定的数据库以及分类号 zjcd 表示该内容的长度。如果是一字节或两字节，

读取某种类型的数据。在此过程中，数据库中的各变 “顺序测试”是开关量曲线，则长度为1[ 若模拟量信息

可能有若干字节，“调制比”是模拟量曲线(过程信量值被赋给“装库数据(zksj )”数组中对应的字段，包息)，占用第21 ，22 字节，则其长度是2] 。括数据类型(sjlx)、分类号(flh)、单位(dw)、名称(mc)、

mc 表示该项内容的名称，例如第 15 字节为电机日期(rq)、时间(sj)、数值(sz)、最大值(zdz)、最小值频率。 (zxz)等。然后装库数据(zksj)被放入到sjksj数据表lx 表示该内容在译码所属的类型;K 是开关量曲中，系线;M 是模拟量曲线(过程信息);S 是索引信息;D 是统对该数据表中的数据重新排版并显示出来。图 4 是模拟量数值(状态信息)，只记录不画曲线;N 是“年 test112.mdb 数据库中分类号为2001-001 的索引信息月日时分秒”时间信息。窗口。

jz 如果是16 进制文件，则为16;十进制文件则为

10 。但是十六进制文件中的BCD 码信息，该字段应该为 10。 bczdz 为标称最大值，如32767(7FFFH )，65535 (FFFFH )。

bczxz 为标称最小值。 hszdz 为换算后的最大值，如300，2000。 hszxz 为换算后的最小值。

dw 为该项内容的单位。 qx 为是否是曲线数据(过程信息或状态信息)。 pbz 如果是开关量，其所处的地址相同，用来区分它处在哪一个bit，例如，如果在bit7，则屏蔽值为128; 如果是bit6，则屏蔽值为64。 pl 为数据的高低字节排列方式;G 表示高字节在

前;D 表示低字节在前;Y 表示一字节的模拟信息，如年月日时分秒的信息。图4 索引信息窗口 2.2 软件功能实现模板定义好后，就可用来对故障

(2 )开关量分析数据进行解码、

系统根据用户选定的数据库以及分类号读取某装库和分析。种类型的数据,并将该数据值赋给装库数据(zksj)，分 2.2.1 故障数据的解码装置

量为数据类型(sjlx)、单位(dw)、分类号(flh)、名称

(mc)、日期(rq)、时间(sj)、数值(sz)、最大值(zdz)、最

小值(zxz )。每个装库数据都被送回到“数据库数

据”表中，系统对该表数据进行绘图显示。图 5 为数据

个步对故障数据的解码装库过程可分为以下 2库中分类号为SS8_03_4_16 的开关量数据分析窗口。骤 : (3 )模拟量分析系统根据用户选定的数据库以

及分类号读取某 (1 )解码索引的处理。系统首先将用户指定的文

件名赋给相应变量FileIn，并且打开文件名为FileIn的 — 28 —

种类型的数据,并将该数据值赋给装库数据(zksj)，分系统根据用户选定的数据库以及分类号读取某

量为数据类型(sjlx )、分类号(flh )、单位(dw)、名称种类型的数据, 然后由用户选择待分析的数据(最多

不超过 1 6 个数据)，并将该数据值赋给装库数据 (mc)、日期(rq)、时间(sj)、数值(sz)、最大值(zdz)、

(zksj)，分量为数据类型(sjlx)、单位(dw )、分类号最小值(zxz )。每个装库数据都被送回到“数据库数

据”表中，系统对该表数据进行绘图，并显示出文本 (flh)、名称(mc)、日期(rq)、时间(sj)、数值(sz)、最

信息。图6 为数据库SS8-1.MDB 中分类号为2001-01 的大值(zdz)、最小值(zxz )。每个装库数据都被送回到模拟量数据分析窗口。 “数据库数据”表中，系统根据该表数据绘制开关量与

模拟量曲线图进行分析。图7 为数据库SS8-1.MDB 中分类号为2000-111 的综合特性分析窗口。

图5 开关量数据分析窗口

图7 综合特性分析窗口综上所述，首先由用户自定义模板，系统根据该模板对故障信息进行解码、装库，然后再调出进行分析，从而实现本系统用户可定义功能。

3结束语本系统采用Access 和VB6.0 设计，运行在Win-

dows95/98/NT/XP 等环境下。尽管该系统并没有覆盖列车故障诊断和状态信息处理的整个范畴，但是，整

个设计过程是建立在用户可重定义原则下，以列车状态记录信息的信号数学描述为基础，实现了对列车检测系统所记录的状态信息的地面信息诊断处理，而且图6 模拟量数据分析窗口

对现有的记录格式实现了格式上的兼容。(4 )综合分析(同步分析)

中央走廊设备布置，方便司乘人员巡视、检修;侧墙过滤动态消息器采用迷宫式夹层风道独立通风结构，降低车内负压，提高机车的滤尘效果及防寒性能;司机室进行了标准化、人 SS9 改进型电力机车将担当性化设计，微机控制装置及其他电子装置设置在司机室后

铁路第五次提速重任端墙，可满足单司机在司机室内完成部分设备的转换和隔

离;机车具有向车辆提供DC 600 V 电源的能力;牵引变压

2004 年3 月4 日，用于我国铁路第五次大提速的首台器采用卧式结构，降低了机车的重心高度，有利于提高机

SS9 改进型(0125 #)电力机车顺利交车，即将奔赴京广铁车运行的稳定性。

路武昌到北京以及武昌到深圳区间，承担4 月18 日开始的 SS 9 改进型电力机车已形成批量生产，先后在京沈线、

第五次全国铁路大提速牵引重任。秦沈快速客运专线、南京广线投入正式运营，现已成为国

SS9 改进型机车为六轴干线客运电力机车，由中国南车内160 km/h 准高速主型牵引机车，它以美观的外型和优良

集团株洲电力机车厂生产。机车在原SS 9 机车的基础上进的质量，受到了广大用户和旅客的好评。

行了改进设计，速度160 km/h，最大功率5 400 kW。机车采用 (刘健平供稿)

— 29 —

范文二：受众的媒介信息处理能力

自英国文学批评家列维斯和汤普生1933年提出媒介素养概念以来，媒介素养教育已经在欧美发达国家得到了迅速的发展，近年来在中国大陆也越来越引起学界关注。但是，要开展科学、有效的媒介素养教育，必须首先对目前中国公众的媒介素养状况加以全面、客观的了解。为此，复旦大学教育部哲学社科重大攻关项目“媒介素质教育理论与实践研究”课题组，着眼于将媒介素养视为现代社会公民素养的重要组成部分，于2007年5月～6月，通过在全国四个主要城市大规模随机抽样问卷调查的方式，希望第一次全面考察目前中国公众媒介素养的基本状况，并探究其与公众人口特征、政治认知、媒介使用等因素之间的关系，以期为我国媒介素养教育提供有益的参考。

根据学者们的概括①，媒介素养教育理念70多年来已经过了四次可称为“范式转移”的变化：第一代“保护主义”的媒介素养观源自精英文化脉络，强调保护公众免受不良媒介信息的侵害；第二代（60年代）则认为媒介信息不都是有害的，关键在于受众对媒介内容的主动选择和辨别；第三代（80年代）开始强调培养公众对媒介信息的批判解读能力；第四代（90年代以来）则从对文本的批判解读扩展到对媒介组织运作的认知理解，并进一步拓展到以公众媒介参与为核心的社区行动范式。因此，本文将媒介素养界定为一个多维度概念，并着重考察其三大核心维度———媒介信息处理能力、媒介知识、以及媒介参与。

本次调查在北京、上海、广州和西安四个城市进行，所有城市的抽样均采取多层、随机方式：先根据各城市人口统计资料，按照PPS方法抽取出40个居委会；然后，按系统随机方式在每个被抽中的居委会中抽出15户家庭；最后，根据“最近生日法”从每户家庭中选择一名年龄在18～70周岁之间的个人作为访问对象。调查共成功访问到2409名样本，总体成功率为75.8%。所有数据均采用SPSS进行分析。

一、媒介信息处理能力的内涵

如上所述，对媒介内容的积极处理、批判解读能力，是媒介素养几十年来关注的主题。媒介素养研究者一直强调，受众应该“对媒介信息保持开放、质疑、反思、批判的态度”②。从传播学经典受众理论出发，这一维度实际上也是关心受众在多大程度上具有主动性，能够运用自己的认知能力和反思意识，对所接触到的媒介信息展开分析和评判，而不满足于扮演一个消极被动的接收者角色。

为更全面地分析，我们将媒介信息处理能力划分为四个具体的方面———深度解读能力、批判质疑能力、独立思考能力与核实报道能力。其中，深度解读能力意味着受众能够超越媒介报道的文字表面，对报道背后所透露的深层含义进行解读，其集中体现在寻找新闻背后的“弦外之音”；批判质疑能力则是指受众能够对媒介报道提出疑问，怀疑某些报道或细节的真实准确性，不盲从、盲信；独立思考能力代表受众在阅读新闻时并不全盘接受媒介提供的观点，而是能够根据自己的知识、判断等提出独立见解；最后，核实报道能力意味着受众能够通过媒介报道之间的相互印证来确认事实，对新闻报道进行“校验”，这显然是一种非常积极，同时也需要付出更多心智劳动的信息处理方式。

二、媒介信息处理能力的总体状况

调查发现：首先，在所有被调查公众中，约有25.6%表示“喜欢在阅读新闻时寻找弦外之音”，23.7%表示“一般”?，而超过一半（50.6%）表示这一说法与自己“不大符合”或“不符合”；其次，约有32%的受众“经常在接触新闻报道时提出疑问”，24.2%表示“一般”，43.8%表示不怀疑或不大怀疑；第三，43%的被访者表示自己“有时会拒绝新闻报道所提供的观点”，而29.1%表示不会或不大会，另有27.8%表示“一般”；最后，当遇到有矛盾的新闻信息时，26.8%的受众能够主动通过多种途径来进行核实和确认，19.2%表示“一般”，53.9%则倾向于否定的回答。

综合来看，我们认为目前中国公众的媒介信息处理能力总体上处于中等偏弱水平，这反映在除了独立思考能力一项外，其余维度的平均值均没有达到五级量表的中值③。其中，独立思考能力的平均值最高（3.15），说明受众在媒介提供的观点面前并不是像“魔弹论”所描述的那种应声而倒的“靶子”，而是能够依据自己的思维框架和知识积累，坚持自己的见解。位居第二的是批判质疑能力（平均值为2.78），说明质疑媒介的新闻报道并没有拒绝媒介的观点来得普遍。第三是深度解读能力（均值为2.50），反映了那种“透过现象看本质”、推敲新闻报道背后含义的解读模式，只是一部分受众经常采取的行为。而通过多种途径来核实媒介报道，由于需要付出较高的心智劳动，其平均值也最低（2.47）。

三、人口学因素的影响

调查发现：男性与女性在媒介信息处理能力上存在差异。如表2所示：男性在四个次级维度上的平均值都显著高于女性，差距最大的是核实报道能力（Δ=.25，p<><><><>

年龄与媒介信息处理能力之间的关系是：越年轻的受众，其在媒介信息处理能力上的表现越强。其中，26～35岁青年人的深度解读能力、独立思考能力和核实报道能力均位居第一（平均值分别为2.69、3.39、2.61），18～25岁青年人的批判质疑能力则最为突出（平均值为2.92）。相对而言，中老年人的媒介信息处理能力稍弱。这说明，那些饱经风霜的长者在媒介素养上并不比初涉社会的年轻人更具优势。进一步，通过简单线性相关分析可以发现：在年龄变量（指年轻）与媒介信息处理能力的四个维度之间，均呈现出显著的正相关关系，皮尔逊相关系数从.068到.127不等。

同时，公众媒介信息处理能力的高低与个人教育水平也有着密切的关系：教育程度越高，其媒介信息处理能力的平均值也越高。研究生群体深度解读、批判质疑、独立思考和核实报道四个方面的均值分别为3.06、3.38、3.91、2.91，显著高于其他教育程度的群体，特别是与小学以下文化程度受众均值的差异都在0.8以上，独立思考能力的差距更达到1.23（3.91vs.2.68）。相关分析进一步显示了教育变量与媒介信息处理能力之间的显著正相关关系。

最后，家庭月收入水平越高，受众的信息处理能力也越强。不过，除核实报道能力外，家庭月收入最高（1万元以上）的群体，其信息处理能力却并非最高，反而落后于月收入在6000～10000元之间的受众，说明高收入并不绝对代表着信息处理的高能力。

四、政治认知和人际讨论模式的影响

媒介素养研究者们认为：基于媒介素养与公民素养之间的密切关联，个体的政治认知，包括政治与公共事务兴趣、政治思考能力（意味着个体所具有的头脑复杂性），以及人际讨论模式，即受众如何与他人讨论新闻和公共事务———讨论圈子多大、开放性如何、是否具有意见的交锋，对媒介素养有重要影响。

经过净相关分析③后发现：政治与公共事务兴趣和三个方面的媒介信息处理能力有显著的正相关关系，相关系数从.07到.19不等。说明一个拥有政治热情、热心公共事务的公民，也善于深入推敲新闻背后的含义、愿意“不辞辛劳”地核实信息，以及对媒介信息保持一定的质疑。政治思考能力与其中的两个维度———深度解读能力和批判质疑能力正相关，对独立思考能力和核实报道能力则缺乏影响。

另一方面，我们按受众的人际讨论特征区分出两类不同的群体———开放型和封闭型，前者喜欢与他人展开积极、开放的讨论，并且讨论圈子较大，异质性较高；而后者较为封闭，只和自己背景相似的人交谈。结果显示：“开放型”受众群体的媒介信息处理能力显著高于“封闭型”群体，两者均值的差距从0.37（批判质疑能力）到0.74（深度解读能力）不等（p<>

五、媒介使用的影响

媒介使用在以往的一些调查中被当作媒介素养的组成部分，但我们认为，作为公众人人皆有的媒介接触表层行为，不能等同于媒介素养的核心内涵。但是两者之间的关系如何呢？我们的考察分两个层面进行，首先分析单纯媒介使用时间的影响。结果发现：在控制了个体特征性变量后，除了上网时间与核实报道能力两者之间有微弱的正相关关系外，无论是读报、看电视，还是上网时间的长短，都与媒介信息处理能力各维度无关，某些关系上甚至呈现负向趋势。

第二个层面我们考察媒介使用的内容与信息处理能力之间的关系，结果就大为不同。如表7所示：关注报纸新闻与媒介信息处理能力的四个维度之间都呈现显著的正相关关系，净相关系数从.06到.09；与之相对，关注电视新闻和娱乐内容则对信息处理能力的培养毫无作用；就新兴的网络媒体而言，关注网络新闻对深度解读能力和核实报道能力有显著的正向影响，与批判质疑和独立思考能力无关，而经常打网络游戏则对各方面的信息处理能力均无帮助，甚至有反向作用趋势；最后，经常关注海外媒介对深度解读和核实报道能力具有显著的正向影响，但与批判质疑和独立思考能力无关。由此可见，相比于单纯的媒介使用时间，对媒介素养影响更大的是受众所关注媒介内容的差异。新闻内容比娱乐性内容，报纸、网络比电视，更有助于受众信息处理能力的培养。

六、小结与启示

通过上文的分析，我们得出如下主要结论和启示：

1.目前我国公众的媒介信息处理能力处于中等偏弱水平，换言之，公众批判接受媒介信息、积极主动思考解读的情形尚不普遍。面对传媒技术的飞速发展，传媒内容的日趋丰富和多元，受众的信息处理能力亟待加强，媒介素养教育需要有针对性地提高这方面的意识和水平。

2.不同社会群体之间的媒介信息处理能力差异较为明显。中老年人和低教育、低收入这类社会经济意义上的“弱势群体”在媒介素养上也略呈弱势。这部分人在纷繁芜杂的媒介信息面前较为被动，需要媒介素养教育的更多关注。

3.媒介素养教育不能离开受众自身的政治认知和人际讨论特点。具体而言，那些对政治和公共事务热情不足、在日常讨论中不够活跃的群体，特别需要媒介素养教育的提升，着眼点首先应从环境上鼓励他们对政治和公共事务的参与，以及通过朋友、同伴交流等手段提高他们对媒介信息的处理、思考能力。

4.媒介素养与媒介使用是两个不同的概念，不可混淆。单纯媒介使用时间并不能影响媒介信息处理能力，但是所关注的不同内容有重要影响。从这方面出发，媒介素养教育应鼓励受众多接触和关注新闻类内容，特别是加强读报，多尝试在网上冲浪，接触海外媒介。倘若沉迷于娱乐节目或网络游戏，久而久之，可能会削弱自己对媒介信息的思考处理能力。

范文三：信息处理的主流技术

　　摘要：本文分析了中文信息处理的主流技术，尤其是几个重要的部分，即N元模型、语音识别和句法分析技术。

　　关键词：信息处理 N元模型语音识别句法分析

　　一、中文信息处理的特点

　　（一）汉字的特殊性

　　我们都知道，英语在计算机信息处理方面的优势就是其字母数量有限，因而可以很容易的进行输入输出以及信息的加工和处理，而中文的汉字则数量庞大，且字形相对复杂，这就给汉字的编码带来了不小的困扰。因此我们根据汉字信息处理过程中的不同要求对汉字进行了不同形式的编码，总结来说有以下几种方案，即汉字输入编码，汉字标准编码，汉字内码和汉字形码。

　　（二）书面汉语的特殊性

　　汉语的另一个特征是在书面表达中，词语和记号之间没有明显的分隔标记，这就使自动分词在书面汉语分析中成立一个难题。分词需要将连续的字按照一定的规范进行有序的组合，比较英文我们会发现，英文单词之间都是用空格来做分隔符，而中文则是习惯通过字、整句以及段落进行简单的划分，而这其中的一个难点就是对词语的划分，我们都知道，英语中也有短语划分的问题，但是由于中文的词语远比英语的数量和范围要庞大，因而处理起来更为困难。

　　（三）汉语语音的特殊性

　　在语音方面，汉语的特征是音节结构相对简单，音节划分界限比较清晰，但是声调和变调是中文与英文的显著区别，因而在语音识别和语音合成方面来讲这是一个劣势，但是总体上来说汉语语音的处理比之其他方面来说还是相对容易的。

　　（四）汉语语法的特殊性

　　在语法方面，汉语词汇的句法功能相对来说难以判断，这与英语语言上的多变形态有着截然不同的表现。汉语主要依靠词序和虚词来表达不同的含义，因此如果不能很好的掌握句法，就特别容易产生歧义，因此汉语语句自动分析这一重要技术是一项难以攻克的技术。

　　二、中文信息处理的若干技术

　　（一）N元模型

　　设wi是文本中的任意一个词，如果已知它在该文本中的前两个词wi-2w-1，便可以用条件概率P（wi|wi-2w-1）来预测wi出现的概率。这就是统计语言模型的概念。一般来说，如果用变量W代表文本中一个任意的词序列，它由顺序排列的n个词组成，即W=w1w2。。。wn，则统计语言模型就是该词序列W在文本中出现的概率P（W）。利用概率的乘积公式，P（W）可展开为：P（W）=P（w1）P（w2|w1）P（w3|w1 w2）。。。 P（wn|w1 w2。。。wn-1）不难看出，为了预测词w n的出现概率，必须知道它前面所有词的出现概率。从计算上来看，这种方法太复杂了。如果任意一个词wi的出现概率只同它前面的两个词有关，问题就可以得到极大的简化。这时的语言模型叫做三元模型（tri- gram）：P（W）≈P（w1）P（w2|w1）∏i（i=3，。。。，nP（wi|wi-2w-1）转贴于中国论文下载中

　　符号∏i i=3，…，n P（…）表示概率的连乘。一般来说，N元模型就是假设当前词的出现概率只同它前面的N-1个词有关。重要的是这些概率参数都是可以通过大规模语料库来计算的。比如三元概率有P（wi|wi-2wi-1）≈count（wi-2wi-1wi）/count（wi-2wi-1）式中count（…）表示一个特定词序列在整个语料库中出现的累计次数。

　　（二）语音识别

　　语音识别的最终目标是使人类与计算机之间实现真正意义上的自由交流，使机器听懂人类的语言，并及时的做出准确的反馈。语音识别技术包括了信号处理、模式识别、概率论和信息论、发声机原理和听觉原理、人工智能等主要内容。语音识别技术主要包括特征提取技术、模式匹配准则和模型训练技术3个方面，另外还涉及到语音识别单元的选取，在这个问题上我们通常采用的是以音节为识别单元。另外，在特征参数的提取技术方面，由于语音符号中含有大量的信息，它们通常被称为声学特征。特征参数是决定语音识别质量的关键技术，因此我们应该极可能的采集所要传播语言的语义信息，剔除掉说话人的个人信息干扰，这样才能保证特征参数的有效性和准确性。

　　（三）句法分析

　　句法分析是以汉语的语法特征为分析方法，对句子、段落中的短语结构树进行各个句子成分关系的分析，分析的主要内容包括：句子中所有的单句，每个单句在句法中的作用是什么，在单句以上更大的语法结构是什么，句子中的短语或词组类型是什么，在句子中起了什么作用，最后，所有这些成分是如何有机组合或附着在整个句子中的，这些就是句法结构分析的主要内容，这叫做线图分析法。值得说明的是，英语语言结构中主语必须置于谓语之前，否则所表达的意思就完全变化了，当然，在一些特定情况下，如倒装句结构中这种情况还是普遍存在的。这一点是与汉语有着显著的区别的。

　　三、结语

　　中文信息处理技术有着重要的意义，它是语言学与信息技术的有机融合，旨在对中文的音、形、义等输入计算机，进而进行必要的信息加工与处理，在这一过程中涉及到了计算机科学、信息学、声学等大量学科的交叉知识。具体来说，语言信息处理是将自然语言的各个部分，包括词语、句子、段落以至篇章进行文本、声音和图像各种方式的信息化加工，然后对这些信息进行输入输出、压缩、存储以及检索等等各项处理。我们都知道，自然语言是我们日常最重要的交流沟通工具，是人类进行思维活动、文化传播的有效载体，因此语言信息处理这种技术有着重要的意义，本文专门分析了利用计算机处理中文信息，即汉语信息处理技术，希望本文能够对同行们有所启示，还望能够多多交流学习，更好的完善这项技术。

　　参考文献：

　　[1]曹邦伟，高传善.计算机与信息处理[M].上海：复旦大学出版社，2001.

　　[2]陈小荷.中文信息处理概述[J].南京师范大学文学院学报，2002，（1）.

　　[3]冯志伟.汉字和汉语的计算机处理[J].当代语言学，2001，（1）.

范文四：大数据时代的信息处理

大数据时代的信息处理

【摘要】信息时代的特征之一就是数据的密集爆发,人们积累的数据越来越多, 而这种数据的变化没有一个循序渐进的过程, 而是呈现跨越式的特征, 因此传统的查询、报表工具无法满足挖掘有效信息的需求。从而就需要一种新的数据分析技术处理大量数据, 并从中抽取有价值的潜在知识, 即数据挖掘技术。本文深入浅出地阐述了数据挖掘技术的产生,概念以及数据挖掘的常用技术。

【关键词】信息时代;数据;挖掘;分析

一、大数据的定义

所谓 “ 大数据 ” ,一般具有几个特点:首先是数据量很大,已经从 TB 级跃升至 PB 级;其次是区别于传统的数据结构, “ 大数据 ” 时代的数据结构比较复杂, 超过 80%都是非结构化数据,比如道路上的视频监控数据、网上的流媒体数据、物联网中 RFID 的感应数据,以及社交网络上产生的各种数据等。这两个特点, 给数据存储、管理和挖掘带来了困难。第三,数据更新快,比如视频监控每秒钟都在进行,微博随时都有人在更新;最后,是对数据的随机访问,这些更个人化的数据在存储后被再次访问的时间是不确定的。这两点就要求新的 IT 系统更够更快地处理数据, 并且能够更智能地保存和管理数据。比如在某一天, 你需要从监控录像中找出某个人, 那么就需要能够迅速地查找、调用、分析之前保存的海量数据。 “ 大数据 ” 的这些特点,对数据搜索及管理提出了更高要求,因为在 “ 大数据 ” 时代只有经过分析提炼的关键数据才有价值。

二、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据, 并从中发现隐藏的关系和模式, 进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程, 它是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。数据挖掘是一种新的信息处理技术,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。数据挖掘是知识发现过程中的一个特定步骤, 它用专门算法从数据中抽取模式, 它并不是用规范的数据库查询语言进行查询, 而是对查询的内容进行模式的总结和内在规律的搜索。传统的查询和报表处理只是得到事件发生的结果, 并没有深入研究发生的原因, 而数据挖掘则主要了解发生的原因, 并且以一定的置信度对未来进行预测,用来为决策行为提供有利的支持。

(1)统计学

统计学在数据样本选择、数据预处理及评价抽取知识的步骤中有非常重要的作用。以往许多统计学的工作是针对数据和假设检验的模型进行评价, 很明显也

范文五：AIS系统的构成及信息处理

第 10卷第 10期中国水运 Vol.10 No.10 2010年 10月 China Water Transport October 2010?

收稿日期:2010-08-04

作者简介:史键(1982-) ,长江南京通信管理局助理工程师,研究方向为 AIS 硬件以及 AIS 软件开发。

AIS 系统的构成及信息处理

史键

(长江南京通信管理局,江苏南京 210011)

摘要:文中对 AIS 系统的主要功能及组成部分进行了简单的介绍,详细的分析了 AIS 数据信息的内容,格式和解码,对解码流程进行深入研究,通过实例对 AIS 信息的解析过程进行分析。关键词:AIS;系统构成;SOTDMA;内容与分类;信息解析

中图分类号:U698 文献标识码:A 文章编号:1006-7973(2010)10-0091-02

一、引言

船舶自动识别系统 (Automatic Identification System) AIS 在航海安全与通信中体现出来的强大功能和良好的发展前景,已被很多业内人士熟知。AIS 是国际电信联盟(ITU) 、国际海事组织(IMO)和国际航标协会(IALA) 等国际组织共同研究开发的,可用于水上交通联络和指挥的岸与船、船与岸、船与船之间的识别通信系统。

二、AIS 系统构成

AIS 系统主要由船台设备和岸台系统两部分组成。 1.船台设备

船台设备是一种 VHF 海上频段的船载广播式应答器。典型的 AIS 船台是由 1台 VHF 发射机、2台 VHF TDMA 接收机、1台 VHF DSC 接收机、1台带有标准的船用电子通信接口 (IED 61162/NMEA0183/200) 的信息处理控制装置以及各种必要的传感器组成。船舶配备了 AIS 以后,在向外播发本船航行信息的同时还可以接收到 VHF 覆盖范围以内其他船舶的航行信息以及基站发送的信息。

2.岸台系统

AIS 基站是 AIS 通信网的接收和发射装置,在 AIS 基站范围内实时采集所有 AIS 船台的动静态信息并将其发送给主基站,同时将主基站的指令发送给水域内的 AIS 船台。

一个典型的岸台由 VHF TDMA 收发机、VHF DSC 接收机、基站控制器(BSC) 、网络设备、控制软件和应用软件组成。AIS 基站收发机遵从 ITU-RM.1371建议案《AIS 技术特性标准》 ,可安装在 VIS 系统中或作为 AIS 网络的核心单元。借助基站控制器 (BSC) , 基站收发机可以相互连接实现对海岸线或者内河的覆盖。

三、AIS 信息处理 1.AIS 信息采集

用户接口采用 RS422 通信协议 , 先将信号经过 RS422/R S232 转换器转换,转换后的信号送入 PC 机串口,由 PC 机完成信号的采集和处理。

2.SOTDMA 消息结构

AIS 系统的通信采用的是自组织时分多址技术 (SOTDMA) 。SOTDMA 是实现 AIS 自主连续数据通信的核心技术,在自组织时分多址技术中,信道时间被分为固定

长度的时间间隔 (每一个间隔称为一帧) 。一个时帧包括一组时隙,这些时隙在时域上互不重叠。

AIS 中每一帧的长度为 1min,被划分为 2250(0— 2249) 个时隙 , 每个时隙长 26.67ms , 工作于 87B (161.975mhz) 、 88B (162.025mhz) 两个信道, 传输带宽为 25khz 或 12.5khz, 信道传输速率为 9,600bps, 所以每个时隙为 256比特且每一帧的开始和结束以卫星提供的世界时 UTC 时间为标志。

3.AIS 信息的内容与分类

AIS 信息的内容主要包括:船舶向基站和其他船舶播发的消息,岸台管理中心向船舶播发的信息。

(1)静态信息:海上移动业务标识码(MMSI) ,呼号, 船名,船长,船宽,船舶类型,船上定位天线的位置等。

(2) 动态信息:具有精度指示和完整性状态的船位, 对地速度(SOG) ,对地航向,航行状态(如失控(NUC) 、锚泊等) ,转向率,UTC 时间(由接收设备生成日期)等。

(3)航行信息:船舶吃水,目的港,预到时间(ETA) , 危险货物类型等。

(4)安全信息:有关船舶航行相关的安全信息。以上不同类型的信息以不同的时间周期进行播发。按照 ITU-R M.1371的有关规定和具体的信息内容, AIS 信息分为 22种不同的信息报文, 包括传输信息、支持各种其他系统或数据链路(包括消息确认、询问、分配、管理命令)的功能等。主要消息的类型及说明如表 1所示:

表 1 主要消息的类型及说明

消息标识名称说明

1、2、3船位报告自主的、分配的或轮询响应 4 基地台报告基地台的位置、UTC /日期和当前时隙号

5 静态和与航次相关数据

定时的静态数据和与航次相关

的船舶数据报告 6、7、8二进制信息编址、确认或广播

9 标准搜救飞机位置报告

仅为搜寻与救助中运行的机载台

站使用的位置报告

10、11UTC/日期询问和响应 12、13 、14

安全相关信息

寻址、确认或广播 15

询问

查询具体的消息类型

92 中国水运第 10卷 ?

续表 1

消息标识名称说明

16 分配模式指令由主管部门用基地台指定某种报告行为 17 DGNSS 广播二进制信息由基地台提供的 DGNSS 修正

18、19 B 类设备位置报告标准及扩展报告

20 数据链管理信息为基地台预留的时隙

21 助航报告助航设备的位置和状态报告

22 信道管理基地台关于信道和收发机状态的管理 4.AIS 信息解码

AIS 输出的信息符合ITU-R M. 137121 和IEC6116222 协议, AIS 的信息报文分为明码和暗码。明码以 “$” 字符开始, 可以直接看出其代表的意思。IEC(国际电工委员会)对明码有明确的字符数限制(一个句子加终止符不超过 82个字符) 。暗码是封装的信息包,以“! ”开头。其格式为:

!AACCC,X,Y,Z,U,C-C,V*HH 其中 AACCC 为标识符, 指明本条句子封装的背景信息, X,Y,Z 分别表示发送这一信息需要的句子总数(1-9) 、本句的句子序数 (1-9) 和连续信息的识别 (0-9) ; U 表示 A IS信道号; C-C 为封装信息,为数据部分;V 表示填充的 BIT 数, 因为封装的字符需要是 6的整数倍, 若不满足需填充 0-5个字符;HH 表示检验字段。

〉 !AIVDM, 1, 1, , B, 169L7WP01K8cdWNB2P4sUa 9j0@Qi,0*43

〉!AIVDM,1,1, ,B,16U5pv001g8cQGDB32b<>

比如,以上数据是 AIS 设备接收到的 AIS 信息数据,这些数据都是经过数字化或压缩编码,要获得其中包含的文字信息,需要进行解码。这些封装电文的字符是符合规定的有效字符,共 64个。将这 64个字符与其对应的 6bit 二进制字段一一对应,就可以方便的解析出这些暗码。

表 2 8bitASCII 码转 6bit 二进制表

0 000000 = 001101 J 011010W 100111 l 110100

1 000001 > 001110 K 011011‘ 101000 m 110101

2 000010 ? 001111 L 011100a 101001 n 110110

3 000011 @ 010000 M 011101b 101010 o 110111

4 000100 A 010001 N 011110c 101011 p 111000

5 000101 B 010010 O 011111d 101100 q 111001

6 000110 C 010011 P 100000e 101101 r 111010

7 000111 D 010100 Q 100001f 101110 s 111011

8 001000 E 010101 R 100010g 101111 t 111100

9 001001 F 010110 S 100011h 110000 u 111101 : 001010 G 010111 T 100100i 110001 v 111110 ; 001011 H 011000 U 100101j 110010 w 111111 < 001100="" i="" 011001="" v="" 100110k="">

现在根据表 2来解析例子中的第一条信息:

> !AIVDM, 1, 1, , B, 169L7WP01K8cdWNB2P4sU a9j0@Qi,0*43

根据封装数据部分的第一位可知消息识别码为 1,根据其消息结构(见表 3) ,对封状信息进行解析。

表 3 消息 1,2,3的消息结构

参数比特数说明

消息识别码 6 消息 1,2或 3的标识符

转发指示符 2 消息被转发的次数,默认=0;3=不再转发用户识别码 30MMSI 号码

航行状态 4

0=在航(主机推动) ;1=锚泊;2=失控;3=操纵受限; 5=靠泊;6=搁浅;7=捕捞作业;8=靠帆船提供动力; 9=为将来 HSC 航行状态修正所保留;

10=为将来 WIG 航行状态修正所保留;

11-14=为将来使用保留;15=未定义,缺省转向率 ROT 8 ROT 为转向率(720度/min)由外部传感器显示对地航速 10对地航速,以 1/10Kn距为单位

船位精确度 1 1=高;0=低

经度 28经度

纬度 27纬度

对地航向 12对地航向

真航向 9 度数(0-359)

时间标记 6 报告发出时的 UTC 时间

为地区性应用所保留 4 保留由地方政府管理部门定义

备用位 1 未用,应设为 0

RAIM 标志 1 电子定位设备的 RAIM 标志 0=未使用=默认; 1=使用通信状态 19SOTDMA 或者 ITDMA 通信状态

总比特数 168

封装的数据转换为 6位的二进制数据后,根据表中对各参数分配的比特数可以得到船舶船位报告的相关数据。通过分析各消息的消息结构,可以得到船舶其他的相关信息,如船舶的 IMO 号码,船名,呼号,船舶和载货类型, 船舶的长宽,目的地等关于船舶静态和航行相关的信息。 5.AIS 信息的显示

以上内容均是针对代码进行分析的。对于使用和操作者, 需要一个平台将这些数据以标绘船位的电子海图和显示船舶的各种信息的文字的形式显示出来。可以通过编程处理各消息间的转换,最终达到对船舶动态的监控。

四、结束语

AIS 系统大大增强了对船舶的识别能力,为水上搜救中心提供了便利,对提高航行安全和效率,保护水域环境发挥了重要作用。相信随着技术的提高和法规的不断完善,AIS 技术必将得到更大的应用和发展,把我们带到一个新的航运时代。

参考资料

[1] Technical characteristics for a universal shipbornc automatic identification system using time division multiple access in the VHF maritime mobile band Rec . ITU-R M.1371-1 1998-2001

[2] Single talker and multiple listeners-Extra requirements to IEC61162-1 for the UAIS . IEC/PAS61162-100 2002, 04. [3]朱金发 . 船载自动识别系统手册[M]. 人民交通出版社, 2005,06.

[4] 黄丽卿,胡稳才,邵哲平 . AIS 输出数据包的解包技术研究[J]. 集美大学学报 (自然科学版) , 2005, 10, (1) :37241.

转载请注明出处范文大全网 » 用户可定义的诊断信息处理技术