范文一:Pubmed检索系统的主要特点
读者作者编者?? 2012-07-13################2012-07-13#######2#012-07-13########
Pubmed检索系统的主要特点
1 关键词自动转换功能
在 PubMed主页的检索提问框中键入检索词 ,系统将该检索词按顺序与 MeSH Tr anslaton i
Table (MeSH转 换表),Journals Translation Table( 刊名转换表),Phrase List (短语列表)和 Author Inde(x作者索引)等 4 种索引匹配,找到匹配的词即将其转换成索引中相应的词然后进 行检索。
截词检索功能2
PubMed 允许使 用“*”号作为通配符进行截词检索。截词功能只限于单词,对词组无效。 如:nfecto包括nfectons,但不包括nfecton contro等。使用截词功“iin*”“ii”“iil”能时,PubMed 系统 会自动关闭词汇转换功能。
强制检索功能3
PubMed允许使用双引号来强制系统进行短语检索 。例如,在 PubMed主页的检索提问框 中键入“Single cell”,系统会将其作为一个不可分割的词组在数据库的全部字段中进行检索。 使用双引号检索,会自动关闭词汇转换功能。
4 链接功能
PubMed系统中的每条文献记录均有一个相关文献链 接,在检索结果的 链接相关文献4.1
显示状态下,部分记录的右边均有“Related Articles”超链。点击该链,系统按文献的相关度从
高到低显示相关文献。4.2 链接 NCBI 数据库 PubMed在其主页上与 NCBI 的 5 个数据库建立了超链接。这些数据 库包括:Protein[氨基酸(蛋白质)序列]数据库,Nucleotide(DNA 序列)数据库,Pops(et 种群、种系
发生或突变序列)数据库,Structure(分子结构模型)数据库和 Genome(基因组序列)数据库。
在检索结果显示状态下,点击文献记录右侧的“LinkOut”进入相关网链接外部资源4.3
站。 PubMed提供从检索结果到期刊全文 、生物学数据、序列中心等的链接。
4.4 链接相关图书 点击Books,可参考相关书籍的文摘页。书籍文摘页上的某些短语“”
是超 链接,点击短语超链,可连到相关图书的页码表,可在表上找到有关短语。
本刊编辑部
2012-07-13################2012-07-13#######2#012-07-13########
Your requestcould not be processed becauseof a configurationerror: "Could not connect to LDAPserver."
For assistance,contact your network support team.
范文二:网络资源检索系统的设计与实现
网络资源检索系统的设计与实现
尹文开、韩素伟、徐千昆、李天行、王冠军
(山东师范大学信息科学与工程学院)
摘要:本文论述了dreamfly 团队开发的网络资源检索系统的设计及实现细节。本系统采用分布式计算方式,利用SWT 、组播、RMI 、Lucene 、POI 、流媒体等技术实现对网络中存在的大量共享资源的检索、预览及下载功能。
关键词:网络资源检索 共享资源 分布式计算 全文检索
1. 引言:
网络上存在大量的资源共享服务器。这些服务器一般存储了一定量的资源,并以web 的方式供用户和其它服务器访问。例如一些视频和电子书的共享网站。但不同的网站的资源组织方式往往不同,有的是通过数据库,有的是通过一些描述文件(如XML ),而且数据库的种类和结构也有很大的差别,这就导致不同服务器之间资源共享和资源发现都十分困难。因此,用户如果想访问这些资源,就要登陆每一个服务器去检索和下载需要的资源。由于服务器的分布广泛,数量众多,用户显然难以检索到自己需要的资源。
基于此,本题目想设计这样一个系统。不同的资源分散地存在不同的服务器上,但对用户来讲,这种分散是透明的,不可见的。用户访问这些资源的时候,不会感觉这些资源分散在不同的服务器上,而是感觉资源就在他访问的这台主机上。也就是当用户登陆任何一台服务器的时候,都可以检索和访问该域内全部的资源。
2. 系统设计及实现:
dreamfly 网络资源检索系统主要包含九大模块程序设计:
1.图形用户界面模块
2. 远程方法调用及其相关模块
3. 索引建立模块
4. 检索模块
5. 高级检索模块
6.Ajax 模块
7. 检索结果显示模块
8. 文档预览及音视频播放模块
9. 资源下载模块
(1)图形用户界面模块
此模块为用户提供友好的图形界面,避免了繁琐的运行环境及服务器的设置,使普通用户能够更方便地使用本系统。
本模块采用swt 编写,程序运行速度更快,界面更加美观。SWT-"Standard Widget Toolkit" ,
它是一个Java 平台下开放源码的Native GUI组件库,也是Eclipse 平台的UI 组件之一。从功能上来说,SWT 与AWT/SWING是基本等价的。SWT 以方便有效的方式提供了便携式的(即Write Once,Run Away)带有本地操作系统观感的UI 组件。
(2)远程方法调用及其相关模块
本模块为资源检索系统提供了一个整体框架,可以为选举注册发布的分布式结构、资源检索、文档预览等各方面的功能的实现提供一个平台,使此系统有很强的应用性。
此模块采用RMI 和组播技术。
RMI (远程方法调用):方法调用从客户对象经占位程序(Stub) 、远程引用层(Remote Reference Layer)和传输层(Transport Layer)向下,传递给主机,然后再次经传 输层,向上穿过远程调用层和骨干网(Skeleton ),到达服务器对象。 占位程序扮演着远程服务器对象的代理的角色,使该对象可被客户激活。 远程引用层处理语义、管理单一或多重对象的通信,决定调用是应发往一个服务器还是多个。传输层管理实际的连接,并且追追踪可以接受方法调用的远程对象。服务器端的骨干网完成对服务器对象实际的方法调用,并获取返回值。返回值向下经远程引用层、服务器端的传输层传递回客户端,再向上经传输层和远程调用层返回。最后,占位程序获得返回值。组播(Multicast ):在发送者和每一接收者之间实现点对多点网络连接。如果一台发送者同时给多个的接收者传输相同的数据,也只需复制一份的相同数据包。它提高了数据传送效率。减少了骨干网络出现拥塞的可能性。
(3)索引建立模块
“倒排表”是目前搜索引擎公司对搜索引擎所使用的最常用的存储方式。也是搜索引擎的核心内容。我们这一模块的工作是利用lucene 为test.xml 文档和resources 资源文件夹下的所有资源建立索引,通过索引可以实现对xml 和全文的检索。
lucene 全文检索引擎工具包:在全文检索这一方面,我们采用了lucene 全文检索引擎工具包,并且对程序进行了极大的优化,极大加快了索引建立速度。而且利用索引进行检索时,查全、查准率非常高,速度也非常快,可以达到毫秒级别,前100条记录可以满足几乎所有用户的要求。
(4)检索模块
根据用户输入的关键字进行高速检索。
(5)高级检索模块
根据用户输入的关键字和限制条件进行高速检索。
(6)Ajax 模块
此模块主要用于动态的在搜索框下方生成下拉提示框,框内内容根据首汉字匹配的原则从匹配词库查得,并显示该条内容能搜索到的结果数。
Ajax 基于web 标准(standards-based presentation )XHTML+CSS的表示;使用 DOM(Document Object Model)进行动态显示及交互;使用 XML 和 XSLT 进行数据交换及相关操作;使用 XMLHttpRequest 进行异步数据查询、检索。
(7)检索结果显示模块
当用户根据关键词查询进行结果显示时,会同时显示关键词在该项资源中出现频率最高的一段话,而该模块就是对这一段话中出现的关键字以特殊形式显示。
Apache POI 是Apache 软件基金会的开放源码函式库,POI 提供API 给Java 程式对Microsoft Office 格式档案读和写的功能。
结构:
HSSF - 提供读写Microsoft Excel格式档案的功能。
XSSF - 提供读写Microsoft Excel OOXML格式档案的功能。
HWPF - 提供读写Microsoft Word格式档案的功能。
HSLF - 提供读写Microsoft PowerPoint格式档案的功能。
HDGF - 提供读写Microsoft Visio格式档案的功能。
(8). 文档预览及音视频播放模块
对文档图片视频音频文件进行预览。
(9). 资源下载模块
该模块主要提供给用户下载文件的功能。
3. 结束语:
本系统为用户提供了良好的图形界面,避免了用户对服务器和运行环境的繁琐设置。实现了大赛要求的对共享资源的检索、预览及下载功能,并提供了对资源的高级检索、结果中找等功能,方便用户检索。
4. 参考文献:
[1]闫术卓, 杨强.Struts 2技术详解/基于Web Work核心的MVC 开发与实践/程序天下: 基于Web Work核心的MVC 开发与实践. 北京:电子工业出版社, 2008
[2]谭鸿.Lucene IN ACTION中文版. 北京:电子工业出版社, 2007
[3]吴洁.XML 应用教程. 北京:清华大学出版社, 2005
[4]邹竹彪.JSP 宝典/宝典丛书. 北京:电子工业出版社, 2007
[5]李刚, 宋伟, 邱哲. 征服Ajax+Lucene构建搜索引擎. 北京:人民邮电出版社, 2006
[6]李刚.Struts 2权威指南. 北京:电子工业出版社, 2007
范文三:基于内容的网络商品图像检索系统设计
作品名称:基于内容的网络商品图像检
索系统
作品类别: 技术类
2011年3月13日
第六届浙江省大学生电子商务竞赛参赛作品
目录
第1章 项目背景 ........................................ 3 第2章 关键技术介绍 .................................... 6 第3章 系统分析与设计 .................................. 8
3.1需求分析 ................................................. 8
3.1.1 功能性需求分析 ...................................... 8
3.1.2 非功能性需求分析 .................................... 8
3.2系统设计 ................................................ 10
3.2.1 总体结构设计 ....................................... 10
3.2.2 功能模块设计 ....................................... 11
3.2.3 检索流程设计 ....................................... 12
3.2.4 数据存储设计 ....................................... 14
3.2.5 算法设计 .......................................... 17 第4章 系统实现 ....................................... 25
4.1 数据采集模块 ............................................ 25
4.2 数据检索模块 ............................................ 28
4.3 数据显示模块 ............................................ 29
4.4 数据推送模块 ............................................ 34 第5章 盈利模式与市场营销推广策略 ...................... 36
5.1 目标市场 ............................................... 36
5.2 盈利模式 ............................................... 36
5.3 系统推广策略 ............................................ 37 第6章 财务分析 ....................................... 41
6.1搜索系统建设成本 ........................................ 41
6.2搜索引擎运行维护成本 .................................... 41
6.3搜索系统宣传推广成本 .................................... 42 第7章 风险及对策 ..................................... 43
1
第六届浙江省大学生电子商务竞赛参赛作品
7.1 市场风险及对策 .......................................... 43
7.2 技术风险及对策 .......................................... 43
7.3 项目风险及对策 .......................................... 44
7.4 竞争风险及对策 .......................................... 44 第8章 创新点 ......................................... 45 第9章 总结 ........................................... 46 【参考文献】 .......................................... 47
2
第六届浙江省大学生电子商务竞赛参赛作品
第1章 项目背景
随着计算机软硬件和互联网技术的飞速发展,多媒体数据的数量以惊人的速度增长。各行各业有越来越多的信息通过图像的形式进行表达,这些图像中包含了大量有用的信息。但是这些图像松散的分布在世界各地,缺少有效的组织,难以达到资源共享的目的。因此如何利用如此众多的图像信息并从中定位感兴趣的图像,是对图像信息的查询技术提出的重大挑战。
早在1951年,信息检索(Information Retrieval)这一术语就被Calvin M oores描述为使用户的信息需求能够变为最终的有用信息的过程。当然,他当时指的是文本格式的文件检索。但他的描述却揭示了信息检索系统的实质:帮助用户具体定位相关信息。
在 1970年以后,随着数据库管理和计算机视觉两个领域的飞速发展,图像检索技术(Image Retrieval)的研究成为热点。由于图像检索在这两个领域的不同应用,所以它们采用的研究方法也各自有所侧重。数据库管理领域的研究采用基于文本的图像检索方法,而计算机视觉领域则偏重于基于视觉的图像检索。
基于文本的图像检索(text-based image retrieval),主要在数据库领域中进行研究,它的一个典型框架是,首先对图像用文本进行注解(关键字),然后用基于文本的数据库管理系统(DBMS)来进行图像关键字检索,诸如数据模型、多维度索引、查询评价等的研究进展均是沿着这一领域所作的。但是,基于文本的图像检索存在很大困难,尤其是图像的数据量非常大的时候,其一,手工对图像进行注释所需的工作量太大;其二,许多图像很难用文字的方式进行描
即使同一个人对同一幅图像在述;其三,不同的人对同一幅图像的理解不一样,
不同环境下理解也不完全相同,这样使得对图像的描述不唯一,造成检索结果的千差万别;其四,由于世界上存在许多语种,采用不同的语言文字对图像进行描述而建立的索引在应用中造成了一定的阻碍。因此基于文本方式的图像检索存在很大的局限性。
90年代初期,随着大规模数字图像库的出现,上述的问题变得越来越尖锐。为克服这些问题,基于内容的图像检索技术(content-based image retrieval)应运而生。区别于原有系统中对图像进行人工标注的做法,基于内容的检索技术
3
第六届浙江省大学生电子商务竞赛参赛作品
自动提取每幅图像的视觉内容特征作为其索引,如色彩、纹理、形状等。此后几年中,这个研究领域中的许多技术发展起来,一大批研究性的或商用的图像检索系统被建立起来。基于内容的图像检索系统具有与传统基于文本的检索系统完全不同的构架。首先,由于图像依赖其视觉特征而非文本描述进行索引,查询将根据图像视觉特征的相似度进行。用户通过选择具有代表性的一幅或多幅例子图像来构造查询,然后由系统查找与例子图像在视觉内容上比较相似的图像,按相似度大小排列返回给用户。这就是所请的通过例子图像的检索(query by image example)另外,基于内容的检索系统一般通过可视化界面和用户进行频繁的交EL,以便于用户能够方便地构造查询、评估检索结果和改进检索结果。基于内容的图像检索作为一种利用图像的颜色、纹理、形状等特征进行检索新的检索技术。它融合了传统的模式识别技术与多媒体良好的人机交互技术,有着广泛的发展应用前景,特别是在电子商务领域。
近年来,随着Imemet技术和电子商务技术的不断发展与成熟,以此为技术基础的网络购物平台层出不穷。网络购物平台中的商品货源广泛、品种齐全且价格合理,有着巨大的消费需求,因此得到了迅速的发展。目前,随着物流服务的完善,网络购物作为一种新型的购物方式已经渐渐取代了传统的购物方式,成为一种时尚。纵观国内外的知名购物网站,它们无一例外的都为用户提供了商品检索功能。然而,很多购物网站只为用户提供了基于关键字的检索功能。网络购物平台中的一些商品难于用文字来表达其自身的属性,这给用户挑选中意的商品带来的很大的不便。例如,服装的款式花色很难用文字表达,这使得用户难以用关键字检索到具有欣宜花色和款式的服装。然而,利用商品图像作为查询信息,这个问题就会迎刃而解。CBIR就像是一种为其量身定做的技术,可以很好的解决对某些不便于用文字描述其特征的商品图像的检索问题,极大地方便用户利用网络购物平台选购商品。
我国个人消费网购规模正在以每年超过100%的增速快速发展。根据艾瑞、易观等机构的统计数据,2009年中国个人消费网络购物的金额已经达到2500亿,预计到2012年将达到7130亿。尽管如此,网购交易额仍然只占个人消费总体消费额不到2%,发展空间巨大。
4
第六届浙江省大学生电子商务竞赛参赛作品
随着网购规模的发展,越来越多的商家和商品出现在互联网,这就给消费者挑选商品带来了越来越大的困难。根据统计,目前淘宝已经有超过300万家商户,在线超过3亿件商品。这就给购物搜索带来了巨大的市场机遇。根据艾瑞的统计,2009年购物搜索市场规模已经超过11亿,而且随着网购交易规模的发展,增速也越来越快。而图像购物搜索是购物搜索的重要组成部分,是近几年国内外研究的重点。
同时,近年来随着智能手机和3G通信网络的发展,人们又多了一种购物选择:利用手机实现移动购物。这种方式与传统网购相比更加快捷、灵活、方便,可以充分利用手机的照相功能,结合图像搜索,随时随地实现购物。由于移动商务需要基于手机平台进行操作,考虑到手机平台的特殊性,如何让商品更条理、更清晰的展示在用户面前是提升用户体验的核心因素。
在分析商品购物特点的基础上,设计与开发了基于内容的网络商品图像检索系统,通过对商品图像的自动识别,在海量商品数据中准确、快速的寻找消费者感兴趣的满意商品。开发的系统同时支持网络环境和移动环境。
5
第六届浙江省大学生电子商务竞赛参赛作品
第2章 关键技术介绍
本系统采用Jsp+Servlet+Javabean三层结构,将用户界面、数据内容清晰地分离开来,明确了各个角色的定义。
Servlet程序在服务器端运行,动态地生成Web页面。与传统的CGI和许多其他类似CGI的技术相比,Java Servlet具有更高的效率,更容易使用,功能更强大,具有更好的可移植性,更节省投资。
下面就jsp,servlet,javabean三方面进行介绍。
1. servlet
servlet是在服务器端执行的,具有良好的移植性,不论操作系统是Windows、Linux、Unix等等,都能将写好的Servlet程序放在这些操作系统上执行,是真正的写一次,到处执行。另外Servlet功能强大,Servlet能完全发挥Java API的威力,想写网络目录查询程序,则可利用JNDI API,想连接数据库,则可利用JDBC等等。其次是性能,执行一次以后,会停留在内存中一段时间,当有相同的请求发生时,Servlet会利用不同的线程来处理,在性能上会有大幅的提升,而服务器会自动清除停留时间过长而且没有执行的Servlet,最后Servlet也有类型检查的特性,并且利用Java的垃圾收集与没有指针的设计,使得Servlet避免内存管理的问题。
2. jsp
为了弥补Servlet在开发Web-based系统不足的地方,JSP出现了。 JSP的出现大大简化了Servlet处理Web系统的工作量。
JSP是一种动态网页技术,即在传统的HTML里嵌入Java程序,客户端发出请求,服务器端执行,仅此而已。
3. JavaBean
JavaBean是一个可重复使用,且跨平台的软件组件,可以在JBuilder、eclipse等软件以可视化的方式来开发,它是一个类,并封装若干方法,当我们需要时,直接可以拿来用。
本系统中将jsp作为视图层,servlet作为控制层,javabean作为模型层,三者结合使用,取长补短,总的优点有如下几点:
1. 低耦合性
6
第六届浙江省大学生电子商务竞赛参赛作品
视图层和业务层分离,这样就允许更改视图层代码而不用重新编译模型和控制器代码,同样,一个应用的业务流程或者业务规则的改变只需要改动模型层即可。因为模型与控制器和视图相分离,所以很容易改变应用程序的数据层和业务规则。
2. 高重用性和可适用性
随着技术的不断进步,现在需要用越来越多的方式来访问应用程序。该架构允许使用各种不同样式的视图来访问同一个服务器端的代码。它包括任何WEB(HTTP)浏览器或者无线浏览器(wap),比如,用户可以通过电脑也可通过手机来订购某样产品,虽然订购的方式不一样,但处理订购产品的方式是一样的。由于模型返回的数据没有进行格式化,所以同样的构件能被不同的界面使用。例如,很多数据可能用HTML来表示,但是也有可能用WAP来表示,而这些表示所需要的命令是改变视图层的实现方式,而控制层和模型层无需做任何改变。
3. 较低的生命周期成本
使降低开发和维护用户接口的技术含量成为可能。
4. 快速的部署
使开发时间得到相当大的缩减,它使程序员(Java开发人员)集中精力于业务逻辑,界面程序员(HTML和JSP开发人员)集中精力于表现形式上。 5. 可维护性
分离视图层和业务逻辑层也使得WEB应用更易于维护和修改。 6. 有利于软件工程化管理
由于不同的层各司其职,每一层不同的应用具有某些相同的特征,有利于通过工程化、工具化管理程序代码
7
第六届浙江省大学生电子商务竞赛参赛作品
第3章 系统分析与设计
3.1需求分析
3.1.1 功能性需求分析
在一个基于内容检索的图像数据库中,用户可以根据自己定义的图像特征,查找类似或相关的图像。例如:服装设计师需要查找一些自己需要的服装样本:医学工作者需要从医学影像数据库中查找一些相关的病例资料;互联网爱好者可能需要在互联网上下载一些图像资料;文物工作者需要查找相关的文物图像资料;公安部门需要根据指纹、脚印等进行罪犯资料的查询;以及一些特殊环境里的电子锁装置(指纹识别、面容识别、掌纹等识别)等。
基于内容的网络商品图像检索系统是指用户提交一张商品图像,系统对该商品图像进行特征提取,用于检索的特征主要有颜色、纹理、形状、空间关系等,其中颜色、形状、纹理应用较为普遍,然后用提取出来的商品图像特征和商品图像库中商品图像的特征进行匹配,获得特征相符的图像集结果。
在进行图像查询时,图像的相似度是一个比较抽象的概念。它不像文字那样比较直观。在进行图像查询时,检索的结果在原则上应该达到人眼所能识别的程度。为了高效的进行图像查询,首先根据图像的自身信息,利用一些分析方法进行图像特征的提取,并将图像的特征信息存入图像数据库中。当这些图像由于需要被处理后,应该重新进行特征信息的抽取,并更新图像数据库中该图像对应的特征信息。在进行图像检索时,首先抽取被检索图像的特征信息,然后和图像数据库中图像的特征信息进行相似性比较。最后依据相似度的大小输出查询结果。这一查询技术是多学科结合的结果。具有较好的查询结果。
3.1.2 非功能性需求分析
1(用户界面需求
用户界面需求如表3.1所示。
8
第六届浙江省大学生电子商务竞赛参赛作品
表3.1 用户界面需求
需求名称 详细要求
合适性 界面风格应合乎形象以及系统本身的用途
简洁易用 界面应该简洁,不应花哨,使用户能够很快上手,各个操作均提供
帮助
一致性 保证系统各个窗体界面风格的一致
国际化 设计应考虑国内和国际语言和文化的差异
美观 界面应该专业美观
及时反馈信息 对于处理时间较长的操作,应有进度提示
功能屏蔽 对于不具备使用某功能权限的用户,系统对该功能进行屏蔽
2(系统质量需求
系统质量需求如表3.2 所示。
表3.2系统质量需求
主要质量属性 详细要求
正确性 系统的各项功能必须能够正确地运行
健壮性 具有一定容错功能,在出现系统死机或网络出现故障及其其他
问题时候,应能通过重新运行程序或者重启系统恢复到上次正
常运行时候的状态
可靠性 系统应能在相当长的时间内7*24小时运转 性能,效率 响应用户请求不应该超过10秒,超过的必须提供进度提示
易用性 操作应该简单方便
清晰性 各个模块之间的关系应该清晰,做到强内聚、低耦合
安全性 防止非法用户使用,对各级用户提供不同权限 可扩展性 系统必须易于扩展功能,便于以后升级
兼容性 兼容多种数据库
可移植性 可以移植到Linux或Unix系统之上
9
第六届浙江省大学生电子商务竞赛参赛作品
3.2系统设计
3.2.1总体结构设计
本系统主要实现以下功能:用户上传一张商品图像,然后系统对上传的商品图像进行特征提取,并与服务器中的已提取特征的商品图像集进行匹配,由系统查找与用户上传商品图像特征相似的商品图像,并返回给用户的系统。本系统总体框架结构如图3.1所示。
数据源 用户
预处理 查询接口
检索
特征提取 索引/过滤
目标库 特征库
特征提取子系统 查询子系统
网络爬虫、蜘蛛程序
图3.1 系统总体框架结构图
(1)查询接口
接收用户提交的查询商品图像,将查询请求传给检索模块进行操作。 (2)描述模块
将用户的查询要求转化为对图像内容的比较抽象的内容表达和描述,即通过图像的分析,从而以一定的、计算机可以方便表达的数据结构建立对图像内容的描述。这个模块在图像数据库建库时也需对每幅图像进行。 (3)检索匹配模块
10
第六届浙江省大学生电子商务竞赛参赛作品
检索是指利用特征之间的距离函数来进行相似性匹配,模仿人类的认知过程,可以从特征库中寻找匹配的特征,也可以临时计算对象的特征。该模块接收用户查询请求,对于文本的查询直接搜索关键字与图像描述,对于提交的图像通过提取其的特征和特征库中的图像进行匹配,查找出符合条件的图像集。向用户返回匹配的结果并显示。在图像库中搜索所需的图像内容。因为对被查询图像建立的表达描述也以对图像数据库中的图像建立了,所以将对查询图的描述与图像数据库中被查询的描述进行内容匹配和比较就可以确定它们在内容上的一致性和相似性。这个匹配的结果将传给提取模块。
(4)提取模块
根据匹配的结果在图像数据库中对感兴趣的图像定位,并在内容匹配的基础上将图像数据库中所有满足给定要求的图像自动地提取出来以让用户使用。如果事先对图像数据库建立了索引,这样在提取时就可提高效率。 3.2.2功能模块设计
本系统主要包括数据采集、数据检索、数据显示和推送服务等功能,具体功能模块结构如图3.2所示。
基于内容的网络商品图像检索系统
数据采集 数据检索 数据显示 推送服务
图3.2 系统功能模块结构图
(1) 数据采集
从网上采集相关商品图像以及商品信息。通过对采集的网页分析,进行正则表达式匹配,解析出Deep Web中网页中商品图像的实际URL,有效地实现视商品图像的自动批量下载。
(2) 数据检索
11
第六届浙江省大学生电子商务竞赛参赛作品
用户向系统提交一幅待查询的示例图像(又称关键图像),然后系统将用户提交的商品图像与本地商品图像库进行相似比较,检索出符合用户要求的商品图像及其信息。
(3) 数据显示
检索后系统将满足一定相似要求的图像集结果反馈给用户。搜索结果可以采用缩略图和列表两种显示方式,并可以按照相似度进行排序。 (4) 推送服务
通过分析用户历史操作记录,然后将其推送给系统服务器,服务器根据用户喜好对采集到的商品图像信息进行分析判断,并将符合条件的信息条目推送回客户。
3.2.3检索流程设计
图像检索子系统是整个系统的核心,系统根据用户提出具体的查询需求在图像数据库中进行检索,并将结果集返回给用户。这一阶段主要需要考虑的问题包括:用户需要的输入形式、特征向量的相似性匹配、检索结果的展示浏览、以及相关反馈的方式。因此图像检索子系统可以由查询接口,相似性匹配,结果浏览及相关反馈四个模块组成。图像检索的流程如图3.3所示。
12
第六届浙江省大学生电子商务竞赛参赛作品
开始
用户选择要匹配的图片
用户选择要查询的图片类型
提取用户图片特征向量 获取特征库中一幅图片的特征向量
相似性计算
数据库中还有
未搜索过的图
像,
返回相似度较高的图像
用户是否满
意,
结束
图3.3 图像检索流程
13
第六届浙江省大学生电子商务竞赛参赛作品
3.2.4 数据存储设计
本系统数据库语言采用Microsoft SQL Server 2005 ,数据库名为ImageSerch,共有ImageInfo数据表、Admin数据表、User数据表、ImageFeature数据表以及Matching数据表五张表。它们的关系如图3.4所示。
图3.4 数据表关系
ImageInfo数据表用来记录商品图像的各种信息,信息包括商品图像网站介绍,商品图像出处url,价格,产地,商家信息等。具体信息结构如表3.3所示。
14
第六届浙江省大学生电子商务竞赛参赛作品
表3.3 ImageInfo表
列名 数据类型 是否允许空 是否主键 备注
id int 否 是 表id
图像编号,对imageId int 否 否 应存储的图像
名称 name nvarchar(80) 是 否 图像网站介绍 url nvarchar(100) 是 否 图像出处url kind nvarchar(10) 是 否 类别 price nvarchar(20) 是 否 价格 production nvarchar(20) 是 否 货物产地 sex char(2) 是 否 物品男/女用 grade nvarchar(8) 是 否 商家等级
点击图像放大fullUrl nvarchar(210) 是 否 时显示图像的
url
该商品是否是describe char(1) 是 否 如实描述,0为
不是,1为是
该商品是否是retire char(1) 是 否 7天退换,0为
不是,1为是
Admin数据表用来记录管理员信息。具体信息如表3.4所示。
表3.4 Admin表
列名 数据类型 是否允许空 是否主键 备注
id int 否 是 表id adminName nvarchar(20) 是 否 管理员名 passWd nvarchar(20) 是 否 登录密码 regTime nvarchar(20) 是 否 注册时间
User数据表用来记录注册用户信息。具体信息如表3.5所示。
15
第六届浙江省大学生电子商务竞赛参赛作品
表3.5 User表
列名 数据类型 是否允许空 是否主键 备注
id int 否 是 表id userName nvarchar(20) 是 否 用户名 passWd nvarchar(20) 是 否 登录密码 regTime nvarchar(20) 是 否 注册时间
包括商品图像ImageFeature数据表用来记录各张商品图像的特征的信息,
特征对应的商品图像信息表中的id,特征内容,商品图像类别等。具体信息如表
3.6所示。
表3.6 ImageFeature表
列名 数据类型 是否允许空 是否主键 备注
id int 否 是 表id
图像特征对imageInfoid nvarchar(40) 是 否 应的图像信
息表中的id featureContent nvarchar(1000) 是 否 特征内容
kind nvarchar(20) 是 否 图像类别
提取特征时time nvarchar(20) 是 否 间
Matching数据表用来记录注册用户的历史搜索记录,为系统对用户个性化
设置提供数据基础。具体信息如表3.7所示。
表3.7 Matching表
列名 数据类型 是否允许空 是否主键 备注
id int 否 是 表id
userid nvarchar(40) 是 否 用户id
图像特征表imageFeatureid nvarchar(1000) 是 否 中的id
time nvarchar(20) 是 否 搜索时间
16
第六届浙江省大学生电子商务竞赛参赛作品
3.2.5算法设计
图像特征包括视觉特征和语义特征,如何实现这些特征的提取和表达是CBlR的基础和核心技术,特征选取的好坏对整个CBlR系统有着重要的影响。图像视觉特征包括颜色、纹理、形状、外观等。视觉特征又可分为一般特征和领域特征,前者包括颜色、纹理、形状和物体间方位关系等,而后者根据不同的应用有所不同,如人脸识别、指纹识别的专有特征等。本文中提到的特征都是视觉特征范畴中的一般特征。
对特征提取技术的基本要求是准确和快速,特征选取时要考虑下列四个原则:
(1)图像的区分能力:应能很好的区分视觉上差异较大的图像
(2)图像的描述能力:一次查询中能检索到的最大图像数(无关图像排除能力 (3)特征计算复杂度
(4)特征的存储空间需求
图像内容可以理解为一个简化了的层次模型,第一层为原始数据层,即图像的原始像素点;第二层为物理特征层,反映了图像内容的低层物理特征,如颜色、纹理、形状、轮廓、图像内容的空间关系和时间关系(对视频来说)等;第三层为语义特征层,是人们对图像内容概念性的反映,一般是对图像内容的文字性描述。图像特征的表示方法有三种:数值表示、关系表示和语义表示。譬如,图像的颜色可用R、G、B三种数值表示,图像中对象之间的位置关系就要用到关系表示,而语义表示方法需要对物体进行识别和解释,往往要借助人类的知识推理。采用的表示方式不同,查询时进行相似性比较的算法也不一样,如数值式的特征比较可采用多维空间中点的距离来计算。图像检索所用到的基本特征大多属于第二层特征,即颜色、纹理、形状、轮廓空间关系等等。
本系统涉及到的算法主要包括图像特征提取和相似度量两大部分。 1、 图像特征提取
图像特征的提取是基于内容的图像检索技术的基础。从广义上讲,图像的特征包括基于文本(语义)特征(如关键字、注释等)和视觉特征(如色彩、纹理、形状、对象表面等)两类。在本项目中,主要针对图像视觉特征进行提取和表达。视觉特征又可分为通用的视觉特征和领域相关的视觉特征。前者用于描述所有图像共有的特征,与图像的具体内容无关,主要包括色彩、纹理和形状;后
17
第六届浙江省大学生电子商务竞赛参赛作品
者则建立在对所描述图像内容的某些先验知识(或假设)的基础上,与具体的应用紧密有关,例如人的面部特征或指纹特征等。由于领域相关的图像特征主要属于模式识别的研究范围,在此我们就不再详述,而只考虑通用的视觉特征。
对于某个特定的图像特征,通常又有多种不同的表达方法。由于人们主观认识上的千差万别,对于某个特征并不存在一个所谓的最佳的表达方式。事实上,图像特征的不同表达方式从各个不同的角度刻画了此特征的某些性质。下面分为颜色、纹理和形状特征三部分介绍。
(1)颜色特征
颜色特征是在图像检索中应用最为广泛的视觉特征,主要原因在于颜色与图像中所包含的物体或场景紧密相关。此外,与其他的视觉特征相比,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的鲁棒性。在提取颜色特征时,我们首先需要选择合适的颜色空间来描述颜色特征,然后采用一定的量化方法将颜色特征表达为向量的形式,最后定义一种相似度(距离)标准用来衡量图像之间在颜色上的相似性。在本节中,我们将主要采用颜色直方图作为颜色特征的表示方法。
颜色直方图是在许多图像检索系统中被广泛采用的颜色特征。它所描述的是不同色彩在整幅图像中所占的比例,而并不关心每种色彩所处的空间位置,即无法描述图像中的对象或物体。
颜色直方图可以是基于不同的颜色空间和坐标系。最常用的颜色空间是RGB颜色空间,原因在于大部分的数字图像都是用这种颜色空间表达的。然而,RGB空间结构并不符合人们对颜色相似性的主观判断。因此,我们采用基于HSV空间、Luv空间和Lab空间的颜色直方图,因为它们更接近于人们对颜色的主观认识。其中HSV空间是直方图最常用的颜色空间。它的三个分量分别代表色彩(Hue)、饱和度(Saturation)和值(Value)。从RGB空间到HSV空间的转化公式如下所示:
18
第六届浙江省大学生电子商务竞赛参赛作品
v,max(r,g,b),,s,[v,min(r,g,b)]v,,5,bif r,max(r,g,b) and g,min(r,g,b),,,,,1,gif r,max(r,g,b) and g,min(r,g,b),,,,,1,rif g,max(r,g,b) and b,min(r,g,b),h,,,,3,bif g,max(r,g,b) and b,min(r,g,b),,,,,3,gif b,max(r,g,b) and r,min(r,g,b),,,,,5,rotherwise ,,,,,,,r,v,r v,min(r,g,b),,,,,,,g,v,g v,min(r,g,b),,,,,,b,v,b v,min(r,g,b), (1) 其中r, g, b , [0 … 1], h , [0 … 6],且 s, v , [0 … 1]。
计算颜色直方图需要将颜色空间划分成若干个小的颜色区间,每个小区间成为直方图的一个bin。这个过程称为颜色量化(color quantization)。然后,通过计算颜色落在每个小区间内的像素数量可以得到颜色直方图。颜色量化有许多方法,例如向量量化、聚类方法或者神经网络方法。最为常用的做法是将颜色空间的各个分量(维度)均匀地进行划分。相比之下,聚类算法则会考虑到图像颜色特征在整个空间中的分布情况,从而避免出现某些bin中的像素数量非常稀疏的情况,使量化更为有效。另外,如果图像是RGB格式而直方图是HSV空间中的,我们可以预先建立从量化的RGB空间到量化的HSV空间的查找表,从而加快直方图的计算过程。
(2)纹理特征
纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征。它是所有物体表面共有的内在特性,例如云彩、树木、砖、织物等都有各自的纹理特征。纹理特征包含了物体表面结构组织排列的重要信息以及它们与周围环境的联系,在基于内容的图像检索中得到了广泛的应用。用户可以通过提交包含有某种纹理的图像来查找含有相似纹理的其他图像。在本节中,我们将着重介绍在基于内容的图像检索中采用的Tamura纹理特征。
1)Tamura纹理特征
基于人类对纹理的视觉感知的心理学的研究,Tamura等人提出了纹理特征的表达。Tamura纹理特征的六个分量对应于心理学角度上纹理特征的六种属性,分别是粗糙度(coarseness)、对比度(contrast)、方向度(directionality)、 线
19
第六届浙江省大学生电子商务竞赛参赛作品
像度(linelikeness)、规整度(regularity)和粗略度(roughness)。其中,前三个分量对于图像检索尤其重要。
?粗糙度:粗糙度的计算可以分为以下几个步骤进行。首先,计算图像中大小为k , k个像素的活动窗口中像素的平均强度值,即有
k,1k,1y,2,1x,2,12kA(x,y),g(i,j)2,,kk,1k,1i,x,2j,y,2 (2) 其中k = 0, 1, …, 5 而g(i, j)是位于(i, j)的像素强度值。然后,对于每个像素,分别计算它在水平和垂直方向上互不重叠的窗口之间的平均强度差。
k,1k,1,E(x,y),A(x,2,y),A(x,2,y)k,hkk,,k,1k,1E(x,y)A(x,y2)A(x,y2),,,,,k,vkk, (3) 其中对于每个像素,能使E 值达到最大(无论方向)的k 值用来设置最佳尺寸
kS(x,y),2。最后,粗糙度可以通过计算整幅图像中Sbest的平均值来得到,best
表达为
mn1,FS(i,j)crsbest,,,mn,,11ij (4)
粗糙度特征的另一种该进形式是采用直方图来描述Sbest的分布,而不是像上述方法一样简单地计算Sbest的平均值。这种改进后的粗糙度特征能够表达具有多种不同纹理特征的图像或区域,因此对图像检索更为有利。 ?对比度:对比度是通过对像素强度分布情况的统计得到的。确切地说,它是通过来定义的,其中是四次矩而 是方差。对比度是通过如下公式衡量的:
,F,con1/4,4 (5) 该值给出了整个图像或区域中对比度的全局度量。
?方向度:计算方向度的需要计算每个像素所在位置上的梯度向量。该向量的模和方向分别定义为:
,,,,,,,2GHV
,1,tan,,,,,2,,VH (6)
20
第六届浙江省大学生电子商务竞赛参赛作品
其中,H 和 ,V 分别是通过将图像和下列两个3x3操作符进行卷积操作所得的水平和垂直方向上的变化量。
111,101
000,101
,101,1,1,1
当所有像素的梯度向量都被计算出来后,一个直方图HD被构造用来表达, 值。该直方图首先对, 的值域范围进行离散化,然后统计了每个bin中相应的|,G|大于给定阈值的像素数量。这个直方图对于具有明显方向性的图像会表现出峰值,对于无明显方向的图像则表现得比较平坦。最后,图像总体方向性可以通过计算直方图中峰值的尖锐程度获得,表示如下:
np2,,F,,H(),,,dirpD,,,,pwp (7) 上式中的p代表直方图中的峰值,np为直方图中所有的峰值。对于某个峰值p,Wp 代表该峰值所包含的所有的bin,而 ,p 是具有最高值的bin。 (3)形状特征
物体和区域的形状是图像表达和图像检索中的另一重要的特征。不同于颜色或纹理等底层特征,形状特征的表达必须以对图像中物体或区域的划分为基础。由于当前的技术无法做到准确而鲁棒的自动图像分割,图像检索中的形状特征只能用于某些特殊应用,在这些应用中图像包含的物体或区域可以直接获得。另一方面,由于人们对物体形状的变换、旋转和缩放主观上不太敏感,合适的形状特征必须满足对变换、旋转和缩放无关,这对形状相似度的计算也带来了难度。
通常来说,形状特征有两种表示方法,一种是轮廓特征的,一种是区域特征的。前者只用到物体的外边界,而后者则关系到整个形状区域。本项目采用傅立叶描述符。
1)傅立叶形状描述符
傅立叶形状描述符(Fourier shape descriptors)的基本思想是用物体边界的傅立叶变换作为其形状描述。假设一个二维物体的轮廓是由一系列坐标为(xs, ys)的像素组成,其中0 , s , N-1,而N是轮廓上像素的总数。从这些边界点的坐标中可以推导出三种形状表达,分别是曲率函数、质心距离和复坐标函数。
21
第六届浙江省大学生电子商务竞赛参赛作品
轮廓线上某点的曲率定义为轮廓切向角度相对于弧长的变化率。曲率函数K(s) 可以表示为:
dK(s),,(s)ds (8) 其中,(s) 是轮廓线的切向角度。质心距离定义为从物体边界点到物体中心(xc, yc)的距离,如下所示:
22R(s),(x,x),(y,y)scsc (9) 复坐标函数是用复数所表示的像素坐标:
Z(s),(x,x),j(y,y)scsc (10)
对这种复坐标函数的傅立叶变换会产生一系列复数系数。这些系数在频率上表示了物体形状,其中低频分量表示形状的宏观属性,高频分量表达了形状的细节特征。形状描述符可以从这些变换参数中得出。为了保持旋转无关性,仅仅保留了参数的大小信息,而省去了相位信息。缩放的无关性是通过将参数的大小除以DC分量(或第一个非零参数)的大小来保证的。请注意变换无关性是基于轮廓的形状表示所固有的特点。
对于曲率函数和质心距离函数,我们只考虑正频率的坐标轴,因为这时函数的傅立叶变换是对称的,即有 |F-i| = |Fi|。基于曲率函数的形状描述符表示为
,,f,F,F,...,FK12M2 (11) 其中Fi表示傅立叶变换参数的第i个分量。类似的,由质心距离所导出的形状描述符为
,,FFFM212,,f,,...,,R,,FFF000,, (12)
对于复坐标函数,正频率分量和负频率分量被同时采用。由于DC参数与形状的所处的位置有关而被省区。因此,第一个非零的频率分量被用来对其它变换参数进行标准化。复坐标函数所导出的形状描述符为
,,FFFF,(M2,1)M2,12,,,f,...,,,...,Z,,FFFF1111,, (13)
22
第六届浙江省大学生电子商务竞赛参赛作品
为保证数据库中所有物体的形状特征都有相同的长度,在实施傅立叶变换之前需要将所有边界点的数目统一为M。例如 M可以取为2n = 64,这就可以采用快速傅立叶变换来提高算法效率。
2. 相似度量
图像的相似性度量,是基于内容的图像检索技术中一个关键问题。它是建立在图像内容的基础上,由图像内容的相似度得到图像相似度的一种比较方法。
描述图像颜色特征的方法有直方图和颜色句柄。设描述图像特征的颜色句柄,{(pw)|p=1,…,N}表示颜色,p=(R,G,B)在图像中包含w个像素点。 i,iiiii
数据库内图像颜色句柄的长度N一般是不同的,每幅图像颜色句柄的长度由图像本身的内容决定。直方图同颜色句柄有相同的表示形式,但对所有的图像而言,直方图对颜色空间的划分是一致的。
图像的相似性测量用图像之间的距离表示。距离越大,图像之间的差别越大。
2反之亦然。距离有Minkowski距离、χ统计距离,二次距离等。但是就本质而言, 这些方法可以被分成两类:一一映射法和交叉映射法。一一映射法测距公式可以 用下式表示:
D(H,K)=DISTANCE(h,k) (14) ii,i
其中H和K分别代表两幅图像的直方图或颜色句柄,并且两幅图像直方图簇数或颜色句柄的长度一定相等,对应簇h和k之间的距离称为基本距离。常用的ii
属于一一映射法的距离有:
Minkowski距离:
1ppd,HKhk,, (15),,,,,mii
交集距离:
min,hk,,,iii (16) d,1HK,,,,nk,ii
Kullback-Leibler距离:
hid,logHKh, (17) ,,,KLikii
23
第六届浙江省大学生电子商务竞赛参赛作品 χ2统计距离:
2hm,,,ii (18) d,HK,,,2,xmii
其中m(h+k)/2属于交叉映射法的距离,其通用的表达式表示为: i=ii
(19) d,,HKDISTANCEhk,,,,,,,xiiij
T二次距离:d(H,K)= (h - k) A(h - k),其中矢量h和k分别代表直方图或2
颜色句柄中的簇矢量,矩阵A=[a],a定义第i簇和第j簇之间的距离。 ijij
本系统采用欧式距离作为特征相似度量的尺度。给定两个高维特征向量:X(x1,x2,…,xd), Y(y1,y2,…,yd),则其欧式相似距离为:
222DistXYxyxyxy(,)()()...(),,,,,,,dd1122 (20)
24
第六届浙江省大学生电子商务竞赛参赛作品
第4章 系统实现
本系统为用户提供了一个快速查找网络商品的平台。系统开发环境采用Microsoft Windows XP,开发工具采用MyEclipse 8.5,以及Microsoft Visual C++
6.0。系统架构采用B/S结构,其中图像数据相关信息的存储和管理采用Microsoft SQL Server2005数据库。本系统主要支持JPG格式图像的检索。
下面从数据采集模块、数据检索模块、数据显示模块、数据推送模块四个方面详细介绍基于内容的图像检索系统的实现。
4.1 数据采集模块
通过对采集的网页分析,进行正则表达式匹配,解析出Deep Web中网页中商品图像的实际URL,有效地实现视商品图像的自动批量下载。信息采集的流程如图4.1所示。
预先设定的Url种子
基于正则表达式
匹配的图像采集 获取 网页机器人商品图商品图像 Deep Web (Crawler) 像网页
图4.1 基于Deep Web的商品图像信息采集流程
由于主要的信息内容为各商品图像的详细信息,因此在对网络上大多数产品展示及交易的网站,要进行筛选,应遵循以下准则:
1)网站信息量要足够大;
2)网页结构简单,不会经常变化,这有利于对信息的整合;
3)尽量避免动态网页,因为动态网页的内容是在浏览网页时生成的,爬虫程序获取网页信息比较困难。
信息采集方式包括人工采集和自动采集,也可以通过人工设定网址和网页分析url方式共同进行。本系统数据采集模块实现采用网页机器人(Crawler)。 机器人实际上是一些基于Web的程序,通过请求Web站点上的HTML网页来对采集该HTML网页,它遍历指定范围内的整个Web空间,不断从一个网页转到另一个网页,从一个站点移动到另一个站点,将采集到的网页添加到网页数据库中。机器人每遇到一个新的网页,都要搜索它内部的所有链接,所以从理论上
25
第六届浙江省大学生电子商务竞赛参赛作品
讲,如果为机器人建立一个适当的初始网页集,从这个初始网页集出发,遍历所有的链接,机器人将能够采集到整个Web空间的网页。网络机器人原理示意图如图4.2所示
初始的
Url库
抢先式多线 高效率的调
程技术 度算法
一定时间内收集到最大
数量的商品图片信息
图4.2 网络机器人原理示意图
机器人的运行方式为:从一组初始的URL集开始遍历,首先将一个URL放入队列中,队列中记录所有将被访问的URL及访问顺序。spider从队列中抽取一个URL,下载页面,记录该URL 所指HTML文件中所有新的URL并将其加入队列中。然后再以这些新的URL为起始点重复上述过程,直到没有满足条件的新URL为止。在遍历web 的过程中,spider 通常将web作为一个有向图来处理,将每一个页面看作图的一个节点,将页面中的超级链接看作有向图中的边,于是可以使用有向图的遍历算法来对web 进行遍历。具体数据采集流程如图4.3所示。
26
第六届浙江省大学生电子商务竞赛参赛作品 开始
初始化
Url队列
将Url种子集 获取新Url 加入队列
待处理队列
待处理
队列为空
是
是否满足 否 是 结束条件
结束 是 否
是 建立多线程 下载网页 是否相关
Url是否 抓取网页 否 访问过
否 抓取成功
相关度分析 是
图4.3 信息采集过程
27
第六届浙江省大学生电子商务竞赛参赛作品
4.2 数据检索模块
在本系统中涉及的数据有:图像数据,图像特征数据和其它数据。
图像数据的存储有两种策略:一是把图像数据整体存入数据库;二是用文件管理的方式,图像数据仍然存放在原来的文件系统中。前一种策略便于图像数据的管理,图像数据的安全性得到了保障,但是同时给数据的存取带来了麻烦,而且图像数据只是非结构数据,对其的操作依赖于应用程序本身。
另外图像数据都存入数据库中数据库会变得非常庞大,使得图像的检索过程中,开销大且对图像数据的操作效率低。而第二种策略,在数据库中通过存储图像数据的路径来管理图像,减小了系统开销,也便于图像显示。因此系统采用第二种方法来管理图像数据。在编程实现图像显示时,只要知道图像数据的路径和文件名称,就可以通过相关函数方便的显示图像。
本系统中图像特征数据包括各个分块的颜色直方图和颜色布局特征。在检索中要进行实时的匹配,需要直接从特征文件中读取图像的特征数据,所以每个分块的颜色直方图数据和颜色布局特征都必须存储在特征文件中。
其它数据包括图像的文件名、图像的来源、图像的类别等等,这些数据与图像的路径等信息一起存放在数据库中。
数据检索模块由查询接口,相似性匹配2个子模块组成。
查询接口模块负责用户以什么样的方式输入,通常输入形式有很多种,如利用查询语言SQL、直接给定图像特征数值、给定待查询图像的类似图像、手绘描述待查询图像等等。本系统采用例子图像查询作为用户需求的输入方式。该方法让用户向系统给出一幅待查询的示例图像(又称关键图像),系统先对示例图像提取其特征向量,然后系统将示例图像提取其特征向量,然后系统将示例图像与图像数据文件中的图像特征向量进行相似度匹配。系统主界面如图4.4所示。
28
第六届浙江省大学生电子商务竞赛参赛作品
图4.4 系统主界面
系统主界面总体分上中下三部分,主部分由logo和搜索功能块组成,用户可以点击浏览按钮选择本地要搜索的商品图像进行上传,如果想得到更精准的结果,可以在类型中选择要搜索物品的类型,减少搜索范围,默认是在全部类别里面进行搜索。
4.3 数据显示模块
数据显示模块负责将相似性计算后图像数据库中每个图像与示例图像的相似度值进行匹配,然后将相似的图像显示给用户。搜索结果可以采用缩略图和列表两种显示方式。具体结果显示界面如图4.5所示。
29
第六届浙江省大学生电子商务竞赛参赛作品
图4.5 结果浏览界面
该界面的左侧为用户上传的商品图像,经过一定缩放处理后显示,右侧为搜索结果,结果信息包含了物品的价格,产地,商家的等级,信用保证,以及物品的名称等信息,用户可以直接点击商品图像跳转到相应的商铺中进行操作。用户可以通过点击显示方式动态的改变结果的显示方式,方便不同用户的浏览习惯。列表形式显示结果的界面如图4.6所示。
30
第六届浙江省大学生电子商务竞赛参赛作品
图4.6 不同效果的浏览界面
如果用户对搜索结果不满意,用户则可以通过调节相似度匹配值进行调整重新过滤结果。用户也可以点击相似度按钮,对搜索的结果进行以相似度大小为依据的结果排序显示。过滤排序界面如图4.7所示。
图4.7 过滤排序界面
用户在搜索结果区中用户在搜索结果中还可以点击商品图像左上角的按钮,进行商品图像放大操作,以便更细致的观察细节,确定是否是自己要找的物品。界面如图4.8所示。
31
第六届浙江省大学生电子商务竞赛参赛作品
图4.8 商品图像放大浏览界面
如果用户想对自己提交的商品图像进行进一步的精确搜索,用户可以点击预览图下的细节搜索按钮,对上传的商品图像进行重点细节截取,然后在全图搜索的结果集中再进行搜索,细节搜索界面如图4.9所示。
32
第六届浙江省大学生电子商务竞赛参赛作品
图4.9 细节搜索界面
如果没有商品图像与用户提交的商品图像相似,则返回无结果界面如图4.10所示。
图4.10 无结果浏览界面
用户通过浏览界面浏览到系统返回的与示例商品图像相似的商品图像。如果用户对返回的结果不满意,用户可以重新提交商品图像,然后在搜索类型中选择
33
第六届浙江省大学生电子商务竞赛参赛作品
搜索类型,这样可以减少搜索范围,大幅度提高搜索结果的精准性,若用户得到一个较为满意的结果,则检索完毕。
4.4 数据推送模块
通过用户的检索记录分析用户喜好,然后将其推送给系统服务器,服务器根据用户喜好对采集到的商品图像信息进行分析判断,并将符合条件的信息条目推
客户。主动个性化推送过程图如图4.11所示。 送回
定制请求 订阅库
互联网 发
送
定
制
请
求
信息推送 推 数 发送请求 送据
服服
务务
返回结果 器 器
图4.11商品图像信息主动个性化推送
系统个性化推送界面如图4.12所示。
34
第六届浙江省大学生电子商务竞赛参赛作品
图4.12商品图像信息主动个性化推送
用户进行搜索后,在搜索结果区,系统会自动的根据用户历史的搜索记录,自动的为用户推送相关商品图像,并在您可能感兴趣的商品区中展示给用户。
35
第六届浙江省大学生电子商务竞赛参赛作品
第5章 盈利模式与市场营销推广策略
5.1 目标市场
随着近年来,网上购物行业飞速发展,其独特的营销风格,迎合了现代人快节奏的生活方式,网络购物规模不断扩大,根据统计,目前淘宝已经有超过300万家商户,在线超过3亿件商品,这就给在线商品图像搜索带来了巨大的市场机遇。根据艾瑞的统计,2009年购物搜索市场规模已经超过11亿,而且随着网购交易规模的发展,增速也越来越快。因此在互联网上海量的商品找到自己所感兴趣的商品也就更加困难,然而这对网络商品图像搜索的发展创造了一个良好的空间。基于内容的网络商品图像检索系统的建立迎合了市场趋势,满足了当前电子商务行业对网络商品图像搜索的需求。
5.2 盈利模式
盈利模式是每个项目的生存之本。本项目的主要盈利在于广告费和商家商品推送费。本系统在建设初期,明确盈利方向,以此建立起一个良性正向循环的商业模式。在系统建立之初,由内容和技术开始,吸引足够多的用户进而形成品牌效益,然后先通过广告形式赚取一定费用,并将利润再投入内容和技术,继续吸引用户。在品牌效应形成之后,通过收取商家的一定费用,在为用户推送商品时优先推送付费商家的商品,形成一个良性循环。
本项目的盈利模式与现有搜索系统一样,是若干盈利模式的组合,如消费者免费、商家支付广告费用,即CPS+CPC的组合等。
(1)CPS(成交返佣模式)+ CPC(点击广告付费模式)
CPS是由于本项目由于不掌握实际的生产资源,佣金模式就成为主要的盈利方式之一,即商家无需先付费,在搜索为其带来买家购买商品后,按照商品成交额的一定比例支付佣金。
随着网络的日益普及,网络服务收取佣金的现象也更加普遍,比如淘宝网的支付宝,对于淘宝网和阿里巴巴的注册用户是免费的,而对于两个网站之外的用户,支付宝会按交易额对其收取佣金。事实上,因为支付宝交易的安全性,许多网站接受其为自己的支付工具,比如瑞星杀毒软件就接受支付宝的网上支付,支付宝提供给第三方使用提取的佣金,据称每年在100 万元以上。
36
第六届浙江省大学生电子商务竞赛参赛作品
CPC是指广告主预存一定费用,按消费者点击广告的次数进行付费。广告主可自行控制点击价和推广费用,引擎根据其点击价进行广告位置排序,最后按点击量进行广告费用结算。
(2)有偿发布模式
有偿发布是指本项目提供信息发布功能,但在发布信息时,是要付费的。通过对发布的信息收费,达到盈利的目的。有偿发布商业信息主要是指商业广告。2010 年11 月16 日,新浪网发布了其第三季度未经审计的财务报告。在截至2010 年9 月30 日的第三季度中,新浪净收入达10824.6 万美元,较去年同期增长16%;其中广告收入8099.4 万美元,占净收入的75%。由此可见,广告收入在门户网站的收入中占有很大比重。
本项目也通过有偿发布商业信息获得盈利,中小企业或者一些其它网站可以针对性地选择本系统直接投放广告。广告投放的位置可以采取竞价的方式进行,实现投放广告的企业获得更好的广告效益和本系统获得更高的盈利的双赢效果。例如广告主20元/1000IP。
(3)商家商品推送模式
本系统因其具有其他搜索系统不具备的商品推送功能,根据用户的搜索历史,自动的推送相关的用户可能感兴趣的商品给用户,而在推送过程中,可以根据商家的付费情况,类似于竞价排名,付费多的商家商品优先推送给用户,提高商家买卖的成功率。
5.3系统推广策略
基于内容的网络商品图像检索系统主要是为了提供海量商品图像的有效索引。本项目可以与一些电子商务网站合作,在知名电子商务网站上进行推广。搜索系统的目标是广大网购用户,在推广策略上应该抓住用户的索引需求,从而吸引更多的用户了解和使用基于内容的网络商品图像检索系统。
根据系统建设目标,将基于内容的网络商品图像检索系统的推广计划分为起步期、发展期、成熟期3个阶段。在三个阶段内的推广策略如图5.1所示。
37
第六届浙江省大学生电子商务竞赛参赛作品
起步期起步期发展期发展期成熟期成熟期1.1.国内外搜索引擎登录国内外搜索引擎登录1.1.贴吧及交流群推广贴吧及交流群推广1.1.友情链接策略友情链接策略2.2.导航站收录导航站收录2.2.口碑推广口碑推广2.2.利用免费资源利用免费资源
3.Blog3.Blog推广推广
4.4.邮件推广邮件推广
5.BBS5.BBS推广推广
图5.1 推广过程图
在推广初期,进行国内外搜索引擎登录和导航站的收录。本阶段主要为基于内容的网络商品图像检索系统的外部链接及反向链接数目的增加,目的是为了提高本项目较其他搜索引擎的有效性和总体排名。
众所周知,搜索引擎搜集的网页数量是十分庞大的,每一个关键词都对应着很多的搜索结果,显然排名靠后的结果很难被用户所注意,所以提高项目的排名是至关重要的。在本系统投放初期,运用竞价排名的方式可以快速提高其知名度。比如baidu,google这样有偿发布商业信息的订购方式,当用户搜索到相应的关键字时,百度可以保证付费的信息出现在第一页或是特定的较为靠前的位置,等知名度提高后转战其它方式。
针对性地对基于内容的网络商品图像检索系统进行优化后,便可开始全方位的外部推广,即开始向国内外搜索引擎及各大分类目录平台提交收录,为基于内容的网络商品图像检索系统争取更多的搜索来源。
在发展期,进行搜索引擎整合推广。在垂直搜索引擎拥有一定量的用户群后,有针对性地对用户群进行广泛的宣传是提升知名度的重要渠道,包括建立Blog、BBS、邮件营销、软文推广、网络广告及部分活动宣传等。有效内容的宣传在拥有稳定的流量之前是持续的,也是吸引有效用户的最直接的手段,是搜索引擎发展的重要动力。
(1)贴吧及交流群推广
38
第六届浙江省大学生电子商务竞赛参赛作品
包括百度贴吧、百度知道、雅虎知识堂、新浪爱问、QQ交流群、MSN交流群等及时性的推广渠道。目前来说,该宣传渠道是推广成本最低、效果最高的手段,百度贴吧、百度知道、百度百科等推广更容易被百度搜索引擎所收录,且排名更加靠前。
(2)口碑推广
即通过提高用户满意度,让用户主动为平台做推广,制造出一种广泛的口碑营销,这也是最为有效的推广方式之一。常用的方法有:
1)利用各种免费服务,如商品的推送功能,利用这些公司的口碑一传十,十传百达到病毒性营销的目的。
2)制作带有基于内容的网络商品图像检索系统的文字、Logo、地址等独有标记的桌面、壁纸、宣传视频等供用户免费下载,能够更迅速被网络流传。 (3)Blog推广
如今Blog不仅是人们进行深度沟通交流的方式,还可以被视为个人媒体、个人网络导航和个人搜索引擎。Blog作为推广工具的主要工作内容为:
1) 建立以基于内容的网络商品图像检索系统命名的Blog空间,并将用户名称设定为具有推广作用的代表性文字。
2)定期在Blog中发布基于内容的网络商品图像检索系统相关的日志内容,如最新网络商品图像、介绍性文字等;
3) 在各文章日志中加入本系统相关内容的关键词或与Blog背景色相同的地址链接,提高本系统的搜索率和点击率。
4) 建立相关的交流群体,在小圈子中适当进行口碑宣传。 (4)邮件推广
在进行邮件推广时,首先需要对推广的对象进行一些针对性的考核,不能盲目的选择邮件发放对象。我们可以从用户需求层面着手,从其他电子商务网站,或相同互补类型网站中寻找有需要信息化服务的用户,有的放矢的工作才能发挥最大的效果。
邮件广告具体是指针对不同需求的用户,如有需要展示网络商品图像的用户、有网购需求的用户、有需要寻找网络商品的用户制作不同的邮件内容,针对其需求详细介绍基于内容的网络商品图像检索系统所提供的服务。邮件最好采用
39
第六届浙江省大学生电子商务竞赛参赛作品
HTML格式,排版一定要清晰,并在页面中加入链接,诱发用户点击,使其产生使用本搜索引擎的兴趣。
到达成熟期后,主要推广策略包括友情链接、渠道网站联盟等。如何将搜索引擎现有的资源整合发展起来是推广的关键。
(1)友情链接策略
网站链接的相关性是搜索引擎提升网站知名度的重要指标。建立友情链接可以增加有效外部链接和反向链接,更加容易让客户找到我们的平台。而友情连接并不是说越多越好,这也必须把握好一定的尺度。可供选择的友情链接网站有:
1)已经加入搜索引擎分类目录的相关网站、所有主要搜索引擎中与行业相关的网站,都是理想的链接对象。
2)与竞争对手链接的相关网站。
3)容易被找到的相关网站:如淘宝网、当当网、卓越网等电子商务相关网站。
(2)利用免费资源
除了免费登录搜索引擎之外,免费公告板、免费分类广告等都是可以利用的宣传机会。例如:
1)免费信息发布
信息发布是免费的平台推广的常用方法之一。将有关的平台推广发布在其他潜在用户可能注意的网站上。适用于本搜索引擎信息发布的平台有在线黄页、分类广告、供求信息匹配平台、行业网站等。
2)快捷网址推荐
合理利用网络实名、通用网址以及其它类似的关键词网站,以快捷访问方式来实现垂直搜索引擎的推广。快捷网址使用自然语言和网站URL建立其对应关系,这对习惯于使用中文的用户来说提供了极大的便利,用户只需输入更加容易记忆的快捷网址就可以访问该网站。
40
第六届浙江省大学生电子商务竞赛参赛作品
第6章 财务分析
搜索系统建立初期所筹集的资金主要用于系统平台建设,系统推广营销,系统维护费用三个方面。
6.1搜索系统建设成本
搜索系统建设成本是指搜索系统建设初期发生的建设费用, 可分为硬件成本、软件成本和其它成本等。费用确定的依据为网上相关设备的报价,以及参考其他搜索系统的费用标准。
系统硬件和软件费用 (1)搜索
通过相关资料的收集以及网上询价,基于内容的网络商品图像检索系统网站在建设时所要用到的硬件和软件及其费用估测如表6.1所示。每年计算相关资产的折旧费用,计入营业费用。
表6.1 搜索引擎软件与硬件费用
IBM SYSTEM X3610 13500 硬服务器
27000 路由器 Juniper J2350(包转发率750Mpps) 件
30000 宽带 10M带宽光纤接入
12271 软操作系Windows Server 2003 简体中文版(含10个客户端访问许件 统 可) 12562 数据库 SQL Server 2005 简体中文版(含10个客户端访问许可)
Microsoft visual Studio 2005 7000 开发平
台 32000 防火墙 CISCO ASA5520-BUN-K9
(**/280000/450Mbps/console) 杀毒软瑞星2011 免费
134333总 件
3 计 金额单位:元 合(2)技术人员工资
计 技术人员工资初步定为3000元/每月,随着搜索系统的投入,再根据系统收益情况,对技术人员进行加薪,该部分费用计入管理费用。 6.2搜索引擎运行维护成本
41
第六届浙江省大学生电子商务竞赛参赛作品
搜索系统运行维护成本是指系统建成投入使用后, 为保障其正常运行需向网络管理机构支付的运行费用以及系统的技术维护和管理费用, 包括搜索系统管理维护人员经费、搜索系统设备更新以及其他开支等。
搜索系统维护人员由技术开发人员担任。搜索系统硬件与软件更新费用平均每年10000元,该部分费用计入营业费用。
6.3搜索系统宣传推广成本
搜索系统宣传推广成本是指在搜索系统投入建成后对搜索系统进行宣传所带来的成本,不同的宣传方式所产生的成本各有不同,我们主要采用媒体推广和关系推广方式。每年的搜索系统推广费用5万维持不变,该部分费用计入每年的营业费用。
42
第六届浙江省大学生电子商务竞赛参赛作品
第7章 风险及对策
众所周知,风险是无处不在的。我们的项目在实施的时候,可能会遇到各种各样的问题和风险。这就要求我们必须提前预测出可能出现的问题并做好相应的对策,来应对各方面的挑战。
7.1 市场风险及对策
(1)风险
市场风险主要表现为需求量不及预期。项目在运营初期可能会吸收不到足够的商家和广告加盟商,然而他们对于引擎的成长、赢利至关重要。此外由于一些网民不愿接受新事物,一个新的搜索引擎可能会遇到不愿意使用的用户,这就成为系统进一步进入市场的障碍。
(2)对策
如果没有广告收入,此行业是没有生存空间的。所以应对广告和用户体验进行综合调整,尽可能让广告客户获得广告效益,又使得用户获得满意的搜索结果。可以对用户在查询结果出现后的浏览行为和关键词输入进行记录,并进行有效整理统计分析,进而根据所获得的相关数据进行二次应用。可以据此对查询结果进行重新排序,把和用户兴趣相似度高的排列在前面,以此来缓解竞价排名带来的负面影响。
为了提高系统的普及率,需要加强与用户的沟通,做好广告工作,教会用户最基本的使用方法。要利用各种资源进行品牌推广建设,通过让用户试用我们的系统进而成为会员。同时做好系统的实时更新,这是提高用户满意度和忠诚度的最有效方法。
7.2 技术风险及对策
(1)风险
基于内容的网络商品图像检索系统,利用图像特征匹配进行搜索,需要找到精确的匹配方法与相关性算法,较基于关键字的文本搜索难度更大,更具动态性与不确定性。
43
第六届浙江省大学生电子商务竞赛参赛作品
此外在硬件规划与采购方面可能会有硬软件不兼容的情况,这会使最终设计出来的系统不能使用。所以在设计过程中要详细规划硬软件的采购要求再采取购买行动。
(2)对策
图像的匹配方法与相关性算法需要该行业专业人士进行确定。通过本地不对调试,已达到搜索的预期目标,满足用户需求。
7.3 项目风险及对策
(1)风险
一个新型搜索系统的开发与推广是需要资金的,然而若是在这个过程中遇到挫折或者走入岔路,通常会造成费用超支。同时不可避免流动性风险的存在,这就面临着资金周转不灵被迫破产的风险。
(2)对策
应对财务风险最好的方法就是加强成本控制与管理以缓解造成的损失,在正常工作中节省开支,以便更灵活地应对一些意外的支出,使资金周转更灵活,尤其注意应收账款及应付账款的管理,以缩短现金转换循环为最高目标。 7.4 竞争风险及对策
(1)风险
虽然本项目在创新理念上具有优势,且专注网络商品图像搜索这一细分市场,但仍面临技术壁垒被突破、更有竞争力的新技术的研发成功和潜在竞争者出现的风险。而且传统的通用搜索引擎在市场上已经占有半壁江山,与其竞争具有一定风险。
(2)对策
需要不断加大资金投入,保持研发团队的科研活力,坚持不断创新,并保证系统的绝对安全性和易使用性,加强对会员及广告加盟商以及商家的管理,努力降低成本,提高项目的市场竞争力,以应对激烈的行业竞争。
44
第六届浙江省大学生电子商务竞赛参赛作品
第8章 创新点
本文在总结前人研究的基础上,对基于内容的图像检索进行了探索,主要工作体现在以下几个方面:
(1) 相似度
本系统可以根据用户的选择自动的调节商品图像搜索匹配时的比对标准相似度值。用户可以根据搜索的结果,来后通过设置不同大小的相似度数值,系统根据用户的输入,搜索出商品图像与用户上传的商品图像相似度等于或大于用户所设置的值的商品图像。用户可以通过不断调节相似度值,过滤结果,最终精确到自己要找的商品。
(2) 细节搜
本系统能够让用户通过商品图像物品的细节来过滤结果。如果用户对搜索出来的结果不满意,用户可以通过进行细节搜,对上传的商品图像进行重点细节截取,然后在全图搜索的结果集中再进行搜索过滤。
(3)推送功能
本系统能够记录用户的搜索历史,然后对用户每次搜索的物品商品图像进行分析,从中找出用户的喜好,规律,而后在用户搜索的过程中,为用户提供个性化的推送相关物品的服务,方便用户,同时也增强了用户的体验。 (4)本系统适用于web环境和移动环境,
本系统可以在web环境中和移动环境中良好的运行。能够让用户可以通过web进行相关的物品商品图像搜索,也可以通过手机照相功能进行拍照,然后将照片进行上传,搜索相关的商品,使本系统可以随时随地地为人们提供服务。
45
第六届浙江省大学生电子商务竞赛参赛作品
第9章 总结
近年来,随着Imemet技术和电子商务技术的不断发展与成熟,以此为技术基础的网络购物平台层出不穷。网络购物平台中的商品货源广泛、品种齐全且价格合理,有着巨大的消费需求,因此得到了迅速的发展。目前,随着物流服务的完善,网络购物作为一种新型的购物方式已经渐渐取代了传统的购物方式,成为一种时尚。纵观国内外的知名购物网站,它们无一例外的都为用户提供了商品检索功能。然而,很多购物网站只为用户提供了基于关键字的检索功能。网络购物平台中的一些商品难于用文字来表达其自身的属性,这给用户挑选中意的商品带来的很大的不便。
然而,利用商品图像作为查询信息,这个问题就会迎刃而解。CBIR就像是一种为其量身定做的技术,可以很好的解决对某些不便于用文字描述其特征的商品图像的检索问题,极大地方便用户利用网络购物平台选购商品。
基于内容的网络商品图像检索系统就是采用最新CBIR图像检索技术,能够对商品图像进行自动识别,帮助用户在海量的商品数据中准确、快速的寻找用户感兴趣的满意商品,迎合了市场趋势,满足了当前电子商务行业对网络商品图像搜索的需求。
而且基于内容的网络商品图像检索系统由于具备细节搜索,相似度值调整,商品推送等其他网上搜索系统不具备的功能,而这些功能却能使用户简化操作,并能准确定位商品,迎合了用户需求,增强了用户体验,因此在市场竞争中的优势明显,发展前途不可估量。
46
第六届浙江省大学生电子商务竞赛参赛作品
【参考文献】
[1] 胡嘉. 基于内容的图像检索技术研究与技术实现.浙江工业大学硕士学位论文. [2] 沈文忠, 杨杰. 图像检索若干关键技术研究.上海交通大学硕士学位论文. [3] 胡嘉. 基于内容的图像检索技术研究与技术实现.浙江工业大学硕士学位论文. [4] 沈兰荪, 张菁, 李晓光著.图像检索与压缩域处理技术的研究.人民邮电出版社现代
计算机, 2008, 978-7-115-18994-3.
[5] 赵申成.基于内容的图像检索技术的研究与应用.华东师范大学硕士学位论文. [6] 魏伟一.基于内容的图像检索技术研究.西北师范大学硕士学位论文. [7] 周祥.基于内容的图像检索技术研究.上海交通大学硕士学位论文. [8] 周明全,耿国华,韦娜著.基于内容图像检索技术.清华大学出版社.2007-7-1. [9] 肖明主编.基于内容的多媒体信息索引与检索概论.人民邮电出版社.2009-7-1. [10] 孙君顶,赵珊著.图像低层特征提取与检索技术.电子工业出版社。2009-7-1. [11] 沈兰荪,张菁,李晓光.图像检索与压缩域处理技术的研究.人民邮电出版
社.2008-12-1.
[12] 冯大淦,萧允治,张宏江著.刘晓东译.多媒体信息检索与管理.清华大学出版
社.2009-11-1.
[13] 周明全,耿国华,韦娜.基于内容的图像检索系统性能评价.中国图像图形学
报.2004-11-25.
[14] 金丹.基于内容的图像检索技术的研究与实现.东北大学硕士学位论文. [15] 徐卓君.基于内容的图像检索与相关反馈技术研究.吉林大学硕士论文.
47
范文四:科技文献语义检索系统的分类与功能特点
精选公文范文管理资料
科技文献语义检索系统的
分类与功能特点
1 引 言
语义检索是信息检索的发展趋势, 早在 20 世纪80 年代, 语义检索的思想就已经出现, 并且信息检索领域已经开展了相关研究工作。企业级的语义搜索引擎近几年已经开始应用, 例如 Kosmix 和 等, 特别等让搜索变得更智慧。百度框计算搜狗知立方代表了国内搜索引擎在该领域的成功实践。在文献信息检索领域,作为语义检索系统的典型代表, 做出了开创性的工作, 一些面向科技文献的语义检索系统不断出现。
传统基于关键词的检索系统具有一定的局限性,如无法解决词汇的模糊性问题, 分散在多个文档中的相关信息不容易被发现等。语义检索基于含义而不是通过关键词匹配寻找用户查询的答案, 用以实现实体[键入文字] [键入文字] [键入文字]
精选公文范文管理资料
检索、概念检索、分类检索、关系查询等知识检索方式来满足用户的多种信息需求, 使得搜索智能化, 根据用户的意图给出用户想要的结果。目前, 语义检索主要有两个方向: 语义网资源的检索和对于传统检索系统的语义扩展。面向科技文献的语义检索研究主要偏向于后者, 利用语义技术改进传统文献检索系统,利用叙词表、主题词表、本体等知识组织体系实现语义丰富化, 采用语义标注、自动抽取、关系发现的文本挖掘技术从非结构化的文本中发现细粒度的数据,使得检索系统更智能化。本文根据文本语义处理程度对科技文献语义检索系统进行分类, 提出科技文献语义检索系统的基本框架, 并探讨科技文献语义检索系统的功能特性。
2 科技文献语义检索系统分类
根据系统的智能化、语义化程度, 将现有科技文献语义检索系统分为: 语义查询扩展的检索系统、以概念或实体为中心的检索系统、以关系为中心的检索系统、面向知识发现的检索系统 4 种类型。这 4 类检[键入文字] [键入文字] [键入文字]
精选公文范文管理资料
索系统对科技文献的文本语义化处理程度不同, 检索系统的智能化和语义化程度也不同, 如图 1 所示:
【1】
2.1 语义查询扩展的检索系统
语义查询扩展的检索系统在传统关键词检索基础上, 对检索词进行处理, 利用受控词表和本体对检索词进行扩展。PubMed支持基于 MeSH 的查询扩展,也有利用 UMLS 的同义词对 PubMed 查询进行扩展,QuExT执行面向概念的查询扩展, 检索结果根据用户预先分配给概念类别的不同权重进行排序。
GO2PUB利用基因本体中术语之间的语义继承对PubMed 查询进行语义扩展, 基因名称、符号和同义词都作为额外的关键词提交给查询处理器。
2.2 以概念或实体为中心的检索系统
以概念或实体为中心的检索系统利用本体、主题词表、叙词表等对科技文献进行语义标注, 识别文献中的知识, 检索过程通过匹配用户查询和语义标注结果执行, [键入文字] [键入文字] [键入文字]
精选公文范文管理资料
这使得检索系统能够利用标注信息查询到更精确的结果。GoPubMed是这类系统中最典型的, 它利用 Gene 本体和 MeSH 标引 PubMed 文献, 并用于检索结果的结构化展示, 可以让用户看到与查询相关的主要的生物医学概念。相比 PubMed, GoPubMed
可以更快地找到相关的检索结果。NextBio 文献检索系统利用基于本体的语义工具和创新界面, 对 ScienceDirect 内容和 PubMed、临床实验、生物医学新闻等授权开放使用的研究数据进行文本挖掘, 并通过自然语言处理技术实现命名实体识别和消歧, 从而提高检索性能。Kleio 系统对文本的语义概念(如 genes、protein和其他生物医学术语)进行标注, 提供对于 MEDLINE的文本和元数据相结合的检索, 利用标注的命名实体类型对检索结果进行分面, 从而实现检索结果的过滤。
2.3 以关系为中心的检索系统
以关系为中心的检索系统通过文本挖掘技术从科技文献中发现概念或实体之间的关系, 能够提供基于关系的检索服务。[键入文字] [键入文字] [键入文字]
精选公文范文管理资料
Quertle是一个关系驱动的生物医学文献检索工具, 使用基于语义的自然语言处理方法从生物医学文献集中抽取主谓宾关系, 发现生物医学实体(如疾病、基因、药物)之间的一般或特殊关系。
用”咖啡因偏头痛”作为搜索词, Quertle 会发现两个检索词之间的关系如”咖啡因治疗偏头痛”, 而不是通常搜索 PubMed 所返回的同时包含”咖啡因”和”偏头痛”两个检索词的记录。CoPub是以共现关系为中心的检索工具, 利用文本挖掘技术检测 PubMed 摘要中共现的生物医学概念, 如基因本体中的人类/鼠基因、生物过程、分子功能、细胞组成以及病理、疾病、药物和途径等。在 CoPub 系统中检索某个生物医学概念, 可以获得与其共现的其他生物医学概念以及共同出现的文摘。PolySearch抽取人类疾病、基因、突变、药物和代谢物之间的关系, 利用各种文本挖掘和信息检索技术对内容摘要、段落或句子进行识别和排序, 支持面向十几个不同类型的文本、科学文摘或生物信息学数据库的[键入文字] [键入文字] [键入文字]
精选公文范文管理资料
50多种查询类型, 例如检索”与乳腺癌有关的基因”.
2.4 面向知识发现的检索系统
面向知识发现的检索系统通过发现隐含的关系和知识, 从而为用户提供更深层次的语义检索服务。
CoPub 5.0在 CoPub 共现关系挖掘的基础上开发了称为CoPub Discovery的新技术, 从文献中挖掘间接关系, 用于研究疾病背后的机理、连接基因和途径, 发现现有药物的新型应用等。CoPub 5.0 提供了三种分析模式, “term search”模式为一个术语检索文摘和术语关系, “pair search”模式分析术语对之间的已知关系或新关系, “set terms”模式用以给出多个术语之间的关系。
FACTA++从 MEDLINE 文摘中发现并可视化如基因、疾病、化合物等生物医学概念之间的间接关联, 利用机器学习模型发现文本中的生物分子事件, 利用概念之间的共现关系统计出信息挖掘隐藏的关联。EvidenceFinder实现对 PMC 全文数据从化合物基因、蛋白质、疾病等生物医学实体到[键入文字] [键入文字] [键入文字]
精选公文范文管理资料
如磷酸化、绑定、激活等生物相关性事实的多层次文本标注。Evidence-Finder 将标注事实转化为一系列的问题, 作为文献检索的推荐, 帮助用户找到问题答案对应的文章。例如, 输入检索词”粘蛋白”, 系统自动给出一系列相关问题, 如”降低肠道粘蛋白的是什么,”、”什么产生粘蛋白,”等。
3 科技文献语义检索系统的基本框架
根据对典型科技文献语义检索系统的分析, 提出系统基本框架, 分为语义知识获取、数据集成与融汇、语义索引构建、查询处理、结果展示 5 个主要的系统功能, 如图 2 所示。实现科技文献的语义丰富化, 基于领域叙词表或本体, 利用语义标注、实体抽取、关系抽取等技术从科技文献文本信息中获取语义知识。以这些语义知识为基础, 借助实体或概念匹配、本体集成、Linked Data 之间的关联实现潜在语义知识、科技文献以及外部资源的数据集成与融汇, 支持细粒度的语义检索以及相关知识的扩展检索。在文献元数据索引的基础上, 构建实体、概念、关系、文本事实依据的索引, [键入文字] [键入文字] [键入文字]
精选公文范文管理资料
支撑基于语义的检索功能。在查询处理方面, 采用术语匹配、自然语言处理、相似度计算、知识库图遍历、本体推理等技术手段理解用户的搜索意图, 通过基于语义知识的分类、聚类、排序等对检索结果进行重新优化计算。通过结果列表、可视化展示、分面浏览、树形导航、本体导航等方式将检索结果展示给用户, 同时提供基于语义知识的相关推荐和统计预测等功能。
4 科技文献语义检索系统的功能特点
语义信息的引入影响了科技文献检索系统从数据处理、索引构建、查询处理到结果管理的各个方面, 使得检索系统具有一些新的特性。
4.1 科技文献语义丰富化
在传统文献标引的基础上, 一些文献检索系统已经进行了深层的语义丰富化处理, 并且在此基础上提供更准确的检索服务。例如, ProQuest在文本标引基础上将蕴含在学术出版物中的表格、地图、照片和其他图形中的数据、变量以及其他内容进行深度的标引,平均使用8个术语描述一个图[键入文字] [键入文字] [键入文字]
精选公文范文管理资料
像。Wiley的SmartArticle技术[14]针对化学期刊新增了化合物索引, 提供对于内容的深层检索, 此外对文献中的化学术语进行标注,使用不同颜色对不同类型的化学术语进行高亮显示,以方便用户阅读。在医学文献检索领域, PubMed使用MeSH主题词表进行文献标引, 随着文本挖掘技术的成熟, 一些工具和系统在PubMed基础上对科技文献进行了更为深入的语义丰富化处理[15].例如, EBIMed[16]
从文献中抽取蛋白质、基因本体标注、药物和物种, 基于共现分析识别抽取概念之间的关系。PubTator工具[17]支持对PubMed检索结果的标注, 识别的生物医学实体包括基因、化学物质、疾病、变异、物种等。
4.2 基于实体或概念的数据集成与融合科技文献的数据集成已转变为以实体或概念为中心的数据集成和融合, 实现不同应用系统之间的语义互操作, 促进更广泛的共享与应用。AGRIS 国际农业科学和技术信息系统利用 OKKAM 实体名称系统框[键入文字] [键入文字] [键入文字]
精选公文范文管理资料
架[18]创建关联数据模型, 将书目数据库转换为关联数据服务.一方面, 使用 AGROVOC 叙词表与其他叙词表映射, 另一方面将书目记录与外部资源建立连接,如 DBPedia、WordBank、Google Custom
SearchAPI、Nature OpenSearch 等。在 AGRIS 检索结果的详细页面中, 除书目信息外, 还提供相关外部资源的结果揭示, 借助文献标引使用的 AGROVOC 词汇、书目关联数据等实现以实体或概念为中心的知识页面之间的融汇。Elsevier 提出 Smart Content 的概念, 组织医学专家在 UMLS 基础上构建 EMMeT 医学词汇分类体系, 将 Elsevier 的临床医学期刊、论文、书目章节、表格、图像等数据映射到合适的医学术语上, 从而加强对 Content 的理解, 使其提升到实体、概念和关系的知识层面上, 以便各类应用程序更好地理解和处理内容上的内涵信息。
4.3 面向文本分析结果的索引机制。为实现对文本分析结果的检索, 语义检索系统构建了文本中概念、实体、关系、事实[键入文字] [键入文字] [键入文字]
精选公文范文管理资料
与文献之间的索引。例如, Kleio系统应用Lucene对识别出来的蛋白质、基因、代谢物和医学术语构建索引, 即对与文本相关的概念构建索引, 而不是个体或规范词形式, 这意味着系统可以检索与某个指定概念相关的文档, 无论概念的表现形式是它的拼写变体还是缩写形式.
EvidenceFinder 系统借助基因、蛋白质、药物、疾病和代谢物的词表以及表示生物医学过程和关系的词典, 对 Europe PMC
仓储全文数据进行语法分析和文本挖掘, 将所有可能包含相关事实的句子构建索引。NLMplus使用 Solr 对语义层进行索引, 支撑检索服务。而 Quertle建立语义关系索引、关键词索引和辅助索引三种索引, 用于查找用户输入的检索词和提问,并返回检索结果。
4.4 查询处理
由于一个搜索请求可能代表多重含义, 对用户输入的检索词进行语义分析是语义检索系统的首要任务。通常, 语义检索系统从用户输入字符开始提供自动完成[键入文字] [键入文字] [键入文字]
精选公文范文管理资料
功能, 对用户输入的检索词和语句进行识别和分析, 给出相关的查询建议, 通过理解用户查询意图和搜索空间的含义改进检索质量。
(1) 基于受控词表和本体的自动完成功能
目前, 搜索引擎大多数都具有自动完成功能, 利用预存的术语自动将用户的检索词对应到可能匹配术语上并提示给用户, 简化用户输入操作。文献检索系统通常利用受控词表和本体实现自动完成功能,GoPubMed将输入的术语匹配 MeSH 和 Gene 本体术语; Semedico将查询建议放在分类树中允许用户选择一个广义术语作为检索词, 在括号中列出其同义词;NextBio可以列出匹配的基因、化合物、SNPs、疾病、组织、生物学团体和作者等; Elsevier 的 ClinicalKey 医学信息平台在用户输入检索词后提供检索建议, 如相关医学主题、内容来源和作者等。
(2) 查询分析
检索系统在执行查询前, 采用语言学[键入文字] [键入文字] [键入文字]
精选公文范文管理资料
方法将用户输入的检索词映射到受控词表或本体的概念、实体上,将关键词检索转化为概念或实体的检索。利用受控词表的同义、广义、窄义等术语以及基于本体上下位关系实现查询的逻辑推理, 用于解释用户的查询, 并给出查询建议。Kleio 系统将摘要中命名实体进一步分类, 结合语义分类信息执行查询, 可以降低搜索空间,提高检索效率.一些文献检索系统允许用户使用自然语言进行提问, 如 Quertle、EvidenceFinder 等, 在执行查询处理前, 需要对查询语句进行预处理, 利用自然语言处理技术将查询语句进行重构。NLMplus使用叙词表和本体对 PubMed Review 进行语义标引, 利用构建的知识库对查询进行分析和解析, 以检索到更精确的结果。iPubMed[23]提供一个交互式检索界面, 当用户在搜索框中输入几个字符时, 系统将立即显示任何包含这些字符的引用, 便于缩小搜索目标, 此外该系统还允许小的拼写错误。ClinicalKey 通过 EMMeT建立关系的语义框架, 促进内容发现, 使得被传[键入文字] [键入文字] [键入文字]
精选公文范文管理资料
统关键词检索忽略的潜在关联能够被揭示出来, 并且保证了ClinicalKey能够为用户的检索请求提供具体并且有针对性的答案, 比如查找”myocardial infarction”,ClinicalKey
智能检索可以识别其缩略词、同义词、相关外科手术和治疗药物, 并且知道这是一种与高胆固醇相关的心血管疾病[20].
4.5 查询结果管理在传统文献检索系统的基础上, 语义检索系统对于查询结果的呈现方式更加多样, 表达的信息也更加丰富, 基于本体的结果精炼、知识导航等为用户带来了新的检索体验。
(1) 查询结果呈现方式语义检索系统为用户提供了最直接的结果呈现方式, 如检索的目标概念(实体)、关系、事实、回答等信息。GoPubMed[5]在文献结果列表中只显示文摘中与检索目标相关的句子, 反映检索词的事实, 而不是全部摘要信息。Quertle[8]同样显示文摘中相关的事实信息,并对检索目标进行高亮显示。FACTA++[12]将与查询目标相关的概念通过不同分类列表的方式显示, 并可以按照相关的频次排[键入文字] [键入文字] [键入文字]
精选公文范文管理资料
序。CoPub[9]返回查询术语的详细信息、共现术语的分类和文摘数量。
EvidenceFinder[13]在文献检索列表中直接给出查询问题的答案并高亮显示。
(2) 概念/实体层级结构分类与导航GoPubMed[5]通过本体的层级结构对查询结果进行聚集, 实现了大规模结果的快速导航, 用户可以快速获取相关的生物医学概念, 同时可以在检索中发现新的检索目标或过滤检索条件, 使得检索更有深度和广度。NextBio[6]将从摘要和正文中抽取的生物医学术语, 以Tag云的方式显示, 并提供这些术语的分类, 可以利用它们进一步过滤和优化查询结果。Kleio[7]将检索结果根据文献标注命名实体的语义分类进行组织,并列出最高关联频率的概念, 方便用户浏览和过滤检索结果。ClinicalKey 允许用户根据有临床意义的子分类筛选检索结果, 比如内容类型、专科、疾病名称、身体部位等[20].
(3) 文本挖掘结果显示与相关知识导航在结果页面或文献详细页面对语义标[键入文字] [键入文字] [键入文字]
精选公文范文管理资料
注结果进行呈现, 并提供相关知识的简介、链接与导航, 例如GoPubMed[5]在标注概念下方用虚线标记, 点击后可实现对标注概念的重新检索和二次检索, 以及直接给出标注概念的详细信息、Wikipedia 链接。EvidenceFinder系统[13]在文献详细页面将识别的生物实体统计情况以图形化的方式显示, 并根据不同的类型分别列出, 点击标注实体可以直接链接到 UniProtKB的相关检索界面,查看相关信息。ClinicalKey平台在检索结果页面提供文献摘要的预览窗口, 同时对语义标注的结果进行展示,并且提供 2 000 多个疾病主题页, 可以快速访问疾病的流行病学、风险因素、临床表现、治疗等方面的信息, 以及与特定专科相关的答案和药物链接[20].
(4) 基于概念/实体的文献统计分析。通过对文献的文本挖掘, 语义检索系统可以实现基于概念/实体而不是关键词等元数据信息的文献统计分析功能。例如, 在 GoPubMed[5]平台上点击左侧导航的概念或文本标注概念都可以看到该概念相关文献[键入文字] [键入文字] [键入文字]
精选公文范文管理资料
的时间轴, 不仅可以展示相关文献的演化过程, 也可以预测其发展趋势。
5 结 语
科技文献语义检索系统相比传统检索系统, 其优势在于能够处理语义信息, 从非结构化文本中发现潜在知识, 实现知识检索, 满足用户更高的检索需求。通过研究和分析现有科技文献语义检索系统可以发现系统的语义化程度依赖于对文献的语义挖掘深度, 借助现有的文本挖掘、自然语言处理、语义网等技术以及受控词表和本体, 在很大程度上实现了对指定信息的挖掘和发现, 然而由于受控词表和本体的领域局限性和覆盖率问题, 科技文献语义检索系统的研究主要集中在生物医学领域, 而在科技文献检索领域实现通用的语义检索仍然困难重重。
标签: 科技文献语义检索 语义检索系统 上一篇:论文写作和信息检索课教学设计探析
[键入文字] [键入文字] [键入文字]
范文五:基于ASP和Web数据库技术的网络检索系统 毕业论文
基于ASP和Web数据库技术的网络检索系统
摘要
随着Web的迅速发展,网上信息资源越来越丰富,网络己经成为了一个全球最大的数据库。各种信息自动化管理已成为当今信息管理的一种趋势,信息网络化变得日益重要。信息数据库建设是信息自动化管理的基础和核心。而ASP ( Active Server Pages) 正是微软为IIS 5. 0以及MS Personal Web Server 等Web 服务器开发的动态站点设计技术, 它具有动态、高效和易于交互的特点。因此基于ASP技术和Web数据库技术的网络检索系统可以极大地提高信息检索效率。。
本次毕业设计主要针对高校图书馆的一个核心分支——图书信息检索系统展开的。能否快速获取用户需要的信息,是图书馆管理系统的一个重要评价指标,因而其重要性不言而喻。要取得良好的检索效果,必须建立起一个高效的信息检索模型,并且有相关的软件开发工具,相关的理论技术的支持。
在本次毕业设计中,首先对网络检索系统相关技术进行了深入研究,再利用ASP 技术和Web数据库技术开发图书信息网络检索的系统。实现了馆藏书目检索和动态交互式的综合查询等功能,并对系统安全性与维护等问题进行探讨。
关键字:Web数据库,ASP技术,检索系统,安全性
第 I 页
Web search system based on ASP and Web database
technology
Abstract
With the rapid development of Web, online information resources has become increasingly diverse, the network has become one the world's largest database. Automation of a variety of information management has become a trend in today's information management, information network has become increasingly important. Information database construction is the basis for automated management of information and the core. This can be through the establishment of the University Library site provides users with their own time and space of the library information services. The ASP (Active Server Pages) is Microsoft is IIS 5. 0 and the MS Personal Web Server etc. Web server, the dynamic site design techniques, it has a dynamic, efficient and easy interactive features. Therefore, ASP-based technology and network of Web database technology can greatly improve the retrieval system to retrieve book information efficiency of the people.
The graduation project focused on a core branch of the library to study design, development implementation. The core of the library information retrieval system. Users can quickly obtain needed information, library management system is an important index, so its importance is self-evident. To achieve good search results, we must establish an efficient information retrieval model, and has associated software development tools, technical support related to the theory.
The graduation project is the first introduces the overall framework of the network to retrieve system-related technologies, re-use ASP technology and the development of Web database technology, library information network retrieval system. Realized Bibliography search and dynamic interactive features such as integrated query, and the system Security and maintenance issues were discussed. Keywords:Web Database,ASP Technology,Retrieval System,Security
第 II 页
目录
1 绪论 ..................................................................................................................... 1 1.1课题背景 .................................................................................................... 1 1.2研究目的与意义 ........................................................................................ 1 1.3论文的全文结构 ........................................................................................ 1
2 网络检索系统相关技术 ...................................................................................... 3 2.1 Web数据库简介 ........................................................................................ 3
2.1.1 Web数据库系统的基本模型 .......................................................... 3
2.1.2 SQL Server 2000简介 ..................................................................... 4
2.1.3 Access数据库简介.......................................................................... 5 2.2 常用的Web数据库技术 .......................................................................... 5
2.2.1 ASP技术 ......................................................................................... 5
2.2.2 PHP(Personal Home Page)技术 ....................................................... 7
2.2.3 JSP(Java Server Pages)技术 ............................................................. 7
2.2.4 PHP、ASP、JSP三种技术比较 ..................................................... 8 2.3 数据库的连接技术 ................................................................................... 8
2.3.1 CGI .................................................................................................. 8
2.3.2 ODBC .............................................................................................. 9
2.3.3 ADO .............................................................................................. 10 2.4 Web数据库的安全性 ...............................................................................11
第 I 页
3 图书信息网络检索系统开发 ............................................................................ 12
3.1 系统需求与分析 ..................................................................................... 12
3.1.1 系统功能结构 .............................................................................. 13
3.1.2 运行环境 ...................................................................................... 13
3.1.3 系统目标 ...................................................................................... 13
3.2 数据库设计 ............................................................................................. 14
3.2.1 创建数据库 .................................................................................. 14
3.2.2 数据表的结构 .............................................................................. 14
3.2.3 创建数据库连接........................................................................... 16
3.3 数据库访问 ............................................................................................. 16
3.4实现添加、查询、修改和删除功能 ....................................................... 17
3.5 Web系统测试 .......................................................................................... 18
3.6 系统安全性和维护探讨 .......................................................................... 20
3.6.1服务器端Win2000的安全设置 .................................................... 20
3.6.2用户登录的安全性 ........................................................................ 22
3.6.3系统数据库的安全性 .................................................................... 22
3.6.4 网络安全 ...................................................................................... 24
3.6.5 安全管理 ...................................................................................... 25 4 总结与展望 ....................................................................................................... 26 致谢 ..................................................................................... 错误~未定义书签。27 参考文献 ............................................................................................................... 27
第 II 页
1 绪论
1.1课题背景
互联网的发展使信息资源的共建共享的前景越来越清晰,用户希望以一种十分便捷的方式获取广泛的、多样性的、个性化的信息服务。但是网络资源就像一盘散沙,各自产生、组织、发展直至消失,从而形成一个个“信息孤岛”,使得有价值的、丰富的信息资源得不到充分利用。一方面,网络中接入的计算机数量日益增多,但使用效率并不高;另一方面,互联网内容每天飞速增长,不可能有哪个单一的服务器或搜索引擎能够掌握所有资源,而且找到的逻辑内容很大一部分不能物理使用。
与此同时,在图书信息服务领域,资源共享是对信息资源配置的合理调整,是对信息服务工作的优化,是提高资源利用率的有效途径。现代意义的资源共享有着更为广泛而深刻的内涵,其最突出的特征是一种建立在资源共建基础之上的资源共享,在网络化和数字化信息资源建设高度发展的今天,网络资源共享己成为文献信息服务事业发展的一种必然趋势。因此,越来越多的图书信息
[3]机构联入Internet,在网上建立自己的站点,提供的虚拟文献信息服务日益受到人们重视。因其信息含量大、内容新颖、及时反映了社会各领域的发展动态等特点,倍受人们的青睐,已成为经济建设、科研及文化生活中获取信息的主要来源之一。通过Internet向用户提供跨时空的文献信息服务是图书馆网站建设的重要内容。这对读者来说,他们不仅可以得到本地图书的信息服务,也可以通过网络得到异地或异国图书的信息服务。
1.2研究目的与意义
近年来,图书馆自动化发展的进程是现在图书馆事业发展变革之最。在信息时代和网络化环境下,图书馆应是Interbet网上信息的集散点,这个集散点必须具备对网上信息的收集与重组能力,必须具备在Internet网上进行信息发布的能力。因此图书馆的文献服务不能仅限于书刊文字范围,一切能被图书馆合法收集、下载、链接的网上信息均是图书馆向读者提供服务的对象。为了能满足用户的需求,我们可以利用现有的技术来开发图书信息网络检索系统 1.3论文的全文结构
信息检索是面向用户查询信息的有效路径,检索的速度及其性能好坏取决检索系统的质量。所以本文主要是对图书信息网上检索系统这部分着手,对检
第 1 页
索系统安全进行优化与探究。依照本文的重点,全文以如下的结构展开:
1 绪论部分。主要阐述信息检索系统研究的背景及意义。
2 网络检索系统的相关技术。主要介绍Web数据库技术,包括Web数据库基本结构、Web数据库访问技术、主流Web数据库技术、SQL Server 2000、Web数据库安全性等。
3 详细介绍图书信息网络检索系统的开发过程和实现以及对系统安全性和维护进行探讨。
4对本次毕业论文进行总结。
5致谢。
第 2 页
2 网络检索系统相关技术
2.1 Web数据库简介
数据库是指按照一定的结构和规则组织起来的相关数据的集合,是存放数据的“仓库”,据此将网络数据库定义为以后台数据库为基础的,加上一定的前台程序,通过浏览器完成数据存储、查询等操作的系统。
数据库技术是计算机处理与存储数据的最有效、最成功的技术,而计算机网络的特点是资源共享,因此数据与资源共享这两种技术的结合即成为今天广泛应用的Web数据库(也叫网络数据库)。
一个Web数据库就是用户利用浏览器作为输入接口,输入所需要的数据,浏览器将这些数据传送给网站,而网站再对这些数据进行处理,例如,将数据存入后台数据库,或者对后台数据库进行查询操作等,最后网站将操作结果传回给浏览器,通过浏览器将结果告知用户。网站上的后台数据库就是Web数据库。
通常,Web数据库的环境由硬件元素和软件元素组成。硬件元素包括Web服务器、客户机、数据库服务器、网络。软件元素包括客户端必须有能够解释执行HTML代码的浏览器(如IE,Netscape等);在Web服务器中,必须具有能执行可以自动生成HTML代码的程序的功能,如ASP,CGI等;具有能自动完成数据操作指令的数据库系统,如现在主流的数据库系统有SQL Server 2000 ,Access等。
2.1.1 Web数据库系统的基本模型
早期Internet数据库系统是将Web服务器和数据库混在一起的,实现的功能比较简单、响应速度慢。而在多层结构的Web数据库系统模型将Web服务器和数据库部分分开,并加入了中间件。中间件是位于操作系统和分布应用之间的具有标准协议和程序接口的通用服务,管理计算资源和网络通信。中间件的例子包括目录服务、消息传递机制、对象请求代理、远程过程调用 (RPC) 服务
[2]和数据库网关。两者的结构如图2-1所示。
第 3 页
早期Internet数据库系统
客户端 Web服务器、
数据库 浏览器
多层结构的Web数据库系统模型
客户端 Web ODBC、数据库
浏览器 服务器 JDBC等服务器
中间件
图2-1两者结合
这样采用多层结构的Web数据库系统模型使得功能更加强大、响应速度快,
除此之外,与两层设计比较还有以下优点:
(1)客户降低了对硬件设备的需求。
(2)由于业务逻辑从许多终端用户移到了单一的应用服务器上,这使得应用程序的维护可以集中进行,这消除了传统两层客户—服务器模型中重点关注的软件分布问题。
(3)模块化特性使得更容易修改或替换其中一层而不影响其他层。
(4)核心业务逻辑和数据库功能的分离使得负载平衡更容易进行。
(5)三层体系结构更容易映射到Web环境,Web浏览器可作为瘦客户,Web服务器可以作为应用服务器。
2.1.2 SQL Server 2000简介
SQL Server 2000是Microsoft公司推出的SQL Server数据库管理系统的一个版本。它继承了SQL Server 7.0版本的优点同时又比它增加了许多更先进的功能,具有使用方便,可伸缩性好与相关软件集成程度高等优点,可跨越从运行Microsoft Windows 98 的膝上型电脑到运行Microsoft Windows 2000 的大型多处理器的服务器等多种平台使用。它的主要特点:
(1)高性能设计,可充分利用WindowsNT的优势。
(2)系统管理先进,支持Windows图形化管理工具,支持本地和远程的系统管理和配置。
(3)强壮的事务处理功能,采用各种方法保证数据的完整性。
(4)支持对称多处理器结构、存储过程、ODBC,并具有自主的SQL语言。
第 4 页
SQLServer以其内置的数据复制功能、强大的管理工具、与Internet的紧密集成和开放的系统结构为广大的用户、开发人员和系统集成商提供了一个出众的数据库平台。
2.1.3 Access数据库简介
Access能够存取 Access/Jet、Microsoft SQL Server、Oracle,或者任何 ODBC 兼容数据库内的资料。熟练Microsoft Office Access的软件设计师和资料分析师利用它来开发应用软件,而一些不熟练的程序员和非程序员的"进阶用户"则能使用它来开发简单的应用软件。虽然它支持部份面向对象技术,但是未能成为一种完整的面向对象开发工具。
Access数据库与SQL Server进行比较,它是一种没能成为完整的面向对象开发工具,而SQL Server是一种面向对象开发工具并且还具备具备高性能设计、系统管理先进、强壮的事务处理功能、支持对称多处理器结构等特点, 2.2 常用的Web数据库技术
随着互联网以及Web数据库的发展,当今社会的各个领域对Web服务的应用越来越广,其数据索引也随之有增无减。同时,在编写Web数据库检索代码时,既要考虑其安全性,又要确保应用的高质量,致使及时开发相应的数据库检索程序越来越迫切,目前最流行的几种Web数据库技术有ASP、PHP、 JSP。 2.2.1 ASP技术
ASP(Active Server Page)是微软的一个Web Server端的开发环境。利用它可以产生和执行动态的、交互的、高性能的Web服务应用程序。ASP采用脚本语言VBScript(JavaScript)作为自己的开发语言。ASP工作过程如下8个步骤:
(1)用户在浏览器的地址栏中键入ASP文件,并回车触发这个ASP的申请。
(2)浏览器将这个ASP的请求发送到给Web服务器。
(3)Web Server接收这些申请并根据.asp的后缀名判断这是ASP要求。
(4)Web Server 从硬盘或内存中读取正确的ASP文件。
(5)Web Server 将这个文件发送到ASP.DLL的特定文件中。
(6)ASP文件将会从头至尾执行并根据命令要求生成相应的HTML文件。
(7)HTML文件被送回浏览器。
(8)用户的浏览器解释这些HTML文件并将结果显示出来。
1)ASP特点:
, 使用VBScript、Jscript等简单易懂的脚本语言,结合HTML代码,即可
第 5 页
快速地完成网站的应用程序
, 无需编译,容易编写,可在服务器直接执行。
, 使用普通的文本编辑器,如windows的记事本,即可进行编辑设计
, 与浏览器无关,哭喊端所使用的浏览器只要可执行HTML代码,即可
浏览ASP所设计的网页内容。
, ASP能与任何ActiveX Scripting 语言兼容。
, 可使用服务器端的脚本来产生客户端的脚本
2)ASP7个内置对象,
(1) Request对象:取得用户信息,用于读取从浏览器中通过HTTP请求
而转入脚本的信息,其中包括窗体、表单、URL查询等;
(2) Response对象:传递信息给用户,用于处理从Web服务器输出到客
户端数据的对象;
(3) Server对象:提供访问数据库的属性和方法,通过此对象的应用,可
取得Web服务器的数据与执行状态;
(4) Application对象:用于存储一个特定应用程序所需的信息;
(5) Session对象:用于存储一个特定用户任务所需的信息;
(6) ObjectContext对象:此对象可提供程序设计师利用Microsoft
Transaction Server来处理事物;
(7) ASPError对象:为ASP网页执行发生错所产生的对象;
3)ASP优点:
(1) 易操作性。ASP使用简单易懂的脚本语言,结合HTML代码,编程容易缩短了Web开放时间。由于ASP支持几乎所有的脚本语言,ASP文件的制作非常简单,可以使用任何纯文本块编辑器,例如:Frontpage、记事本、Visual InterDev等。在编写ASP应用程序时,只需要ASP特殊的标记<%和%>把脚本括起来,无需编译或连接即可直接在服务器端直接执行。
(2) 安全性好。独立于浏览器,即可浏览ASP所设计的网页。ASP脚本在服务器上执行,传到用户浏览器的只是ASP执行结果所生成的常规HTML码,因而可以避免所写的程序别他人剽窃,也可以保证源程序代码的安全性。
(3) 扩展性能好。ASP支持面向对象并可扩展Active X Server组建功能,与任何Active X Seripting语言兼容。除了可使用VBScript和javascript语言进行设计外,还可通过Plug in方式,使用由第三方所提供的其他语言。
(4) 执行效率较高。ASP可以与SQL sever 、Oracle 、Access、VFP等数
第 6 页
据库连接,并利用一些特别技术的对象集合如ADO,运行在Web服务器的同一进程中,因此它可以更快、更有效地处理客户的请求。
4)ASP Web页面包含4个部分:
(1) 普通HTML文件,用普通Web页面编程
(2) 客户端脚本程序代码,通常用定界符括起来
(3) 服务器端ASP程序代码,用<%和%>定界括起来
(4) Server_SideInclude语句,使用#Include语句在Web页面中嵌入其他
Web页面中。
2.2.2 PHP(Personal Home Page)技术
PHP是一种跨平台的服务器端的嵌入式脚本语言。它具有良好的扩展性,并具有安全性好、代码执行快等特点。PHP是受共享 Internet开放源代码的影响,由 Rasmus开发,如Linux发展一样受到很多杰出人士的改进和不断发展,性能越来越强大。PHP的易扩展性和良好的稳定性在 Linux系统上表现的更为突出,可以在 Linux平台上与 Apache Web服务器组成最佳组合。它的特点:数据库连接方便、支持面向对象语言。
优点是:支持多种系统平台、PHP是完全免费的、强大的数据库操作功能、易于与现有的网页融合、具备丰富的功能、可移植性好。
缺点是:安装配置复杂;缺少企业级的支持;作为自由软件,缺乏正规的商业支持;无法实现商品化的商业开发
2.2.3 JSP(Java Server Pages)技术
JSP(Java Server Pages)是由SUN公司倡导许多公司参与一起建立的一种基于Java的服务器端的动态网页技术标准。它为创建显示动态生成内容的Web页面 提供了一个简洁而快速的方法。JSP技术的设计目的是使得构建基于Web的应用程序更加容易和快捷,而这些应用程序能够与各种Web服务器、应用服务器和开发工具共同工作,因此它完全解决了目前ASP、PHP的一个通病——脚本级执行。同时它还能应用于不同的操作平台上,当用户通过浏览器从Web服务器上请求JSP文件时,Web服务器首先响应该 HTTP请求,并启动JSP解释器解释JSP文件中的JSP标记和小脚本,然后通过JDBC(Java Database
Connection)存取、查询数据库中的数据,并将以HTML页面的形式发送回浏览器。
优点是:内容生成与显示分离、可重用组件、采用标记简化页面开发、适应更广泛的平台、易于连接数据库。
缺点是:安装配置管理较为复杂;运行速度较慢。
第 7 页
2.2.4 PHP、ASP、JSP三种技术比较
三者都提供在HTML代码中混合某种程序代码、由语言引擎解释执行程序代码的能力。但JSP代码被编译成Servlet并由Java虚拟机解释执行,这种编译操作仅在对JSP页面的第一次请求时发生。在ASP、PHP、JSP环境下,HTML代码主要负责描述信息的显示样式,而程序代码则用来描述处理逻辑。普通的HTML页面只依赖于Web服务器,而ASP、PHP、JSP页面需要附加的语言引擎分析和执行程序代码。程序代码的执行结果被重新嵌入到HTML代码中,然后一起发送给浏览器。ASP、PHP、JSP三者都是面向Web服务器的技术,客户端浏览器不需要任何附加的软件支持。但是ASP具有简单易懂、易操作性、安全性好、扩展性能好、执行效率较高等优点,因此本文是利用ASP来开发网络检索系统。
2.3 数据库的连接技术
在脚本程序中连接数据库一般都需要相应的接口来完成。连接数据库的常用方法有:CGI、ODBC、ADO、等。
2.3.1 CGI
CGI(Common Gateway Interface)公关网关接口是一种接口标准。他使静态的Web网页变为交互式的媒体成为可能,简单地说,CGI是一种数据库连接方法,运行这种方法,Web服务器可以与服务器软件外部的应用程序进行通信。本质上,CGI是Web服务器端得一个进程,可以作为Web服务器与其他应用程序、通信资源和数据库之间的中介器。通过CGI接口标准,Web服务器可以调用一个CGI程序,同时将用户指定的数据传给它,随后该CGI程序根据传入的数据做相应的处理,这种处理当然也可以是数据库访问处理,然后Web服务器在将程序的处理结果返回到Web浏览器。
CGI的程序比较灵活,适用比较广泛,可实现较复杂的应用,CGI程序可以用许多程序设计语言来编写,常用的编程语言有C语言,Perl、Visual Basic等。运用CGI访问数据库的模型如图2-2所示
http请求 访问请求 Web客户机 Web服务器 CGI程数据库
序 返回html 访问结果
图2-2 通过CGI访问Web数据库模型
第 8 页
2.3.2 ODBC
[5]ODBC(Open Database Connectivity)开放式数据库连接是数据库编程接口,它向访问各种Web数据库的应用程序提供了一种通用的接口。在此标准支持下,一个应用程序可以通过一组通用的代码实现对各种不同数据库系统的访问。因为通过ODBC访问数据库的方式是基于SQL的,所以各种应用程序均可透过各种数据库所对应的ODBC驱动程序实现利用SQL语言对不同数据库系统的访问。在对数据库进行访问时,所谓ODBC数据源是指可以通过ODBC接口访问的具体数据库信息。ODBC数据源及其驱动程序一般通过操作系统的数据源管理器来进行安装与管理。采用ODBC作为ODBC访问数据库的Web应用程序系统模型见图2-3所示。
Web应用程序 ODBC DBMS
图2-3 ODBC应用程序系统模型
在Windows平台下,ODBC用动态连接数据库(Dynamic Link Libraries,DDL)调用ODBC驱动程序来完成对数据库的访问。对应于某一种DBMS有相应的ODBC驱动程序,当DBMS改变时,只要更换ODBC驱动程序而无需更改应用程序。
(1)作为一种API标准,ODBC主要定义如下5方面的内容:
ODBC函数库,它是为应用程序提供连接DBMS、执行SQL语句、提取访问结果的程序接口。
(2)SQL语法。
(3)错误代码。
(4)连接、登录DBMS。
(5)数据类型
ODBC接口具有相当的灵活性,构成SQL语句的字符串可以在源程序中给出,也可以在运行时动态生成,同一个应用程序可以存取不同的DBMS。因而对于一个应用程序来说,驱动程序管理器和驱动程序是不可见的,通过ODBC访问数据库的基本步骤如下:
(1)创建并配置数据源
(2)建立一个与数据源的对话连接
(3)向数据源发出SQL请求
(4)定义一个缓冲区和数据格式用于存储访问结果
第 9 页
(5)提取结果
(6)处理错误结果
(7)向用户报告结果
(8)关闭与数据库的连接
2.3.3 ADO
ADO(ActiveX Data Object)是ASP内置的、用于访问Web数据库的ActiveX服务器组件,包含多种对象和集合。ADO组件对象为开发者提供了一种简单、快捷、高效的数据库访问方法,它可以被包含在ASP脚本程序中,用来完成与数据库的连接,并可使用SQL语言对数据库进行各种操作。ADO包括7个对象:
1、Command定义对数据源进行操作的命令。
2、Connection建立一个数据源的连接。
3、Error访问错误的细节。
4、Field表示一般数据类型的字段。
5、Parameter表示Command对象的参数。
6、ProPerty表示由数据源定义ADO对象的动态特性。
7、Recordset数据库命令结果集对象。
ASP在Web数据库系统系统的访问过程如图2-4所示。
Web浏览器 Web服务器
ASP程序
ADO内置对象
数据库 ODABC
图2-4 ASP式的Web数据库系统结构
第 10 页
2.4 Web数据库的安全性
随着信息系统应用的广泛和深入,其安全问题的重要性己引起了人们的充分重视。本文结合安徽理工大学“学术论文管理系统”的研发工作,针对基于工nternet的信息管理系统的安全性问题,从数据库、网络、操作系统、安全管理以及应用程序本身五个方面对信息系统的安全性进行了分析,并将其运用到应用程序开发中,提高了学术论文管理系统的数据信息的安全性和可靠性。
Web的安全问题应注意以下四个部分:第一,服务器安全,确保存储在服务器上的数据和HTML文件的安全;第二,用户身份验证安全,确保登录安全,防止对信息的非授权存取;第三,对话期安全,确保数据在Internet或Intranet上传输时会被截获。第四,可审计性,可审计性是指能够对所有的数据库访问进行审计记录,以帮助在事后进行审计分析。
第 11 页
3 图书信息网络检索系统开发 软件开发过程通常包括5个阶段:分析、设计编码、测试和发布。本系统通过ASP 技术实现基于Web 的动态交互式的综合查询功能。 在图书信息网络检索系统的开发过程中包括以下步骤: (1) 系统需求与分析
(2) 数据库设计
(3) 数据库访问
(4) 实现查询,添加,删除,修改等功能
(5) Web系统测试
(6) 系统安全性和维护探究
本系统将按照上面的步骤进行分析和说明。
3.1 系统需求与分析
该图书信息检索系统是: 以浏览器/ 服务器体系为基本架构, 通过ASP 技术实现基于Web 数据库技术的动态交互式的综合查询功能, 方便快捷地满足馆藏书目检索与查询需求。查询功能流程结构如图3-1所示。
开始
输入检索词
否
Web服务器判断数据库不存在相关信息,请重新检索 是否存在相关的信息
是
以数据表格式输出相应的信息
结束
图3-1信息查询过程
第 12 页
3.1.1 系统功能结构
根据建大图书馆图书信息的特点,可以分为前台和后台两个部分设计。前台主要用于用户的登录和注册链接,用户登录后可以用于查询图书信息。后台主要用于管理员对图书信息的添加和删除及管理。网页页面可以分为三个页面顺序分别为用户登录页面、检索页面和输出检索结果页面。图书信息检索系统的用户部分的功能结构如图3-2所示。
用 户 界 面
注 登
册 录
检书作关
索名者键
号 检检词
检索 索 检
索 索
图3-2 用户部分的功能结构
系统主要是以表格形式输出图书基本信息(书名、作者、出版社、摘要内容链接、馆藏地点索书号、序号、存库量等。
3.1.2 运行环境
操作系统:Windows 2000 Server
Web服务器:IIS 5.0
浏览器:IE 5.0或其他
数据库服务器:SQL Server 2000
3.1.3 系统目标
图书信息检索系统实现以下目标:
第 13 页
, 新技术架构:B/S(浏览器/服务器)架构,大大降低了客户端电脑的负
荷,减轻了系统维护与升级的成本和工作量,降低了用户的总体成本。
, 程序化设计:程序设计充分考虑使系统使用方便、界面简单。
, 动态交互查询信息。
, 灵活方便,提供多种检索方式,用户可以根据需要,方便,快速地查找
所需信息。
3.2 数据库设计
大多数网络应用系统都需要后台数据库的支持。在Windows操作系统中,Access和SQL Server是常见的网络后台数据库。在互联网上,很多人出于价格的考虑选择Access数据库,但是要实现比较大的网络应用系统,还是应该选择SQL Server,本系统就是应用SQL Server数据库存储数据。
3.2.1 创建数据库
在图书信息检索系统中可以在SQL Server 2000 中利用以下三种方法来创建数库:
(1)库向导创建数据库。
(2)Server 2000 的企业管理器中,首先展开服务器组,然后展开服务器,单击“数据库”然后单击“建数据库”命令,在弹出的“数据库属性”对话框中,键入新建数据库的名称。
(3)使用Transact-SQL的CREATE DATABASE的命令。该命令的语法如下:
CREATE DATABASE Library,其中“Library”为数据库名称。 3.2.2 数据表的结构
本系统有三个数据表,即是保存用户登录信息表(tb_Login)、保存用户注册信息表(tb_Users)和图书基本信息表(t_Table1)。t_Table表主要是存放图书基本信息(序号、索书号、书名、出版社、作者、馆藏地点、库存量、摘要)。
图书信息表的字段说明如表3-1所示:
第 14 页
表3-1图书信息表的字段
字段名 数据类型 长度 允许空 字段说明 Title bigint 20 否 书名 Author varchar 10 否 作者 Publisher varchar 20 否 出版社 Astract varchar 50 否 摘要 CollectionSite varchar 10 否 馆藏地点 [No.] int 10 否 序号 Barcode varchar 20 否 索书号 Stocks int 20 否 库存量
用户登录信息表tb_Login用来保存用户的基本信息(用户编号、用户名、密码、登录时间、登录次数),该表的结构如表3-2所示。
表3-2 tb_login结构表
列名 数据类型 长度 允许空 功能描述
ID bigint 8 否 用户编号 User varchar 30 否 用户名 PWD varchar 30 否 密码 LoginTime datetime 20 是 登录时间 Logintimes int 20 是 登录次数
注册用户信息表(tb_Users)用来保存用户注册的信息(用户编号、用户名、密码、性别、密码问题、密码答案、注册时间),该表的结构如表3-3所示
表3-3 tb_Users的结构
列名 数据类型 长度 允许空 功能描述
ID varchar 8 否 用户编号
User varchar 30 否 用户名
PWD varchar 30 否 密码
Sex varchar 10 否 性别
Question varchar 50 否 密码问题
Answer varchar 50 否 密码答案
Time datetime 20 否 注册时间
第 15 页
3.2.3 创建数据库连接
在进行动态网站开发时,一个很重要的步骤就是建立数据库的连接,即是访问数据库。访问数据库可以利用DSN和非DSN两种方法。应用DSN访问数据库需要配置ODBC数据源(即是DSN系统),该方法的优点是比较安全。而应用非DSN访问数据库不需要配置ODBC数据源,但是为系统安全。本系统采用DSN方法访问数据库。具体步骤和方法如下:
1)为要访问的数据库建立ODBC 数据源
要访问网上数据库, 必须首先设定数据来源。在服务器上打开我的电脑中的控制面板双击OCBC,在系统DSN下选添加,选出你预先做好的数据库种类、名称和位置。数据源名为Library_sql70, 主数据库名称为Library。
2)创建数据库连接
在ASP 程序中如果要访问数据库, 必须首先创建与数据库的连接, 命令格式如下:
Set OBJdbConnection= Server . CreateObject ( "ADODB. Connection")
3) 打开待访问的数据库
使用Connection 对象的Open 方法打开要访问的数据库, 命令格式如下:
OBJdbConnection.Open “Library_sql70”
4)访问数据库
执行SQL 命令, 即对数据库进行操作, 这里要使用的“Ex ecute”,命令格式如下:
SQLQuery= "SELECT * FROM t_Table1"
Set RS = OBJdbConnection. Execute( SQLQuery )
5)断开与数据库的连接
关闭结果集对象, 断开与数据库连接, 命令格式如下:
RS. Close
Conn. Close
3.3 数据库访问
图书信息检索系统利用ASP对WEB 数据库的访问过程如图3-3所示,它是通过其内置的ADO 组件的三个对象Connection对象、Recordset 对象、Command 对象来实现的。其实现步骤为:
(1)创建 ODBC 数据源即 DSN (Data Source Name)和使用其它技术访问数据库一样,要在WEB服务器上建立所使用数据库的ODBC数据源。创建方
第 16 页
法:在控制面板的 “ODBC 数据源”选项中建立指向所使用数据库的系统数据源与文件数据源。
(2)建立与用户的交互,通过嵌在 HTML 页面中的 Form 表单取得客户端数据并交给WEB服务器,由WEB 服务器将数据传递给ASP网页。
(3)创建与数据库的连接,使用 Connection 对象建立 ASP 与数据库的连接。
(4)创建数据集,WEB 服务器在响应客户端数据查询后,会送出与数据查询字符串相符合的结果给客户端,而客户端所得到的数据集合就是记录于服务器端的Recordset 对象。
(5)操作数据库,使用Command对象操作数据库,Command对象控制对数据库发出的请求信息,并递交查询信息,告诉数据库系统需要何种数据,将符合要求的数据放在 Recordset 对象内。
(6)返回操作结果,将操作结果转换成标准的 HTML 文件输出到浏览器。
(7)关闭记录集和数据库,使用 Recordset 对象和 Connection对象的 Close方法关闭记录集和数据库
浏览器 浏览WebWeb服务
器 服务器器
ASP程序 ADO对象 Web数据库
ODBC
图3-3系统访问过程
3.4实现添加、查询、修改和删除功能
在本系统主要用于用户进行各种信息查询图书基本信息和管理员进行查询添加修改删除图书基本信息(索书号、条形码、书名、出版社、作者、馆藏地点、库存量等),以上的功能主要用以下命令来实现的:
, AddNewManage:负责添加信息业务。
, DeleteManage:负责删除信息业务。删除一项图书信息或一类图书信息。
, InquiryManage:负责查询信息业务。用户或是管理员可以按查询条件进
行具体或模糊查询。
第 17 页
, ModifyManage:负责修改信息业务。对已有信息作出更新操作。
查询优化是为了提高数据查询的效率和性能。在网络数据库系统中,系统的性能主要受I/O,CPU和网络瓶颈的影响。为了提高系统性能,必须精心设置服务器、数据库、进程并减少数据库的冲突,消除瓶颈,使系统的处理时间最短。
SQL Server 2000数据库内核使用了一个基于成本的查询优化器自动优化向系统发出的数据查询操作。通过查询分析、索引选择和连接选择三个阶段来实现SQL Server 2000的优化过程。Windows 2000 Server支持FAT和NTFS两种文件系统。尽管NTFS有许多高级的功能,但是SQL Server 2000管理自己的数据访问不使用这些高级功能。因此,在系统开发时,将SQL Server 2000安装在服务器单独划分的FAT分区上以获得最快的文件访问速度。为了提高系统性能,尽量减少分配给操作系统的内存和高速缓存,不使用不必要的驱动程序与写缓存。合法设置参数,避免网络错误。
在SQL Server 2000数据行中,有定长列和变长列之分。变长列比定长列的开销大。数据行的定长列需开销4字节,而对于变长列,第一个变长列的开销为5字节,其余每个变长列增加1字节开销。在SQL Server 2000中,含有空值的列作为变长列处理,因此,从性能角度考虑,指定为非空(NOT NULL) ,并建立默认值。 3.5 Web系统测试
搭建Web环境来测试Web系统是否正常,Web环境搭建如下:
1)安装IIS,安装IIS的操作步骤如下:
(1)单击【开始】?【控制面板】命令,打开控制面板,然后双击“添加删除程序”项启动“添加后删除程序”应用程序。
(2)在“添加后删除程序”对话框中,单击“添加后删除Windows组件”项,出现“Windows组件向导”对话框。
(3)在该对话框中的“组件”列表中选中“Internet信息服务(IIS)”复选框
(4)单击【下一步】按钮,然后根据向导进行安装
2)设置Web站点的虚拟目录(主)目录和主文档。
3)将连接SQL Server 2000 服务器sa的Library数据库信息保存在数据链接文件Librarylinks.UDL中,该文件保存在D。/www目录下,以后在链接字符中引用该文件。
下面分别说明各个模块的具体实现。
完成以上的工作后就开始检查系统是否正常。为了用户方面登录,设置网
第 18 页
址(http://192.168.1.1/index.asp)作为访问建大图书信息检索系统的登陆界面的网址,可以通过浏览器输入http://192.168.1.1/index.asp网址进行访问,进入的登陆界面如图3-4所示。
图3-4用户登录界面
用户登入系统时进行两重验证,第一步是使用JavaScript验证用户名或密码是否为空。第二步是调用用户验证方法验证输入的用户名是否存在和密码是否正确。
第一步时,若登录时用户名或密码其中任一项未填写提示“请输入用户名”。此时页面不跳转,直至用户完整输入用户名和密码。接着进行第二步验证,用户验证业务调用相关程序访问数据库,查找输入的用户名是否存在,若不存在,返回false,并提示“对不起,您的用户名不存在”;若存在,返回true,继续进行密码验证,将输入的密码和此用户名储存在数据库中的密码比对,若匹配,验证成功。跳转检索界面如图3-5所示。
图3-5用户检索界面
第 19 页
用户输入检索词进行检索时,要进行相关验证。第一步如果用户输入的检索词数据库没有存在相关的信息,则返回提示语“重新检索”,如果存在相关的信息,则后台反馈回检索结果的界面见图3-6所示。
图3-6检索输出结果界面
3.6 系统安全性和维护探讨
随着信息系统应用的广泛和深入,其安全问题的重要性己引起了人们的充分重视。针对基于Internet的信息管理系统的安全性问题,从数据库、网络、操作系统、安全管理以及应用程序本身五个方面对信息系统的安全性进行了分析,并将其运用到应用程序开发中,提高了学术论文管理系统的数据信息的安全性和可靠性,为学术论文管理系统的推广应用打下了一定的安全基础。 3.6.1服务器端Win2000的安全设置
只有正确的安装和设置Windows 2000 Server才能使其在安全方面发挥应有的作用。
1)正确安装Win2000 Server
分区和逻辑盘的分配。微软的IIS经常有泄漏源码/溢出的漏洞,如果把系统和11S放在同一个驱动器会导致系统文件的泄漏甚至入侵者远程获取ADMIN。本系统的配置是建立三个逻辑驱动器,C盘10G,用来装系统和重要的日志文件,D盘10G放IIS,E盘10G放TFP,这样无论IIS或FTP出了安全漏洞都不会直接影响到系统目录和系统文件。因为,IIS和TFP是对外服务的,比较容易出问题。而把IIS和TFP分开主要是为了防止入侵者上传程序并从IIS
第 20 页
中运行。
安装顺序的选择。一般的人可能对安装顺序不太重视,认为只要安装好了,怎么装都可以的。很多时候正是因为管理员思想上的松懈才给不法分子以可乘
之机。Win2000在安装中有几个顺序是一定要注意的:
首先,何时接入网络:Win2000在安装时有一个漏洞,在你输入Adminisrtator密码后,系统就建立了ADMIN$的共享,但是并没有用你刚刚输入的密码来保护它这种情况一直持续到你再次启动后,在此期间,任何人都可以通过ADMIN$进入你的机器;时,只要安装一完成,各种服务就会自动运行,而这时的服务器是满身漏洞,非常容易进入的,因此,在完全安装并配置好Win2000 SERVER之前,一定不要把主机接入网络。其次,补丁的安装:丁的安装应该在所有应用程序安装完之后,因为补丁程序往往要替换/修改某些系统文件,如果先安装补丁再安装应用程序有可能导致补丁不能起到应有的效果,例如:IIS的HotFxi就要求每次更改IIS的配置都需要安装,尽管很麻烦,却很必要。
2)安全配置Win2000 Server
(1)端口:端口是计算机和外部网络相连的逻辑接口,从安全的角度来看,仅打开你需要使用的端口会比较安全,配置的方法是在网卡属性?TCP/IP?高级?选项?TCP/IP筛选中启用TCP/IP筛选,不过对于Win2000的端口过滤来说,有一个不好的特性:只能规定开哪些端口,不能规定关闭哪些端口;这样对于需要开大量端口的用户就比较麻烦。
(2)IIS:IIS是微软的组件中漏洞最多的一个,平均两三个月就要出一个漏洞,而微软的IIS默认安装又实在不敢恭维,所以IIS的配置是我们的重点,所以在本系统的WWW服务器采取下面的设置:
首先,把操作系统在C盘默认安装的Inetpub目录彻底删掉,在D盘建一个InetPub在IIS管理器中将主目录指向D:\Inetpub。
其次,在IIS安装时默认的scripsts等虚拟目录一概删除,这些都容易成为攻击的目标。我们虽然已经把InetPub从系统盘挪出来了,但这样作也是完全必要的。如果需要什么权限的目录可以在需要的时候再建,需要什么权限开什么。特别注意写权限和执行程序的权限,没有绝对的必要千万不要给。
(3)应用程序配置:在IIS管理器中删除必须之外的任何无用映射,必须指出的是ASP,ASP和其它确实需要用到的文件类型。我们不需要IIS提供的应用程序的映射,删除所有的映射,具体操作:在IIS管理器中右击主机?属性?WWW服务编辑?主目录配置?应用程序映射,然后就一个个删除这些映射。点击“确定”退出时要让虚拟站点继承刚才所设定的属性。
第 21 页
经过了Win2000 Server的正确安装与正确配置,操作系统的漏洞得到了很好的预防,同时增加了补丁,这样子就大大增强了操作系统的安全性能。 3.6.2用户登录的安全性
1)普通用户登录系统,只能查询所需要的信息,不能对数据进行修改,因此可以不需要控制其权限。而系统管理员可以对系统的数据进行修改、删除等操作,所以需要对其进行口令的验证,本系统中采用了MD5加密算法对系统管理员的密码进行加密。
MD5(MessageDigests 5,消息摘要算法)。MD5在UNIX操作系统中也是被用于加密用口令。MDS己被发现了一些弱点,但不影响这个算法的整体安全性,这种算法简单、紧凑、安全、速度很快,是一种非常优秀的单向散列函数。MD5的特点是:
(1)能处理任意大小的信息,并将其按信息摘要(MessageDiges)方法输出128位(即16个子节)长度的固定大小散列值。
(2)数据块的大小与原始信息的大小没有任何联系,同时源数据和产生的数据看起来也没有明显关系,源信息的一个微小变化都会对小数据块产生很大的影响。
(3)MD5是完全不可逆的,没有办法通过生成的散列值直接恢复原始消息。
2)口令管理,应该注意以下几种问题:
(1)重要的口令由专人或程序生成;
(2)不要将口令写在不安全的地方;
(3)口令要定期更改。
(4)增加口令检查功能,迫使用户选择强度足够的口令
(5)指定口令使用期限,强制用户定期更改口令。
(6)限制用户登录失败的次数(最多三次)。
3.6.3系统数据库的安全性
1)数据库备份与恢复
尽管采用了一些保护措施来防止数据库完整性和安全性被破坏,但有时一些破坏是不可避免的,数据库恢复技术是一种可采取的补救措施。数据库恢复具体可采用下面三种方法:
(1)利用操作系统提供的功能,将被错误删除或修改的数据恢复,或删除到回收站的数据恢复。
(2)定期地将整个数据库复制到软盘上保存起来,或刻录到光盘上保存起
第 22 页
来,当数据库遭到破坏后,就可以利用备份将数据恢复。
(3)利用各数据库之间的关系,用未遭到破坏的数据库恢复已遭到破坏的数据库。
计算机在运行过程中,应用软件有错、操作失误或某些部件故障等是难免的,由此可能引起数据损毁或系统崩溃,及时备份是保证计算机数据安全的最行之有效的方法,不仅要备份数据而且要备份系统,以便系统发生故障时能及时恢复系统,减少不必要损失。备份整个系统,采用了ghost软件,当系统出现故障无法恢复的时候,就通过ghost软件进行系统的恢复,保证了数据的安全性。
2)数据库加密
虽然计算机硬件可靠性逐年上升,但数据的常规备份机制始终不能忽视,所以,保障数据的安全最有效和直接的办法就是备份数据库中的数据。还有对数据库中不希望别人看到的数据进行加密,由于本系统的后台数据库是Access,所以具体的数据库加密办法如下:
(1)打开Access应用程序,选择“文件”菜单中的“打开”菜单项打开数据库,确保复选打开按钮下拉清单中的“以独占方式打开”,选择“工具”菜单中的“安全”菜单项的“设置数据库密码”子菜单。
(2)输入密码和验证框(输入两次是要防止上一次意外输错)。
(3)单击确定按钮。
将来要打开这个数据库时,会出现要求输入数据库口令对话框,输入上面第2步选择的密码即可进入该数据库。如果密码错误则无法打开该数据库。如果要撤销数据库的加密,方法也是同样,就是要与上面第一步一样,以独占方式打开数据库,输入密码打开数据库之后,再在“工具”菜单中的“安全”菜单项的撤销数据库密码,输入密码,单击确定按钮,则数据库密码撤销。
3)身份认证机制
非法用户不能登录到计算机系统,当然也就不会对系统内的数据构成安全威胁。这就要求设计计算机密码,在打开计算机的时候,选择DEL键,进入MCOS设置,设置了系统密码之后,用户就必须输入密码才能进入系统,如果密码不正确则不能进入。
4)访问控制
访问控制是指允许用户只能访问被授权访问的数据,以及限制不同的用户有不同的访问模式。数据库系统必须指定谁可以访问哪些数据。用户或者程序可能被授权读取、更改、删除或增加一个值、整个字段或记录,甚至是重新组织完整的数据库。
第 23 页
5)安全审计
可审计性是指能够对所有的数据库访问进行审计记录,以帮助在事后进行审计分析。从而可以追踪到谁访问修改过哪些数据的元素。同时系统还可以根据审计记录采取记录、报警或者关闭连接等必要措施,阻止非授权访问的进行。为了能够跟踪对数据库的访问,及时发现对数据库的非法访问和修改,需要对访问数据库的一些重要事件进行记录,利用这些记录可以协助维护数据库的完整性,还可以帮助事后发现是哪一个用户在什么时间影响过哪些值。如果这个用户是黑客,审计日志可以记录黑客访问数据库敏感数据的踪迹和攻击敏感数据的步骤,因为他们可能用一组访问逐步逼近敏感数据,系统分析人员利用对踪迹的分析,可以辨别黑客对敏感数据已经获得了哪些线索,找出如何阻止的策略。
3.6.4 网络安全
网络层的安全性主要考虑以下几个方面:防火墙,虚拟专用网,入侵检测,安全评估,病毒防范。
1)防火墙
网络与操作系统安全受到的主要威胁是内部和外部黑客的破坏和侵入还有
[6]病毒的威胁,防范网络入侵的技术目前使用得最多的是防火墙技术。防火墙的原理就是分析流经防火墙的数据包,符合安全要求的允许通过,不符合的予以拒绝,其结果将网络以防火墙为界隔离出安全等级不同的区域。
2)病毒防范
具体病毒预防方法:
(1)尊重知识产权,不要随意拷贝和使用未经安全检测的软件,杜绝计算机病毒交叉感染和传播渠道。
(2)对于新购置的计算机系统硬、软设备,都应该首先进行病毒检查,最好保证不外借。
(3)慎重使用网络和公告牌信息,注意其规范性。
(4)尽量禁止在计算机上运行任何游戏。游戏盘使用频繁,最容易感染病毒。
(5)最好不要用软盘引导系统,这样可以较好的防止引导区传染的计算机病毒的传播。
(6)采取必要的病毒检测、监察措施,制定完善的管理准则。
(7)要定期或随时利用杀毒软件杀病毒。
第 24 页
3.6.5 安全管理
安全管理是系统安全的重要组成部分,负责对安全架构的其它几个部分进行协调和监管,以实现安全保密架构的整体安全防范职能。安全保密管理部分在很大程度上涉及到人员管理和资源调配等管理层面的内容,因而也是整个安全保密架构中技术手段和管理手段结合较紧密的一个部分。
1)物理和环境安全
主机服务器应该放置于主机房,严禁无关人员随意进出主机房,非机房工作人员出入机房必须进行进出登记手续。
2)安全组织
[5]作为安全管理体系的一部分,必须建立一系列的安全机构。一个管理框架应该是为初始化并控制实现组织内部的信息安全而建立的。合适的系统的管理应支持信息安全政策,指定安全系统中的各类角色,并协调组织内各项因素,以实现信息安全。必要时,在系统内应建立一些专用的信息安全知识的资料库,供组织内部使用。同时,完备的信息安全系统应时与组织外部的安全专家联络,跟踪最新动向、监测标准和评估方法,并在处理安全事件时,提供适当的解决
办法。
第 25 页
4 总结与展望
随着网络技术的发展,为图书馆实现资源共享、交互动态查询等提供了坚实的基础,本文论述的正是各局域网不同的数据库向互联网发布的一个接口。在具体的应用中,设计动态交互式访问数据库时,还可以进一步嵌套,以便检索到需要更详细的数据,这就要求程序做得更细,但涉及的数据库也更多、更复杂。
开发网上图书信息检索系统是一件较为复杂而繁琐的工作,牵涉到许多相关技术。如果在Web服务器与局域网的数据服务器之间建立镜像热备份,这样,网上用户就可以通过浏览器检索到动态的或者说同步更新的数据。可是由于时间和能力有限,本次毕业设计只完成了数据库设计,访问数据库,实现查询、添加、删除、修改等功能以及系统安全性和维护探究,还许多内容待完成另外完成的内容还需要补充和完善。
第 26 页
参考文献
[1]文振焜(WEB 数据库系统开发教程(北京:清华大学出版社(2007 [2]阮家栋. Web数据库技术(北京:科学出版社(2005(
[3]王磊(ASP数据库技术在图书馆Web系统中的应用(河南机械高等专科学校报(2006 [4]赛奎春.ASP信息系统开发实例精选.机械工业出版社.2005.05. [5]李杰,初晓璐等.ASP数据库开发实例精粹.电子工业出版社.2005.05. [6]杨硕.Web服务器安全性.清华大学出版社.2004.06.
[7]刘海清,张永林(ASP进行动态和交互式数据查询(计算机应用研究(2003. [8] 廖信彦.Active Server Pages应用大全———ASP 与数据库的整合[M ] .清华大学出版社.2000.
[9] 罗亚,胡昌盛.网络数据库系统的开发策略[ J ] .现代计算机.2000.4: 15,22. [10] 钱文波,谢金宝.“SQL Server数据库性能优化技术[ J ] ”.《微型机与应用》. 1999,,18 (3) :7,9
[11] 李湘江,李湘宏等. 基于ASP 的Web 数据库检索. 情报科学.2001.12 [12]Stern D.new search and Navigation techniques in the digital library[J].Scietee and
techniology libraries.1988.
[13]Dan harkey R O.Client/Server programming with Java and CORBA[M](Wiltely computer publishing(USA(1997(
[14]G Paulley,Plarson.Exploiting uniqueness in query optimization[C](in:IEE Int conf on data
Engineering(1994(
[15]R Bryant.Graph-based algorithm for Boolean function manipulation[C](In:IEEE Trans conf
on computers(1986(
[16]赵鹏(用ASP设计Web站点的技术与方法(交通与计算机(2000(3( [17]汪小平,吴勇强,张宏林等(ASP 网络开发技术(北京:人民邮电出版社(2000( [18]李媛媛.管理信息系统安全机制的研究与实现:[学位论文].西安:西安交
通大学,2002.
[19]李海泉,李健.计算机系统安全技术.北京:人民邮电出版社,2001. [20]杨义先,钮心忻,李名选.网络信息安全与保密.北京:北京邮电大学出 版社.2001.
[21]石玉,张文建.杨化动.范孝良.基于BS/模式的供电MSI综合查询系统的设计.华北电力大
第 27 页
学报,2001(4)
[22]刘卫国,严晖.数据库技术与应用:SQL Server[M].北京:清华大学出版社,2007. [23]刘友华,王贤平,吴伟.NET环境下数据库应用系统开发技术[M].北京:科学出版社,2004.
[24]阮文江.JavaScript程序设计基础教程[M].北京:人民邮电出版社,2004. [25]郑宇军.C# 2.0程序设计教程[M].北京:清华大学出版社,2005. [26]Charles Petzold.Programming Microsoft Windows with C# [M].US:Microsoft, 2003.
第 28 页
转载请注明出处范文大全网 » Pubmed检索系统的主要特