范文一:搜索引擎的历史和发展
www.D276.COM,www.576F.CO M,www.77WI.COM,www.9K68.COM,www.dk18.com,www.laosb.com,www.hogoo8.com,www.beiren8.com,www.yantaibao.com,www.qudoubar.com
目录:
搜索引擎的历史和发展 ________ 2
引擎的工作原理 _____________ 6
搜索引擎的种类及其区别 ______ 7
? 全文搜索引擎 _____________ 7
? 目录索引 _______________ 7 ?其他 ______________________ 8 各种搜索引擎 _______________ 8
代表网站及其特点 ____________ 8 搜索引擎的比较及其参数 ______ 9 特色网站介绍 _______________ 11 使用搜索引擎 ______________ 12
常用的搜索技巧 _____________ 12 如何正确选择搜索引擎 _______ 15 我的心得体会 _______________ 16
1
搜索引擎的历史和发展
1990年以前,没有任何人能搜索互联网。
所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。
Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider(Spider FAQ)程序。世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。
与Wanderer相对应,1993年10月Martijn Koster创建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。
随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Wanderer基础上,一些编程者将传统的Spider程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:Scotland的JumpStation、Colorado 大学Oliver McBryan的The World Wide Web Worm
(First Mention of McBryan's World Wide Web Worm)、NASA的Repository-Based Software Engineering (RBSE) spider。JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关
2
联度可言。而RBSE是第一个索引Html文件正文的搜索引擎,也是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。
Excite 的历史可以上溯到1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目Architext,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。(注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile)
1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线。除了网站搜索,它还支持Gopher和Telnet搜索。
1994年4月,Stanford University的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo(Jerry Yang Alerts a Usenet group to the
Yahoo Database ,1996年的Yahoo)。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Wanderer只抓取URL,但URL信息含量太小,很多信息难以单靠URL说清楚,搜索效率很低。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。(注:Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务;2002年10月9日,Yahoo放弃自己的网站目录默认搜索,改为默认Google的搜索结果,成为一个真正的搜索引擎。并于2002年12月23日收购inktomi,于2003年7月14日收购包括Fast和Altavista在内的Overture)
1994年初,Washington大学CS学生Brian Pinkerton开始了他的小项目WebCrawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。(注:后来webcrawler陆续被AOL和Excite收购,现在和excite一样改用元搜索引擎Dogpile)
Lycos(Carnegie Mellon University Center for Machine Translation Announces
Lycos )是搜索引擎史上又一个重要的进步。Carnegie Mellon University的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。1994年7月20日,数据量为54,000的Lycos正式发布。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量:1994年8月,,394,000 documents;1995年1月,,1.5 million documents;1996年11月,,over 60 million documents。(注:1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服务)
Infoseek(Steve Kirsch Announces Free Demos Of the Infoseek Search
Engine)是另一个重要的搜索引擎,虽然公司声称1994年1月已创立,但直到年底它的搜索引擎才与公众见面。起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。但是它的发展史和后来受到的众口称赞证明,起初是否第一个登台并不总是很重要。Infoseek的友善用户界面、大量附加服务(such as UPS tracking, News, a directory, and the
like) 使它声望日隆。而1995年12月与Netscape的战略性协议,使它成为一个
3
强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!提供该服务。(注:Infoseek后来曾以相关性闻名,2001年2月,Infoseek停止了自己的搜索引擎,开始改用Overture的搜索结果)
1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。(注:元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。)
DEC的AltaVista(2001年夏季起部分网友需通过p-roxy访问,无p-roxy可用qbseach单选altavista搜索,只能显示第一页搜索结果)是一个迟到者,1995年12月才登场亮相(AltaVista Public Beta Press Release )。但是,大量的创新功能使它迅速到达当时搜索引擎的顶峰。Altavista最突出的优势是它的速度(搜索引擎9238:比较搞笑,设计altavista的目的,据说只是为了展示DEC Alpha芯片的强大运算能力)。
而Altavista的另一些新功能,则永远改变了搜索引擎的定义。
AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。用户可以用AltaVista搜索Newsgroups(新闻组)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。(2003年2月18日,Altavista被Overture收购。)
然后到来的是Inktomi。1995年9月26日,加州伯克利分校CS助教Eric Brewer、博士生Paul Gauthier创立了Inktomi(UC Berkeley Announces
Inktomi),1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。(注:Hotbot曾是随后几年最受欢迎的搜索引擎之一,后被Lycos收购;inktomi于2002年12月23日被Yahoo收购)
Northernlight 公司于1995年9月成立于马萨诸塞州剑桥,1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。(注:2002年1月16日,Northernlight公共搜索引擎关闭,随后被divine收购,但在Nlresearch,选中"World Wide Web only",仍可使用Northernlight搜索引擎)
4
1998年10月之前,Google只是Stanford大学的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg
的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。
Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。
在2000年中以前,Google虽然以搜索准确性备受赞誉,但因为数据库不如其它搜索引擎大,缺乏高级搜索语法,所以推广并不快。直到2000年中数据库升级后,又借被Yahoo选作搜索引擎的东风,才一飞冲天。
Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。(2003年2月25日,Fast的互联网搜索部门被Overture收购)
Teoma 起源于1998年Rutgers大学的一个项目。Apostolos Gerasoulis教授带领华裔Tao Yang教授等人创立Teoma于新泽西Piscataway,2001年春初次登场,2001年9月被提问式搜索引擎Ask Jeeves收购,2002年4月再次发布。Teoma的数据库目前仍偏小,但有两个出彩的功能:支持类似自动分类的Refine;同时提供专业链接目录的Resources。
Wisenut 由韩裔Yeogirl Yun创立。2001年春季发布Beta版,2001年9月5日发布正式版,2002年4月被分类目录提供商looksmart收购。wisenut也有两个出彩的功能:包含类似自动分类和相关检索词的WiseGuide;预览搜索结果的Sneak-a-Peek。
Gigablast 由前Infoseek工程师Matt Wells创立,2002年3月展示pre-beta版,2002年7月21日发布Beta版。Gigablast的数据库目前仍偏小,但也提供网页快照,一个特色功能是即时索引网页,你的网页刚提交它就能搜索(注:这个spammers的肉包子功能暂已关闭)。
Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域,此后技术升级明显加快。
北大天网 是国家"九五"重点科技攻关项目"中文编码和分布式中英文信息发现"的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务。2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。
Baidu 2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只
5
为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。 引擎的工作原理
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎,也不能真正理解网页上的内容,它只能机械的匹配网页上的文字。
真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的文字,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。
搜索引擎的原理,可以看做三步:从互联网上抓取网页?建立索引数据库?在索引数据库中搜索排序。
从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并 沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页 收集回来。
建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信
6
息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。
互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的网页。而互联网上有更大量的网页,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。
你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的网页文字信息。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。
搜索引擎的种类及其区别
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
? 全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
? 目录索引
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project
(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。
7
? 元搜索引擎
元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有 InfoSpace 、 Dogpile 、 Vivisimo 等,中文元搜索引擎中具代表性的有 搜星搜索引擎 。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
?其他
1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。
2、门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
3、免费链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。
各种搜索引擎
代表网站及其特点
常用中文搜索引擎
约1.24亿中文网页,平均2周更新一遍,对部
分网页每天更新。提供百度快照、网页预览/预www.baidu.coBaidu 览全部结果、相关搜索词、错别字纠正提示、m Flash搜索、信息快递、百度搜霸、搜索援助中
心,推荐使用MP3搜索。Baidu搜索技巧
中文网页数不详,按比例推算约8500万。平均
1月更新一遍,对部分网页每日更新,由
BasisTechnology 提供中文处理技术,搜索相关www.google.coGoogle中文 m/intl/zh-CN/ 性高,高级搜索语法丰富。提供Google工具
条、网页快照、图像搜索(4.25亿图片)、新
闻组搜索。Google搜索帮助
Alltheweb 4480万简体中文网页,1401万繁体中文网页,www.alltheweb
.com (Fast) 需单选中简体中文语言搜索,否则效果不好。
中文网页数不详,从检索效果上看与Google相www.openfind.Openfind中com/cn.web.ph近。更新较慢,提供按网页大小或日期排序。文 p?u=cn Openfind查询秘诀
8
约6000万网页,更新略慢,搜索相关性较低。http://e.pku.edu北大天网 提供天网搜霸、历史网页。推荐使用ftp搜索。.cn/ 天网使用帮助
搜索引擎的比较及其参数
1、搜索准确率
Google:在搜索到的全部20个结果中有8个成功显示出M65手机的价格,最先显示出来的是第2条,准确度40%。
百度:在20个搜索结果中有9个成功的显示出了M65手机的价格,其中搜索结果的第一项就就显示出价格范围,准确度45%。
一搜:在20个搜索结果中成功的显示出价格的为5个,其中最先成功的为第3项,准确度25%。
中搜:在20个搜索结果中有8个成功的显示出价格,且第一项结果里就看到了价格,准确率40%。
搜狗:21个搜索结果里成功显示价格的为8个,但是其中有几个是重复的,第一个成功的结果在10项以后,准确率为30%。
新浪和网易由于使用了google的技术,从搜索结果上看它们的数据库也是一样的,准确率一样为40%。
2、网页快照
随着时间的流逝,部分网站可能会关闭或者对较老的资料进行了删除更新,这样就有一部分资料无法查询,为了解决这个问题,各大搜索引擎都推出了快照功能,在搜索引擎的网站服务器上保存了互联网上几乎所有网站的大部分页面,在不能链接到所需网站的时候,也能使用网页快照功能调出搜索引擎为您暂存的网页救急。下面笔者就来测试一下几大主流搜索引擎打开快照功能的成功率。测试中笔者选取了老掉牙的微机型号——"486DX100",结果以20个快照的成功比率来计算。
Google:在第一次进行测试的时候可能是网络方面的问题20个快照没有一个打开的,但是使用相同数据库的新浪和网易却可以打开,在第二天补测的时候
9
前10个快照打开,后10个失败,成功率不如使用相同数据库的新浪、网易,成功率50%。
百度:20个搜索结果的快照全部成功打开,成功率100%,看来以后要是找老
文件就得靠百度了。
一搜:20个结果的快照全部成功打开,成功率100%。
中搜:20个搜索结果的快照打开了17个,成功率85%。
搜狗:20个搜索结果的快照全部成功打开,成功率100%。
新浪:20个搜索结果中快照成功打开16个,成功率80%。
网易:与新浪使用了相同的数据库,所以它的成功率与新浪相同,成功率80%。
3、分类搜索
分类搜索引擎采用网站登录/收录方式,依据主旨、用户对象及网络资源状况构建分类体系,把收集到本地的网站页面进行人工编辑,层层类分,形成纵向隶属、横向关联的网站目录数据库。这样可以近一步缩小搜索范围,从而减少有用户的搜索时间。
目前的分类主要包括图片、音乐、新闻等,下面笔者就以一实例来做个准确度的测试。MP3是目前搜索绿比较高的文件,在测试中笔者选取了最近较流行的歌曲"七里香"的MP3文件,结果以前20项所有连接的下载成功率来计算。
Google:因为google没有专用的音乐下载分类,所以笔者使用了"七里香+下载"为条件进行搜索,在搜索的前20个结果全部需要开新页面进行下载,其中成功数仅为8个,但这对只是用普通搜索功能进行的测试来说已经是个不错的结果了,成功率 40%。
百度:20项全部可以下载,而且有文件大小和速度标识,但有两项下载的不是七里香的MP3,成功下载连接18,成功率90%。
一搜:20项搜索结果全部下载成功,下载界面文件类型、速度等标识齐全,不过下载时需要打开二级网页进行下载。成功率 100%。
中搜:20项搜索结果全部下载成功,下载界面文件类型、速度等标识齐全,不过有五项是其专集里的其它歌曲,成功率 75%。
搜狗:由于搜狗也没有专门的音乐搜索引擎,笔者的搜索条件仍为"七里香+下载",搜索结果全部在二级网页,经过一番努力笔者只成功的下载了7个。成功率 35%。
10
新浪:与百度和一搜一样有专门的MP3分类,搜索结果界面标识齐全,20个搜索结果全部可以下载,但有一个不完全只有几秒,2个错误的歌曲,下载成功率 85%。
网易:网易拥有专门的音乐搜索引擎,而且界面做得很别致,下载界面歌曲的各项标识齐全,可能是由于其音乐搜索功能还在建设完善中的原因,20项下载结果中有7项下载结果不符,1项无效,成功率为60%。
三、高级搜索
为了能做到万里挑一,更准确、更省时的找到相关信息,部分专业搜索引擎还提供了"高级搜索"功能。其中Google和百度在这方面做的比较出色,从关键位置、到文件格式、发布时间可谓详尽。
特色网站介绍
各大搜索引擎为了在竞争中占有更大的市场份额,除了基本的图片、网站等基本搜索功能,纷纷推出了个性服务。
Google:手气不错、论坛搜索、目录搜索
手气不错,输入搜索关键字都点击"手气不错"可以快速找到google为您推荐的最佳网页。
论坛搜索,常泡论坛的朋友都知道,网络上有部分信息论坛中的发布时间要早于网站,而且有的信息只能在论坛上才可以看到。为此,gooogle也特别设置了论坛搜索功能,专门用来查询并观看各讨论区里的留言信息。
目录搜索,Google 的网页目录能帮助您了解各分类主题的相关程度,使用网路目录检索,能将搜索范围局限于特定的分类内,略去类似但无关的其它网页。例如检索各『大学』,如果将搜索范围设定于『教育机构』的分类内,便可略去其它网页像是『大学书城』等信息。
11
百度:贴吧
贴吧,百度的贴吧是个类似BBS的功能,可以在里边随意的发表信息,而贴吧搜索则是可以在这些发表的信息中进行搜索。
新浪:黄页、万师行
通过黄页功能可以快速找到万方数据提供的企业地址、简介等相关信息,使用"万师行",可以快速找到各个行业的专业服务者。
网易:时尚搜索
时尚搜索,利用网易的时尚搜索功能,可以快速搜索到可视手机、汽车改装等最新、最炫的时尚信息。
使用搜索引擎
常用的搜索技巧
细化搜索条件
你给出的搜索条件越具体,搜索引擎返回的结果也会越精确。
比方说你想查找有关电脑冒险游戏方面的资料,输入game是无济于事的。computer game范围就小一些,当然最好是敲入computer adventure game,返回的结果会精确得多。
有时你甚至可以问搜索引擎一个问题,返回结果的准确度会让你不得不佩服搜索引擎功能的强大。
一次,我们想查找有关根据IP地址判断访问来源方面的资料,由于知道以“IP address”搜索没用,加上搜索条件比较复杂,无法以单个的词或词组查询,因此我们干脆在Google搜索引擎中输入了整句话:
? How to recognize a visit from its IP address
结果在返回的网页链接中,第一个就是我们需要的。该网站不仅提供根据IP进行访问来源查询,还用虚拟现实(Virtual Reality)技术在地图上指出来源所在的城市~
可以看出将搜索条件细化,能够大幅提高你的搜索效率。
由于中英文在词语排列上的差异(英文词与词之间有空格隔开,而中文则没有),使得中文切词成为搜索引擎的一大挑战。虽然目前支持中文搜索的引擎在切词方面已做得相当出色,但求其完美无缺也不太现实。因此在搜索关键词较多的情况下,建议主动将中文字词之间用空格隔开,以避免过多的无效搜索。比如查中文电脑冒险游戏的资料,输入"电脑游戏 冒险",而不是"电脑冒险游戏"。
此外一些功能词汇和太常用的名词,如对英文中的“and”、“how”、“what”、“web”、“homepage”和中文中的“的”、“地”、“和”等等搜索引擎是不支持的。这些词被称为停用词(Stop Words)或过滤词(Filter Words),在搜索时这些词都将被搜索引擎忽略。
12
用好逻辑命令
精确搜索引擎基本上都支持附加逻辑命令查询,常用的是“,”号和“,”号,或与之相对应的布尔(Boolean)逻辑命令AND、OR和NOT。用好这些命令符号可以大幅提高我们的搜索精度。比较一下下面各搜索条件的含义:
? computer adventure game
最基本的搜索方式。查找与该关键词有关的记录,在过去通常情况下相当于布尔逻辑命令中“OR”的关系,翻译过来就是:
computer (OR)adventure(OR)games
因此搜索结果中不仅有同时包含三个关键字的记录,也有仅含部分关键字串(如 computer games)和个别关键字(如computer)的记录。目前搜索引擎的趋势是默认匹配全部关键词搜索,即仅返回包含所有关键词的记录,相当于下面将介绍的“+”号和AND的关系,当然有时也有例外。
?+computer +adventure +game
相当于布尔逻辑命令中的“AND”关系,翻译过来就是:
computer(AND)adventure(AND)games
因此搜索结果中只列出同时包含三个关键字的记录。在搜索条件中使用“+”号还可强制搜索引擎将一些停用词当作关键词进行搜索。比如我们搜索“who am i”时,其中“who”和“i”是停用词,我们可以在两个单词前加上“+”号强制对其进行搜索,此时的搜索条件即可为:+who +am +i。
?+computer +game -adventure
翻译过来就是:
computer(AND)game(NOT)adventure
列出所有包含computer game的记录,但在其中排除有关adventure的记录。
综上所述,“,”号(AND)用于在搜索中指定涵盖某项内容,而“,”号(NOT)则用来从结果中排除某项内容。
精确匹配搜索
? "computer adventure games"
它与 +computer +adventure +games 的区别是:
虽然后者限定网页中要同时包含三个关键字,但其顺序和相邻位置允许是任意的。而前者不仅要求网页中必须同时包含三个关键字,关键字的顺序也要求完全相同,并且它们必须还是挨在一起的,所以带“”号的查询范围更小。
此外使用“”号进行精确匹配查询还可用于达到我们特殊的搜索目的。比如一般情况下“who”、“i”作为停用词被搜索引擎忽略,但有时在搜索特别类型的信息时又必须包含这些停用词(如搜索影片名称“Who Am I”),这时我们就可以将全部关键词用“”号引起来,就可以强制搜索引擎将停用词作为短语的一部分进行搜索。
通过对上面这些逻辑符号的组合,能组成复杂的搜索条件,如"computer game" -adventure +new等等,从而使查询结果更加准确。
特殊搜索命令
? 标题搜索
13
多数搜索引擎都支持针对网页标题的搜索,命令是“title:”,在Yahoo中是“t:”(注意冒号为英文字符且后面不跟空格)。在进行标题搜索时,前面提到的逻辑符号和精确匹配原则同样适用。请看下面的例子:
? title(或t):computer adventure games ? title:+computer +adventure +games ? title:+computer +games -adventure ? title:"computer adventure games"
返回的结果都是标题中包含关键字、词的信息条目。
? 网站搜索
此外我们还可以针对网站进行搜索,命令是“site:”(Google)、“host:”(AltaVista)、“url:”(Infoseek)或“domain:”(HotBot)。如想查找AAA游戏制作公司网站的所有网页,可以输入:
? site(或host/url/domain):www.AAA.com
还可以在其中加入其他命令组成复杂的搜索条件,如:
? site:www.AAA.com +title:"computer games" -adventure
意思是查找AAA公司网站中所有标题里含有computer games的网页,但排除关于冒险游戏的网页。
说到这里大家可能已经意识到了,运用此命令我们可以达到一个极其重要的目的,就是检查我们的网站被索引的网页有多少。因此建议大家牢记这个命令。另外运用“site/host/url/domain”等搜索命令还可实现某一网站的站内搜索。比如Google引擎由于技术的先进性,通过其“site”命令实现的网站内部搜索甚至比专门的站内搜索程序还要好。
? 链接搜索
在Google和AltaVista中,用户均可通过“link:”命令来查找某网站的外部导入链接(inbound links)。如:
? link:www.AAA.com
?表述准确
搜索引擎会严格按照您提交的查询词去搜索,因此,查询词表述准确是获得良好搜索结果的必要前提。
一类常见的表述不准确情况是,脑袋里想着一回事,搜索框里输入的是另一回事。例如,要查找2004年国内十大新闻,查询词可以是“2004年国内十大新闻”;但如果把查询词换成“2004年国内十大事件”,搜索结果就没有能满足需求的了。
另一类典型的表述不准确,是查询词中包含错别字。
例如,要查找林心如的写真图片,用“林心如写真”,当然是没什么问题;但如果写错了字,变成“林心茹写真”,搜索结果质量就差得远了。不过好在,百度对于用户常见的错别字输入,有纠错提示。您若输入“林心茹写真”,在搜索结果上方,会提示“您要找的是不是: 林心如写真”。
查询词的主题关联与简练 目前的搜索引擎并不能很好的处理自然语言。因此,在提交搜索请求时,您最好把自己的想法,提炼成简单的,而且与希望找到的信息内容主题关联的查询词。 还是用实际例子说明。某三年级小学生,想查一些关于时间的名人名言,他的查询词是“小学三年级关于时间的名人名言”。
这个查询词很完整的体现了搜索者的搜索意图,但效果并不好。
14
绝大多数名人名言,并不规定是针对几年级的,因此,“小学三年级”事实上和主题无关,会使得搜索引擎丢掉大量不含“小学三年级”,但非常有价值的信息;“关于”也是一个与名人名言本身没有关系的词,多一个这样的词,又会减少很多有价值信息;“时间的名人名言”,其中的“的”也不是一个必要的词,会对搜索结果产生干扰;“名人名言”,名言通常就是名人留下来的, 在名言前加上名人,是一种不必要的重复。
时间名言”。 因此,最好的查询词,应该是“
试着找出下述查询词的问题,并想出更好的能满足搜索需求的查询词:
所得税会计处理问题探讨
周星驰个人档案和所拍的电影
?根据网页特征选择查询词
很多类型的网页都有某种相似的特征。例如,小说网页,通常都有一个目录页,小说名称一般出现在网页标题中,而页面上通常有“目录”两个字,点击页面上的链接,就进入具体的章节页,章节页的标题是小说章节名称;软件下载页,通常软件名称在网页标题中,网页正文有下载链接,并且会出现“下载”这个词。等等。
经常的搜索,并且总结各类网页的特征现象,并应用查询词的选择中,就会使得搜索变得准确而高效。
例如,找明星的个人资料页。一般来说,明星资料页的标题,通常是明星的名字,而在页面上,会有“姓名”、“身高”等词语出现。比如找林青霞的个人资料,就可以用“林青霞 姓名 身高”来查询。而由于明星的名字一般在网页标题中出现,因此,更精确的查询方式,可以是“姓名 身高 intitle:林青霞”。Intitle,表示后接的词限制在网页标题范围内。
这类主题词加上特征词的查询构造方法,适用于搜索具有某种共性的网页。前提是,您必须了解这种共性(或者通过试验性搜索预先发现共性)。
如何正确选择搜索引擎
1、查找2005年北大附中网校夏令营情况说明。
2、查找1982世界杯足球前四强的得主。
3、查找2002年狮子座流星雨的情况和图片。
4、查找小于200KB的FLASH指法练习小游戏。
5、查找我国最早的人口普查资料。
6、查找3个比较好的网上图书馆,了解它们的特点。
7、查找超级女生前10名的相关资料。
我们需要完成上述的7个任务,通过搜索,对Baidu,Google以及Sina搜索的准确度及速度进行调查,结果如下
Google Sina Baidu(速度/第几个准确)
1 0.061秒,2 0.86 秒,3 0.719773秒,1 2 0.208秒,无 0.46 秒,无 1.209187秒,无 7 0.102秒,2 0.17秒,3 0.576578秒,3
15
从上表的数据可以看出,baidu的搜索速度最快,搜索的准确度也不错。Google其次,sina最慢。但在调查过程中,我发现了一个很致命的问题。网站所显示的搜索速度与实际需要花费的时间是不相符的。例如搜索第1个题目,sina从开始搜索到显示几乎用了将近5秒钟。也就是说,这些数据并不是完全可信的。有时它告诉你搜索的很快,但却浪费了很多时间在显示上,这样就得不偿失了。综上所述,我认为还是baidu最好。
我的心得体会
通过做这次的报告,我发现了许多问题。
1、有条理最重要
在做一件很复杂,很凌乱的事情时,一定要有条理。就像这次做这个报
告,首先一定要在大纲视图中把结构看好,并先把结构打在上面。并且分
清一级标题,二级标题等,否则过一会儿就忘记了哪些需要怎样做了。我
在做的时候,下载的资料又想分成若干个标题就麻烦了,因为都忘记了应
该是第几级了。所以有条理得安排很重要。
2、搜索是一件麻烦事
以为搜索很容易,人人都会,但是原来有那么多技巧。可是呢,这些技巧
一般不是很实用的。因为要记这么多技巧是一件难事,而且我们也不是专
业的搜索人员,没必要记录下那么多的东西。平常搜索的时候,只要比较
能抓住关键就可以搜索得很好了。况且baidu等搜索引擎还提供帮助,在
搜索的条目底下会显示:你是否想要搜索??列出很多。当我们想不出来
如何措辞的时候,这些帮助可以提示我们。也就是说,上课用的搜索和平
常使用的搜索是不一样的。虽然上课学的搜索是一件麻烦事,但是平常使
用的搜索还是异常简单的。
3、做事需要有耐心
如此长篇大论的东西,做起来简直是烦人至极了。来回翻页,看着这么多
东西脑袋都大了,要是想做好就必须得有耐心,不能看了就烦,一烦就不
想好好做。那样就达不到预期的效果了。
16
17
范文二:【精品】搜索引擎的历史和发展(3)
目录:
搜索引擎的历史和发展 ________ 2
引擎的工作原理 _____________ 6
搜索引擎的种类及其区别 ______ 7
? 全文搜索引擎 _____________ 7
? 目录索引 _______________ 7 ?其他 ______________________ 8 各种搜索引擎 _______________ 8
代表网站及其特点 ____________ 8 搜索引擎的比较及其参数 ______ 9 特色网站介绍 _______________ 11 使用搜索引擎 ______________ 12
常用的搜索技巧 _____________ 12 如何正确选择搜索引擎 _______ 15 我的心得体会 _______________ 16
1
搜索引擎的历史和发展
1990年以前,没有任何人能搜索互联网。
所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。
Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider(Spider FAQ)程序。世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。
与Wanderer相对应,1993年10月Martijn Koster创建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。
随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Wanderer基础上,一些编程者将传统的Spider程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:Scotland的JumpStation、Colorado 大学Oliver McBryan的The World Wide Web Worm
(First Mention of McBryan's World Wide Web Worm)、NASA的Repository-Based Software Engineering (RBSE) spider。JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关
2
联度可言。而RBSE是第一个索引Html文件正文的搜索引擎,也是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。
Excite 的历史可以上溯到1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目Architext,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。(注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile)
1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线。除了网站搜索,它还支持Gopher和Telnet搜索。
1994年4月,Stanford University的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo(Jerry Yang Alerts a Usenet group to the
Yahoo Database ,1996年的Yahoo)。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Wanderer只抓取URL,但URL信息含量太小,很多信息难以单靠URL说清楚,搜索效率很低。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。(注:Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务;2002年10月9日,Yahoo放弃自己的网站目录默认搜索,改为默认Google的搜索结果,成为一个真正的搜索引擎。并于2002年12月23日收购inktomi,于2003年7月14日收购包括Fast和Altavista在内的Overture)
1994年初,Washington大学CS学生Brian Pinkerton开始了他的小项目WebCrawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。(注:后来webcrawler陆续被AOL和Excite收购,现在和excite一样改用元搜索引擎Dogpile)
Lycos(Carnegie Mellon University Center for Machine Translation Announces
Lycos )是搜索引擎史上又一个重要的进步。Carnegie Mellon University的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。1994年7月20日,数据量为54,000的Lycos正式发布。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量:1994年8月,,394,000 documents;1995年1月,,1.5 million documents;1996年11月,,over 60 million documents。(注:1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服务)
Infoseek(Steve Kirsch Announces Free Demos Of the Infoseek Search
Engine)是另一个重要的搜索引擎,虽然公司声称1994年1月已创立,但直到年底它的搜索引擎才与公众见面。起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。但是它的发展史和后来受到的众口称赞证明,起初是否第一个登台并不总是很重要。Infoseek的友善用户界面、大量附加服务(such as UPS tracking, News, a directory, and the
like) 使它声望日隆。而1995年12月与Netscape的战略性协议,使它成为一个
3
强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!提供该服务。(注:Infoseek后来曾以相关性闻名,2001年2月,Infoseek停止了自己的搜索引擎,开始改用Overture的搜索结果)
1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。(注:元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。)
DEC的AltaVista(2001年夏季起部分网友需通过p-roxy访问,无p-roxy可用qbseach单选altavista搜索,只能显示第一页搜索结果)是一个迟到者,1995年12月才登场亮相(AltaVista Public Beta Press Release )。但是,大量的创新功能使它迅速到达当时搜索引擎的顶峰。Altavista最突出的优势是它的速度(搜索引擎9238:比较搞笑,设计altavista的目的,据说只是为了展示DEC Alpha芯片的强大运算能力)。
而Altavista的另一些新功能,则永远改变了搜索引擎的定义。
AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。用户可以用AltaVista搜索Newsgroups(新闻组)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。(2003年2月18日,Altavista被Overture收购。)
然后到来的是Inktomi。1995年9月26日,加州伯克利分校CS助教Eric Brewer、博士生Paul Gauthier创立了Inktomi(UC Berkeley Announces
Inktomi),1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。(注:Hotbot曾是随后几年最受欢迎的搜索引擎之一,后被Lycos收购;inktomi于2002年12月23日被Yahoo收购)
Northernlight 公司于1995年9月成立于马萨诸塞州剑桥,1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。(注:2002年1月16日,Northernlight公共搜索引擎关闭,随后被divine收购,但在Nlresearch,选中"World Wide Web only",仍可使用Northernlight搜索引擎)
4
1998年10月之前,Google只是Stanford大学的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg
的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。
Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。
在2000年中以前,Google虽然以搜索准确性备受赞誉,但因为数据库不如其它搜索引擎大,缺乏高级搜索语法,所以推广并不快。直到2000年中数据库升级后,又借被Yahoo选作搜索引擎的东风,才一飞冲天。
Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。(2003年2月25日,Fast的互联网搜索部门被Overture收购)
Teoma 起源于1998年Rutgers大学的一个项目。Apostolos Gerasoulis教授带领华裔Tao Yang教授等人创立Teoma于新泽西Piscataway,2001年春初次登场,2001年9月被提问式搜索引擎Ask Jeeves收购,2002年4月再次发布。Teoma的数据库目前仍偏小,但有两个出彩的功能:支持类似自动分类的Refine;同时提供专业链接目录的Resources。
Wisenut 由韩裔Yeogirl Yun创立。2001年春季发布Beta版,2001年9月5日发布正式版,2002年4月被分类目录提供商looksmart收购。wisenut也有两个出彩的功能:包含类似自动分类和相关检索词的WiseGuide;预览搜索结果的Sneak-a-Peek。
Gigablast 由前Infoseek工程师Matt Wells创立,2002年3月展示pre-beta版,2002年7月21日发布Beta版。Gigablast的数据库目前仍偏小,但也提供网页快照,一个特色功能是即时索引网页,你的网页刚提交它就能搜索(注:这个spammers的肉包子功能暂已关闭)。
Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域,此后技术升级明显加快。
北大天网 是国家"九五"重点科技攻关项目"中文编码和分布式中英文信息发现"的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务。2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。
Baidu 2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只
5
为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。 引擎的工作原理
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎,也不能真正理解网页上的内容,它只能机械的匹配网页上的文字。
真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的文字,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。
搜索引擎的原理,可以看做三步:从互联网上抓取网页?建立索引数据库?在索引数据库中搜索排序。
从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并 沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页 收集回来。
建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信
6
息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。
互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的网页。而互联网上有更大量的网页,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。
你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的网页文字信息。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。
搜索引擎的种类及其区别
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
? 全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
? 目录索引
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project
(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。
7
? 元搜索引擎
元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有 InfoSpace 、 Dogpile 、 Vivisimo 等,中文元搜索引擎中具代表性的有 搜星搜索引擎 。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
?其他
1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。
2、门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
3、免费链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。
各种搜索引擎
代表网站及其特点
常用中文搜索引擎
约1.24亿中文网页,平均2周更新一遍,对部
分网页每天更新。提供百度快照、网页预览/预www.baidu.coBaidu 览全部结果、相关搜索词、错别字纠正提示、m Flash搜索、信息快递、百度搜霸、搜索援助中
心,推荐使用MP3搜索。Baidu搜索技巧
中文网页数不详,按比例推算约8500万。平均
1月更新一遍,对部分网页每日更新,由
BasisTechnology 提供中文处理技术,搜索相关www.google.coGoogle中文 m/intl/zh-CN/ 性高,高级搜索语法丰富。提供Google工具
条、网页快照、图像搜索(4.25亿图片)、新
闻组搜索。Google搜索帮助
Alltheweb 4480万简体中文网页,1401万繁体中文网页,www.alltheweb
.com (Fast) 需单选中简体中文语言搜索,否则效果不好。
中文网页数不详,从检索效果上看与Google相www.openfind.Openfind中com/cn.web.ph近。更新较慢,提供按网页大小或日期排序。文 p?u=cn Openfind查询秘诀
8
约6000万网页,更新略慢,搜索相关性较低。http://e.pku.edu北大天网 提供天网搜霸、历史网页。推荐使用ftp搜索。.cn/ 天网使用帮助
搜索引擎的比较及其参数
1、搜索准确率
Google:在搜索到的全部20个结果中有8个成功显示出M65手机的价格,最先显示出来的是第2条,准确度40%。
百度:在20个搜索结果中有9个成功的显示出了M65手机的价格,其中搜索结果的第一项就就显示出价格范围,准确度45%。
一搜:在20个搜索结果中成功的显示出价格的为5个,其中最先成功的为第3项,准确度25%。
中搜:在20个搜索结果中有8个成功的显示出价格,且第一项结果里就看到了价格,准确率40%。
搜狗:21个搜索结果里成功显示价格的为8个,但是其中有几个是重复的,第一个成功的结果在10项以后,准确率为30%。
新浪和网易由于使用了google的技术,从搜索结果上看它们的数据库也是一样的,准确率一样为40%。
2、网页快照
随着时间的流逝,部分网站可能会关闭或者对较老的资料进行了删除更新,这样就有一部分资料无法查询,为了解决这个问题,各大搜索引擎都推出了快照功能,在搜索引擎的网站服务器上保存了互联网上几乎所有网站的大部分页面,在不能链接到所需网站的时候,也能使用网页快照功能调出搜索引擎为您暂存的网页救急。下面笔者就来测试一下几大主流搜索引擎打开快照功能的成功率。测试中笔者选取了老掉牙的微机型号——"486DX100",结果以20个快照的成功比率来计算。
Google:在第一次进行测试的时候可能是网络方面的问题20个快照没有一个打开的,但是使用相同数据库的新浪和网易却可以打开,在第二天补测的时候
9
前10个快照打开,后10个失败,成功率不如使用相同数据库的新浪、网易,成功率50%。
百度:20个搜索结果的快照全部成功打开,成功率100%,看来以后要是找老
文件就得靠百度了。
一搜:20个结果的快照全部成功打开,成功率100%。
中搜:20个搜索结果的快照打开了17个,成功率85%。
搜狗:20个搜索结果的快照全部成功打开,成功率100%。
新浪:20个搜索结果中快照成功打开16个,成功率80%。
网易:与新浪使用了相同的数据库,所以它的成功率与新浪相同,成功率80%。
3、分类搜索
分类搜索引擎采用网站登录/收录方式,依据主旨、用户对象及网络资源状况构建分类体系,把收集到本地的网站页面进行人工编辑,层层类分,形成纵向隶属、横向关联的网站目录数据库。这样可以近一步缩小搜索范围,从而减少有用户的搜索时间。
目前的分类主要包括图片、音乐、新闻等,下面笔者就以一实例来做个准确度的测试。MP3是目前搜索绿比较高的文件,在测试中笔者选取了最近较流行的歌曲"七里香"的MP3文件,结果以前20项所有连接的下载成功率来计算。
Google:因为google没有专用的音乐下载分类,所以笔者使用了"七里香+下载"为条件进行搜索,在搜索的前20个结果全部需要开新页面进行下载,其中成功数仅为8个,但这对只是用普通搜索功能进行的测试来说已经是个不错的结果了,成功率 40%。
百度:20项全部可以下载,而且有文件大小和速度标识,但有两项下载的不是七里香的MP3,成功下载连接18,成功率90%。
一搜:20项搜索结果全部下载成功,下载界面文件类型、速度等标识齐全,不过下载时需要打开二级网页进行下载。成功率 100%。
中搜:20项搜索结果全部下载成功,下载界面文件类型、速度等标识齐全,不过有五项是其专集里的其它歌曲,成功率 75%。
搜狗:由于搜狗也没有专门的音乐搜索引擎,笔者的搜索条件仍为"七里香+下载",搜索结果全部在二级网页,经过一番努力笔者只成功的下载了7个。成功率 35%。
10
新浪:与百度和一搜一样有专门的MP3分类,搜索结果界面标识齐全,20个搜索结果全部可以下载,但有一个不完全只有几秒,2个错误的歌曲,下载成功率 85%。
网易:网易拥有专门的音乐搜索引擎,而且界面做得很别致,下载界面歌曲的各项标识齐全,可能是由于其音乐搜索功能还在建设完善中的原因,20项下载结果中有7项下载结果不符,1项无效,成功率为60%。
三、高级搜索
为了能做到万里挑一,更准确、更省时的找到相关信息,部分专业搜索引擎还提供了"高级搜索"功能。其中Google和百度在这方面做的比较出色,从关键位置、到文件格式、发布时间可谓详尽。
特色网站介绍
各大搜索引擎为了在竞争中占有更大的市场份额,除了基本的图片、网站等基本搜索功能,纷纷推出了个性服务。
Google:手气不错、论坛搜索、目录搜索
手气不错,输入搜索关键字都点击"手气不错"可以快速找到google为您推荐的最佳网页。
论坛搜索,常泡论坛的朋友都知道,网络上有部分信息论坛中的发布时间要早于网站,而且有的信息只能在论坛上才可以看到。为此,gooogle也特别设置了论坛搜索功能,专门用来查询并观看各讨论区里的留言信息。
目录搜索,Google 的网页目录能帮助您了解各分类主题的相关程度,使用网路目录检索,能将搜索范围局限于特定的分类内,略去类似但无关的其它网页。例如检索各『大学』,如果将搜索范围设定于『教育机构』的分类内,便可略去其它网页像是『大学书城』等信息。
11
百度:贴吧
贴吧,百度的贴吧是个类似BBS的功能,可以在里边随意的发表信息,而贴吧搜索则是可以在这些发表的信息中进行搜索。
新浪:黄页、万师行
通过黄页功能可以快速找到万方数据提供的企业地址、简介等相关信息,使用"万师行",可以快速找到各个行业的专业服务者。
网易:时尚搜索
时尚搜索,利用网易的时尚搜索功能,可以快速搜索到可视手机、汽车改装等最新、最炫的时尚信息。
使用搜索引擎
常用的搜索技巧
细化搜索条件
你给出的搜索条件越具体,搜索引擎返回的结果也会越精确。
比方说你想查找有关电脑冒险游戏方面的资料,输入game是无济于事的。computer game范围就小一些,当然最好是敲入computer adventure game,返回的结果会精确得多。
有时你甚至可以问搜索引擎一个问题,返回结果的准确度会让你不得不佩服搜索引擎功能的强大。
一次,我们想查找有关根据IP地址判断访问来源方面的资料,由于知道以“IP address”搜索没用,加上搜索条件比较复杂,无法以单个的词或词组查询,因此我们干脆在Google搜索引擎中输入了整句话:
? How to recognize a visit from its IP address
结果在返回的网页链接中,第一个就是我们需要的。该网站不仅提供根据IP进行访问来源查询,还用虚拟现实(Virtual Reality)技术在地图上指出来源所在的城市~
可以看出将搜索条件细化,能够大幅提高你的搜索效率。
由于中英文在词语排列上的差异(英文词与词之间有空格隔开,而中文则没有),使得中文切词成为搜索引擎的一大挑战。虽然目前支持中文搜索的引擎在切词方面已做得相当出色,但求其完美无缺也不太现实。因此在搜索关键词较多的情况下,建议主动将中文字词之间用空格隔开,以避免过多的无效搜索。比如查中文电脑冒险游戏的资料,输入"电脑游戏 冒险",而不是"电脑冒险游戏"。
此外一些功能词汇和太常用的名词,如对英文中的“and”、“how”、“what”、“web”、“homepage”和中文中的“的”、“地”、“和”等等搜索引擎是不支持的。这些词被称为停用词(Stop Words)或过滤词(Filter Words),在搜索时这些词都将被搜索引擎忽略。
12
用好逻辑命令
精确搜索引擎基本上都支持附加逻辑命令查询,常用的是“,”号和“,”号,或与之相对应的布尔(Boolean)逻辑命令AND、OR和NOT。用好这些命令符号可以大幅提高我们的搜索精度。比较一下下面各搜索条件的含义:
? computer adventure game
最基本的搜索方式。查找与该关键词有关的记录,在过去通常情况下相当于布尔逻辑命令中“OR”的关系,翻译过来就是:
computer (OR)adventure(OR)games
因此搜索结果中不仅有同时包含三个关键字的记录,也有仅含部分关键字串(如 computer games)和个别关键字(如computer)的记录。目前搜索引擎的趋势是默认匹配全部关键词搜索,即仅返回包含所有关键词的记录,相当于下面将介绍的“+”号和AND的关系,当然有时也有例外。
?+computer +adventure +game
相当于布尔逻辑命令中的“AND”关系,翻译过来就是:
computer(AND)adventure(AND)games
因此搜索结果中只列出同时包含三个关键字的记录。在搜索条件中使用“+”号还可强制搜索引擎将一些停用词当作关键词进行搜索。比如我们搜索“who am i”时,其中“who”和“i”是停用词,我们可以在两个单词前加上“+”号强制对其进行搜索,此时的搜索条件即可为:+who +am +i。
?+computer +game -adventure
翻译过来就是:
computer(AND)game(NOT)adventure
列出所有包含computer game的记录,但在其中排除有关adventure的记录。
综上所述,“,”号(AND)用于在搜索中指定涵盖某项内容,而“,”号(NOT)则用来从结果中排除某项内容。
精确匹配搜索
? "computer adventure games"
它与 +computer +adventure +games 的区别是:
虽然后者限定网页中要同时包含三个关键字,但其顺序和相邻位置允许是任意的。而前者不仅要求网页中必须同时包含三个关键字,关键字的顺序也要求完全相同,并且它们必须还是挨在一起的,所以带“”号的查询范围更小。
此外使用“”号进行精确匹配查询还可用于达到我们特殊的搜索目的。比如一般情况下“who”、“i”作为停用词被搜索引擎忽略,但有时在搜索特别类型的信息时又必须包含这些停用词(如搜索影片名称“Who Am I”),这时我们就可以将全部关键词用“”号引起来,就可以强制搜索引擎将停用词作为短语的一部分进行搜索。
通过对上面这些逻辑符号的组合,能组成复杂的搜索条件,如"computer game" -adventure +new等等,从而使查询结果更加准确。
特殊搜索命令
? 标题搜索
13
多数搜索引擎都支持针对网页标题的搜索,命令是“title:”,在Yahoo中是“t:”(注意冒号为英文字符且后面不跟空格)。在进行标题搜索时,前面提到的逻辑符号和精确匹配原则同样适用。请看下面的例子:
? title(或t):computer adventure games ? title:+computer +adventure +games ? title:+computer +games -adventure ? title:"computer adventure games"
返回的结果都是标题中包含关键字、词的信息条目。
? 网站搜索
此外我们还可以针对网站进行搜索,命令是“site:”(Google)、“host:”(AltaVista)、“url:”(Infoseek)或“domain:”(HotBot)。如想查找AAA游戏制作公司网站的所有网页,可以输入:
? site(或host/url/domain):www.AAA.com
还可以在其中加入其他命令组成复杂的搜索条件,如:
? site:www.AAA.com +title:"computer games" -adventure
意思是查找AAA公司网站中所有标题里含有computer games的网页,但排除关于冒险游戏的网页。
说到这里大家可能已经意识到了,运用此命令我们可以达到一个极其重要的目的,就是检查我们的网站被索引的网页有多少。因此建议大家牢记这个命令。另外运用“site/host/url/domain”等搜索命令还可实现某一网站的站内搜索。比如Google引擎由于技术的先进性,通过其“site”命令实现的网站内部搜索甚至比专门的站内搜索程序还要好。
? 链接搜索
在Google和AltaVista中,用户均可通过“link:”命令来查找某网站的外部导入链接(inbound links)。如:
? link:www.AAA.com
?表述准确
搜索引擎会严格按照您提交的查询词去搜索,因此,查询词表述准确是获得良好搜索结果的必要前提。
一类常见的表述不准确情况是,脑袋里想着一回事,搜索框里输入的是另一回事。例如,要查找2004年国内十大新闻,查询词可以是“2004年国内十大新闻”;但如果把查询词换成“2004年国内十大事件”,搜索结果就没有能满足需求的了。
另一类典型的表述不准确,是查询词中包含错别字。
例如,要查找林心如的写真图片,用“林心如写真”,当然是没什么问题;但如果写错了字,变成“林心茹写真”,搜索结果质量就差得远了。不过好在,百度对于用户常见的错别字输入,有纠错提示。您若输入“林心茹写真”,在搜索结果上方,会提示“您要找的是不是: 林心如写真”。
查询词的主题关联与简练 目前的搜索引擎并不能很好的处理自然语言。因此,在提交搜索请求时,您最好把自己的想法,提炼成简单的,而且与希望找到的信息内容主题关联的查询词。 还是用实际例子说明。某三年级小学生,想查一些关于时间的名人名言,他的查询词是“小学三年级关于时间的名人名言”。
这个查询词很完整的体现了搜索者的搜索意图,但效果并不好。
14
绝大多数名人名言,并不规定是针对几年级的,因此,“小学三年级”事实上和主题无关,会使得搜索引擎丢掉大量不含“小学三年级”,但非常有价值的信息;“关于”也是一个与名人名言本身没有关系的词,多一个这样的词,又会减少很多有价值信息;“时间的名人名言”,其中的“的”也不是一个必要的词,会对搜索结果产生干扰;“名人名言”,名言通常就是名人留下来的, 在名言前加上名人,是一种不必要的重复。
时间名言”。 因此,最好的查询词,应该是“
试着找出下述查询词的问题,并想出更好的能满足搜索需求的查询词:
所得税会计处理问题探讨
周星驰个人档案和所拍的电影
?根据网页特征选择查询词
很多类型的网页都有某种相似的特征。例如,小说网页,通常都有一个目录页,小说名称一般出现在网页标题中,而页面上通常有“目录”两个字,点击页面上的链接,就进入具体的章节页,章节页的标题是小说章节名称;软件下载页,通常软件名称在网页标题中,网页正文有下载链接,并且会出现“下载”这个词。等等。
经常的搜索,并且总结各类网页的特征现象,并应用查询词的选择中,就会使得搜索变得准确而高效。
例如,找明星的个人资料页。一般来说,明星资料页的标题,通常是明星的名字,而在页面上,会有“姓名”、“身高”等词语出现。比如找林青霞的个人资料,就可以用“林青霞 姓名 身高”来查询。而由于明星的名字一般在网页标题中出现,因此,更精确的查询方式,可以是“姓名 身高 intitle:林青霞”。Intitle,表示后接的词限制在网页标题范围内。
这类主题词加上特征词的查询构造方法,适用于搜索具有某种共性的网页。前提是,您必须了解这种共性(或者通过试验性搜索预先发现共性)。
如何正确选择搜索引擎
1、查找2005年北大附中网校夏令营情况说明。
2、查找1982世界杯足球前四强的得主。
3、查找2002年狮子座流星雨的情况和图片。
4、查找小于200KB的FLASH指法练习小游戏。
5、查找我国最早的人口普查资料。
6、查找3个比较好的网上图书馆,了解它们的特点。
7、查找超级女生前10名的相关资料。
我们需要完成上述的7个任务,通过搜索,对Baidu,Google以及Sina搜索的准确度及速度进行调查,结果如下
Google Sina Baidu(速度/第几个准确)
1 0.061秒,2 0.86 秒,3 0.719773秒,1 2 0.208秒,无 0.46 秒,无 1.209187秒,无 7 0.102秒,2 0.17秒,3 0.576578秒,3
15
从上表的数据可以看出,baidu的搜索速度最快,搜索的准确度也不错。Google其次,sina最慢。但在调查过程中,我发现了一个很致命的问题。网站所显示的搜索速度与实际需要花费的时间是不相符的。例如搜索第1个题目,sina从开始搜索到显示几乎用了将近5秒钟。也就是说,这些数据并不是完全可信的。有时它告诉你搜索的很快,但却浪费了很多时间在显示上,这样就得不偿失了。综上所述,我认为还是baidu最好。
我的心得体会
通过做这次的报告,我发现了许多问题。
1、有条理最重要
在做一件很复杂,很凌乱的事情时,一定要有条理。就像这次做这个报
告,首先一定要在大纲视图中把结构看好,并先把结构打在上面。并且分
清一级标题,二级标题等,否则过一会儿就忘记了哪些需要怎样做了。我
在做的时候,下载的资料又想分成若干个标题就麻烦了,因为都忘记了应
该是第几级了。所以有条理得安排很重要。
2、搜索是一件麻烦事
以为搜索很容易,人人都会,但是原来有那么多技巧。可是呢,这些技巧
一般不是很实用的。因为要记这么多技巧是一件难事,而且我们也不是专
业的搜索人员,没必要记录下那么多的东西。平常搜索的时候,只要比较
能抓住关键就可以搜索得很好了。况且baidu等搜索引擎还提供帮助,在
搜索的条目底下会显示:你是否想要搜索??列出很多。当我们想不出来
如何措辞的时候,这些帮助可以提示我们。也就是说,上课用的搜索和平
常使用的搜索是不一样的。虽然上课学的搜索是一件麻烦事,但是平常使
用的搜索还是异常简单的。
3、做事需要有耐心
如此长篇大论的东西,做起来简直是烦人至极了。来回翻页,看着这么多
东西脑袋都大了,要是想做好就必须得有耐心,不能看了就烦,一烦就不
想好好做。那样就达不到预期的效果了。
16
17
范文三:搜索引擎的历史和发展
________ 2
_____________ 6
______ 7 ? 全文搜索引擎 _____________ 7
? 目录索引 _______________ 7
?其他 ______________________ 8
_______________ 8 代表网站及其特点 ____________ 8
搜索引擎的比较及其参数 ______ 9
特色网站介绍 _______________ 11
______________ 12 常用的搜索技巧 _____________ 12
如何正确选择搜索引擎 _______ 15
我的心得体会 _______________ 15
1
1990年以前,没有任何人能搜索互联网。
所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,由于大量的文
件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引
擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜
索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。
Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索
信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的
Robot程序被称为spider(Spider FAQ)程序。世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始
它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址
(URL)。
与Wanderer相对应,1993年10月Martijn Koster创建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的
Yahoo。
随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因
此,在Wanderer基础上,一些编程者将传统的Spider程序工作原理作了些改
进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站
开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:Scotland的JumpStation、Colorado 大学Oliver McBryan的The World Wide Web Worm
(First Mention of McBryan's World Wide Web Worm)、NASA的Repository-Based Software Engineering (RBSE) spider。JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关
2
联度可言。而RBSE是第一个索引Html文件正文的搜索引擎,也是第一个在搜
索结果排列中引入关键字串匹配程度概念的引擎。
Excite 的历史可以上溯到1993年2月,6个Stanford(斯坦福)大学生的想
法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目Architext,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。(注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile)
1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy
(Tradewave Galaxy)上线。除了网站搜索,它还支持Gopher和Telnet搜索。
1994年4月,Stanford University的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo(Jerry Yang Alerts a Usenet group to the
Yahoo Database ,1996年的Yahoo)。随着访问量和收录链接数的增长,
Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所
以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Wanderer只抓取URL,但URL信息含量太小,很多信息难以单靠URL说清楚,搜索效率很
低。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。
(注:Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务;
2002年10月9日,Yahoo放弃自己的网站目录默认搜索,改为默认Google的搜索结果,成为一个真正的搜索引擎。并于2002年12月23日收购inktomi,于2003年7月14日收购包括Fast和Altavista在内的Overture)
1994年初,Washington大学CS学生Brian Pinkerton开始了他的小项目
WebCrawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。
WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之
前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文
的前100个字。(注:后来webcrawler陆续被AOL和Excite收购,现在和excite一样改用元搜索引擎Dogpile)
Lycos(Carnegie Mellon University Center for Machine Translation Announces
Lycos )是搜索引擎史上又一个重要的进步。Carnegie Mellon University的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了
Lycos。1994年7月20日,数据量为54,000的Lycos正式发布。除了相关性排
序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使
用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量:1994年8月--394,000 documents;1995年1月--1.5 million documents;1996年11月--over 60 million documents。(注:1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服务)
Infoseek(Steve Kirsch Announces Free Demos Of the Infoseek Search
Engine)是另一个重要的搜索引擎,虽然公司声称1994年1月已创立,但直到年底它的搜索引擎才与公众见面。起初,Infoseek只是一个不起眼的搜索引
擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。但是它的发展史
和后来受到的众口称赞证明,起初是否第一个登台并不总是很重要。Infoseek的友善用户界面、大量附加服务(such as UPS tracking, News, a directory, and the
like) 使它声望日隆。而1995年12月与Netscape的战略性协议,使它成为一个
3
强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!提供该服务。(注:Infoseek后来曾以相关性闻
名,2001年2月,Infoseek停止了自己的搜索引擎,开始改用Overture的搜索结果)
1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理
后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查
询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。(注:元搜索引擎概念上
好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。)
DEC的AltaVista(2001年夏季起部分网友需通过p-roxy访问,无p-roxy可用qbseach单选altavista搜索,只能显示第一页搜索结果)是一个迟到者,1995年12月才登场亮相(AltaVista Public Beta Press Release )。但是,大量的创新
功能使它迅速到达当时搜索引擎的顶峰。Altavista最突出的优势是它的速度
(搜索引擎9238:比较搞笑,设计altavista的目的,据说只是为了展示DEC Alpha芯片的强大运算能力)。
而Altavista的另一些新功能,则永远改变了搜索引擎的定义。
AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。用户可以用AltaVista搜索Newsgroups(新闻组)的内容并从互联网上获得文章,还可以搜索图片名称中
的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下
放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索
过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功
能,逐渐被其它搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系
统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。(2003年2月18日,Altavista被Overture收购。)
然后到来的是Inktomi。1995年9月26日,加州伯克利分校CS助教Eric Brewer、博士生Paul Gauthier创立了Inktomi(UC Berkeley Announces
Inktomi),1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内
容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。(注:Hotbot曾是随后几年最受欢迎的搜索引擎之一,后被Lycos收购;inktomi于2002年12月23日被Yahoo收购)
Northernlight 公司于1995年9月成立于马萨诸塞州剑桥,1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它
没有Stop Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分
类。(注:2002年1月16日,Northernlight公共搜索引擎关闭,随后被divine收购,但在Nlresearch,选中"World Wide Web only",仍可使用Northernlight搜索引擎)
4
1998年10月之前,Google只是Stanford大学的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。
Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,
象Altavista一样,再一次永远改变了搜索引擎的定义。
在2000年中以前,Google虽然以搜索准确性备受赞誉,但因为数据库不如
其它搜索引擎大,缺乏高级搜索语法,所以推广并不快。直到2000年中数据库升级后,又借被Yahoo选作搜索引擎的东风,才一飞冲天。
Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提
供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索
功能。(2003年2月25日,Fast的互联网搜索部门被Overture收购)
Teoma 起源于1998年Rutgers大学的一个项目。Apostolos Gerasoulis教授带领华裔Tao Yang教授等人创立Teoma于新泽西Piscataway,2001年春初次登场,2001年9月被提问式搜索引擎Ask Jeeves收购,2002年4月再次发布。Teoma的数据库目前仍偏小,但有两个出彩的功能:支持类似自动分类的
Refine;同时提供专业链接目录的Resources。
Wisenut 由韩裔Yeogirl Yun创立。2001年春季发布Beta版,2001年9月5日发布正式版,2002年4月被分类目录提供商looksmart收购。wisenut也有两个出彩的功能:包含类似自动分类和相关检索词的WiseGuide;预览搜索结果的Sneak-a-Peek。
Gigablast 由前Infoseek工程师Matt Wells创立,2002年3月展示pre-beta版,2002年7月21日发布Beta版。Gigablast的数据库目前仍偏小,但也提供
网页快照,一个特色功能是即时索引网页,你的网页刚提交它就能搜索(注:
这个spammers的肉包子功能暂已关闭)。
Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的
GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户
新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域,此后技术升级明显加快。
北大天网 是国家"九五"重点科技攻关项目"中文编码和分布式中英文信息发
现"的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务。2000年初成立天网搜索引擎新课题组,
由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。
Baidu 2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百
度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只
5
为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快
照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引
数据库。搜索引擎,也不能真正理解网页上的内容,它只能机械的匹配网页上
的文字。
真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网
页并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜
索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的
网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将
按照与搜索关键词的相关度高低,依次排列。
现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的文
字,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排
序也会越靠前。
搜索引擎的原理,可以看做三步:从互联网上抓取网页?建立索引数据库?在索引数据库中搜索排序。
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并 沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页 收集回来。
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包
括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成
时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复
杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或
重要性),然后用这些相关信息建立网页索引数据库。
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合
该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算
好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来
返回给用户。
搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不
同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频
率),更新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信
6
息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样,网页的
具体文字变化情况就会反映到用户查询的结果中。
互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页
各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千
万至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到
30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的网页。而互联网上有更
大量的网页,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到
的。
你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的网
页文字信息。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有
而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索
能力。
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
?
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、
Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为
主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的
排列顺序将结果返回给用户,因此他们是真正的搜索引擎。
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己
的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程
序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的
7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结
果,如Lycos引擎。
?
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅
仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词
(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表
性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这
一类。
7
? 元搜索引擎
元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并
将结果返回给用户。著名的元搜索引擎有 InfoSpace 、 Dogpile 、 Vivisimo 等,中文元搜索引擎中具代表性的有 搜星搜索引擎 。在搜索结果排列方面,有的直接按来源
引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如
Vivisimo。
?
1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似
META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从
提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。
2、门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但
自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
3、免费链接列表(Free For All Links,简称FFA):这类网站一般只简单
地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。
常用中文搜索引擎
约1.24亿中文网页,平均2周更新一遍,对部
分网页每天更新。提供百度快照、网页预览/预Baidu www.baidu.com 览全部结果、相关搜索词、错别字纠正提示、
Flash搜索、信息快递、百度搜霸、搜索援助中
心,推荐使用MP3搜索。Baidu搜索技巧
中文网页数不详,按比例推算约8500万。平均
1月更新一遍,对部分网页每日更新,由
BasisTechnology 提供中文处理技术,搜索相关www.google.coGoogle中文 m/intl/zh-CN/ 性高,高级搜索语法丰富。提供Google工具
条、网页快照、图像搜索(4.25亿图片)、新
闻组搜索。Google搜索帮助 Alltheweb 4480万简体中文网页,1401万繁体中文网页,www.alltheweb.
com (Fast) 需单选中简体中文语言搜索,否则效果不好。
中文网页数不详,从检索效果上看与Google相www.openfind.Openfind中com/cn.web.php近。更新较慢,提供按网页大小或日期排序。文 ?u=cn Openfind查询秘诀
http://e.pku.edu.北大天网 约6000万网页,更新略慢,搜索相关性较低。cn/
8
提供天网搜霸、历史网页。推荐使用ftp搜索。
天网使用帮助
1
Google在搜索到的全部20个结果中有8个成功显示出M65手机的价格,最先显示出来的是第2条,准确度40%。
在20个搜索结果中有9个成功的显示出了M65手机的价格,其中搜索结果的第一项就就显示出价格范围,准确度45%。
在20个搜索结果中成功的显示出价格的为5个,其中最先成功的为第3
项,准确度25%。
在20个搜索结果中有8个成功的显示出价格,且第一项结果里就看到
了价格,准确率40%。
21个搜索结果里成功显示价格的为8个,但是其中有几个是重复的,第
一个成功的结果在10项以后,准确率为30%。
新浪和网易由于使用了google的技术,从搜索结果上看它们的数据库也是一
样的,准确率一样为40%。
2
随着时间的流逝,部分网站可能会关闭或者对较老的资料进行了删除更新,
这样就有一部分资料无法查询,为了解决这个问题,各大搜索引擎都推出了快
照功能,在搜索引擎的网站服务器上保存了互联网上几乎所有网站的大部分页
面,在不能链接到所需网站的时候,也能使用网页快照功能调出搜索引擎为您
暂存的网页救急。下面笔者就来测试一下几大主流搜索引擎打开快照功能的成
功率。测试中笔者选取了老掉牙的微机型号——"486DX100",结果以20个快照的成功比率来计算。
Google在第一次进行测试的时候可能是网络方面的问题20个快照没有一个打开的,但是使用相同数据库的新浪和网易却可以打开,在第二天补测的时候
前10个快照打开,后10个失败,成功率不如使用相同数据库的新浪、网易,
成功率50%。
9
20个搜索结果的快照全部成功打开,成功率100%,看来以后要是找老文件就得靠百度了。
20个结果的快照全部成功打开,成功率100%。
20个搜索结果的快照打开了17个,成功率85%。
20个搜索结果的快照全部成功打开,成功率100%。
20个搜索结果中快照成功打开16个,成功率80%。
与新浪使用了相同的数据库,所以它的成功率与新浪相同,成功率
80%。
3
分类搜索引擎采用网站登录/收录方式,依据主旨、用户对象及网络资源状况
构建分类体系,把收集到本地的网站页面进行人工编辑,层层类分,形成纵向
隶属、横向关联的网站目录数据库。这样可以近一步缩小搜索范围,从而减少
有用户的搜索时间。
目前的分类主要包括图片、音乐、新闻等,下面笔者就以一实例来做个准确
度的测试。MP3是目前搜索绿比较高的文件,在测试中笔者选取了最近较流行
的歌曲"七里香"的MP3文件,结果以前20项所有连接的下载成功率来计算。
Google因为google没有专用的音乐下载分类,所以笔者使用了"七里香+下载"为条件进行搜索,在搜索的前20个结果全部需要开新页面进行下载,其中
成功数仅为8个,但这对只是用普通搜索功能进行的测试来说已经是个不错的
结果了,成功率 40%。
20项全部可以下载,而且有文件大小和速度标识,但有两项下载的不是
七里香的MP3,成功下载连接18,成功率90%。
20项搜索结果全部下载成功,下载界面文件类型、速度等标识齐全,不
过下载时需要打开二级网页进行下载。成功率 100%。
20项搜索结果全部下载成功,下载界面文件类型、速度等标识齐全,不
过有五项是其专集里的其它歌曲,成功率 75%。
由于搜狗也没有专门的音乐搜索引擎,笔者的搜索条件仍为"七里香+下载",搜索结果全部在二级网页,经过一番努力笔者只成功的下载了7个。成功率 35%。
与百度和一搜一样有专门的MP3分类,搜索结果界面标识齐全,20个搜索结果全部可以下载,但有一个不完全只有几秒,2个错误的歌曲,下载成
功率 85%。
10
网易拥有专门的音乐搜索引擎,而且界面做得很别致,下载界面歌曲的
各项标识齐全,可能是由于其音乐搜索功能还在建设完善中的原因,20项下载结果中有7项下载结果不符,1项无效,成功率为60%。
三、高级搜索
为了能做到万里挑一,更准确、更省时的找到相关信息,部分专业搜索引擎
还提供了"高级搜索"功能。其中Google和百度在这方面做的比较出色,从关键
位置、到文件格式、发布时间可谓详尽。
各大搜索引擎为了在竞争中占有更大的市场份额,除了基本的图片、网站等
基本搜索功能,纷纷推出了个性服务。
Google:
手气不错,输入搜索关键字都点击"手气不错"可以快速找到google为您推荐的最佳网页。
论坛搜索,常泡论坛的朋友都知道,网络上有部分信息论坛中的发布时间要
早于网站,而且有的信息只能在论坛上才可以看到。为此,gooogle也特别设置了论坛搜索功能,专门用来查询并观看各讨论区里的留言信息。
目录搜索,Google 的网页目录能帮助您了解各分类主题的相关程度,使用网
路目录检索,能将搜索范围局限于特定的分类内,略去类似但无关的其它网
页。例如检索各『大学』,如果将搜索范围设定于『教育机构』的分类内,便
可略去其它网页像是『大学书城』等信息。
百度:
贴吧,百度的贴吧是个类似BBS的功能,可以在里边随意的发表信息,而贴
吧搜索则是可以在这些发表的信息中进行搜索。
11
新浪:
通过黄页功能可以快速找到万方数据提供的企业地址、简介等相关信息,使
用"万师行",可以快速找到各个行业的专业服务者。
网易:
时尚搜索,利用网易的时尚搜索功能,可以快速搜索到可视手机、汽车改装
等最新、最炫的时尚信息。
你给出的搜索条件越具体,搜索引擎返回的结果也会越精确。
比方说你想查找有关电脑冒险游戏方面的资料,输入game是无济于事的。computer game范围就小一些,当然最好是敲入computer adventure game,返回的结果会精确得多。
有时你甚至可以问搜索引擎一个问题,返回结果的准确度会让你不得不佩服
搜索引擎功能的强大。
一次,我们想查找有关根据IP地址判断访问来源方面的资料,由于知道以
“IP address”搜索没用,加上搜索条件比较复杂,无法以单个的词或词组查询,
因此我们干脆在Google搜索引擎中输入了整句话:
? How to recognize a visit from its IP address
结果在返回的网页链接中,第一个就是我们需要的。该网站不仅提供根据IP进行访问来源查询,还用虚拟现实(Virtual Reality)技术在地图上指出来源所
在的城市!
可以看出将搜索条件细化,能够大幅提高你的搜索效率。
由于中英文在词语排列上的差异(英文词与词之间有空格隔开,而中文则没
有),使得中文切词成为搜索引擎的一大挑战。虽然目前支持中文搜索的引擎
在切词方面已做得相当出色,但求其完美无缺也不太现实。因此在搜索关键词
较多的情况下,建议主动将中文字词之间用空格隔开,以避免过多的无效搜
索。比如查中文电脑冒险游戏的资料,输入"电脑游戏 冒险",而不是"电脑冒险游戏"。
此外一些功能词汇和太常用的名词,如对英文中的“and”、“how”、“what”、“web”、“homepage”和中文中的“的”、“地”、“和”等等搜索引擎是不支持的。这
些词被称为停用词(Stop Words)或过滤词(Filter Words),在搜索时这些词都将被搜索引擎忽略。
精确搜索引擎基本上都支持附加逻辑命令查询,常用的是“+”号和“-”号,或与之相对应的布尔(Boolean)逻辑命令AND、OR和NOT。用好这些命令符号可以大幅提高我们的搜索精度。比较一下下面各搜索条件的含义: ? computer adventure game
最基本的搜索方式。查找与该关键词有关的记录,在过去通常情况下相当于
布尔逻辑命令中“OR”的关系,翻译过来就是:
12
computer (OR)adventure(OR)games
因此搜索结果中不仅有同时包含三个关键字的记录,也有仅含部分关键字串
(如 computer games)和个别关键字(如computer)的记录。目前搜索引擎的
趋势是默认匹配全部关键词搜索,即仅返回包含所有关键词的记录,相当于下
面将介绍的“+”号和AND的关系,当然有时也有例外。
?+computer +adventure +game
相当于布尔逻辑命令中的“AND”关系,翻译过来就是:
computer(AND)adventure(AND)games
因此搜索结果中只列出同时包含三个关键字的记录。在搜索条件中使用“+”号还可强制搜索引擎将一些停用词当作关键词进行搜索。比如我们搜索“who am i”时,其中“who”和“i”是停用词,我们可以在两个单词前加上“+”号强制对其进行搜索,此时的搜索条件即可为:+who +am +i。
?+computer +game -adventure
翻译过来就是:
computer(AND)game(NOT)adventure
列出所有包含computer game的记录,但在其中排除有关adventure的记录。
综上所述,“+”号(AND)用于在搜索中指定涵盖某项内容,而“-”号(NOT)则用来从结果中排除某项内容。
? "computer adventure games"
它与 +computer +adventure +games 的区别是:
虽然后者限定网页中要同时包含三个关键字,但其顺序和相邻位置允许是任
意的。而前者不仅要求网页中必须同时包含三个关键字,关键字的顺序也要求
完全相同,并且它们必须还是挨在一起的,所以带“”号的查询范围更小。
此外使用“”号进行精确匹配查询还可用于达到我们特殊的搜索目的。比如一
般情况下“who”、“i”作为停用词被搜索引擎忽略,但有时在搜索特别类型的信
息时又必须包含这些停用词(如搜索影片名称“Who Am I”),这时我们就可以将全部关键词用“”号引起来,就可以强制搜索引擎将停用词作为短语的一部分
进行搜索。
通过对上面这些逻辑符号的组合,能组成复杂的搜索条件,如"computer game" -adventure +new等等,从而使查询结果更加准确。
? 标题搜索
多数搜索引擎都支持针对网页标题的搜索,命令是“title:”,在Yahoo中是“t:”(注意冒号为英文字符且后面不跟空格)。在进行标题搜索时,前面提到的逻
辑符号和精确匹配原则同样适用。请看下面的例子:
? title(或t):computer adventure games
? title:+computer +adventure +games
? title:+computer +games -adventure
? title:"computer adventure games"
13
返回的结果都是标题中包含关键字、词的信息条目。 ? 网站搜索
此外我们还可以针对网站进行搜索,命令是“site:”(Google)、“host:”(AltaVista)、“url:”(Infoseek)或“domain:”(HotBot)。如想查找AAA游戏制作公司网站的所有网页,可以输入:
? site(或host/url/domain):www.AAA.com
还可以在其中加入其他命令组成复杂的搜索条件,如: ? site:www.AAA.com +title:"computer games" -adventure
意思是查找AAA公司网站中所有标题里含有computer games的网页,但排除关于冒险游戏的网页。
说到这里大家可能已经意识到了,运用此命令我们可以达到一个极其重要的
目的,就是检查我们的网站被索引的网页有多少。因此建议大家牢记这个命
令。另外运用“site/host/url/domain”等搜索命令还可实现某一网站的站内搜索。
比如Google引擎由于技术的先进性,通过其“site”命令实现的网站内部搜索甚
至比专门的站内搜索程序还要好。
? 链接搜索
在Google和AltaVista中,用户均可通过“link:”命令来查找某网站的外部导入
链接(inbound links)。如:
? link:www.AAA.com
?表述准确
搜索引擎会严格按照您提交的查询词去搜索,因此,查询词表述准确是获得
良好搜索结果的必要前提。
一类常见的表述不准确情况是,脑袋里想着一回事,搜索框里输入的是另一
回事。例如,要查找2004年国内十大新闻,查询词可以是“2004年国内十大新
闻”;但如果把查询词换成“2004年国内十大事件”,搜索结果就没有能满足需
求的了。
另一类典型的表述不准确,是查询词中包含错别字。
例如,要查找林心如的写真图片,用“林心如写真”,当然是没什么问题;但
如果写错了字,变成“林心茹写真”,搜索结果质量就差得远了。不过好在,百
度对于用户常见的错别字输入,有纠错提示。您若输入“林心茹写真”,在搜
索结果上方,会提示“: ”。
目前的搜索引擎并不能很好的处理自然语言。因
此,在提交搜索请求时,您最好把自己的想法,提炼成简单的,而且与希望找
到的信息内容主题关联的查询词。 还是用实际例子说明。某三年级小学生,想
查一些关于时间的名人名言,他的查询词是“小学三年级关于时间的名人名言”。
这个查询词很完整的体现了搜索者的搜索意图,但效果并不好。
绝大多数名人名言,并不规定是针对几年级的,因此,“小学三年级”事实上
和主题无关,会使得搜索引擎丢掉大量不含“小学三年级”,但非常有价值的
信息;“关于”也是一个与名人名言本身没有关系的词,多一个这样的词,又
会减少很多有价值信息;“时间的名人名言”,其中的“的”也不是一个必要
的词,会对搜索结果产生干扰;“名人名言”,名言通常就是名人留下来的, 在名言前加上名人,是一种不必要的重复。
因此,最好的查询词,应该是“时间名言”。
试着找出下述查询词的问题,并想出更好的能满足搜索需求的查询词:
14
所得税会计处理问题探讨
周星驰个人档案和所拍的电影
?根据网页特征选择查询词
很多类型的网页都有某种相似的特征。例如,小说网页,通常都有一个目录
页,小说名称一般出现在网页标题中,而页面上通常有“目录”两个字,点击
页面上的链接,就进入具体的章节页,章节页的标题是小说章节名称;软件下
载页,通常软件名称在网页标题中,网页正文有下载链接,并且会出现“下
载”这个词。等等。
经常的搜索,并且总结各类网页的特征现象,并应用查询词的选择中,就会
使得搜索变得准确而高效。
例如,找明星的个人资料页。一般来说,明星资料页的标题,通常是明星的
名字,而在页面上,会有“姓名”、“身高”等词语出现。比如找林青霞的个
林青霞 姓名 身高”来查询。而由于明星的名字一般在网页标人资料,就可以用“
题中出现,因此,更精确的查询方式,可以是“姓名 身高 intitle:林青霞”。Intitle,表示后接的词限制在网页标题范围内。
这类主题词加上特征词的查询构造方法,适用于搜索具有某种共性的网页。
前提是,您必须了解这种共性(或者通过试验性搜索预先发现共性)。
1、查找2005年北大附中网校夏令营情况说明。
2、查找1982世界杯足球前四强的得主。
3、查找2002年狮子座流星雨的情况和图片。
4、查找小于200KB的FLASH指法练习小游戏。
5、查找我国最早的人口普查资料。
6、查找3个比较好的网上图书馆,了解它们的特点。
7、查找超级女生前10名的相关资料。
我们需要完成上述的7个任务,通过搜索,对Baidu,Google以及Sina搜索的准确度及速度进行调查,结果如下
Google Sina Baidu(速度/第几个准确)
1 0.061秒,2 0.86 秒,3 0.719773秒,1 2 0.208秒,无 0.46 秒,无 1.209187秒,无 7 0.102秒,2 0.17秒,3 0.576578秒,3 从上表的数据可以看出,baidu的搜索速度最快,搜索的准确度也不错。Google其次,sina最慢。但在调查过程中,我发现了一个很致命的问题。网站所显示
的搜索速度与实际需要花费的时间是不相符的。例如搜索第1个题目,sina从开始搜索到显示几乎用了将近5秒钟。也就是说,这些数据并不是完全可信
的。有时它告诉你搜索的很快,但却浪费了很多时间在显示上,这样就得不偿
失了。综上所述,我认为还是baidu最好。
通过做这次的报告,我发现了许多问题。
15
1、有条理最重要
在做一件很复杂,很凌乱的事情时,一定要有条理。就像这次做这个报
告,首先一定要在大纲视图中把结构看好,并先把结构打在上面。并且分
清一级标题,二级标题等,否则过一会儿就忘记了哪些需要怎样做了。我
在做的时候,下载的资料又想分成若干个标题就麻烦了,因为都忘记了应
该是第几级了。所以有条理得安排很重要。 2、搜索是一件麻烦事
以为搜索很容易,人人都会,但是原来有那么多技巧。可是呢,这些技巧
一般不是很实用的。因为要记这么多技巧是一件难事,而且我们也不是专
业的搜索人员,没必要记录下那么多的东西。平常搜索的时候,只要比较
能抓住关键就可以搜索得很好了。况且baidu等搜索引擎还提供帮助,在
搜索的条目底下会显示:你是否想要搜索??列出很多。当我们想不出来
如何措辞的时候,这些帮助可以提示我们。也就是说,上课用的搜索和平
常使用的搜索是不一样的。虽然上课学的搜索是一件麻烦事,但是平常使
用的搜索还是异常简单的。
3、做事需要有耐心
如此长篇大论的东西,做起来简直是烦人至极了。来回翻页,看着这么多
东西脑袋都大了,要是想做好就必须得有耐心,不能看了就烦,一烦就不
想好好做。那样就达不到预期的效果了。
16
范文四:搜索引擎的发展历史
搜索引擎的发展历史
搜索引擎的发展历史2011-07-12 22:09早在Web出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。那些资源当时主要存在于各种允许匿名访问的FTP站点(anonymous ftp),内容以学术技术报告、研究性软件居多,它们以计算机文件的形式存在,文字材料的编码通常是PostScript或者纯
那时还没有HTML)。 文本(
为了便于人们在分散的FTP资源中找到所需的东西,1990年加拿大麦吉尔大学(University of McGill)计算机学院的师生开发了一个软件,Archie。它通过定期搜集并分析FTP系统中存在的文件名信息,提供查找分布在各个FTP主机中文件的服务。Archie能在只知道文件名的前提下,为用户找到这个文件所在的FTP服务器的地址。Archie实际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。该数据库中包括大量可通过FTP下载的文件资源的有关信息,包括这些资源的文件名、文件长度、存放该文件的计算机名及目录名等。尽管所提供服务的信息资源对象(非HTML文件)和本书所讨论搜索引擎的信息资源对象(HTML网页)不一样,但基本工作方式是相同的(自动搜集分布在广域网上的信息,建立索引,提供检索服务),因此人们公认Archie为现代搜索引擎的鼻祖。
值得一提的是,即使是在10多年后的今天,以FTP文件为对象的信息检索服务技术依然在发展,尤其是在用户使用界面上充分采用了Web风格。北大天网文件检索系统就是一个例子(见)。
以Web网页为对象的搜索引擎和以FTP文件为对象的检索系统一个基本的不同点在于搜集信息的过程。前者是利用HTML文档之间的链接关系,在Web上一个网页、一个网页的"爬取"(crawl),将那些网页"抓"(fetch)到本地后进行分析;后者则是根据已有的关于FTP站点地址的知识(例如得到了一个站点地址列表),对那些站点进行访问,获得其文件目录信息,并不真正将那些文件下载到系统上来。因此,如何在Web上"爬取",就是搜索引擎要解决的一个基本问题。在这方面,1993年Matthew Gray开发了World Wide Web Wanderer,它是世界上第一个利用HTML网页之间的链接关系来监测Web发展规模的"机器人
"(robot)程序。刚开始时它只用来统计互联网上的服务器数量,后来则发展为能够通过它检索网站域名。鉴于其在Web上沿超链"爬行"的工作方式,这种程序有时也称为"蜘蛛"(spider)。因此,在文献中crawler,spider,robot一般都指的是相同的事物,即在Web上依照网页之间的超链关系一个个抓取网页的程序,通常也称为"搜集"。在搜索引擎系统中,也称为网页搜集子系统。现代搜索引擎的思路源于Wanderer,不少人在Matthew Grey工作的基础上对它的蜘蛛程序做了改进。1994年7月,Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos,成为第一个现代意义的搜索引擎。在那之后,随着Web上信息的爆炸性增长,搜索引擎的应用价值也越来越高,不断有更新、更强的搜索引擎系统推出(下一节会有介绍)。这其中,特别引人注目的是Google(),虽然是个姗姗来迟者(1998年才推出),但由于其采用了独特的PageRank技术,使它很快后来居上,成为当前全球最受欢迎的搜
作者2003年初访问印度,就听到总统阿卜杜勒?卡拉姆讲他经常用索引擎(
Google在网上查找信息~)。
在中国,据我们所知,对搜索引擎的研究起源于"中国教育科研网"(CERNET)一期工程中的子项目,北京大学计算机系的项目组在陈葆珏教授的主持下于1997年10月在CERNET上推出了天网搜索1.0版本。该系统在这几年里不断发展,目前已成为中国最大的公益性搜索引擎()。在这之后,几位在美国留学的华人学者回国创业,成立了百度公司,于2000年推出了"百度"商业搜索引擎(),并一直处于国内搜索引擎的领先地位。我们看到慧聪公司也在中国推出了一个大规模搜索引擎(),用起来感觉也不错,但往后发展如何,还有待时间的考验。
当我们谈及搜索引擎的时候,不应该忽略另外一个几乎是同期发展出来的事物:基于目录的信息服务网站。1994年4月,斯坦福(Stanford)大学的两名博士生,David Filo和杨致远(Gerry Yang)共同创办了Yahoo~门户网站,并成功地使网络信息搜索的概念深入人心。1996年中国出现了类似的网站,"搜狐",()。在许多场合,也称Yahoo~之类的门户网站提供的信息查找功能为搜索引擎。但从技术上讲,这样的门户中提供的搜索服务和前述搜索引擎是很不同的。这样的门户依赖的是人工整理的网站分类目录,一方面,用户可以直接沿着目录导航,定位到他所关心的信息;另一方面,用户也可以提交查询词,让系统将他直接引导到和该查询词最匹配的网站。在需要区别的场合,我们可
以分别称"自动搜索引擎"和"目录搜索引擎",或者"网页搜索引擎"和"网站搜索引擎"。一般来讲,前者的信息搜索会更全面些,后者则会准确些。
随着网上信息越来越多,单纯靠人工整理网站目录取得较高精度查询结果的优势逐渐退化--对海量的信息进行高质量的人工分类已经不太现实。目前有两个发展方向。一是利用文本自动分类技术,在搜索引擎上提供对每篇网页的自动分类,这方面最先看到的例子是Google的"网页分类"选项,但它分类的对象只是英文网页。在中文方面,文本自动分类的研究工作有很多,但我们知道的第一个在网上提供较大规模网页自动分类服务的是北大网络实验室冯是聪和龚笔宏等人的工作[冯是聪,2003],他们于2002年10月在天网搜索上挂接了一个300万网页的分类目录。另一个发展方向是将自动网页爬取和一定的人工分类目录相结合,希望形成一个既有高信息覆盖率,也有高查询准确性的服务。互联网上信息量在不断增加,信息的种类也在不断增加。例如除了我们前面提到的网页和文件,还有新闻组,论坛,专业数据库等。同时上网的人数也在不断增加,网民的成分也在发生变化。一个搜索引擎要覆盖所有的网上信息查找需求已出现困难,因此各种主题搜索引擎,个性化搜索引擎,问答式搜索引擎等纷纷兴起。这些搜索引擎虽然还没有实现如通用搜索引擎那样的大规模应用,但随着互联网的发展,我们相信它们的生命力会越来越旺盛。另外,即使通用搜索引擎的运行现在也开始出现分工协作,有了专业的搜索引擎技术和搜索数据库服务提供商。例如美国的Inktomi,它本身并不是直接面向用户的搜索引擎,但向包括Overture(原GoTo)、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜集服务。从这个意义上说,它是搜索引擎数据的来源。搜索引擎出现虽然只有10年左右的历史,但在Web上已经有了确定不移的地位。据CNNIC统计,它已经成为继电子邮件之后的第二大Web应用。虽然它的基本工作原理已经相当稳定,但在其质量、性能和服务方式等方面的提高空间依然1很大,研究成果层出不穷,是每年WWW学术年会的重要论题之一。
(作者:李晓明、闫宏飞、王继民节选自《搜索引擎-原理、技术与系统》)
范文五:搜索引擎的发展历史
搜索引擎的发展历史
1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。
Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序。 1993年Matthew Gray开发了 World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人(Robot)”程序。开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL)。
1994年4月,斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。雅虎于2002年12月23日收购inktomi,2003年7月14日收购包括Fast和Altavista在内的Overture,2003年11月,Yahoo全资收购3721
公司。
1994年初,华盛顿大学(University of Washington )的学生Brian Pinkerton开始了他的小项目WebCrawler。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。 1994年7月,卡内基?梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。
1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表。
1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士
生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。
1995年12月,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道
1
的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。 1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。
1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。
1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Don’t be evil)的理念,为Google赢得了极高的口碑和品牌美誉。2006年4月,Google宣布其中文名称“谷歌”,这是Google第一个在非英语国家起的名字。 Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash
、和FTP搜索,拥和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3有极其强大的高级搜索功能。(2003年2月25日,Fast的互联网搜索部门被Overture收购)。
1996年8月,sohu公司成立,制作中文网站分类目录,曾有“出门找地图,上网找搜狐”的美誉。随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应。sohu于2004年8月独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。
Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域。
2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。后推出贴吧、知道、地图、国学、百科等一系列产品,深受网民欢迎。2005年8月5日在纳斯达克上市,发行价为USD 27.00,代号为BIDU。开盘价USD 66.00,以USD 122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录。
2003年12月23日,原慧聪搜索正式独立运做,成立了中国搜索。2004年2月,中国搜索发布桌面搜索引擎网络猪1.0,2006年3月中搜将网络猪更名为IG(Internet Gateway) 。 2005年6月,新浪正式推出自主研发的搜索引擎“爱问”
2
转载请注明出处范文大全网 » 搜索引擎的历史和发展