..; 楿信洎己妸姒莋哋浭恏、..; `莪能、..; `
搜索引擎
上一篇 / 下一篇 2007-05-31 19:52:26 / 个人分类:电脑海蕴
搜索引擎
搜索引擎的概念 6`Y"j0h!t.o#v&q7}0★黑基空间★ TsJgS;w4K 搜索引擎是指以一定的策略搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站成为搜索引擎,但从严格意义上,它并不是搜索引擎。 ,JpVAtx0r!L|0 _[xOo3{Q&|&U0搜索引擎的工作原理★黑基空间★?)H4cJq4XEHw n,ea6zkMns]?0可以分为三个部分★黑基空间★;p~\Un F*Lh R ★黑基空间★Pg5g.w ]OuUT 1、抓取网页★黑基空间★w{T8b2D[ ★黑基空间★['v(n!kLP/jH 每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。★黑基空间★4{%e _8R'\| 1T~oF5PY'K02、处理网页 d"\HY4~7];T5y7e0★黑基空间★w+H ?ISvq 搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。★黑基空间★o'L%j!V"V o!T+GW7pK @03、提供检索服务 u:W(F,Iw/t4pm5`9l0 J-f%jsh0用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。★黑基空间★3`W0{3Pv ]r ★黑基空间★$}(\_ h["e \9l%nY Y 搜索引擎的发展历史 A'lkUb0 \rX|PLrUv01990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。★黑基空间★Y6SV TPh"D4w _,R;@f,e-i a G0Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序。 "Ml8d@#Lx9f0 P1H `8^qFM01993年Matthew Gray开发了 World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人(Robot)”程序。开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL)。★黑基空间★.f,A[ _3@2M ★黑基空间★Wv'tF o 1994年4月,斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。雅虎于2002年12月23日收购inktomi,2003年7月14日收购包括Fast和Altavista在内的Overture,2003年11月,Yahoo全资收购3721公司。 (za b0?T5Jx0Pa0★黑基空间★!\G2v*p](E?C$I 1994年初,华盛顿大学(University of Washington )的学生Brian Pinkerton开始了他的小项目WebCrawler。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。 8k+JkS A)q$b)]0J0 .UB(s W-J-ne3L"@0P/C01994年7月,卡内基·梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。★黑基空间★Nk;^3]o2z9n ★黑基空间★k!wR2D%O%U 1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表。 %JDj:J`4_Cc0 ^V#q.F7B R(H!Z8_h&a01995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。★黑基空间★e4GA7i`x} ★黑基空间★C8Uv/|6yfH 1995年12月,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。★黑基空间★?~_s [ ★黑基空间★PjNSF7s*T(Rvr;r+U 1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。 I@K4ihM0★黑基空间★ZA~ S6|jE v6nvB 1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。 z ^E`B7tLC0★黑基空间★#X;qFFH 1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Don’t be evil)的理念,为Google赢得了极高的口碑和品牌美誉。2006年4月,Google宣布其中文名称“谷歌”,这是Google第一个在非英语国家起的名字。★黑基空间★h-E$j$s N4@ ★黑基空间★(DO!},O:~"lY,AT Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。(2003年2月25日,Fast的互联网搜索部门被Overture收购)。 )_A2]k`%?^g0 ^7|5h:cz?m2SO01996年8月,sohu公司成立,制作中文网站分类目录,曾有“出门找地图,上网找搜狐”的美誉。随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应。sohu于2004年8月独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。★黑基空间★`/`SV f$B 5cIV%F6Z(\0H0Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域。★黑基空间★w2B LT"O7EF ★黑基空间★l/C\zO_A\(B 2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。后推出贴吧、知道、地图、国学、百科等一系列产品,深受网民欢迎。2005年8月5日在纳斯达克上市,发行价为USD 27.00,代号为BIDU。开盘价USD 66.00,以USD 122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录。 __qpj9k.k'|CR2e0 W(bP9]E} f#y02003年12月23日,原慧聪搜索正式独立运做,成立了中国搜索。2004年2月,中国搜索发布桌面搜索引擎网络猪1.0,2006年3月中搜将网络猪更名为IG(Internet Gateway) 。 _5AEbN2` @0★黑基空间★3Uu"}/y;}Mn 2005年6月,新浪正式推出自主研发的搜索引擎“爱问”。 b;A%yI4Dh[0★黑基空间★-n$^i6XD N?C 搜索引擎的商务模式★黑基空间★L,gd,I+[AX2Q6qz ★黑基空间★ `!C8[RC!nf%B.[%{4d 在搜索引擎发展早期,多是作为技术提供商为其他网站提供搜索服务,网站付钱给搜索引擎。后来,随着2001年互联网泡沫的破灭,大多转向为竞价排名方式。★黑基空间★L;^h/h#w E ★黑基空间★C+?{S&v#v)P_ 现在搜索引擎的主流商务模式(百度的竞价排名、Google的AdWords)都是在搜索结果页面放置广告,通过用户的点击向广告主收费。这种模式最早是比尔·格罗斯(Bill Gross)提出的。他于1998年6月创立GoTo公司(后于2001年9月更名为Overture),实施这种模式,取得了很大的成功,并且申请了专利。这种模式有两个特点,一是点击付费(Pay Per Click),用户不点击则广告主不用付费。二是竞价排序,根据广告主的付费多少排列结果。 2001年10月,Google推出AdWords,也采用点击付费和竞价的方式。2002年,Overture起诉Google侵犯了其专利。2004年8月,和Yahoo!(Yahoo!于2003年7月收购Overture)达成和解,向后者支付了270万普通股(合3亿美元不到)作为和解费。 0J I4fiW)|ub0 ZXS1U:U]$M^$q'Z0AdSense是Google于2003年推出的一种新的广告方式。AdSense使各种规模的的第三方网页发布者进入Google庞大的广告商网络。Google在这些第三方网页放置跟网页内容相关的广告,当浏览者点击这些广告时,网页发布者能获得收入。AdSense在blogger中很受欢迎。同时,Google武断地删除一些帐号,引起部分人的不满。类似的广告方式,其他搜索引擎也先后推出。雅虎的广告方式是YPN(Yahoo Publisher Network),YPN 除了可以在网页上显示与内容相关的广告以外,还可以通过在 RSS 订阅中来显示广告。微软的广告计划叫AdCenter。百度也推出主题推广。★黑基空间★/i `{%xb2Oy"b ★黑基空间★F*ts[oJ.e,W!xH w lR`#asX0★黑基空间★*RbZ%xs'g:i] 搜索引擎的自白 *cZva Vl0 ★黑基空间★d,Qz3ski7n JL/| 我是Internet上专门提供查询服务的一类网站,人们给我取了一个很专业的名字—搜索引擎,我通过网络搜索软件(俗称网络搜索机器人)或网站登录等方式,收集大量网站的页面,经过加工处理后建立 ★黑基空间★0n$n:Q)l5Z7k,YUj 数据库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。 $gf:\$e eQ+{_#r0★黑基空间★*ZCC"?I 搜索引擎的组成 '|M.V8[wf QvU"T0 w$MC:BMi;s Q0我一般由搜索器、索引器、检索器和用户接口四个部分组成。①搜索器:其功能是在互联网中漫游,发现和搜集信息;②索引器:其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;③检索器:其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;④用户接口:其作用是接纳用户查询、显示查询结果、提供个性化查询项。 .Q:Ua7@$P,DR#a!Od0 1W F;y|8R6A;b:w0搜索引擎的分类★黑基空间★cXH/[*]nfni .R.yw3~}l O;Z"Nu01.全文索引★黑基空间★&~q l0E2{'{yr4[ ★黑基空间★3gD2oZq*|3`x 全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。★黑基空间★2o3SJe2]\w)P3L E ★黑基空间★(^qZ:bP'aF 根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。★黑基空间★!S8H_P)l ,ii1H"K1B02.目录索引 nefjbs1Q5J.\0★黑基空间★pE|!xh1J v0} 目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo!、新浪分类目录搜索。★黑基空间★G] MOr 5C0C0m)p7jR03.元搜索引擎★黑基空间★aA(NG Z*i:@1e%pX ★黑基空间★1uz0Y;o(n | 元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。★黑基空间★Q]rS AFY[Mh.F ★黑基空间★wS&aT5P2[&`4h#P(YFQ 其他非主流搜索引擎形式 2a0E0[{g7h0★黑基空间★G9a0_k"P!K(b (1)集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。 Q`c;C'D"_X/@6|X0 V!dn] g5Y0|Y4bL0(2)门户搜索引擎:AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。★黑基空间★Aj!Jk rrNB ★黑基空间★TkETms'_.S/L (3)免费链接列表(Free For All Links,简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。★黑基空间★_'ghWzh ★黑基空间★w2g@)Si)a;| 虽然我一直都在诚诚恳恳地为人们服务,但随着WWW信息的指数级增长,人们经常投诉说:搜索速度慢、死链接太多、重复信息或不相关信息多,难以满足他们的各种信息需求。没有办法,我也知道“优胜劣汰”法则,所以只好在不断充实和发展自己的同时,向智能化、精确化、交叉语言检索、多媒体检索等方向发展,以适应不同用户的需求。 y9A"j:lj1C'a+d2sF0★黑基空间★a5s?4V*Q~ 强力搜索引擎 $dPGUZp#U0★黑基空间★{ DO Rd;d'v"~ 或许你依靠传统的Web页面搜索引擎难以从浩瀚的网上资源中找齐自己需要的东西,已经不足以启动开往网络的直通车,那除了提高搜索技巧之外,不妨借用一些强力搜索引擎。 2yP_'}H0 j2RO iQ.je y01.搜索引擎扩展 +R0Z mS)e7\4|0★黑基空间★'Z"fyS.WtsRoP 对于不喜欢每次搜索都输入网址的朋友,不妨使用各大搜索引擎推出的搜索工具。★黑基空间★5Rq5a4_U!Z%cT"BK B q*uv%j_^8G0OB0百度搜霸:http://bar.baidu.com/baidubar/BaiduBar.exe;相关资料:http://bar.baidu.com/baidubar/。 9[uz)b l(lT"I0★黑基空间★#G{S:H.Pn b Google Deskbar:http://as.onlinedown.net/down/DeskbarSetup.exe;相关资料:参见《电脑爱好者》2003年第23期第72页。★黑基空间★b1oy3JEe{ /cPN R/rjnIt9I0中国搜索网络猪:http://download.zhongsou.com/setup.exe;相关资料:http://netpig.zhongsou.com/download.html。★黑基空间★Z)\XVpqO ,Y+N4dlF(u;IQL02.专业搜索工具★黑基空间★!hKV9e3G%O}6v|*@ } ★黑基空间★"u5u uF*Nkd9] 搜歌曲:从网上搜索歌曲是很多朋友关心的事,美萍MP3搜索专家能在极短的时间内从网上搜索到你想要的歌曲,同时会进行连接校验、延时测试,保证搜索的有效性,另外软件还内置了在线播放、多线程下载功能,支持MP3、RM、RAM和WMA格式。★黑基空间★K]+Rl4I7bt.A1YJ .a!K&_bh0美萍MP3搜索专家小档案 ]`H#Efd0 "Ei,}SC!D{0软件版本:3.5 软件大小:859KB |9wKO;qp0 O3u+t z`0软件性质:免费软件 适用平台:Windows 9x/NT/2000/XP★黑基空间★@~6Fo L/b[ /rRtX3Ylou v,E0下载地址:http://as.onlinedown.net/down/smusic.exe f9C-L0N xM8E5~!h0安装软件后运行,输入歌曲或歌手关键词后回车,即可搜索MP3,如果想搜索RM、RAM或WMA格式的文件,可以点选相应项。搜索完毕后,各链接会按照速度快慢排列(见图1),右击某链接,选择“下载歌曲”,点击“是”即自动开始下载(进入“下载列表”选项卡可以查看进度和已下载的文件,下小提示★黑基空间★ V3zcrsQz)r 8M|i&a#`+LQXa0★进入“歌手列表”选项卡,可以按照歌手首字母分类、经典老歌、歌曲首字母分类、下载排行榜寻找歌曲。 5z6ux;j8[7yy0 {l4?7cu} O3]0★百度MP3搜索值得一试:http://mp3.baidu.com,另外http://mp3.sina.com.cn/也不错。 L,?;O+OcZ&\;I4V0 K(x ],IM+qR6^X0★黑基空间★)P)~0|"k)jsSh xlAT#@,Io w0搜图片:除了使用专门的图片搜索引擎,如http://image.baidu.com、http://images.google.com/外,还可以使用专门的搜图软件,如ImageSeeker,它可以批量下载图片,还可以根据图片文件名的特征下载文件名相似的图片。ImageSeeker下载地址:http://ks.onlinedown.net/down/ImageSeeker200Beta1.zip。★黑基空间★DvVrxh"CF)H )u{Gl$nX JO%\ |0搜局域网:如果在局域网中一台台机器进行搜索,结果必然是费力不讨好。使用免费的局域网工具可以轻松搜遍整个局域网,局域网工具下载地址:http://www.newhua.com/cfan/200409/20030622.zip。 ~xh`f:i(X4A8k.Bv(x0 t(XJ(Z+Zo v!i"aj0搜代理:最好的代理服务器搜索软件莫过于QQ代理公布器XP,通过它可以搜索Sock5、HTTP代理,QQ代理公布器XP下载地址:http://sq.onlinedown.net/down/qqproxy.rar。★黑基空间★4J2Fh i9Q&I C4g1hEK'dV uLw0搜FTP:第5期曾经介绍了一款名为grim’s ping的FTP搜索软件,如果你是教育网用户,还可以使用FTP校园神捕,它可以扫描指定网段的FTP资源,并挑选其中最快的服务器下载文件,下载地址:http://sq5.onlinedown.net/down/schoolftp.exe。★黑基空间★\)uHY1LaD 9jN-C0^/h5W5h'JwY6to0搜论坛:推荐使用各论坛自带的搜索功能,除此之外软件消息百晓生(下载地址:http://sccrc.onlinedown.net/down/InfoDown_Setup.exe)支持在新浪、网易、Sohu、Tom的论坛中搜索信息,不过不花钱注册的话每次只能搜索8个版块。★黑基空间★xd nRf*u ★黑基空间★If&yy8J[6_Ao 电影、动画片、连续剧、音乐、源代码、小说散文搜索:http://bingle.pku.edu.cn/。 |
相关阅读:
导入论坛 引用链接 收藏 分享给好友 推荐到圈子 管理 举报
TAG: 电脑海蕴


