目录 【概念】 【英文简述】
【工作原理】
全文搜索引擎
目录索引
【搜索引擎的发展史】
搜索引擎的起源:
发 展(1):
发 展(2):
发 展(3):
发 展(4):
发 展(5):
发 展(6):
发 展(7):
【商务模式】
【组成】
【分类】
【著名搜索引擎网址】
【国外著名英文搜索引擎大全及分类】
【搜索技巧】
搜索引擎怎样判断网页所使用的语言?
【搜索引擎与网络推广】
互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。
从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。
互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。
网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
2、处理网页
搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。
3、提供检索服务
用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。
http://my.yahoo.com),vivisimo的在结果中重新组织自己需要的信息,都是一种实验或者创想,短期内无法成为主流的搜索引擎应用产品。
斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。雅虎于2002年12月23日收购inktomi,2003年7月14日收购包括Fast和Altavista在内的Overture,2003年11月,Yahoo全资收购3721公司。
1994年初,华盛顿大学(University of Washington )的学生Brian Pinkerton开始了他的小项目WebCrawler。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。
1994年7月,卡内基 梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。
1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表。
1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。
1995年12月,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。
1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。
1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。
1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub。1995年博士生Larry Page开始学习 搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Don’t be evil)的理念,为Google赢得了极高的口碑和品牌美誉。2006年4月,Google宣布其中文名称“谷歌”,这是Google第一个在非英语国家 起的名字。
Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。(2003年2月25日,Fast的互联网搜索部门被Overture收购)。
1996年8月,sohu公司成立,制作中文网站分类目录,曾有“出门找地图,上网找搜狐”的美誉。随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应。sohu于2004年8月独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。
Openfind 创立于1998年1月,其技术源自台湾 中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域。
2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。后推出贴吧、知道、地图、国学 、百科、文档、视频、博客等一系列产品,深受网民欢迎。2005年8月5日在纳斯达克上市,发行价为USD 27.00,代号为BIDU。开盘价USD 66.00,以USD 122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录。
2003年12月23日,原慧聪搜索正式独立运做,成立了中国搜索。2004年2月,中国搜索发布桌面搜索引擎网络猪1.0,2006年3月中搜将网络猪更名为IG(Internet Gateway) 。
2005年6月,新浪正式推出自主研发的搜索引擎“爱问”。
竞价排名方式。
现在搜索引擎的主流商务模式(百度的竞价排名、Google的AdWords)都是在搜索结果页面放置广告,通过用户的点击向广告主收费。这种模式最早是比尔 格罗斯(Bill Gross)提出的。他于1998年6月创立GoTo公司(后于2001年9月更名为Overture),实施这种模式,取得了很大的成功,并且申请了专利。这种模式有两个特点,一是点击付费(Pay Per Click),用户不点击则广告主不用付费。二是竞价排序,根据广告主的付费多少排列结果。 2001年10月,Google推出AdWords,也采用点击付费和竞价的方式。2002年,Overture起诉Google侵犯了其专利。2004年8月,和Yahoo!(Yahoo!于2003年7月收购Overture)达成和解,向后者支付了270万普通股(合3亿美元不到)作为和解费。
AdSense是Google于2003年推出的一种新的广告方式。AdSense使各种规模的的第三方网页发布者进入Google庞大的广告商网络。Google在这些第三方网页放置跟网页内容相关的广告,当浏览者点击这些广告时,网页发布者能获得收入。AdSense在blogger中很受欢迎。同时,Google武断地删除一些帐号,引起部分人的不满。类似的广告方式,其他搜索引擎也先后推出。雅虎的广告方式是YPN(Yahoo Publisher Network),YPN 除了可以在网页上显示与内容相关的广告以外,还可以通过在 RSS 订阅中来显示广告。微软的广告计划叫AdCenter。百度也推出主题推广。
索引器、检索器和用户接口四个部分组成。
①搜索器:其功能是在互联网中漫游,发现和搜集信息;
②索引器:其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;
③检索器:其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;
④用户接口:其作用是接纳用户查询、显示查询结果、提供个性化查询项。
全文索引
全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。
2.目录索引
目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo!、新浪分类目录搜索。
3.元搜索引擎
元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
其他非主流搜索引擎形式
(1)集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。
(2)门户搜索引擎:AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
(3)免费链接列表(Free For All Links,简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。
http://www.baidu.com/ 2, 维基百科 http://www.wikipedia.com 3、雅虎 http://search.cn.yahoo.com/ 4、Google http://www.google.cn/ 5、网易搜索引擎 http://search.163.com/ 6、北京大学天网中英文搜索引擎 http://e.pku.edu.cn/ 7、搜狐搜索引擎 http://www.sogou.com/dir/ 8、新浪网 http://cha.iask.com/ 9、TOM搜索引擎 http://i.tom.com/ 10、21CN.COM http://search.21cn.com/ 11、飞客BT搜索引擎 http://bt.fkee.com/ 12、Souyo http://www.souyo.com/ 13、雅虎易搜 http://www.yisou.com/ 14、麦布搜索引擎 http://www.mybu.net/ 15、中华搜索 sou.china.com http://sou.china.com/ 16、酷亿 http://www.ku68.com 17、搜搜 http://www.soso.com/ 18、络龙医药化工搜索 http://www.lolong.com/ 19、易搜查http://yisoucha.com
http://www.google.com
2、Yahoo http://www.yahoo.com
3、Live http://www.live.com
4、SearchMash http://www.searchmash.com/
5、ASK http://www.ask.com
6、Search http://www.search.com
7、Ask Jeeves http://www.askjeeves.com
8、AllTheWeb.com http://www.alltheweb.com
9、AOL Search http://aolsearch.aol.com(internal) http://search.aol.com/(external)
10、HotBot http://www.hotbot.com
11、MSN Search http://search.msn.com
12、Teoma http://www.teoma.com
13、AltaVista http://www.altavista.com
14、Gigablast http://www.gigablast.com
15、LookSmart http://www.looksmart.com
16、Lycos http://www.lycos.com
17、Open Directory http://dmoz.org/
18、Netscape Search http://search.netscape.com
主要新闻搜索引擎
1、Google News http://news.google.com/
2、Yahoo News http://news.yahoo.com/
3、AllTheWeb News http://www.alltheweb.com/?cat=news
4、AltaVista News http://news.altavista.com/
5、Daypop http://www.daypop.com/
其它新闻搜索引擎
1、Ananova
http://www.ananova.com/
2、Columbia Newsblaster
http://www1.cs.columbia.edu/nlp/newsblaster/
3、Net2one
http://www.net2one.com/
4、Newsknife.com
http://www.newsknife.com
5、NewsNow
http://www.newsnow.co.uk/
6、NewsTrawler
http://www.newstrawler.com/
7、NewsTrove.com
http://www.newstrove.com/
8、Rocketinfo
http://www.rocketnews.com
9、World News Network
http://www.wn.com/
10、DailyEarth.com
http://dailyearth.com/
11、HeadlineSpot
http://www.headlinespot.com/
12、Kiosken
http://www.esperanto.se/kiosk/engindex.html
Blog 搜索引擎
1、Blogdex
http://blogdex.media.mit.edu/
2、Blogdigger
http://www.blogdigger.com/
3、Blogging Headline News
http://blogging-news.info
4、BlogStreet
http://www.blogstreet.com/
5、CRAYON (CReAte Your Own Newspaper)
http://www.crayon.net/
6、Fagan Finder: Weblogs, Journals, &RSS
http://www.faganfinder.com/blogs/
7、Feedster
http://www.feedster.com/
8、NewsIsFree
http://www.newsisfree.com
9、Syndic8.com
http://www.syndic8.com/
10、Technorati
http://www.technorati.com/
杂志、期刊搜索引擎
1、eLibrary
http://ask.elibrary.com/
2、FindArticles.com
http://www.findarticles.com/
3、MagPortal
http://www.magportal.com/
主要购物搜索引擎
1、BizRate
http://www.bizrate.com/
2、DealTime
http://www.dealtime.com
3、Froogle
http://www.froogle.com
4、Kelkoo
http://www.kelkoo.co.uk/
5、MSN Shopping
http://shopping.msn.com/
6、mySimon
http://www.mysimon.com/
7、NexTag
http://www.nextag.com/
8、PriceGrabber.com
http://www.pricegrabber.com/
9、Yahoo Shopping
http://shopping.yahoo.com/
其它购物搜索引擎
1、Buyer’s Index
http://www.buyersindex.com/
2、Dulance
http://www.dulance.com/
3、ePublicEye.com
http://www.epubliceye.com
4、PriceScan
http://www.pricescan.com/
专业搜索引擎
1、AddAll
http://www.addall.com/
2、CatalogCity.com
http://www.catalogcity.com/
3、Google Catalogs
http://catalogs.google.com/
4、Images/Audio/Video
5、AllTheWeb
http://www.alltheweb.com/
6、AltaVista
http://www.altavista.com/
7、Ditto (images only)
http://www.ditto.com/
8、Google Images (images only)
http://images.google.com
9、Kazaa Media Desktop (MP3 only)
http://www.kazaa.com/
10、Lycos Pictures and Sounds
http://multimedia.lycos.com/
11、MIDI Explorer (MIDI sound files only)
http://www.musicrobot.com/
12、The Music Finder (artists &songs, not files)
http://www.music-finder.net/
13、Picsearch (images only)
http://www.picsearch.com/
14、Singingfish (audio/video only)
http://www.singingfish.com/
Radio &TV Programs
15、SpeechBot
http://speechbot.research.compaq.com/
16、PublicRadioFan.Com
http://www.publicradiofan.com/
17、Radio-Locator
http://www.radio-locator.com/
18、TheFeedRoom
http://www.feedroom.com/
儿童搜索引擎
Ask Jeeves For Kids
http://www.ajkids.com/
Ask Jeeves For Kids
http://www.ajkids.com/
KidsClick!
http://www.kidsclick.org/
Yahooligans
http://www.yahooligans.com/
其它儿童搜索引擎及目录
1、Awesome Library
http://www.awesomelibrary.org/
2、Diddabdoo
http://www.dibdabdoo.com/
3、Education World
http://www.education-world.com/
4、Fact Monster
http://www.factmonster.com/
5、Family Source
http://www.family-source.co