设为首页
收藏本免费论文网
老版首页
老版首页2
经济学论文 财政税收论文 证券金融论文 管理学论文 会计审计论文 工商管理论文 财务管理论文 公共管理论文 法学论文
理学论文 医药学论文 政治论文 社会学论文 教育类论文 工学论文 计算机论文 艺术类论文 哲学论文
文化论文 英语论文 应用文论文 论文指导论文 文学论文 老版免费论文 老版2免费论文 本站导航
本站已收录十余万免费论文,并不断增加中,想要什么论文资料,轻松一搜便得! 关键词:
免费哲学论文免费论文网首页 --> 哲学论文 --> 国学论文 -->搜索引擎技术

搜索引擎技术

关键字: 搜索引擎 搜索引擎技术研究 搜索引擎研究

目录 【概念】

【英文简述】

【工作原理】

全文搜索引擎

目录索引

【搜索引擎的发展史】

搜索引擎的起源:

发 展(1):

发 展(2):

发 展(3):

发 展(4):

发 展(5):

发 展(6):

发 展(7):

【商务模式】

【组成】

【分类】

【著名搜索引擎网址】

【国外著名英文搜索引擎大全及分类】

【搜索技巧】

搜索引擎怎样判断网页所使用的语言?

【搜索引擎与网络推广】

互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。

从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。

互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。

网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

2、处理网页

搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。

3、提供检索服务

用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。

http://my.yahoo.com),vivisimo的在结果中重新组织自己需要的信息,都是一种实验或者创想,短期内无法成为主流的搜索引擎应用产品。

斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。雅虎于2002年12月23日收购inktomi,2003年7月14日收购包括Fast和Altavista在内的Overture,2003年11月,Yahoo全资收购3721公司。

1994年初,华盛顿大学(University of Washington )的学生Brian Pinkerton开始了他的小项目WebCrawler。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。

1994年7月,卡内基 梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。

1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表。

1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。

1995年12月,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。

1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。

1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。

1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Don’t be evil)的理念,为Google赢得了极高的口碑和品牌美誉。2006年4月,Google宣布其中文名称“谷歌”,这是Google第一个在非英语国家起的名字。

Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。(2003年2月25日,Fast的互联网搜索部门被Overture收购)。

1996年8月,sohu公司成立,制作中文网站分类目录,曾有“出门找地图,上网找搜狐”的美誉。随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应。sohu于2004年8月独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。

Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域。

2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。后推出贴吧、知道、地图、国学、百科、文档、视频、博客等一系列产品,深受网民欢迎。2005年8月5日在纳斯达克上市,发行价为USD 27.00,代号为BIDU。开盘价USD 66.00,以USD 122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录。

2003年12月23日,原慧聪搜索正式独立运做,成立了中国搜索。2004年2月,中国搜索发布桌面搜索引擎网络猪1.0,2006年3月中搜将网络猪更名为IG(Internet Gateway) 。

2005年6月,新浪正式推出自主研发的搜索引擎“爱问”。

竞价排名方式。

现在搜索引擎的主流商务模式(百度的竞价排名、Google的AdWords)都是在搜索结果页面放置广告,通过用户的点击向广告主收费。这种模式最早是比尔 格罗斯(Bill Gross)提出的。他于1998年6月创立GoTo公司(后于2001年9月更名为Overture),实施这种模式,取得了很大的成功,并且申请了专利。这种模式有两个特点,一是点击付费(Pay Per Click),用户不点击则广告主不用付费。二是竞价排序,根据广告主的付费多少排列结果。 2001年10月,Google推出AdWords,也采用点击付费和竞价的方式。2002年,Overture起诉Google侵犯了其专利。2004年8月,和Yahoo!(Yahoo!于2003年7月收购Overture)达成和解,向后者支付了270万普通股(合3亿美元不到)作为和解费。

AdSense是Google于2003年推出的一种新的广告方式。AdSense使各种规模的的第三方网页发布者进入Google庞大的广告商网络。Google在这些第三方网页放置跟网页内容相关的广告,当浏览者点击这些广告时,网页发布者能获得收入。AdSense在blogger中很受欢迎。同时,Google武断地删除一些帐号,引起部分人的不满。类似的广告方式,其他搜索引擎也先后推出。雅虎的广告方式是YPN(Yahoo Publisher Network),YPN 除了可以在网页上显示与内容相关的广告以外,还可以通过在 RSS 订阅中来显示广告。微软的广告计划叫AdCenter。百度也推出主题推广。

索引器、检索器和用户接口四个部分组成。

①搜索器:其功能是在互联网中漫游,发现和搜集信息;

②索引器:其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;

③检索器:其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;

④用户接口:其作用是接纳用户查询、显示查询结果、提供个性化查询项。

全文索引

全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。

根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。

2.目录索引

目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo!、新浪分类目录搜索。

3.元搜索引擎

元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。

其他非主流搜索引擎形式

(1)集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。

(2)门户搜索引擎:AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。

(3)免费链接列表(Free For All Links,简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。

http://www.baidu.com/ 2, 维基百科 http://www.wikipedia.com 3、雅虎 http://search.cn.yahoo.com/ 4、Google http://www.google.cn/ 5、网易搜索引擎 http://search.163.com/ 6、北京大学天网中英文搜索引擎 http://e.pku.edu.cn/ 7、搜狐搜索引擎 http://www.sogou.com/dir/ 8、新浪网 http://cha.iask.com/ 9、TOM搜索引擎 http://i.tom.com/ 10、21CN.COM http://search.21cn.com/ 11、飞客BT搜索引擎 http://bt.fkee.com/ 12、Souyo http://www.souyo.com/ 13、雅虎易搜 http://www.yisou.com/ 14、麦布搜索引擎 http://www.mybu.net/ 15、中华搜索 sou.china.com http://sou.china.com/ 16、酷亿 http://www.ku68.com 17、搜搜 http://www.soso.com/ 18、络龙医药化工搜索 http://www.lolong.com/ 19、易搜查http://yisoucha.com

http://www.google.com

2、Yahoo http://www.yahoo.com

3、Live http://www.live.com

4、SearchMash http://www.searchmash.com/

5、ASK http://www.ask.com

6、Search http://www.search.com

7、Ask Jeeves http://www.askjeeves.com

8、AllTheWeb.com http://www.alltheweb.com

9、AOL Search http://aolsearch.aol.com(internal) http://search.aol.com/(external)

10、HotBot http://www.hotbot.com

11、MSN Search http://search.msn.com

12、Teoma http://www.teoma.com

13、AltaVista http://www.altavista.com

14、Gigablast http://www.gigablast.com

15、LookSmart http://www.looksmart.com

16、Lycos http://www.lycos.com

17、Open Directory http://dmoz.org/

18、Netscape Search http://search.netscape.com

主要新闻搜索引擎

1、Google News http://news.google.com/

2、Yahoo News http://news.yahoo.com/

3、AllTheWeb News http://www.alltheweb.com/?cat=news

4、AltaVista News http://news.altavista.com/

5、Daypop http://www.daypop.com/

其它新闻搜索引擎

1、Ananova

http://www.ananova.com/

2、Columbia Newsblaster

http://www1.cs.columbia.edu/nlp/newsblaster/

3、Net2one

http://www.net2one.com/

4、Newsknife.com

http://www.newsknife.com

5、NewsNow

http://www.newsnow.co.uk/

6、NewsTrawler

http://www.newstrawler.com/

7、NewsTrove.com

http://www.newstrove.com/

8、Rocketinfo

http://www.rocketnews.com

9、World News Network

http://www.wn.com/

10、DailyEarth.com

http://dailyearth.com/

11、HeadlineSpot

http://www.headlinespot.com/

12、Kiosken

http://www.esperanto.se/kiosk/engindex.html

Blog 搜索引擎

1、Blogdex

http://blogdex.media.mit.edu/

2、Blogdigger

http://www.blogdigger.com/

3、Blogging Headline News

http://blogging-news.info

4、BlogStreet

http://www.blogstreet.com/

5、CRAYON (CReAte Your Own Newspaper)

http://www.crayon.net/

6、Fagan Finder: Weblogs, Journals, &RSS

http://www.faganfinder.com/blogs/

7、Feedster

http://www.feedster.com/

8、NewsIsFree

http://www.newsisfree.com

9、Syndic8.com

http://www.syndic8.com/

10、Technorati

http://www.technorati.com/

杂志、期刊搜索引擎

1、eLibrary

http://ask.elibrary.com/

2、FindArticles.com

http://www.findarticles.com/

3、MagPortal

http://www.magportal.com/

主要购物搜索引擎

1、BizRate

http://www.bizrate.com/

2、DealTime

http://www.dealtime.com

3、Froogle

http://www.froogle.com

4、Kelkoo

http://www.kelkoo.co.uk/

5、MSN Shopping

http://shopping.msn.com/

6、mySimon

http://www.mysimon.com/

7、NexTag

http://www.nextag.com/

8、PriceGrabber.com

http://www.pricegrabber.com/

9、Yahoo Shopping

http://shopping.yahoo.com/

其它购物搜索引擎

1、Buyer’s Index

http://www.buyersindex.com/

2、Dulance

http://www.dulance.com/

3、ePublicEye.com

http://www.epubliceye.com

4、PriceScan

http://www.pricescan.com/

专业搜索引擎

1、AddAll

http://www.addall.com/

2、CatalogCity.com

http://www.catalogcity.com/

3、Google Catalogs

http://catalogs.google.com/

4、Images/Audio/Video

5、AllTheWeb

http://www.alltheweb.com/

6、AltaVista

http://www.altavista.com/

7、Ditto (images only)

http://www.ditto.com/

8、Google Images (images only)

http://images.google.com

9、Kazaa Media Desktop (MP3 only)

http://www.kazaa.com/

10、Lycos Pictures and Sounds

http://multimedia.lycos.com/

11、MIDI Explorer (MIDI sound files only)

http://www.musicrobot.com/

12、The Music Finder (artists &songs, not files)

http://www.music-finder.net/

13、Picsearch (images only)

http://www.picsearch.com/

14、Singingfish (audio/video only)

http://www.singingfish.com/

Radio &TV Programs

15、SpeechBot

http://speechbot.research.compaq.com/

16、PublicRadioFan.Com

http://www.publicradiofan.com/

17、Radio-Locator

http://www.radio-locator.com/

18、TheFeedRoom

http://www.feedroom.com/

儿童搜索引擎

Ask Jeeves For Kids

http://www.ajkids.com/

Ask Jeeves For Kids

http://www.ajkids.com/

KidsClick!

http://www.kidsclick.org/

Yahooligans

http://www.yahooligans.com/

其它儿童搜索引擎及目录

1、Awesome Library

http://www.awesomelibrary.org/

2、Diddabdoo

http://www.dibdabdoo.com/

3、Education World

http://www.education-world.com/

4、Fact Monster

http://www.factmonster.com/

5、Family Source

http://www.family-source.co


 如果觉得本篇论文可以,添加到收藏夹! [返回顶部↑
搜 索 其 它
相 关 论 文
我 的 读 书 生 活
梁漱溟传奇的一生。
文学院 12060310 李超越《唐宋词体演进》作业
大变革时代,为什么没有大师级人物?
如是我闻--从《说闻》到《四部文明》
165 品评战国风貌 再论文史纷争
你是我的梦想
(转载)创业成功必看的24个小故事
相 关 类 别
逻辑学论文
中国哲学论文
西方哲学论文
思想哲学论文
科技哲学论文
美学论文
国学论文
哲学相关论文
哲学论文
宗教学论文

免费论文网包含:各类免费毕业论文下载、免费法律论文、免费计算机论文、免费会计论文、免费英语论文、免费经济论文、免费管理论文、免费金融论文、大学生社会实践论文、三个代表论文、三农问题论文等所有论文均来源于网上的共享资源以及一些期刊杂志,所有论文仅供网友间相互学习交流之用,请特别注意勿做其他非法用途!如果我们有侵犯你的版权或其他有损您利益的行为,请联系我们指出,我们会立即进行改正或删除有关内容!
广告服务 | 关于我们 | 加盟合作 | 免责条款 | 人才招聘 | 联系我们