今日搜索引擎分类及特点分析论文(搜索引擎分类及特点分析)
大家好,小吃来为大家解答以上问题。搜索引擎分类及特点分析论文,搜索引擎分类及特点分析很多人还不知道,现在让我们一起来看看吧!
1、搜索引擎的工作原理为:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。
2、从互联网上抓取网页利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
3、建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息根据一定的相关度算法进行大量复杂计算,得到每1个网页针对页面内容中及超链中每1个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
4、在索引数据库中搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。
5、最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
6、搜索引擎按其工作方式可分为三种,全文搜索引擎,目录搜索引擎和元搜索引擎。
7、全文搜索引擎全文搜索引擎的代表是网络爬虫,网络爬虫是一个自动提取网页的程序,它为搜索引擎从Internet网上下载网页,是搜索引擎的重要组成。
8、传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
9、聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并放入等待抓取的URL队列。
10、然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页,并重复上述过程,直到达到系统的某一条件时停止。
11、所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
12、爬虫设计是否合理将直接影响它访问Web的效率,影响搜索数据库的质量,另外在设计爬虫时还必须考虑它对网络和被访问站点的影响,因为爬虫一般都运行在速度快,带宽高的主机上,如果它快速访问一个速度较慢的目标站点,可能导致该站点出现阻塞。
13、Robot应遵守一些协议,以便被访问站点的管理员能够确定访问内容,Index是一个庞大的数据库,爬虫提取的网页将被放入到Index中建立索引,不同的搜索引擎会采取不同方式来建立索引,有的对整个HTML文件的所有单词都建立索引,有的只分析HTML文件的标题或前几段内容,还有的能处理HTML文件中的META标记或特殊标记。
14、目录搜索引擎目录搜索引擎的数据库是依靠专职人员建立的,这些人员在访问了某个Web站点后撰写一段对该站点的描述,并根据站点的内容和性质将其归为一个预先分好的类别,把站点URL和描述放在这个类别中,当用户查询某个关键词时,搜索软件只在这些描述中进行搜索。
15、很多目录也接受用户提交的网站和描述,当目录的编辑人员认可该网站及描述后,就会将之添加到合适的类别中。
16、目录的结构为树形结构,首页提供了最基本的入口,用户可以逐级地向下访问,直至找到自己的类别,另外,用户也可以利用目录提供的搜索功能直接查找一个关键词。
17、由于目录式搜索引擎只在保存了对站点的描述中搜索,因此站点本身的变化不会反映到搜索结果中,这也是目录式搜索引擎与基于Robot的搜索引擎之间的区别。
18、分类目录在网络推广中的应用主要有下列特点。
19、通常只能收录网站首页(或者若干频道),而不能将大量网页都提交给分类目录;网站一旦被收录将在一定时期内保持稳定;无法通过"搜索引擎优化"等手段提高网站在分类目录中的排名;在高质量的分类目录登录,对于提高网站在搜索引擎检索结果中的排名有一定价值;紧靠分类目录通常与其他网站推广手段共同使用。
20、元搜索引擎我们可将元搜索引擎看成具有双层客户机/服务器结构的系统。
21、用户向元搜索引擎发出检索请求,元搜索引擎再根据该请求向多个搜索引擎发出实际检索请求,搜索引擎执行元搜索引擎检索请求后将检索结果以应答形式传送给元搜索引擎,元搜索引擎将从多个搜索引擎获得的检索结果经过整理再以应答形式传送给实际用户。
22、当然,某些元搜索引擎具有略微不同的机制。
23、元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,将结果进行相关处理,以整体统一的格式反馈给用户。
24、它的特点是本身并没有存放网页信息的数据库。
25、多数元搜索引擎在处理其它的搜索引擎返回结果时,只提取出每个搜索引擎的结果中考前的条目,然后将这些条目合并在一起返回给用户,元搜索引擎实现起比较简单,但是它也有一定的局限性,例如多数元搜索引擎都只能访问少数几个搜索引擎,并且通常不支持这些搜索引擎的高级搜索功能,在处理逻辑查询时也常常会出现错误。
26、在这几种检索工具中,目录式搜索引擎成本高,信息t少的缺点,但它的信息准确这一优点使其在一定的领域和时间内仍会被使用,机器人搜索引擎是当前各种搜索引擎的主流,但随着网络信息量的增加,单一搜索引擎已经难已满足要求,结合目录式搜索引擎,机器人搜索引擎的优势,以元搜索引擎为核心的多层代理搜索引擎是搜索引擎的发展方向。
27、搜索引擎技术功能强大,提供的服务也全面,它们的目标不仅仅是提供单纯的查询功能,而是把自己发展成为用户首选的Internet入口站点。
28、目前的搜索引擎主要有几个特点:多样化和个性化的服务。
29、强大的查询功能。
30、目录和基于Robot的搜索引擎相互结合。
31、目前搜索引擎是网络上被使用频率最高的服务项目之一,随着Internet的发展,网上庞大的数字化信息和人们获取所需信息能力之间的矛盾突出。
32、搜索结果丰富的搜索引擎技术正在被信息更集中的局域网取代,因为搜索系统的表现与用户的期望值相差太大,诸如数据量高速增长的视频、音频等多媒体信息的检索,仍然无法实现。
33、搜索引擎越来越不能满足用户的各种信息需求,如收集的网页数量和其数据库的更新速度存在着不可调和的矛盾。
34、用户经常无法打开查询的结果。
35、网络信息时刻变动,实时搜索几乎不可能。
36、网络信息收集与整理是搜索引擎工作的重要部分。
37、搜索引擎需要定期不断地访问网络资源。
38、目前网络带宽不足,网络速度慢,遍历如此庞杂的网络时间花费非常庞大,这就是不能实时搜索的原因。
本文到此结束,希望对大家有所帮助。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
大众CC作为一款备受关注的中型轿车,凭借其优雅的设计和出色的性能一直吸引着众多消费者的目光。2025款大众CC...浏览全文>>
-
2025款阜阳途锐新车正式上市,凭借其卓越的性能和豪华配置吸引了众多消费者的关注。这款车型以最低售价55 88...浏览全文>>
-
在准备购买一辆汽车之前,了解车辆的落地价格是非常重要的。所谓落地价,是指购车时除了车款之外还需要支付的...浏览全文>>
-
安徽淮南地区的长安启源E07作为一款备受关注的新能源车型,凭借其时尚的设计、丰富的配置以及出色的续航能力,...浏览全文>>
-
安徽淮南长安启源A05 2025款新车现已正式上市,这款车型以其高性价比和出色性能吸引了众多消费者的关注。作为...浏览全文>>
-
安徽阜阳地区的威然车型在近期进行了配置上的升级,对于想要购买这款MPV的消费者来说,这是一个值得关注的消息...浏览全文>>
-
随着汽车市场的不断发展,SUV车型因其宽敞的空间和多功能性受到了越来越多消费者的青睐。作为大众旗下的高端旗...浏览全文>>
-
安徽蚌埠地区想要购买长安启源E07这款新能源汽车的朋友,可以参考以下信息来做出更明智的选择。长安启源E07定...浏览全文>>
-
随着汽车市场的不断发展,2025款安庆高尔夫作为一款备受关注的车型,其价格和配置自然成为消费者热议的话题。...浏览全文>>
-
近期,安徽蚌埠地区的帕萨特车型迎来了新一轮的价格调整,其落地价再次创下新低,吸引了众多消费者的关注。作...浏览全文>>
- 悉尼最后几个年薪低于 10 万美元的郊区
- 2025 年新南威尔士州值得投资的地方
- 揭秘在澳大利亚买房需要多少收入
- 悉尼最后几个年薪低于 10 万美元的郊区
- 昆士兰有望成为澳大利亚房地产强国之一
- MSI 推出首款双模式 4K 曲面电竞显示器
- 飞利浦 Screeneo GamePix 900:在发布前进行预览
- 您会在这个奇怪的电动露营三轮车里露营吗
- Meross 推出支持 Matter 的智能恒温器
- 配备出色 3K OLED 显示屏的 Acer Swift 16 现已降价至史上最低价
- Acer Predator Helios 18 RTX 4080 游戏笔记本电脑 现优惠 725 美元
- VivoX200Pro视频和新样张揭示了200MP蔡司变焦相机的锐利眼睛可以达到多远
- 派对氛围天文爱好者又一次欣赏到极光秀
- iPhone16相机控制按钮有史以来最不苹果的东西
- 贾雷尔夸萨与利物浦签订新合同
- 首款在安兔兔上得分300万的手机拥有非常强大的SoC即将发布
- HumaninMotionRobotics的自平衡XoMotion外骨骼获得加拿大批准用于物理治疗
- 龙宫样本对之前关于富碳小行星形成的观点提出了质疑
- 凯文德布劳内伤情更新曼城球星的伤势进展和可能的回归日期
- 实验室实验表明用核武器轰炸一颗巨大的小行星可以拯救地球