-
搜索引擎
爬虫模块、预处理模块和搜索模块。
搜索引擎的三个部分是相互独立的,三个部分分别工作,主要的关系体现在前一部分得到的数据结果为后一部分提供原始数据。
用户通过浏览器提交查询的词或者短语 P,搜索引擎根据用户的查询返回匹配的网页信息列表 L;
上述过程涉及到两个问题,如何匹配用户的查询以及网页信息列表从何而来,根据什么而排序?用户的查询 P 经过分词器被切割成小词组 并被剔除停用词 ( 的、了、啊等字 ),根据系统维护的一个倒排索引可以查询某个词 pi 在哪些网页中出现过,匹配那些 都出现的网页集即可作为初始结果,更进一步,返回的初始网页集通过计算与查询词的相关度从而得到网页排名,即 Page Rank,按照网页的排名顺序即可得到最终的网页列表;
假设分词器和网页排名的计算公式都是既定的,那么倒排索引以及原始网页集从何而来?原始网页集在之前的数据流程的介绍中,可以得知是由爬虫 spider 爬取网页并且保存在本地的,而倒排索引,即词组到网页的映射表是建立在正排索引的基础上的,后者是分析了网页的内容并对其内容进行分词后,得到的网页到词组的映射表,将正排索引倒置即可得到倒排索引;
网页的分析具体做什么呢?由于爬虫收集来的原始网页中包含很多信息,比如 html 表单以及一些垃圾信息比如广告,网页分析去除这些信息,并抽取其中的正文信息作为后续的基础数据。
- 2022-05-07 14:54:09下载
- 积分:1
-
基于c语言开发的40KHz超声波产生与发射程序,适用于51系列单片机...
基于c语言开发的40KHz超声波产生与发射程序,适用于51系列单片机-C-based languages have developed and launched 40KHz ultrasonic procedures, applicable to 51 Series Single Chip
- 2022-03-12 23:02:54下载
- 积分:1
-
一个用Delphi做的工作计划工具(含源程序的)
一个用Delphi做的工作计划工具(含源程序的)-a Delphi done by the planning tools (including source code)
- 2023-07-20 22:20:03下载
- 积分:1
-
refer loop (), the realization of my own my_atoi (), is very good :)
参阅atoi()后,实现我自己的my_atoi(),很不错的:)-refer loop (), the realization of my own my_atoi (), is very good :)
- 2022-04-18 08:56:21下载
- 积分:1
-
VB编写的代码管理程序
总结C51中的位运算并分析了其用法,例如《 》 _cror_()的用法-Summed up in the C51-bit computing and analysis of its usage, for example,
- 2022-07-16 02:43:59下载
- 积分:1
-
activetapidevelopersetup TAPI development control
activetapidevelopersetup TAPI开发的控件-activetapidevelopersetup TAPI development control
- 2022-07-24 10:11:29下载
- 积分:1
-
这是一个 VC摹仿手写字的C源码 大家参考一下
这是一个 VC摹仿手写字的C源码 大家参考一下-This is like a hand-written word imitation VC source we refer to C
- 2022-01-31 20:19:36下载
- 积分:1
-
VC6中不同类型之间的转换,困扰很多VC程序员的难题
VC6中不同类型之间的转换,困扰很多VC程序员的难题-VC6 between different types of conversion, troubled many of the problems programmers VC
- 2023-07-11 17:00:03下载
- 积分:1
-
抓取使用DirectX的Outlook联系人的方法,应先安装Outlook
使用DirectX抓取OUTLOOK联系人的方法,应先安装OUTLOOK
- 2022-07-01 16:01:25下载
- 积分:1
-
AES 加密算法的演示代码 解压后用VC打开即可
AES 加密算法的演示代码 解压后用VC打开即可-AES algorithm code. Decompress it, then open it in VC.
- 2023-02-08 07:35:03下载
- 积分:1