-
搜索引擎
爬虫模块、预处理模块和搜索模块。
搜索引擎的三个部分是相互独立的,三个部分分别工作,主要的关系体现在前一部分得到的数据结果为后一部分提供原始数据。
用户通过浏览器提交查询的词或者短语 P,搜索引擎根据用户的查询返回匹配的网页信息列表 L;
上述过程涉及到两个问题,如何匹配用户的查询以及网页信息列表从何而来,根据什么而排序?用户的查询 P 经过分词器被切割成小词组 并被剔除停用词 ( 的、了、啊等字 ),根据系统维护的一个倒排索引可以查询某个词 pi 在哪些网页中出现过,匹配那些 都出现的网页集即可作为初始结果,更进一步,返回的初始网页集通过计算与查询词的相关度从而得到网页排名,即 Page Rank,按照网页的排名顺序即可得到最终的网页列表;
假设分词器和网页排名的计算公式都是既定的,那么倒排索引以及原始网页集从何而来?原始网页集在之前的数据流程的介绍中,可以得知是由爬虫 spider 爬取网页并且保存在本地的,而倒排索引,即词组到网页的映射表是建立在正排索引的基础上的,后者是分析了网页的内容并对其内容进行分词后,得到的网页到词组的映射表,将正排索引倒置即可得到倒排索引;
网页的分析具体做什么呢?由于爬虫收集来的原始网页中包含很多信息,比如 html 表单以及一些垃圾信息比如广告,网页分析去除这些信息,并抽取其中的正文信息作为后续的基础数据。
- 2022-05-07 14:54:09下载
- 积分:1
-
我的一个简单实用的计数器程序。
我的一个简单实用的计数器程序。-a simple and practical counter procedures.
- 2022-11-05 18:00:03下载
- 积分:1
-
用java的图形设计,很用的.充分体验到java的图形界面设计
用java的图形设计,很用的.充分体验到java的图形界面设计-Java with the graphic design, it is used. To fully experience the design of java GUI
- 2022-04-07 21:57:26下载
- 积分:1
-
C++、MFC源代码parser_src
C++、MFC源代码parser_src-C, MFC source code parser_src
- 2022-06-28 04:44:33下载
- 积分:1
-
a pretty small clock, in any environment running
一个漂亮的小时钟,,可以在任何环境下运行-a pretty small clock, in any environment running
- 2023-05-01 10:55:03下载
- 积分:1
-
SHIP is a computer game which is played by the single player at a time.
SHIP is a computer game which is played by the single player at a time.
- 2023-07-31 02:45:03下载
- 积分:1
-
本程序是一个例子,一个定时器计数从20使用SDL定时器功能。
This program is a example of a timer counting down from 20 using the SDL timer function
- 2022-03-23 15:18:37下载
- 积分:1
-
TComboBox控件的特效
TComboBox控件的特效-TComboBox Controls effects
- 2022-01-25 13:51:11下载
- 积分:1
-
服务器
server server server-server server server server server
- 2022-03-26 19:42:51下载
- 积分:1
-
列表 BFS 广度优先搜索
广度优先搜索 (BFS) 是一种策略寻找图中搜索时限于本质上是两个操作: (a) 访问和视察一个节点图 ;(b) 获得访问权的邻居的当前访问的节点的节点。BFS 从根节点开始,并检查所有相邻的节点。然后这些邻居节点的每个反过来,它检查其中人迹罕至,他们的邻居节点,等等。BFS 相比相当,但更多的内存 efficientIterative 深化深度优先搜索和深度优先搜索与对比。
- 2022-01-24 13:52:36下载
- 积分:1