微博爬虫
代码说明:
可用于爬取微博信息 主要循环代码 main loop : rounds of generate - fetch - parse - update # 执行循环,每次执行一层(一个深度)的爬取 # 每层爬取都会执行: # 1.生成本次待爬取任务列表(generate) # 2.抓取爬取列表中页面(fetch) # 3.解析爬取页面(parse),抽取所有链接,以及搜索引擎相关数据(网页标题、网页文本、meta信息等) # 4.将从本次爬取中解析出的链接,更新(update)到$CRAWL_PATH/crawldb中,同时将抓取到的链接的状态(抓取成功、失败、重试次数),更新到$CRAWL_PATH/crawldb中 # LIMIT是bin/crawl命令后参数中给定的 for ((a=1; a
下载说明:请别用迅雷下载,失败请重下,重下不扣分!