的形式存储-IMDN开发者社群-imdn.cn"> 的形式存储 - IMDN开发者社群-imdn.cn">
登录
首页 » java » 微博爬虫

微博爬虫

于 2022-06-16 发布 文件大小:35.97 MB
0 45
下载积分: 2 下载次数: 1

代码说明:

可用于爬取微博信息 主要循环代码 main loop : rounds of generate - fetch - parse - update # 执行循环,每次执行一层(一个深度)的爬取 # 每层爬取都会执行: # 1.生成本次待爬取任务列表(generate) # 2.抓取爬取列表中页面(fetch) # 3.解析爬取页面(parse),抽取所有链接,以及搜索引擎相关数据(网页标题、网页文本、meta信息等) # 4.将从本次爬取中解析出的链接,更新(update)到$CRAWL_PATH/crawldb中,同时将抓取到的链接的状态(抓取成功、失败、重试次数),更新到$CRAWL_PATH/crawldb中 # LIMIT是bin/crawl命令后参数中给定的 for ((a=1; a

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • 电子商务小站点,用到struts+hibernate
    电子商务小站点,用到struts+hibernate-Small e-commerce sites, use struts+ Hibernate
    2023-06-22 23:50:06下载
    积分:1
  • BaiduMapApi_Sample_Android_1.3.3
    百度地图的源代码,是android开发所用,适合想研究地图的人看(Baidu map code)
    2014-02-05 16:35:26下载
    积分:1
  • Compare
    Compare<T> implements IArgumentMatcher.
    2014-01-08 10:37:44下载
    积分:1
  • STRUTS2+ SPRING+ HIBERNATE used to achieve a complete case
    用STRUTS2+SPRING+HIBERNATE实现的完整案例-STRUTS2+ SPRING+ HIBERNATE used to achieve a complete case
    2022-11-30 18:30:04下载
    积分:1
  • SSD3实验三答案,内含四个类,绝对满分答案
    SSD3实验三答案,内含四个类,绝对满分答案-SSD3 experiment three answers, containing four categories, the answer is absolutely perfect score
    2022-03-01 22:10:50下载
    积分:1
  • java实现的网络白版
    应用背景基于java的网络白板,支持多线程。可以画直线,矩形等图形。关键技术多线程机制和socket网络通信,以及同步机制。
    2023-03-05 06:40:04下载
    积分:1
  • Practical_Quiz_3
    Practical_Quiz_3 easy to understand
    2014-12-13 17:05:21下载
    积分:1
  • fowtainer
    说明:  
    2018-05-15 05:13:00下载
    积分:1
  • Kqscan
    基于特定erp平台进行条码管理,使用语言未java涉及跨库跨服务器链接以及存储过程的调用等.(Bar code management based on specific ERP platform. The use of language without Java involves cross-library cross-server links and calls of stored procedures.)
    2020-06-19 01:00:02下载
    积分:1
  • 小娴弹钢琴
    可以模拟本人声音或标准钢琴声音自弹钢琴
    2022-08-18 16:52:36下载
    积分:1
  • 696518资源总数
  • 104326会员总数
  • 25今日下载