网页中的语义文本提取
于 2022-08-09 发布
文件大小:56.92 kB
0 114
下载积分: 2
下载次数: 1
代码说明:
应用背景这个代码是我们在我们学院的语义网技术学科中的一部分。这个代码是一个非常基本的尝试,试图从网页中删除广告,只显示相关的文本。我们删除广告、Flash及其他JavaScript等,只用文字显示。此代码使用Python语言因为它减少程序员的编码工作提供了许多图书馆侧。关键技术Web 已经成为最大的信息来源,有数十亿网页。然而, web 页通常包含一些与主题无关的内容。例如, 有这么多的多媒体广告段、 不必要的图像或导航链接 在 Web 页中。这些部件可以严重损害 Web 数据挖掘,分散注意力从主要用户 主题,并影响 PageRank。有一些现有的方法来发现翔实的内容块。最简单的方法是辨识和消除杂波,广告、 装饰等。
下载说明:请别用迅雷下载,失败请重下,重下不扣分!
发表评论