登录
首页 » Others » 豆瓣电影大数据分析-【附带爬虫豆瓣,对数据处理,数据分析,可视化】.zip

豆瓣电影大数据分析-【附带爬虫豆瓣,对数据处理,数据分析,可视化】.zip

于 2021-11-24 发布
0 387
下载积分: 1 下载次数: 4

代码说明:

平台部分主要是hadoop分布式系统,基于该系统融合了组件Spark,Hbase,Hive,Sqoop,Mahout等。继而进行相关的数据分析 该项目主要分为以下几部分: 1:数据采集 主要是基于豆瓣电影的数据,进行分析,所以首先要爬取相关的电影数据,对应的源代码在DouBan_Spider目录下,主要是采用Python + BeautifulSoup + urllib进行数据采集 2:ETL预处理 3:数据分析 4:可视化 代码封装完好, 适用于对作影视感情分析,影评分析,电影类型分析,推荐系统的建立

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • 遗传算法MATLB序,含有遗传算法的选择、交叉、变异函数
    遗传算法MATLB程序,里面有遗传算法的选择、交叉、变异函数,一些简单的MABTLAB遗传算法例子
    2020-12-10下载
    积分:1
  • ARM9嵌入式系统硬件设计指南(上).pdf
    主要讲解嵌入式硬件部分的内容,以及ARM芯片的发展,每个核心模块介绍。硬件电路的介绍
    2020-12-03下载
    积分:1
  • 阶比仿真序,matlab版
    阶比仿真,matlab版,调试好的,绝对管用。
    2020-12-04下载
    积分:1
  • 鸢尾花数据相关绘图(天津理工大学研究生数据挖掘课次作业)
    天津理工大学研究生作业,王晓晔老师的数据挖掘课程,使用数据绘制直方图、盒状图等。含输出结果。欢迎参考,请勿照抄。抄也去掉作者信息再交作业吧。
    2020-12-04下载
    积分:1
  • PyGame官方手册(官方API)包含中文和英文(全)
    PyGame官方手册(官方API)包含中文和英文(全)内容包含:Pygame官方中文文档(v1.9.2).pdfPygame官方英文文档(v1.9.2).pdf
    2020-12-06下载
    积分:1
  • ArcGIS河流平均比降计算工具
    利用ArcGIS计算河流的平均比降。参考的方法是【约翰斯通-克罗斯】法
    2020-11-30下载
    积分:1
  • Excel王佩丰视频教课件打包
    Excel王佩丰视频教程课件打包所有24课时的资源课件全部
    2020-05-28下载
    积分:1
  • 支持向量机
    关于支持向量机里面讲核函数的,介绍了线性核函数、高斯核函数、及多项式核函数等。还介绍了核函数的判定以及Mercer定理1x1121T3212T42.3p(a)L313x2.3.32cT1V2C.223+d更一般地,核数K(x2z)=(xz+)“对应的映射后特征维度为a(求解方法参见http://zhidao.baiducom/question/16706714.html)由于计算的是内积,我们可以想到IR中的余弦相似度,如果ⅹ和z向量夹角越小,那么核函数值越大,反之,越小。因此,核函数值是(x)和(z)的相似度。再看另外一个核函数K(r, z)=expz-z|222这时,如果x和z很相近(x-2‖≈0),那么核函数值为1,如果x和z相差很大(x-2》0),那么核函数值约等于0。由于这个函数类似于高斯分布,因此称为高斯核函数,也叫做径向基函数( Radial basis function简称RBF)。它能够把原始特征映射到无穷维。既然高斯核函数能够比较ⅹ和z的相似度,并映射到0到1,回想 logistic回归, sigmoid函数可以,因此还有sigmoid核函数等等下面有张图说明在低维线性不可分时,映射到高维后就可分了,使用高斯核函数。Linear回回看目即Gaussian来自 Eric Xing的sdes注意,使用核函数后,怎么分类新来的样本呢?线性的时候我们使用SVM学与出W和b,新来样木ⅹ的话,我们使用wTx+ b来判断,如果值大于等于1,那么是正类,小于等于是负类。在两者之间,认为无法确定。如果使用了核函数后,W2x+b就变成了wφ(x)+b,是否先要找到p(x),然后再预测?答案背定不是了,找φ(x很麻烦,回想我们之前说过的wa+6=boy(0)x+bi=1(x(,x)+b只需将替换成(x,x),然后值的判断同上8核函数有效性判定问题:给定一个函数K,我们能否使用K来替代计算φ(x)2中(z),也就说,是否能够找出一个,使得对丁所有的x和z,都有k(x,2)=(x)r中(2)9比如给出了K(x,2)=(x2)2,是否能够认为K是一个有效的核函数下面来解决这个问题,给定m个训练样本全(r(3xm,每一个对应一个特征向量。那么,我们可以将(e) yJ仟意两个和带入K中,计算得到=0。I可以从1到m,j以从1到m,这样可以计算出m*m的核函数矩阵( Kernel Matrix)。为了方便,我们将核函数矩阵和(x,z)都使用K来表示如果假设K是有效地核函数,那么根据核函数定义k1=K(x0x0)=p(x()p(x0)=p(x(0)p(x()=K(x(,x)=K可见,矩阵K应该是个对称阵。让我们得出一个更强的结论,首先使用符号中x(x)来表示映射函数中(x)的第k维属性值。那么对于任意向量z,得2K2=∑∑2K3∑∑(m0y(0)2∑∑∑(z0)(x0)z∑∑∑29(x)k(z0)k i j=S|∑zipk(c(ak0.最后一步和前面计算K(x)=(x2)时类似。从这个公式我们可以看出,如果K是个有效的核函数(即K(xz)和(x)p(2)等价),那么,在训练集上得到的核函数矩阵K应该是半正定的(K≥0这样我们得到一个核函数的必要条件:K是有效的核函数==>核函数矩阵K是对称半正定的可幸的是,这个条件也是充分的,由 Mercer定理来表达。Mercer定理:如果函数K是×四→巫上的映射(也就是从两个n维向量映射到实数域)。那么如果K是一个有效核函数(也称为 Mercer核函数),那么当且仅当对于训练样例(r()x(m,其相应的核函数矩阵是对称半正定的。Mercer定理表明为了证明K是有效的核函数,那么我们不用去寻找φ,而只需要在训练集上求出各,然后判断矩阵K是否是半正定(使用左上角主子式大于等于零等方法)即可。许多其他的教科书在 Mercer定理证明过程中使用了范数和再生希尔伯特空间等概念,但在特征是n维的情况下,这里给出的证明是等价的。核函数不仅仅用在SWM上,但凡在一个模型后算法中出现了,我们都可以常使用区(xz)去替换,这可能能够很好地改善我们的算法。posted on2011-03-1820:22 Jerry Lead阅读(…)评论(…)编辑收藏刷新评论刷新页面返回顶部博客园首页博问新闻闪存程序员招聘知识库Powered by:博客园 Copyright@ Jerry Lead
    2020-12-01下载
    积分:1
  • hough变换检测多个圆 matlab
    hough变换检测多个圆的matlab程序。就是对内存要求大点
    2020-12-02下载
    积分:1
  • colorspace.m matlab
    该matlab程序实现各个颜色空间模型的相互转化,说明及使用示例程序中都有说明。与君共享。
    2020-12-05下载
    积分:1
  • 696518资源总数
  • 104226会员总数
  • 33今日下载