-
评委一评分,
签名及备注
队号:
评委三评分,签名及备注
20025
评委二评分,
签名及备注
选题:
评委四评分,签名及备注
B
题目:基于层次分析法与
BP
神经网络对书籍推荐的研究
摘
要
随着信息技术和互联网的发展,关于各类信息的评价、推荐越来越被广泛关
注。本文根据一个着名网上书店的用户行为信息,分析影响用户评分的因素来建
立用户对书籍的评分体系模型,进而对用户进行书籍推荐。
对于问题一,首先对原始数据筛选处理,得到用户对书籍的评价为
5
分的数
据;考虑到不同因素对书籍评分的影响,然后再对标签、社交好友、书籍浏览
量
三组数据分别进行双变量相关分析,得到用户对书籍的评分分数与标签数量、用
户好友数量、书籍的历史浏览量成正相关的关系,对用户对书籍评分影响程度分
别为历史浏览量>用户好友人数>书籍标签数量。
对
于问题二,本文分别通过建立层次分析模型和
BP
神经网络模型
对评分进
行预测。首先将三个影响评分的因素:书籍的书签数量、历史浏览量、用户的好
友数量作为评分指标,建立层次评价指标体系。然后,通过建立层次分析模型,
得到标签数量、历史浏览量、用户好友数量三个指标的权重:
,
,
,进而确定用户
对书籍的评分公式,
再将问题中的
36
组数据分别进行分析
,
并运用评分公式得到
用户对每个书籍的评分。
接下来构建
BP
神经网络模型,先对原始数据进行筛选
得到
99
组数据;把不同用户对书籍的标签数量
、用户好友数量、书籍浏览量和
对应的书籍评分作为输入量,将其他用户对书籍的评分作
为输出量。选取
80
组
数据训练该神经
网络,
剩余
19
组数据检验模型,
p>
误差在
%
之内,
最
后利用该训练
好的网络预测用户对书籍评分。通过两种模型的对比得出更为精确的结果。
对于问题三,本文考虑到对书籍的好评频率越高
,
用户对书籍的喜爱程度越
高,
通过对原始数据筛选得到用户未看过书的
ID
,
选取前三本评分为五分频率最
高的书籍,
即为推荐
给该用户的三本书籍
ID
,
然后循环五
次进行分析最终得到问
题所要求的五个用户的推荐书籍
ID
p>
。
关键字:书籍评分;相关分析;层次分析法;
BP
神经网络
基于层次分析法和
BP<
/p>
神经网络对书籍推荐的研究
1.
问题的重述
p>
随着信息技术和互联网的发展,
人们逐渐从信息匮乏的时代走入了信
息过载
的时代。
此时,无论是信息消费者还是信息生产者都遇到
了很大的挑战:对于信
息消费者,
从大量信息中找到自己感兴趣
的信息是一件非常困难的事情;
对于信
息生产者,让自己生产的
信息脱颖而出,
受到广大用户的关注,
也是一件非常困
难的事情。
推荐,
就
是解决这一矛盾的重要工具,
在互联网的产品和应用中被广泛采用,
包括大家经常使用的相关搜索、话题推荐、
电子商务的各种产品推荐、
社交网络
上的交友推荐等。
我们获得了一个着名网上书店的用户行为信息,
包括对于书籍的评分数据,
书籍
的标签信息以及用户的社交关系,请你根据数据完成以下问题。
1.
分析影响用户对书籍评分的因素;
2.
建立一个模型,预测附件中的用户对书籍的评分;
3.
针对附件中的用户,给每个用户推荐
p>
3
本没看过的书籍。
2.
问题的分析
对于书籍的评分与推荐,
主要
是基于对大量统计数据的处理。所以,
对于问
题的解决需要抓住
关键有用的数据,并对数据进行转变、筛选、分析、归纳,分
析用户对书籍评分的影响因
素,以此为依据,通过建立用户对书籍评分的模型,
进而完成用户对书籍的评分预测和书
籍推荐。
问题一的分析
问题一要求分析影响用户对书
籍评分的因素,是对附件中数据的综合分析,
首先对进行原始数据筛选分别得到用户对书
籍的评价为
1
—
5
分的数据;考虑到
不同影响因素对书籍评分的影响,
然后再
对其他数据进行筛选,分析,初步得到
各阶段书籍的评价分数与标签数的关系、
与社交好友的关系、
与书籍浏览量的关
系。
p>
最后对得到的数据进行科学分析和归纳总结,
得到影响用户对书籍评
分的因
素。
问题二的分析
问题二要求建立模型,
预测附件中的用户对书籍的评分。首先对标签数量,
社交关系,
书籍浏览量三个方面进行研究,
这是一个多目标决策问题。
根据
问题,
可以运用
YAAHP
层次分析软
件建立总评分
-
准则层两层次分析模型,利用层次分
析法综合分析确定各指标对总评分的权系数,
并确定综合书籍评价公式,<
/p>
从而得
到书籍评分模型,进行预测评分。其次为了更加充分的考虑
模型的准确性,运用
BP
神经网络模型,
首先建立一个神经网络结构,
把不同用户对书籍的标签数量、
用户好友数量、
书籍浏览量和对应的书籍评分作为输入量,
预测
其他用户对书籍
的评分作为输出量,根据已知数据训练神经网络,该过程不断调整网络结
构,
直
到到达满意,为止,最后利用该训练好的网络进行用户对
书籍评分的预测。
问题三的分析
p>
问题三要求针对附件中的用户,给每个用户推荐
3
< br>本没看过的书籍。考虑到
书籍的好评频率越高
,
用户对书籍的喜爱程度越高,
运用
SPSS
p>
软件对附件进行筛
选,
得到所有书籍评分为
五分的频率
,
然后在
EXCEL
中进行排序处理,
运用
LOOKUP
函数筛选得到该用户未看过书的
ID
,选取前三
本评分为五分频率最高的书籍,
即为推荐给该用户的三本书籍
I
D
,然后循环五次进行分析最终得到问题所要求
的五个用户的推
荐书籍
ID
。
3.
符号约定
符号
N
y
x
1
说明
观测样本数
用户对书籍的评分
用户浏览量的指标
用户好友人数的指标
标签数量的指标
一致性比例
x
2
x
3
CR
4.
问题假设
1
、假设影响用户对书籍评分的因素相互独立。
2
、假设影响书籍评分的因素只有书籍标签,用户好友数量,书籍浏览量。
3
、假设书籍的好评频率越高
,
用户对书籍的喜爱程度越高。
5.
模型的建立与求解
问题一模型的建立
5.1.1
对书籍评分数据的处理
<
/p>
题目要求分析影响用户对书籍评分的因素,运用
SPSS
统计软件
[1]
对附件
(
用
户评分数据
)
对书籍分数进行排序,然后进行筛选,从而得到评分为
5
分
好评对
应的书籍。
5.1.2
书籍标签对书籍评分的影响
考虑到书籍标签的数量对书籍评分结果存在着一定的影响关系,
因此要对标
签数量进行综合分析。首先运用
SPSS
统计软件对附件(书籍的标签数据)进行
数据筛选,
得到不同的书籍评分为
5
分出现的频数;
然后运用
EXCEL
统计软件进
行
计数处理,得到评分为
5
分的所有书籍的标签数量。再次运用<
/p>
SPSS
软件对其
进行双变量相关分析<
/p>
[2]
,得到标签数量影响因素下的描述性统计量表包括均值、<
/p>
标准差、观测样本数,如表
1
所示:
p>
表
1
标签数量与好评的描述性统计量
表
描述性统计量
均值
标准差
标签数量
好评
<
/p>
标签数量与评分的相关分析,如表
2
所示
:
N
4738
4738
表
2
标签与好评的相关分析结果表
相关性
标签
评分
Pearson
相关性
1
显着性(双侧)
标签数量
平方与叉积的和
协方差
N
4738
4738
Pearson
相关性
1
显着性(双侧)
好评
平方与叉积的和
协方差
N
4738
4738
对表
2
进
行分析,
标签数量与书籍评分之间的
Pearson
相关系数为,表示二
者之间存在不完全相关且为正相关。
< br>两者之间的不相关的双侧显着性的值为,
否
定了二者不相
关的假设。所以,
根据表
2
可以得出结
论:用户对书籍的的评分与
书籍标签数量之间存在正相关性,标签数量越多,书籍评分越
高。
5.1.3
社交关系对书籍评分的影响
基于对社交关系的考虑,
用户的好友人数对书籍评分出现五分好
评的频数有
一定的影响,首先运用
SPSS
软件对附件
(
用户的社交关系数据
)
进行数据筛选,
得到每个用户对书籍评分为
< br>5
分出现的频数;
然后运用
EX
CEL
统计软件进行计数
处理,得到评分为
5
分的用户的好友人数。再次运用
SPSS
软件对其进行双变量
相关分析,
得到用户影响关注好友
的数目对评分影响因素下的描述性统计量表包
括均值、标准差、观测样本数,如表
3
所示:
表
3
用户好友人数与其好评的描述性统计量表
N
3661
3661
描述性统计量
均值
标准差
好友人数
好评
用户好友人数与评分的相关分析如表
< br>4
所示:
表
4
好友与评分的相关分析结果表
相关性
标签
评分
Pearson
相关性
1
显着性(双侧)
0
好友人数
平方与叉积的和
协方差
N
3661
3661
Pearson
相关性
1
显着性(双侧)
0
好评
平方与叉积的和
协方差
N
3661
3661
对表
4
进行分析,
用户对书籍的评分与用户好友人数的<
/p>
Pearson
相关系数为,
表示二者之
间存在不完全相关且为正相关。
两者之间的不相关的双侧显着性的值
为
0
,否定了二者不相关的假设。所以,根据表
4
可以得出结论:用户对书籍的
的评分与书用户的
好友人数之间存在正相关性,
用户好友人数越多,
用户对书籍<
/p>
的评分越高。
5.1.4
历史浏览量对书籍评分的影响
首先运用
SPSS
统计软件对附件(用户看过的书籍数据)进行数据筛选,得
到在此附件中不同的书籍评分为
5
分出现的频
数;
然后运用
EXCEL
统计软件进行
计数处理,得到评分为
5
分的所有书籍
的历史浏览量。再次运用
SPSS
软件对其
进行双变量相关分析,
得到只考虑书籍历史浏览量此因素下的描述性统计量表包
p>
括均值、标准差、观测样本数,如表
5
所示
:
表
5
历史
浏览量与好评的描述性统计量表
均值
标准差
N
好友人数
4738
好评
4738
书籍的历史浏览量与评分的相关分析如表
6
所示:
表
6
历史浏览量与评分的相关分析结果表
相关性
标签
评分
Pearson
相关性
1
显着性(双侧)
0
被浏览量
平方与叉积的和
协方差
N
4738
4738
Pearson
相关性
1
显着性(双侧)
0
好评
平方与叉积的和
协方差
N
4738
4738
对表
6
进行分析,
书籍的历史浏览量与书籍评分之间的<
/p>
Pearson
相关系数为,
表示二者之
间存在不完全相关且为正相关。
两者之间的不相关的双侧显着性的值
为
0
,否定了二者不相关的假设。所以,根据表
6
可以得出结论:用户对书籍的
的评分与书籍的访
问量存在正相关性,书籍的历史访问量越多,书籍评分越高。
5.1.5
整体综合指标结果的分析
根据上述求解过程,
从书籍标
签,社交关系,历史访问量三个方面分析用户
对书籍评价的影响因素,
< br>其结果均与用户对书籍的评分成正相关。
对用户对书籍
评
分影响程度分别为历史浏览量>用户好友人数>书籍标签数量。
问题二模型的建立
5.2.1
层次分析模型
5.2.1.1
层次结构图的建立
<
/p>
根据问题一的结果对数据进行分析、
筛选,
本文将影响用户对书籍的评分因
素,归纳为:书籍的标签个数、历史浏览量,用户的好
友人数三方面进行研究,
将这三个影响因素作为准则层,
运用<
/p>
YAAHP
层次分析软件建立次评价用户对书籍
< br>评分的层次结构图,如图
1
所示:
图
1
用
户对书籍评分层次结构
图
5.2.1.2
比较判断矩阵的构建
依据层次法常用的
1-9
尺度,建立用
户对书籍评分的层次分析模型
[3]
,书籍
评分总目标
A
,书籍标签数量
A<
/p>
,用户好友人数
B,
用户历史浏览量
p>
C
的成对比较
4
6
?
?
1
?
p>
?
矩阵
,
准则层对
目标层的属性判断:
?
1
/
4
1
4
?
?
1
/
6
1
/
4
1
?
?
?
5.
2.1.3
判断矩阵的一致性检验
在
评价过程中可能对因素一些的数值不能进行进行精确判断的,
根据会存在
的误差,
会导致判断矩阵的特征值产生偏差。在构造判断矩阵时,并不要求判断
具有完全一致性,
但是要求判断具有大体的一致性却是必须的,
否则将无法进行
分析,因此还要进行一致性检验。若计算随机一
致性比例
CR<
,即认为判断矩阵
具有
满意的一致性,否则就需要重新调整判断矩阵直至满足一致性。
?
因为
CR=<,
所以矩阵满足一致性。
5.2.1.4
计算权重并建立层次分析模型
使用
YAAHP
软件进
行层次分析,
得到用户对书籍评分的影响因素的权重,
如
表
7
所示:
表
7
对书籍评分的影响因素的权重表
备选方案
用户浏览量
用户好友人数
标签数量
根据表
7
各影响因素的权重可得用户书籍评分的计算公式为:<
/p>
y
?
0
.
6837
x
1
p>
?
0
.
2349<
/p>
x
2
?
0
.
0813
x
3
p>
权重
5.2.1.5
结果的分析
将影响用户对书籍评分的三个指标因素分别设定为
0
到
1
分,
即满分制
5
分,
x
1
< br>到
x
3
分别记为这
3
个影响因素的得分,
利用最后得到的用户书籍评分
的计算公
式可得到最终得分情况,从而用户对书籍的评分结果,如表
8
所示:
表
8
用户对书籍的评分预测表
用户
ID
书籍
预测评分
7245481
794171
5
7245481
381060
4
7245481
776002
5
7245481
980705
4
7245481
354292
5
7245481
738735
5
7625225
473690
4
7625225
929118
4
7625225
235338
5
7625225
424691
5
7625225
916469
4
7625225
793936
4
4156658
175031
4
4156658
422711
5
4156658
585783
5
4156658
412990
4
4156658
134003
4
4156658
443948
5
5997834
346935
2
5997834
144718
2
-
-
-
-
-
-
-
-
-
上一篇:电影《勇敢的心》英文影评(新、选)
下一篇:表达伤心的英文句子