首页/文章/ 详情

基于附加信息cast和genres的相似电影查询

2年前浏览772

1 引言

上一篇文章的试验结果指出如果查询语句的关键词太少,得出的相似结果可能出现误差。也就是说,数据集中应该包含更多的信息。两个句子词汇相同得越多,句子之间的相似度越大。本文建立在上篇文章的基础之上,对每部电影增加了电影中演员的名字。尽管我们有本地数据库,不过这个试验仍然使用了IMDB在线数据库。


2 cast试验

对每部电影增加该电影中演员的名字,这个功能是通过the_movie.get('cast')这个函数实现的。首先对第一种查询方法增加cast, 试验代码如下:

接着对第二种查询方法增加cast, 试验代码如下:

再下来进行相似判断


3 cast结果输出

运行上述代码,得出的结果如下:

与上篇文章的结果比较一下,可以看出,本文得出的结果更加合理。


4 genres试验及结果

如果把cast替换为genres,不改变代码的其它部分,那么得出的结果如下:

这个结果与cast的试验结果相比较,直观上感觉更加合理一些,"London has Fallen" "Olympus has Fallen" 和“Angel has Fallen"排在了前三位。这是因为使用了genres,词汇的重复率更高一些的缘故。


5 下一步试验设想

除了上面的试验之外,还可以增加directors, keywords等,但最想增加的是一部电影的synopsis, 也就是我们论文中常说的abstract。初步的设想是首先对synopsis作摘要处理,或者从synopsis中提取关键词,这样使得文本长度短一些,然后再此基础上进行相似查询。理论上来说不是很困难,但实际编写代码时可能遇到各种各样的困难。最后测试一下"London has Fallen"的keywords, 为下一步工作作准备。


['terrorist', 'patriotism', 'female-agent', 'american-in-the-uk', 'good-versus-evil', 'british-actor-playing-american-character', 'british-politician', 'president', 'funeral', 'vice-president', 'f-18-hornet', 'u.s.-secret-service', 'political-thriller', 'hacker', 'helicopter-crash', 'one-man-army', 'surveillance', '*******-bomber', 'knife-fight', 'threatened-with-a-knife']

测试结果显示可以使用keywords功能。


6. 结束语

本文通过增加cast和genres方法来强化相似查询,得出的结果更精确。使用genres得出的结果比使用cast得出的结果更好一些。


本文相似的文档


文本摘要生成的确定过程和随机过程

一个快速的句子和段落相似查询方法



来源:计算岩土力学
理论试验
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2022-09-27
最近编辑:2年前
计算岩土力学
传播岩土工程教育理念、工程分析...
获赞 143粉丝 1043文章 1776课程 0
点赞
收藏
未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习 福利任务 兑换礼品
下载APP
联系我们
帮助与反馈