大数据分析技术应用揭秘谷歌票房预测模型
更新时间:2023-07-21 17:39:02 阅读量: 实用文档 文档下载
- 大数据分析技术应用场景推荐度:
- 相关推荐
大数据分析技术应用揭秘谷歌票房预测模型
发布时间:2013-06-18 17:32 来源:锐艺网作者:史源
艺恩网转载本文只以信息传播为目的,不代表认同其观点和立场
「导语」近日,谷歌公布了一项重要研究成果–电影票房预测模型。该模型能够提前一个月预测电影上映首周的票房收入,准确度高达94%。这在业内引起了强烈讨论,不少
内人士认为该模型非常适合好莱坞电影公司通过预测票房来及时调整电影营销战略,但同时也有吐槽者暗示谷歌的票房预测模型别有用心,旨在鼓动电影公司购买其搜索引擎广告。那么,孰是孰非,谷歌票房预测模型以及大数据在电影行业的应用是嘘头,还是大有来头,让我们来一探究竟。
「谷歌票房预测模型的基础:电影相关的搜索量与票房收入的关联」
谷歌的票房预测模型是大数据分析技术在电影行业的一个重要应用。随着互联网的发展,人们越来越习惯于在网上搜索电影信息。据谷歌统计,从2011到2012年,电影相关的搜
索量增长了56%.谷歌发现,电影相关的搜索量与票房收入之间存在很强的关联。
图1显示了2012年电影票房收入(红色)和电影的搜索量(灰色)的曲线(注:本文的所有图片均引用自谷歌的白皮书:Quantifying Movie Magic with Google Search)。可以看到,两条曲线的起伏变化有着很强的相似性。
图1. 2012年票房收入与搜索量的曲线
(红色是票房收入,灰色是搜索量,横轴是月份,纵轴是数量)
更进一步地,谷歌把电影的搜索分成了两类:
I. 涉及电影名的搜索(Movie Title Search);
II. 不涉及电影名的搜索(Non-Title Film-Related Search)。这类搜索不包含具体的名字,而是一些更宽泛的关键词搜索,如“热门电影”、“爱情片”、“好莱坞电影”等。
图2显示了票房收入与这两类搜索量之间的关系。从图上可以看到,大部分情况下,第I类搜索量超过第II类搜索量。但在电影淡季的时候(图中灰色椭圆区域,这时候票房收入较低),第I类搜索量会低于第II类搜索量。这符合常理,因为在淡季的时候知名度高的电影很少,人们往往用更宽泛的搜索来寻找想看的电影。
图2. 2012年票房收入和两类搜索量的曲线
(红色代表票房收入,蓝色代表第I搜索,灰色代表第II类搜索,横轴是月份,纵轴是数量)
这一发现对电影的网络营销来说有一定的指导意义:在淡季的时候,电影公司可多购买相对宽泛的关键词的广告,而在旺季的时候,多购买涉及电影名的、更具体的关键词的广告。
「提前一周预测票房,可达到92%的准确度」
上面的讨论表明用电影的搜索量来预测票房是有可能的。那么,如果单纯使用搜索量来预测首周票房收入,效果怎么样?通过对2012年上映的99部电影的研究,谷歌发现仅依靠搜索量来预测是不够的。谷歌尝试构建了一个线性的模型,但只达到了70%的准确度(如图3)。
图3. 搜索量与首周票房收入之间的关系
(横轴是搜索量,纵轴是首周票房收入,灰色点对应某部电影的搜索量与首周票房收入)为了构建更加精确的预测模型,谷歌最终采用了四类指标:
(1)(电影放映前一周的)电影的搜索量
(2)(电影放映前一周的)电影广告的点击量
(3)上映影院数量
(4)同系列电影前几部的票房表现
其中每类指标又包含了多项类内指标。
在获取到每部电影的这些指标后,谷歌构建了一个线性回归模型(linear regression
model)模型,来建立这些指标和票房收入的关系。线性回归模型,在大数据分析领域里算是最基本的模型之一,它认为票房收入与这些指标之间是简单的线性关系。
图4展示了模型的效果,其中灰色点代表了实际的票房收入,红色点代表了预测的票房收入。可以看到,预测的结果与实际的结果差异很小。
图4. 提前一周预测票房的效果
(横轴是搜索量,纵轴是首周票房收入,灰色点对应某部电影的首周票房收入,红色点对应
预测的首周票房收入)
「提前一个月预测票房,可达到94%的准确度」
尽管提前一周预测可以达到92%的准确度,对于电影的营销来说,价值并不大,因为一周的时间往往很难调整营销策略,改善营销效果。因此,谷歌又进一步研究,使得模型可以提前一个月预测首周票房。
实现提前一个月预测的关键在于:谷歌采用了一项新的指标–电影预告片的搜索量。谷歌发现,预告片的搜索量比起电影的直接搜索量而言,可以更好的预测首周票房表现。这一点不难理解,因为在电影放映前一个月的时候,人们往往更多地搜索预告片。
仅使用预告片的搜索量仍然不够,因此谷歌的模型最终采用了三类指标:
(1)电影预告片的搜索量
(2)同系列电影前几部的票房表现
(3)档期的季节性特征
其中每类指标又包含了多项类内指标。
在获取到每部电影的这些指标后,谷歌再次构建了一个线性回归模型(linear regression model)模型,来建立这些指标和票房收入的关系。
图5展示了模型的效果,其中灰色点代表了实际的票房收入,红色点代表了预测的票房收入。可以看到,预测结果与实际结果非常接近。
图5 提前一个月预测票房的效果
(横轴是预告片搜索量,纵轴是首周票房收入,灰色点对应实际某部电影的首周票房收入,
红色点对应预测的首周票房收入)
正在阅读:
大数据分析技术应用揭秘谷歌票房预测模型07-21
马工程《西方经济学(下册)》章节题库(经济增长)【圣才出品】04-10
常规高空气象观测业务规范10-07
Pushover分析方法一般过程10-25
钢笔书法基本知识06-27
硅酸盐作业10-30
浅论龚自珍的诗歌创作07-05
乡安全生产工作自查报告08-02
全国计算机一级考试重要考点总结03-12
妙笔生花—文本的修饰说课稿09-09
- 教学能力大赛决赛获奖-教学实施报告-(完整图文版)
- 互联网+数据中心行业分析报告
- 2017上海杨浦区高三一模数学试题及答案
- 招商部差旅接待管理制度(4-25)
- 学生游玩安全注意事项
- 学生信息管理系统(文档模板供参考)
- 叉车门架有限元分析及系统设计
- 2014帮助残疾人志愿者服务情况记录
- 叶绿体中色素的提取和分离实验
- 中国食物成分表2020年最新权威完整改进版
- 推动国土资源领域生态文明建设
- 给水管道冲洗和消毒记录
- 计算机软件专业自我评价
- 高中数学必修1-5知识点归纳
- 2018-2022年中国第五代移动通信技术(5G)产业深度分析及发展前景研究报告发展趋势(目录)
- 生产车间巡查制度
- 2018版中国光热发电行业深度研究报告目录
- (通用)2019年中考数学总复习 第一章 第四节 数的开方与二次根式课件
- 2017_2018学年高中语文第二单元第4课说数课件粤教版
- 上市新药Lumateperone(卢美哌隆)合成检索总结报告
- 数据分析
- 技术应用
- 票房
- 揭秘
- 模型
- 预测
- 谷歌
- 蒸压灰砂砖施工应用技术要点
- 第四章 新国际贸易理论
- 校园防诈骗应急预案
- 沪科版 八年级数学下册复习讲义
- B5版 建筑消防设施维修保养合同
- 2014年中考复习系列之电学计算综合应用
- 2013-2014学年度高一第二学期期中考试英语试题答题卡
- 主持人大赛决赛主持稿
- 2012自贡中考化学试题及答案
- 香椿贮藏保鲜技术的研究_徐玉党
- 2009年莆田市初中毕业、升学考试试卷(WORD版 有答案)
- 柳州市大龙潭鲤鱼嘴新石器时代贝丘遗址
- 中央财经大学金融专硕复习经验总结与心得体会
- 班级人性化管理论文
- 部编版必修下册第一课:子路曾皙冉有齐桓晋文之事庖丁解牛选择题及答案
- 基于ASP系统企业网站毕业设计论文(信息工程学院)
- 数值数据的表示方法
- 整装锅炉安装质量证明书
- 看风水如何下罗盘及定向
- 2014年证券从业资格考试证券交易模拟试题(3).