汽配网 国内最专业的汽配B2B商务网

忘了黄金时代 理性看待大数据预测

在世界杯预测时准确率超高的百度大数据预测在稳步推进时遇到了一个小障碍,尚处于内测的票房预测对《黄金时代》的预测与实际结果出现了偏差,被媒体长篇报道引发业内高度关注,笔者一直在观察大数据预测业务,对于百度预测《黄金时代》失利一事有自己的一些观点,不吐不快。

一、看待大数据预测失准要冷静客观

近年来,“大数据”一词频繁出现在各类媒体上,与大数据相关的各种产业、产品也在蓬勃发展。今年2月,中关村管委会在《加快培育大数据产业集群推动产业转型升级的意见》发布会上表示,到2016年,中关村大数据带动的产业规模将超过1万亿元,这还仅仅是中关村大数据产业的数字而已,放眼全球,大数据未来的“钱景”非常可观。尽管大数据概念被热炒,但与大数据相关的各种产品其实尚处在初期探索阶段,比如利用大数据做预测,尽管百度预测此前在世界杯预测、黄金周旅游预测等产品上表现出比较高的准确率,但对“预测”本身来说,出现失准的现象其实很正常。

具体到《黄金时代》票房预测这件事上,我们先来看看百度的官方解释。百度对媒体的回应并没有将问题归结到“工程师犯错”,而是直接指出核心原因:因为我国电影市场上文艺片的历史票房数据很少,所以在针对《黄金时代》进行预测时采用了通用的模型而没有针对文艺片单独建模,导致最终结果出现偏差。

拥有萧红、民国、文艺这些标签,《黄金时代》算得上相对小众的电影,面向的观众并非主流人群。关于这类电影的任何数据都是少之又少,没有对应类型片的预测模型可供参考。百度在预测《黄金时代》时采取了通用电影的模型,导致出现了较大偏差,未来如果要预测准确,最好的解决方式肯定是针对不同类型的电影单独建模,而据我了解,尚处在内测阶段的票房预测已经在进行这方面的改进。

浏览百度预测平台,百度票房预测的图标是灰色的,并没有正式上线,相反,经济指数、疾病、景点和赛事预测倒已全面上线投入使用。百度票房预测模型还需进一步完善,更多参数需要加入模型,比如影片属性、片长、排片量、场均票价等全方位维度都纳入考虑。

不过,从另一个角度来看,我认为,就算是百度票房预测正式上线之后出现“预测失误”,也非常正常,没有谁真正拥有水晶球,大数据预测无法确定某件事情必然会发生,它更多是给出一个概率,人类只有不断地去接近这一个概率。预测的前提就是要承认不确定性的存在。在不同领域不确定性大有不同。票房、股市恰恰就是更容易受人为影响的存在大力不确定性的领域,预测的难度会大过天气、旅游、交通、物价等。

因为一部《黄金时代》预测失利便质疑大数据预测本身,或者票房预测本身,是不合理的。百度此前在世界杯期间、在黄金周期间相对漂亮的预测结果,已经证明了大数据预测的价值,只不过面对票预测房这一全新的领域,需要更耐心地优化而已。那么,票房预测在中国真的没效吗?

二、预测的精髓在于沉淀和纠偏

《为什么大数据在预测《黄金时代》票房时不灵了?》一文的核心观点列举如下:1、中国票房数据沉淀太少;2、一些人为制造的数据对票房预测造成干扰;3、预测模型处于初级阶段,变量遗漏和样本偏差;4、影院经理预测靠谱,票房预测没有意义,电影预测谈大数据为之过早。

对于这些观点,只有第3点我表示认同,这是客观事实,百度也承认处于内测阶段的票房预测模型存在不足尚需完善。但如果深思则会发现,世界上并无完美的预测模型,每个领域都是,下一秒要发生的事情会受到诸多变量影响,有些变量是可提前纳入考虑的,有些变量就算考虑到却又是很难监控,变量遗漏和样本偏差是永远存在的预测问题,预测者只有不断地更新变量、纠偏样本、升级模型才可以不断地保持预测足够接近真实。

在《大数据预测将会改变哪些行业?》一文中,笔者总结大数据预测的逻辑基础是,每一种非常规的变化事前一定有征兆,每一件事情都有迹可循,如果找到了征兆与变化之间的规律,就可以进行预测。对于预测来说至关重要的两点是:从过往数据和经验中得到的规律,这映射到预测模型;可以实时监控的“变化”,映射到变量或者说实时数据。大数据预测与传统预测的不同就在于:更具时效性、新型数据源、动态性预测以及规律性依赖。

对票房预测持消极态度的首先将问题归结为数据:电影数据沉淀太少、各家网络数据不通以及脏数据问题。

1、沉淀太少是杞人忧天。

中国票房数据沉淀太少可能是客观事实。但预测需要海量历史数据的原因在于从中发现规律。但倘若只有100年的票房数据,却并没有与影响这些票房数据的“变量”数据,对于挖掘规律其实并无帮助。

一个例子是百度在做世界杯预测时便与第三方数据公司合作得到大量历史数据进行挖掘,将球队、队员、场地等静态因素考虑在内同时引入舆情、欧赔指数等动态变量,最终实现接近准确的预测。

对于票房预测而言,就算得到中国80、90年代的票房数据,而不是“预测相关数据”,对于票房规律的获取并无什么帮助,那时候并无互联网,电影市场早已面目全非。票房预测究竟需要什么数据?没有人可以告诉我们答案。等到10年之后数据积累完全再来谈大数据预测,并不现实。因为今天不做,人们就不知道该收集、记录什么数据。况且谁又能指出10年与2年在时间上的差距会对数据积累造成什么本质不同呢?

大数据预测的数据源优势正是在于它可以更全面及时地记录数据,并且收集到过往完全无法收集的数据比如用户的需求、舆情、情绪变化,或者说出行规律、电影票价、影院排期数据。因此与其去担忧“传统数据沉淀不足”还不如思考票房预测究竟需要哪些数据,究竟如何才能提升规律?

2、数据不通和脏数据是永恒问题。

网络数据不通是整个互联网都要面临的数据鸿沟问题,没有哪一家拥有全网的数据,聚合全网数据进行预测几乎是不可能完成的任务,况且这根本没任何必要。如果说社交网络数据对预测很重要,那么中国只有腾讯才可能做好预测——实际并没有做。阿里淘宝指数已成为电商销量风向标、百度搜索指数对于各行各业同样具有重要的参考意义,因为它表征兴趣。每家掌握数据的性质不同,但确实可通过合作去得到更多维度的数据,最终提升预测可靠性,但要各家直接打通数据壁垒是不现实的。

同理,“脏数据”以及”噪音“是整个互联网永远存在的现象,就算是传统的采样调研难免也会遇到噪声样本进而被干扰。应对这个问题只有尽量过滤噪音数据,同时考虑到噪音对模型进行不断地纠正,并且增大预测结果的误差范围。还有一个假设是,如果有脏数据对结果起到积极作用(比如让票房成绩更好),同样会有脏数据对结果起到消极影响。

百度搜索结果不排除有人为操作的数据,水军评论、豆瓣评分大家心知肚明,但文中所提及的百度商业化结果却根本算不上脏数据,因为百度要排除商业广告的影响轻而易举,况且这些数据对预测是十分有价值的,Google票房预测模型一部分便是基于广告点击数据。

3、影院经理不是预测而是影响票房。

影院经理确实可预测对应影院某部电影的票房结果。如果他们掌握拍期权甚至还可以直接影响、决定对应电影的局部票房。所有影院经理最终会对整体票房造成莫大的影响。这并不是一个因果关系,而是环环相扣:影院经理在预测票房的同时也影响着票房。

我们可以将影院经理对应到股市中的股民,股民对自己所关注的股票价格有所预期,基于这个预期进行减仓或增持等操作。所有股民的博弈最终决定了股价的波动。但这并不意味着股民是最好的股票预测专家。在旅游、交通、房价等领域均有类似的状况,参与者基于个体的预测,或者第三方预测结果去做出行动,进而影响结果。

这里想说明的是,将参与者与预测者放在一起本身就不合适,参与者是十分重要的动态变量。《黄金时代》出现如此惨淡的票房很大程度便是票房经理不断降低预期进而减少排片所致。不过,百度未来与影院或者票房经理合作倒确实可以提升预测准确率,一方面在线下升级模型,另一方面将票房经理的排期计划纳入监控范围,把百度数据+工程师的大数据预测升级为众包式的票房预测,倒有可能。

最后我想说的是,因为一部电影的预测失利否定大数据票房预测确实有待商榷,天气预报不断地沉淀不断地升级才能做到今天的准确率以及精细化,但仍有不准的时候,在影响我生活时我也曾愤怒地认为天气预报不考虑,但大家都知道事实并非如此。票房预测刚刚开始,或许应该得到更多包容。从长远来看,通过不断的优化,如果票房预测产品最终能够达到一定的准确度,那么对于整个电影产业将会提供非常重要的参考价值,比如对投资方、拍摄方、推广方提供更准确的数据参考,从而引导他们在宣传推广、剧情设置甚至是甄选演员等方面做出更加准确、有利的判断。

责任编辑:itcom
0
小米武汉智能家电工厂动工两个月来主体建设进度已完成60% 新闻
25
Jun2025
163
最高网络安全标准,追觅扫地机获UL Solutions钻石级安全认证 新闻
18
Jun2025
14
云鲸S3 island体验:首创全自动自滤净化系统 免维护体验断档领先 评测
05
May2025
51
百项创新技术直面用户“痛点” 追觅扫地机召开2025首场用户沟通会 新闻
27
Apr2025
41
让家中空气“活”起来 追觅PM系列空气净化器国补好价一台顶多台 新闻
09
Apr2025
47
MiniLED电视今年出货量有望超越OLED产品 新闻
31
Mar2025
56
催更效果拉满!高对比度屏+万象分区,TCL T7L&Q9L系列全球首发 新闻
31
Mar2025
TCL
308
追觅X50系列闪耀AWE2025 追觅工程师:具身智能机械臂或将成为标配 新闻
24
Mar2025
48
小米推出米家新款隐藏式智能窗帘 售价599元 新闻
24
Mar2025
58
TCL冰洗尖端新品闪耀AWE 引领白家电革新浪潮 新闻
20
Mar2025
TCL
46
震撼发布!TCL冰洗新品携硬核科技亮相AWE 新闻
20
Mar2025
TCL
241
TCL冰洗创新科技亮相发布会 智未来·焕发生命力 新闻
20
Mar2025
TCL
195
扫地机全球销量&销额双第一 石头科技全系新品闪耀AWE2025 新闻
20
Mar2025
391
亲测海尔AWE展馆:无人家务不再是遥不可及的“大饼” 新闻
20
Mar2025
296
Leader接招 新闻
20
Mar2025
55
追觅科技发布空气净化器新品 构建四季空气生态系统 新闻
19
Mar2025
47
追觅自集尘吸尘器Z50 Station发布 20万转/分钟高速马达刷新清洁上限 新闻
19
Mar2025
47
追觅尖端旗舰 T50 Ultra洗地机发布:破解行业难题 解锁清洁新高度 新闻
19
Mar2025
53
追觅多项首创技术亮相新品发布会 重塑清洁行业格局 新闻
19
Mar2025
47
当电视学会「隐形」,TCL Q10L系列的空间美学实践 新闻
19
Mar2025
TCL
45
2024全球扫地机器人出货量同比增11% 石头、科沃斯增势强劲 新闻
17
Mar2025
321
石头自清洁扫拖机器人P20 Ultra评测:旗舰配置拉满的全能性价比机皇 评测
12
Mar2025
587
画质信仰再次升级!TCL率先推出第四代液晶电视Q10L系列 新闻
10
Mar2025
TCL
445
石头科技公布2024年业绩快报 营收同比增37.8% 新闻
05
Mar2025
642
追觅机械臂洗地机半年战绩辉煌,国内外市场齐头并进 新闻
27
Feb2025
51
石头科技重构清洁想象,首创五轴仿生机械手打破传统清洁边界 新闻
25
Feb2025
270
石头G30 Space探索版评测 开创扫地机机械手清洁时代 评测
25
Feb2025
567
世俱杯倒计时4个月:海信发布创新技术全面提升观赛体验 新闻
20
Feb2025
68
海信全球首款RGB-Mini LED电视国内首次亮相 新闻
20
Feb2025
363
2024年国内电视出货量创15年新低 海信、小米、TCL继续领跑市场 新闻
24
Jan2025
810
清洁电器混战,萤石干湿混吸的洗地机器人会是新风口吗? 新闻
22
Jan2025
19499
电视要涨价?台湾地区地震或增加大尺寸面板供应难度 新闻
22
Jan2025
99
追觅H40 Ultra洗地机评测:85℃高温溶污领衔 再创洗地行业新高度 新闻
09
Jan2025
158
重新定义下一代家用机器人 石头科技CES2025惊艳全球 新闻
08
Jan2025
90
三线结构光与升降LDS激光雷达 石头自清洁扫拖机器人G30导航避障新里程 新闻
08
Jan2025
53
追觅下一代扫地机器人形态曝光:长出灵巧手,未来或成家庭服务机器人 新闻
03
Jan2025
29
热“雪”正当虹,长虹新款AI TV闪耀冰雪舞台 新闻
02
Dec2024
268
海信家电”换帅 “ 高玉玲接替代慧忠出任新任董事长 新闻
22
Nov2024
180
格力电器申请“格力女王”“蒙面女王”医疗器械类商标 新闻
21
Nov2024
116
2024Q3全球电视出货量达到5233万台 环比增长9.6% 新闻
19
Nov2024
100
预计2024年国内智能盒子销量同比去年萎缩20% 新闻
15
Nov2024
131
2024年电视行业用户满意度测评分数创出新高 新闻
13
Nov2024
129
追觅X50 Pro评测:从超高越障到深层清拖 重构解放用户的真谛 新闻
08
Nov2024
245
国内智能电视Q3销量萎缩 MIni LED反而暴涨6.4倍 新闻
06
Nov2024
319
追觅V16 Pro Aqua体验:吸尘洗地一机搞定 家居清洁自此无忧 新闻
29
Oct2024
193
家电以旧换新中央财政补贴已达64.03亿元 参与人数超510万 新闻
30
Sep2024
1193
海信给AI电视打样,12大AI智能体全面升级大屏体验 新闻
30
Sep2024
1152
海信AI电视E7N正式发布,引领AI画质新标杆 新闻
30
Sep2024
1154
小米明年将布局东南亚家电市场 新闻
29
Sep2024
1190
追觅X50系列:一个关于六厘米高的故事 新闻
26
Sep2024
301
追觅科技吸尘器新品惊艳亮相,以行业最强清洁力领衔行业新高度 新闻
26
Sep2024
307