汽配网 国内最专业的汽配B2B商务网

忘了黄金时代 理性看待大数据预测

在世界杯预测时准确率超高的百度大数据预测在稳步推进时遇到了一个小障碍,尚处于内测的票房预测对《黄金时代》的预测与实际结果出现了偏差,被媒体长篇报道引发业内高度关注,笔者一直在观察大数据预测业务,对于百度预测《黄金时代》失利一事有自己的一些观点,不吐不快。

一、看待大数据预测失准要冷静客观

近年来,“大数据”一词频繁出现在各类媒体上,与大数据相关的各种产业、产品也在蓬勃发展。今年2月,中关村管委会在《加快培育大数据产业集群推动产业转型升级的意见》发布会上表示,到2016年,中关村大数据带动的产业规模将超过1万亿元,这还仅仅是中关村大数据产业的数字而已,放眼全球,大数据未来的“钱景”非常可观。尽管大数据概念被热炒,但与大数据相关的各种产品其实尚处在初期探索阶段,比如利用大数据做预测,尽管百度预测此前在世界杯预测、黄金周旅游预测等产品上表现出比较高的准确率,但对“预测”本身来说,出现失准的现象其实很正常。

具体到《黄金时代》票房预测这件事上,我们先来看看百度的官方解释。百度对媒体的回应并没有将问题归结到“工程师犯错”,而是直接指出核心原因:因为我国电影市场上文艺片的历史票房数据很少,所以在针对《黄金时代》进行预测时采用了通用的模型而没有针对文艺片单独建模,导致最终结果出现偏差。

拥有萧红、民国、文艺这些标签,《黄金时代》算得上相对小众的电影,面向的观众并非主流人群。关于这类电影的任何数据都是少之又少,没有对应类型片的预测模型可供参考。百度在预测《黄金时代》时采取了通用电影的模型,导致出现了较大偏差,未来如果要预测准确,最好的解决方式肯定是针对不同类型的电影单独建模,而据我了解,尚处在内测阶段的票房预测已经在进行这方面的改进。

浏览百度预测平台,百度票房预测的图标是灰色的,并没有正式上线,相反,经济指数、疾病、景点和赛事预测倒已全面上线投入使用。百度票房预测模型还需进一步完善,更多参数需要加入模型,比如影片属性、片长、排片量、场均票价等全方位维度都纳入考虑。

不过,从另一个角度来看,我认为,就算是百度票房预测正式上线之后出现“预测失误”,也非常正常,没有谁真正拥有水晶球,大数据预测无法确定某件事情必然会发生,它更多是给出一个概率,人类只有不断地去接近这一个概率。预测的前提就是要承认不确定性的存在。在不同领域不确定性大有不同。票房、股市恰恰就是更容易受人为影响的存在大力不确定性的领域,预测的难度会大过天气、旅游、交通、物价等。

因为一部《黄金时代》预测失利便质疑大数据预测本身,或者票房预测本身,是不合理的。百度此前在世界杯期间、在黄金周期间相对漂亮的预测结果,已经证明了大数据预测的价值,只不过面对票预测房这一全新的领域,需要更耐心地优化而已。那么,票房预测在中国真的没效吗?

二、预测的精髓在于沉淀和纠偏

《为什么大数据在预测《黄金时代》票房时不灵了?》一文的核心观点列举如下:1、中国票房数据沉淀太少;2、一些人为制造的数据对票房预测造成干扰;3、预测模型处于初级阶段,变量遗漏和样本偏差;4、影院经理预测靠谱,票房预测没有意义,电影预测谈大数据为之过早。

对于这些观点,只有第3点我表示认同,这是客观事实,百度也承认处于内测阶段的票房预测模型存在不足尚需完善。但如果深思则会发现,世界上并无完美的预测模型,每个领域都是,下一秒要发生的事情会受到诸多变量影响,有些变量是可提前纳入考虑的,有些变量就算考虑到却又是很难监控,变量遗漏和样本偏差是永远存在的预测问题,预测者只有不断地更新变量、纠偏样本、升级模型才可以不断地保持预测足够接近真实。

在《大数据预测将会改变哪些行业?》一文中,笔者总结大数据预测的逻辑基础是,每一种非常规的变化事前一定有征兆,每一件事情都有迹可循,如果找到了征兆与变化之间的规律,就可以进行预测。对于预测来说至关重要的两点是:从过往数据和经验中得到的规律,这映射到预测模型;可以实时监控的“变化”,映射到变量或者说实时数据。大数据预测与传统预测的不同就在于:更具时效性、新型数据源、动态性预测以及规律性依赖。

对票房预测持消极态度的首先将问题归结为数据:电影数据沉淀太少、各家网络数据不通以及脏数据问题。

1、沉淀太少是杞人忧天。

中国票房数据沉淀太少可能是客观事实。但预测需要海量历史数据的原因在于从中发现规律。但倘若只有100年的票房数据,却并没有与影响这些票房数据的“变量”数据,对于挖掘规律其实并无帮助。

一个例子是百度在做世界杯预测时便与第三方数据公司合作得到大量历史数据进行挖掘,将球队、队员、场地等静态因素考虑在内同时引入舆情、欧赔指数等动态变量,最终实现接近准确的预测。

对于票房预测而言,就算得到中国80、90年代的票房数据,而不是“预测相关数据”,对于票房规律的获取并无什么帮助,那时候并无互联网,电影市场早已面目全非。票房预测究竟需要什么数据?没有人可以告诉我们答案。等到10年之后数据积累完全再来谈大数据预测,并不现实。因为今天不做,人们就不知道该收集、记录什么数据。况且谁又能指出10年与2年在时间上的差距会对数据积累造成什么本质不同呢?

大数据预测的数据源优势正是在于它可以更全面及时地记录数据,并且收集到过往完全无法收集的数据比如用户的需求、舆情、情绪变化,或者说出行规律、电影票价、影院排期数据。因此与其去担忧“传统数据沉淀不足”还不如思考票房预测究竟需要哪些数据,究竟如何才能提升规律?

2、数据不通和脏数据是永恒问题。

网络数据不通是整个互联网都要面临的数据鸿沟问题,没有哪一家拥有全网的数据,聚合全网数据进行预测几乎是不可能完成的任务,况且这根本没任何必要。如果说社交网络数据对预测很重要,那么中国只有腾讯才可能做好预测——实际并没有做。阿里淘宝指数已成为电商销量风向标、百度搜索指数对于各行各业同样具有重要的参考意义,因为它表征兴趣。每家掌握数据的性质不同,但确实可通过合作去得到更多维度的数据,最终提升预测可靠性,但要各家直接打通数据壁垒是不现实的。

同理,“脏数据”以及”噪音“是整个互联网永远存在的现象,就算是传统的采样调研难免也会遇到噪声样本进而被干扰。应对这个问题只有尽量过滤噪音数据,同时考虑到噪音对模型进行不断地纠正,并且增大预测结果的误差范围。还有一个假设是,如果有脏数据对结果起到积极作用(比如让票房成绩更好),同样会有脏数据对结果起到消极影响。

百度搜索结果不排除有人为操作的数据,水军评论、豆瓣评分大家心知肚明,但文中所提及的百度商业化结果却根本算不上脏数据,因为百度要排除商业广告的影响轻而易举,况且这些数据对预测是十分有价值的,Google票房预测模型一部分便是基于广告点击数据。

3、影院经理不是预测而是影响票房。

影院经理确实可预测对应影院某部电影的票房结果。如果他们掌握拍期权甚至还可以直接影响、决定对应电影的局部票房。所有影院经理最终会对整体票房造成莫大的影响。这并不是一个因果关系,而是环环相扣:影院经理在预测票房的同时也影响着票房。

我们可以将影院经理对应到股市中的股民,股民对自己所关注的股票价格有所预期,基于这个预期进行减仓或增持等操作。所有股民的博弈最终决定了股价的波动。但这并不意味着股民是最好的股票预测专家。在旅游、交通、房价等领域均有类似的状况,参与者基于个体的预测,或者第三方预测结果去做出行动,进而影响结果。

这里想说明的是,将参与者与预测者放在一起本身就不合适,参与者是十分重要的动态变量。《黄金时代》出现如此惨淡的票房很大程度便是票房经理不断降低预期进而减少排片所致。不过,百度未来与影院或者票房经理合作倒确实可以提升预测准确率,一方面在线下升级模型,另一方面将票房经理的排期计划纳入监控范围,把百度数据+工程师的大数据预测升级为众包式的票房预测,倒有可能。

最后我想说的是,因为一部电影的预测失利否定大数据票房预测确实有待商榷,天气预报不断地沉淀不断地升级才能做到今天的准确率以及精细化,但仍有不准的时候,在影响我生活时我也曾愤怒地认为天气预报不考虑,但大家都知道事实并非如此。票房预测刚刚开始,或许应该得到更多包容。从长远来看,通过不断的优化,如果票房预测产品最终能够达到一定的准确度,那么对于整个电影产业将会提供非常重要的参考价值,比如对投资方、拍摄方、推广方提供更准确的数据参考,从而引导他们在宣传推广、剧情设置甚至是甄选演员等方面做出更加准确、有利的判断。

责任编辑:itcom
0
热“雪”正当虹,长虹新款AI TV闪耀冰雪舞台 新闻
02
Dec2024
14
海信家电”换帅 “ 高玉玲接替代慧忠出任新任董事长 新闻
22
Nov2024
32
格力电器申请“格力女王”“蒙面女王”医疗器械类商标 新闻
21
Nov2024
24
2024Q3全球电视出货量达到5233万台 环比增长9.6% 新闻
19
Nov2024
22
预计2024年国内智能盒子销量同比去年萎缩20% 新闻
15
Nov2024
21
2024年电视行业用户满意度测评分数创出新高 新闻
13
Nov2024
32
追觅X50 Pro评测:从超高越障到深层清拖 重构解放用户的真谛 新闻
08
Nov2024
43
国内智能电视Q3销量萎缩 MIni LED反而暴涨6.4倍 新闻
06
Nov2024
200
追觅V16 Pro Aqua体验:吸尘洗地一机搞定 家居清洁自此无忧 新闻
29
Oct2024
45
家电以旧换新中央财政补贴已达64.03亿元 参与人数超510万 新闻
30
Sep2024
83
海信给AI电视打样,12大AI智能体全面升级大屏体验 新闻
30
Sep2024
40
海信AI电视E7N正式发布,引领AI画质新标杆 新闻
30
Sep2024
33
小米明年将布局东南亚家电市场 新闻
29
Sep2024
59
追觅X50系列:一个关于六厘米高的故事 新闻
26
Sep2024
102
追觅科技吸尘器新品惊艳亮相,以行业最强清洁力领衔行业新高度 新闻
26
Sep2024
190
全球首创6cm越障技术,追觅X50系列填补全屋覆盖新版图 新闻
26
Sep2024
329
引领行业多项技术革新,追觅科技重磅发布T40 Ultra洗地机 新闻
25
Sep2024
242
追觅发布头皮护理吹风机D10 驱动头皮养护体验革新 新闻
25
Sep2024
311
激光显示全面向新发展,未来激光电视主机仅有iPad大小 新闻
19
Sep2024
95
海信激光电视星光S1 Max正式发布!120吋墅式巨幕专为大宅而生 新闻
19
Sep2024
46
石头分子筛洗烘一体机H1 Air评测:同级别洗烘一体机天花板 新闻
18
Sep2024
435
石头G20S Ultra评测:7.98cm超薄机身打破物理极限 能跨越不缠绕清洁新突破 评测
13
Sep2024
106
萤石发布AI扫拖机器人新品RS20 Pro Ultra 新闻
12
Sep2024
82
石头全新洗地机A30、A30Pro发布:长续航 强吸力 1999元起 新闻
09
Sep2024
418
石头迷你洗烘一体机Q1体验:又甜又强,迷你洗烘一体机新标杆 新闻
06
Sep2024
46
8月国内电视出货量环比增长27% 海信、TCL、小米继续领跑市场 新闻
05
Sep2024
38
石头发布全新Z1分子筛洗烘一体机:超薄平嵌 4599元预售 新闻
04
Sep2024
46
掀起扫地机器人全能化革命 石头P20 Pro评测 评测
30
Aug2024
356
TCL发布双系统平嵌冰箱T9 Pro:不串味真平嵌 解锁家居生活松弛感 新闻
07
Aug2024
TCL
42
华为发布智慧屏85英寸S5和S5 Pro 鸿鹄自研平台 支持4K全网投屏 新闻
06
Aug2024
78
飞利浦美肤仪因质量检验不达标被罚没25万余元 新闻
25
Jul2024
34
市场机构:大尺寸OLED面板市场有望迎来强劲反弹 新闻
23
Jul2024
38
海信针对强降雨受灾地区推行旗下家电品牌免费检修服务 新闻
23
Jul2024
226
小米针对强降雨受灾地区受损家电类产品提供免费检修服务 新闻
23
Jul2024
50
TCL电子发布上半年预报:量子点、Mini LED出货量大增 净利润暴涨 新闻
22
Jul2024
230
供应商侵权小米是否要背锅?格力重申小米间接持有侵权方股份 新闻
10
Jul2024
570
小米回应侵权格力诉讼案:未收到任何环境电器相关诉讼 新闻
10
Jul2024
49
格力状告小米米家电扇侵权一审胜诉 判赔185万并停售 新闻
10
Jul2024
49
海信、小米和TCL领跑2024年上半年中国电视市场,前8大品牌市场份额近九成 新闻
08
Jul2024
92
云鲸洗地机S2评测:专为中国家庭清洁而生的清洁神器 评测
27
May2024
396
追觅科技多项全球首创技术获沙利文权威认证  引领智能清洁行业未来 新闻
23
May2024
114
追觅科技“满分之选”发布会召开,推出两大系列六款洗地机新品 新闻
16
May2024
96
追觅洗地机6大“满分”新品重磅来袭!多项革新技术拓宽行业创新边界 新闻
16
May2024
105
充电革命!理想汽车突破50万家庭充电桩安装,引领行业新风尚 新闻
14
May2024
106
石头手持无线吸尘器 H5评测:好看又实用的高性价比清洁神器 评测
06
May2024
466
TCL再发3款王炸级Mini LED电视新品,Q10K、Q10K Pro和T7K向影音爱好者致敬 新闻
22
Apr2024
216
六大升级!TCL典藏级 Mini LED电视Q10K,同价位画质霸主来了 新闻
22
Apr2024
319
2024重磅级Mini LED新品Q10K Pro亮相,画质表现呈断层式领先 新闻
22
Apr2024
258
先锋旗舰石头V20深度体验:下一代清洁神器标杆 新闻
29
Mar2024
6485
定义清洁新标准!石头G20S正式发布上市 新闻
29
Mar2024
1854
石头G20S深度体验:直击用户痛点 重塑扫拖机器人清洁新体验 评测
29
Mar2024
1399