从成名于南非世界杯的章鱼保罗,到今年俄罗斯冬宫博物馆的警卫猫,每隔四年,自然界就会发生大批动物被预言家们附身的“神秘现象”。预测得准确与否无关紧要,得益于幸存者偏差,数不清的预言家中总有人会脱颖而出,重要的是营造神叨叨的氛围。
作为本届世界杯的“官方预言家”,肩负着冬宫防鼠重任的警卫猫取名阿喀琉斯。小猫天生失聪,但在“信徒”们眼里反倒成了优势——这样一来,就能不受周遭环境的影响,更重要的是,阿喀琉斯还怀揣着与“公务猫”身份相符的铁面无私,揭幕战首度预测就毅然站在了东道主的对立面。随着俄罗斯大胜沙特,这位曾在欧洲杯有过神勇表现的预言家就几乎消逝在舆论的洪流中了……
巫师神婆们的时代早已过去,球迷们如今更信奉科学,更准确地说,是人工智能与大数据。金融机构们已深耕于此逾廿载。自1998年法国世界杯以来,锲而不舍的高盛总会在世界杯开幕前发布《世界杯与经济学》报告,预测冠军归属的同时,也试图寻找这一答案与国家经济、政治环境的内在联系。这一次,高盛动用了20万套数据模型,模拟了100万次比赛结果,预测结果如下:最初版本的报告中,高盛预测巴西将在决赛中完成对德国人的复仇,这已是该投行连续第四届世界杯力挺“桑巴军团”;在上述两支夺冠热门提前出局后,高盛又在半决赛前再度预测,称比利时将与英格兰会师决赛——看起来,高大上之如高盛也没比阿喀琉斯神准几分。
金融机构参与预测纷纷错得离谱
按如今态势发展下去,高盛的世界杯预测很快就将会和贝利的“乌鸦嘴”一样为人们所熟知。四年前在巴西,美国投行在前22场小组赛预测中错了15场,这次在俄罗斯,则猜错了半数八强。此外,该机构还驳斥了只在南非世界杯上未曾应验的“东道主出线定律”,认为俄罗斯注定无缘小组出线。如今看来,高盛的预测中唯一值得称道的是准确预言了西班牙与阿根廷的低迷。只不过,高盛认为两队只是难以进入四强。
如果长期关注高盛世界杯预测的话不难发现,该机构对于西班牙队的看衰其实与其过往的理论有所矛盾。四年前,美国投行曾在回顾西班牙队历史后指出,“该国经济发展与球队在世界杯的战绩呈现正相关的关系。”而在今年《世界杯与经济学》关于西班牙的报告中,该机构在文章伊始就曾写道,“自2015年以来,西班牙经济增速快过欧洲任何国家,也使其看起来很可能会在俄罗斯世界杯爆发。”这在一定程度上体现出了金融机构在预测思路上的转变,厚达45页的报告尽管依然逐一简述了各参赛队伍本国或地区的经济、政治生态,但将这些数据与世界杯表现牵强附会的联系少了很多。这一次,高盛更集中于足球本身,将量化的球队个性、球员数据以及球队近期数据套进四种类型的数据模型中进行分析,以达到预测目的。
就连高盛自己也很明白,即便视频助理裁判(VAR)的引进大大提高了判罚准确性,但在足球赛场依然有着太多的不可预测性,如意外伤病、天气、球员主观原因等等。正如其报告所言,“我们有着最先进的数据分析技术,但足球本身就是不可预知,这也是世界杯的魅力所在。”
类似的故事亦发生在其他金融机构身上。同样是经过数据建模以及上万次的随机模拟,德国商业银行和丹麦银行都将德国队视作夺冠大热;瑞银集团借用了一套原本被用于帮助客户挑选股票的计量经济学工具,得到的答案依然是德国。相对而言,荷兰国际集团的研究方法离足球场更近一些,在以各队球员的市场价值以及近期表现作为主要指标后,西班牙是他们预测报告的头名。
数据并就不多,筛选更是难题
“乌鸦嘴”般的预测并非毫无价值,高盛的报告中仍有不少有趣的意外收获:在结合研究机构“世界价值观调查”(WVS)的各国国民信任数据后,高盛发现,在国民互相信任度更高的国度,其代表队进攻配合越娴熟,被判罚越位的比例也越低;除了德国与巴西游离在基准线外,在其余所有夺得世界杯的国家中,国家年均日照天数与晋级世界杯决赛的次数基本成正比……然而,数据呈现出的这些趋势均和预测本身无关,缺乏有说服力的数据是足球始终难以通过纯数据分析结果的重要原因。
在上届世界杯中曾发生过这样一场比赛:整场比赛,一方控球率约52%,18次射门中13次射正,另一方则在控球时间略短的情况下尝试了14脚射门,其中12次射中门框范围。若仅从数据而言,这怎么看都像是一场针尖对麦芒的对决,但事实是以上样本来自德国对巴西那场7比1的屠杀,而账面数据略占上风的前者正是那支坠入深渊的“桑巴军团”。这当然只能算是极端的特例,若非下半时德国人收敛攻势,而巴西仍在顽强抵抗,双方的数据不会如此相近。但特例背后传达的信息却很明确:在部分数据可能毫无意义甚至误导的情况下,如何筛选有效数据比建立模型更重要也更艰巨。
随着足球研究的愈发深入,关于这项运动的数据分析正在变得愈发多元化。得益于搭载NFC技术的芯片被运用于本届世界杯比赛用球,球员的跑动距离时速、射门及传球力量、出球球速等更精细的数据已能实现实时交互,但在绿茵场上仍有着太多难以量化的部分。尽管通过精准的抢断数据,球迷们对于坎特在防守端无所不在的覆盖能力已有所知晓,然而法国后腰的作用依然会被数据低估——他在通过敏锐的补位破坏对手进攻节奏的关键防守行为,无法被纳入现行的数据统计中,坎特未必是为防守跑动最多的球员,却很可能是有效跑动距离最长的防守者。然而,怎样的跑动才算是“有效”需要主观判定,在明确定义出现前,这就注定了“有效跑动距离”很难成为官方认可的数据。
数据分析的困境,恰恰又是足球运动的魅力所在。试想一下,如果没有冰岛逼平阿根廷、韩国击败韩国那种震撼感,一切只按所谓定律与数据优劣发展,世界杯会有多平凡。毕竟,不可预知性本身就如此令人着迷。