數據不會造假,但切忌盲目地去相信...
2019年10月17日14:00

紙面上的與實際上的
紙面上的與實際上的

  拉舒福特Marcus Rashford今季的表現好於麥巴比Kylian Mbappe?《太陽報》的一張圖表,引起了球迷們的熱議。其中的數字看起來相當醒目:拉舒福特比麥巴比踢的比賽更多,出場時間更長,入球更多,而且平均每個入球的用時還要更短。那怎麼看,拉舒福特都是更高產的那個啊!

數據不會說謊吧?
數據不會說謊吧?

  這種圖表對比不是第一次出現:今年4月份的時候,同樣是《太陽報》做的圖,指出梅斯達菲Shkodran Mustafi上季在英超的幾項防守數據都要優於雲迪積克Virgil van Dijk。但就場上表現而言,兩人的風評卻是天差地別。而在討論比賽、討論球員的時候,也出現了人們口中的「Excel型球迷」。他們握有製作精良的表格和數據機構給出的數據,似乎準備用嚴謹的數據化、機器化思維來看問題。

頭頭是道
頭頭是道

  這些數據並不是造假,它也是確實存在的。但所謂「數據會騙人」,恰恰是在說即便數據本身沒有說謊,它也能成功地欺騙到人們。數據本身是沒有感情的,但這些冷冰冰的數字有可能因為不同的解讀而變得有感情。因此想要透過數據看清真相,有時候並不是那麼容易,這也是為什麼觀看比賽本身是對足球的理解中非常重要的一環。

還記得這個人嗎?
還記得這個人嗎?

  如果有一名球員在一個賽季的歐聯中7場9球,你會不會說他這賽季比肩梅羅了?結果14-15賽季,巴西前鋒路斯-阿祖安奴(Luiz Adriano)的這9球,8個出現在主作客對陣巴迪的兩場比賽中。就算加上前一年的6場1球,他兩年歐聯也有13場10球呢,聽起來也挺不錯啊。

  而這類的「平均數謊言」,在平時的生活中也是常見的。在分佈極其不均勻的時候,用平均數試圖描述每個人的狀況,這顯然不合適。

如果梅羅不上,球隊贏波,又要被說缺誰誰尷尬了
如果梅羅不上,球隊贏波,又要被說缺誰誰尷尬了

  另一種常見的形式,是把相關關係解讀為因果關係。這兩種關係的確有其相似性,但也需要人們仔細去辨別。人們經常能看到這樣的數據對比,關注的是某名球員出場與缺陣的時候,球隊的勝率、得失球數、射門次數等方面的比較。最無奈的恐怕就是美斯Lionel Messi和C.朗拿度Cristiano Ronaldo了,在有的人看來,他們不在球隊也能贏反倒不是好事,一兩場球就開始刷「缺誰誰尷尬」。

這兩個毫無關聯的東西,數據上的相關性也很大呢
這兩個毫無關聯的東西,數據上的相關性也很大呢

  說到相關性不一定可靠,還真有人專門收集這種完全不可能有關聯,但在數據上卻呈現虛假相關的相關關係。比如上圖顯示,每年從漁船上摔下去導致溺亡的人數與肯塔基州的結婚率有很強的關聯。

  缺少某一名球員的影響,要從球員的踢法、球隊的踢法、面對的對手等多方面因素去分析,絕不是幾個簡單的數字就能解釋清楚的。看到相關現象就恨不得直接導出因果,這無疑是不可取的,更別說純粹基於數據方面進行的考量。

摩帥口中的數據型射門確實存在
摩帥口中的數據型射門確實存在

  即便是場上的數據,其實也有值得甄別的地方,比如說「射正」——離門35米外綿軟無力被門將輕鬆抱住的球,那也叫射正呢;小禁區裡打到橫樑立柱上的球,反而不算射正喲。射正次數乃至射門次數的對比,其實都有一定的欺騙性,就像摩連奴提出過所謂「數據型射門」的說法。這球我打不進對方防線,胡亂一腳,那也是射門。

利物浦那場著名的36腳射門之戰
利物浦那場著名的36腳射門之戰

  於是在純粹的射門和射正數基礎上,出現了「期望入球」這樣一個新數據。它通過考量每次射門的位置、角度、姿態等因素,結合大數據建模得出每次射門的一個入球概率。如果你有30腳射門,但每一次的入球概率才3%,那你一場比賽的期望入球還是到不了一個。

  比如說導致摩帥最終下台的一戰,曼聯在射門數上6-36被利物浦完爆,但利物浦一半的射門都是入球概率極低的攻門,這更多是在說明紅軍的射門傾向比較強,打得更直接。當然這不是說曼聯就不慘,只是實際上的情形並沒有射門數6-36表現得這麼慘。

機器評分的份量,不該看得過重
機器評分的份量,不該看得過重

  武磊Wu Lei來到西甲踢球,這也讓很多球迷們開始關注起了數據網站《Whoscored.com》的評分。這個評分也是一種數據化解讀,依據射門、傳球等200餘項數據統計按照某套公式進行計算,在6分的基礎上進行加減。而這方面的數據和媒體評論式的賽後評分常有衝突,球迷們也能發現機器評分並不能完全展現比賽的情景,比如皇馬對巴黎時的巴爾(Gareth Bale)和夏薩特Eden Hazard

機器評分對武磊不是很友好
機器評分對武磊不是很友好

  更何況足球比賽不是回合制,絕大多數時候也不是一對一對位攻防,想要量化球員的表現就更難,相比之下籃球比賽的數據描述就全面詳實得多。而即便是在籃球龐雜的數據體系下,不同的數據對不同位置、不同風格的球員也有不同的友好度。比如武磊相比持球更擅長無球的比賽風格,在機器評分中就不算討喜。

風格不同,解讀不同
風格不同,解讀不同

  球員在場上有不同的風格和分工,比較數據的時候也要考慮到這一點。比如說你不能要求一個主要負責補位的中堅去跟主要負責上搶的後衛比攔截次數,再比如說邊後衛和邊翼衛的數據不能直接進行比照。在這些方面,人們很容易陷入選擇性展示或者傾向性描述的陷阱,進而偷換概念乃至強加因果,這樣的現象也值得注意。

踢球和看球帶來的幫助
踢球和看球帶來的幫助

  足球運動有它的規律,每場比賽也有一個大體上的趨勢和評價。數據是展現這種態勢的一個方面,但絕非全部。而這些數據是怎麼來的,有著怎樣的意義,也需要結合場上的技戰術運用來看。隨著看比賽包括自己踢球的經驗的積累,你對整個比賽的理解也會更全面一些。畢竟兩名球員或者是兩球隊之間的區別,不是你拿個填滿數據的表單就能說明白的。

  說到底,足球又不是什麼精密科學。數字肯定可以參考,但看球的實證絕不能少。

  (新浪體育 華迪維亞 專欄)

(責編:布伊利)

關注我們Facebook專頁
    相關新聞
      更多瀏覽