摸鱼的时候看了个荒唐的帖子,去学习了下xG的知识有感

CornerLeafe-avatar

CornerLeafe

2021-01-07T12:41:54+00:00

如题,正文主要是这个结构:


1.关于xG评价的结论
2.探究的起因
3.探索的资料
4.核心的争论
5.逻辑的分析
6.既有参数的问题
7.insight


1. 结论:
xG值应该拿来分析球队,而拿来评价球员的表现时并不是一个很好的指标。

2.事件起因:
[img]https://img.nga.178.com/attachments/mon_202101/08/-1r99Q5-fyhsZeT1kShs-124.jpg[/img]

3.学习资料:
知乎,百科,科普视频([url]https://www.bilibili.com/video/av76364193)[/url]

4. Core Controversy:
4-1. 对expected goal的感性理解与数据呈现的偏差
4-2. XG值在个体球员上的应用的合理性

就这图一看第一反应就是有问题的,所以我想看看到底直观印象和这个数据之间的gap在哪里。

理解上的最大问题来自XG这个值的定义。
xg这个指标按照定义应该是形容射门的相对位置的,每个位置对应一个xG。例如,离球门越远的位置,xG越低,与球门正方向角度越小,xG越低。
这里需要注意,xG值,按我理解,是与射门执行人无关的。

但是xG现在用来描述球员了,意思是说,用这个人历史的选择的地点的xG来形容这个人,那么:

一个球员的xg越高,从历史行为上来看,这个球员更倾向于在“稳稳进球”的位置上射门,更稳,更倾向于回避风险。
一个球员的xg越低,意味着历史上这个球员更倾向于在更“不易进球”,更“高难”的位置上射门,这个人更浪,更骚,更不稳。

这个球员的xg高低与他最终进还是没进,水平如何,什么类型的球,都无关。它只是说他选择在这样的位置上尝试打门了。
XG是无法用来跟个体相比的,包括自己也不太好跟自己比,XG是跟数据库里曾经在这个位置起脚射门过的人们的平均值比的。

5.理解&分析:

按照定义,某个球员的的预期进球,xG, 应该是样本范围内,所有尝试在此位置、用这只脚射门的次数为分母,成功的次数为分子的比值。这个个体的特异情况会被淹没在统计量级里。

这个位置,XG=0.8, 意味着数据库里,曾经在这个位置上发生过的射门作为分母,得到的进球作为分子,这个比值是0.8。只要这个数据库够大,就可以认为是进球期望,(有点像一些难度系数的定义)
于是就变成了,
那个位置XG=0.5,意味着那个位置起脚射门,估摸着,一万个人里大概有五千个人能进。(10个人里5个人能完成某mission)

所以,
如果球员甲的实际进球,低于了数据xG,意味着平均来看,甲这个逼可能是喜欢在很难进球的位置射门,也可能是在别人也差不多能进球的地方起脚时,成功率低于职业球员平均水平。
如果球员甲的实际进球,高于了数据xG,意味着平均来看,甲这个逼可能在一些别人很难进球的位置上,制造了一些进球,或者在别人也差不多能进的地方起脚时,成功率更高。
如果甲的实际进球与XG差距不大,可能是他在各个位置上就是整体的平均水平,也可能是他在“高难”和“很稳”的位置上的表现离散程度相互抵消。

进一步地,假如这个XG和实际进球的差距比较大的话,结论应该是:

甲的实际进球,远低于XG,或者长期低于XG,意味着平均来看,甲这个逼喜欢远射浪射,或者是浪费很多机会,差不多的球总射歪。
甲的实际进球,远高于XG,或者长期高于XG,意味着平均来看,甲这个逼频繁地在匪夷所思的地方进球,例如喜欢远射,或者是小角度弧线啥的,喜欢但是结果上竟然还进了,或者是在差不多的位置上比别人射的更准。

6. XG数值的问题:

6-1.定义与使用场景
所以当XG在描述球队时,可以看出球队的战术风格和造险能力。我觉着这个是相对合理的。
比如有一支球队,无论打谁,就总能把球传着传着就传到对方门前,或者总是能传中传到门前的队友,这样一来他们的最后一脚总是发生在XG很高的位置上,从概率上讲更容易进(@阿尔特塔)。
有一些球队就是,无论打谁,都难以组织起有效进攻,无法在禁区内展开攻击,只能远射,射门发生在XG很低的位置上。

但是xG在描述球员时,除了描述这个人的终结能力以外,更主要的是包含了这个人倾向于射门的位置。
这个位置,这种倾向,可能来源于他的偏好,性格沉稳还是骚的一逼,也可能来源于是技术特点,也可能是来源于其他球队对他的防守策略,也可能是球队队友没法把球送到更有威胁的位置上。可能是对方的阵型,可能是对方的防守重心和策略,对方的核心阵容的健康状况等。
反正感觉XG来描述单个球员的话,有太多外部因素了。

6-2.数据逻辑
当计算xG的时候,如何取舍数据是个想想就很麻烦的事情。
只算本联赛合理吗?5大联赛算一起合理吗?只按地域国家或国籍计算合理吗? 按年代计算合理吗?同一位置的球员作为对比对象更合理吗?


7. Empirical Insight:

回到最初的图片,
孙兴慜的实际进球远超xG是因为啥呢?
1 因为他的活动范围xG值本身就低,他不会抢点,不会头球,终结攻击的范围离球门相对远一点。这种背景下,只要实际上进球的话,就会更容易超过本就不高的XG值。
2 他大多数进球都是1V2,不太会超过1V3,身前的防守人员少。 空间足,实际结果好。
3 球队水平差,队友辅助能力差,所以他射的次数少,样本量低。
4 开火权低。很多可以强行射一射的球,他不强求,就回传给绯闻男友了。

排在下面的人,
例如莱万凭什么是负的呢?
1 球队的进攻能力强,队友的辅助能力强,所以他机会多,射的更多。样本基数大。
2.他开火权高,算不上机会的球他也有权射一射,飞了就飞了,对球队影响不大,甚至能吸引敌方防守。但会降低他的实际进球与XG值的差距。
3 莱万的活动区域和进球大多集中在XG本就超高的位置上,能抢点,能站桩,因此他活动范围的xG值就很高。于是实际结果很难高出本就很高的XG值。这个角度上,在禁区里的传统中锋属性的人可能都难以有正向的XG超越值,比如评价因扎吉的话,想必会负的很多。

所以从emprical的角度,我们有很多理由可以解释xG over rate在50%左右的大幅度差距。 这个数据拿来论证个体球员的进攻/终结 能力是不恰当的。
booga-avatar

booga

看起来不错,学习了
I eat rice-avatar

I eat rice

其实说到底还是孙的机会把握能力强,这个不会有问题的
ku-avatar

ku

其实评论一个好前锋的标准,最直观的还是,每90分钟非点球进球数,即(进球数-点球数)/(上场分钟数/90分钟),下面简称场均进球。

不用考虑射门数,因为从逻辑上说,场均进球多,且射门多的球员有两种

1)拥有无限开火权,那必然是球队的核心人物,必然是好前锋,况且你效率下降了球队就会剥夺你的无限开火权,典型就是c罗。

2)没有无限开火权,但是无球跑动好,能跑到别人跑不到的位置,或抢到别人抢不到的点。典型就是上和上上赛季的斯特林,你别看他丢的多,但是进得也多啊,很多机会除了斯特林别人还真跑不出来。在中超的武磊同理。

也不用考虑强队弱队的区别,从逻辑上说,强队的前锋就是比弱队强,但你如果是弱队前锋仍能保持很好的场均进球,很快你就会成为强队前锋,无论是转会还是球队整体变成了强队,比如瓦尔迪。

如果是策应类的前锋,还可以加上场均助攻,典型就是菲尔米诺和这赛季的凯恩。
CornerLeafe-avatar

CornerLeafe

Reply to [pid=483719793,25027538,1]Reply[/pid] Post by [uid=1248302]小灰之魂[/uid] (2021-01-08 21:09)

当时是看那个帖子的标题,说小孙的转化率是C罗的66倍,我当时石化了,心想什么数据能支持这种结论[s:ac:擦汗]
你看截图里还有这个文字呢……66倍于自己偶像

然后就去看了看这个参数[s:ac:擦汗]
CornerLeafe-avatar

CornerLeafe

Reply to [pid=483727616,25027538,1]Reply[/pid] Post by [uid=42811733]风暴詹俊[/uid] (2021-01-08 21:52)
是不是一般说的场均进球都是算了点球的?

一定要以90分钟为单位吗,这样算是不是对不踢完全场的球员比较有利。
I eat rice-avatar

I eat rice

Reply to [pid=483775569,25027538,1]Reply[/pid] Post by [uid=60696803]秃头但不强[/uid] (2021-01-09 04:12)
那个不应该叫转化率,是高于期望百分比,就是说孙该进的球都进了,不该进的神仙球也没少进

而且真说和C罗比的话,应该是1.4441/1.0067=1.4345倍,而不是什么66倍,数字游戏罢了
tfku-avatar

tfku

你的结论有问题,因为进攻选择也是进攻能力的一种体现,比如伊布在大联盟那个带了两步半场直接射门,就是对自己技术的自信,你能说他不是对伊布进攻能力的最好体现?所以按照你的分析逻辑,想法确实没问题,独立报的数据推出孙兴民终结能力抢这个结论确实有待商榷,但是反而可以推出孙兴民的进攻能力强,有独到的闪光点,因为没有看到外文原文,不排除是翻译出了问题
Ninjapple3-avatar

Ninjapple3

说那么多,我没力气没技术没速度的英扎吉算哪种?
Pzxil-avatar

Pzxil

XG是性感的拼音缩写么
ku-avatar

ku

[quote][pid=483775660,25027538,1]Reply[/pid] Post by [uid=60696803]秃头但不强[/uid] (2021-01-09 04:15):

是不是一般说的场均进球都是算了点球的?

一定要以90分钟为单位吗,这样算是不是对不踢完全场的球员比较有利。[/quote]跟踢不踢满没关系,你看我那个公式就懂了。

比如哈兰德上场1202分钟,进了17球其中1个点球,除去点球,每分钟进球就是16/1202=0.0133,乘90分钟就是每90分钟进1.198球,0.0133的倒数是75.18即进一球需要多少分钟。

像这种场均进球超过1的在该联赛就是天王巨星级别了。

后面两个数据很多数据网站都是有的,想剔除点球的话自己算算就好了。
Cuza-avatar

Cuza

还以为是翔哥[s:ac:哭笑]
CornerLeafe-avatar

CornerLeafe

Reply to [pid=483783550,25027538,1]Reply[/pid] Post by [uid=388595]iffi[/uid] (2021-01-09 07:55)

expected goal,预期进球
CornerLeafe-avatar

CornerLeafe

[quote][pid=483827963,25027538,1]Reply[/pid] Post by [uid=42811733]风暴詹俊[/uid] (2021-01-09 11:57):

跟踢不踢满没关系,你看我那个公式就懂了。

比如哈兰德上场1202分钟,进了17球其中1个点球,除去点球,每分钟进球就是16/1202=0.0133,乘90分钟就是每90分钟进1.198球,0.0133的倒数是75.18即进一球需要多少分钟。

像这种场均进球超过1的在该联赛就是天王巨星级别了。

后面两个数据很多数据网站都是有的,想剔除点球的话自己算算就好了。[/quote]嗯 一般好像都是带着点球的
Kasami-avatar

Kasami

zardbest[s:ac:哭笑]
CornerLeafe-avatar

CornerLeafe

[quote][pid=483926107,25027538,1]Reply[/pid] Post by [uid=41203357]LTSFATEQ[/uid] (2021-01-09 19:35):

zardbest[s:ac:哭笑][/quote]什么梗[s:ac:咦]

翔哥咋了

哦懂了,是说xg以为是zard的缩写是吧[s:ac:晕]
CornerLeafe-avatar

CornerLeafe

[quote][pid=483783213,25027538,1]Reply[/pid] Post by [uid=25512620]桃花切了一斤[/uid] (2021-01-09 07:51):

你的结论有问题,因为进攻选择也是进攻能力的一种体现,比如伊布在大联盟那个带了两步半场直接射门,就是对自己技术的自信,你能说他不是对伊布进攻能力的最好体现?所以按照你的分析逻辑,想法确实没问题,独立报的数据推出孙兴民终结能力抢这个结论确实有待商榷,但是反而可以推出孙兴民的进攻能力强,有独到的闪光点,因为没有看到外文原文,不排除是翻译出了问题[/quote]但是这个位置选择有太多其他因素干扰了
Chrissy-avatar

Chrissy

好文,学习了,解答了最近的一些疑问
ku-avatar

ku

[quote][pid=483925876,25027538,1]Reply[/pid] Post by [uid=60696803]秃头但不强[/uid] (2021-01-09 19:33):

嗯 一般好像都是带着点球的
比如不是说哈兰德,就按你的数字,

这个x90的意思不就是预期,如果他能踢满全场,进球期望是1.198,

但是如果1202分钟是很多场踢了40,50几分钟就被换下了带来的总量,就会有些偏差。[/quote]如果踢这个前锋每场时间都踢只能踢60分钟以下,且进球数不多的话,那么毫无疑问他并不是一个足够出色的前锋,至少在进攻的意义上,典型就是西班牙人的武磊。


另外其实乘90不是预期,就是实打实的数据,只是乘90方便大家理解而已,跟每进一球平均多少分钟其实是同一个数据的不同表达
rad-avatar

rad

孙这44.41%,意思是他每拿到1xG的机会,能有144.41%也就是1.4441个进球。同理罗每拿到1xG的机会,能进1.0067个球。
(或者更准确地说,孙进144.41个球的机会,这几百次射门换成一个平均人来踢,能进100个。 先不考虑这个机会平均人能不能跑出来 )

之所以有66倍这么离谱的数字,是因为那文章把144.41%里面那个100%给扔了,直接44.41除以0.67。