CornerLeafe
2021-01-07T12:41:54+00:00
如题,正文主要是这个结构:
1.关于xG评价的结论
2.探究的起因
3.探索的资料
4.核心的争论
5.逻辑的分析
6.既有参数的问题
7.insight
1. 结论:
xG值应该拿来分析球队,而拿来评价球员的表现时并不是一个很好的指标。
2.事件起因:
[img]https://img.nga.178.com/attachments/mon_202101/08/-1r99Q5-fyhsZeT1kShs-124.jpg[/img]
3.学习资料:
知乎,百科,科普视频([url]https://www.bilibili.com/video/av76364193)[/url]
4. Core Controversy:
4-1. 对expected goal的感性理解与数据呈现的偏差
4-2. XG值在个体球员上的应用的合理性
就这图一看第一反应就是有问题的,所以我想看看到底直观印象和这个数据之间的gap在哪里。
理解上的最大问题来自XG这个值的定义。
xg这个指标按照定义应该是形容射门的相对位置的,每个位置对应一个xG。例如,离球门越远的位置,xG越低,与球门正方向角度越小,xG越低。
这里需要注意,xG值,按我理解,是与射门执行人无关的。
但是xG现在用来描述球员了,意思是说,用这个人历史的选择的地点的xG来形容这个人,那么:
一个球员的xg越高,从历史行为上来看,这个球员更倾向于在“稳稳进球”的位置上射门,更稳,更倾向于回避风险。
一个球员的xg越低,意味着历史上这个球员更倾向于在更“不易进球”,更“高难”的位置上射门,这个人更浪,更骚,更不稳。
这个球员的xg高低与他最终进还是没进,水平如何,什么类型的球,都无关。它只是说他选择在这样的位置上尝试打门了。
XG是无法用来跟个体相比的,包括自己也不太好跟自己比,XG是跟数据库里曾经在这个位置起脚射门过的人们的平均值比的。
5.理解&分析:
按照定义,某个球员的的预期进球,xG, 应该是样本范围内,所有尝试在此位置、用这只脚射门的次数为分母,成功的次数为分子的比值。这个个体的特异情况会被淹没在统计量级里。
这个位置,XG=0.8, 意味着数据库里,曾经在这个位置上发生过的射门作为分母,得到的进球作为分子,这个比值是0.8。只要这个数据库够大,就可以认为是进球期望,(有点像一些难度系数的定义)
于是就变成了,
那个位置XG=0.5,意味着那个位置起脚射门,估摸着,一万个人里大概有五千个人能进。(10个人里5个人能完成某mission)
所以,
如果球员甲的实际进球,低于了数据xG,意味着平均来看,甲这个逼可能是喜欢在很难进球的位置射门,也可能是在别人也差不多能进球的地方起脚时,成功率低于职业球员平均水平。
如果球员甲的实际进球,高于了数据xG,意味着平均来看,甲这个逼可能在一些别人很难进球的位置上,制造了一些进球,或者在别人也差不多能进的地方起脚时,成功率更高。
如果甲的实际进球与XG差距不大,可能是他在各个位置上就是整体的平均水平,也可能是他在“高难”和“很稳”的位置上的表现离散程度相互抵消。
进一步地,假如这个XG和实际进球的差距比较大的话,结论应该是:
甲的实际进球,远低于XG,或者长期低于XG,意味着平均来看,甲这个逼喜欢远射浪射,或者是浪费很多机会,差不多的球总射歪。
甲的实际进球,远高于XG,或者长期高于XG,意味着平均来看,甲这个逼频繁地在匪夷所思的地方进球,例如喜欢远射,或者是小角度弧线啥的,喜欢但是结果上竟然还进了,或者是在差不多的位置上比别人射的更准。
6. XG数值的问题:
6-1.定义与使用场景
所以当XG在描述球队时,可以看出球队的战术风格和造险能力。我觉着这个是相对合理的。
比如有一支球队,无论打谁,就总能把球传着传着就传到对方门前,或者总是能传中传到门前的队友,这样一来他们的最后一脚总是发生在XG很高的位置上,从概率上讲更容易进(@阿尔特塔)。
有一些球队就是,无论打谁,都难以组织起有效进攻,无法在禁区内展开攻击,只能远射,射门发生在XG很低的位置上。
但是xG在描述球员时,除了描述这个人的终结能力以外,更主要的是包含了这个人倾向于射门的位置。
这个位置,这种倾向,可能来源于他的偏好,性格沉稳还是骚的一逼,也可能来源于是技术特点,也可能是来源于其他球队对他的防守策略,也可能是球队队友没法把球送到更有威胁的位置上。可能是对方的阵型,可能是对方的防守重心和策略,对方的核心阵容的健康状况等。
反正感觉XG来描述单个球员的话,有太多外部因素了。
6-2.数据逻辑
当计算xG的时候,如何取舍数据是个想想就很麻烦的事情。
只算本联赛合理吗?5大联赛算一起合理吗?只按地域国家或国籍计算合理吗? 按年代计算合理吗?同一位置的球员作为对比对象更合理吗?
7. Empirical Insight:
回到最初的图片,
孙兴慜的实际进球远超xG是因为啥呢?
1 因为他的活动范围xG值本身就低,他不会抢点,不会头球,终结攻击的范围离球门相对远一点。这种背景下,只要实际上进球的话,就会更容易超过本就不高的XG值。
2 他大多数进球都是1V2,不太会超过1V3,身前的防守人员少。 空间足,实际结果好。
3 球队水平差,队友辅助能力差,所以他射的次数少,样本量低。
4 开火权低。很多可以强行射一射的球,他不强求,就回传给绯闻男友了。
排在下面的人,
例如莱万凭什么是负的呢?
1 球队的进攻能力强,队友的辅助能力强,所以他机会多,射的更多。样本基数大。
2.他开火权高,算不上机会的球他也有权射一射,飞了就飞了,对球队影响不大,甚至能吸引敌方防守。但会降低他的实际进球与XG值的差距。
3 莱万的活动区域和进球大多集中在XG本就超高的位置上,能抢点,能站桩,因此他活动范围的xG值就很高。于是实际结果很难高出本就很高的XG值。这个角度上,在禁区里的传统中锋属性的人可能都难以有正向的XG超越值,比如评价因扎吉的话,想必会负的很多。
所以从emprical的角度,我们有很多理由可以解释xG over rate在50%左右的大幅度差距。 这个数据拿来论证个体球员的进攻/终结 能力是不恰当的。
1.关于xG评价的结论
2.探究的起因
3.探索的资料
4.核心的争论
5.逻辑的分析
6.既有参数的问题
7.insight
1. 结论:
xG值应该拿来分析球队,而拿来评价球员的表现时并不是一个很好的指标。
2.事件起因:
[img]https://img.nga.178.com/attachments/mon_202101/08/-1r99Q5-fyhsZeT1kShs-124.jpg[/img]
3.学习资料:
知乎,百科,科普视频([url]https://www.bilibili.com/video/av76364193)[/url]
4. Core Controversy:
4-1. 对expected goal的感性理解与数据呈现的偏差
4-2. XG值在个体球员上的应用的合理性
就这图一看第一反应就是有问题的,所以我想看看到底直观印象和这个数据之间的gap在哪里。
理解上的最大问题来自XG这个值的定义。
xg这个指标按照定义应该是形容射门的相对位置的,每个位置对应一个xG。例如,离球门越远的位置,xG越低,与球门正方向角度越小,xG越低。
这里需要注意,xG值,按我理解,是与射门执行人无关的。
但是xG现在用来描述球员了,意思是说,用这个人历史的选择的地点的xG来形容这个人,那么:
一个球员的xg越高,从历史行为上来看,这个球员更倾向于在“稳稳进球”的位置上射门,更稳,更倾向于回避风险。
一个球员的xg越低,意味着历史上这个球员更倾向于在更“不易进球”,更“高难”的位置上射门,这个人更浪,更骚,更不稳。
这个球员的xg高低与他最终进还是没进,水平如何,什么类型的球,都无关。它只是说他选择在这样的位置上尝试打门了。
XG是无法用来跟个体相比的,包括自己也不太好跟自己比,XG是跟数据库里曾经在这个位置起脚射门过的人们的平均值比的。
5.理解&分析:
按照定义,某个球员的的预期进球,xG, 应该是样本范围内,所有尝试在此位置、用这只脚射门的次数为分母,成功的次数为分子的比值。这个个体的特异情况会被淹没在统计量级里。
这个位置,XG=0.8, 意味着数据库里,曾经在这个位置上发生过的射门作为分母,得到的进球作为分子,这个比值是0.8。只要这个数据库够大,就可以认为是进球期望,(有点像一些难度系数的定义)
于是就变成了,
那个位置XG=0.5,意味着那个位置起脚射门,估摸着,一万个人里大概有五千个人能进。(10个人里5个人能完成某mission)
所以,
如果球员甲的实际进球,低于了数据xG,意味着平均来看,甲这个逼可能是喜欢在很难进球的位置射门,也可能是在别人也差不多能进球的地方起脚时,成功率低于职业球员平均水平。
如果球员甲的实际进球,高于了数据xG,意味着平均来看,甲这个逼可能在一些别人很难进球的位置上,制造了一些进球,或者在别人也差不多能进的地方起脚时,成功率更高。
如果甲的实际进球与XG差距不大,可能是他在各个位置上就是整体的平均水平,也可能是他在“高难”和“很稳”的位置上的表现离散程度相互抵消。
进一步地,假如这个XG和实际进球的差距比较大的话,结论应该是:
甲的实际进球,远低于XG,或者长期低于XG,意味着平均来看,甲这个逼喜欢远射浪射,或者是浪费很多机会,差不多的球总射歪。
甲的实际进球,远高于XG,或者长期高于XG,意味着平均来看,甲这个逼频繁地在匪夷所思的地方进球,例如喜欢远射,或者是小角度弧线啥的,喜欢但是结果上竟然还进了,或者是在差不多的位置上比别人射的更准。
6. XG数值的问题:
6-1.定义与使用场景
所以当XG在描述球队时,可以看出球队的战术风格和造险能力。我觉着这个是相对合理的。
比如有一支球队,无论打谁,就总能把球传着传着就传到对方门前,或者总是能传中传到门前的队友,这样一来他们的最后一脚总是发生在XG很高的位置上,从概率上讲更容易进(@阿尔特塔)。
有一些球队就是,无论打谁,都难以组织起有效进攻,无法在禁区内展开攻击,只能远射,射门发生在XG很低的位置上。
但是xG在描述球员时,除了描述这个人的终结能力以外,更主要的是包含了这个人倾向于射门的位置。
这个位置,这种倾向,可能来源于他的偏好,性格沉稳还是骚的一逼,也可能来源于是技术特点,也可能是来源于其他球队对他的防守策略,也可能是球队队友没法把球送到更有威胁的位置上。可能是对方的阵型,可能是对方的防守重心和策略,对方的核心阵容的健康状况等。
反正感觉XG来描述单个球员的话,有太多外部因素了。
6-2.数据逻辑
当计算xG的时候,如何取舍数据是个想想就很麻烦的事情。
只算本联赛合理吗?5大联赛算一起合理吗?只按地域国家或国籍计算合理吗? 按年代计算合理吗?同一位置的球员作为对比对象更合理吗?
7. Empirical Insight:
回到最初的图片,
孙兴慜的实际进球远超xG是因为啥呢?
1 因为他的活动范围xG值本身就低,他不会抢点,不会头球,终结攻击的范围离球门相对远一点。这种背景下,只要实际上进球的话,就会更容易超过本就不高的XG值。
2 他大多数进球都是1V2,不太会超过1V3,身前的防守人员少。 空间足,实际结果好。
3 球队水平差,队友辅助能力差,所以他射的次数少,样本量低。
4 开火权低。很多可以强行射一射的球,他不强求,就回传给绯闻男友了。
排在下面的人,
例如莱万凭什么是负的呢?
1 球队的进攻能力强,队友的辅助能力强,所以他机会多,射的更多。样本基数大。
2.他开火权高,算不上机会的球他也有权射一射,飞了就飞了,对球队影响不大,甚至能吸引敌方防守。但会降低他的实际进球与XG值的差距。
3 莱万的活动区域和进球大多集中在XG本就超高的位置上,能抢点,能站桩,因此他活动范围的xG值就很高。于是实际结果很难高出本就很高的XG值。这个角度上,在禁区里的传统中锋属性的人可能都难以有正向的XG超越值,比如评价因扎吉的话,想必会负的很多。
所以从emprical的角度,我们有很多理由可以解释xG over rate在50%左右的大幅度差距。 这个数据拿来论证个体球员的进攻/终结 能力是不恰当的。