打不过只能认输:维基百科向AI公司推出免费数据集 只求不要再无止境抓取

Budder-avatar

Budder

我一开始学python也是奔着爬虫去的,正常
有點ININ的-avatar

有點ININ的

有用 也没那么有用

数据集下了 ai公司们还是会继续爬的

反正免费大家都这么干,模型放那不爬干嘛 省电费吗?
iFlexNuts-avatar

iFlexNuts

能爬为啥不用
我一开始入门python也是去爬东西用的喘
Lotus_Rylie-avatar

Lotus_Rylie

割地事秦,抱薪救火哭笑
Brownlow63-avatar

Brownlow63

不懂就问,爬虫很难应对么,这种行为和正常人特别好区分的吧,不是很容易就能写个验证或者规则拦截掉
MOF1_Suren-avatar

MOF1_Suren

+ by [jyg999111] (undefined)

不懂就问,爬虫很难应对么,这种行为和正常人特别好区分的吧,不是很容易就能写个验证或者规则拦截掉

你就算去筛选拦截 那筛选的过程也消耗资源啊哭笑
每天应对超大量的来自世界各地爬虫脚本的各种分布式访问 服务器负载要遭不住了

本身网站放那你又不能让人不访问 但凡能访问就有可能是爬虫 纯纯是耗资耗不过了 时资耗
毕竟你维基只是一个站 想爬数据的AI公司可是到处都是
Descyple-avatar

Descyple

+ by [jyg999111] (undefined)

不懂就问,爬虫很难应对么,这种行为和正常人特别好区分的吧,不是很容易就能写个验证或者规则拦截掉

你不会觉得那么大一个网站的管理员搞不定这种“很容易”的事情吧?
DonZack-avatar

DonZack

+ by [jyg999111] (undefined)

不懂就问,爬虫很难应对么,这种行为和正常人特别好区分的吧,不是很容易就能写个验证或者规则拦截掉

非常难,人类迟早把互联网搞成2077里的黑墙外。
The Polis Protocol-avatar

The Polis Protocol

是不是AI能力的提升使真人验证变得越来越困难了?以前那些随便点一点的题目AI甚至比人类做的好。
masha-avatar

masha

维基那数据都特么改来改去,能用?