请教个事,我把p站全爬了下来

MingChenHzu-avatar

MingChenHzu

2021-04-03T17:24:55+00:00

我把p站的中文小说全爬下来了,可是有的中文小说没标中文tag,怎么办呢?

明明是中文但是没有中文tag,要怎么爬这些呢
Edautha-avatar

Edautha

什么?p站还有小说?!
.max-avatar

.max

试着爬每个小说的第1页,然后判断里面有没有中文字符,若有则继续将剩余全文扒下来?
Warox-avatar

Warox

你们最好先统一一下那个P站
liviinn-avatar

liviinn

哪个p站
BULVYE-avatar

BULVYE

如果是有颜色的p站 我的评价是:给我一份 好人一生平安
Glam-avatar

Glam

[quote][pid=507185100,26292508,1]Reply[/pid] Post by [uid=151580]paradisekiss[/uid] (2021-04-12 01:36):

哪个p站[/quote]还有哪个?我只知道上不去的那个。
MorganFreeman-avatar

MorganFreeman

pixiv的中文小说大部分都没打中文tag吧。
考虑内容中有没有中文不太对,因为日文中一样有汉字部分。所以反过来判断有没有平假名片假名吧,先判断标题再判断正文,有的话就跳过。
dare-avatar

dare

是Pilipili,还是Pixiv,还是P***H**
𝑨𝑻𝑼𝑴-avatar

𝑨𝑻𝑼𝑴

pixiv的中文小说啊[img]http://img.nga.178.com/attachments/mon_201209/14/-47218_5052bc4cc6331.png[/img]
Magzis-avatar

Magzis

匹配一下开头句子在不在utf-8中文码区
Stawwp-avatar

Stawwp

直接拿中文分词去拆句子,看能不能分出正常内容就好
coookiie-avatar

coookiie

截取第一段文字, 然后用iOS 11/macOS Mojave以上的Cocoa自带的CoreML NLLanguageRecognizer提取语言就行了.
正确率非常高.

2021年了, 别用笨办法了, 笨办法永远会被ML取代的, 现在开始享受ML的方便就行了.
buckwi1d730-avatar

buckwi1d730

Reply to [pid=507185949,26292508,1]Reply[/pid] Post by [uid=39655086]希娜卡塞[/uid] (2021-04-12 01:45)两个P站都上不去啊[s:ac:哭笑]
Harley quin-avatar

Harley quin

全爬了? 现在p站小说id号已经去到了1500w
Jutes-avatar

Jutes

你要把黑黄站全爬下来我愿尊你为帝,吾黄万岁万岁万万岁