MingChenHzu
2021-04-03T17:24:55+00:00
我把p站的中文小说全爬下来了,可是有的中文小说没标中文tag,怎么办呢?
明明是中文但是没有中文tag,要怎么爬这些呢
试着爬每个小说的第1页,然后判断里面有没有中文字符,若有则继续将剩余全文扒下来?
如果是有颜色的p站 我的评价是:给我一份 好人一生平安
[quote][pid=507185100,26292508,1]Reply[/pid] Post by [uid=151580]paradisekiss[/uid] (2021-04-12 01:36):
哪个p站[/quote]还有哪个?我只知道上不去的那个。
pixiv的中文小说大部分都没打中文tag吧。
考虑内容中有没有中文不太对,因为日文中一样有汉字部分。所以反过来判断有没有平假名片假名吧,先判断标题再判断正文,有的话就跳过。
是Pilipili,还是Pixiv,还是P***H**
pixiv的中文小说啊[img]http://img.nga.178.com/attachments/mon_201209/14/-47218_5052bc4cc6331.png[/img]
截取第一段文字, 然后用iOS 11/macOS Mojave以上的Cocoa自带的CoreML NLLanguageRecognizer提取语言就行了.
正确率非常高.
2021年了, 别用笨办法了, 笨办法永远会被ML取代的, 现在开始享受ML的方便就行了.
Reply to [pid=507185949,26292508,1]Reply[/pid] Post by [uid=39655086]希娜卡塞[/uid] (2021-04-12 01:45)两个P站都上不去啊[s:ac:哭笑]
你要把黑黄站全爬下来我愿尊你为帝,吾黄万岁万岁万万岁