NGA水区数据分析 Code:OmegaNeko[Ver2022.5.21]

Warblade-avatar

Warblade

2022-05-15T11:37:26+00:00

采集范围:NGA网事杂谈(水区)板块及其下辖的8个 我感兴趣的 比较有代表性的子分区。
采集时间:2022年4月09日 - 2022年5月21日
这个项目的起因是我想发一个流量贴,于是思考了一下,我应该在一天之中的什么时间发帖,才能吸引最多的回复呢?
以此类推,应该在星期几发帖最好?在哪个分区发帖最好?帖子的内容应该与什么有关?
于是就有了本项目:NGA水区数据分析,代号OmegaNeko。
这个项目断断续续搞了好久,但是总是因为懒而搁置了。适逢周末,就一鼓作气搞定吧。
如果有坛友之后仍然对本项目感兴趣的话,我可以过几个月采集新的数据再发一篇。
免责声明:本项目立足于中国大陆,服务全球华人,遵守中国大陆法律。
项目数据已经尽可能做脱敏处理,并不会公开。
若有侵权,请立刻联系笔者。
本报告仅对上文指明的采集范围和采集时间内的数据有效性负责。
下面是报告正文:

各个分区发帖数的比例饼状图
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-ay1cK1mT3cSy7-o0.png[/img]
可以看出,水区占据了最大的份额,达到了55%。随后是大时代、晴风村。
热度加权的分区比例饼状图
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-le0aK1nT3cSy7-np.png[/img]
经过热度加权后,可以发现水区的份额进一步提高了。同时各分区的排名也有所变动。
分区平均热度直方图
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-a4atKmT3cSxq-oh.png[/img]
可以看到平均热度最高的不出所料是晴风村。平均热度达到了惊人的52,远远超过排在最后的电子区和大时代。
这说明大伙对于情感故事和舔狗故事还是最感兴趣的。
各个分区发帖数的比例直方图
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-k3epKkT3cSxi-o1.png[/img]
和上面的饼图是一个数据,但是换成直方图,更清晰的表明排名关系。
热度加权的分区比例直方图
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-atjlKjT3cSxu-by.png[/img]
同上。
总热度分布散点图
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-klgbKxT3cSy2-oj.png[/img]
横坐标是热度(控制在300以内),纵坐标是符合该热度的主题帖数量。
可以看出符合一个反比例的关系,这也符合我们的认知。存在大量无热度、低热度的帖子,同时有少量高热度帖子。
可以看出回复过100的帖子就相对来说很少了。
更小比例尺的总热度分布散点图
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-6k6pK11T3cSxr-of.png[/img]
在更小的比例尺(横坐标控制在50以内)下的总热度分布散点图。
热度分布与分区
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-gbdbK1qT3cSyh-p0.png[/img]
更小比例尺的热度分布与分区
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-3q0tK28T3cSyq-ob.png[/img]
这两幅图没什么好说的。可以看出,水区的曲线下降的速率最大。换言之,水区的低热度帖子占比很高,是"最水的",实至名归。
分时发帖数量(精确至分钟)
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-bxcxK1cT3cSxx-oy.png[/img]
横坐标是时间,24小时制,精确至分钟。可以看到还是很有规律的。我们看下面的小时图,更清楚一些。
分时发帖数量(精确至小时)
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-9rxK14T3cSxz-oh.png[/img]
把横坐标缩放至小时单位。非常有规律的曲线,也符合我们的认知。
从零点到五点,发帖数快速下降。四点、五点钟的时候基本上熬夜的也都去睡了,发帖数达到低谷。随着六点钟开始陆续起床工作、上学,发帖数上升,一直到十点钟达到最高峰。
在十二点出现小下降,可能是在吃午饭。14点又回升,睡午觉的人都醒了。
随后从下午时段一路缓慢下降到晚上。
分区分时发帖数量折线图(精确至小时)
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-a2izK2kT3cSyr-p0.png[/img]
可以看出各分区的区别。还是比较符合规律的。大时代在十二点有一个极其明显的下降,这是不是说明大时代都是社畜,全去午休了呢。
更新:笔者不炒股(全区第二痛苦的分区我一定要远离),受到楼中老哥提醒,大时代十二点的的发帖数量骤降可能是受到每天的开市时间影响。



分区分时发帖数量气泡图(精确至小时)
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-hd4lZgT3cS1wx-no.png[/img]
这个没啥好说的,主要是换种方式展示一下,可能更直观一些。
分时发帖数量折线图(精确至曜日)
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-4iizK12T3cSxw-oi.png[/img]
横坐标精确至曜日。通常我们认为周末论坛可能是最活跃的,但是数据却与常规的印象大相径庭。周四的发帖数最高,而周末的最低。
分区分时发帖数量折线图(精确至曜日)
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-e3fmK1lT3cSyn-om.png[/img]
分区展示。没啥好说的。
分时平均热度折线图(精确至小时)
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-l3pzK1jT3cSyd-oz.png[/img]
符合规律的一张图。可以看到,在论坛比较活跃的时间段(例如中午13-14时或晚上20时),由于大量的主题帖,将平均热度稀释了。
而一个发表于早上8时的帖子,会经过一个上午的完整"曝光",因此平均热度比较高。
因此想要建一个高楼,尽量选择早上8时发帖更好哦。
分时平均热度折线图(精确至曜日)
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-902tK14T3cSy4-on.png[/img]
周五平均热度最低而周一平均热度最高。
使用设备用户总分布饼状图
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-j84hKuT3cSyq-n9.png[/img]
安卓设备占优势,达到了64%的占比。
查询分区含果量(分区苹果用户占比)
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-8e9iKrT3cSxq-n7.png[/img]
可以发现,晴风村的苹果用户最多,达到了44%。
而令人惊讶的是,漩涡书院的苹果用户占比非常低,仅为20%,两者几乎差了一倍。
这个现象非常有趣。考虑到苹果用户占比最少的两个分区分别是小说和游戏相关,我们是否能够得到这样一个结论,即小说、游戏分区的年轻人比较多,而年轻人更喜欢用安卓。
对称分区高发帖量用户排行榜(每分区前5名)
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-gbacK2oT3cS1y6-nk.png[/img]
看一看各个分区谁最能水。
水区高发帖量用户排行榜(前50名)
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-29d6K2hT3cS1y2-oi.png[/img]
看一看水区谁最能水。
历史发言数分区分布
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-9omdK15T3cS1y7-oc.png[/img]
可以看到在0.2k-0.4k段有一个局部极值,随后符合一个反比例的曲线下降。
总威望分布
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-hdhwK2fT3cS1ws-ob.png[/img]
把全部用户的威望染色。
分区威望分布
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-3hh4K10T3cS1y6-nv.png[/img]
之前笔误写反了,已修正。
比较符合正态分布,0-2威望的最多。
值得一提的是,"稍微扣了一点"比"稍微加了一点"的要更少。
换言之,轻度论坛用户,比起稍微违反一下论坛条例,还是更喜欢略微做出贡献。
总用户组分布
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-ahipK24T3cSym-nr.png[/img]
做一下用户组上的人口普查。老百姓还是占绝大多数的。
全部学徒与警告等级用户之和占比达到98.968%。
之后是同一张图,把占比最高的两个用户组(学徒39和警告等级1 )去掉。
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-k3ryK2gT3cSys-nk.png[/img]
接着将老百姓全部去掉,仅保留人上人。(去掉全部的学徒和警告等级)
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-87x8K28T3cSyt-o6.png[/img]
可以看到人上人阶级中,助手占一半。随后是工匠、专家、大师等等。
总用户组分布
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-hn8lK1gT3cSyv-od.png[/img]
用户组人口普查的直方图形式。
注意纵坐标不是均匀缩放的。
看见血压酱了吗?那个领袖工作人员就是了,全论坛唯一的用户组。
注册时间分布条带图
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-3r5iZpT3cS1w4-op.png[/img]
注册时间的染色图。粒度精确到月份。
注意到在2005-2010之间,准确的说是2007-2008的位置 ,出现了明显的空缺。那时候发生了什么笔者不得而知,或许论坛当时关闭了注册。
注册时间分布折线图
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-b8qbK12T3cSy1-o5.png[/img]
用户注册时间的折线。
注意,由于粒度精确到年,因此这张图中看不到上一张图展示出的空缺。
可以发现,用户注册数量在2009年达到局部最高,然后出现了一个长达4年的下降。不知道论坛的运营当时是否出了差错,将来是不是要负责任。
接着从2013年开始攀升,到2015年开始以一个非常高的速率上升。
直至2019年,函数的导数突然变成零,并维持至今。
注册时间分区分布折线图
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-ziK2lT3cSyi-op.png[/img]
分区分时注册折线图,可以看到在2015年后的大扩张中,最多的用户涌入了水区。水区对应曲线(最上面的那一条)在2015-2018的上升幅度非常惊人。
关键词计数分布直方图
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-7tr5K19T3cS1x7-oi.png[/img]
对全区关键词进行直接计数。
排在前十位的是小说、美国、上海、疫情、游戏、手机、日本、视频、乌克兰、俄罗斯。
非对称分区关键词计数分布
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-gb93K1hT3cS1yf-nt.png[/img]
非对称分区计数。非对称意味着更火热的分区占有的关键词更多。
对称分区关键词计数分布(每分区前5)
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-l52wK24T3cS1yb-oa.png[/img]
对称分区计数。对称意味着每个分区单独计算出现次数最多的关键词。
注意纵坐标非均匀缩放。
标题长度分区分布
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-785mK1nT3cS1y8-ol.png[/img]
一张完美符合正态分布的图。
帖子的标题长度大多落在12-17个字之间。
主楼长度分布
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-f0frK1hT3cS1y6-oh.png[/img]
能看出正文字符数为零的帖子居然是最多的。(一般是配了一张图)
情感倾向比例饼状图
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-31z7KrT3cSym-no.png[/img]
用深度学习对文本语义进行情感分析。
负面情感占比77.1%,正面感情占比22.9%。
情感倾向分区分布
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-coc1KxT3cSyq-pe.png[/img]
注意纵坐标非均匀缩放。
所有的分区都是负面情感大于正面情感。
情感倾向分区分布(负面感情倾向占比)
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-h4zKrT3cSxr-or.png[/img]
虽然所有的分区都是负面情感大于正面情感,但是它们的负面情感占比不同。
可以看出相对最快乐的分区和游戏、影音、小说有关,都是娱乐分区。
而最痛苦的分区是职场人生。其次是大时代。可以说是非常真实了。
情感倾向和平均热度分区分布
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-8ltlKrT3cSyt-o8.png[/img]
来看一下情感倾向对于帖子平均热度的影响。
可以看到,大部分分区,负面情感的帖子更火热。
值得一提的是,网络游戏综合区鹤立鸡群,正面情感的帖子比负面情感帖子热度更高。
关键词负面情感倾向占比排行
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-g4ntK16T3cS1wy-ox.png[/img]
可以看到,A股、利润、彩礼、利空、港股等关键词,负面情感率甚至达到了百分之百。
此外,蚊子、阳性、事故、裁员、散户、存款、资本家、贷款、团团、皮套等词语也是负面情感的重灾区。
关键词正面情感倾向占比排行
[img]https://img.nga.178.com/attachments/mon_202205/21/-7Qjgo-2falKwT3cS1wu-op.png[/img]
比较快乐的词。黑胶、网易、壁纸、音乐、礼物、四川、母亲节、东哥、奥特曼、周杰伦等等。

ok,现在我们回过头来,是不是可以回答开始时提出的问题了呢?
如果你想要发一个流量贴,那么最好在晴风村分区,于周一的早上8时,发一个负面情感倾向的帖子。帖子内容最好能和金钱、利润、彩礼有关,如果能带上资本家,皮套人和乌克兰局势就更好了。
另外,不要再问我这个帖子为啥不是周一早上八点发了,八点我起不来。[img]https://img.nga.178.com/attachments/mon_201209/14/-47218_5052bc835856c.png[/img]
编辑:重新修改了排版。如果我够闲的话,会陆续把对应的分析结论更新出来。
修正了几处文本错误。
Kreideprintz-avatar

Kreideprintz

这干货太硬了 好活![s:a2:不明觉厉]
Artzy-avatar

Artzy

好活 先占楼后评论
Googs-avatar

Googs

竟然九安比海狗多
PipisRoom-avatar

PipisRoom

这个帖子强的!!

水区datav了属于是
mohonkz-avatar

mohonkz

那么你这个帖子能有多少回复[s:ac:哭笑][s:ac:哭笑]
Ripleypuff-avatar

Ripleypuff

车版无人权[s:ac:哭笑]
Aarons_Wrld-avatar

Aarons_Wrld

牛逼前排
Neskouyk-avatar

Neskouyk

关于苹果和安卓用户比例的问题,我有个不同想法。
个人感觉女生用苹果的会多一点,而因为晴风村女用户比例稍高,小说和游戏区女用户比例比较低,所以晴风村苹果比例高一点,小说和游戏区苹果比例低。
koyshka-avatar

koyshka

这数据强
EyeAmSilver-avatar

EyeAmSilver

好活,当赏
Warblade-avatar

Warblade

[quote][pid=612288358,31993061,1]Reply[/pid] Post by [uid=62296644]大号被叉出马桶[/uid] (2022-05-21 20:16):
那么你这个帖子能有多少回复[s:ac:哭笑][s:ac:哭笑][/quote]草,我应该等到周一早上八点发的[img]https://img.nga.178.com/attachments/mon_201209/14/-47218_5052bc4cc6331.png[/img]
Fredoba-avatar

Fredoba

这是不是托?[s:a2:doge]
420_Savege-avatar

420_Savege

07-08 邀请制注册吧,整天刮墙[s:ac:瞎]
热度的话,要不是删帖太猛,水区碾压,没有一个区能打的[s:ac:茶]
Cl1cxySZN-avatar

Cl1cxySZN

专业!
RylanTech-avatar

RylanTech

那为啥这个贴不是周一上午8点发
matias__.-avatar

matias__.

这个结论太哈人了[img]https://img.nga.178.com/attachments/mon_201209/14/-47218_5052bc4f51be7.png[/img]我都能想象到这个帖子吵上几百楼
Dyce-avatar

Dyce

硬啊楼主,不过感觉这贴马上要隐藏了~
JayyGrizz-avatar

JayyGrizz

太强了[s:a2:是在下输了]楼主能帮我写论文不?