“等等,”小明惊呆了:“你是说有2万多部小说的都停更了?”虽然统计时没有考虑短篇小说和最新一周新发表的小说,但去掉的小说数量也太庞大了。
大神点点头:“不过我只是按字数来计算的截止日期,并没有参考作者最新更新时间,所以实际弃文数量应该比你想象更多。”
每周发五千字的标准已经相当低了,即便如此,也只有24的作者在坚持更新。
“事实上,时间越久坚持更新的人越少。比如最近的两周11月25号到12月8号这段时间内一共有5049部小说产生,删除掉少于一万字的3341部小说,符合要求的只有1708部,大概33.8;而这三个月里最早的两周也就是9月9日到9月22日这两周里,总共发表了5976篇小说,但字数大于五万字的只有990篇小说,坚持更新的作者只占16.57。”
“事实上,这三个月的时间里,虽然一共有36934部新小说发表,但除去最近两周发表的5049部小说,写了超过3万字的只有7194部,只占22.56。”
“原来有那么多人弃文了……”小明惊叹了。他是10月27号发的文,他手速神速,虽然每天都是下班以后才会躲在角落里默默码字,但已经更了十万字。
大神继续分析。
“有一个有意思的现象,虽然时间越久坚持更新的人越少,但统计结果显示停更数量最高的时间段并不是离现在最远的九月。”
小明好奇心被勾起来了。
“那是什么时候?”
“是9月30号到10月6号的这段时间,统计时间里的第四周。这一周总共有3360部小说没有达到字数标准四万五千字,而统计时间里的第一周,也就是9月9日到9月15日这段时间内,字数未达到六万的文章也只有2626部。”
小明若有所思:“所以写到四万五千字时,作者最容易放弃。”
大神点点头:“可能还有一个原因。”
“事实上9月30号到10月6号这周,是这三个月以来发文最多的一周,发文数量远超平均水平。这大概是十一长假的关系。许多作者都是假期才有空构思发文。”
“假期结束以后,没有足够富裕的时间写文,也是他们的弃文原因之一。”
小明十分佩服大神敏弱的分析能力。听大神的意思,他还顺道分析了各个时间段内的发文数量,虽然与要分析的热文目标无关,但小明还是好奇,不同时间会对发文数量造成怎样的影响。
不过大神对此只是一笔带过,没有要着重分析的意愿。小明有些小失望
大神的思维迅速地跳到下一个话题。
“从类型上来看,如果把118种标签加在文章分类后面,比如把“原创-言情-近代现代-爱情-重生”也看为一种类型的话,一共有80240种类型的小说,去掉弃文,没有作者写的或者是不合理的类别比如‘原创-言情-近代现王’这种肯定归在同人范畴里的类别76528种,还剩下3982种文章类别可以让我们统计分析。
终于要进入正题了!刚刚还失望的小明,心情一下子变得兴奋起来。
“去掉弃文以后,文章数量最多的种类是‘原创-言情-近代现代-爱情-都市情缘’,有881部,按照数量上来看,前十名有3种是纯爱文章类型,其它都是言情文;根据时代来看,只有两种是架空历史,其它都是现代近代。占据做多的标签是都市情缘,情有独钟,甜文,nuè_liàn情深,穿越时空和花季雨季。”
这些数据分析的还是作者写的最多的文。
小明有些着急了。他想知道的什么文最火!最火!火火火火火啊大哥。
大神突然提了一个问题——“数据都是抽象独立的,你觉得应该怎么判别哪种类型题材的小说最火?”
小明仔细想了一下网站上的排序数据,无外乎积分,收藏,评论这三种判别标准。不过具体怎样判别……
小明逻辑思维一向不强,学计算机那么多年,小明的算法全都学成了马蜂窝,指哪儿都是坑。他迷茫地看着大神,两只眼睛里全是大写的蒙圈。
大神无奈只能自问自答:“小说的积分、收藏和评论的确是评判标准,不过积分,收藏和评论都是随着小说字数和发表日期的增加而不断增长的。”
“我采用了一个很简单的公式,文章系数=文章评判标准/(文章字数*发表日期到截止日期的天数),用这个公式衡量小说的火热程度,系数越高说明小说越热。其中,文章评判标准分别指的是积分,收藏,评论的数量,截止日期是12月8号。”
听上去很有道理的样子,小明已经迫不及待地想知道结果了!
大神突然看了看手表,已经六点五十了。他指了指时间,小明这才从浩瀚的数据中醒来,自己买的电影票是七点过五分的!
大神对奇异博士期待已久,无论如何也不能晚进场。幸好电影院就在商场顶楼,小明连忙招手叫来服务生,示意买单。