毕业设计 · 大数据技术专业数据采集时间:2026年3月
塔读女频小说数据分析平台
本平台基于对塔读文学网站女频小说数据的系统性采集与分析,涵盖现代言情、古代言情、幻想言情、浪漫青春、悬疑小说五大分类, 共采集 4,568 本 小说数据, 通过多维度指标分析揭示女频网络文学的内容分布规律与创作趋势。
现代言情 · 1019本古代言情 · 991本幻想言情 · 886本浪漫青春 · 849本悬疑小说 · 777本
核心统计指标
采集书籍总量
4,362本
覆盖女频5大分类
作者总数
4,116位
独立作者去重统计
平均字数
1,156万字
受长篇影响均值偏高
字数中位数
24万字
更真实反映典型篇幅
连载中
3,391本
占总量 77.7%
已完结
971本
占总量 22.3%
可视化分析概览

图 1-1
各分类小说数量分布
现代言情以1019本居首,古代言情(991本)紧随其后,五大分类分布较为均衡,各占约17%-22%。

图 1-2
连载状态分析
77.7%的小说处于连载中状态,仅22.3%已完结,反映女频小说以长期连载为主的创作模式。

图 1-3
字数分布直方图
字数分布呈现双峰特征:大量短篇(30万字以内)和超长篇(200万字以上),中等篇幅相对较少。

图 1-4
各分类字数分布热力图
浪漫青春类超长篇占比最高(51.4%),悬疑小说短篇占比较高,各分类呈现不同的字数分布特征。
数据说明
数据来源:塔读文学网站(tadu.com)女频书库,通过Python爬虫采集
采集字段:书名、作者、分类、字数、连载状态、章节数、最新章节、简介
清洗处理:去重、格式标准化、异常值处理、字数数值化、分类归并等7项处理