毕业设计 · 大数据技术专业数据采集时间:2026年3月

塔读女频小说数据分析平台

本平台基于对塔读文学网站女频小说数据的系统性采集与分析,涵盖现代言情、古代言情、幻想言情、浪漫青春、悬疑小说五大分类, 共采集 4,568 本 小说数据, 通过多维度指标分析揭示女频网络文学的内容分布规律与创作趋势。

现代言情 · 1019本古代言情 · 991本幻想言情 · 886本浪漫青春 · 849本悬疑小说 · 777本

核心统计指标

采集书籍总量

4,362

覆盖女频5大分类

作者总数

4,116

独立作者去重统计

平均字数

1,156万字

受长篇影响均值偏高

字数中位数

24万字

更真实反映典型篇幅

连载中

3,391

占总量 77.7%

已完结

971

占总量 22.3%

可视化分析概览

各分类小说数量分布
图 1-1

各分类小说数量分布

现代言情以1019本居首,古代言情(991本)紧随其后,五大分类分布较为均衡,各占约17%-22%。

连载状态分析
图 1-2

连载状态分析

77.7%的小说处于连载中状态,仅22.3%已完结,反映女频小说以长期连载为主的创作模式。

字数分布直方图
图 1-3

字数分布直方图

字数分布呈现双峰特征:大量短篇(30万字以内)和超长篇(200万字以上),中等篇幅相对较少。

各分类字数分布热力图
图 1-4

各分类字数分布热力图

浪漫青春类超长篇占比最高(51.4%),悬疑小说短篇占比较高,各分类呈现不同的字数分布特征。

数据说明

数据来源:塔读文学网站(tadu.com)女频书库,通过Python爬虫采集
采集字段:书名、作者、分类、字数、连载状态、章节数、最新章节、简介
清洗处理:去重、格式标准化、异常值处理、字数数值化、分类归并等7项处理