采集与处理说明

本页面介绍数据采集方案、清洗处理流程、分析指标设计等技术细节。

数据来源

目标网站塔读文学（tadu.com）

采集范围女频书库（5大分类）

采集数量4,568 条

采集时间2026年3月

采集工具Python + requests + BeautifulSoup

采集字段

book_id（书籍ID）

title（书名）

author（作者）

category（分类）

word_count（字数）

status（连载状态）

chapter_num（章节数）

latest_chapter（最新章节）

intro（简介）

数据清洗处理（7个方面）

去除重复数据

基于book_id字段去除重复记录，确保每本书只保留一条数据。共去除重复数据 23 条。

字数字段数值化

将字数字段（如'62.5万字'）提取为数值型字段word_count_num，便于统计计算。

字数分组标准化

按照30万字以内、30-100万字、100-200万字、200万字以上四个区间进行分组，生成word_count_group字段。

连载状态标准化

将原始状态字段（连载、完结、完本等）统一标准化为'连载中'和'已完结'两类。

分类字段标准化

对原始分类字段进行归并标准化，将相近分类合并，生成category_std字段。

异常字数处理

对字数为0或异常大的记录进行标记和处理，确保统计分析的准确性。

文本字段清洗

对书名、作者、简介等文本字段进行去首尾空格、去特殊字符等处理。

数据分析指标（10个）

分类数量分布

统计各分类小说数量及占比

连载状态分布

统计连载中与已完结的比例

字数分布规律

分析字数的频率分布特征

各分类平均字数

对比各分类的平均字数差异

各分类完结率

分析各分类的完结率差异

高产作者分布

识别发布作品最多的作者

字数分组交叉分析

分析各分类在字数区间的分布

章节数相关性

分析章节数与字数的相关关系

字数箱线图分析

展示各分类字数的离散程度

书名词汇频率

统计书名中的高频词汇

技术栈说明

数据采集

Python 3.11 / requests / BeautifulSoup4

数据存储

CSV / Hadoop HDFS（大数据平台）

数据分析

Pandas / NumPy / Matplotlib / Seaborn

展示平台

React 19 / TypeScript / Tailwind CSS