采集与处理说明

本页面介绍数据采集方案、清洗处理流程、分析指标设计等技术细节。

数据来源

目标网站塔读文学(tadu.com)
采集范围女频书库(5大分类)
采集数量4,568 条
采集时间2026年3月
采集工具Python + requests + BeautifulSoup

采集字段

book_id(书籍ID)
title(书名)
author(作者)
category(分类)
word_count(字数)
status(连载状态)
chapter_num(章节数)
latest_chapter(最新章节)
intro(简介)

数据清洗处理(7个方面)

1
去除重复数据
基于book_id字段去除重复记录,确保每本书只保留一条数据。共去除重复数据 23 条。
2
字数字段数值化
将字数字段(如'62.5万字')提取为数值型字段word_count_num,便于统计计算。
3
字数分组标准化
按照30万字以内、30-100万字、100-200万字、200万字以上四个区间进行分组,生成word_count_group字段。
4
连载状态标准化
将原始状态字段(连载、完结、完本等)统一标准化为'连载中'和'已完结'两类。
5
分类字段标准化
对原始分类字段进行归并标准化,将相近分类合并,生成category_std字段。
6
异常字数处理
对字数为0或异常大的记录进行标记和处理,确保统计分析的准确性。
7
文本字段清洗
对书名、作者、简介等文本字段进行去首尾空格、去特殊字符等处理。

数据分析指标(10个)

01
分类数量分布
统计各分类小说数量及占比
02
连载状态分布
统计连载中与已完结的比例
03
字数分布规律
分析字数的频率分布特征
04
各分类平均字数
对比各分类的平均字数差异
05
各分类完结率
分析各分类的完结率差异
06
高产作者分布
识别发布作品最多的作者
07
字数分组交叉分析
分析各分类在字数区间的分布
08
章节数相关性
分析章节数与字数的相关关系
09
字数箱线图分析
展示各分类字数的离散程度
10
书名词汇频率
统计书名中的高频词汇

技术栈说明

数据采集
Python 3.11 / requests / BeautifulSoup4
数据存储
CSV / Hadoop HDFS(大数据平台)
数据分析
Pandas / NumPy / Matplotlib / Seaborn
展示平台
React 19 / TypeScript / Tailwind CSS