# aistudy43

**Repository Path**: coderferi/aistudy43

## Basic Information

- **Project Name**: aistudy43
- **Description**: Transformer完整流程
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-05-26
- **Last Updated**: 2026-06-08

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# TinyLLM-Story — 儿童故事生成模型定制开发

## 项目定位

**TinyLLM-Story** 是一个专注于**儿童故事生成**的轻量级语言模型定制开发项目。基于 Transformer 架构和预训练模型（GPT-2 / Qwen 等因果语言模型），通过领域数据微调，打造高质量的中文儿童故事生成能力。

### 核心目标

> 从数据采集 → 数据工程 → 模型微调 → 推理部署，构建完整的儿童故事生成 pipeline。

## 项目现状

| 阶段 | 状态 | 说明 |
|------|------|------|
| **数据采集** | ✅ 已完成 | 爬虫采集 ~20,000 篇真实儿童故事 + 模板生成 700 篇 |
| **数据工程** | ✅ 已完成 | v1 → v2 两代模板生成器，含代词系统、场景系统 |
| **训练参考** | ✅ 已完成 | demo4.py 提供完整 HuggingFace Trainer pipeline |
| **模型微调** | 🔲 规划中 | 将分类 pipeline 改造为因果语言建模 (CausalLM) |
| **推理服务** | 🔲 规划中 | 模型量化 + API 部署 |

## 数据资产

| 数据源 | 规模 | 格式 | 特点 |
|--------|------|------|------|
| `stories_dataset_v2.json` | 700 条 | JSON | 7 分类模板生成，含代词/场景系统 |
| `stories_dataset.json` | 700 条 | JSON | v1 版本，模板较简单 |
| `all_stories.json` | ~39 MB | JSON | gushi365.com 爬取的真实故事 |
| `all_stories.txt` | ~41 MB | TXT | 爬虫数据的可读文本版 |

## 快速开始

```bash
# 1. 环境验证
python main.py

# 2. 生成故事数据集
python src/test/createjson2.py

# 3. 爬取真实故事（谨慎使用）
python src/test/spidertest2.py

# 4. 参考训练 pipeline（待改造为故事生成）
python src/demo/demo4.py
```

## 项目结构

```
TinyLLM-Story/
├── main.py                          # 环境验证入口
├── requirements.txt                 # 项目依赖
├── docs/                            # 项目文档
├── src/
│   ├── demo/
│   │   ├── demo1.py                 # 中文分词实验（文本预处理参考）
│   │   ├── demo4.py                 # IMDB 训练 pipeline ★（迁移为故事生成的模板）
│   │   ├── demo2.py                 # ViT 图像分类（Transformer 能力参考）
│   │   ├── demo3.py                 # DETR 目标检测（推理 pipeline 参考）
│   │   └── output/runs/             # TensorBoard 训练日志
│   └── test/
│       ├── createjson1.py           # 故事数据 v1（模板拼接）
│       ├── createjson2.py           # 故事数据 v2 ★（增强模板 + 代词系统）
│       ├── spidertest1.py           # 爬虫侦察
│       ├── spidertest2.py           # 完整爬虫 ★（真实故事采集）
│       ├── stories_dataset.json     # v1 产出 (700条)
│       ├── stories_dataset_v2.json  # v2 产出 (700条)
│       └── gushi365_data/           # 爬虫产出 (~20k 篇)
├── configs/                         # [待建设] 模型/训练配置
├── data/                            # [待建设] 数据处理 pipeline
├── models/                          # [待建设] 故事生成模型定义
├── trainers/                        # [待建设] 自定义训练器
├── scripts/                         # [待建设] 辅助脚本
└── utils/                           # [待建设] 工具函数
```

## 技术栈

| 层级 | 技术 |
|------|------|
| **框架** | PyTorch |
| **模型库** | HuggingFace Transformers |
| **目标模型** | GPT-2 Chinese / Qwen2 / DeepSeek 等 CausalLM |
| **数据管理** | HuggingFace Datasets |
| **训练** | HuggingFace Trainer API |
| **评测** | perplexity / BLEU / ROUGE |
| **部署** | ONNX Runtime / FastAPI (规划中) |

## 相关文档

| 文档 | 说明 |
|------|------|
| [架构设计](ARCHITECTURE.md) | 故事生成系统架构与数据流 |
| [模块参考](API_REFERENCE.md) | 各模块 API 与参数说明 |
| [开发指南](DEVELOPMENT.md) | 环境搭建、训练流程、模型迁移方案 |
| [数据工程指南](DATA_GUIDE.md) | 故事数据的采集、生成、清洗与标注 |