# aistudy43 **Repository Path**: coderferi/aistudy43 ## Basic Information - **Project Name**: aistudy43 - **Description**: Transformer完整流程 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-05-26 - **Last Updated**: 2026-06-08 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # TinyLLM-Story — 儿童故事生成模型定制开发 ## 项目定位 **TinyLLM-Story** 是一个专注于**儿童故事生成**的轻量级语言模型定制开发项目。基于 Transformer 架构和预训练模型(GPT-2 / Qwen 等因果语言模型),通过领域数据微调,打造高质量的中文儿童故事生成能力。 ### 核心目标 > 从数据采集 → 数据工程 → 模型微调 → 推理部署,构建完整的儿童故事生成 pipeline。 ## 项目现状 | 阶段 | 状态 | 说明 | |------|------|------| | **数据采集** | ✅ 已完成 | 爬虫采集 ~20,000 篇真实儿童故事 + 模板生成 700 篇 | | **数据工程** | ✅ 已完成 | v1 → v2 两代模板生成器,含代词系统、场景系统 | | **训练参考** | ✅ 已完成 | demo4.py 提供完整 HuggingFace Trainer pipeline | | **模型微调** | 🔲 规划中 | 将分类 pipeline 改造为因果语言建模 (CausalLM) | | **推理服务** | 🔲 规划中 | 模型量化 + API 部署 | ## 数据资产 | 数据源 | 规模 | 格式 | 特点 | |--------|------|------|------| | `stories_dataset_v2.json` | 700 条 | JSON | 7 分类模板生成,含代词/场景系统 | | `stories_dataset.json` | 700 条 | JSON | v1 版本,模板较简单 | | `all_stories.json` | ~39 MB | JSON | gushi365.com 爬取的真实故事 | | `all_stories.txt` | ~41 MB | TXT | 爬虫数据的可读文本版 | ## 快速开始 ```bash # 1. 环境验证 python main.py # 2. 生成故事数据集 python src/test/createjson2.py # 3. 爬取真实故事(谨慎使用) python src/test/spidertest2.py # 4. 参考训练 pipeline(待改造为故事生成) python src/demo/demo4.py ``` ## 项目结构 ``` TinyLLM-Story/ ├── main.py # 环境验证入口 ├── requirements.txt # 项目依赖 ├── docs/ # 项目文档 ├── src/ │ ├── demo/ │ │ ├── demo1.py # 中文分词实验(文本预处理参考) │ │ ├── demo4.py # IMDB 训练 pipeline ★(迁移为故事生成的模板) │ │ ├── demo2.py # ViT 图像分类(Transformer 能力参考) │ │ ├── demo3.py # DETR 目标检测(推理 pipeline 参考) │ │ └── output/runs/ # TensorBoard 训练日志 │ └── test/ │ ├── createjson1.py # 故事数据 v1(模板拼接) │ ├── createjson2.py # 故事数据 v2 ★(增强模板 + 代词系统) │ ├── spidertest1.py # 爬虫侦察 │ ├── spidertest2.py # 完整爬虫 ★(真实故事采集) │ ├── stories_dataset.json # v1 产出 (700条) │ ├── stories_dataset_v2.json # v2 产出 (700条) │ └── gushi365_data/ # 爬虫产出 (~20k 篇) ├── configs/ # [待建设] 模型/训练配置 ├── data/ # [待建设] 数据处理 pipeline ├── models/ # [待建设] 故事生成模型定义 ├── trainers/ # [待建设] 自定义训练器 ├── scripts/ # [待建设] 辅助脚本 └── utils/ # [待建设] 工具函数 ``` ## 技术栈 | 层级 | 技术 | |------|------| | **框架** | PyTorch | | **模型库** | HuggingFace Transformers | | **目标模型** | GPT-2 Chinese / Qwen2 / DeepSeek 等 CausalLM | | **数据管理** | HuggingFace Datasets | | **训练** | HuggingFace Trainer API | | **评测** | perplexity / BLEU / ROUGE | | **部署** | ONNX Runtime / FastAPI (规划中) | ## 相关文档 | 文档 | 说明 | |------|------| | [架构设计](ARCHITECTURE.md) | 故事生成系统架构与数据流 | | [模块参考](API_REFERENCE.md) | 各模块 API 与参数说明 | | [开发指南](DEVELOPMENT.md) | 环境搭建、训练流程、模型迁移方案 | | [数据工程指南](DATA_GUIDE.md) | 故事数据的采集、生成、清洗与标注 |