# data_generator **Repository Path**: qingge_dada/data_generator ## Basic Information - **Project Name**: data_generator - **Description**: 本项目是一个专门用于生成国学与非物质文化遗产(非遗)科普数据的系统,采用Alpaca格式,通过大模型API生成高质量的文化科普内容。 - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-11-03 - **Last Updated**: 2026-06-25 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # data_generator 国学非遗数据生成系统,基于大模型API批量生成中国传统文化科普数据(Alpaca格式),含质量验证与数据库管理。 [![Python](https://img.shields.io/badge/Python-3.8+-blue.svg)](https://python.org) [![License](https://img.shields.io/badge/License-MIT-green.svg)](LICENSE) [![Gitee](https://img.shields.io/badge/Gitee-开源-orange.svg)](https://gitee.com/qingge_dada/data_generator) ## 功能 - 批量生成国学/非遗文化问答数据(Alpaca instruction-input-output格式) - 14个文化类别覆盖:传统节日、工艺制作、节气养生、诗词鉴赏、历史典故等 - 并发API调用 + 速率限制 + 实时数据库写入 - 数据质量验证:逐条调用大模型评估内容准确性 - SQLite持久化存储,支持导出有效数据 ## 快速开始 ```bash pip install -r requirements.txt ``` 配置API密钥(编辑config.py): ```python API_CONFIG = { "base_url": "https://api.example.com/v1", "api_key": "your-api-key", "model": "your-model-name" } ``` 生成数据: ```bash python main.py generate --count 100 --category 诗词鉴赏 ``` 验证数据: ```bash python main.py validate --db chinese_heritage_data.db ``` 导出有效数据: ```bash python export_valid_data.py --db chinese_heritage_data.db --output data.jsonl ``` ## 项目结构 ``` data_generator/ ├── main.py # 主程序入口 ├── data_generator.py # 数据生成核心(并发API调用+速率控制) ├── data_validator.py # 数据质量验证(大模型逐条评估) ├── database.py # SQLite数据库管理 ├── config.py # API配置与速率限制 ├── export_valid_data.py # 导出通过验证的数据 ├── revalidate_data.py # 重新验证已有数据 ├── requirements.txt # Python依赖 ├── benchmarks/ # 性能测试 ├── docs/ # 文档 ├── tests/ # 测试 └── web_app/ # Web管理界面 ``` ## 数据格式 ```json { "instruction": "请解释'惊蛰'节气的含义和习俗", "input": "", "output": "惊蛰是二十四节气中的第三个节气...", "category": "节气养生", "quality_score": 0.92 } ``` ## 覆盖类别 非遗类:传统节日习俗、传统工艺制作、传统文化知识、非遗技艺传承、传统民俗文化、传统养生文化 国学类:传统礼仪、节气养生、职场沟通、成语应用、经典短句、诗词鉴赏、历史典故、哲学思想 ## 清宇开源矩阵 [guoxue-1.5b-upgrade](https://gitee.com/qingge_dada/guoxue-1.5b-upgrade) — QingChat 1.5B 国学文化垂类模型 [LLM_2025](https://gitee.com/qingge_dada/LLM_2025) — 大模型技术笔记(Transformer/MoE/LLaMA/Qwen3/多模态) [harmonyos-tutorial](https://gitee.com/qingge_dada/harmonyos-tutorial) — 鸿蒙NEXT原生开发教程 [wenhuaqian-app](https://gitee.com/qingge_dada/wenhuaqian-app) — 文化签·鸿蒙诗词求签App [wuhou-app](https://gitee.com/qingge_dada/wuhou-app) — 物候·二十四节气东方生活美学杂志 ## License MIT --- 清宇云图 | [Gitee](https://gitee.com/qingge_dada)