# data_pre **Repository Path**: yang1yu/data_pre ## Basic Information - **Project Name**: data_pre - **Description**: 用来处理聊天数据 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-04-07 - **Last Updated**: 2026-04-13 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 客服会话数据处理 本项目用于处理客服会话 Excel 数据,并提取标准化 QA 对。 ## 处理流程 1. 先执行 `pre_data.py`:按会话聚合消息,生成预处理后的 Excel。 2. 再执行 `chatmessagehandle.py`:读取预处理结果,调用大模型抽取 QA 并输出结果文件。 3. 最后执行 `summary_data.py`:统计 QA 分类数量,输出汇总报表。 ## 环境准备 1. 安装 Python 3.10 及以上版本。 2. 安装依赖: ```shell pip install openpyxl xlwt xlrd jsonlines langgraph langchain-openai langchain-anthropic ``` 3. 修改 `config.py`,按通道配置参数: - 通用: - `provider`(`openai_compatible` / `anthropic`) - `model` - `temperature` - OpenAI 兼容通道: - `api_key` - `base_url` - Claude 通道: - `anthropic_api_key`(可不填,默认回退到 `api_key`) - `anthropic_base_url`(可留空) ## 输入文件要求 `pre_data.py` 输入 Excel 的首个 Sheet 需包含以下列名: - `会话ID` - `消息发送方名称` - `消息内容` ## 使用方式 1. 执行预处理: ```shell python .\pre_data.py -i .\file\chat_20260402_bak.xlsx -o .\file\chat_20260402_bak_merged.xlsx ``` 2. 执行 QA 提取: ```shell python .\chatmessagehandle.py -i .\file\chat_20260402_bak_merged.xlsx -o .\file\20260411_msg_handle.xls ``` 3. 执行分类统计汇总: ```shell python .\summary_data.py -i .\file\20260411_msg_handle.xls -o .\file\20260411_summary.xlsx ``` ## 输出说明 - `pre_data.py` 输出:合并后的会话文件(示例:`*_merged.xlsx`)。 - `chatmessagehandle.py` 输出:QA 结果文件(列为 `问题`、`答案`、`分类`)。 - `summary_data.py` 输出:分类统计文件(默认 `*_summary.xlsx`,包含 `summary` 和 `level1_summary` 两个工作表)。