功能:PowerPoint拼接与转换;Word替换与转换;Excel替换与修改;转PDF(图片式);PDF转图片;缺点- 图片式转换速度较慢:约2.6秒每页;
支持输入:zip/md/docx/html;支持输出:zip/md/docx/html/pdf;优点:(1)前端预览效果好速度快;(2)极速导出-go实现;(3)pdf导出效果好-基于chrome;(4)支持导出docx(公式式);原理:(1)md转docx:基于pandoc;【推荐】
任意文件转pdf:采用other2pdf-go-project; pdf转md-zpp:采用paddleocr-vl-1.5; md-zip转docx采用md2docx-py-project,删除原基于正则匹配的方法; md-zip转pdf采用2步走(1)先md-zip转docx:采用md2docx-py-project;(2)再docx转pdf:采用other2pdf-go-project;
功能概览:(1)- 支持输入:md;docx;html;(2)- 支持输出:md;docx;html;pdf;(3)- 可互转:md;docx;html; 优点:(1)非ocr-无gpl;(2)速度快;效果好;(3)要求latex公式转为word框-MathML形式;其他:;(4)支持插入图片;(5)内存占用:70M;缺点:(1)docx预览与保存一致性问题;
基于正则替换的轻量级方案;重量级见:pdf2office-md-zip-pro# md在线编辑与pdf对比转换平台 功能:(1)转换:md的zip压缩包-》可搜索文本的pdf;(2)pdf和md对比查看;(3)自动清洗符号;(4)多zip查看与保存<br>缺点:md2pdf和md2docx速度较快速度较慢(因为采用的weasy);优点:(1)镜像较小:371M;(2)转pdf和docx效果都挺好;
介绍:(1)pdf2docx优化(基于pdf2docx-origin-test);(2)fastapi化;(3)pdf2md;解决问题:(1)图片上字体丢失问题;(2)下标乱码问题;(3)图注、图片等无样式,全是正文;(4)连字问题;(5)内容缺失问题;优点:(1)效果好;速度快;(2)无gpl;特点:不保留分栏结构;
优点:(1)速度快:不到0.1秒每张;速度快:不到0.1秒每张;实现功能:一、other2pdf-支持转换类型:将 ZIP(md+图片;图片;pdf;多级zip) 或图片或pdf;(1)-》转为pdf(图片式)(2)-》转为pdf(非图片式); 二、other2docx: 三、pdf拆分与编辑-保留文字;四、pdf批量压缩、裁剪与转换;五、md2xlsx:六:docx2md;
介绍:(1)基于pyd4vinci/scrapling实现url2md;(2)反检测浏览器CloakHQ/CloakBrowser;功能:- URL2MD;- 下载标签页(DOWNLOAD TAB);- URL搜图(URL TO IMAGE);- 文搜图(TEXT TO IMAGE);- 文搜URL(SEARCH URL);图搜图;
介绍:(1)pdf2docx优化;(2)fastapi化;解决问题:(1)图片上字体丢失问题;(2)下标乱码问题;(3)图注、图片等无样式,全是正文;(4)连字问题;(5)内容缺失问题;优点:(1)效果好;速度快;缺点:(1)gpl;
思路:(1)pdf->md(zip):实现项目: AylerH/opendataloader-pdf-fastapi-project;(2)md(zip)->docx(py实现):参考md2docx;特点:(1)布局识别基于rapidocr的pp-doclayout-v3(onnx);优点:(1)效果好:分栏docx和pdf一模一样;(2)速度快:约1-3秒每页;
介绍:(1)免配置图床:免配置上传图片到云端(2)sqlite数据库存储上传记录;功能:(1)image2url;(2)md2md-替换图片为url;缺点:(1)图片保存在公共网站;优点:(1)图片不占用本地空间;
功能:(1)实现docx高质量转pdf(以html或md(zip)为中间格式): (2)docx2html:导出zip(html和图片) (3)docx2md:导出zip(md和图片); 技术:(1)chrome-谷歌无头式的pdf渲染;优点:(1)可预览docx;md;html;pdf;缺点:(1)docx和pdf无法一模一样;
基于other2pdf-project。基于 Gotenberg转换(go);gin作为web框架和服务器;panjf2000/ants异步任务管理器;