网站列表页内容,南京网站建设开发,中山网络公司网站建设,网站制作应该选什么MarkItDown的使用#xff08;将Word、Excel、PDF等转换为Markdown格式#xff09; 本文目录#xff1a;
零、时光宝盒#x1f33b;
一、简介
二、安装
三、使用方法
3.1、使用命令行形式
3.2、用 Python 调用
四、总结
五、参考资料 零、时光宝盒#x1f33b;
将Word、Excel、PDF等转换为Markdown格式 本文目录
零、时光宝盒
一、简介
二、安装
三、使用方法
3.1、使用命令行形式
3.2、用 Python 调用
四、总结
五、参考资料 零、时光宝盒
https://blog.csdn.net/weixin_69553582 逆境清醒 在心理学中有个实验——三山实验是1956年让·皮亚杰Jean Piaget设计的。 这三山实验的场景设置在一个小房间内房间中央摆放着三座高低不一的山模型实验对象是一群4到7岁的孩子。 “你从这里看这三座山是什么样的”孩子们会很自然地描述他们眼前看到的山。 无论孩子们是坐在房间的一侧还是坐在房间的另一侧孩子们都能准确描述他们眼前看到的山的景象。 然而当皮亚杰问到“如果你们的玩具伙伴小熊坐在你刚才的位置它看到的山会是什么样子”孩子们往往会说“小熊看到的也是我看到的这样的山。 大多数4到7岁的孩子无法理解小熊从另一个角度看到的山会与他们自己看到的不同。他们往往会说“小熊看到的也是这样的山。”即使皮亚杰继续引导孩子们仍然难以摆脱自己的视角去设想小熊的视角。这一现象被称为“自我中心性”。 然而当实验对象变为8岁及以上的孩子时情况发生了变化。这些孩子能够准确地描述出小熊从另一个角度看山的情景甚至还能画出不同视角的山的示意图。这表明他们已经具备了一定的“去中心化”能力能够站在他人的角度思考问题。 在现实生活中我们常常会遇到类似的情境。比如当你与朋友发生争执时你是否能够设身处地地站在对方的角度思考问题当你批评孩子的行为时你是否意识到他们的认知局限这些问题看似简单但要想真正做到却需要我们不断努力和反思。 它告诉我们每个人都有自己的视角而理解和尊重他人的视角是我们社交和沟通的基础。当我们开始尝试从他人的角度思考问题我们不仅变得更加成熟也更加智慧。 逆境清醒
2024.12.25 一、简介 微软近期在GitHub平台上推出了一款名为MarkItDown的开源Python工具库为用户提供了将多种文件格式转换为Markdown格式的便捷途径。 MarkItDown不仅支持将Office文档如Word、Excel、PowerPoint等转换为Markdown还能处理PDF、图片、音频、HTML以及多种文本格式如csv、json和xml等。 通过该工具用户可以轻松地将各类文档转换为Markdown格式进而便于文本的索引、搜索和分析等操作。 MarkItDown 是一个用于将各种文件转换为 Markdown 的实用程序例如用于索引、文本分析等。 将各类文档自动转换为 Markdown 格式它支持
PDFPowerPointWordExcelImages (EXIF metadata and OCR)Audio (EXIF metadata and speech transcription)HTMLText-based formats (CSV, JSON, XML)ZIP files (iterates over contents) MarkItDown在MIT开源许可下发布这意味着开发人员可以自由地使用、修改和分发该工具库。唯一的限制是在分发时需要包含原始的许可证和版权声明以确保开源社区的权益得到保护。 二、安装
最佳环境要求Python语言3.12
要安装 MarkItDown可以通过 pip 安装工具使用命令
pip install markitdown
或者
您可以从源安装它
pip install -e . 三、使用方法
MarkItDown 提供了便捷的命令行工具支持多种输入方式
3.1、使用命令行形式
命令格式
markitdown path-to-file.pdf document.md
举例
将example.pdf 文件生成output.md
命令如下
markitdown example.pdf output.md 还可以通过管道传输内容
cat path-to-file.pdf | markitdown
cat path-to-file.pdf | markitdown 3.2、用 Python 调用
3.2.1 、Python 中的基本用法
用 Python 调用并转换文件内容的命令格式如下
from markitdown import MarkItDownmd MarkItDown()
result md.convert(test.xlsx)
print(result.text_content)
3.2.2、测试不同格式文件转换Markdown的效果
1 、Excel表格转换成Markdown 格式
Excel文件 TIOBE202412.xlsx内容如下 执行代码
# Excel表格转换成Markdown 格式from markitdown import MarkItDown
md MarkItDown()
result md.convert(TIOBE202412.xlsx)
print(result.text_content)
输出结果
## TIOBE 12月编程语言流行度排名
| 2024-12-01 00:00:00 | 2023-12-01 00:00:00 | Unnamed: 2 | Ratings | Change |
| --- | --- | --- | --- | --- |
| 1 | 1 | Python | 0.2384 | 0.0998 |
| 2 | 3 | C | 0.1082 | 0.0081 |
| 3 | 4 | Java | 0.0972 | 0.0173 |
| 4 | 2 | C | 0.0910 | -0.0234 |
| 5 | 5 | C# | 0.0487 | -0.0243 |
| 6 | 6 | JavaScript | 0.0461 | 0.0172 |
| 7 | 13 | Go | 0.0217 | 0.0114 |
| 8 | 9 | SQL | 0.0199 | 0.0037 |
| 9 | 8 | Visual Basic | 0.0196 | 0.0014 |
| 10 | 12 | Fortran | 0.0179 | 0.0072 |
| 11 | 16 | Delphi/Object Pascal | 0.0144 | 0.0052 |
| 12 | 7 | PHP | 0.0139 | -0.0062 |
| 13 | 11 | Scratch | 0.0133 | 0.0026 |
| 14 | 18 | Rust | 0.0129 | 0.0048 |
| 15 | 14 | MATLAB | 0.0109 | 0.0016 |
| 16 | 20 | R | 0.0105 | 0.0033 |
| 17 | 10 | Assembly language | 0.0104 | -0.0007 |
| 18 | 19 | Ruby | 0.0103 | 0.0026 |
| 19 | 23 | COBOL | 0.0098 | 0.0030 |
| 20 | 17 | Swift | 0.0098 | 0.0016 | 代码渲染效果如下 测试结果
markitdown V0.0.1a3版本
简单表格可以正常转换但数字由%转换成了小数格式。 2 、Word文档转换成Markdown 格式
Word文件 test.docx内容如下 在命令行执行
markitdown test.docx document.md
生成的document.md内容如下 ## 第一章、概述MarkItDown is a utility for converting various files to Markdown (e.g., for indexing, text analysis, etc). It supports:* PDF
* PowerPoint
* Word
* Excel
* Images (EXIF metadata and OCR)
* Audio (EXIF metadata and speech transcription)
* HTML
* Text-based formats (CSV, JSON, XML)
* ZIP files (iterates over contents)## 第二章、统计| **(过去 12 个月** | **最大值** | **平均值** | **最小值** |
| --- | --- | --- | --- |
| 高温 (°C) | 38 | 28 | 9 |
| 低温 (°C) | 29 | 22 | 7 |
| 降水 (毫米) | 160.55 | 8.86 | 0 |
| 风速 (公里/小时) | 19 | 8.89 | 3 |## 第三章、特色### 1. 预览本地文档您可以上传并在线查看您计算机的文档。### 2. 预览网络文档您可以对网络文档进行预览。### 3. 阅读进度条doc, docx, ppt, pptx和txt文档大于约3页时预览页面底部会出现阅读进度条。### 4. 安全等级每个文档都可以设置两种访问方式公开任何人可以访问并预览适用于公开文档私有只能通过会话ID预览会话过期后就需要重新获取预览会话ID该预览方式适用于私有文档## 第四章、系统架构### 1. 单机版架构I Doc View在线文档预览服务Tomcat/JettyNginx/Apache数据库I Doc View文档转换器网页浏览器手机、平板或电脑原始文档转换文档I Doc View在线文档预览服务所需软件分为两类1. 私有软件包括“在线文档预览服务WEB应用”和“在线文档预览转换器”这两种软件的获取与授权详情请联系I Doc View客服2. 公有软件公有软件为I Doc View在线文档预览服务正常运行所需的其他软件大部分开源免费根据自己实际情况从其官网获取也可从I Doc View提供的统一下载地址来获取。配置示例upstream docview\_backend\_cluster {hash $arg\_md5 consistent;server docview1;server docview2;server {server\_name https://blog.csdn.net/weixin\_69553582;location / {proxy\_pass http://docview\_backend\_cluster;}}
或者通过代码执行
from markitdown import MarkItDownmd MarkItDown()
result md.convert(test.docx)
print(result.text_content)
结果经过渲染后得到的markdown页面效果 总结
markitdown V0.0.1a3版本
word文档里的简单表格和文字能够转换成markdown格式但word里的绘图无法转换 3、PDF文档转换成Markdown 格式
将PDF文件转换成.md格式的文件的命令格式
markitdown pdf文件 你的文件名.md
markitdown path-to-file.pdf document.md
或者使用-o指定输出文件
markitdown path-to-file.pdf -o document.md
PDF文件 “圣诞节.pdf ”内容如下 我通过命令行将“圣诞节.pdf ”文件转换成“output.md”格式的文件
执行命令如下
markitdown 圣诞节.pdf output.md
转换后的“output.md”文件内容如下 测试结果
markitdown V0.0.1a3版本
“圣诞节.pdf ”文件能转换成“output.md”格式的文件但pdf里面的图片不能转换到md文档里面 只能提取文本但整个结构丢失了它只转换为文本而不是 Markdown并且标题和表格无法转换。 3.2.3、使用大型语言模型
要使用大型语言模型进行图像描述请提供llm_client和llm_model
from markitdown import MarkItDown
from openai import OpenAIclient OpenAI()
md MarkItDown(llm_clientclient, llm_modelgpt-4o)
result md.convert(example.jpg)
print(result.text_content) 四、总结
MarkItDown 是一个用于将各种文件转换为 Markdown 的实用程序例如用于索引、文本分析等。 通过一行或几行代码将各类文档自动转换为 Markdown 格式这个功能很方便。但可能是因为刚开始markitdown V0.0.1a3版本在转换过程中仍有些问题仍有优化的空间。
通过MarkItDown将word、execel、PDF等文件转换为Markdown 格式我们在此基础上再修改可以节省不少时间。 五、参考资料
GitHub - microsoft/markitdown: Python tool for converting files and office documents to Markdown. 推荐阅读 给照片换底色pythonopencv猫十二分类基于大模型的虚拟数字人__虚拟主播实例 计算机视觉__基本图像操作显示、读取、保存直方图颜色直方图、灰度直方图直方图均衡化调节图像亮度、对比度 语音识别实战python代码(一 人工智能基础篇 计算机视觉基础__图像特征 逆境清醒 matplotlib 自带绘图样式效果展示速查28种全 Three.js实例详解___旋转的精灵女孩(附完整代码和资源)一 立体多层玫瑰绘图源码__玫瑰花python 绘图源码集锦 Python 3D可视化一 让你的作品更出色——词云Word Cloud的制作方法基于pythonWordCloudstylecloud) python Format()函数的用法___实例详解一(全例多___各种格式化替换format对齐打印 用代码写出浪漫__合集python、matplotlib、Matlab、java绘制爱心、玫瑰花、前端特效玫瑰、爱心 python爱心源代码集锦18款 Python中Print()函数的用法___实例详解(全例多 Python函数方法实例详解全集(更新中...) 《 Python List 列表全实例详解系列一》__系列总目录、列表概念 用代码过中秋python海龟月饼你要不要尝一口 python练习题目录 草莓熊python turtle绘图风车版附源代码 草莓熊python turtle绘图代码玫瑰花版附源代码 草莓熊python绘图春节版圣诞倒数雪花版附源代码 巴斯光年python turtle绘图__附源代码 皮卡丘python turtle海龟绘图电力球版附源代码 Node.js (v19.1.0npm 8.19.3) vue.js安装配置教程超详细 色彩颜色对照表一(16进制、RGB、CMYK、HSV、中英文名) 2024年12月多家权威机构____编程语言排行榜__薪酬状况 手机屏幕坏了____怎么把里面的资料导出18种方法 【CSDN云IDE】个人使用体验和建议含超详细操作教程python、webGL方向) 查看jdk安装路径在windows上实现多个java jdk的共存解决办法安装java19后终端乱码的解决 vue3 项目搭建教程基于create-vueviteVite Vue 2023年春节祝福第二弹——送你一只守护兔让它温暖每一个你【html5 css3】画会动的小兔子炫酷充电字体特 别具一格原创唯美浪漫情人节表白专辑(复制就可用)html5,css3,svg)表白爱心代码(4套) SVG实例详解系列一(svg概述、位图和矢量图区别图解、SVG应用实例 【程序人生】卡塔尔世界杯元素python海龟绘图附源代码世界杯主题前端特效5个附源码HTMLCSSsvg绘制精美彩色闪灯圣诞树HTMLCSSJs实时新年时间倒数倒计时(附源代码) 2023春节祝福系列第一弹上放飞祈福孔明灯祝福大家身体健康附完整源代码及资源免费下载 tomcat11、tomcat10 安装配置Windows环境详细图文 Tomcat端口配置详细 Tomcat 启动闪退问题解决集八大类详细
逆境清醒