陕西省建设监理协会查询官方网站,阿里logo设计网站,沈阳晚报,网站没备案会怎么样作品展示 背景需求
前文对一套带有段落文字和表格的word进行13份拆分
【办公类-21-04】20240227单个word按“段落数”拆分多个Word#xff08;三级育婴师操作参考题目1拆13份#xff09;-CSDN博客文章浏览阅读293次#xff0c;点赞8次#xff0c;收藏3次。【办公类-21-04…作品展示 背景需求
前文对一套带有段落文字和表格的word进行13份拆分
【办公类-21-04】20240227单个word按“段落数”拆分多个Word三级育婴师操作参考题目1拆13份-CSDN博客文章浏览阅读293次点赞8次收藏3次。【办公类-21-04】20240227单个word按“段落数”拆分多个Word三级育婴师操作参考题目1拆13份https://blog.csdn.net/reasonsummer/article/details/136331041现在我随便找一份docx文件全部都是段落文字没有表格
试试没表格干扰是否直接读取段落就可以将加粗部分的文字另存多份 素材准备 有几个加粗标题不能是一级标题这种一定清除格式加粗 错误的
# https://blog.csdn.net/lau_jw/article/details/114383781成果汇编word题目拆分成多个表格根据标题(加粗所在行数拆分-没有表格只有段落文字
作者阿夏
时间2024年2月27日
from docx import Document
from openpyxl import load_workbook
import glob
import re,osprint(----1、word数据清洗------)
a成果汇编path rC:\Users\jg2yXRZ\OneDrive\桌面\三级操作题
filepath r\{}.docx.format(a) # 必须是docx
print(file)
# C:\Users\jg2yXRZ\OneDrive\桌面\三级操作题\电子屏安全管理制度样本2.docx# 提取四个加粗标题所在的行数 # 参考https://www.shouxicto.com/article/96876.html
doc Document(file)# 遍历每个段落并判断是否为空白行,如果有空白行就删除
for paragraph in doc.paragraphs:if not paragraph.text.strip():# 如果是空白行则将其从文档中移除p paragraph._elementp.getparent().remove(p) doc.save(path r\{}去掉回车.docx.format(a))print(----2、读取word里面标题加粗段落的行数------)filenamepath r\{}去掉回车.docx.format(a)# 打开Word文档
doc Document(filename)dlen(doc.paragraphs)
print(d)
# docx没有去掉空行前一共有258段文字
# docx去掉空行后一共有244段文字h[]
s[]
# 遍历文档中的段落
for i, paragraph in enumerate(doc.paragraphs):if paragraph.runs:# 检查段落中的所有运行对象for run in paragraph.runs:if run.bold:# 如果运行对象的文字为加粗则打印段落索引# print(段落, i, 的文字被加粗了)h.append(i)# 提取每一份的加粗标题tdoc.paragraphs[i].text # print(t)s.append(t)
slist(set(s))
s.sort()
# print(s)
# [3.1.1 运用发育诊断法对2岁婴儿的以不同步子行走能力进行测试, 3.1.2 为2岁婴儿编制规范、适宜的个别化游戏活动计划5分钟, 3.1.3 设计生活中婴儿动手自理的活动5分钟, 3.1.4 六个月以内
# 的婴儿的精细动作的日常练习活动设计5分钟, 3.1.5 列举两种感统练习器械并简述其活动功能5分钟, 3.2.1 请阐述对婴儿语言发展水平的观察与记录方法5分钟, 3.2.2 如何制定婴幼儿个别化
# 语言培养计划5分钟, 3.2.3 设计一份记录表格观察一个6个月左右的宝宝寻找不同声源的感知练习过程5分钟, 3.2.4 设计一个观察表观察并调整婴儿在视动协调方面的练习5分钟, 3.2.5 设
# 计一个观察表记录孩子可能发生的行为5分钟, 3.3.1 如何对待任性的孩子5分钟, 3.3.2 如何对待爱哭的孩子5
# print(len(s))
# 13hlist(set(h))
h.sort()
jh[1:]
j.append(d)print(h)
print(len(h))
print(j)
print(len(j))
# # 去掉空行前
# # [1, 25, 48, 64, 77, 95, 117, 136, 158, 179, 200, 218, 238]
# # 13
# # [25, 48, 64, 77, 95, 117, 136, 158, 179, 200, 218, 238, 258]
# # 13
# # 去掉空行后
# # [1, 23, 45, 60, 72, 89, 110, 127, 148, 168, 188, 205, 224]
# # 13
# # [23, 45, 60, 72, 89, 110, 127, 148, 168, 188, 205, 224, 244]print(----3、读取word里面标题加粗段落的行数表格占的段落数------)
# 拆分docx读取加粗的行这些行还要加上表格的行数
# 13张表格里面分别有几个表格# bg[2,1,0,1,1,1,1,1,1,1,0,0,0]# # 第一张表是原来的段落数所以就是0
# bg.insert(0,0)
# # print(bg)# # 数字累加
# o []
# sum 0
# for num in bg:
# sum num
# o.append(sum)
# print(o)
# # [0, 2, 3, 3, 4, 5, 6, 7, 8, 9, 10, 10, 10, 10]
# # # # 没有空行的内容print(----3、读取word里面标题加粗段落的行数表格占的段落数------)
# 拆分docx读取加粗的行这些行还要加上表格的行数
# 13张表格里面分别有几个表格imagePath1pathr\{}拆分.format(a)
if not os.path.exists(imagePath1): # 判断存放图片的文件夹是否存在os.makedirs(imagePath1) # 若图片文件夹不存在就创建# for x in range(len(s)):# 获取第一页的段落和表格
# aint(j[x]o[x])
for x in range(len(s)):doc Document(filename)first_page_paragraphs []first_page_tables []for element in doc.element.body:if element.tag.endswith((}p, }tbl)):if element.getparent().index(element) int(j[x]) :# if element.getparent().index(element) int(j[x]o[x]) :if element.tag.endswith(p):first_page_paragraphs.append(element)else:first_page_tables.append(element)if element.getparent().index(element)int(h[x]):# if element.getparent().index(element)int(h[x]o[x]):if element.tag.endswith(p):first_page_paragraphs.append(element)else:first_page_tables.append(element)# print(int(j[x]o[x]))# print(int(h[x]o[x]))# 删除第一页的段落和表格for paragraph in first_page_paragraphs:p paragraph.getparent()p.remove(paragraph)for table in first_page_tables:t table.getparent()t.remove(table)# # 保存修改后的文档为新文件# doc.save(pathr01.docx)doc.save(imagePath1r\{} {}.docx.format(%02d%x,s[x])) 结果显示及调整 1、结果显示题目与数字顺序不符合 1、解决思路 2、内容多一行 2、解决思路 正确代码全部
# https://blog.csdn.net/lau_jw/article/details/114383781成果汇编word题目拆分成多个表格根据标题(加粗所在行数拆分-没有表格只有段落文字
作者阿夏
时间2024年2月27日
from docx import Document
from openpyxl import load_workbook
import glob
import re,osprint(----1、word数据清洗------)
a成果汇编path rC:\Users\jg2yXRZ\OneDrive\桌面\三级操作题
filepath r\{}.docx.format(a) # 必须是docx
print(file)
# C:\Users\jg2yXRZ\OneDrive\桌面\三级操作题\电子屏安全管理制度样本2.docx# 提取四个加粗标题所在的行数 # 参考https://www.shouxicto.com/article/96876.html
doc Document(file)# 遍历每个段落并判断是否为空白行,如果有空白行就删除
for paragraph in doc.paragraphs:if not paragraph.text.strip():# 如果是空白行则将其从文档中移除p paragraph._elementp.getparent().remove(p) doc.save(path r\{}去掉回车.docx.format(a))print(----2、读取word里面标题加粗段落的行数------)filenamepath r\{}去掉回车.docx.format(a)# 打开Word文档
doc Document(filename)dlen(doc.paragraphs)
print(d)
# docx没有去掉空行前一共有258段文字
# docx去掉空行后一共有244段文字h[]
s[]
n1
# 遍历文档中的段落
for i, paragraph in enumerate(doc.paragraphs):if paragraph.runs:# 检查段落中的所有运行对象for run in paragraph.runs:if run.bold:# 如果运行对象的文字为加粗则打印段落索引# print(段落, i, 的文字被加粗了)h.append(i)# 提取每一份的加粗标题tdoc.paragraphs[i].text print(t)bstr(%02d%n)ts.append(b)# 没有按照顺序排列# [一、案例汇编对象, 三、案例提炼流程, 二、案例提炼要求, 四、相关事宜, 活动背景]# 所以加了一个数字序号# [01活动背景, 02一、案例汇编对象, 03二、案例提炼要求, 04三、案例提炼流程, 05四、相关事宜]n1
slist(set(s))
s.sort()
print(s)
# [3.1.1 运用发育诊断法对2岁婴儿的以不同步子行走能力进行测试, 3.1.2 为2岁婴儿编制规范、适宜的个别化游戏活动计划5分钟, 3.1.3 设计生活中婴儿动手自理的活动5分钟, 3.1.4 六个月以内
# 的婴儿的精细动作的日常练习活动设计5分钟, 3.1.5 列举两种感统练习器械并简述其活动功能5分钟, 3.2.1 请阐述对婴儿语言发展水平的观察与记录方法5分钟, 3.2.2 如何制定婴幼儿个别化
# 语言培养计划5分钟, 3.2.3 设计一份记录表格观察一个6个月左右的宝宝寻找不同声源的感知练习过程5分钟, 3.2.4 设计一个观察表观察并调整婴儿在视动协调方面的练习5分钟, 3.2.5 设
# 计一个观察表记录孩子可能发生的行为5分钟, 3.3.1 如何对待任性的孩子5分钟, 3.3.2 如何对待爱哭的孩子5
# print(len(s))
# 13hlist(set(h))
h.sort()
jh[1:]
j.append(d)print(h)
print(len(h))
print(j)
print(len(j))
# # 去掉空行前
# # [1, 25, 48, 64, 77, 95, 117, 136, 158, 179, 200, 218, 238]
# # 13
# # [25, 48, 64, 77, 95, 117, 136, 158, 179, 200, 218, 238, 258]
# # 13
# # 去掉空行后
# # [1, 23, 45, 60, 72, 89, 110, 127, 148, 168, 188, 205, 224]
# # 13
# # [23, 45, 60, 72, 89, 110, 127, 148, 168, 188, 205, 224, 244]print(----3、读取word里面标题加粗段落的行数表格占的段落数------)
# 拆分docx读取加粗的行这些行还要加上表格的行数
# 13张表格里面分别有几个表格# bg[2,1,0,1,1,1,1,1,1,1,0,0,0]# # 第一张表是原来的段落数所以就是0
# bg.insert(0,0)
# # print(bg)# # 数字累加
# o []
# sum 0
# for num in bg:
# sum num
# o.append(sum)
# print(o)
# # [0, 2, 3, 3, 4, 5, 6, 7, 8, 9, 10, 10, 10, 10]
# # # # 没有空行的内容print(----3、读取word里面标题加粗段落的行数表格占的段落数------)
# 拆分docx读取加粗的行这些行还要加上表格的行数
# 13张表格里面分别有几个表格imagePath1pathr\{}拆分.format(a)
if not os.path.exists(imagePath1): # 判断存放图片的文件夹是否存在os.makedirs(imagePath1) # 若图片文件夹不存在就创建# for x in range(len(s)):# 获取第一页的段落和表格
# aint(j[x]o[x])
for x in range(len(s)):doc Document(filename)first_page_paragraphs []first_page_tables []for element in doc.element.body:if element.tag.endswith((}p, }tbl)):if element.getparent().index(element) int(j[x]) :# if element.getparent().index(element) int(j[x]o[x]) :if element.tag.endswith(p):first_page_paragraphs.append(element)else:first_page_tables.append(element)if element.getparent().index(element)int(h[x]):# if element.getparent().index(element)int(h[x]o[x]):if element.tag.endswith(p):first_page_paragraphs.append(element)else:first_page_tables.append(element)# print(int(j[x]o[x]))# print(int(h[x]o[x]))# 删除第一页的段落和表格for paragraph in first_page_paragraphs:p paragraph.getparent()p.remove(paragraph)for table in first_page_tables:t table.getparent()t.remove(table)# # 保存修改后的文档为新文件# doc.save(pathr01.docx)doc.save(imagePath1r\{}.docx.format(s[x]))