怎么建视频网站免费的,企业网站最重要的访问对象是,wordpress淘宝客伪商城主题,如何做网站卖家具为了学习英语#xff0c;我把从网上下载下来的电影转换成纯MP3文件#xff0c;放到iTouch里去了#xff0c;这样就可以直接练习听力了#xff0c;另外把下载下来的字幕也放进去#xff0c;听不懂的时候可以看#xff0c;但有一个问题#xff0c;网上载下来的字幕格式都如…为了学习英语我把从网上下载下来的电影转换成纯MP3文件放到iTouch里去了这样就可以直接练习听力了另外把下载下来的字幕也放进去听不懂的时候可以看但有一个问题网上载下来的字幕格式都如下所示
7
00:01:44,789 -- 00:01:51,019
片名当幸福来敲门 / 追求幸福
8
00:02:49,469 -- 00:02:52,839
马上来了
Should be here soon.
9
00:03:38,819 -- 00:03:41,189
- 我想我该列个表 - 干嘛
-I think I should make a list. -What do mean?
10
00:03:41,189 -- 00:03:43,789
- 想要的生日礼物 - 对呀
-For your birthday gifts? -Yeah.
如上但存在两个问题1、每一句前面都带有数字编号2、带有时间戳
我只想要里面的中英文文本数字编号和时间戳都不需要。由于最近正在学习Python当然首先就想到了做个Python脚本来把时间戳和编号删掉。实现很简单基本思路就是使用正则表达式匹配把空行、纯数字行及带有“--”的行删掉然后再先回文本文件。
完成后的代码如下
# -*- coding: utf-8 -*-
# codecp936
import string, re
title_txt open(I://pursuit_for_happiness(ch).txt, r)
try:
full_txt title_txt.readlines()
regex1 /A/d*[/n]/Z
regex2 /d -- /d
#print full_txt
new_txt []
for line in full_txt:
#print line
if re.match(regex1, line) or re.search(regex2, line):
#print match, line
continue
else:
new_txt.append(line)
title_txt.seek(0)
title_txt.truncate(0)
#for line in full_txt:
# title_txt.writelines(line)
title_txt.writelines(new_txt)
finally:
title_txt.close()
print Over
过程中遇到一个问题
1、Python中没办法清空一个文件乱看了一通发现使用truncate()方法传入参数为0时可以搞定。
2、开始的时候直接使用for遍历list中的元素匹配到就删除发现需要执行多次脚本才能删完且有些还始终删不掉最后终于搞明白了使用for i in list:时如果一匹配到就删除则此时list中的元素会改变进入循环的下一轮时不出问题才怪。造孽花了近一个小时才把这个问题搞定了。于是重新定义了一个空链表new_txt使用它来存储我要的字幕循环完成后把new_txt写回文件。大功告成
爽拷到我的iTouch里开始学习英语了