营销网站建设报价,医院门户网站模板,目前常用的搜索引擎有哪些,赣州热门网站一、需要系统的学习正则表达式1、元字符1..:除了\n以外的任意字符2.*:出现0到多次3.?:出现0或者1次4.:表示出现1到多次2、常用的方法1.compile:表示生成正则表达式参考地址2.findall:查找全部注意返回的是一个列表参考地址import reimport requestsclass GuShiWen(object):def…一、需要系统的学习正则表达式1、元字符1..:除了\n以外的任意字符2.*:出现0到多次3.?:出现0或者1次4.:表示出现1到多次2、常用的方法1.compile:表示生成正则表达式参考地址2.findall:查找全部注意返回的是一个列表参考地址import reimport requestsclass GuShiWen(object):def __init__(self):self.headers {User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36,}def get_html(self):抓取古诗文第一页内容:return:response requests.get(urlself.url, headersself.headers)if response.status_code 200:gusiwen_list []params re.compile(.*?(, re.S)article_list params.findall(response.text)for article in article_list:gusiwen_dict {}title re.compile(.*?(.*), re.S).findall(article)[0]content re.compile(.*?(.*?), re.S).findall(article)[0].strip().replace(, )gusiwen_dict[title] titlegusiwen_dict[content] contentgusiwen_list.append(gusiwen_dict)print(gusiwen_list)returnprint(请求错误)if __name__ __main__:gusiwen GuShiWen()gusiwen.get_html()1、基本上是使用findall方法2、主要是网页多行字符要使用re.S3、如果正则比较复杂的时候使用re.compile()对正则包装下