用正则提取网页信息时发现部分网页提取不到的情况,仔细分析原因原来是要提取的信息中包含了换行符,比如提取网页标题<title>(.*?)</title>可以提取到绝大部分网页标题,但是如果标题中包含了换行符就提取不到了,比如:<title>
我是标题,您提取不到我
</title>,这种情况下,就提取不到了,怎么办呢?其实只需要在正则的前面加上 (?s) 即可忽略换行符。
信息网址:http://www.khcha.com/ziyuan/view16766.htm