采集的文章中有很多空格和空标签


先使用替换直接删掉,如果不行通过以下代码去掉,正则
<p.+?>\s*</p>
<p.+?>\s*<br>\s*</p>
<section.+?>\s*</section>
<section.+?>\s*<br>\s*</section>
<section.*?>\s*<br>\s*</section> 有效
声明:文中观点不代表本站立场。本文传送门:https://eyangzhen.com/1894.html