Press "Enter" to skip to content

Posts published in “日期:2013年12月21日”

更有效的全网页深度抓取(样式+图片)

通常情况下的网页采集一般是指我们想要抓取整个站的页面内容,从首页开始,然后分析整个页面里的a链接,然后把链接指向的页面再取出来,然后再往下一层去采集。这种情况下,只需要分析a元素或者链接的正则就可以了。但是还有一种情况,…