基于人人网的网络爬虫

2025-12-03 17:07:54

推荐回答（2个）

回答1：

这个需要的代码和类比较多，在这里写不下。。
你可以参照最近才出的《自己动手写网络爬虫》一书，不过要注意的是，里面的代码一定要下载httpClient包和Apach公司的httpParser包后才可以运行。我调过里面的代码，确实可以运行，并且你可以设置爬虫的起始网页，以及抓取的内容。
你也可以下载开源的软件项目heritrix，这个东西也是Java写的，并且功能特别强大，唯一美中不足的地方在它是在Unix上写的程序，在windows上也可以运行，但是配置有些麻烦。不过按照网上的步骤是肯定可以配出来的。我也试过。
不过能不能爬别人隐私文件就不晓得了。因为爬虫在爬取任何网站时，都会对该网站所在的服务器的一个权限文件进行访问，假如服务器把一些文件设置了权限。一般的爬虫是很难进入的。
谢谢

回答2：

这个简单。
爬虫，其实就是自动操作IE嘛。
还有，就是操纵IE时，可能有访问数被限制的，就通过换IP或代理服务器实现就行