基于人人网的网络爬虫

2025-12-03 17:07:54
推荐回答(2个)
回答1:

这个需要的代码和类比较多,在这里写不下。。
你可以参照最近才出的《自己动手写网络爬虫》一书,不过要注意的是,里面的代码一定要下载httpClient包和Apach公司的httpParser包后才可以运行。我调过里面的代码,确实可以运行,并且你可以设置爬虫的起始网页,以及抓取的内容。
你也可以下载开源的软件项目heritrix,这个东西也是Java写的,并且功能特别强大,唯一美中不足的地方在它是在Unix上写的程序,在windows上也可以运行,但是配置有些麻烦。不过按照网上的步骤是肯定可以配出来的。我也试过。
不过能不能爬别人隐私文件就不晓得了。因为爬虫在爬取任何网站时,都会对该网站所在的服务器的一个权限文件进行访问,假如服务器把一些文件设置了权限。一般的爬虫是很难进入的。
谢谢

回答2:

这个简单。
爬虫 ,其实就是自动操作IE嘛。
还有,就是操纵IE时,可能有访问数被限制的,就通过换IP或代理服务器实现就行