首页 > 站长资讯中心 > 站长运营 > php爬虫：百万级别知乎用户数据爬取与分析

php爬虫：百万级别知乎用户数据爬取与分析

本文系维启网络老纪原创分享。老纪自07年一直从事互联网IDC行业，如果您对云服务器，云数据库，集群架构，安全防护，攻击防护，解决方案等遇到问题，可以随时和我们交流。维启网络又是阿里云授权代理商，新老用户购买阿里云都可以享受新开，升级，续费政策，还提供1对1技术服务。【点击免费咨询客服】
发布时间：2016-08-13

　　代码托管地址：https://github.com/hhqcontinue/zhihuSpider

　　文/Hector

　　这次抓取了110万的用户数据，数据分析结果如下：

　　开发前的准备

　　安装linux系统(Ubuntu14.04)，在VMWare虚拟机下安装一个Ubuntu;

　　安装PHP5.6或以上版本;

　　安装curl、pcntl扩展。

　　使用PHP的curl扩展抓取页面数据

　　PHP的curl扩展是PHP支持的允许你与各种服务器使用各种类型的协议进行连接和通信的库。

　　本程序是抓取知乎的用户数据，要能访问用户个人页面，需要用户登录后的才能访问。当我们在浏览器的页面中点击一个用户头像链接进入用户个人中心页面的时候，之所以能够看到用户的信息，是因为在点击链接的时候，浏览器帮你将本地的cookie带上一齐提交到新的页面，所以你就能进入到用户的个人中心页面。因此实现访问个人页面之前需要先获得用户的cookie信息，然后在每次curl请求的时候带上cookie信息。在获取cookie信息方面，我是用了自己的cookie，在页面中可以看到自己的cookie信息：

　　一个个地复制，以"__utma=?;__utmb=?;"这样的形式组成一个cookie字符串。接下来就可以使用该cookie字符串来发送请求。

　　初始的示例：

    $url = 'http://www.zhihu.com/people/mora-hu/about'; 
    //此处mora-hu代表用户ID    $ch = curl_init($url); 
    //初始化会话    curl_setopt($ch, CURLOPT_HEADER, 0);    
    curl_setopt($ch, CURLOPT_COOKIE, $this->config_arr['user_cookie']);  
    //设置请求COOKIE    curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);    
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
     //将curl_exec()获取的信息以文件流的形式返回，而不是直接输出。    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);     
     $result = curl_exec($ch);    
    return $result;  //抓取的结果

上一篇：上一篇：广告屏蔽越来越流行这到底是好事还是坏事下一篇：下一篇：有木丫：从赠礼攻略切入的导购网站

最新文章

他们易于接阿里云推荐码	每天都会生成阿里云主机
而难以咽下这口阿里云主	央视先后注册“央视阿里
长多未必阿里云不优秀	后续替代域阿里云代理名
我们需求什么样的域名呢	域名申请有章可循阿里云
域名申请投资阿里云推荐	由于年底是虚拟阿里云代
如最近倍受非议的万网域	CN域名29元市场价惊阿里云
不料热衷恶搞的网友没阿	例如顶级中文域名注册商
在域名信息安全日益恶化	被解读为保护阿里云推荐
N姓名域名阿里云主机仅需	CN域名申请量大增 CN域名绑
倘若COM域阿里云主机名飞	什么是域名解析？阿里云
5、注册手续阿里云主机简	CN域名22元尊享包量阿里云
可以自己多研究下阿里云	使用别人的阿里云服务器
也能感受到阿里云虚拟机	就等于让他们忘掉了如阿
CN域名的增长与市阿里云	29元域名申请创阿里云业
新域名网站如何做到被收	科技发展阿里云代理到现