这是我在知乎专栏发表的那篇知乎用户排行榜生成器0.2版的源码,为增强专栏的可读性所以在那边只放了压缩版的。这里是完整版,有兴趣者可以自行调试修改。
这段脚本需要登录知乎网站后在浏览器控制台运行,更详细的用法请点上面链接查看。
//用逗号分隔用户名 var userarray = "guxizhao,zou-dao-kou,xiaodaoren,cai-tong,xu-xiang-nan,unogzx,shenbin,PeterDeng,namiheike,wu-si-yang-32,yskin,jixin"; //回答数限制 var answerlimit = 10; //赞同数限制 var agreelimit = 1000; //赞同回答比数限制 var ratiolimit = 10; //关注者数限制 var followerlimit = 10; var users = userarray.split(','); var usercursor = 0; var result = new Array(); var showtable = true; var cardcount = 0; function showmsg(msg) { $("#msg").html(msg); } function showresult() { $("#switchshowtable").show(0); $("#sorttype").show(0); var rsdiv = $("#result"); if (showtable) { var tablehtm = "<table border='1' cellpadding='2' style='border-collapse: collapse;'><tr><td>编号</td><td>用户名</td><td>关注者</td><td>提问</td><td>回答</td><td>赞同</td><td>赞同/回答比</td></tr>"; for (i in result) { tablehtm += "<tr><td>" + (parseInt(i) + 1) + "</td><td><a href='/people/" + result[i].id + "/' target='_blank'>" + result[i].name + "</a></td><td>" + result[i].follower + "</td><td>" + result[i].ask + "</td><td>" + result[i].answer + "</td><td>" + result[i].agree + "</td><td>" + result[i].ratio + "</td></tr>"; } tablehtm += "</table>"; rsdiv.html(tablehtm); } else { rsdiv.html("编号,用户名,关注者,提问,回答,赞同,赞同/回答比"); for (i in result) { rsdiv.append("<br/>" + (parseInt(i) + 1) + ",<a href='/people/" + result[i].id + "/' target='_blank'>" + result[i].name + "</a>," + result[i].follower + "," + result[i].ask + "," + result[i].answer + "," + result[i].agree + "," + result[i].ratio); } } } function loadmore() { var content = $("#tempframe").contents(); var name = content.find(".title-section.ellipsis a").html(); if (content.find('.zu-button-more[aria-role]').length < 1) { showmsg(name + "的" + cardcount + "个关注者加载完成"); showratio(); } else { content.find('.zu-button-more[aria-role]').get(0).click(); var total = content.find(".zm-profile-side-following strong").html(); cardcount = content.find('.zh-general-list .zm-profile-card .zm-list-content-medium').length; showmsg("正在加载" + name + "的关注者:" + cardcount + "/" + total + "... <img style='vertical-align: text-bottom;' src='http://static.zhihu.com/static/img/spinner/grey-loading.gif'/>"); setTimeout(loadmore, 2000); } } function showratio() { var cards = $("#tempframe").contents().find('.zh-general-list .zm-profile-card .zm-list-content-medium'); cards.each(function () { var name = $(this).find('a.zg-link').html(); var id = $(this).find('a.zg-link').attr("href").replace("http://www.zhihu.com/people/", ""); var detail = $(this).find('.details'); var follower = Number(detail.eq(0).children().eq(0).html().split(' ')[0]); var ask = Number(detail.eq(0).children().eq(1).html().split(' ')[0]); var answer = Number(detail.eq(0).children().eq(2).html().split(' ')[0]); var agree = Number(detail.eq(0).children().eq(3).html().split(' ')[0]); if (answer >= answerlimit && agree >= agreelimit && agree / answer >= ratiolimit && follower > followerlimit) { var r = new Object(); r.name = name; r.id = id; r.follower = follower; r.ask = ask; r.agree = agree; r.answer = answer; r.ratio = (agree / answer).toFixed(2); addresult(r); } }); sortresult(); showresult(); usercursor++; loaduser(); } function loaduser() { if (usercursor < users.length) { showmsg("共" + users.length + "个用户,准备扫描第" + (usercursor + 1) + "个... <img style='vertical-align: text-bottom;' src='http://static.zhihu.com/static/img/spinner/grey-loading.gif'/>"); $("#tempframe").attr("src", "/people/" + users[usercursor] + "/followees"); } else { showmsg("所有" + users.length + "名用户的关注者已经全部扫描完成,共找到" + result.length + "个符合条件的用户"); } } function addresult(r) { var exist = false; for (i in result) { if (r.id == result[i].id) { exist = true; break; } } if (!exist) result.push(r); } function sortresult() { if (result.length > 0) { var type = $("#sorttype").val(); switch (type) { case "ratio": result = result.sort(function (a, b) { return b.ratio - a.ratio; }); break; case "agree": result = result.sort(function (a, b) { return b.agree - a.agree; }); break; case "answer": result = result.sort(function (a, b) { return b.answer - a.answer; }); break; case "ask": result = result.sort(function (a, b) { return b.ask - a.ask; }); break; case "follower": result = result.sort(function (a, b) { return b.follower - a.follower; }); break; default: break; } } } $("body").prepend('<div id="mask" style="width:100%;height:100%;top:0px;left:0px;position:fixed;z-index: 998;background-color: rgba(0, 0, 0, 0.4);text-align:center;"><div id="container" style="width:600px;height:400px;margin:80px auto 0px auto;position: relative;z-index: 999; padding: 5px;"><iframe id="tempframe" style="width:1px;height:1px;top:-999px;left:-999px;position:absolute;"></iframe><div id="msg" style="height: 30px;background-color: #C4D299;line-height: 30px;text-align: left;padding-left: 5px;"></div><div id="result" style="height: 350px;background-color: #F0F0F0;text-align: left;padding: 5px;margin-top: 5px;overflow-y: auto;"></div><input id="switchshowtable" style="display:none;position: absolute;width: 100px;top: 10px;right: 25px;" type="button" value="改为逗号分隔"/><select id="sorttype" name="sorttype" style="display:none;position: absolute;width: 100px;top: 45px;right: 25px;"><option value="ratio" selected>赞同/回答比</option><option value="agree">赞同</option><option value="answer">回答</option><option value="ask">提问</option><option value="follower">关注</option></select></div></div>'); $("#switchshowtable").click(function () { showtable = !showtable; $(this).val(showtable ? "改为逗号分隔" : "改为表格显示"); showresult(); }); $("#sorttype").change(function () { sortresult(); showresult(); }); $("#tempframe").load(function () { loadmore(); }); loaduser();
请问楼主这个抓取的结果如何保存为文本文件呢? 我试过用Scrapy抓取,不过还没解决cookie和”更多”的问题 > <
这个是网页js脚本,当然不存在cookie的问题了,而“更多”是找到按钮的dom对象然后直接click实现的,也没有保存为文本,而是写到页面div里。
我不懂Python,你先解决cookie,然后抓包看“更多”访问的是哪个url、带哪些参数就行了。
嗯、谢谢提供思路。我们已在你的代码基础上做了一点改动,可以抓到不少信息了。不过为了性能以及灵活性,还是得把Python的问题解决才行。
楼主您好,我最近在学习js,您的loadmore函数中。title-section.ellipsis .zu-button-more[aria-role] 我没有在知乎网页源代码中找到,请问这是如何获得的呢?谢谢。
这段脚本是两个月前写的,最近知乎的网页有改版,一些元素的位置和名称变了。
title-section.ellipsis是为了找用户名,.zu-button-more是为了找“更多”按钮。你可以自己来找一下。
谢谢楼主,我明白了。