新浪大V的大致血小板数目偏高?? (最好精确到万,数据越新越好)

怎样用python爬新浪微博大V所有数据?
想在新浪微博上爬某个大V的所有微博数据,现在考虑的是用新浪的API来爬(),但是发现最多只能爬2000条,有什么方法能把所有的数据都爬下来吗?通过模拟登陆?
按投票排序
的回答是使用了api的方法,我说一下使用爬虫的思路。我以前爬取了各大社交网站的数据,如人人,新浪,腾讯。我当时需要爬取了所有大V的信息。我首先pass了api的方案,因为api的数量限制,不可能让我大规模的抓取数据。第一种是直接get json信息。我觉一个例子。我需要爬取 清华南都 的微博。()1. 首先获取他的id 可以看到,她的 id 是 60732. 分析微博的请求我们分析微博的请求可以发现,网站通过 发送内容的转义后的内容是{
"count": 37227,
"cards": [{
"mod_type": "mod\/pagelist",
"previous_cursor": "",
"next_cursor": "",
"card_group": [{
"card_type": 9,
"mblog": {
"created_at": "08-27 19:40",
"id": 2460,
"mid": "2460",
"idstr": "2460",
"text": "一切都是最好的安排",
"source_allowclick": 0,
"source_type": 1,
"source": "微博 ",
"favorited": false,
"pic_ids": ["89ad7439jw1evhaklwa9uj20c82feqf8"],
"thumbnail_pic": "http:\/\/\/thumbnail\/89ad7439jw1evhaklwa9uj20c82feqf8.jpg",
"bmiddle_pic": "http:\/\/\/bmiddle\/89ad7439jw1evhaklwa9uj20c82feqf8.jpg",
"original_pic": "http:\/\/\/large\/89ad7439jw1evhaklwa9uj20c82feqf8.jpg",
"user": {},
"reposts_count": 230,
"comments_count": 25,
"attitudes_count": 227,
"mlevel": 0,
"visible": {},
"biz_feature": 0,
"userType": 0,
"mblogtype": 0,
"created_timestamp": ,
"bid": "CxN8xnAEQ",
"pics": [{}],
"like_count": 227,
"attitudes_status": 0
后面还有好多好多好多好多好多好多好多好多好多好多好多好多的内容。。。我删掉了后面的部分
比如例子返回微博是 "created_at": "08-27 19:40",
"source": "微博 ",
"text": "一切都是最好的安排",
"original_pic": "/large/89ad7439jw1evhaklwa9uj20c82feqf8.jpg",
"bid": "CxN8xnAEQ",
返回的信息好多,自己找到有用的吧3. 构造自己的请求自己构造请求,把上面的 微博id 换成你想要的大V, 页数 做成循环,从1-200之类的。4.大体流程模拟微博登入,
获取 大V id
获取微博内容
这是一个很粗的流程。方法不知一种如 如 我还试过火车头软件的爬取。那时笨手笨脚的,开了10几台电脑,爬了个把星期。被封了几十个帐号。
谢邀。先上结论,通过公开的api如果想爬到某大v的所有数据,需要满足以下两个条件:1、在你的爬虫开始运行时,该大v的所有微博发布量没有超过回溯查询的上限,新浪是2000,twitter是3200。2、爬虫程序必须不间断运行。新浪微博的api基本完全照搬twitter,其中接口的参数特性与底层的NoSQL密不可分,建议先看点Nosql数据库的设计理念有助于更好的理解api设计。一般来说,如果决定爬某个大v,第一步先试获取该用户的基本信息,中间会包含一条最新的status,记下其中的id号作为基准,命名为baseId。接口中最重要的两个参数:since_id:返回ID比since_id大的微博(即比since_id时间晚的微博),默认为0。max_id:返回ID小于或等于max_id的微博,默认为0。出于各种原因,获取statuses的接口,固定为按id降序排列(scan_index_forward=false),即最新的statuses返回在前。假设该微博第一天上线,就一个用户,发了一百条,id是1到100。而你在该用户发了第50条的时候开始运行的爬虫,即baseId=50。假设按每次获取10条历史数据递归,先将max_id设为baseId,获取该用户id为41-50的微博,再将max_id设为41重复循环,直到返回微博数量为1或0。这步没有问题。获取用户最新的statuses就有些蛋疼了,since_id=50,同样获取10条数据,返回的并不是id值为51-60的数据,而是100-91的数据。简单说就是你没法从since_id逐步更新到用户当前status,而是得一口气从用户当前status更新到上次爬虫运行时得到的最后一条status。假设你的爬虫一个月才运行一次,该用户在这期间发了2300条微博,根据限制你只能更新2000条,这其中最老的300条在你的系统内就会出现“断档”。最后一条,以上只针对公开的api,stackoverflow上twitter API可以申请权限突破数量限制和更改排序机制,微博也应该有类似机制。
我只想问一句现在爬别人微博的API还能用?貌似需要授权吧
如果只爬一个的话,效率上要求不高的话,推荐直接上selenium吧。直接调用firefox爬,在firefox里登录你自己的微博就可以了。
通过现有的开源包(比如:)可以爬到的内容,这个比较容易,但是爬的内容的话,这个微博反爬机制还是蛮机智的,已经封了我好几批账号了。
请问你是用的SDK爬的数据吗?求指教。我得到了Accesstaken,但是不知道后来怎么获得数据,申请的应用需要审核通过吗?
我研究过新浪微博的抓取,有需要的可以联系我
正巧,读研期间为了完成课题写了一个java版的新浪微博爬虫,现在告诉一些题主与具体语言无关的困难。1.登录,这是编写这个爬虫唯一也是最大的难点,当时(2013年10月份)新浪微博的登录会对用户名进行base64加密,对密码进行rsa2加密,而且登录流程比较繁杂会经过好几次请求转发,都是使用javascript来控制的,具体流程忘记了,但是我要说的是,我辛辛苦苦研究出来的模拟登录,很快就不能用了,我在爬数据的1个月内一直可以登录,在爬够我需要的数据后过了大概4个月,就死活登录不上去了,具体什么原因我没有研究过,貌似是新浪微博那边改版了,而且貌似新浪微博的登录改版比较频繁。2.访问频率控制,我的访问频率控制在每秒5次(也就是每秒只向新浪微博的服务器发送5次请求),即便这样,仍然会出现ip被封,请求不到任何数据的情况,即使用上代理IP。3.你在连续访问某个大V的微博数据,即使是人工使用鼠标点击去访问,如果在短时间内浏览过11页(貌似是这个数字,记不清了)后,每页应该是45条,就会限制你的访问。总之,新浪微博的反爬虫做的非常好,抓一点玩玩还可以,我那个爬虫最后也就抓了5000多万条,每一个大V的数据最多就抓了11*45条。
已有帐号?
无法登录?
社交帐号登录鱼塘集合——数千万精准数据库资源
第一类QQ数据库:按地域采集数据:
各地市QQ邮箱:解压缩后文件大小277M,
每个文本QQ号码个数都是在几万十几万以上,这些数据如果用来添加到企业QQ,群发后三个星期左右就可以填满十万企业QQ好友
各省QQ邮箱:解压缩后文件大小419M,
这些文档很大,打开会很慢,因为仅仅一个TXT文本里的数据都是几十万、上百万的数据,都是精确到省级范围的注册用户数据。
第二类QQ数据库:按行业,关键词分类QQ邮箱,QQ号码:
是按照行业关键词提取的数据,精准的潜在客户群体,解压缩后文件大小233M。
第三类QQ数据库:按关键词在QQ群提取QQ号码,QQ邮箱:
解压缩后文件大小,350M,都是加群后提取的活跃数据,不是从服务器数据库提取的过期数据。
第四类数据库:淘宝买家,卖家支付宝邮箱:
淘宝买家支付宝邮箱:解压缩后文件大小447M,2200万邮箱
淘宝卖家邮箱:解压缩后文件大小73M,原总数300万,去重复后168万6千个
第五类数据库:培训行业学员名录,姓名,地址,手机,邮箱&:&解压缩后文件大小875M
第六类精准数据库:网络营销最具人气空间访客提取QQ号码,邮箱:
189000个邮箱地址都可以用软件经过验证去除重复,剩下的都是精准的粉丝邮箱地址,
你想象一下,如果你手上掌握了以上六类精准用户的邮箱数据,你将如何高效应用这些数据呢?&出售产品?货源合作?项目招商?提供推广和营销服务?2013年里,你会多赚多少钱?
如果你将这几千万邮箱的千分之一用户吸引到你的数据库,然后,推荐你的商品或服务,你的生意会不会红火?……
上面六类精准数据库的下载地址,你可以用你的常用QQ邮箱点击订阅下面的邮件订阅列表:你就拥有了巨大精准的鱼塘,你知道你的客户就在这些名单当中,感觉自己立刻就想把他们全都吸引过来,你会看到订单向你飞来。
点击订阅:
登录确认后会自动回复下载地址,你可以有选择的下载到你的电脑。
如果订阅列表繁忙,打不开或者无法订阅的情况下,你可以加我QQ:,验证:数据库。我可以在线发给你。
先不要高兴,我还要告诉你一些事实,
这些数据库邮箱如果到了不会利用人手里,如同垃圾一样,
和网上那些随处买到的几亿邮址的垃圾数据库一样:
几亿个邮件地址是垃圾邮址,如同在大海里钓鱼
几千万个邮箱是在江河湖里钓鱼,同样希望渺茫
几百万个精准邮箱地址是关键词定向地址,是在鱼塘里钓鱼
你从几千万个邮箱当中找到属于你的行业,产品类别的精准关键词数据库,并不意味着你就能够从中获益获利,
还需要一些其他的东西,而这些是你能否成功的关键所在。
这些数据库将是你的收件箱地址,你还需要一些发件箱,至少需要300到600封发件箱,这些我都可以提供给你。另外你还需要一些软件,这些得力的软件会让你的效率飞起来。
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。怎样用python爬新浪微博大V所有数据_百度知道
怎样用python爬新浪微博大V所有数据
  先上结论,通过公开的api如果想爬到某大v的所有数据,需要满足以下两个条件:  1、在你的爬虫开始运行时,该大v的所有微博发布量没有超过回溯查询的上限,新浪是2000,twitter是3200。  2、爬虫程序必须不间断运行。  新浪微博的api基本完全照搬twitter,其中接口的参数特性与底层的NoSQL密不可分,建议先看点Nosql数据库的设计理念有助于更好的理解api设计。  一般来说,如果决定爬某个大v,第一步先试获取该用户的基本信息,中间会包含一条最新的status,记下其中的id号作为基准,命名为baseId。  接口中最重要的两个参数:  since_id:返回ID比since_id大的微博(即比since_id时间晚的微博),默认为0。  max_id:返回ID小于或等于max_id的微博,默认为0。  出于各种原因,获取statuses的接口,固定为按id降序排列(scan_index_forward=false),即最新的statuses返回在前。假设该微博第一天上线,就一个用户,发了一百条,id是1到100。而你在该用户发了第50条的时候开始供丁垛股艹噶讹拴番茎运行的爬虫,即baseId=50。
其他类似问题
为您推荐:
python的相关知识
其他1条回答
用python 写爬虫,然后一次次的找啊。比较费事
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁代理IP知识问答
怎样用python爬新浪微博大V所有数据?
提问时间: 20:34:47 &&&楼主:未知网友&&&阅读量:917
想在新浪微博上爬某个大V的所有微博数据,现在考虑的是用新浪的API来爬(/wiki/2/statuses/user_timeline),但是发现最多只能爬2000条,有什么方法能把所有的数据都爬下来吗?通过模拟登陆?
1楼(站大爷用户)正巧,读研期间为了完成课题写了一个java版的新浪微博爬虫,现在告诉一些题主与具体语言无关的困难。1.登录,这是编写这个爬虫唯一也是最大的难点,当时(2013年10月份)新浪微博的登录会对用户名进行base64加密,对密码进行rsa2加密,而且登录流程比较繁杂会经过好几次请求转发,都是使用javascript来控制的,具体流程忘记了,但是我要说的是,我辛辛苦苦研究出来的模拟登录,很快就不能用了,我在爬数据的1个月内一直可以登录,在爬够我需要的数据后过了大概4个月,就死活登录不上去了,具体什么原因我没有研究过,貌似是新浪微博那边改版了,而且貌似新浪微博的登录改版比较频繁。2.访问频率控制,我的访问频率控制在每秒5次(也就是每秒只向新浪微博的服务器发送5次请求),即便这样,仍然会出现ip被封,请求不到任何数据的情况,即使用上代理IP。3.你在连续访问某个大V的微博数据,即使是人工使用鼠标点击去访问,如果在短时间内浏览过11页(貌似是这个数字,记不清了)后,每页应该是45条,就会限制你的访问。总之,新浪微博的反爬虫做的非常好,抓一点玩玩还可以,我那个爬虫最后也就抓了5000多万条,每一个大V的数据最多就抓了11*45条。
2楼(匿名用户)我研究过新浪微博的抓取,有需要的可以联系我
3楼(未知网友)请问你是用的SDK爬的数据吗?求指教。我得到了Accesstaken,但是不知道后来怎么获得数据,申请的应用需要审核通过吗?
4楼(未知网友)如果只爬一个的话,效率上要求不高的话,推荐直接上selenium吧。直接调用firefox爬,在firefox里登录你自己的微博就可以了。
5楼(未知网友)我只想问一句现在爬别人微博的API还能用?貌似需要授权吧
6楼(未知网友)谢邀。先上结论,通过公开的api如果想爬到某大v的所有数据,需要满足以下两个条件:1、在你的爬虫开始运行时,该大v的所有微博发布量没有超过回溯查询的上限,新浪是2000,twitter是3200。2、爬虫程序必须不间断运行。新浪微博的api基本完全照搬twitter,其中接口的参数特性与底层的NoSQL密不可分,建议先看点Nosql数据库的设计理念有助于更好的理解api设计。一般来说,如果决定爬某个大v,第一步先试获取该用户的基本信息,中间会包含一条最新的status,记下其中的id号作为基准,命名为baseId。接口中最重要的两个参数:since_id:返回ID比since_id大的微博(即比since_id时间晚的微博),默认为0。max_id:返回ID小于或等于max_id的微博,默认为0。出于各种原因,获取statuses的接口,固定为按id降序排列(scan_index_forward=false),即最新的statuses返回在前。假设该微博第一天上线,就一个用户,发了一百条,id是1到100。而你在该用户发了第50条的时候开始运行的爬虫,即baseId=50。假设按每次获取10条历史数据递归,先将max_id设为baseId,获取该用户id为41-50的微博,再将max_id设为41重复循环,直到返回微博数量为1或0。这步没有问题。获取用户最新的statuses就有些蛋疼了,since_id=50,同样获取10条数据,返回的并不是id值为51-60的数据,而是100-91的数据。简单说就是你没法从since_id逐步更新到用户当前status,而是得一口气从用户当前status更新到上次爬虫运行时得到的最后一条status。假设你的爬虫一个月才运行一次,该用户在这期间发了2300条微博,根据限制你只能更新2000条,这其中最老的300条在你的系统内就会出现“断档”。最后一条,以上只针对公开的api,stackoverflow上twitter API可以申请权限突破数量限制和更改排序机制,微博也应该有类似机制。
7楼(站大爷用户)@王川 的回答是使用了api的方法,我说一下使用爬虫的思路。我以前爬取了各大社交网站的数据,如人人,新浪,腾讯。我当时需要爬取了所有大V的信息。我首先pass了api的方案,因为api的数量限制,不可能让我大规模的抓取数据。第一种是直接get json信息。我觉一个例子。我需要爬取 清华南都 的微博。(清华南都的微博)1. 首先获取他的id/p/6073 可以看到,她的 id 是 60732. 分析微博的请求我们分析微博的请求可以发现,网站通过/page/json?containerid=6073_-_WEIBO_SECOND_PROFILE_WEIBO&page=4 发送内容的转义后的内容是{
"count": 37227,
"cards": [{
"mod_type": "mod\/pagelist",
"previous_cursor": "",
"next_cursor": "",
"card_group": [{
"card_type": 9,
"mblog": {
"created_at": "08-27 19:40",
"id": 2460,
"mid": "2460",
"idstr": "2460",
"text": "一切都是最好的安排",
"source_allowclick": 0,
"source_type": 1,
"source": "微博 ",
"favorited": false,
"pic_ids": ["89ad7439jw1evhaklwa9uj20c82feqf8"],
"thumbnail_pic": "http:\/\/\/thumbnail\/89ad7439jw1evhaklwa9uj20c82feqf8.jpg",
"bmiddle_pic": "http:\/\/\/bmiddle\/89ad7439jw1evhaklwa9uj20c82feqf8.jpg",
"original_pic": "http:\/\/\/large\/89ad7439jw1evhaklwa9uj20c82feqf8.jpg",
"user": {},
"reposts_count": 230,
"comments_count": 25,
"attitudes_count": 227,
"mlevel": 0,
"visible": {},
"biz_feature": 0,
"userType": 0,
"mblogtype": 0,
"created_timestamp": ,
"bid": "CxN8xnAEQ",
"pics": [{}],
"like_count": 227,
"attitudes_status": 0
后面还有好多好多好多好多好多好多好多好多好多好多好多好多的内容。。。我删掉了后面的部分
友情链接 (合作QQ):&&&&&&
&CopyRight
站大爷实时更新代理IP平台
警告:禁止利用本站资源从事任何违反本国(地区)法律法规的活动
站大爷QQ交流群:&&&&客服QQ:新浪微博里那些粉丝上千万的明星大V,而他们发的微博最多也就一百多万个赞,这怎么解释?
因为很多粉丝都是通过购买来的,没有那么多人玩微博的。
已有帐号?
无法登录?
社交帐号登录

我要回帖

更多关于 二胡的琴弦数目是 的文章

 

随机推荐