松鼠

淘宝数据分析实战,三只松鼠居然这么强阿


来源:数据分析不是个事儿(nizhidaoma)导语:销量第一名是三只松鼠旗舰店的猪肉脯。快过年了,我老婆又开始囤年货了,购物车里全是她加购的零食,闲来无事,就顺手爬了淘宝搜索美食出来的商品信息,简单做了个分析,借此案例给大家学习参考。数据采集淘宝的页面也是通过Ajax来抓取相关数据,但是参数比较复杂,甚至包含加密秘钥。用selenium来模拟浏览器操作,抓取淘宝商品信息,即可做到可见即可爬。我就用selenium爬了淘宝网页上能显示的页的数据,大约个左右,速度也不慢,具体步骤如下:准备工作用selenium抓取淘宝商品,并用pyquery解析得到商品的图片,名称,价格,购买人数,店铺名称和店铺所在位置。需要安装selenium,pyquery,以及Chrome浏览器并配置ChromeDriver。我们的目标是获取商品的信息,那么先搜索,例如我们搜索美食。而我们需要的信息都在每一页商品条目里。在页面的最下面,有个分页导航,为页,要获得所以的信息只需要从第一页到带一百页顺序遍历。采用selenium模拟浏览器不断的遍历即可得到,这里为直接输入页数然后点击确定转跳。这样即使程序中途出错,也可以知道爬到那一页了,而不必从头再来。我们爬取淘宝商品信息,只需要得到总共多少条商品条目,而淘宝默认页,则只需要每一页商品条目都加载完之后爬取,然后再转跳就好了。用selenium只需要定位到专业和条目即可。整体代码如下:fromseleniumimportwebdriverfromselenium.


转载请注明:http://www.songshuf.com/yldl/12667.html


当前时间: