电话.png

合作热线:

13554489229、18971698240

百度搜索结果采集
发表时间:2018-10-26 18:00

本文介绍使用八爪鱼采集百度搜索结果的方法

采集网站:https://www.baidu.com/

使用功能点:

分页列表信息采集

AJAX点击和翻页

Xpath


百度:百度作为全球最大的中文搜索引擎公司,百度一直致力于让网民更平等的获取信息,找到所求。百度是用户获取信息的最主要入口,随着移动互联网的发展,百度网页搜索完成了由PC向移动的转型,由连接人与信息扩展到连接人与服务,用户可以在PC、Pad、手机上访问百度主页,通过文字、语音、图像多种交互方式瞬间找到所需要的信息和服务。

百度搜索结果采集数据说明:本文进行了百度搜索结果页信息的采集。本文仅以“百度搜索结果页信息采集”为例,信息采集搜索开户大家在实操过程中,可根据自身需求,更换百度的其他内容进行数据采集。

百度搜索结果采集详细说明:网页标题,网页链接,网页描述信息。

步骤1:创建采集任务

1)进入主界面,选择“自定义模式”

1

2)要采集的网址制粘贴到网站输入框中,点击“保存网址

2

步骤2:输入文本

1)在页面右上角,打开“流程”信息采集搜索推广以展现出“流程设计器”“定制当前操作”两个板块。点击搜索框,在操作提示框中,选择“输入文字”

3

2)输入要采集的文本,这里以输入“八爪鱼采集器”为例。完成后,点击“确定”

4

3)输入的文本自动填充到搜索框后,点击“百度一下”按钮。在操作提示框中,选择“点击该按钮”

5

此步骤涉及Ajax技术。打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”。完成后,点击“确定”

6

步骤3:创建翻页循环

1)将页面下拉到底部,点击“下一页”按钮信息采集广告推广在右侧操作提示框中,选择“循环点击下一页”,以建立一个翻页循环

7

此步骤涉及Ajax技术。打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”。完成后,点击“确定”

8

2)选中“循环翻页”步骤,打开“高级选项”,将单个元素中的这条Xpath://A[@class='n',复制粘贴到火狐浏览器中的相应位置

9

3)可以看到,当在第1页的时候,使用此条Xpath,可以定位到“下一页”,可正常翻页

10

4)当翻到第2页的时候,使用此条Xpath,既可定位到“上一页”又可定位到“下一页”。那么,八爪鱼采集器在执行的时候,无法正常点击到“下一页”

11

5)返回八爪鱼采集器,点击“自定义”

12

6)勾选“元素文本=下一页>”,对应生成的Xpath为://A[@text()='下一页>']。完成后,点击“确定”

13

7)将修改后的Xpath://A[@text()='下一页>'],再次复制粘贴到火狐浏览器中。可以看到,当翻到第2页的时候,可正常定位到“下一页”第3、4、5、6等也可正常定位到“下一页”,翻页循环可正常运行

14

步骤4:创列表循环并提取数据

1)移动鼠标选中页面里第一条搜索结果的区块,再选中页面内另一条搜索结果的区块。系统会自动识别并选中,页面里其他搜索结果的区块,以建立一个列表循环。在操作提示框中,选择“采集以下元素文本”。整个区块里的信息,作为一个字段,被采集下来

15

2)选中“循环”步骤,打开“高级选项”,将不固定元素列表中的这条Xpath://DIV[@id='content_left']/DIV复制粘贴到火狐浏览器中的相应位置

16

3)将八爪鱼中的Xpath,复制到火狐浏览器中的相应位置。观察页面,我们不需要采集的“相关搜索”和“广告”内容也被定位了

17

4)观察网页源码,我们要采集的区块,具有相同的tpl属性,tpl="se_com_default"(如图红框中所示),通过tpl属性,可将要采集的区块与不需要采集的广告、推荐内容区分开来。

将Xpath修改为://DIV[@id='content_left']/DIV[@tpl="se_com_default"]。再观察页面,要采集的内容都被定位了,不需要采集的广告、推荐内容未被定位

18

5)将修改后的Xpath://DIV[@id='content_left']/DIV[@tpl="se_com_default"],复制粘贴到八爪鱼采集器的相应位置。完成后,点击“确定”

19

6)在这里,我们还想采集每条搜索结果的链接URL。选中页面内一条搜索结果的链接,在操作提示框中,选择“采集该链接地址”

20

7)字段选择完成后,选中相应的字段,可以进行字段的自定义命名。完成后,点击左上角的“保存并启动”,选择“启动本地采集”

21

步骤5:数据采集及导出

1)采集完成后,会跳出提示,选择导出数据”。选择合适的导出方式,将采集好的数据导出

22

2)这里我们选择excel作为导出为格式,数据导出后如下图

23



客户综合采集软件,是一款可以按照关键词、地区及行业等字段,自定义搜索条件,精准的采集出意向企业及客户联系方式的一款软件。可以采集到座机、手机、电子邮箱等多种联系方式。数据量庞大、精准且更新及时,是您做电话销售、短信群发、邮件群发等群发的必备软件!
QQ图片20190107152554.jpg


扫码办理业务

ABUIABACGAAg1NT8ygUo9tjD1QIwrgM4rgM.jpg


官方服务号

电话.png

微信/热线:13554489229、18971698240

QQ - 副本.png

详询QQ:3002240450、3002240451

策划师、运营师、技术员、服务督导,四人组队为结果保驾护航。
上千个账户操作经验,您离爆单也许只差一次咨询!
提升30%的咨询量,用靠谱回馈客户!