http://mzj.beijing.gov.cn/wssbweb/wssb/dc/searchOrgList.do?action=searchOrgList
我需要爬取这个网站每一家公司的详细信息,我的思路是通过这个主页面爬取所有详情页面的网址,然后再打开详情页面(公司详细信息页面)爬取需要的数据。我现在面临的问题是,这个网址翻页时网址没有发生变化,在网上查了很多方法都没有用,总是重复爬取第一页内容。
求各位大神赐教!!
这是我的代码:
这样太麻烦了,建议使用selenium来爬取
post这个地址
http://mzj.beijing.gov.cn/wssbweb/wssb/dc/searchOrgList.do?action=searchOrgList
post的内容是
page_flag=true&goto_page=next¤t_page=当前页面的编号的数字&total_count=15254®istrationDeptCode=&netTypeId=2&order=&status=&websitId=100&corporateType=®istrationNo=&orgName=&to_page=
比如current_page=1
返回如下:
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<link href="../css/stb-style.css" rel="stylesheet" type="text/css">
<link href="../css/column-style.css" rel="stylesheet" type="text/css">
<!-- <script src="../lib/js.js"></script> -->
<!-- <script src="../lib/js_1.js"></script> -->
<script src="../lib/function.js" ></script>
<script src="../lib/common.js" ></script>
<style type="text/css">
<!--
.STYLE1 {
font-size: 14px;
font-weight: bold;
}
-->
</style>
</head>
<body scrolling="NO" style="overflow:scroll;">
<table width="1002" border="0" align="center" cellpadding="0" cellspacing="0">
<tr>
<td align="center" valign="top" class="info-mainbg">
<table width="96%" border="0" cellspacing="0" cellpadding="0">
<tr>
<td height="6" colspan="2" align="center"></td>
</tr>
<tr>
<td width="4%" height="25" align="center"><img src="../images/info-tu_08.gif" width="11" height="13"></td>
<td width="96%" valign="bottom" style="padding-bottom:2px;">
<span class="STYLE1">社会组织检索</span>
</td>
</tr>
<tr>
<td height="1" colspan="2" bgcolor="#b56100"></td>
</tr>
<tr>
<td height="2" colspan="2" bgcolor="#f0f0f0"></td>
</tr>
</table>
<table width="100%" border="0" cellspacing="0" cellpadding="0">
<tr>
<td width="4%"> </td>
<td width="92%" align="center" valign="bottom" bgcolor="#FFFFFF"><table width="98%" border="0" cellspacing="0" cellpadding="0">
<tr>
<td height="100" colspan="3" align="center" class="wszx-border01">
<table width="96%" border="0" cellpadding="1" cellspacing="1" bgcolor="#FFFFFF">
<form name="myform" method="post" action="searchOrgList.do?action=searchOrgList">
<input type="hidden" name="order" value=""/>
<input type="hidden" name="status" value=""/>
<input type="hidden" name="websitId" value="100"/>
<input type="hidden" name="netTypeId" value="2"/>
<tr>
<td height="25" align="right" bgcolor="#fdf6ed">社会组织名称:</td>
<td colspan="3" bgcolor="#fdf6ed">
<input name="orgName" type="text" id="orgName" size="70" maxlength="55" value="" class="zcfg_input">
</td>
</tr>
<tr>
<td width="15%" height="25" align="right" bgcolor="#fdf6ed">登记管理机关:<br></td>
<td width="37%" bgcolor="#fdf6ed">
<select name="registrationDeptCode">
<option value="" selected>===所有===</option>
<option value="42">北京市民政局</option>
<option value="1833">东城区民政局</option>
<option value="1839">西城区民政局</option>
<option value="1845">崇文区民政局</option>
<option value="1851">宣武区民政局</option>
<option value="1857">朝阳区民政局</option>
<option value="1863">海淀区民政局</option>
<option value="1943">密云区民政局</option>
<option value="1937">平谷区民政局</option>
<option value="1931">怀柔区民政局</option>
<option value="1869">丰台区民政局</option>
<option value="1925">延庆区民政局</option>
<option value="1919">大兴区民政局</option>
<option value="1913">房山区民政局</option>
<option value="1907">通州区民政局</option>
<option value="1901">门头沟区民政局</option>
<option value="1895">昌平区民政局</option>
<option value="1889">顺义区民政局</option>
<option value="1875">石景山区民政局</option>
</select>
</td>
<td height="25" align="right" bgcolor="#fdf6ed">登记证号:</td>
<td bgcolor="#fdf6ed">
<input name="registrationNo" type="text" size="20" class="zcfg_input" value="">
</td>
</tr>
<tr>
<td width="15%" height="25" align="right" bgcolor="#fdf6ed">社会组织类型:<br></td>
<td width="37%" bgcolor="#fdf6ed">
<select name="corporateType">
<option value="" selected>===所有===</option>
<option value="1">社会团体</option>
<option value="2">民办非企业单位</option>
<option value="3">基金会</option>
</select>
</td>
<td align="right" bgcolor="#fdf6ed"> </td>
<td bgcolor="#fdf6ed">
<input type="image" name="imageField2" src="images/njjggg_22.gif" onClick="javascript:document.myform.registrationDeptCode.disabled='';"/>
</td>
</tr>
</form>
</table>
</td>
</tr>
</table>
<table width="100%" border="0" cellspacing="0" cellpadding="0">
<tr>
<td> </td>
</tr>
</table>
<table width="98%" border="0" cellpadding="0" cellspacing="0" bgcolor="#b2d8f7">
<tr>
<td bgcolor="#FFFFFF"><table width="100%" border="0" cellpadding="1" cellspacing="1" bordercolor="#FFFFFF" bgcolor="#FFFFFF">
<tr bgcolor="#f8e2cf">
<td width="4%" height="30" align="center" class="table-td-bt">序号</td>
<td width="30%" align="center" class="table-td-bt">名 称</td>
<td width="30%" align="center" class="table-td-bt">业务主管单位</td>
<td width="12%" align="center" class="table-td-bt">登记证号</td>
<td width="12%" align="center" class="table-td-bt">社会信用代码</td>
<td width="12%" align="center" class="table-td-bt">成立时间</td>
</tr>
<tr>
<td height="22" align="center">21</td>
<td title="北京彤馨慈善基金会">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017976&websitId=100&netTypeId=2" target="_blank">
北京彤馨慈善基金会
</a>
</td>
<td title="无">无</td>
<td align="center">0179783</td>
<td align="center">
53110000MJ01797833
</td>
<td align="center">2019-06-11</td>
</tr>
<tr bgcolor="#fdf6ed">
<td height="22" align="center">22</td>
<td title="北京同创医学发展基金会">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017975&websitId=100&netTypeId=2" target="_blank">
北京同创医学发展基金会
</a>
</td>
<td title="无">无</td>
<td align="center">0179775</td>
<td align="center">
53110000MJ01797758
</td>
<td align="center">2019-06-11</td>
</tr>
<tr>
<td height="22" align="center">23</td>
<td title="北京市丰台区夕盈社会工作事务所">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017974&websitId=100&netTypeId=2" target="_blank">
北京市丰台区夕盈社会工作事务所
</a>
</td>
<td title="北京市丰台区社会建设工作办公室">北京市丰台区社会建设工作办公室</td>
<td align="center">0275169</td>
<td align="center">
52110106MJ02751696
</td>
<td align="center">2019-06-10</td>
</tr>
<tr bgcolor="#fdf6ed">
<td height="22" align="center">24</td>
<td title="北京市密云区鼓楼街道德缘社会工作服务中心">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017973&websitId=100&netTypeId=2" target="_blank">
北京市密云区鼓楼街道德缘社会工...
</a>
</td>
<td title="密云区鼓楼街道办事处">密云区鼓楼街道办事处</td>
<td align="center">0389430</td>
<td align="center">
52110118MJ0389430U
</td>
<td align="center">2019-06-10</td>
</tr>
<tr>
<td height="22" align="center">25</td>
<td title="北京市密云区西田各庄镇渤海寨村养老服务中心">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017972&websitId=100&netTypeId=2" target="_blank">
北京市密云区西田各庄镇渤海寨村...
</a>
</td>
<td title="密云区西田各庄镇人民政府">密云区西田各庄镇人民政府</td>
<td align="center">0389449</td>
<td align="center">
52110118MJ0389449Q
</td>
<td align="center">2019-06-10</td>
</tr>
<tr bgcolor="#fdf6ed">
<td height="22" align="center">26</td>
<td title="北京市密云区首职航空职业技能培训学校">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017971&websitId=100&netTypeId=2" target="_blank">
北京市密云区首职航空职业技能培...
</a>
</td>
<td title="密云区人力资源和社会保障局">密云区人力资源和社会保障局</td>
<td align="center">0389422</td>
<td align="center">
52110118MJ03894221
</td>
<td align="center">2019-06-10</td>
</tr>
<tr>
<td height="22" align="center">27</td>
<td title="北京市西城区什刹海街道社会组织联合会">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017970&websitId=100&netTypeId=2" target="_blank">
北京市西城区什刹海街道社会组织...
</a>
</td>
<td title="北京市西城区人民政府什刹海街道办事处">北京市西城区人民政府什刹海街道...</td>
<td align="center">0200474</td>
<td align="center">
51110102MJ0200474P
</td>
<td align="center">2019-04-29</td>
</tr>
<tr bgcolor="#fdf6ed">
<td height="22" align="center">28</td>
<td title="北京市西城区冰蹴球协会">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017969&websitId=100&netTypeId=2" target="_blank">
北京市西城区冰蹴球协会
</a>
</td>
<td title="北京市西城区体育局">北京市西城区体育局</td>
<td align="center">0200482</td>
<td align="center">
51110102MJ0200482J
</td>
<td align="center">2019-05-30</td>
</tr>
<tr>
<td height="22" align="center">29</td>
<td title="北京清源文化创意产业发展中心">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017968&websitId=100&netTypeId=2" target="_blank">
北京清源文化创意产业发展中心
</a>
</td>
<td title="北京市文化局">北京市文化局</td>
<td align="center">0166034</td>
<td align="center">
52110000MJ0166034Y
</td>
<td align="center">2019-06-05</td>
</tr>
<tr bgcolor="#fdf6ed">
<td height="22" align="center">30</td>
<td title="北京市顺义区东方雨虹职业技能培训学校">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017967&websitId=100&netTypeId=2" target="_blank">
北京市顺义区东方雨虹职业技能培...
</a>
</td>
<td title="北京市顺义区人力资源和社会保障局">北京市顺义区人力资源和社会保障...</td>
<td align="center">0329681</td>
<td align="center">
52110113MJ0329681Q
</td>
<td align="center">2019-06-05</td>
</tr>
<tr>
<td height="22" align="center">31</td>
<td title="北京三奕国际学校">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017964&websitId=100&netTypeId=2" target="_blank">
北京三奕国际学校
</a>
</td>
<td title="北京市教育委员会">北京市教育委员会</td>
<td align="center">0166026</td>
<td align="center">
52110000MJ01660264
</td>
<td align="center">2019-06-05</td>
</tr>
<tr bgcolor="#fdf6ed">
<td height="22" align="center">32</td>
<td title="中关村药谷生物产业研究院">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017962&websitId=100&netTypeId=2" target="_blank">
中关村药谷生物产业研究院
</a>
</td>
<td title="无(中关村)">无(中关村)</td>
<td align="center">0166042</td>
<td align="center">
52110000MJ0166042R
</td>
<td align="center">2019-06-05</td>
</tr>
<tr>
<td height="22" align="center">33</td>
<td title="北京吉安企业商会">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017958&websitId=100&netTypeId=2" target="_blank">
北京吉安企业商会
</a>
</td>
<td title="无">无</td>
<td align="center">0122736</td>
<td align="center">
51110000MJ01227364
</td>
<td align="center">2019-05-27</td>
</tr>
<tr bgcolor="#fdf6ed">
<td height="22" align="center">34</td>
<td title="北京市顺义区赵全营晨曦社会工作事务所">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017957&websitId=100&netTypeId=2" target="_blank">
北京市顺义区赵全营晨曦社会工作...
</a>
</td>
<td title="北京市顺义区赵全营镇人民政府">北京市顺义区赵全营镇人民政府</td>
<td align="center">0329673</td>
<td align="center">
52110113MJ0329673X
</td>
<td align="center">2019-06-03</td>
</tr>
<tr>
<td height="22" align="center">35</td>
<td title="北京市朝阳区菁未来小规模幼儿园">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017956&websitId=100&netTypeId=2" target="_blank">
北京市朝阳区菁未来小规模幼儿园
</a>
</td>
<td title="北京市朝阳区教育委员会">北京市朝阳区教育委员会</td>
<td align="center">0228063</td>
<td align="center">
52110105MJ0228063E
</td>
<td align="center">2019-05-28</td>
</tr>
<tr bgcolor="#fdf6ed">
<td height="22" align="center">36</td>
<td title="北京市朝阳区律谐律师调解中心">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017955&websitId=100&netTypeId=2" target="_blank">
北京市朝阳区律谐律师调解中心
</a>
</td>
<td title="北京市朝阳区司法局">北京市朝阳区司法局</td>
<td align="center">0228055</td>
<td align="center">
52110105MJ0228055K
</td>
<td align="center">2019-05-20</td>
</tr>
<tr>
<td height="22" align="center">37</td>
<td title="北京市朝阳区海外高层次人才协会">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017954&websitId=100&netTypeId=2" target="_blank">
北京市朝阳区海外高层次人才协会
</a>
</td>
<td title="中共北京市朝阳区委组织部">中共北京市朝阳区委组织部</td>
<td align="center">0220985</td>
<td align="center">
51110105MJ02209853
</td>
<td align="center">2019-05-30</td>
</tr>
<tr bgcolor="#fdf6ed">
<td height="22" align="center">38</td>
<td title="北京大运云链大数据应用研究院">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017953&websitId=100&netTypeId=2" target="_blank">
北京大运云链大数据应用研究院
</a>
</td>
<td title="无">无</td>
<td align="center">0166018</td>
<td align="center">
52110000MJ01660189
</td>
<td align="center">2019-05-27</td>
</tr>
<tr>
<td height="22" align="center">39</td>
<td title="北京一路阳光慈善基金会">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017952&websitId=100&netTypeId=2" target="_blank">
北京一路阳光慈善基金会
</a>
</td>
<td title="无">无</td>
<td align="center">0179759</td>
<td align="center">
53110000MJ0179759J
</td>
<td align="center">2019-05-27</td>
</tr>
<tr bgcolor="#fdf6ed">
<td height="22" align="center">40</td>
<td title="北京市朝阳区崔各庄地区社区社会组织联合会">
<a href="/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=000010000017941&websitId=100&netTypeId=2" target="_blank">
北京市朝阳区崔各庄地区社区社会...
</a>
</td>
<td title="北京市朝阳区人民政府崔各庄地区办事处">北京市朝阳区人民政府崔各庄地区...</td>
<td align="center">0220969</td>
<td align="center">
51110105MJ0220969D
</td>
<td align="center">2019-05-27</td>
</tr>
</table></td>
</tr>
</table>
<table width="100%" border="0" cellspacing="0" cellpadding="0">
<tr>
<td width="20%" height="40" align="left">
总计: 15254 条记录
</td>
<td width="80%" height="40" align="right">
<table width="100%" border="0" cellpadding="0" cellspacing="0" class="page">
<tr>
<form name="pageform" action="searchOrgList.do?action=searchOrgList" method="post">
<td align="left">
<input type="hidden" name="page_flag" value="true">
<input type="hidden" name="goto_page" value="">
<input type="hidden" name="current_page" value="2">
<input type="hidden" name="total_count" value="15254">
<input type="hidden" name="registrationDeptCode" value="">
<input type="hidden" name="netTypeId" value="2">
<input type="hidden" name="order" value="">
<input type="hidden" name="status" value="">
<input type="hidden" name="websitId" value="100">
<input type="hidden" name="corporateType" value="">
<input type="hidden" name="registrationNo" value="">
<input type="hidden" name="orgName" value="">
<td align="right">
<a href="#" onclick="f_goto_page(pageform, 'first')">首页</a> | <a href="#" onclick="f_goto_page(pageform, 'prev');">上页</a> | <a href="#" onclick="f_goto_page(pageform, 'next');">下页</a> | <a href="#" onclick="f_goto_page(pageform, 'last');">末页</a> 第2/763页 转到<input type="text" name="to_page" size="2">页<button onclick="f_goto_page(pageform, pageform.to_page.value);">-></button>
</td>
</td>
</form>
</tr>
</table>
</td>
</tr>
</table></td>
<td width="4%"> </td>
</tr>
<tr>
<td> </td>
<td> </td>
<td> </td>
</tr>
</table> </td>
</tr>
</table>
<!--bottom-->
<script>
tongzhigonggao_2();
xinxigongbu_2();
</script>
</body>
</html>