我爱占星网 我爱占星网
首页
编程
java
php
前端
首页 编程 java php 前端

python爬虫获取源码与网页不同

使用requests和bs4库

静态爬取页面2017年数据

Soup获得部分源码如图

图片说明

对应网页源码如图

图片说明

可见,该tr中第一个<td&gt1</td>;在Soup中变成了<td>1<td> ,而末尾处也多了一个</td>

该问题发生在每一个tr中,但爬取2016年数据并没有出现该问题。

代码照抄教程,应该不存在问题

网页中有js脚本的话,可以在下载网页后动态修改/添加网页本身,也就是ajax

近期文章

  • flash 插件怎么隐藏 弹出框
  • C++ 在多线程间通信时,MSG结构体的使用
  • 关于bantu的问题,为什么安装不上软件,安装其他软件,说我的python有错
  • 关于jquery.datatables插件使用后台分页的问题
  • 关于修改页面jsp减小服务器压力
  • Changsha Marathon
  • 前端CSS布局,两个div 为inline-block, 在一个内部添加p会影响另外一个的布局原因?
  • Burning
  • 关于转义字符的使用方法。。。。
  • Battery
  • Family Name List
  • 网站改版,一个连接用Rewrite 做301, .htaccess 按下面的方式无效。
  • Klotski
  • Calendar Game
  • 项目启动了,但是请求发送过去,页面一直在加载,控制台也不打印日志信息?求助!求大神急救
  • Last non-zero Digit in N!
  • 请问Object obj=null;跟Object obj=new Object();有什么区别
  • 一个结构数组的问题,求解答
  • Magic Board
  • Too Rich

Copyright ©2022 我爱占星 All Rights Reserved.

浙ICP备2022030071号-1

部分图文来自网络,如有侵犯您的版权,请告诉我们删除

友情链接:代码精华