selenium如何获取网站源代码及如何处理源代码

[scrapy] 2021-10-26 圈点417

摘要:selenium如何获取网站源代码及如何处理源代码,以及selenium获取json格式数据和处理方法

selenium如何获取网站url的源代码及如何处理源代码


示例:

driver = webdriver.Chrome()
driver.maximize_window()
url="" #这里写需要访问的网址
driver.get(url)
# 获取页面源代码
html_source = driver.page_source


html_source就是源代码,注意这里是str类型的字符串。


那如何处理和分析这段源代码呢?

经过测试,如果获取的是json字符串对象,那么源代码的前84个字符和后20个字符是浏览器默认添加进去的html代码,

#如果要将其转化成json对象,可以这样操作

jsonstr=html_source[84:-20]


#然后将字符串转化成json对象

jsonobj=json.loads(jsonstr)


也可以将源码进行xml解析,或者是用html解析成树对象,然后进行xpath等操作也可以


selenium  json  

感谢反馈,已提交成功,审核后即会显示