selenium如何获取网站源代码及如何处理源代码

[scrapy] 2024-07-27 圈点917

摘要：selenium如何获取网站源代码及如何处理源代码，以及selenium获取json格式数据和处理方法

selenium如何获取网站url的源代码及如何处理源代码

示例：

driver = webdriver.Chrome()
driver.maximize_window()
url="" #这里写需要访问的网址
driver.get(url)
# 获取页面源代码
html_source = driver.page_source

html_source就是源代码，注意这里是str类型的字符串。

那如何处理和分析这段源代码呢？

经过测试，如果获取的是json字符串对象，那么源代码的前84个字符和后20个字符是浏览器默认添加进去的html代码，

#如果要将其转化成json对象，可以这样操作

jsonstr=html_source[84:-20]

#然后将字符串转化成json对象

jsonobj=json.loads(jsonstr)

也可以将源码进行xml解析，或者是用html解析成树对象，然后进行xpath等操作也可以

相关内容: