[scrapy] 2024-10-03 圈点685
摘要:selenium如何获取网站源代码及如何处理源代码,以及selenium获取json格式数据和处理方法
selenium如何获取网站url的源代码及如何处理源代码
示例:
driver = webdriver.Chrome() driver.maximize_window() url="" #这里写需要访问的网址 driver.get(url) # 获取页面源代码 html_source = driver.page_source
html_source就是源代码,注意这里是str类型的字符串。
那如何处理和分析这段源代码呢?
经过测试,如果获取的是json字符串对象,那么源代码的前84个字符和后20个字符是浏览器默认添加进去的html代码,
#如果要将其转化成json对象,可以这样操作
jsonstr=html_source[84:-20]
#然后将字符串转化成json对象
jsonobj=json.loads(jsonstr)
也可以将源码进行xml解析,或者是用html解析成树对象,然后进行xpath等操作也可以