pip install Selenium
- Chrome 是初始化谷歌浏览器
- Firefox 是初始化火狐浏览器
- Edge 是初始化 IE 浏览器
- PhantomJS 是一个无界面浏览器。
from selenium import webdriver
driver = webdriver.Chrome()
- maximize_window 最大化窗口
- set_window_size 自定义窗口大小
from selenium import webdriver
driver = webdriver.Chrome()
driver.maximize_window()
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
定位一个元素 |
定位多个元素 |
解释 |
find_element_by_id |
find_elements_by_id |
通过元素 id 定位 |
find_element_by_name |
find_elements_by_name |
通过元素 name 定位 |
find_element_by_xpath |
find_elements_by_xpath |
通过 xpath 表达式定位 |
find_element_by_link_text |
find_elements_by_link_tex |
通过残缺超链接定位 |
find_element_by_partial_link_text |
find_elements_by_partial_link_text |
通过局部链接定位 |
find_element_by_tag_name |
find_elements_by_tag_name |
通过标签定位 |
find_element_by_class_name |
find_elements_by_class_name |
通过类名进行定位 |
find_elements_by_css_selector |
find_elements_by_css_selector |
通过 css 选择器进行定位 |
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
driver.find_element_by_id('kw')
from selenium import webdriver
from selenium.webdriver.common.by import By
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
driver.find_element(By.ID, 'kw')
办法 |
解释 |
click() |
点击某个元素 |
send_keys(输出的值) |
模仿输出 |
clear() |
革除操作 |
submit() |
提交表单 |
get_attribute(name) |
获取元素的属性值 |
location |
获取元素的地位 |
text |
获取元素的文本值 |
size |
获取元素的大小 |
id |
获取元素的 id 值 |
tag_name |
获取元素的标签名 |
- 实例演示: 在百度输入框中输出我是 autofelix, 并点击搜寻按钮
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
driver.find_element_by_id('kw').send_keys('我是 autofelix')
driver.find_element_by_id('su').click()
from selenium import webdriver
driver = webdriver.Chrome()
driver.maximize_window()
driver.get('https://www.baidu.com')
js_sql = '''document.getElementById('kw').value =' 我是 autofelix''''
driver.execute_script(js_sql)
- 网页中 frame 的话,须要执行切入切出操作
- switch_to.from(子 iframe 的 id 名称) 切入
- switch_to.parent_frame(父 iframe 的 id 名称) 切出
from selenium import webdriver
driver = webdriver.Chrome()
driver.maximize_window()
driver.get('https://www.baidu.com')
// 这个网址并没有 iframe, 我臆测有, 你们看看就行
driver.switch_to.frame('我臆测进去的 iframe')
办法 |
阐明 |
delete_all_cookies() |
删除以后页面所有 cookies |
get_cookie(name) |
获取指定 cookie 值 |
get_cookies() |
获取以后页面所有 cookies 值 |
add_cookie() |
设置 cookie 值 |
from selenium import webdriver
driver = webdriver.Chrome()
driver.maximize_window()
driver.get('https://www.baidu.com')
driver.delete_all_cookies()
driver.add_cookie({'name': 'name', 'domain': '.baidu.com', 'value': 'autofelix'})
办法 |
解释 |
window_handles |
保留所有选项卡的元组 |
switch_to.window() |
切换选项卡 |
from selenium import webdriver
driver = webdriver.Chrome()
driver.maximize_window()
driver.get('https://www.baidu.com')
driver.get('https://www.taobao.com')
driver.switch_to.window(driver.window_handles[0])
driver.switch_to.window(driver.window_handles[1])
办法 |
阐明 |
move_to_element(above) |
鼠标右击 |
double_click() |
鼠标双击 |
drag_and_drop() |
左键按住拖动 |
perform() |
动作存储 |
from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
# 初始化谷歌浏览器
driver = webdriver.Chrome()
# 最大化窗口
driver.maximize_window()
# 关上头条登陆网址
driver.get('https://sso.toutiao.com')
# 期待某个元素是否呈现
WebDriverWait(self.driver, 10).until(EC.text_to_be_present_in_element((By.XPATH, '//*[@id="mobile-code-get"]/span'), u'发送')
)
# 实例化鼠标操作
action = ActionChains(self.driver)
# 按住滑块
action.click_and_hold(self.driver.find_element_by_xpath('//*[@id="captcha_container"]')).perform()
# 将滑块挪动 x 的间隔
action.move_by_offset(xoffset=x, yoffset=0).perform()
# 开释滑块
action.release().perform()
- 隐氏期待
- 如果到肯定工夫,指定的元素还没有呈现,过程不会阻塞,然而到指定工夫还没有找到,就会抛出异样
from selenium import webdriver
driver = webdriver.Chrome()
driver.implicitly_wait(10)
driver.get('https://www.baidu.com')
- 显示期待
- 如果在肯定工夫内,指定的元素没有呈现,过程会阻塞在这里,如果到指定工夫还没有找到,就会抛出异样
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
driver = webdriver.Chrome()
driver.implicitly_wait(10)
driver.get('https://www.baidu.com')
WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, 'kw'))
)
- back 后退
- forward 后退
- refresh 刷新浏览器
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
driver.get('https://www.taobao.com')
driver.get('https://www.jd.com')
driver.back()
driver.forward()
driver.refresh()
- close 敞开以后标签页
- quit 敞开整个浏览器
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
// 关上百度页面后, 敞开整个浏览器
driver.quit()
抖音,快手,小红书数据采集接口,文档地址:TiToData