关于selenium:selenium-定位方式3cssselector

对于页面元素定位，能够依据 id、class、name 属性以及 link_text。

其中 id 属性是最现实的定位形式，class 与 name 属性，有时候也还行。

然而，如果要定位的元素，没有上述的属性，或者通过上述属性找到多个元素，该怎么办？

Selenium 提供了2种能够惟一定位的形式：

find_element_by_css_selector
find_element_by_xpath

`find_element_by_css_selector`

原理

HTML 中常常要为页面上的元素指定显示成果，比方前景文字色彩是红色，背景色彩是彩色，字体是微软雅黑，输入框的宽与低等。

以上这所有，都是靠 css 来通知浏览器：要抉择哪些元素，显示怎么的格调。

如下图，豆瓣上“登陆豆瓣”的按钮，就是 css 通知浏览器：.account-anonymous .account-form-field-submit .btn 这个按钮，背景色彩是浅绿色，高是34px 等

其中，.account-anonymous .account-form-field-submit .btn 就是 css selector ，也称为 css 选择器。

css selector 语法就是用来抉择元素的。

既然 css selector 语法天生就是浏览器用来抉择元素的，Selenium 天然就能够将它使用到自动化中，来定位要操作的元素了。

只有 css selector 的语法是正确的， Selenium 就能够定位到指定的元素。

依据标签（tag）名定位

HTML 中，以下都属于标签：

<a></a>
<div></div>
<h1></h1>
<script></script>
<body></body>
<span></span>
<footer></footer>
<input>
<form></form>
<button></button>

验证与搜寻形式：

按 F12 关上开发者工具栏
按 Ctrl 键和 F 键，显示搜寻框

利用：

# find_element_by_css_selector 的利用：依据标签（tag）名定位
from selenium import webdriver  # 导入 webdriver 模块

driver = webdriver.Chrome()  # 调用 Chrome 浏览器
driver.get('https://www.douban.com/')  # 关上豆瓣
element = driver.find_element_by_css_selector("a")  # 依据 a 标签定位元素
print(element.text)  # 打印 定位元素 的文本

driver.quit()  # 敞开浏览器

依据 id 定位

依据 id 属性抉择元素的语法是，在 id 后面加上一个 “#” 号： #id值

利用：

# find_element_by_css_selector 的利用：依据 id 定位
from selenium import webdriver  # 导入 webdriver 模块
from time import sleep  # 导入 sleep 模块，能够使程序强制休眠

driver = webdriver.Chrome()  # 调用 Chrome 浏览器
driver.maximize_window()  # 窗口最大化
driver.get('https://www.baidu.com/')  # 关上 百度
sleep(2)  # 强制休眠 2 秒
element = driver.find_element_by_css_selector("#kw")  # 依据 id 定位元素
element.send_keys("自动化测试")  # 输出内容
sleep(3)  # 强制休眠 3 秒
driver.quit()  # 敞开浏览器

依据 class 定位

依据 class 属性抉择元素的语法是，在 class 值后面加上一个”.”： .class值

利用：

# find_element_by_css_selector 的利用：依据 class 定位
from selenium import webdriver  # 导入 webdriver 模块
from time import sleep  # 导入 sleep 模块，能够使程序强制休眠

driver = webdriver.Chrome()  # 调用 Chrome 浏览器
driver.maximize_window()  # 窗口最大化
driver.get('https://www.baidu.com/')  # 关上 百度
sleep(2)  # 强制休眠 2 秒
element = driver.find_element_by_css_selector(".s-top-login-btn")  # 依据 class 定位元素
element.click()  # 点击定位元素
sleep(3)  # 强制休眠 3 秒

driver.quit()  # 敞开浏览器

依据子元素与后辈元素定位

HTML中，元素外部能够蕴含其余元素，比方上面的 HTML片段：

<div id='container'>
    <div id='layer1'>  <!--layer1 是 container 的间接子元素-->
        <div id='inner11'>  <!--inner11 是 layer1 的间接子元素，是 container 的后辈元素-->
            <span id='span1'>内层11</span>  <!--span1 是 inner11 的间接子元素，是 layer1 与 container 的后辈元素-->
        </div>
        <div id='inner12'>
            <span>内层12</span>
        </div>
    </div>
    <div id='layer2'>
        <div id='inner21'>
            <span>内层21</span>
        </div>
    </div> 
</div>

子元素

如果元素2 是元素1 的间接子元素， css selector 抉择间接子元素的语法是：

/* 一个层级 */
元素1 > 元素2
/* 多个层级 */
元素1 > 元素2 > 元素3 > 元素4
/* layer1 是 container 的间接子元素 */
#container > #layer1
/* inner11 是 layer1 的间接子元素，是 container 的后辈元素 */
#layer1 > #inner11
#container > #layer1 > #inner11
/* span1 是 inner11 的间接子元素，是 layer1 与 container 的后辈元素 */
#inner11 > #span1
#layer1 > #inner11 > #span1
#container > #layer1 > #inner11 > #span1

理论利用：

# find_element_by_css_selector 的利用：依据 子元素 定位
from selenium import webdriver  # 导入 webdriver 模块
from time import sleep  # 导入 sleep 模块，能够使程序强制休眠

driver = webdriver.Chrome()  # 调用 Chrome 浏览器
driver.maximize_window()  # 窗口最大化
driver.get('https://www.baidu.com/')  # 关上 百度
sleep(2)  # 强制休眠 2 秒
element = driver.find_element_by_css_selector(".s_ipt_wr > #kw")  # 依据 子元素 定位元素
element.send_keys("自动化测试")  # 输出内容
sleep(3)  # 强制休眠 3 秒

driver.quit()  # 敞开浏览器

后辈元素

如果元素2是元素1的后辈元素（后辈元素蕴含子元素）， css selector 抉择后辈元素的语法是:

/* 一个层级 */
元素1 元素2
/* 多个层级 */
元素1 元素2 元素3 元素4
/* layer1 是 container 的间接子元素 */
#container #layer1
/* inner11 是 layer1 的间接子元素，是 container 的后辈元素 */
#layer1 #inner11
#container #inner11
/* span1 是 inner11 的间接子元素，是 layer1 与 container 的后辈元素 */
#inner11 #span1
#layer1 #span1
#container #span1

理论利用：

# find_element_by_css_selector 的利用：依据 后辈元素 定位
from selenium import webdriver  # 导入 webdriver 模块
from time import sleep  # 导入 sleep 模块，能够使程序强制休眠

driver = webdriver.Chrome()  # 调用 Chrome 浏览器
driver.maximize_window()  # 窗口最大化
driver.get('https://www.baidu.com/')  # 关上 百度
sleep(2)  # 强制休眠 2 秒
element = driver.find_element_by_css_selector("#form #kw")  # 依据 后辈元素 定位元素
element.send_keys("自动化测试")  # 输出内容
sleep(3)  # 强制休眠 3 秒
driver.quit()  # 敞开浏览器

依据属性定位

在 HTML 中，id 与 class 是罕用的属性，当然，一个标签内能够蕴含多个属性，同时属性名称也能够是自定义的，如上面的 HTML 代码段所示：

<li id="quick-entrance">
    <a href="https://www.lagou.com/s/subscribe.html" 
       data-lg-webtj-_address_id="1nny" 
       data-lg-webtj-_seq="1" 
       rel="nofollow">
        职位订阅
    </a>
</li>
<!--
li 标签含有的属性：id
a 标签含有的属性：href、data-lg-webtj-_address_id、data-lg-webtj-_seq、rel
-->

css selector 反对通过任何属性来抉择元素，语法是用一个方括号 []。

/* li 标签含有的属性：id */
[id="quick-entrance"]
/* 加上标签名限度 */
li[id="quick-entrance"]
/* a 标签含有的属性：href、data-lg-webtj-_address_id、data-lg-webtj-_seq、rel */
a[href="https://www.lagou.com/s/subscribe.html"]
a[data-lg-webtj-_address_id="1nny"]
a[data-lg-webtj-_seq="1"]
a[rel="nofollow"]

另外，css selector 依据属性值定位，还反对含糊匹配：

蕴含关系 *=：a[href*="lagou.com/s/"]
匹配结尾 ^=：a[href^="https://www.lagou"]
匹配结尾 $=：a[href$="lagou.com/s/subscribe.html"]

如果一个元素具备多个属性，css selector 还能够同时限度多个属性：

a[rel="nofollow"][data-lg-webtj-_seq="1"]

理论利用：

# find_element_by_css_selector 的利用：依据 属性 定位
from selenium import webdriver  # 导入 webdriver 模块
from time import sleep  # 导入 sleep 模块，能够使程序强制休眠

driver = webdriver.Chrome()  # 调用 Chrome 浏览器
driver.maximize_window()  # 窗口最大化
driver.get('https://www.baidu.com/')  # 关上 百度
sleep(2)  # 强制休眠 2 秒
element = driver.find_element_by_css_selector("input[id='kw']")  # 依据 属性 定位元素
# element = driver.find_element_by_css_selector("input[class='s_ipt']")  # 依据 属性 定位元素
# element = driver.find_element_by_css_selector("input[name='wd']")  # 依据 属性 定位元素
element.send_keys("自动化测试")  # 输出内容
sleep(3)  # 强制休眠 3 秒
driver.quit()  # 敞开浏览器

联结应用

css selector 反对抉择语法的联结应用。如上面的 HTML 代码段：

<div id='bottom'>
    <div class='footer1'>
        <span class='copyright'>版权</span>
        <span class='date'>公布日期：2018-03-03</span>
    </div>
    <div class='footer2'>
        <span>备案号
            <a href="http://www.miitbeian.gov.cn">
                苏ICP备88885574号
            </a>
        </span>
    </div>        
</div>

/*
抉择语法联结应用
定位指标：<span class='copyright'>版权</span>
*/
/*第一种办法 标签+class+子元素*/
div.footer1 > span.copyright
/*第二种办法 属性+后辈元素*/
div[id='bottom'] span[class='copyright']
/*第三种办法 属性+后辈元素*/
#bottom .copyright
.footer1 .copyright

依据秩序抉择子节点

父元素的第n个子节点

应用 nth-child(n)，能够指定抉择父元素的第几个子节点。

留神：

这里的排序，是所有的子元素一起排序，而不是按标签分类后再排序

下标的开始值是 1

父元素的倒数第n个子节点

应用 nth-last-child(n)，能够倒过去，抉择的是父元素的倒数第几个子节点。

父元素的第几个某类型的子节点

应用 nth-of-type(n)，能够指定抉择的元素是父元素的第几个某类型的子节点。

父元素的倒数第几个某类型的子节点

应用 nth-last-of-type(n)，能够倒过去，抉择父元素的倒数第几个某类型的子节点。

奇数节点和偶数节点

如果要抉择的是父元素的偶数节点，应用 nth-child(even)

如果要抉择的是父元素的奇数节点，应用 nth-child(odd)

如果要抉择的是父元素的某类型偶数节点，应用 nth-of-type(even)

如果要抉择的是父元素的某类型奇数节点，应用 nth-of-type(odd)

依据兄弟节点抉择

相邻兄弟节点抉择

应用办法：标签类型1 + 标签类型2，两者为兄弟标签（同级标签），定位到紧跟标签类型1 后的第1个标签类型2 的元素，如下图所示：

后续所有兄弟节点抉择

应用办法：标签类型1 ~ 标签类型2，抉择标签类型1 后续兄弟节点中所有的标签类型2 的元素，如下图所示：

关于selenium:selenium-定位方式3cssselector

`find_element_by_css_selector`

原理

依据标签（tag）名定位

依据 id 定位

依据 class 定位

依据子元素与后辈元素定位

子元素

后辈元素

依据属性定位

联结应用

依据秩序抉择子节点

父元素的第n个子节点

父元素的倒数第n个子节点

父元素的第几个某类型的子节点

父元素的倒数第几个某类型的子节点

奇数节点和偶数节点

依据兄弟节点抉择

相邻兄弟节点抉择

后续所有兄弟节点抉择

总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于selenium:selenium-定位方式3cssselector

find_element_by_css_selector

原理

依据标签（tag）名定位

依据 id 定位

依据 class 定位

依据子元素与后辈元素定位

子元素

后辈元素

依据属性定位

联结应用

依据秩序抉择子节点

父元素的第n个子节点

父元素的倒数第n个子节点

父元素的第几个某类型的子节点

父元素的倒数第几个某类型的子节点

奇数节点和偶数节点

依据兄弟节点抉择

相邻兄弟节点抉择

后续所有兄弟节点抉择

总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

`find_element_by_css_selector`

发表回复取消回复