SQL是用于 数据分析和数据处理的最重要的编程语言之一,因而与数据迷信相干的工作(例如数据分析师、数据科学家和数据工程师)在面试时总会问到对于 SQL 的问题。
SQL 面试问题旨在 评估应聘者的技术和解决问题的能力 。因而对于应聘者来说,关键在于不仅要依据样本数据编写出正确的查问,而且还要像看待事实数据集一样 思考各种场景和边缘状况。
在这篇文章中,我将介绍 SQL 面试问题中常见的模式,并提供一些在 SQL 查问中奇妙解决它们的技巧。
1
问问题
要搞定一场 SQL 面试,最重要的是尽量 多问问题 ,获取 对于给定工作和数据样本的所有细节。充沛了解需要后,接下来你就能够节俭很多迭代问题的工夫,并且能很好地解决边缘状况。
我留神到许多候选人常常还没 齐全了解 SQL 问题或数据集,就间接开始编写解决方案了。之后,等我指出他们解决方案中存在的问题后,他们只好重复批改查问。最初,他们在迭代中节约了很多面试工夫,甚至可能到最初都没有找到正确的解决方案。
我倡议大家在加入 SQL 面试时,就当成是本人在和业务搭档共事。所以在你提供解决方案之前,应该要 针对数据申请理解分明所有的需要。
举例:
查找薪水最高的前 3 名员工。
样本 employee_salary 表
这里你应该要求面试官说分明“前三名”具体是什么意思。我应该在后果中包含 3 名员工吗?你要我怎么解决关系?此外,请仔细检查样本员工数据。salary 字段的数据类型是什么?在计算之前是否须要革除数据?
2
选哪一个 JOIN
在 SQL 中,JOIN 通常用来 合并 来自多个表的信息。
有四种不同类型的 JOIN,但在大多数状况下,咱们只应用 INNER、LEFT 和 FULLJOIN,因为 RIGHTJOIN 并不是很直观,还能够应用 LEFTJOIN 很简略地重写。在 SQL 面试中,须要根 据给定问题的特定要求抉择你要应用的正确 JOIN。
举例:
查找每个学生加入的课程总数。(提供学生 id、姓名和选课的数量。)
样本 student 和 class_history 表
你可能曾经留神到了,并非所有呈现在 class_history 表中的学生都呈现在了 student 表中,这可能是因为这些学生曾经毕业了。(这在事务数据库中实际上是十分典型的状况,因为不再沉闷的记录往往会被删除。)
依据面试官是否心愿后果中蕴含毕业生,咱们须要应用LEFT JOIN 或 INNER JOIN 来组合两个表:
WITH class_count AS (SELECT student_id, COUNT(*) AS num_of_class
FROM class_history
GROUP BY student_id
)
SELECT
c.student_id,
s.student_name,
c.num_of_class
FROM class_count c
-- CASE 1: include only active students
JOIN student s ON c.student_id = s.student_id
-- CASE 2: include all students
-- LEFT JOIN student s ON c.student_id = s.student_id
3
GROUP BY
GROUP BY是 SQL 中最重要的性能,因为它宽泛用于 数据聚合 。如果在一个 SQL 问题中看到诸如 求和、平均值、最小值或最大值 之类的关键字,这就表明你可能应该在查问中应用 GROUP BY 了。
一个常见的陷阱是在 GROUP BY 过滤数据时 混同 WHERE 和 HAVING——我见过很多人犯了这个谬误。
举例:
计算每个学生在每个学年的必修课程均匀 GPA,并找到每个学期中合乎 Dean’s List(GPA≥3.5)资格的学生。
样本 gpa_history 表
因为咱们在 GPA 计算中仅思考必修课程,因而须要应用 WHERE is_required=TRUE 来排除选修课程。
咱们须要每位学生在每学年的均匀 GPA,因而咱们将同时 GROUP BY student_id 和 school_year 列,并取 gpa 列的平均值。最初,咱们只保留学生均匀 GPA 高于 3.5 的行,能够应用 HAVING 来实现。合起来是上面这样:
SELECT
student_id,
school_year,
AVG(gpa) AS avg_gpa
FROM gpa_history
WHERE is_required = TRUE
GROUP BY student_id, school_year
HAVING AVG(gpa) >= 3.5
留神:每当在查问中应用 GROUP BY 时,都只能抉择 group-by 列和聚合列,因为其余列中的行级信息已被舍弃。
4
SQL 查问执行程序
大多数人会从 SELECT 开始,从上到下编写 SQL 查问。
但你晓得 SQL 引擎执行函数时要到前面才执行 SELECT 吗?以下是 SQL 查问的执行程序:
- FROM, JOIN
- WHERE
- GROUP BY
- HAVING
- SELECT
- DISTINCT
- ORDER BY
- LIMIT, OFFSET
再次思考后面的示例:
因为咱们想在计算均匀 GPA 之前过滤掉选修课程,所以我应用 WHERE is_required=TRUE 代替 HAVING,因为 WHERE 会在 GROUP BY 和 HAVING 之前执行。我不能编写 HAVING avg_gpa >= 3.5 的起因是,avg_gpa 被定义为 SELECT 的一部分,因而无奈在 SELECT 之前执行的步骤中援用它。
我倡议在编写查问时 遵循引擎的执行程序,这在编写简单查问时会很有用。
5
Window 函数
Window 函数也经常出现在 SQL 面试中。共有五种常见的 Window 函数:
- RANK/DENSE_RANK/ROW_NUMBER:它们通过排序特定列来为每行调配一个排名。如果给出了任何分区列,则即将在其所属的分区组中排名。
- LAG/LEAD:它依据指定的程序和分区组从前一行或后一行检索列值。
在 SQL 面试中,重要的是要 理解排名函数之间的差别,并晓得何时应用LAG/LEAD。
举例:
查找每个部门中薪水最高的前 3 名员工。
另一个示例 employee_salary 表
当一个 SQL 问题要求计算“TOP N”时,咱们能够应用 ORDER BY 或排名函数 来答复问题。
但在这个示例中,它要求计算“每个 Y 中的 TOP N X”,这强烈暗示咱们应该应用排名函数,因为咱们须要对每个分区组中的行进行排名。
以下查问恰好能找到 3 名薪水最高的员工,而不管他们的关系如何,如下:
WITH T AS (
SELECT
*,
ROW_NUMBER() OVER (PARTITION BY department_id ORDER BY employee_salary DESC) AS rank_in_dep
FROM employee_salary)
SELECT * FROM T
WHERE rank_in_dep <= 3
-- Note: When using ROW_NUMBER, each row will have a unique rank number and ranks for tied records are assigned randomly. For exmaple, Rimsha and Tiah may be rank 2 or 3 in different query runs.
此外,依据 关系的解决形式,咱们能够抉择其余排名函数。同样,细节是很重要的!
ROW_NUMBER,RANK,DENSE_RANK 后果比拟
6
反复项
SQL 面试中的另一个常见陷阱是 疏忽数据反复。
只管样本数据中的某些列仿佛具备不同的值,但面试官还是心愿候选人 思考所有可能性,就像他们在解决实在数据集一样。
例如:
在上一个示例 employee_salary 表中,能够让雇员共享雷同的名称。
要防止由反复项导致的潜在问题,一种简略办法是 始终应用 ID 列惟一地标识不同的记录。
举例:
应用 employee_salary 表查找每个部门所有员工的总薪水。
正确的解决方案是 GROUP BY employee_id,而后应用 SUM(employee_salary) 计算总薪水。如果须要雇员姓名,请在开端与 employee 表联接以检索雇员姓名信息。
谬误的办法是应用 GROUP BY employee_name。
7
NULL
在 SQL 中,任何谓词都能够产生三个值之一true,false 和 NULL,后者是 unknown 或 missing 数据值的保留关键字。解决 NULL 数据集时可能会意外地很辣手。
在 SQL 面试中,面试官可能会特地留神解决方案是否解决了 NULL 值。有时,很显著有一列是不能 nullabl 的,但 对于其余大多数列来说,很有可能会有 NULL 值。
倡议:确认示例数据中的要害列是否为 nullable,
如果能够,请利用 IS(NOT)NULL,IFNULL 和 COALESCE 之类的函数来笼罩这些边缘状况。
8
交换
最初一点也十分重要:在 SQL 面试期间要随时与面试官沟通交流。
我面试过的许多候选人都很噤若寒蝉,有疑难的时候才会知声。当然如果他们最终给出了完满的解决方案,那也不是什么问题。
然而,在技术面试期间 放弃沟通交流往往会是有价值的。
例如:你能够议论对问题和数据的了解,阐明你打算如何解决问题,为什么应用某些函数而不是其余选项,以及正在思考哪些极其状况。
9
总结
- 首先要发问,收集所需的细节
- 在 INNER,LEFT 和 FULL JOIN 之间审慎抉择
- 应用 GROUP BY 聚合数据并正确应用 WHERE 和 HAVING
- 理解三个排名函数之间的差别
- 晓得何时应用 LAG/LEAD 窗口函数
- 如果在创立简单的查问时遇到困难,请尝试遵循 SQL 执行程序
- 思考潜在的数据问题,例如反复和 NULL 值
- 与面试官交换你的思路
Xinran Waibel | 作者
王强 | 译者
https://www.infoq.cn/article/…