SQL是用于数据分析和数据处理的最重要的编程语言之一,因而与数据迷信相干的工作(例如数据分析师、数据科学家和数据工程师)在面试时总会问到对于 SQL 的问题。
SQL面试问题旨在评估应聘者的技术和解决问题的能力。因而对于应聘者来说,关键在于不仅要依据样本数据编写出正确的查问,而且还要像看待事实数据集一样思考各种场景和边缘状况。
在这篇文章中,我将介绍 SQL 面试问题中常见的模式,并提供一些在 SQL 查问中奇妙解决它们的技巧。
1
问问题
要搞定一场 SQL 面试,最重要的是尽量多问问题,获取对于给定工作和数据样本的所有细节。充沛了解需要后,接下来你就能够节俭很多迭代问题的工夫,并且能很好地解决边缘状况。
我留神到许多候选人常常还没齐全了解SQL问题或数据集,就间接开始编写解决方案了。之后,等我指出他们解决方案中存在的问题后,他们只好重复批改查问。最初,他们在迭代中节约了很多面试工夫,甚至可能到最初都没有找到正确的解决方案。
我倡议大家在加入SQL面试时,就当成是本人在和业务搭档共事。所以在你提供解决方案之前,应该要针对数据申请理解分明所有的需要。
举例:查找薪水最高的前 3 名员工。
样本employee_salary表
这里你应该要求面试官说分明“前三名”具体是什么意思。我应该在后果中包含 3 名员工吗?你要我怎么解决关系?此外,请仔细检查样本员工数据。salary 字段的数据类型是什么?在计算之前是否须要革除数据?
2
选哪一个JOIN
在SQL中,JOIN 通常用来合并来自多个表的信息。
有四种不同类型的 JOIN,但在大多数状况下,咱们只应用INNER、LEFT和FULLJOIN,因为 RIGHTJOIN并不是很直观,还能够应用 LEFTJOIN 很简略地重写。在 SQL 面试中,须要根据给定问题的特定要求抉择你要应用的正确JOIN。
举例:查找每个学生加入的课程总数。(提供学生 id、姓名和选课的数量。)
样本student和class_history表
你可能曾经留神到了,并非所有呈现在 class_history 表中的学生都呈现在了 student 表中,这可能是因为这些学生曾经毕业了。(这在事务数据库中实际上是十分典型的状况,因为不再沉闷的记录往往会被删除。)
依据面试官是否心愿后果中蕴含毕业生,咱们须要应用LEFT JOIN或 INNER JOIN来组合两个表:
WITH class_count AS ( SELECT student_id, COUNT(*) AS num_of_class FROM class_history GROUP BY student_id)SELECT c.student_id, s.student_name, c.num_of_classFROM class_count c-- CASE 1: include only active studentsJOIN student s ON c.student_id = s.student_id-- CASE 2: include all students-- LEFT JOIN student s ON c.student_id = s.student_id
3
GROUP BY
GROUP BY是SQL中最重要的性能,因为它宽泛用于数据聚合。如果在一个 SQL 问题中看到诸如求和、平均值、最小值或最大值之类的关键字,这就表明你可能应该在查问中应用GROUP BY了。
一个常见的陷阱是在GROUP BY过滤数据时混同 WHERE和HAVING——我见过很多人犯了这个谬误。
举例:计算每个学生在每个学年的必修课程均匀 GPA,并找到每个学期中合乎 Dean’s List(GPA≥3.5)资格的学生。
样本gpa_history表
因为咱们在GPA计算中仅思考必修课程,因而须要应用WHERE is_required=TRUE来排除选修课程。
咱们须要每位学生在每学年的均匀GPA,因而咱们将同时GROUP BY student_id和school_year 列,并取gpa列的平均值。最初,咱们只保留学生均匀 GPA高于3.5的行,能够应用HAVING来实现。合起来是上面这样:
SELECT student_id, school_year, AVG(gpa) AS avg_gpaFROM gpa_historyWHERE is_required = TRUE GROUP BY student_id, school_yearHAVING AVG(gpa) >= 3.5
留神:每当在查问中应用GROUP BY时,都只能抉择group-by列和聚合列,因为其余列中的行级信息已被舍弃。
4
SQL 查问执行程序
大多数人会从SELECT开始,从上到下编写SQL查问。
但你晓得SQL引擎执行函数时要到前面才执行SELECT吗?以下是 SQL 查问的执行程序:
- FROM, JOIN
- WHERE
- GROUP BY
- HAVING
- SELECT
- DISTINCT
- ORDER BY
- LIMIT, OFFSET
再次思考后面的示例:
因为咱们想在计算均匀GPA之前过滤掉选修课程,所以我应用WHERE is_required=TRUE代替HAVING,因为WHERE会在GROUP BY和HAVING之前执行。我不能编写HAVING avg_gpa >= 3.5的起因是,avg_gpa被定义为SELECT的一部分,因而无奈在SELECT之前执行的步骤中援用它。
我倡议在编写查问时遵循引擎的执行程序,这在编写简单查问时会很有用。
5
Window 函数
Window函数也经常出现在SQL面试中。共有五种常见的Window函数:
- RANK/DENSE_RANK/ROW_NUMBER:它们通过排序特定列来为每行调配一个排名。如果给出了任何分区列,则即将在其所属的分区组中排名。
- LAG/LEAD:它依据指定的程序和分区组从前一行或后一行检索列值。
在SQL面试中,重要的是要理解排名函数之间的差别,并晓得何时应用LAG/LEAD。
举例:查找每个部门中薪水最高的前 3 名员工。
另一个示例employee_salary表
当一个SQL问题要求计算“TOP N”时,咱们能够应用ORDER BY或排名函数来答复问题。
但在这个示例中,它要求计算“每个 Y 中的 TOP N X”,这强烈暗示咱们应该应用排名函数,因为咱们须要对每个分区组中的行进行排名。
以下查问恰好能找到 3 名薪水最高的员工,而不管他们的关系如何,如下:
WITH T AS (SELECT *, ROW_NUMBER() OVER (PARTITION BY department_id ORDER BY employee_salary DESC) AS rank_in_depFROM employee_salary)SELECT * FROM TWHERE rank_in_dep <= 3 -- Note: When using ROW_NUMBER, each row will have a unique rank number and ranks for tied records are assigned randomly. For exmaple, Rimsha and Tiah may be rank 2 or 3 in different query runs.
此外,依据关系的解决形式,咱们能够抉择其余排名函数。同样,细节是很重要的!
ROW_NUMBER,RANK,DENSE_RANK后果比拟
6
反复项
SQL面试中的另一个常见陷阱是疏忽数据反复。
只管样本数据中的某些列仿佛具备不同的值,但面试官还是心愿候选人思考所有可能性,就像他们在解决实在数据集一样。
例如:在上一个示例employee_salary表中,能够让雇员共享雷同的名称。
要防止由反复项导致的潜在问题,一种简略办法是始终应用 ID 列惟一地标识不同的记录。
举例:应用 employee_salary 表查找每个部门所有员工的总薪水。
正确的解决方案是 GROUP BY employee_id,而后应用 SUM(employee_salary) 计算总薪水。如果须要雇员姓名,请在开端与 employee 表联接以检索雇员姓名信息。
谬误的办法是应用 GROUP BY employee_name。
7
NULL
在SQL中,任何谓词都能够产生三个值之一true,false和NULL,后者是unknown或missing数据值的保留关键字。解决NULL数据集时可能会意外地很辣手。
在SQL面试中,面试官可能会特地留神解决方案是否解决了NULL值。有时,很显著有一列是不能nullabl的,但对于其余大多数列来说,很有可能会有NULL值。
倡议:确认示例数据中的要害列是否为nullable,如果能够,请利用IS(NOT)NULL,IFNULL和COALESCE 之类的函数来笼罩这些边缘状况。
8
交换
最初一点也十分重要:在SQL面试期间要随时与面试官沟通交流。
我面试过的许多候选人都很噤若寒蝉,有疑难的时候才会知声。当然如果他们最终给出了完满的解决方案,那也不是什么问题。
然而,在技术面试期间放弃沟通交流往往会是有价值的。
例如:你能够议论对问题和数据的了解,阐明你打算如何解决问题,为什么应用某些函数而不是其余选项,以及正在思考哪些极其状况。
9
总结
- 首先要发问,收集所需的细节
- 在INNER,LEFT和FULL JOIN之间审慎抉择
- 应用GROUP BY聚合数据并正确应用WHERE和HAVING
- 理解三个排名函数之间的差别
- 晓得何时应用LAG/LEAD窗口函数
- 如果在创立简单的查问时遇到困难,请尝试遵循SQL执行程序
- 思考潜在的数据问题,例如反复和NULL值
- 与面试官交换你的思路
Xinran Waibel | 作者
王强 | 译者
https://www.infoq.cn/article/...