本文的所有演示数据,均是基于下方的四张表。对于下方各表之间的关联关系,我就不给大家阐明了,仔细观察字段名,应该就能够发现。
简介
pandas
中的 DataFrame 是一个二维表格,数据库中的表也是一个二维表格,因而在 pandas 中应用 sql 语句
就显得瓜熟蒂落,pandasql 应用 SQLite 作为其操作数据库,同时 Python 自带SQLite 模块
,不须要装置,便可间接应用。
这里有一点须要留神的是
:应用 pandasql 读取 DataFrame 中日期格局的列,默认会读取年月日、时分秒,因而咱们要学会应用 sqlite 中的日期处理函数,不便咱们转换日期格局,下方提供 sqlite 中罕用函数大全,心愿对你有帮忙。
sqlite 函数大全:http://suo.im/5DWraE
导入相干库:
import pandas as pd
from pandasql import sqldf
申明全局变量的 2 种形式
- 在应用之前,申明该全局变量;
- 一次性申明好全局变量;
在应用之前,申明该全局变量
df1 = pd.read_excel("student.xlsx")
df2 = pd.read_excel("sc.xlsx")
df3 = pd.read_excel("course.xlsx")
df4 = pd.read_excel("teacher.xlsx")
global df1
global df2
global df3
global df4
query1 = "select * from df1 limit 5"
query2 = "select * from df2 limit 5"
query3 = "select * from df3"
query4 = "select * from df4"
sqldf(query1)
sqldf(query2)
sqldf(query3)
sqldf(query4)
局部后果如下:
一次性申明好全局变量
df1 = pd.read_excel("student.xlsx")
df2 = pd.read_excel("sc.xlsx")
df3 = pd.read_excel("course.xlsx")
df4 = pd.read_excel("teacher.xlsx")
pysqldf = lambda q: sqldf(q, globals())
query1 = "select * from df1 limit 5"
query2 = "select * from df2 limit 5"
query3 = "select * from df3"
query4 = "select * from df4"
sqldf(query1)
sqldf(query2)
sqldf(query3)
sqldf(query4)
局部后果如下:
写几个简略的 SQL 语句
查看 sqlite 的版本
student = pd.read_excel("student.xlsx")
pysqldf = lambda q: sqldf(q, globals())
query1 = """select sqlite_version(*)"""
pysqldf(query1)
后果如下:
where 筛选
student = pd.read_excel("student.xlsx")
pysqldf = lambda q: sqldf(q, globals())
query1 = """
select *
from student
where strftime('%Y-%m-%d',sage) = '1990-01-01'
"""
pysqldf(query1)
后果如下:
多表连贯
student = pd.read_excel("student.xlsx")
sc = pd.read_excel("sc.xlsx")
pysqldf = lambda q: sqldf(q, globals())
query2 = """
select *
from student s
join sc on s.sid = sc.sid
"""
pysqldf(query2)
局部后果如下:
分组聚合
student = pd.read_excel("student.xlsx")
sc = pd.read_excel("sc.xlsx")
pysqldf = lambda q: sqldf(q, globals())
query2 = """
select s.sname as 姓名,sum(sc.score) as 总分
from student s
join sc on s.sid = sc.sid
group by s.sname
"""
pysqldf(query2)
后果如下:
union 查问
student = pd.read_excel("student.xlsx")
pysqldf = lambda q: sqldf(q, globals())
query1 = """
select *
from student
where strftime('%Y-%m',sage) = '1990-01'
union
select *
from student
where strftime('%Y-%m',sage) = '1990-12'
"""
pysqldf(query1)
后果如下:
以上就是本次分享的所有内容,想要理解更多 Python 常识欢送返回公众号:Python 编程学习圈,每日干货分享,发送“J”还可支付大量学习材料。