关于pandas:pandas-清洗-MySQL-数据

47次阅读

共计 1238 个字符，预计需要花费 4 分钟才能阅读完成。

应用 pd 的 read_sql 读取数据

import pymysql
import pandas as pd

self.conn = pymysql.connect(host=host, user=user,
password=pass, db=db, charset='utf8')

sql = 'select * from table_name'
df = pd.read_sql(sql, con=self.conn)

解决空值以及空格应用 pd 的 strip 办法以及 dropna 办法

df['product_name'].str.strip() 
# 删除列 `product_name` 为 `NaN` 的行 
df.dropna(subset=['product_name'], inplace=True)

解决异样值应用 pd 的 replace 办法

df.replace(' ', np.nan, inplace=True)

数据从新写入 MySQL 应用 pd 的 to_sql 办法

df.to_sql(name=table_name, con=self.conn, if_exists='append', index=True)

1、pd 的 `to_sql` 不能应用 `pymysql` 的连贯，否则就会间接报错

pandas.io.sql.DatabaseError: Execution failed on sql 'SELECT name FROM sqlite_master WHERE type='table'AND name=?;': not all arguments converted during string formatting

须要改为

from sqlalchemy import create_engine

engine = create_engine("mysql+pymysql://user:pass@host:port/db")

保留在 mysql 中的数据中有空值，然而应用 pd.str.strip() 解决没有用
应用 replace 替换空格、空值为 nan 也没有用

解决办法：replace 应用正则替换

# 替换 \r\n\t 以及 html 中的 \xa0
df.replace(r'\r|\t|\n|\xa0', '', regex=True, inplace=True)
# 替换空格，将空格替换为空字符串
df['product_name'].replace(r'','', regex=True, inplace=True)
# 将空字符串替换为 nan
df['product_name'].replace(r'', np.nan, regex=True, inplace=True)
# 将乱码替换替换为空字符串（正则为匹配不是中文、字母、数字组成的字符串）df['product_name'].replace(r'[^\u4e00-\u9fa5_a-zA-Z0-9]', np.nan, regex=True, inplace=True)

本文是有 FreeOpenWrite 公布

正文完

python

发表至： python

2021-04-14

0

关于python:使用分治法解决凸包问题

关于python:Python中对于datetime的时区转换

关于python:用Python实现简单的图像识别

关于python:8个优秀的数据挖掘工具

关于Flink:实时-OLAP-从-0-到-1

关于pandas:pandas-清洗-MySQL-数据

读取数据

空值空格解决

异样值解决

数据从新写入到 MySQL

问题

1、pd 的 `to_sql` 不能应用 `pymysql` 的连贯，否则就会间接报错

2、空值解决的问题

Just My Socks（注册教程内含优惠码）

关于pandas:pandas-清洗-MySQL-数据

读取数据

空值空格解决

异样值解决

数据从新写入到 MySQL

问题

1、pd 的 to_sql 不能应用 pymysql 的连贯，否则就会间接报错

2、空值解决的问题

Just My Socks（注册教程 内含优惠码）

1、pd 的 `to_sql` 不能应用 `pymysql` 的连贯，否则就会间接报错

Just My Socks（注册教程内含优惠码）