关于python:用Python分析广州房地产市场

39次阅读

共计 4535 个字符,预计需要花费 12 分钟才能阅读完成。

大家好,我是查理。有一阵工夫没有更文了,在此向关注我的敌人道个歉。这次我想联合房地产业务,针对广州这一城市,使用 Python 来进行数据分析,以期能为大家提供一点剖析思路。为什么要剖析房地产市场?房地产行业具备显明的地区特色,从房地产企业角度来讲,城市的抉择在肯定水平上决定了投资的成败。因而,对一个城市的市场研判就显得至关重要。早在几年前,同样的资金配置到南京和长沙两个城市,取得的投资回报差异是微小的。2017 年至 2019 年南京和长沙二手房(元 /㎡)

那么,咱们该如何剖析房地产市场 ?我从数据分析的角度,演绎梳理了一下思路,我认为一个城市的房地产市场剖析应该包含城市经济、相干政策、土地市场和房产市场 四个方面 。城市经济反映了一个城市的经济实力和潜能,能够细分出以下几个指标: 人均 GDP 和单位面积 GDP、人均财政收入和单位面积财政收入、高净值人群规模、人口净流入、第三产业占比、产业互补、房地产投资依赖度、城市友好度等 。政府制订的政策对房地产市场影响也是微小的,相关性较高的政策有 金融政策、人口政策、土地政策和购房政策 等。最初就是城市 土地市场和房产市场 剖析,这也是整个剖析 最外围 的局部。

房地产市场剖析框架接下来,我将联合 Python,以广州为例,尝试着剖析广州的 土地市场和房产市场,城市经济和相干政策的剖析将留在当前的文章中叙述。

广州土地市场剖析

土地市场包含一级市场和二级市场,一级市场是 土地使用权出让的市场 ,即国家通过其指定的政府部门将城镇国有土地或将农村集体土地征收为国有土地后出让给使用者的市场,出让的土地,能够是生地,也能够是通过开发达到“七通一平”的熟地。二级市场即 土地使用权出让后的再交易,土地使用者将达到规定、能够交易的土地使用权,进入流通领域进行交易的市场。限于篇幅,本文仅从土地一级市场着手进行数据分析。

获取土地数据

土地市场数据个别会公示在当地的 公共资源交易中心,但常常会呈现只公示当周或当月数据的状况,因而,咱们能够去找业余的土地网站获取交易数据。本文以土流网为例,这个网站构造简略,简略的 url 翻页结构,而后用 xpath 解析数据即可。限于篇幅,爬虫代码不做赘述,仅提供外围代码。

def main():
    for page in range(1,46):   #这里设置页数
        url = 'https://www.tudinet.com/market-213-0-0-0/list-o1ctime-pg{}.html'.format(page)
        print(url)
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
        }
        response = requests.request("GET", url, headers = headers)
        #print(response.status_code)
        if response.status_code == 200:
            re = response.content.decode('utf-8')
            print("正在提取第" + str(page) + "页")
            time.sleep(random.uniform(1,2))
            print("-" * 80)
            # print(re)
            parse = etree.HTML(re)  #解析网页
            items = parse.xpath('.//div[@class="land-l-cont"]/dl')
            parse_page(items)
            if len(items) < 10:  
                print('获取实现')
                break

if __name__ == '__main__':
    time.sleep(random.uniform(1,2))
    main()

运行爬虫代码,提取到广州 1238 块 土地数据。以下为简略荡涤后局部数据:

剖析土地数据

土地成交状态

近 10 年广州土地招拍挂成交状况

2011 年至 2020 年,广州土地招拍挂未成交和流拍土地规模占到一半,成交土地占比仅为 49.71%,整体成交率并不高。未成交的起因次要集中在没有动向竞拍人、出价未达到规定的底价等。

土地成交面积

近 10 年广州土地招拍挂成交面积(万㎡)

2011 年至 2016 年广州市土地招拍挂成交土地较少,2016 年成交布局建筑面积仅为 77.30 万㎡。2017 年当前成交规模开始步入低潮,2018 年成交布局建筑面积达到 1635.50 万㎡。2019 年以来广州土地招拍挂成交面积(万㎡)

从各月份土地成交来看,广州 2019 年前半年土拍市场绝对寂静,年中当前开始恢复正常,2019 年年底土拍市场进入炽热状态。2019 年 11 月和 12 月别离成交宗地 21 块和 38 块。

土地成交构造

近 10 年广州土地招拍挂成交土地类型占比(%)

近 10 年来广州成交土地次要以工业用地、其余用地和住宅用地为主,工业用地占比高达 41.19%,这也是广州工业企业发达的重要动因。

土地成交区域

近 10 年广州各区土地招拍挂成交面积(万㎡)

从成交区域来看,南沙区和番禺区各年都有肯定土地成交,越秀区和天河区成交土地较少。2020 年以来,南沙区土地市场炽热,成交面积远高于广州其余地区。

广州房产市场剖析

房产市场剖析次要包含 新房和二手房交易市场,因为个别的房产信息公布平台二手房数量远大于新房,为尽可能获取更大样本数据,进步剖析的准确性,本文以广州二手房成交数据进行房产市场剖析。

获取二手房数据

本文通过 Python 获取房天下颁布的广州二手房成交数据。房天下的爬虫也较为简单,爬虫逻辑相似贝壳找房,惟一须要留神的是当遍历完一个子地区后跳转下一个子地区的解决。以下给出外围代码:


def main():
    #增城 a080; 番禺 a078;南沙 a084;花都 a0639; 白云 a076;海珠 a074; 越秀 a072;荔湾 a071; 天河 a073; 从化 a079;黄埔 a075
    district_list = ['a084', 'a078','a080', 'a0639','a076', 'a074','a072', 'a071','a073', 'a079','a075']  #地区
    for district in district_list:
        for page in range(1,101):   #这里设置页数
            url = 'https://gz.esf.fang.com/chengjiao-{0}/i3{1}/'.format(district, page)
            print(url)
            headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
            }
            response = requests.request("GET", url, headers = headers)
            if response.status_code == 200:
                re = response.content.decode('utf-8')
                print("正在提取" + district +'第' + str(page) + "页")
                time.sleep(random.uniform(1,2))
                print("-" * 80)
                # print(re)
                parse = etree.HTML(re)  # 解析网页
                items = parse.xpath('.//div[@name="div_houselist"]/dl')
                parse_page(items)
                if len(items) < 30:  #遍历完子地区后跳转
                    print('获取实现')
                    break

if __name__ == '__main__':
    time.sleep(random.uniform(1,2))
    main()

代码运行几分钟就提取下 22170 套 广州二手房数据,简略荡涤后局部数据展现如下:

剖析二手房数据

量价走势

近 5 年广州二手房量价走势

从广州近几年二手房的量价走势来看,自 2015 年以来房价始终在上涨,2018 年二手房均价达到 35000 元 /㎡。2019 年房价有所回落,但成交二手房数量达到近几年峰值,全年成交 8940 套。2020 年 1 月至 6 月广州二手房量价走势

2020 年 1 月至 6 月,广州二手房均价与 2019 年根本持平。从成交量来看,2 月份受疫情影响仅成交 70 套二手房,3 月份以来,疫情逐步失去管制,房产市场向好,6 月份成交二手房 1337 套。

房价散布

2020 年上半年广州各区二手房均价(元 /㎡)

从房价散布来看,2020 年 1 月至 6 月二手房均价最高的地区为越秀区和天河区,均价别离为 46767.52 元 /㎡和 46433.89 元 /㎡。从化区房价最低,仅为 12190.67 元 /㎡。

楼盘成交 TOP20

2020 年 1 月至 6 月广州二手房成交 TOP20 楼盘

从楼盘成交来看,2020 年 1 月至 6 月广州二手房成交数量最多的楼盘为位于增城区的锦绣天伦花园,共计成交 78 套,成交均价为 18565.40 元 /㎡。

相关性剖析

import pandas as pdimport matplotlib.pyplot as pltimport matplotlib as mplimport seaborn as sns%matplotlib inlinesns.set_style('white')   #设置图形背景款式为红色 df = pd.read_excel("D:\data\ 地产数据分析 \ 广州二手房.xlsx")df = df[['室','厅','面积(㎡)','层数','成交单价(元 /㎡)']] #抉择须要的列 df.rename(columns={'室': 'room', '厅': 'hall', '面积(㎡)': 'area', '层数': 'floor', '成交单价(元 /㎡)': 'price'}, inplace=True)fig,axes=plt.subplots(1,2,figsize=(12,5))sns.regplot(x= 'room',y='price',data=df,color='r',marker='+',ax=axes[0])sns.regplot(x='hall',y='price',data=df,color='g',marker='*',ax=axes[1])

近 5 年广州二手房居室、面积、楼层与房价的关系

通过绘制广州二手房回归图,咱们发现,广州二手房居室数、面积与房价相关性并不大。屋宇楼层与房价看似具备较强的正相干,其实是受三个异样值影响,并不具备相关性。

广州房地产市场大节

从广州土地市场来看,近年来土地市场有所回暖,尤其是南沙区和番禺区土地市场成交稳固,将来仍具备发展潜力。从房产市场来看,广州二手房自 2019 年来价格变动幅度不大,维持 30000 元 /㎡左右。疫情下二手房交易受挫,局部房企尝试以价换量争取更大去化量。疫情逐步失去管制后,二手房交易显著复原。城中心房价维持高位,广州以北的从化和增城房价较低,仍具备回升空间。

申明

1. 本数据分析只做学习钻研之用处,提供的论断仅供参考;
2. 作者对地产行业理解甚微,相干形容可能存在不尽欠缺之处,请勿对号入座。

正文完
 0