关于机器学习:机器学习1

挑战
一：制订问题
二：高质量数据，隐衷问题
三：模型训练越来越简单，越贵，数据须要越多
四：模型部署；须要硬件等条件，模型自身运行的速度等
五：监控模型；数据分布的变动，公平性问题因为算法自身没有偏差性，但数据会

角色
领域专家：对商业理解，晓得数据重要性和去哪里找到数据
数据科学家：数据挖掘、模型训练和部署
机器学习专家：对模型依据产品须要进行定制化
开发工程师：模型的开发、训练、保护等的工业化施行

anaconda考察的数据科学家工作工夫散布

数据集

Paperwithcodes Datasets
Kaggle Datasets
Google Dataset search
开源工具包带的数据集：tensorflow,huggingface(文本数据集)
各类会议、公司组织的比赛里的数据集
气象、整个web网页等P级别数据
本人所在组织数据湖中的数据

数据交融
表关联，找到key。顺便解决数据反复、缺失、计量单位不统一等各种数据状况。

生成数据

GAN,图片生成
数据加强 data augmentations

找到适合的数据是个挑战

数据网页抓取Web scraping

from selenium import webdriverchrome_options=webdriver.ChromeOptions()chrome_options.headless=Truechrome=webdriver.Chrome(    chrome_options=chrome_options)page=chrome.get(url)

IP的话，通过亚马逊、微软等私有云。

用爬虫爬数据时，
chrome--Inspect 找到网页元素所在位置

sold_items=[a.text for a in page.find(    'div','ds-home-details-chip').find('p').find_all('span')]for item in sold_items:    if 'Sold:' in item:        result['Sold Price']=item.split('.')[1]    if 'Sold on' in item:        result['Sold On']=item.split(' ')[-1]