关于机器学习:机器学习1

挑战
一：制订问题
二：高质量数据，隐衷问题
三：模型训练越来越简单，越贵，数据须要越多
四：模型部署；须要硬件等条件，模型自身运行的速度等
五：监控模型；数据分布的变动，公平性问题因为算法自身没有偏差性，但数据会

角色
领域专家：对商业理解，晓得数据重要性和去哪里找到数据
数据科学家：数据挖掘、模型训练和部署
机器学习专家：对模型依据产品须要进行定制化
开发工程师：模型的开发、训练、保护等的工业化施行

anaconda 考察的数据科学家工作工夫散布

数据集

Paperwithcodes Datasets
Kaggle Datasets
Google Dataset search
开源工具包带的数据集：tensorflow,huggingface(文本数据集)
各类会议、公司组织的比赛里的数据集
气象、整个 web 网页等 P 级别数据
本人所在组织数据湖中的数据

数据交融
表关联，找到 key。顺便解决数据反复、缺失、计量单位不统一等各种数据状况。

生成数据

GAN, 图片生成
数据加强 data augmentations

找到适合的数据是个挑战

数据网页抓取 Web scraping

from selenium import webdriver

chrome_options=webdriver.ChromeOptions()
chrome_options.headless=True
chrome=webdriver.Chrome(chrome_options=chrome_options)
page=chrome.get(url)

IP 的话，通过亚马逊、微软等私有云。

用爬虫爬数据时，
chrome–Inspect 找到网页元素所在位置

sold_items=[a.text for a in page.find('div','ds-home-details-chip').find('p').find_all('span')]
for item in sold_items:
    if 'Sold:' in item:
        result['Sold Price']=item.split('.')[1]
    if 'Sold on' in item:
        result['Sold On']=item.split(' ')[-1]