关于人工智能:NLP专栏简介数据增强智能标注意图识别算法多分类算法文本信息抽取多模态信息抽取可解释性分析性能调优等

39次阅读

共计 8139 个字符,预计需要花费 21 分钟才能阅读完成。

NLP 专栏简介:数据加强、智能标注、用意辨认算法 | 多分类算法、文本信息抽取、多模态信息抽取、可解释性剖析、性能调优、模型压缩算法等


专栏链接:NLP 畛域常识 + 我的项目 + 码源 + 方案设计


订阅本专栏你能取得什么?

前人栽树后人乘凉,本专栏提供材料:数据加强、智能标注、用意辨认算法 | 多分类算法、文本信息抽取、多模态信息抽取、可解释性剖析、性能调优、模型压缩算法等我的项目代码整合 省去你大把工夫,效率晋升。帮忙你疾速实现工作落地,以及科研 baseline。

自己后续会继续整合 ML、DRL、NLP 等相干畛域的体系化我的项目课程,不便入门同学疾速把握相干常识,后续会一直削减实战环节(较量、论文、事实利用等)。

  • 对于机器学习这块布局为:根底入门机器学习算法 —> 简略我的项目实战 —> 数据建模较量 —–> 相干事实中利用场景问题解决。一条路线帮忙大家学习,疾速实战。
  • 对于深度强化学习这块布局为:根底单智能算法教学(gym 环境为主)—-> 支流多智能算法教学(gym 环境为主)—-> 单智能多智能题实战(论文复现偏业务如:无人机优化调度、电力资源调度等我的项目利用)
  • 自然语言解决相干布局:除了单点算法技术外,次要围绕常识图谱构建进行:信息抽取相干技术(含智能标注)—> 常识交融 —-> 常识推理 —-> 图谱利用

上述对于你把握后的期许:

  1. 对于 ML,心愿你后续能够乱杀数学建模相干较量(加入就获奖保底,top 还是难的须要钻研)
  2. 能够理论解决事实中一些优化调度问题,而非停留在 gym 环境下的一些游戏 demo 玩玩。(更深层次可能须要本人钻研了,难度还是很大的)
  3. 把握可常识图谱全流程构建其中各个重要环节算法,蕴含图数据库相干常识。

这三块畛域耦合状况比拟大,后续会通过比方:搜寻举荐零碎整个我的项目进行耦合,各项算法都会耦合在其中。举例:常识图谱就会用到(图算法、NLP、ML 相干算法),搜寻举荐零碎(除了该畛域召回粗排精排重排混排等算法外,还有强化学习、常识图谱等耦合在其中),后续会继续实现。

1. 专栏目录如下

试读博文仅,简略展现一下目录流程,具体内容的 xmind 见:点击查看:具体版内容介绍

2. 文章合集

2.1 数据标注(智能标注)

A.1[数据标注]:强烈推荐数据标注平台 doccano—- 简介、装置、应用、踩坑记录

A.2【数据标注】:基于 Label studio 的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等

A.3【数据标注】基于 Label studio 的训练数据标注指南:(智能文档)文档抽取工作、PDF、表格、图片抽取标注等

A.4.【数据标注】基于 Label studio 的训练数据标注指南:文本分类工作

B.1【智能标注】:基于 hugging face 预训练模型的实体辨认计划:生成 doccano 要求 json 格局

B.2【智能标注】:被动学习(Active Learning)简介综述汇总以及支流技术计划

B.3【智能标注】:基于 Labelstudio 的 UIE 半监督深度学习的智能标注计划(云端版),提效。

B.4【智能标注】:基于 Labelstudio 的 UIE 半监督智能标注计划(本地版),赶快用起来啦。

2.2 信息抽取

2.2.1 文本信息抽取

[C.1 百度飞桨:ERNIE 3.0、通用信息抽取 UIE、paddleNLP 的装置应用[一]](https://blog.csdn.net/sinat_39620217/article/details/125050547)

C.2 产业利用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感剖析等}、文本纠错、问答零碎、闲聊机器人、定制训练

C.3 常识图谱我的项目实战(一):瑞金医院 MMC 人工智能辅助构建常识图谱 – 初赛实体辨认

C.4.1 快递单中抽取要害信息【一】—- 基于 BiGRU+CR+ 预训练的词向量优化

C.4.2 快递单信息抽取【二】基于 ERNIE1.0 至 ErnieGram + CRF 预训练模型

C.4.3 快递单信息抽取【三】– 五条标注数据进步准确率,仅需五条标注样本,疾速实现快递单信息工作

C.4.4 Paddlenlp 之 UIE 模型实战实体抽取工作【打车数据、快递单】

C.4.5 PaddleNLP UIE– 小样本疾速晋升性能(含 doccona 标注)

C.6 基线晋升至 96.45%:2022 司法杯犯罪事实实体辨认 + 数据蒸馏 + 被动学习

[C.7[信息抽取]基于 ERNIE3.0 的多对多信息抽取算法:属性关系抽取](https://blog.csdn.net/sinat_39620217/article/details/128165963)

C.9 文档级关系抽取:基于构造先验产生注意力偏差 SSAN 模型

[C.10[完整版]文档级关系抽取:基于构造先验产生注意力偏差 SSAN 模型](https://blog.csdn.net/sinat_39620217/article/details/130013540)

2.2.2 多模态信息抽取

C.8 基于 ERNIELayout&PDFplumber-UIEX 的多计划学术论文信息抽取

继续更新中

2.3 用意辨认分类算法

[D.1 利用实际:Paddle 分类模型大集成者[PaddleHub、Finetune、prompt]](https://blog.csdn.net/sinat_39620217/article/details/125949459)

D.2 基于 ERNIR3.0 文本分类以中医疗搜寻检索词用意分类 (KUAKE-QIC) 为例【多分类(单标签)】

D.3 基于 ERNIR3.0 文本分类以 CAIL2018-SMALL 数据集罪名预测工作为例【多标签】

D.4 基于 Ernie-3.0 CAIL2019 法研杯因素辨认多标签分类工作

D.5 基于 ERNIR3.0 文本分类:WOS 数据集为例(档次分类)

D.6 小样本学习在文心 ERNIE3.0 多分类工作利用 – 提醒学习

D.7 UIE 分类模型【以情感偏向剖析新闻分类为例】含智能标注计划)

2.4 深度学习可解释性

[E.1[可解释性剖析]:AiTrust 下预训练和小样本学习在中文医疗信息处理挑战榜 CBLUE 体现](https://blog.csdn.net/sinat_39620217/article/details/127068291)

[E.2[可解释性剖析]:推广 TrustAI 可信剖析:通过晋升数据品质来加强在 ERNIE 模型下性能](https://blog.csdn.net/sinat_39620217/article/details/127264458)

2.5 模型性能优化 & 模型压缩

F.1【性能优化模型压缩】UIE_Slim 满足工业利用场景,解决推理部署耗时问题,晋升效力,常识蒸馏,模型剪裁。

F.2【性能优化模型压缩】常识蒸馏相干技术【模型蒸馏、数据蒸馏】以 ERNIE-Tiny 为例

F.3【性能优化模型压缩】在数据加强、蒸馏剪枝下 ERNIE3.0 分类模型性能晋升

F.4【性能优化模型压缩】Paddle 模型性能剖析工具 Profiler:定位瓶颈点、优化程序、晋升性能

F.5【性能优化模型压缩】VisualDL 2.0 利用降级 – 基于「手写数字辨认」模型的全功能展现

F.6【性能优化模型压缩】可视化剖析工具 VisualDL 2.4 强势来袭!新增:动态图模型可视化和性能剖析

2.6 其余 NLP 技术

G.1 用 python 进行精密中文分句(基于正则表达式),HarvestText:文本开掘和预处理工具

G.2 NLP 畛域工作如何抉择适合预训练模型以及抉择适合的计划【标准倡议】【ERNIE 模型首选】

G.3 PaddleHub– 飞桨预训练模型利用工具{格调迁徙模型、词法剖析情感剖析、Fine-tune API 微调}【一】

G.4PaddleHub–{超参优化 AutoDL Finetuner}【二】

G.5 PaddleHub 实战篇 {词法分析模型 LAC、情感分类 ERNIE Tiny} 训练、部署【三】

G.6 PaddleHub 实战篇{ERNIE 实现文新闻本分类、ERNIE3.0 实现序列标注}【四】

3. 局部成果展现

3.1 智能标注

3.2 命名实体辨认,关系抽取

局部成果展现

黄峥,1980 年出生于浙江杭州,拼多多公司创始人,本科毕业于浙江大学、硕士学位毕业于威斯康星大学麦迪逊分校。{'公司': [{'text': '拼多多', 'start': 16, 'end': 19, 'probability': 0.935215170074585, 'relations': {'高管': [{'text': '黄峥', 'start': 0, 'end': 2, 'probability': 0.9996391253586268}]}}]}
哔哩哔哩公司的创始人是徐逸, 徐逸是最早的哔哩哔哩创始人, 但始终在幕后, 没有特地公开。已经是 Acfun 弹幕网的会员, 而后模拟 Acfun 建设了本人的网站, 当初是董事。{'公司': [{'text': '哔哩哔哩公司', 'start': 0, 'end': 6, 'probability': 0.7246855227849665, 'relations': {'高管': [{'text': '徐逸', 'start': 11, 'end': 13, 'probability': 0.9985462800938478}]}}]}
城市内交通费 7 月 5 日金额 114 广州至佛山
从百度大厦到龙泽苑东区打车费二十元
上海虹桥高铁到杭州工夫是 9 月 24 日费用是 73 元
上周末坐动车从北京到上海破费五十块五毛
昨天北京飞上海话费一百元

{"出发地": [{"text": "广州", "start": 15, "end": 17, "probability": 0.9073772252165782}], "目的地": [{"text": "佛山", "start": 18, "end": 20, "probability": 0.9927365183877761}], "工夫": [{"text": "7 月 5 日", "start": 6, "end": 10, "probability": 0.9978010396512218}]}
{"出发地": [{"text": "百度大厦", "start": 1, "end": 5, "probability": 0.968825147409472}], "目的地": [{"text": "龙泽苑东区", "start": 6, "end": 11, "probability": 0.9877913072493669}]}
{"目的地": [{"text": "杭州", "start": 7, "end": 9, "probability": 0.9929172180094881}], "工夫": [{"text": "9 月 24 日", "start": 12, "end": 17, "probability": 0.9953342057701597}]}
{#"出发地": [{"text": "北京", "start": 7, "end": 9, "probability": 0.973048366717471}], "目的地": [{"text": "上海", "start": 10, "end": 12, "probability": 0.988486130309397}], "工夫": [{"text": "上周末", "start": 0, "end": 3, "probability": 0.9977407699595275}]}
{"出发地": [{"text": "北京", "start": 2, "end": 4, "probability": 0.974188953533556}], "目的地": [{"text": "上海", "start": 5, "end": 7, "probability": 0.9928200521486445}], "工夫": [{"text": "昨天", "start": 0, "end": 2, "probability": 0.9731559534465504}]}

3.3 用意辨认多分类

input data: 黑苦荞茶的效用与作用及食用方法
label: 效用作用
---------------------------------
input data: 接壤痣会凸起吗
label: 疾病表述
---------------------------------
input data: 查看是否能怀孕挂什么科
label: 就医倡议
---------------------------------
input data: 鱼油怎么吃咬破吃还是间接咽下去
label: 其余
---------------------------------
input data: 幼儿挑食的生理起因是
label: 病因剖析
---------------------------------
input data: a high degree of uncertainty associated with the emission inventory for china tends to degrade the performance of chemical transport models in predicting pm2.5 concentrations especially on a daily basis. in this study a novel machine learning algorithm, geographically -weighted gradient boosting machine (gw-gbm), was developed by improving gbm through building spatial smoothing kernels to weigh the loss function. this modification addressed the spatial nonstationarity of the relationships between pm2.5 concentrations and predictor variables such as aerosol optical depth (aod) and meteorological conditions. gw-gbm also overcame the estimation bias of pm2.5 concentrations due to missing aod retrievals, and thus potentially improved subsequent exposure analyses. gw-gbm showed good performance in predicting daily pm2.5 concentrations (r-2 = 0.76, rmse = 23.0 g/m(3)) even with partially missing aod data, which was better than the original gbm model (r-2 = 0.71, rmse = 25.3 g/m(3)). on the basis of the continuous spatiotemporal prediction of pm2.5 concentrations, it was predicted that 95% of the population lived in areas where the estimated annual mean pm2.5 concentration was higher than 35 g/m(3), and 45% of the population was exposed to pm2.5 >75 g/m(3) for over 100 days in 2014. gw-gbm accurately predicted continuous daily pm2.5 concentrations in china for assessing acute human health effects. (c) 2017 elsevier ltd. all rights reserved.
predicted result:
level 1: CS
level 2: 
----------------------------
input data: previous research exploring cognitive biases in bulimia nervosa suggests that attentional biases occur for both food-related and body-related cues. individuals with bulimia were compared to non-bulimic controls on an emotional-stroop task which contained both food-related and body-related cues. results indicated that bulimics (but not controls) demonstrated a cognitive bias for both food-related and body related cues. however, a discrepancy between the two cue-types was observed with body-related cognitive biases showing the most robust effects and food-related cognitive biases being the most strongly associated with the severity of the disorder. the results may have implications for clinical practice as bulimics with an increased cognitive bias for food-related cues indicated increased bulimic disorder severity. (c) 2016 elsevier ltd. all rights reserved.
predicted result:
level 1: Psychology
level 2: 
----------------------------
input data: posterior reversible encephalopathy syndrome (pres) is a reversible clinical and neuroradiological syndrome which may appear at any age and characterized by headache, altered consciousness, seizures, and cortical blindness. the exact incidence is still unknown. the most commonly identified causes include hypertensive encephalopathy, eclampsia, and some cytotoxic drugs. vasogenic edema related subcortical white matter lesions, hyperintense on t2a and flair sequences, in a relatively symmetrical pattern especially in the occipital and parietal lobes can be detected on cranial mr imaging. these findings tend to resolve partially or completely with early diagnosis and appropriate treatment. here in, we present a rare case of unilateral pres developed following the treatment with pazopanib, a testicular tumor vascular endothelial growth factor (vegf) inhibitory agent.
predicted result:
level 1: Medical
level 2: 

3.4 多模态信息抽取

3.5 模型优化

本专栏将继续更新

正文完
 0