关于数据挖掘:开源周刊第一期

6次阅读

共计 2601 个字符,预计需要花费 7 分钟才能阅读完成。

Codon : 让 Python 领有 C/C++ 一样的速度

为了解决 python 运行速度,麻省理工学院的计算机科学家出手了,他们独特研发了一种名为 Codon 的 Python 编译器,能够将 Python 代码转化为本地机器代码,而不会对运行时的性能产生影响。

“ 在单线程上,比 Python 的典型速度进步了 10-100 倍或更多,”Codon repo 写道,”Codon 的性能通常与 C/C++ 的性能相当(有时甚至更好)。”

github 地址:

https://github.com/exaloop/codon

Rspack : 一个 Rust 写的打包构建工具,性能和用法上对齐 webpack

字节跳动刚刚开源 Rspack,一个 Rust 写的打包构建工具,性能和用法上对齐 webpack.

启动速度极快: 基于 Rust 实现,构建速度极快,带给你极致的开发体验。

闪电般的 HMR: 内置增量编译机制,HMR 速度极快,齐全胜任大型项目的开发

兼容 webpack 生态: 针对 webpack 的架构和生态进行兼容,无需从头搭建生态。

github 地址:

https://github.com/web-infra-dev/rspack

VSlide : 一款基于网页的数据可视化工具应运而生

VSlide,一款基于网页的数据可视化工具应运而生,旨在让普通用户便捷地创作反对交互式数据可视化图表的演示文稿。零代码制作交互式图表,点击式操作,推拽式布局,不须要任何根底, 应用文档具体。

github 地址:

https://github.com/shalom-lab/vslide

OpenChatKit : 前 OpenAI 研究员独特打造,ChatGPT 开源平替

ChatGPT 的开源平替来了,源代码、模型权重和训练数据集全副公开,OpenChatKit 一共蕴含 200 亿参数,在 EleutherAI 的 GPT-NeoX-20B(GPT- 3 开源替代品)上进行了微调,还能够连贯其它 API 或数据源进行检索等等。

GitHub 刚刚上线,就曾经取得了 800+ 标星。

github 地址:

https://github.com/togethercomputer/OpenChatKit

ChatWeb : 能够爬取任意网页并提取注释,生成概要

根本相似于现有的 chatPDF,自动化客服 AI 等我的项目的原理。

    1. 爬取网页
    1. 提取注释
    1. 对于每一段落,应用 gpt3.5 的 embeddingAPI 生成向量
    1. 每一段落的向量和全文向量做计算,生成概要
    1. 将向量和文本对应关系存入向量数据库
    1. 对于用户输出,生成向量
    1. 应用向量数据库进行最近邻搜寻,返回最类似的文本列表
    1. 应用 gpt3.5 的 chatAPI,设计 prompt,使其基于最类似的文本列表进行答复

就是先把大量文本中提取相干内容,再进行答复,最终能够达到相似冲破 token 限度的成果

github 地址:

https://github.com/SkywalkerDarren/chatWeb

DrissionPage : 一个基于 python 的网页自动化工具, 既能管制浏览器, 也能收发数据包

基于 python 的网页自动化工具。既能管制浏览器,也能收发数据包。可兼顾浏览器自动化的便利性和 requests 的高效率。功能强大,内置有数人性化设计和便捷性能。语法简洁而优雅,代码量少.

github 地址:

https://github.com/g1879/DrissionPage

DataX:阿里开源一款数据同步工具 DataX,稳固又高效,好用到爆!

DataX 是阿里云 DataWorks 数据集成 的开源版本,在阿里巴巴团体内被宽泛应用的离线数据同步工具 / 平台。DataX 实现了包含 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步性能

github 地址:

https://github.com/alibaba/DataX

ModelScope:一个“模型即服务”(MaaS)平台,旨在会集来自 AI 社区的最先进的机器学习模型,并简化在理论利用中应用 AI 模型的流程

ModelScope 开源了数百个 (以后 700+) 模型,涵盖自然语言解决、计算机视觉、语音、多模态、科学计算等,其中蕴含数百个 SOTA 模型。用户能够进入 ModelScope 网站 (modelscope.cn) 的模型核心零门槛在线体验,或者 Notebook 形式体验模型。

github 地址:

https://github.com/modelscope/modelscope

PhySO:能间接从数据中找到暗藏的法则,而且一步到位,间接给出对应公式

PhySO 背地的技术被叫做“深度符号回归”,应用循环神经网络(RNN)+ 强化学习实现。首先将前一个符号和上下文信息输出给 RNN,预测出后一个符号的概率分布,反复此步骤,能够生成出大量表达式。同时将物理条件作为先验常识纳入学习过程中,防止 AI 搞出没有理论含意的公式,能够大大减少搜寻空间。

再引入强化学习,让 AI 学会生成与原始数据拟合最好的公式。除了物理学者直呼 Amazing 之外,还有其余学科研究者赶来探讨,能不能把同款办法迁徙到他们的畛域。

github 地址:

https://github.com/WassimTenachi/PhySO

lama: 能够利用 AI 技术,无损擦除任意物体, 可离线在线应用

LaMa 是一个 AI 打消模型,在训练时(256×256)没有见过的更高分辨率(~2k)上,体现出惊人的泛化能力,并且即便在具备挑战性的场景下,例如周期构造的补全,也能达到优异的性能。

https://magicstudio.com/zh/magiceraser 这个网站是一个利用了 LAMA 模型,无损擦除照片中的人物、物品的在线工具。用户只须要上传照片,标记要去除的局部,而后下载解决后的照片。这个网站收费应用,不须要注册或登录。这个网站也有一个 iOS 应用程序,叫做 Magic Eraser Background Editor,能够提供更高分辨率的编辑和其余性能。这个网站的成果十分惊艳,能够很好地修复被擦除局部的背景。

github 地址:

https://github.com/advimman/lama

关注 vx 公众号“IT 新物种”,获取更多陈腐资讯

正文完
 0