共计 2037 个字符,预计需要花费 6 分钟才能阅读完成。
出品人:Towhee 技术团队
作者:张晨
机器学习或深度学习模型通常会学习潜在的 embedding 示意,以捕捉训练数据的畛域语义。这些 embedding 示意对于解释训练模型、构建新模型和剖析新数据集十分有价值。
然而,因为古代数据集的不透明性、高维度和大尺寸,解释和应用 embeddings 可能具备挑战性。为了应答这些挑战,本文推出了 WIZMAP,这是一种交互式可视化工具,能够帮忙钻研人员和从业者轻松摸索大型 embeddings。凭借新鲜的多分辨率 embedding 总结办法和相熟的地图式交互设计,WIZMAP 使用户可能轻松导航和解释 embedding 空间。利用古代网络技术 WebGL 和 Web Workers 等工具,WIZMAP 能够间接在用户的 Web 浏览器和计算笔记本中扩大到数百万个 embedding 点,而无需专用的后端服务器。
|WIZMAP 使机器学习钻研人员和领域专家可能轻松摸索和解释不同粒度级别的数百万个 embedding 向量。思考考察 1980 年至 2022 年 ACL Anthology 索引的所有 63k 自然语言解决论文 summarization 的 embeddings 的工作。(A)Map view 严密集成了等值线图层、散点图和主动生成的多分辨率 embedding summarization 可帮忙用户浏览广大的 embedding 空间。(B)搜寻面板使用户可能通过疾速全文 embedding 搜寻来疾速测试他们的假如。(C)控制面板容许用户自定义 embedding 可视化、比拟多个 embedding 组,并察看 embeddings 如何随工夫演变。
在应用 WIZMAP 前,用户须要本人抉择抽取 embedding 的模型,比方 word2vec, CLIP 等。而后抉择降维投影办法,比方 PCA,t-SNE,UMAP 等,将 embedding 向量升高到 2 维。通过这两步后,用户就能够导入数据集的这些 2 维向量,在 WIZMAP 上出现进去。
WIZMAP 有两大特点,一个是能够解决大规模的 embedding 数据,另一个是能够对这些 embeding 进行主动 summarizing。这得益于它的多分辨率四叉树聚合与可扩大的叶级 summarization 技术。
- 四叉树聚合。从每个 embedding 点登程,构建了一个四叉树,这是一种递归划分 2d 空间的树数据结构。而后自下而上遍历树,在每次迭代中,首先提取每个叶节点中 embeddings 的 summarization,而后将最低级别的叶节点与其父节点合并。这个过程递归地持续,造成越来越大的叶节点,直到整个树合并为根处的单个节点。最初,将事后计算的 embedding summarization 映射到适合的粒度级别,并在用户放大或放大 WIZMAP 时动态显示它们。
- 可扩大的叶级 summarization。在执行四叉树聚合时,钻研人员能够灵便地抉择任何适合的办法来从叶节点汇总 embedding。对于文本 embeddings,本文提出了 t-TF-IDF(基于图块的 TFIDF),相似于 c-TF-IDF(基于分类的 TF-IDF),在计算 TF-IDF 分数之前将集群中的文档组合成元文档。这里,将每个叶节点(即四叉树分区中的图块)中的所有文档合并为元文档,并计算所有叶节点上的 TF-IDF 分数。最初,提取 t-TF-IDF 分数最高的关键词来总结叶节点中的 embeddings。这种办法是可扩大的并且是四叉树聚合的补充。因为文档合并是分层的,所以只结构一次 n 元语法计数矩阵,并在每次聚合迭代中仅应用一次矩阵乘法来更新它。对于非文本数据,通过在叶节点中查找最靠近 embeddings 质心的点来总结 embedding。
当然本文也指出了,不良行为者可能会利用应用 WIZMAP 取得的见解来达到歹意目标。例如,钻研表明机器学习 embeddings 蕴含社会偏见。因而,不良行为者能够通过注入已知与性别和种族偏见相干的 embeddings 输出来操纵和毁坏机器学习预测。有偏见的 embeddings 的潜在危害值得进一步钻研。
目前在 WIZMAP 的 Gallery 里提供了三个能够间接玩的场景:
- IMDB Review Comments
- ACL Paper Abstracts
- DiffusionDB Prompts + Images
大家间接在浏览器关上就能够体验。
- 参考链接:
代码地址:https://github.com/poloclub/wizmap
论文地址:https://arxiv.org/abs/2306.09328v1
🌟全托管 Milvus SaaS/PaaS 行将上线,由 Zilliz 原厂打造!笼罩阿里云、百度智能云、腾讯云、金山云。目前已反对申请试用,企业用户 PoC 申请或其余商务单干请分割 business@zilliz.com。
- 如果在应用 Milvus 或 Zilliz 产品有任何问题,可增加小助手微信“zilliz-tech”退出交换群。
- 欢送关注微信公众号“Zilliz”,理解最新资讯。
本文由 mdnice 多平台公布