关于美团:大规模食品图像识别TPAMI-2023论文解读

34次阅读

共计 12033 个字符,预计需要花费 31 分钟才能阅读完成。

美团根底研发平台视觉智能部与中科院计算所开展科研课题单干,独特构建大规模数据集 Food2K,并提出渐进式区域加强网络用于食品图像识别,相干研究成果已发表于 T -PAMI 2023。本文次要介绍了数据集特点、办法设计、性能比照,以及基于该数据集的迁徙试验等方面的内容,并对 Food2K 将来的工作进行了瞻望。心愿能为从事相干工作的同学带来一些帮忙或者启发。

1 引言

视觉智能部与中科院计算所于 2020-2021 年度开展了《细粒度菜品图像识别和检索》科研课题单干,本文系单方联结在 IEEE T-PAMI2023 公布论文《Large Scale Visual Food Recognition》(Weiqing Min, Zhiling Wang, Yuxin Liu, Mengjiang Luo, Liping Kang, Xiaoming Wei, Xiaolin Wei, Shuqiang Jiang*) 的解读。IEEE T-PAMI 全称为 IEEE Transactions on Pattern Analysis and Machine Intelligence,是模式识别、计算机视觉及机器学习畛域的国内顶级期刊,2022 年颁布的影响因子为 24.314。

食品计算 [1] 因可能撑持许多食品相干的利用失去越来越宽泛的关注。食品图像识别作为食品计算的一项根本工作,在人们通过识别食物进而满足他们生存需要方面施展着重要作用,如食品养分了解 [2,3] 和饮食治理 [4] 等。此外,食品图像识别是细粒度视觉辨认的一个重要分支,具备重要的实践钻研意义。

现有的工作次要是利用中小规模的图像数据集进行食品图像识别,如 ETH Food-101[5]、Vireo Food-172[6]和 ISIA Food- 500[7],然而它们的数据规模不足以撑持更简单更先进的食品计算模型的建设。思考到大规模数据集已成为许多惯例图像分类和了解工作倒退的要害推动因素,食品计算畛域也迫切需要一个大规模的食品图像数据集来进一步撑持各种食品计算工作,如跨模态食谱检索和生成[8,9]。因而咱们构建了一个新的大规模基准数据集 Food2K。该数据集蕴含 1,036,564 张食品图像和 2,000 类食品,波及 12 个超类(如蔬菜、肉类、烧烤和油炸食品等)和 26 个子类别。与现有的数据集相比,Food2K 在类别和图像数量均超过其一个数量级。除了规模之外,咱们还进行了严格的数据清理、迭代标注和多项业余查看,以保障其数据的品质。

在此基础上,咱们进一步提出了一个面向食品图像识别的深度渐进式区域加强网络。该网络次要由渐进式部分特色学习模块和区域特色加强模块组成。前者通过改良的渐进式训练方法学习多样互补的部分细粒度判断性特色(如食材相干区域特色),后者利用自注意力机制将多尺度的丰盛上下文信息融入到部分特色中,进一步加强特色示意。本文在 Food2K 上进行的大量试验证实了所提出办法的有效性,并且在 Food2K 上训练的网络可能改善各种食品计算视觉工作的性能,如食品图像识别、食品图像检索、跨模态菜谱 - 食品图像检索、食品检测和宰割等。咱们期待 Food2K 及在 Food2K 上的训练模型可能撑持研究者摸索更多的食品计算新工作。本论文相干的数据集、代码和模型可从网站下载:http://123.57.42.89/FoodProject.html。

2 Food2K 数据集

Food2K 同时蕴含东方菜和西方菜,在食品专家的帮忙下,咱们联合现有的食品分类办法建设了一个食品拓扑体系。Food2K 包含 12 个超类(如“面包”和“肉”),每个超类都有一些子类别(如“肉”中的“牛肉”和“猪肉”),每种食品类别蕴含许多菜肴(如“牛肉”中的“咖喱牛肉”和“小牛排”),如下图 2 所示:

下图 3 展现了每个食品类别的图像数量,Food2K 中每个类别的图像数量散布在 [153,1999] 之间不等,呈现出显著的长尾散布景象,与类别不平衡性。

下图 4 展现了 Food2K 与现有食品图像识别数据集的图像数量比照,能够看到 Food2K 在类别和图像数量上都远超过它们。

除此之外,Food2K 还具备以下特色:

1)Food2K 涵盖了更多样化的视觉外观和模式。不同食材组合、不同配饰、不同排列等都会导致同一类别的视觉差别。举例来说,陈腐水果沙拉因其不同的水果成分混合而呈现出不同的视觉外观。这些食品的独特特色导致了更高的类内差别,使大规模的食品图像识别变得更加艰难。

2)Food2K 蕴含更细粒度的类别标注。以“Pizza”为例,一些经典的食品数据集,如 Food-101,只有较粗粒度的披萨类。而 Food2K 中的披萨类则进一步分为更多的类别。不同披萨图像之间的轻微视觉差别次要是由独特的食材或同一食材的粒度不同引起的,这也导致了辨认的艰难。所有这些因素使 Food2K 成为一个新的更具挑战性的大规模食品图像识别基准,能够视为食品计算畛域的“ImageNet”。

3 办法

食品图像识别须要开掘食品图像的自身特点,并同时思考不同粒度的图像特色进行辨认。通过观察咱们发现,食品图像有着显著的全局特色和部分特色。

首先,食品图像显著有着全局的外观、形态和其余构造方面的特色,且该特色存在较大的类内差别。如下图 5 的“奶油核桃饼”显著有着变动不一的形态,炒面有着丰盛多样的纹理。尽管以后曾经有很多办法来解决这一问题,但大多数办法次要集中在提取某种类型的特色,而疏忽了其余类型的特色。

其次,食品图像中有细微差别的细节信息,局部细节信息是其要害的部分特色。在许多状况下,现有的神经网络无奈很好地开掘那些具备判断性的细节特色。如图 5 中第 3 栏所示,仅仅依附全局特色是不足以辨别“玉米羹”和“鸡蛋羹”,必须进一步开掘其食材信息的不同(图中黄色框内)。因而,如何更好地开掘食品图像的全局特色和部分特色,对于晋升食品图像特色表达能力来说尤为重要。

第三,如下图 6 所示,不同的食材在不同的食品类别中所占的权重也是不一样的。“香菜”在“香菜”拌牛肉中是一个关键性食材,必不可少,然而在“老醋海蜇”这道菜中仅仅是一个配料,并不总是呈现在该类别的所有图像中。因而须要开掘部分特色之间的关系,突出重点部分特色。进而进步食品辨认的准确率。

针对上述这些特点,本文设计了深度渐进式区域特色加强网络,它能够独特学习多样化且互补的部分和全局特色。该网络结构如下图 7 所示,该网络次要由三局部组成:全局特色学习模块、渐进式部分特色学习模块和区域特色加强模块。

其中,渐进式部分特色学习次要采纳渐进式训练策略来学习互补的多尺度细粒度的部分特色,例如不同的食材相干信息。区域特色加强应用自注意力机模块,将更丰盛的多尺度上下文信息合并到部分特中,以加强部分特色示意。而后,咱们通过特色交融层将加强的部分特色和来自全局特色学习模块的全局特色交融到对立的特色中。

此外,在模型训练时,本文逐渐渐进式地训练网络的不同阶段,最初将训练整个网络,并在此过程中引入 $KL$ 散度以减少各个阶段之间的差异性,以捕捉更丰盛多样化的部分信息。在推理阶段,思考到每个阶段的输入特色和交融后的特色之间的互补性,咱们将它们的预测后果联合起来失去最终分类得分。接下来,本文将具体介绍各个模块的计算原理。

全局 - 部分特色学习

食品辨认能够看作是一个层次化的工作,在不同超类下的食品图像有着显著可分的视觉差别,因而能够基于他们的全局特色进行辨认。

然而在同一超类下,不同子类的食品图像之间的差别却十分小。因而食品辨认须要同时学习食品图像的全局特色和部分特色。因而,咱们提取并交融了这两个特色,此过程能够应用两个子网络别离提取食品图像的全局和部分特色。这两个子网络能够是两个独立的网络,然而这部分工作为了提高效率并减小模型参数,本文中两个子网络共享根底网络的大部分层。

全局特色学习

渐进式部分特色学习

部分特色子网络旨在学习食品的辨别性细粒度特色。因为食材和烹饪格调的多样性,食品图像的要害判断局部是多尺度和不规则的。作为本办法第一个翻新点,咱们提出了渐进式训练策略来解决这个问题。在这种策略中,咱们首先训练具备较小感触野的网络较低阶段(能够了解为模型中较低的层),而后逐渐扩充该部分区域范畴,并引入新的层退出训练。

这种训练策略将迫使咱们的模型提取更精密的判断性部分特色,例如与食材相干的特色。在此过程之后,咱们从不同层提取特色以取得多尺度的特色示意。

因而,该策略能够首先在网络较浅的层中学习更稳固的细粒度信息,而后随着训练的进行逐步将注意力转移到在较深的层中学习粗粒度信息。具体来说,当具备不同粒度的特色被送入网络时,它能够提取出有判断性的部分细粒度特色,例如食材成分信息。然而,简略地应用渐进式训练策略不会失去多样化的细粒度特色,因为通过渐进式训练学习到的多尺度特色信息可能集中在食品图像中类似的区域。

而作为本办法第二个翻新点,咱们引入 KL 散度对来自不同阶段的特色进行离散化,以减少它们之间的差异性。咱们通过最大化不同阶段特色之间的 KL 散度值,能够迫使网络模型在不同阶段关注不同区域的多尺度特色,这有助于网络捕捉尽可能多的细节信息。

区域特色加强

不同于个别的细粒度工作中的辨认对象,食品图像没有固定的语义信息。现有的大部分食品识别方法间接开掘这些判断性部分特色,疏忽了部分特色之间的关系。因而,咱们采纳自注意力机制来学习不同部分特色之间的关系。该策略旨在捕捉特色图中同时呈现的食品特色。

训练和预测

在网络优化过程中,咱们迭代更新网络的参数。首先,咱们利用各 $U$ 个阶段的穿插熵损失,来反向流传以更新相应网络的参数。在此过程中,以后阶段的所有网络参数都将被优化,即便它们在之前的阶段曾经被更新过。而后在特色交融阶段,咱们利用另一个穿插熵损失函数来更新整个网络的参数。

此外,咱们的网络以端到端的形式进行训练。在渐进式训练过程中,对于每个阶段的输入,咱们采纳以下穿插熵损失:

4 试验

首先,咱们在 Food2K 上对现有的食品识别方法和咱们提出的办法进行了比拟。而后,咱们钻研 Food2K 在食品辨认、食品图像检索、跨模态菜谱 - 食品图像检索、食品检测和食品宰割五个食品计算工作上的泛化能力。

办法验证与剖析

本文应用在 ImageNet 上预训练的 ResNet[10]作为根底网络。对于试验性能评估,应用 Top- 1 准确率(Top-1)和 Top- 5 准确率(Top-5)对食品类别辨认进行评估。

在 Food2K 上的性能试验

表 1 展现了在 Food2K 上现有的食品识别方法和所提办法的性能比拟。从表中能够看出,咱们的办法在 Top- 1 和 Top- 5 准确率上别离高出骨干网络(ResNet)2.24% 和 1.4%,以 ResNet101 为主干的网络超过了现有的食品识别方法,获得了较好的辨认性能。同时,这也证实了联合渐进式训练策略和自注意力来加强部分特色示意的劣势。

在 Food2K 上的融化试验

本文在融化试验中次要探讨了以下几个问题:

(1)网络不同组件的有效性:从下图 8(a)中能够看出,渐进式策略(PL)的引入可能带来辨认性能增益,且与区域特色加强(RE)相结合后进一步提高了性能。这阐明咱们提出的 PL+RE 的学习策略可能无效地学到更具判断性的部分特色。

(2)渐进式学习阶段的数量 U:从下图 8(b)中能够看出,当 U 从 1 到 3 时,咱们的办法在 Food2K 上别离获得了 81.45%、82.11% 和 83.03% 的 Top- 1 分类准确率。模型的分类性能间断进步了 0.66% 和 0.92%。然而,当 U = 4 时,精度开始降落,可能的起因是浅层网络次要关注类别无关的特色。

(3)不同学习阶段的成果:为了更好地验证每个学习阶段和最终的连贯阶段的奉献,咱们还通过别离应用每个阶段的预测分数来进行评估。从下图 8(c)中能够看出,相比于应用繁多阶段进行预测,联结每个阶段的得分进行预测可能带来性能晋升。此外,咱们的办法将每个阶段的预测分数和联结特色的预测分数进行组合,可能实现最佳的辨认性能。

(4)均衡参数 $α$ 和 $β$:咱们还钻研了公式 $L= αLcon + βL_{KL}$ 中均衡参数对性能的影响。咱们发现,当 $α=0,β=1$ 时,即总损失仅包含 $KL$ 散度时,此时模型无奈收敛。当 $α=1,β=0$ 时,即仅应用穿插熵损失进行优化,模型的性能显著降落。当 $α=0.8,β=0.2$ 时,模型获得了最佳的辨认性能,这阐明联结渐进式训练和 KL 散度的策略可能进步多样化部分细节特色的学习能力。

可视化

咱们应用 Grad-CAM 来进行可视化剖析。如下图 9 所示,以“Wasabi Octopus”为例,基线办法仅能取得无限的信息,不同的特色图偏向于关注类似的区域。相比之下,咱们的办法在第一阶段更关注“Vegetable Leaf”,而第二阶段次要关注“Octopus”。而在第三阶段,咱们的办法能够捕捉该食品的总体特色,所以全局和部分特色都能被用于辨认。

基于 Food2k 的泛化试验

食品图像识别

咱们评估了在 Food2K 上预训练过的模型在 ETH Food-101、Vireo Food-172 和 ISIA Food-500 上的泛化能力。从表 2 中咱们能够看出,应用 Food2K 进行预训练后所有办法都获得了肯定水平的性能晋升,这阐明咱们的数据集在食品图像识别工作上具备良好的泛化能力。

食品检测

咱们评估了 Food2K 数据集对食品检测工作的泛化能力,评估工作为检测食品托盘中的食品。为了进行比拟,咱们还对在 ETH Food-101 上进行预训练的模型进行了评估。从表 3 中能够看出,应用 Food-101 和 Food2K 可能晋升所有办法的 mAP 和 AP75 指标,且 Food2K 所带来的性能增益要超过 Food-101。这阐明咱们的办法在食品检测工作上体现出良好的泛化性能。

食品宰割

咱们还评估了 Food2K 在食品宰割工作上的性能。从表 4 中能够看出,对于所有应用 Food2K 进行预训练的模型均能带来性能的晋升。这也证实了咱们的数据集在宰割工作上具备良好的泛化体现。

食品图像检索

咱们进一步在食品图像检索工作上验证 Food-2K 的泛化能力。具体来说,咱们在 ETH Food-101、Vireo Food-172 和 ISIA Food-500 数据集上试验,并应用与前文雷同的数据集划分形式。测试集的每张图片顺次作为查问项,其余的图片作为检索库。咱们别离应用穿插熵损失函数和以 Contrastive loss 和 Triplet loss 为代表的度量学习损失函数来微调 ResNet101 网络,并应用 mAP 和 Recall@1 指标评估办法的性能。

表 5 的后果展现了在 Food-2K 数据集上预训练后微调的网络获得了不同水平的性能增益。具体来说,在 Vireo Food-172 数据集上获得了最优性能,并在三个数据集上别离获得了 4.04%, 5.28% 和 4.16% 的性能增益。值得注意的是,当应用额定的 ETH Food-101 数据集预训练,以及在度量学习损失函数办法上微调的办法并没有获得性能增益,但应用 Food2K 数据集预训练依然获得了性能增益,这是因为食品图像检索工作对指标数据集之间的差别较为敏感(ETH Food-101 和 Vireo Food-172),并间接表明来自 Food2K 的图像类别和尺度的多样性晋升了食品图像检索工作的泛化性。

跨模态菜谱 - 食品图像检索

咱们还在跨模态菜谱 - 食品图像检索工作上进一步验证 Food2K 的泛化能力。具体来说,咱们在 Recipe1M[11]数据集上验证办法的性能,并应用与之雷同的数据集划分办法。与此同时,咱们应用 MedR 和 Recall@K 指标来评估。表 6 展现了咱们应用不同的网络骨干,并别离通过 ImageNet、ETH Food-101 和 Food2K 数据集预训练的后果。后果发现应用 ETH Food-101 和 Food2K 数据集预训练后在指标数据集上微调都获得了性能的增益,应用咱们的 Food-2K 数据集获得了更大的性能增益。

5 将来工作

本文全面的试验证实了 Food2K 对于各种视觉和多模态工作具备较好的泛化能力。基于 Food2K 的一些潜在钻研问题和方向如下。

(1)大规模鲁棒的食品图像识别:只管一些细粒度识别方法(如 PMG[12,22])在惯例细粒度辨认数据集中取得了最佳性能,但它们在 Food2K 上体现欠佳。尽管也有一些食品图像识别办法(如 PAR-Net[13])在中小规模食品数据集上获得了较好的性能,但它们在 Food2K 大规模食品图像识别数据集上也并不能取得更好的性能。

咱们揣测,随着食品数据的多样性和规模的减少,不同食材、配饰和排列等因素产生了更简单的视觉模式,以前的办法不再实用。因而,基于 Food2K 有更多的办法值得进一步探索。例如 Transformers[14,23]在细粒度图像识别方面产生了微小的影响,其在大规模数据集上的性能高于 CNNs。Food2K 能够提供足够的训练数据来开发基于 Transformers 的食品图像识别办法来进步性能。

(2)食品图像识别的人类视觉评估 :与人类视觉对个别物体辨认的钻研相比,对食品图像识别进行评估可能更加艰难。例如,食品具备较强的地区和文化特色,因而来自不同地区的人对食品图像识别会有不同的偏见。最近的一项钻研[15] 给出了人类视觉零碎和 CNN 在食品图像识别工作中的比拟。为了防止信息负担过重,须要学习的菜肴数量被限度在 16 种不同类型的食物中。更乏味的问题,值得进一步的摸索。

(3)跨模态迁徙学习的食品图像识别:咱们曾经验证了 Food2K 在各种视觉和多模态工作中的推广。将来咱们能够从更多的方面来钻研迁徙学习。例如,食物有独特的天文和文化属性,能够进行跨菜系的迁徙学习。这意味着咱们能够应用来自西方菜系的训练模型对东方菜系进行性能剖析,反之亦然。通过更细粒度的场景标注,如区域级甚至餐厅级标注,咱们能够进行跨场景迁徙学习来进行食品图像识别。此外,咱们还能够钻研跨超类别迁徙学习的食品图像识别。例如,咱们能够应用来自海鲜超类的训练模型来对肉类超类进行性能剖析。这些乏味的问题也都值得深刻摸索。

(4)大规模小样本食品图像识别 :最近,有一些基于中小型食品类别的小样本食品图像识别办法[16,17] 钻研。LS-FSFR[18]是一项更事实的工作,它旨在辨认数百种新的类别而不遗记以前的类别,且这些数百种新的食品类别的样本数很少。Food2K 提供了大规模的食品数据集测试基准来反对这项工作。

(5)更多基于 Food2K 的利用 :本文验证了 Food2K 在食品图像识别、食品图像检索、跨模态菜谱 - 食品图像检索、食品检测和宰割等各种工作中具备更好的泛化能力。Food2K 还能够反对更多新鲜的利用。食品图像生成是一种新鲜而乏味的利用,它能够通过生成反抗网络(GANs)[19] 合成与事实场景类似的新的食品图像。例如,Zhu 等人 [20] 能够从给定的食材和指令中生成高度实在和语义统一的图像。不同的 GANs,如轻量级的 GAN [21],也能够用于生成基于 Food2K 的食物图像。

(6) 面向更多任务的 Food2K 扩大 :基于训练的 Food2K 模型能够利用于更多与食物计算工作中。另外,思考到一些工作[6] 曾经表明食材能够进步辨认性能,咱们打算扩大 Food2K 来提供更丰盛的属性标注以反对不同语义级别的食品图像识别。咱们还能够在 Food2K 上进行区域级和像素级标注使其利用范畴更广。咱们还能够发展一些新的工作,如通过在 Food2K 上标注美学属性信息,对食品图像进行美学评估。

6 总结及瞻望

在本文中,咱们提出了具备更多数据量、更大类别覆盖率和更高多样性的 Food2K,它能够作为一个新的大规模食品图像识别基准。Food2K 实用于各种视觉和多模态工作,包含食品图像识别、食品图像检索、检测、宰割和跨模态菜谱 - 食品图像检索。

在此基础上,咱们进一步提出了一个面向食品图像识别的深度渐进式区域加强网络。该网络次要由渐进式部分特色学习模块和区域特色加强模块组成。渐进式部分特色学习模块通过改良的渐进式训练方法学习多样互补的部分细粒度判断性特色,区域特色加强模块利用自注意力机制将多尺度的丰盛上下文信息融入到部分特色中以进一步加强特色示意。在 Food2K 上进行的大量试验证实了该办法的有效性。

美团自身有着丰盛的食品数据及业务利用场景,如何利用多元化数据进行食品图像细粒度剖析了解,解决业务痛点问题是咱们继续关注的方向。目前,美团视觉智能部继续深耕于食品细粒度辨认技术,并胜利将相干技术利用于按搜出图、点评智能举荐、扫一扫发现美食等不同的业务场景中,不仅晋升了用户体验,还升高了经营老本。

在技术积淀层面,咱们围绕此食品计算技术一直新陈代谢,目前申请专利 20 项,发表 CCF- A 类会议或期刊论文 4 篇(如 AAAI、TIP、ACM MM 等);咱们还加入了 2019 年和 2022 年 CVPR FGVC 细粒度辨认较量,并获得了一冠一亚的问题;同时在 ICCV 2021 上也胜利举办了以 LargeFineFoodAI 为主题的视觉研讨会,为推动食品计算畛域的倒退奉献了一份绵薄之力。

将来,咱们打算进一步围绕这条主线,摸索多模态信息融入、多任务学习等技术路线,一直积淀经验教训,并将相干技术推广到更多、更远、更有价值的生存服务场景中,从而更好地服务好社会。

7 参考文献

  • [1] W. Min, S. Jiang, L. Liu, Y. Rui, and R. Jain,“A survey on food computing,”ACM CSUR, vol. 52, no. 5, pp. 1–36, 2019.
  • [2] A. Meyers, N. Johnston, V. Rathod, A. Korattikara, A. Gorban, N. Silberman, S. Guadarrama, G. Papandreou, J. Huang, and K. P. Murphy,“Im2Calories: towards an automated mobile vision food diary,”in ICCV, 2015, pp. 1233–1241.
  • [3] Q. Thames, A. Karpur, W. Norris, F. Xia, L. Panait, T. Weyand, and J. Sim,“Nutrition5k: Towards automatic nutritional understanding of generic food,”in CVPR, 2021, pp. 8903–8911.
  • [4] Y. Lu, T. Stathopoulou, M. F. Vasiloglou, S. Christodoulidis, Z. Stanga, and S. Mougiakakou,“An artificial intelligence-based system to assess nutrient intake for hospitalised patients,”IEEE TMM, pp. 1–1, 2020.
  • [5] L. Bossard, M. Guillaumin, and L. Van Gool,“Food-101–mining discriminative components with random forests,”in ECCV, 2014, pp. 446–461.
  • [6] J. Chen and C.-W. Ngo,“Deep-based ingredient recognition for cooking recipe retrieval,”in ACM MM, 2016, pp. 32–41.
  • [7] W. Min, L. Liu, Z. Wang, Z. Luo, X. Wei, and X. Wei,“ISIA Food- 500: A dataset for large-scale food recognition via stacked globallocal attention network,”in ACM MM, 2020, pp. 393–401.
  • [8] J. Mar´ın, A. Biswas, F. Ofli, N. Hynes, A. Salvador, Y. Aytar, I. Weber, and A. Torralba,“Recipe1M+: A dataset for learning cross-modal embeddings for cooking recipes and food images,”IEEE T-PAMI, vol. 43, no. 1, pp. 187–203, 2021.
  • [9] H. Wang, G. Lin, S. C. H. Hoi, and C. Miao,“Structure-aware generation network for recipe generation from images,”in ECCV, vol. 12372, 2020, pp. 359–374.
  • [10] K. He, X. Zhang, S. Ren, and J. Sun,“Deep residual learning for image recognition,”in CVPR, 2016, pp. 770–778.
  • [11] A. Salvador, N. Hynes, Y. Aytar, J. Marin, F. Ofli, I. Weber, and A. Torralba,“Learning cross-modal embeddings for cooking recipes and food images,”in CVPR, 2017, pp. 3020–3028.
  • [12] R. Du, D. Chang, A. K. Bhunia, J. Xie, Z. Ma, Y. Song, and J. Guo,“Fine-grained visual classification via progressive multigranularity training of jigsaw patches,”in ECCV, 2020, pp. 153– 168.
  • [13] J. Qiu, F. P.-W. Lo, Y. Sun, S. Wang, and B. Lo,“Mining discriminative food regions for accurate food recognition,”in BMVC, 2019.
  • [14] Dosovitskiy, Alexey, et al. “An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale.” In ICLR, 2020.
  • [15] P. Furtado, M. Caldeira, and P. Martins,“Human visual system vs convolution neural networks in food recognition task: An empirical comparison,”in CVIU, 2020, pp. 102878.
  • [16] H. Zhao, K.-H. Yap, and A. Chichung Kot,“Fusion learning using semantics and graph convolutional network for visual food recognition,”in WACV, 2021, pp. 1711–1720.
  • [17] S. Jiang, W. Min, Y. Lyu, and L. Liu,“Few-shot food recognition via multi-view representation learning,”ACM TOMM, vol. 16, no. 3, pp. 87:1–87:20, 2020.
  • [18] A. Li, T. Luo, Z. Lu, T. Xiang, and L. Wang,“Large-scale few-shot learning: Knowledge transfer with class hierarchy,”in CVPR, 2019, pp. 7212–7220.
  • [19] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. WardeFarley, S. Ozair, A. Courville, and Y. Bengio,“Generative adversarial nets,”in NIPS, vol. 27, 2014.
  • [20] B. Zhu and C. Ngo,“CookGAN: Causality based text-to-image synthesis,”in CVPR, 2020, pp. 5518–5526.
  • [21] B. Liu, Y. Zhu, K. Song, and A. Elgammal,“Towards faster and stabilized gan training for high-fidelity few-shot image synthesis,”in ICLR, 2020.
  • [22] Zhu, H., Ke, W., Li, D., Liu, J., Tian, L., & Shan, Y. Dual cross-attention learning for fine-grained visual categorization and object re-identification. In CVPR 2-22(pp. 4692-4702).
  • [23] He, J., Chen, J. N., Liu, S., Kortylewski, A., Yang, C., Bai, Y., & Wang, C. . Transfg: A transformer architecture for fine-grained recognition. In AAAI 2022 (Vol. 36, No. 1, pp. 852-860).

8 本文作者

致岭、丽萍、君实、晓明等,均来自美团根底研发平台 / 视觉智能部。

浏览更多

| 在美团公众号菜单栏对话框回复【2022 年货】、【2021 年货】、【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词,可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品,著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者应用。任何商用行为,请发送邮件至 tech@meituan.com 申请受权。

正文完
 0