让我们从这样一个事实开始:我们每个人每天都会进行视觉搜索,例如,丢失了房门钥匙,并试图在公寓中的数百件其他物品中找到它们。随着时间的推移,我们越来越能够识别某些事物。
然而对于计算机来说,这个任务仍然相当困难。
图像搜索,其中搜索引擎接受文本查询并尝试找到最接近的视觉匹配,与现代视觉搜索有些不同。在视觉搜索过程中,查询的不是文本,而是图像。准确的视觉搜索要求搜索引擎执行比传统图像搜索文本查询所涉及的过程复杂得多的过程。
通常,作为此过程的一部分,深度神经网络会经过一系列测试,如下图所示,以密切模仿人脑在识别目标时的工作方式:
按颜色搜索:目标-干扰项相似度;按形状搜索:设定尺寸 爱沙尼号码数据 ;按颜色搜索:设置尺寸
按颜色搜索:目标-干扰项相似度;按形状搜索:设定尺寸;按颜色搜索:设置尺寸
认知偏差 的存在使得人类能够立即读取这些模式,但要集成到机器中要困难得多。从本质上讲,搜索引擎仍在努力完全按照我们的预期处理图像。但不幸的是,我们对自己思维的特殊性了解不够透彻,无法在另一个系统中重现它们。
尽管如此,这一领域已经取得了重大进展。 Google 上的图像文本搜索(例如 TinEye)已得到显着改进,图像搜索也是如此。这是一个有用的功能,但其局限性也很明显。
在过去的几年里,Facebook 成功地教会系统识别照片中特定人的面孔,就像一个人看到朋友的面孔时发生的过程一样。这个例子最接近释放视觉搜索的全部潜力,但在这种情况下,Facebook 最初将系统重点放在搜索面部上,也就是说,给了它一个明确的目的。
理想情况下,在线视觉搜索应该根据原始图像生成另一张相关图像。例如,我们可以在智能手机上拍摄椅子的照片,系统会选择与这件家具相匹配的壁纸或地毯的风格。