必一体育sport

025-52657056

地址：南京江宁区湖熟工业集中区波光路18号
电话：025-52657056
传真：025-52657058
邮箱：info@www.gzjs1688.com

必一体育sport

当前位置：首页 > 产品中心

超越感知：那些基于生物感官的AI算法

发布时间：2024/02/16 | 作者：必一体育点击量： 31

　　在我们探索宇宙和深海的同时，人类最复杂的前沿仍然隐藏在我们自己的头颅之中。神秘而复杂的大脑，这个自然界中最复杂的已知结构，不仅是思想和感觉的源泉，还是我们对世界感知的根本。正如物理学家理查德·费曼所说，“我所不能创造的，我便不能理解（What I cannot create, I do not understand）”，要想解锁这个谜团，我们便需要从头构建一个类似的人造大脑。当人造大脑已能复现人脑特征，那我们对自然之脑的理解无疑更为深入。

　　从视觉、听觉，再到嗅觉，我们的大脑处理感官信息的方式超乎想象。它能从混乱的视觉图像中辨识出熟悉的面孔，从嘈杂的环境中捕捉微弱的旋律，甚至在气味的复杂混合中识别出特定的气味。但这一切不仅仅是生物学的奇迹，也是人工智能未来发展的蓝图。通过学习和模仿大脑处理信息的方式，科学家们试图在人工神经网络中复现这些现象。本文将穿越人类大脑与人工智能之间的复杂迷宫，从视觉、听觉、嗅觉概述相关研究，探索人脑与人工神经网络的相似与差异，为下一代智能系统的设计提供方向。

　　当我们观察事物时，存在一个明显现象，相比倾斜方向的图像，我们更容易觉察到垂直或水平方向的图像。这被称为倾斜效应（oblique effect）。就像下图所展现的那样，我们倾向于更清晰地记住直立的树和山脉，而非它们倾斜的根茎。这种偏好可能反映了我们祖先在进化过程中发展出的能力。垂直和水平方向的特征在环境中更为常见，因此视觉系统在构建高效表征时，需要对这些方向的变化更敏感，这将有助于我们更快地识别和响应环境变化。

　　为了搞清楚这一现象究竟从何而来，研究者[1]基于卷积神经网络的模型VGG16及 Resnet18，以及非卷积网络架构的transformer，分别构建人工神经网络，来模拟这一现象。他们发现，经过训练的网络在对不同方向的刺激进行处理时，显示出与人脑类似的倾斜效应。具体来说，这些网络在0度、90度和180度的方向刺激上的反应更为敏感。这是我们首次观察到人工神经网络和大脑涌现出相同的特征，而这一主题将在之后反复出现。

　　当我们进入森林，会发现一排排几乎相同的树木。人脑为了高效地对其进行表征，会利用数据不变性对重复的元素进行压缩，以提高信息处理的效率。这被称为平移不变性。这种机制在人工神经网络（卷积神经网络）中也找到了对应。更有趣的是，即使是基于全连接神经网络，只要训练它们识别自然界中的图像，它们也能涌现出类似的具有局部、空间平铺的感受野[2]。这意味着即使在没有预设网络结构的初始状态下，人工神经网络也能自发学会先聚焦图像中的一小块，之后看到类似的结构，就直接从记忆中调用已有的存储，高效地处理相似结构。

　　在处理视觉信息时，大脑常常需要应对输入数据的缺失和噪声。但面对这些问题，人脑会在必要时将注意力集中于更大的图像，而不是陷入多个细节部分。例如，在遇到部分遮挡的图形时，我们的大脑倾向于视觉上“填补”缺失的部分，将其视为一个完整的形状，这就是闭合法则。训练用来分类自然图像的神经网络也会呈现出类似补全的倾向[3]。

　　除开遮挡造成的信息缺失之外，观察时间过短也将带来输入的缺失。就如“看不见的黑猩猩”一样，当我们过于关注某事时，可能会忽略显而易见的视觉信息。这表明即使是短暂出现的、未进入我们的意识图像，也能在我们的视觉皮层中留下印象。例如，在实验中，即使被试者只是瞥了一眼或根本没有意识到某个图像，他们仍然能够在一定程度上识别图像内容，如判断图像中是否存在生物[4]。使用卷积神经网络架构，研究者发现当数据存在缺失/噪音时，模型仍能在一定范围内进行判别。这一现象与人脑的处理方式相似。

　　进一步地，从处理简单的线条到局部的平移不变，再到复杂图像的缺失补全，人脑对外物的感知逐渐从具象走向抽象，从而得以在面对不同的环境和对象时经由归纳形成知识。在机器学习领域，这样的能力被称为解耦（disentangle）。研究表明，人工神经网络通过监督和强化学习，在需要解决多个任务时，能够自发地涌现出抽象表征[5]。这些抽象表征有助于大脑在新的任务上实现少数样本的学习和有效的泛化。

　　▷图3：a）两个分类任务的例子。（左）在一种形状的红色和蓝色浆果之间学习的分类可以泛化到其他形状。（右）两个不同形状的红色浆果之间的分类可以推广到不同形状的蓝色浆果。（b）四个浆果例子的线性、抽象（左）和非线性、非抽象（右）表示的例子。（c）输入模型的示意图。（d）多任务模型的示意图。（e）两个抽象指标，分类器泛化指标（左）和回归泛化指标（右）。来源：参考文献5

　　在视觉系统成功识别出抽象特征之后，其下一步任务是理解这些特征之间的复杂关系。这一阶段是对信息的深入处理，涉及到模式识别和逻辑推理，是人类视觉处理中极为高级的功能。相比之下，虽然人工智能在许多领域已显示出卓越的能力，但在处理这类抽象任务时，它们通常需要更多的资源和能量。

　　以找不同的Oddity Test为例，人类通常能够轻松地完成这种测试。然而，对于人工神经网络来说却很难。为了解决这一难题，科学家们给AI提供了小抄[6]，即利用人类志愿者在完成Oddity Test时的眼动数据来训练神经网络。这些眼动数据包含了人脑在观察图像时自然而然地关注的局部间关系，从而为网络提供了一种模拟人类观察行为的方式和抽象推断的线索。这种新型的生物启发网络展现了更高的准确性、更快的学习速度，以及更少的所需参数。*

　　作者注：我们是否可以通过类似的方式训练其他动物，如黑猩猩或某些鸟类，来完成Oddity Test？若是发现基于人的眼动数据训练的AI模型，当输入换成黑猩猩或鸟类的眼动数据后，也是可以适用的，那就意味着人脑的抽象思维能力不仅并不特殊，还可能是从动物的类似机制中继承而来的。不过以上是笔者个人的异想天开，供读者讨论。

　　我们大脑中有一些特殊的神经元，它们非常擅长于识别和辨认人脸。这些神经元能在我们还是婴儿的时候就开始对脸部特征做出反应。但这种能力是否是我们天生就有的，还是随着视觉经验而发展出来的，一直是科学家争论的热点话题。

　　有趣的是，利用捕捉视觉皮层腹侧区特征的人工神经网络模型发现[7]，即使是没有接受过特别训练的深度神经网络，也能展示出类似的能力，它们能够“自然地”识别人脸（从随机前馈线路中自发产生），这表明我们的大脑可能有着与这些系统相似的处理机制。

　　此外，我们大脑识别人脸的能力并不完美。比如，面对不熟悉的种族的人脸，或者人脸的图像被上下颠倒时，我们的识别准确率就会下降。这种现象曾被认为是人脑对人脸识别特有的特点。

　　但是，通过研究基于卷积神经网络的人工智能模型，科学家们发现，这些“缺陷”其实是大脑为了更高效地识别人脸而进行的优化[7]。类似的人脸图像正反颠倒识别准确率下降的现象，只出现在以人脸识别为训练任务的卷积神经网络中，没有出现在接受过物体识别训练的卷积神经网络中。如专门用于识别汽车的人工智能模型中，当汽车的图像倒置时，相比正向图片，这些模型的识别能力也会下降。这说明，我们大脑的这些特点其实是对特定任务的优化，而不是什么独特的计算本质。

　　人脑可以从少数例子中学习概念，这对于传统的深度神经网络来说，这种从少量例子中学习的能力被称为少样本学习（few-shot learning）。那么，大脑是如何从少数例子中学习的？答案在于大脑将视觉特征映射到一个高维空间中[9]，在这个空间构建一个能够跨越相距甚远空间的”虫洞”，并通过一种称为“流形学习（Manifold Learning）”的技术进行学习。理论上只用200个神经元就可区分不同类的输入。

　　模仿这种机制，人工神经网络也在采用类似的方法。通过配置一个灵活可塑的下游神经元，基于少数样本和简单的规则，人工神经网络就能学会如何区分不同的概念。这种方法的优势在于，它不仅能够处理视觉数据，甚至能根据语言描述符来学习和识别新的视觉概念。

　　在学习过程中，人脑大部分时间是没有明确指导的。这就像孩子在识别家里的猫和狗时，不需要有人一直在旁边告诉他们这是猫那是狗。这种学习的方式被称为半监督学习。人脑在半监督学习的模式下表现优良。

　　相似地，人工神经网络也能使用深度无监督对比嵌入方法进行学习。这种方法使神经网络在处理视觉信息时，特别是在大脑的腹侧视觉皮层相关区域，达到甚至超过了当前最先进的监督学习模型的神经预测准确率[10]。即便是仅使用头戴式摄像机收集的、嘈杂且有限的真实人类儿童发育数据，这些神经网络仍能有效地学习并产生类似大脑的表征。研究还发现，半监督深度对比嵌入可以利用少量标注示例生成表征，从而大幅提高错误模式与人类行为的一致性。

　　就像我们的眼睛对某些视觉特征特别敏感一样，我们的耳朵也对特定的声音特别敏感。比如，在嘈杂的环境中，我们依然能分辨出音乐的旋律或人的声音。

　　当科学家用深度神经网络训练完成复杂听觉任务来模拟这种听觉处理时，训练完成的模型能够很好地完成这些任务，达到人类的水平[11]。但有趣的是，只有在用真实的音乐和自然声音训练时，这些模型对音高的感知才能表现得像人类一样。如果用人工合成的声音或在没有任何背景噪音环境下训练，这些模型就会展现出完全不同的音高策略。这表明，我们的听觉系统也许真的是为了应对复杂、有时会被噪声遮蔽的环境而优化。

　　人脑不仅能识别特定的声音，还能判断声音来自哪个方向。通过比较声波到达左右耳的时间和强度差异，我们可以估计出声音的来源，这被称为定位。在现实世界中，环境会产生回声，而且我们会同时听到很多声音，因此定位尤其困难。然而，当科学家在虚拟世界中训练深度学习模型[12。

上一篇:量子点材料有望成为我国长板产业

下一篇:光合作用只需要一个光子