科学家用AI实现读心术画出人类脑海中的画面 -6parknews.com

科学家用AI实现读心术画出人类脑海中的画面(组图)

新闻来源: 英国那些事儿于2023-03-08 12:09:31 提示:新闻观点不代表本网立场

当人凝视一片绿叶时，大脑里浮现的画面是什么样呢？完全相同的树叶，外形相似的绿方片，又或者是风牛马不相及的翠绿毛毛虫？

我们无法敲开别人的大脑，很难知道他们脑海里的画面和现实里的是否一样。想要做到这一点，似乎只有神叨叨的读心术可以办到。

但去年底，日本科学家声称他们可以通过人们的大脑活动，画到他们脑子里的画面。

哎，这不就是现实版的摄魂取念吗？

这两位科学家名叫Yu Takagi和Shinji Nishimoto，他们是大阪大学前沿生物科学研究院的教授。

2022年12月，两人发表了一篇论文，名为《利用潜在扩散模型在人脑活动基础上重建高分辨率图像》。

他们的研究过程非常复杂，这里大概讲一讲：

两位科学家招募了一群志愿者，让他们每人看一万张自然风景图（不是一次性看完）。看图的时候，志愿者躺在核磁共振扫描仪里，这个大脑摄像机会记录下所有的大脑活动。

科学家得到脑内活动数据后，根据大脑不同的活跃部位，分为两部分，一部分是初级视觉皮层信号，另一部分是高级视觉皮层信号。

这些信号会化为简单线性模型里的小点点，但想画出能看懂的图来，只靠它们是不行的。

科学家们会用到热门的潜在扩散模型Stable Diffusion。这个AI我们之前提到过，只需要输入一段文字，它就能自动产生符合描述的图画。

研究中使用的Stable Diffusion由三结构组成，分别是图像编码器、图像解码器和文本编码器。

科学家把初级视觉皮层信号映射到图像编码器上，接着将它解码，获得一张张320＊320的小图，它们被称为Z；

同时，科学家把高级视觉皮层信号映射到文本编码器上，再将它解码，获得相关文本C。

最后，科学家把Z和C结合起来，一起输入给系统，生成图像Xzc。

结果发现，图像Xzc和志愿者看到的实际图像很接近，他们大脑里产生的画面差不多就是这样子。

（上排为实际图像，下排为大脑活动转换出的图像）

如果只看Z重构出的画面，会发现颜色很相似，但内容非常抽象；仅用C重构画面，东西是对的，但外形根本不像。

只有两者结合，效果才特别好。

观察不同志愿者脑子里浮现的图，会发现画面内容基本稳定，只存在细微差异。

两位科学家解释，之所以有细节上的差别，是因为志愿者们的经验以及数据质量不同，并非实验过程有误。

“在我们这项研究之前，还没有哪个研究人员尝试用扩散模型来重构视觉图像。” 他们颇为激动地告诉媒体。

“我们的这项实验时第一个从生物学角度对模型进行定量解释。”

这篇论文发到推特上后，人们又激动又害怕，大呼“AI已经能读取人心了”。

“很不错！什么时候我能把它用在我的猫身上？跨物种的交流很重要！”

“我们可以通过它，重构我们的梦境吗？”

“也许，它可以在法庭上用来取证呢？假设说，我是一起案件的嫌疑人，警察能不能把我送去做核磁共振，然后问我一些不应该知道的问题以证明我无罪？”

“我真的很担心AI的读心能力，它可以让当权者变得更强大，无力者变得更软弱。当然，往好里想，也许老百姓能读懂政客的心，公民诉讼人能读警察的心……虽然，我怀疑事情并不是这样的走向。”

眼看网友开始滑坡，两位科学家表示，别激动，这个技术离读心术还有亿点点距离。

“这根本就不能算作读心术，因为该技术找到的是感知内容和大脑活动之间的关系。这不是传统意义身上的‘读心’。”

而且，就算真的要读某人的心，总得把他绑到核磁共振扫描仪上才行。除非是自愿的，这很难做到。

科学家也感到有点疑惑，怎么大家像发现新大陆似的。明明从几年前开始，借助大脑信号来生成图像的实验已经有很多起了。

大阪大学的这项实验，最大的不同在于他们没有训练或调整AI，直接拿Stable Diffusion来用（这么做是为了节约成本）。

其他研究员创造出自己的AI，生成的图像更加精致。

2019年，一支科研小组研究猴子的神经活动，发现可以生成图像。

2022年9月，荷兰拉德堡德大学利用AI来解释大脑信号，从中构建图像。志愿者们看了大量陌生人的面孔后，大脑生成的图像和实际图像很接近。

2022年10月，德克萨斯州奥斯汀分校的研究员发现，在人们听有声读物时扫描他们的大脑，可以用AI解码出脑海里的单词。

如果在脑子里给自己讲故事，AI也可以读取出大概意思。

2022年11月，斯坦福大学等三所顶尖高校开发出一个叫MinD-Vis的AI，能根据人们的大脑活动生成他们看到的图像。

从图像质量和内容准确度看，MinD-Vis比其他模型都强。

研究AI生成图像的神经学家Thirza Dado说，她相信未来这种技术会发展得更好。

“如果我们继续训练算法，那么未来不光能准确描绘出你正在看的脸，还能描绘出你想象中的脸。比如你母亲的脸庞，她会表现得很生动。”

“通过开发这个技术，我们能解码和重构人类的主观体验，甚至能重现你的梦。真是让人着迷。这个技术也能用在临床上，比如和处于深度昏迷状态的患者交流。”