混杂一些大的、理论框架性质的文章，方便后续转博写东西。

基于两篇 The neuroconnectionist research programme 的后续文章，

1. Deep problems with neural network models of human vision 2023 Behavioral and Brain Sciences (影响因子 29.3)
1. An Alternative to Cognitivism: Computational Phenomenology for Deep Learning 2023 Minds and Machines (三区 7.4)

其中第一篇是一个做心理学的发的对DNN消极、带有很多批评的综述，影响因子很高，但我看完觉得没咋地（有点老生常谈，老保念经的感觉），除了实例外在阐述具体的问题上界定也不够清晰，并且对DNN带来的新的理论见解避而不谈，文章加上同行评论共计77页，同行评论里能让我认识一些做类似东西的其他科研工作者，了解他们的态度，以及就某个特定问题如何回答，收获很大。

第二篇影响力小了，讨论范畴在哲学立场上，作者在本体论和认识论上否认 神经表征 这个假定的中间表示，提出可以建立计算来源和现象学来源直接排他性交互的计算现象学（暂时不看，转博后看）。我个人并不希望抛弃掉神经表征这种好用的假设，但文中有句论述 引入的中间表征假定存在一个外部实在：其本体论结构可以独立于思维与它的关系，但我们无法通过感知直接访问 让我开始思考这个问题，但仍觉得神经表征这种概念不是类似他批评的 形而上学不可知，。

1 - Deep problems with neural network models of human vision

文章1

回顾和批判用来支持DNN是人类目标识别的最佳模型这一主张的主要证据来源
质疑这个研究项目的核心理论假设，即假设人类视觉系统已经优化以分类物体。
评估 DNN 在视力方面如何去广泛解释心理学发现，文章说在几乎所有的案例中，这些研究都强调了 DNN 和人类之间的差异。

文章认为

目前的 DNN 不是很好的(更不用说最好的)人类目标识别模型。（但文章也没举例更好的模型，见同行评论4）
有兴趣开发类似人类的 DNN 物体识别模型的研究人员，应该把重点放在解释心理学报告的关键实验结果上

文章指责

RSA研究是基于预测的性质，指责没有操纵图像来测试DNN去发现DNN是使用什么视觉特征去实现良好预测的。
BrainScore 并不检验任何关于尺寸、位置或方向如何在DNN/人类中编码的假设，模型只是在一个数字（神经响应）和图像间做预测 (可以理解为映射，但我认为这实际算不得什么指控，没到点子上)
RSA 数值和 BrainScore 得分最后会在所有测试图像上取平均，没有试图评估任何特定图像处理的影响（即认为没有自变量操作来检验什么假设）
进行了DNN和人类比较的研究，操纵的变量倾向沿多个维度变化（架构、学习规则、目标函数等），而不是评定特定操作的影响（比如预训练）（巧了我做的假设检验多是评估操作的因果效应），因此很少能将预测性的任何差异归因到对模型的特定操作。
作者认为预测应该服务于解释，模型的目标是测试关于系统如何工作的假设，而不是考虑行为和大脑数据集的最大方差。（这点我同意，但实际上很多心理学研究在尝试解释时也会从方差、拟合角度出发，本质是因果操纵的成本太高、没挑对就得重新做等风险导致的）
除人工智能建模外，很少有其他科学领域是在基于预测的实验上评估模型，并在基准数据集上进行竞争。（为什么是缺点呢？）

上述几条的核心论点是：研究人员应该采用标准的科学方法评估模型的能力，以适应心理学 (和相关学科) 控制实验的结果。 （我觉得太保守了）

依赖预测产生的“原则性”问题

文章认为在将人类与 DNN 进行比较时，依赖预测会产生三个基本的局限性：

相关性不支持因果结论 好的预测并不意味着两个系统依赖于相似的机制或表征。良好的预测模型，需要进行操纵检验假设自变量的受控实验，以确定两个系统是否具有相似的机制。在当前情况下是评估在像 BrainScore 这样的基准上排名最高的DNN的最直接方法。（完全同意）
具体指责的是DNN存在人类不依赖的捷径学习，RSA比较一个系统中激活模式，是相似性的二阶度量，DNN 和人类（和猴子）之间的高 RSA 分数经常被用来推断这些系统以类似的方式对图像进行分类 (e.g., Cichy, Khosla, Pantazis, Torralba, & Oliva, 2016; Khaligh-Razavi &Kriegeskorte,2014; Kiat et al., 2022; Kriegeskorte, Mur, & Bandettini, 2008a;Kriegeskorteetal.,2008b) ， Dujmović、Bowers、Adolfi 和 Malhotra（2023）正在进行的工作，（刺激中的混淆可能导致不同系统之间的高 RSA 分数; 另一个是 RSAscore 依赖于用于测试的刺激）
作者认为用高RSA分数和预测分数一起表明两个系统工作相似的假设是不安全的（但问题是我感觉心理学模型连这些保障都没有），认为DNN和人类相似性的判断有误导性。
这方面的指责实质是对 RSA 分析方法的指责，(Xu & Vaziri-Pashkam, 2021) Limits to visual representational correspondence between convolutional neural networks and the human brain
基于预测的实验能提供的理论见解有限 作者认为模型结果的成功/失败要在理论上有意义，如果成功模型可以提供一些形状在视觉系统中编码的见解。（就作者举例的内容，DNN是可以通过对照实验提供的，也已经有很多提供理论见解的工作，这里实际上是作者不认同基于最优化视角的解释性和理论见解价值）
基于预测的实验限制了可以考虑的理论类型 the reliance on current prediction-based experiments ensures that only “image-computable” models that can take photorealistic images as inputs are considered. This helps explain why psychological models of object recognition are ignored in the DNN community.(事实错误) ，拿了考虑基本级对象识别的组件识别（RBC）模型举例，认为 DNN 是人类物体识别的最佳模型这一普遍结论依赖于排除替代模型，依赖预测结果去评价。（我读了觉得作者是想表达最佳模型的评价指标太单一，但我认为如果作者能提出更好的大家都接受的公平评价标准，完全可以自己再发一篇。不同心理学现象之间的权重如何取舍？总不能评价最佳模型还要分条件分对象细分的说吧）

实践中的问题

一些架构差异很大的DNN支持相似级别的预测。
某些架构相似的模型在不同数据集上会获得不同的结果，Brainscore 中一些例子如，mobilenet_v2_0.75_192 在一个 V1 数据集（排名前 10 名）上实现了 0.783 的神经预测分数，在另一个（排名前 110 名之外）上实现了 0.245 的神经预测分数。（当前 Brain-Score 列出的两项 V1 基准研究之间的相关性仅为 0.42）
Brainscore 通过简单地对多个基准进行平均来在预测 V1 活动方面做得更好的结论是不明智的。
DNN 和人类会犯类似的分类错误(e.g., Kheradpisheh, Ghodrati, Ganjtabesh, & Masquelier, 2016;Kubilius,Bracci,&Op de Beeck, 2016; Rajalingham et al., 2015, 2018;Tuli,Dasgupta, Grant, & Griffiths, 2021)。（这个不算是问题，能说明任务优化产生的一些共通性的现象，能基于此用模型去刺探人类机制，反而是优点）
（Geirhos 等人，2021）发现在更大的数据集上训练的 DNN 中的错误一致性（指人类犯的错误类型更多）得到了改善，例如在 4 亿张图像上训练的 CLIP，人类和机器视觉之间的行为差异正在缩小。文章用 “Nevertheless, the gap between humans and the best performing DNN was substantial.”

理论问题

······ 后面看了不记录了，主要是老生常谈的问题，快进到看 Open Peer Commentary

(1) 皮层中的神经元在形态上存在巨大差异而 DNN 中的单元除了连接权重和偏差之外往往是相同的。
(2) 神经元在尖峰序列中放电，其中动作电位的时间非常重要，而前馈或循环 DNN 中没有时间表示。

部分同行评论

（没看全，选了一些我认为有对我价值的）

Where do the hypotheses come from? Data-driven learning in science and the brain
世界模型|贝叶斯大脑立场，支持 Marr 计算理论
由于我们的大脑没有获得需要估计的场景变量列表，因此它们必须根据在进化和发展过程中经历的图像“喂食”来发现世界的属性。这个简单的（看似同义反复的）断言具有深刻的理论意义：它意味着我们的大脑提取的关于世界的任何信息都必须基于输入中包含的、可排序的信息。由此可以得出两条定义视觉功能“原则性假设”的途径：（1）我们应该确定该信息是什么，即探索我们对世界的体验与输入中存在的信息如何相关；（2）我们应该确定对这些信息的敏感性是如何在进化和发展过程中获得（学习）的，即探索对这些量的敏感性背后的机制。
他举了个他们最近工作的例子，经过训练以恢复“基本事实”（即经过训练以学习图像和光泽之间的映射）的系统无法预测人类的判断。而旨在总结和预测输入属性的无监督 DNN 学习到的表征在感知光泽度方面表现出与人类相同的成功和错误模式（Storrs、Anderson & Fleming，2021b）。本质上，无监督 DNN 以与我们的视觉系统类似的方式部分但不完美地解开了不同的场景变量（这里是光泽、形状和照明）。
我觉得不错的观点：
人类的智能并不总是适合设计能区分多种复杂候补模型的刺激/实验，但如果我们试图以更广泛的方式捕捉人类视觉，这种复杂性将是不可避免的。
关于视觉是如何获得的，以及这对发达视觉系统有什么影响，深度学习提供了一种实例化不同假设的方法。
A deep new look at color
The scientific value of explanation and prediction –P44
You can’t play 20 questions with nature and win redux
- Bradley C. Lovea and Robert M. Mokb | P49 | 我的立场和对本文章的态度与之相同
An incomplete science begets imperfect models. Nevertheless, the target article advocates for jettisoning deep-learning models with some competency in object recognition for toy models evaluated against a checklist of laboratory findings; an approach which evokes Alan Newell’s 20 questions critique. We believe their approach risks incoherency and neglects the most basic test; can the model perform its intended task. 目标文章主张放弃具有一定物体识别能力的深度学习模型，用根据实验室结果列表进行评估的玩具模型；这种方法让人想起艾伦·纽厄尔 (Alan Newell) 的 20 个问题评论。我们认为他们的方法存在不一致的风险，并且忽略了最基本的测试：模型能否执行其预期任务。
In conclusion, the fact that deep networks with some competency in object recognition fail to account for findings from some laboratory tasks has led the authors to conclude deep-learning models are of limited value. One might instead conclude that the laboratory studies themselves are limited in paving the way toward a complete model of human vision.（实验室研究本身在为人类视觉完整模型铺平道路的作用是有限的） After all, our preconceived notions of how vision works guide these study designs.（我们对视觉如何发挥作用先入为主的观念指导着这些研究设计） Some laboratory studies will prove fundamental to explaining human vision, some will be irrelevant. It seems to us that one will never be able to determine which is which in the absence of models with basic competencies.
Explananda and explanantia in deep neural network models of neurological network functions
- Mihnea Moldoveanu | P50
我们可以认为 “understanding” 一个实体的全部和唯一意义就是预测和生成它所表现出来的行为内容。
My pet pig won’t fly and I want a refund （很风趣）
- Michael J. Tarr | P61
”Bowers et al. build a straw house by motivating their arguments through quotes that are more marketing than scientific claims. Much like our protagonist, we need to be smart consumers of science. I don’t think there is much actual confusion that deep neural networks (DNNs) are “models of the human visual system.” Rather, like the computer vision models that preceded DNNs, they serve as “proxy models” that surface the role(s) of assumptions and constraints in complex systems (Leeds, Seibert, Pyles, & Tarr, 2013).
DNN 本身并不具备定义生物系统智能的许多特征。作为一个领域，我们应该就可以从 DNN 和其他计算模型中得出哪些推论进行富有成效的讨论（Guest & Martin，2023）。这样的讨论应该少一些夸张 (“Deep problems…”)，少一些对当前模型无法做到的事情的焦虑；相反，他们应该关注 DNN 的功能。它们可能是猪，它们永远不会飞，但它们可以做一些很酷的事情。我们应该弄清楚如何以及为什么。
Using DNNs to understand the primate vision: A shortcut or a distraction?
- Yaoda Xu and Maryam Vaziri-Pashkam | P64
Thinking beyond the ventral stream: Comment on Bowers et al.
Christopher Summerfield（老熟人了） and Jessica A. F. Thompson | P59
DNN之前视觉研究缺乏一般模型，解释现象的模型通常非常狭窄，比如解释拥挤的模型通常不能解释填充。评价该文章长于批评短于解决问题。结论部分作者思考了回归手工模型的优点，或者用神经表征方法增强深层网络的优点，这是一种倒退。

评议的评议

在评论的回复中认可6对 ”DNN 是人类视觉的最佳模型“ 是种营销的态度，但回避6对作者也营销性的”Deep problems…“的指责。

~~P73 这一段给我看乐了，我认为作者他过于的迷信现有的一些心理学实验结果，不去考虑是否有缺陷，甚至于有一点不一样的地方都要否认。~~ 所谓的 ”模型表现出专业知识反转效应，而不是特定于面孔的反转效应。这与当前的大量经验证据相矛盾，” 在我这里反而认为该效应本身就应该是产生自对特定对象的优化，而人类无法像模型一样对不同对象控制相同的优化程度，对面孔的极度优化的人类视觉系统辅以重复的心理学实验产生了大量相同的经验证据。虽然作者最后一句找补了下“如果他们做出来了什么什么（证明面孔是比鸟更优化的），倒是对DNN解释心理学数据有帮助”，严谨是严谨，但我认为几乎全部心理学模型/计算模型研究按这个态度去找问题，都找的出来。

Yovel & Abudarham describe how DNNs capture the faceinversion effect, writing: “Interestingly, a human-like face inversion effect that is larger than an object inversion effect is found in DNNs.” In fact, as shown by Yovel, Grosbard, and Abudarham (2022) and others, DNNs show similar size-inversion effects for face and nonface stimuli when trained with an equal number of images per category (e.g., when trained to identify the same number of human faces and birds of the same species). That is, the models showed an expertise inversion effect, not a face-specific inversion effect. This contradicts the bulk of current empirical evidence showing that humans exhibit a greater inversion effect for faces compared to other categories even when they are expert at the other category. To reconcile these findings with the modelling work, Yovel et al. (2022) argue that bird watchers are more expert at human faces compared to birds, and this is why they show larger face inversion effects. Future work may well support this hypothesis, and if so, it would provide a good example of DNNs explaining important psychological data. However, as it stands, the DNN results are inconsistent with most psychological data.

然后我查了查这个作者，数据很好 Citations：7792、h-index：45，最高引用的文章是1990年的，最近几年也是做DNN结合认知的工作，毕竟实际上能写这么一篇表述DNN问题的文章也得是做过、读得多才有感受，具体对他的评价我仍需要看看他做的实证研究是怎么搞的。

不过作者对 ”DNN 是人类视觉的最佳模型“ 的指责目的是想让研究者更多的关注变分自编码器（生成模型）等新的或旧的（非计算的认知模型），在BrainScore上不能拿高分/无法参与的模型，他们自己正在追求向网络添加生物约束（Evans, Malhotra, & Bowers, 2022；Tsvetkov, Malhotra, Evans, & Bowers, 2023）和修改训练环境（ Biscione & Bowers，2022），试图让 DNN 以更类似于人类的方式编码信息。初衷很好我也认同。

另外：

2 - An Alternative to Cognitivism: Computational Phenomenology for Deep Learning

文章 2 回顾了深度学习领域的认知主义和神经表征主义后，对这些立场进行了现象学批判，然后勾勒出计算现象学。

DL起源于联结主义，一个计算主义框架，但今天 DL 主要被认为是基于表征的操作，ANN的不透明性使得深度学习模型容易受到不同概念框架的不同解释的影响，解释DL的最突出框架是认知主义，中心是符号式表征：实体和表征之间的“一对一映射” （Rosenblatt，1958）。

事实上联结主义模型的自组织能力恰好对深信不疑的认知主义者有用，因为它们可以为系统如何学习符号提供原本没有答案的解释。人工神经网络学习外部属性的符号表示，在此基础上可以执行进一步的计算来解决任务。使用认知主义表征概念的神经表征主义（neuro-representationalism NR）在计算神经科学和DL本身中普遍存在，包括后来的“世界模型”，

引入的中间表征假定存在一个外部实在：其本体论结构可以独立于思维与它的关系，但我们无法通过感知直接访问。

文章旨在提供一个不依赖符号作为认知基本单元的深度学习概念框架，选择依靠现象学，将在三个层次探究：

神经生理学来源
现象学来源
计算来源

随着深度学习成功的模仿了一些认知过程，计算来源现在产生了新的数据，称为新的探索源。这开辟了计算现象学的可能性：计算和现象学之间的排他性交流，搁置认知过程的物质基础问题（属于神经生理学来源），所以这种对话更忠实于现象学（依赖于对经验的第一人称描述），而不是倾向以更自然主义的第三人称视角重新塑造现象学。

从现象学经验来看，ANN 的“黑匣子”属性并不奇怪，因为我们研究大脑所运用的众多认知过程的潜在机制也是不清楚、不透明的。

NR中，认知主义的形而上学实在论采取了一种强烈的科学实在论的具体形式：独立于我们而存在的外部实体成为现代自然科学的理论实体。可以围绕三个主要问题进行系统化：

什么是世界？物理世界，由科学发现的科学实体组成。
什么是表示？大脑学习的符号，用于编码世界的外部实体。
什么是心灵？由负责心理现象的认知过程（包括基于表征的神经计算）和这些现象的内容（意识）组成，意识仅由表征给出。

无论如何，如果某种形式的解释是可能的，那么分解为基于符号的操作似乎还很遥远。 这是本文采用不可分解到基于符号的操作的理由。

一旦盲人习惯了手杖，一旦他“手里”有了手杖，这个习惯恰恰“减轻了他的这项任务”（Merleau-Ponty，1945年，第153页）。手杖成为“他感知的工具”，它的尖端“变成了一个敏感区域”，扩大了他的感知世界（Merleau-Ponty，1945 年，第 154 页）。获得的手杖感知技能同时是一种感知习惯和运动习惯（没有手杖的运动就没有感知），它构建了有意识的体验。它奠定了一种“主体与世界之间的有机关系”，这种关系不依赖于类似符号的表征。

德雷福斯借鉴了海德格尔的现象学，将认知过程视为后天习得的习惯（因此反对认知主义的表征主义）。他认为，我们不是通过存储表象来获得技能的，而是通过逐渐完善我们的感知来获得技能的，这种感知在世界上的特定情况下提供了新的诱惑;因此，“世界上最好的模型是世界本身”（Dreyfus，2007）（例如他拒绝内部地图的存在）。 Dreyfus坚持认为，基本的认知过程（他举了开车或下棋的例子）并不明确地依赖于符号，而只是逐渐适应的结果——它们是无表征的（德雷福斯，2002）。因此，他认为人工神经网络的出现是对认知主义对表征的承诺的有力打击，因为它们“提供了一个模型，说明过去如何影响现在的感知和行动，而大脑根本不需要存储特定的记忆”（Dreyfus，2002，第374页）