我打赌钱 -

"我可以告诉你的"可能会在科学中发挥有用的作用

个人预测可能不会告诉我们很多,但群体预测很有用。

去年,一个庞大的研究小组合作试图复制一些结果非常着名的社会科学研究。他们确定只有62%的研究发现在重复时发现了类似的结果。但研究人员发现了其他有趣的东西:其他科学家们擅长猜测猜测哪些结果会复制。

这是否意味着我们可以问科学家关于什么研究是可靠的直觉?实际情况要比这复杂得多,但预测在科学中可能会发挥有用的作用,而利用预测的新项目也如雨后春笋般涌现。

显而易见的是什么?

科学家预测的成功并不意味着每个个人科学家(或非科学家)可以依靠他们的直觉来猜测哪种科学的结果是真实的。我们有一个术语:“确认偏见”。但这并不意味着科学家无法了解有关一些研究的知情,成立的怀疑。P.从整组群中删除科学家们可以平均偏离偏差并突出知识的疑虑,因此是对科学研究的非常有用的贡献。

写作科学本周,经济学家Stefano Dellavigna,Devin Pope和Eva Vivalt指出了一些收集预测可能具有科学的好处。

现在,在进行学习之前,我们对人们对一个话题的看法很少感受到的感觉以及他们以后是否更新他们的信仰。每个人都容易受到后视偏见的影响,这意味着一个新的研究,即使是令人惊讶的,也可以很容易地诱导“Pfft,我已经知道的pfft”的反应。但这实际上是真的吗?

在结果众所周知之前,没有让人们的想法,难以确定研究的结果是否真的是预期的,或者人是否刚才努力与新数据相匹配。当然,相反可能是真的:人们可以挖掘他们的脚跟并拒绝改变他们的信仰。

每个人——包括科学家——都容易受到后见偏见和确认偏见等缺陷的影响。因此,有了关于预测和信念更新实际如何工作的数据,可以帮助研究人员理解他们最需要的人——比如决策者和科学家同行——如何对证据做出反应。在一个真正宏大的规模上,预测可以让人们了解科学领域是如何随着时间的推移而改变他们的共识的。

弄清楚哪些研究是真正令人惊讶的,也将有助于把科学结果放在适当的背景下。如果它们确实令人惊讶,也许它们需要更多的复制和完整性检查。DellaVigna, Pope和Vivalt认为,关于令人惊讶的结果的冰冷而确凿的证据可能有助于消除发表偏倚。期刊经常拒绝发表那些看起来无聊和不够“令人惊讶”的结果——通过预测显示这些结果有多么令人惊讶,可以帮助研究人员跨越这个障碍。(作者们从一开始就没有质疑设置呼夹圈是否明智。)

是什么让预测生效

随着一系列不同的预测项目的出现,不同的项目想出了不同的方法来让人们提供它们,以及如何利用预测。一些项目使用投注市场,其中人们可以看到其他参与者的猜测并相应地更新自己。Dellavigna和Vivalt的预测平台保持人们的回复的私密性,以避免他们被他人的观点所影响。

关于研究的预测可能看起来与下一个项目非常不同。目标受众可能有所不同(科学家,政策制定者,公众)。研究人员可能想向人们提出更一般的预测,比如“你认为这项研究会有重要结果吗?” - 或者对于非常具体的预测,比如“你认为平均结果是什么?”

随着更多项目开始使用预测,应该了解如何使科学研究预测更准确。这可以帮助科学家在他们弄清楚哪个研究大道可能是最有前途的时候。

它还可以帮助研究人员弄清楚为什么投注市场擅长预测哪种工作将是强大的。墨尔本大学的巨大预测项目,repliCATS他们正在做的就是:弄清楚如何利用科学家对同行工作的直觉,建立科学家之间相互信任的原因,以及一大群科学家的合理预测如何能准确地估计哪些研究可能会被复制。

预测在科学中的应用还处于起步阶段,但随着它的发展,它的数据可能变得越来越有用——就像在实际研究本身之上的第二个元数据集。

科学, 2018年。DOI:10.1126 / science.aaz1704(关于Dois.)。

清单图像flickr用户:anlopelope

31岁的读者评论

  1. 他们不必经过这样的研究;我本可以告诉他们。
    1831帖子|挂号的
  2. 在这一点上,人的因素应该总是击败人工智能,尽管这种优势会越来越小。的能力和你的肠道一起去是电脑做不到的事情…它可以根据几率和概率做出选择,但这只是等式的一部分。

    Star Trek TNG在这方面发表了个好点......我敢肯定的是为什么我现在才能想到。无论如何,我站在其中。
    39帖子|挂号的
  3. 沃克结婚写道:
    在这一点上,人的因素应该总是击败人工智能,尽管这种优势会越来越小。的能力和你的肠道一起去是电脑做不到的事情…它可以根据几率和概率做出选择,但这只是等式的一部分。

    Star Trek TNG在这方面发表了个好点......我敢肯定的是为什么我现在才能想到。无论如何,我站在其中。
    当AI机器人设计师向他们的机械赛地添加肠道时,我们注定要注定....
    |注册了15444个帖子
  4. 所以特警队的方法有用吗?(科学野驴猜测)
    581帖子|挂号的
  5. 沃克结婚写道:
    在这一点上,人的因素应该总是击败人工智能,尽管这种优势会越来越小。的能力和你的肠道一起去是电脑做不到的事情…它可以根据几率和概率做出选择,但这只是等式的一部分。

    Star Trek TNG在这方面发表了个好点......我敢肯定的是为什么我现在才能想到。无论如何,我站在其中。
    当AI机器人设计师向他们的机械赛地添加肠道时,我们注定要注定....

    它不是肠道,它是一种基于实时感官信息和生命时间体验的混合量子答案。您将所有这些都放在一起,并在证明您的工作更加努力时更快地获得正确的答案。
    2165帖子|挂号的
  6. 出版的东西往往是新颖的或意想不到的。这也是它有趣的部分原因。正如Ars早前的一篇文章所说:
    引用:
    事实上,发表阳性结果的倾向使得假阴性结果在重复时具有重大风险。

    这是所有社会科学的问题。

    但这不是唯一的问题。

    二十年前,一个特别的理论变得非常有名,并且被探索并应用于许多方面。在很短的一段时间内,它几乎成为一张免费的出版票,只要你评论或扩展那个理论。这只是昙花一现,但它引起了轰动,正是因为它第一次阐明和分类了该领域从业人员十年来所知道的东西。

    我认为部分原因是,我们可以比随机预测复制更好:一些理论和实验只是重申了实践者长期以来所知道的,但从未被安排成理论语言。(在物理世界中,或许可以想想希格斯玻色子之类的东西?在它被实验证明之前,它已经被“知道”了一段时间。)
    736个帖子|注册
  7. RedFoxx写道:
    所以特警队的方法有用吗?(科学野驴猜测)


    哈!我很确定这不是'''代表......

    736个帖子|注册
  8. 这不是“人群的智慧”吗?

    我的记忆是:在爱荷华州(内布拉斯加州?)的一个博览会上,参观者有机会猜一头猪的重量。对所有猜测进行平均得到的数字几乎完全正确。哇!

    事实证明,很多游客都是养猪的农民,他们很擅长猜猪的重量。如果知识渊博的猜者的比例低于50%,这项技术就失败了。所以我认为这取决于招募合适的参与者。
    |注册了23个帖子
  9. 为什么会在屏幕底部弹出该死的cookie ?我接受了饼干,但它还是会跳出来。
    3178帖子|挂号的
  10. 他们不必经过这样的研究;我本可以告诉他们。


    你也是?
    2249帖子|挂号的
  11. 这不是“人群的智慧”吗?

    我的记忆是:在爱荷华州(内布拉斯加州?)的一个博览会上,参观者有机会猜一头猪的重量。对所有猜测进行平均得到的数字几乎完全正确。哇!

    事实证明,很多游客都是养猪的农民,他们很擅长猜猪的重量。如果知识渊博的猜者的比例低于50%,这项技术就失败了。所以我认为这取决于招募合适的参与者。


    实际上有更多的是这种“人群的智慧”的东西,我忘记了我读/学到的特定细节。但有几种方法可以做到这一点。

    A)每个人都做出独立的猜测,然后你算平均值
    b)每个人都决定了一个领导者或领导者为他们猜测猜测
    C)每个人都讨论它并同意一个猜测

    A是目前为止最准确的。集体思维/同伴压力/社会羊群对c来说可能是个问题。根据情况(我想如果需要专家知识的话)B可能会很好。但是A在各个方面都很好。
    1124帖子|挂号的
  12. 引用:
    因此,有了关于预测和信念更新实际如何工作的数据,可以帮助研究人员理解他们最需要的人——比如决策者和科学家同行——如何对证据做出反应


    我已经准备失望了。

    但我们应该对预测结果进行人口普查。
    639个帖子|注册
  13. tomca13写道:
    引用:
    因此,有了关于预测和信念更新实际如何工作的数据,可以帮助研究人员理解他们最需要的人——比如决策者和科学家同行——如何对证据做出反应


    我已经准备失望了。

    但我们应该对预测结果进行人口普查。
    如果你没有希望,你就永远不会失望....
    |注册了15444个帖子
  14. 引用:
    从一整组科学家们采取的预测可以平均偏出偏差并突出知情良好的疑虑,因此是对科学研究的非常有用的贡献。

    这里最关键的词是“可能”。

    这并不意味着“意志”。

    我的经验是,基本的结果的可预测性很大程度上取决于本集团以及主题是什么。但我倾向于认为它不会完全扩展,并且无需反映超出本集团的一般偏见的任何东西。

    作为一个例子,我会在Ars拍摄一个神圣的牛:特斯拉。

    问Ars社区关于特斯拉成功的预测结果,你会得到一个非常乐观的答案。

    询问汽车制造商,您将获得不同的答案,而不是在自然界的乐观态度。

    问问投资者,你会发现普通投资者和顾问之间存在分歧(因为很多人是做空,可能是为了“成功”)。

    问问街上的普通人,他们可能会有更接近真相的答案,因为他们通常不参与游戏。

    因此,被问到同样问题的小组会给出截然不同的预测,这些预测可能会,也可能不会,最终反映出现实。

    问同样的人关于其他的事情,比如可能的成功Bolinger Motor's Ev's,这些答案可能会更接近真相,因为偏差可能更加相似,并且更能反映市场对他们的态度。

    在那些偏见非常强大的热门话题上,群体不会擅长预测他们的偏见的事情。因此,组预测的有用性将依赖于中立的主题如何相对于偏置,或者将需要“组”被过滤出来以删除尽可能多的偏差。

    鉴于描述的方法,我不确定按组预测平均事物是否会产生非常准确的结果。他们需要更加选择本集团,或主题,并且往往被试图在第一个地方获得预测的人的偏见倾斜。

    有些人非常善于预测出来。但有点像有雨人的人才,他们有一种不同的心灵,可以采取不同的数据,看看具有高度可预测结果的易于预测模式。

    例如,当萨达姆从图片中移除时,中东问题。这很容易预测,很多专家都做到了。正是他们预测的方式也是如此。授予,不是科学实验的结果,但它是同样的事情。

    我不指望那种人才可以通过“暴徒”来复制,但“可以”也包括成功的可能性。我会留下那种可能性,但如果它变得越来越大,我会非常惊讶。毕竟,预测不是证据,直到你做实验,以获得该证据。
    |注册了14491个帖子
  15. 这是一个非常有趣的研究。来自气候变化否认者的常见批评之一是“共识不是科学”。尽管像托马斯·库恩(Thomas Kuhn)这样的许多科学哲学思想都明确指出了共识和“群体意见”在科学进步中的重要作用,许多被政治驱使而否认诸如人为气候变化等基本“既定科学”的傻瓜将基于这样一个事实:共识评估不是基本科学方法的一部分。

    像这项研究这样的经验证据,显示了共识意见的预测价值,只能帮助我们教育公众,让他们知道否认者有多么错误(不仅是在气候变化方面,还有在疫苗接种、进化等方面),并帮助他们发展更好的复杂问题分析技能,考虑到真正的领域专家的“共识意见”,当我们大多数人缺乏背景来认真评估一个领域的原始数据。
    1437帖子|挂号的
  16. 这不是“人群的智慧”吗?

    我的记忆是:在爱荷华州(内布拉斯加州?)的一个博览会上,参观者有机会猜一头猪的重量。对所有猜测进行平均得到的数字几乎完全正确。哇!

    事实证明,很多游客都是养猪的农民,他们很擅长猜猪的重量。如果知识渊博的猜者的比例低于50%,这项技术就失败了。所以我认为这取决于招募合适的参与者。


    这种方法的其他用途: https://unanimous.ai/emergent-intellige…豆子/
    568个帖子|注册
  17. thelee写道:
    实际上有更多的“人群智慧”的东西,

    确实。James Surowiecki在这个主题上写了一本全书。

    https://en.wikipedia.org/wiki/The_Wisdom_of_Crowds

    看看这篇有趣的文章看看可能的不同概率分布:

    Lee Md,Lee Mn。人群多数与二元决策准确性的关系。判决与决策。2017; 12(4):328-343。

    最后一次编辑Ambrose William2019年10月24日(星期四)下午2:50

    |注册了23个帖子
  18. 更多“人群智慧”废话?
    8176帖子|挂号的
  19. 我读到大多数科学研究论文都没有经过同行评议。当你阅读或阅读科学家的研究时,你想相信什么就相信什么。
    |注册了81个帖子
  20. 在广播公司的群众实验中有一个有趣的智慧催化剂一般人口猜测的地方乌鲁鲁的重量误差在专家计算的15%以内。
    |注册了998个帖子
  21. 由此产生的一个推论是,刻板印象通常是有效的。
    1529帖子|注册
  22. 预测一项研究是否可以重复,可能与在第一次进行之前预测结果有很大不同,这取决于预测者是否观察了原始研究。如果她有,那么她可能注意到了其中的危险信号,比如它离给出不同的结果有多近,方法和分析的合理性,以及研究是如何被客观描述的。例如,如果最初的研究使用p-hacking来得到一个几乎不显著的结果,人们可能有理由怀疑它是否可以被持续复制。
    448帖子|挂号的
  23. 我真的很惊讶在这篇文章中没有提到贝叶斯定理或到目前为止的评论。

    至少“元分析”的概念几乎只在最后一句中使用过一次——尽管这可能是偶然的。

    我的之前的设置得太高,所以我将调整我的偏见,以降低“ARS上的统计分析片的价值”。
    44帖子|挂号的
  24. ARaybould写道:
    预测一项研究是否可以重复,可能与在第一次进行之前预测结果有很大不同,这取决于预测者是否观察了原始研究。如果她有,那么她可能注意到了其中的危险信号,比如它离给出不同的结果有多近,方法和分析的合理性,以及研究是如何被客观描述的。例如,如果最初的研究使用p-hacking来得到一个几乎不显著的结果,人们可能有理由怀疑它是否可以被持续复制。

    在这两种情况下,有两个组件将告诉您概率初步的成功或者成功复制实验:
    1)统计权力-根据定义,如果它很低,那么你就知道该研究不会有很高的概率被重复。
    2)实验知识特别是涉及不同的文化(甚至说城市与小镇)甚至小鼠菌株(我们知道这些菌株有所不同)。ars强调,当你时,专家知识并没有帮助不明白你的基本理解是错误的。类似的还有缩回细胞系不是人们所期望的那样。在这里,适当的实验设计对于控制不同的影响是很重要的。

    P-hacking如果您尤其是统计分析组件实际上阅读论文,永远不会是一个问题。它不影响复制或成功,因为它可能归因于样本量不足,缺乏统计理解(由作者和读者)多重比较
    524个帖子|注册
  25. Sulla.写道:
    为什么会在屏幕底部弹出该死的cookie ?我接受了饼干,但它还是会跳出来。


    如果只是有办法让他们在会议上保持我们的选择。
    |注册了331个帖子
  26. 这不是“人群的智慧”吗?


    它再次是WOTC,但没有“只是”它。

    公正的故事是Galton的牛,来自19世纪末英格兰。对Galton非常令人惊讶的是,整个人群表现出据称专家的子集。

    到目前为止,我工作的团队(replicationmarkets.com,欢迎预测者)正在预测复制,但通过提前进行新的研究,维瓦尔和德拉维尼亚也可以在答案变得“明显”之前记录科学家的想法。

    在没有强有力的理论(喜欢HIGG)的情况下,这有助于选择有意义的空缺而不是通常的零。
    2个帖子|注册
  27. 德弗根写道:

    我的前任被定得太高了


    在马丁斯的事上把他绊倒,他就会气死的。
    7918帖子|已注册
  28. 这篇文章给了我很大的印象déjà似曾相识。我发誓一年前我读过一篇关于这类研究的文章。很明显这是一篇新论文(尽管Ars文章底部的引文说的是2018年而不是2019年),但你确定Ars之前没有报道过类似的论文吗?
    2043个帖子|注册
  29. 沃克结婚写道:
    在这一点上,人的因素应该总是击败人工智能,尽管这种优势会越来越小。的能力和你的肠道一起去是电脑做不到的事情…它可以根据几率和概率做出选择,但这只是等式的一部分。

    Star Trek TNG在这方面发表了个好点......我敢肯定的是为什么我现在才能想到。无论如何,我站在其中。

    然后,Star Trek TNG也有辅导员在国际象棋中击败数据因为"这是一场直觉游戏"而且Kirk用Spock拉了同样的伎俩

    我挑战你在最艰难的环境中对你的电脑举行国际象棋,看看与你的肠道一起去的能力会得到你!
    303帖子|挂号的
  30. OoklaTheMok写道:
    这篇文章给了我很大的印象déjà似曾相识。我发誓一年前我读过一篇关于这类研究的文章。很明显这是一篇新论文(尽管Ars文章底部的引文说的是2018年而不是2019年),但你确定Ars之前没有报道过类似的论文吗?


    总是有可能的,但你更有可能读到的是四篇论文中的一篇,这些论文大多使用社会科学家来预测这些结果。看到http://citationfutures.com的链接。其中几篇文章还附有关于实验下注的热门文章。
    2个帖子|注册

你必须评论。

渠道Ars Technica