Published on
Updated on 

Запах плохой психологии

Authors

Автор статьи - putanumonit.com, ссылка на оригинал: The Scent of Bad Psychology. Перевод опубликован с разрешения автора.

Плохая новость: кризис репликации в психологии повторяется. Из 21 случайно выбранных психологических работ, опубликованных в престижных журналах Nature и Science в 2010–2015 годах, только 13 пережили мощное тиражирование.

Хорошая новость: рынок прогнозирования – на котором могут делать ставки коллеги- аналитики, результаты которого будут повторяться, – идентифицировал почти все из них корректно. Так же, как и простой опрос пэров без денежного поощрения.

Лучшая новость: так же, как и я.

предположение репликации

Наилучшее известие: вы тоже можете.

Роб Виблин из 80,000 Hours собрал викторину, которая предлагает описание 21 исследования и позволяет угадать, повторяются ли их основные выводы или нет. Я рекомендую попробовать на себе. Если вы не уверены в своих способностях, можете просмотреть некоторые из моих предыдущих постов о защите от темных искусств (о статистической чуши).

Вонь плохих исследований трудно скрыть, и достаточно нескольких простых правил, чтобы отличить истинное понимание человеческой природы от взломанных научных трудностей. Вот то, что вам нужно знать, чтобы пройти тест и не попасть на следующий кусок психической ерунды.

Правило 1: Правило антизначности.

Если исследование имеет p = 0,049, это фальшивка.

Есть два исследования в викторине с p-значениями чуть ниже общего 0,05 порога. Я сразу (и правильно) идентифицировал оба как подделку, не читая ничего другого.

Если взять класс “Статистика 101” в большинстве университетов, вас обучают следующему правилу статистической значимости:

Результат с p-значением выше 0,05, вероятно, неверен. Значение р ниже 0,05 является статистически значимым. Это означает, что результат верен.

Это никогда не формулируется так явно, но это подразумеваемое правило, которое люди изучают, когда они «проверяют» гипотезы с порогом 0,05, чтобы получить оценку «А». Я получил A + в моем классе статистики в аспирантуре, следуя этому правилу неукоснительно.

Впрочем, это было давно. Сегодня позвольте мне представить Яшино правило антисмысленности:

Результат с p-значением чуть выше 0,05 вполне может быть правдой. Результат с p-значением чуть ниже 0,05 почти наверняка неверен.

Если вы понимаете, почему это так, вы знаете все необходимое о статистике в исследованиях.

Давайте начнем с первой части: насколько вероятен результат с p = 0,06 для репликации?

p = 0,06 примерно означает, что измеренный эффект в 1,5-1,9 раза превышает стандартную ошибку, в зависимости от используемого теста. Измеряемый эффект представляет собой некоторую комбинацию истинного эффекта и шума. Даже если шум составляет половину измерения, истинный эффект в 0,8 раза превышает стандартную ошибку в эксперименте.

Но стандартная ошибка является функцией размера выборки - она ​​должна уменьшаться с квадратным корнем из числа субъектов. Когда мы запускаем репликацию с 10-кратным размером выборки (что делали многие исследования в проекте репликации), вероятность стандартная ошибка будет примерно в 3,1 раза ниже. Это означает, что истинный эффект теперь в 0,8 * 3,1 = 2,5 раза больше стандартной ошибки нового эксперимента с более крупной выборкой. Этого более чем достаточно для успешной репликации. Результат с p = 0,06 будет полностью обусловлен шумом, но многие из них будут указывать на что-то реальное, что необходимо подтвердить более сильной репликацией.

Что еще более важно: р = 0,06 означает, что исследователи честны. Они могли легко взломать результаты ниже 0,05, но предпочли не делать этого. Противоположность верна, когда р = 0,049.

Вероятность того, что значение p исследования окажется точно в диапазоне 0,045-0,05, составляет 0,005 (1/200), если эффекта не существует. Даже если эффект истинен и точно равен линии p = 0,05, вероятность того, что измеренное значение p попадет в это крошечное окно, составляет всего 1/60.

Но если исследование было взломано, если исследователи продолжали жонглировать различными гипотезами, включая и исключая выбросы, и подгонять измерения, то почти гарантированно цифра будет в диапазоне 0,045-0,05.

В байесовских терминах, которые мы должны использовать в любом случае, значение p в диапазоне 0,045-0,05 дает в 60-200 раз большую вероятность для гипотезы «исследование было взломано плохими исследователями», чем для гипотезы. «Исследование попало на это значение р случайно». И поскольку недобросовестные (или просто невежественные) исследователи в области психологии, безусловно, более распространены, чем 1 из 60, вывод (т. е. апостериорный) состоит в том, что исследование с p = 0,049 получило это значение р за счет чуши собачьей, а его результат - чушь собачья.

2: Правило бабушки Талеба

Если предполагаемый эффект звучит неправдоподобно, это действительно так.

Талебс бабушка

У вас есть ум, способный симулировать себя, позволяя вам копировать любые психологические исследования в вашей собственной голове с N=1.

Пример 1: «Люди предпочитают смотреть телевизор в течение 12 минут, а не наедине со своими мыслями в течение 12 минут». Прямо сейчас вы читаете этот блог, потому что не хотите оставаться наедине со своими мыслями. Этот эксперимент легко воспроизвести.

Пример 2: «Если вы воображаете, что ели M & M 30 раз, сразу после этого вы будете есть меньше M & M из миски».Сделайте это. Представьте, что вы едите M & M: поднимаете его, жуете, глотаете. Теперь сделайте это еще 29 раз. Вы почти наверняка почувствуете, как меняется ваше отношение к M & Ms.

Я не знаю, предположил ли бы я раньше, что эффект заставит меня хотеть меньше M & M, но из моего мысленного эксперимента N=1 вполне вероятно, что так или иначе будет данный эффект. Конечно, если бы эффект заставлял людей есть больше M & Ms, исследование все равно было бы опубликовано! Каким бы ни был эффект, у меня были основания полагать, что это будет правдой. Это исследование также воспроизведено, с хорошим размером эффекта.

Пример 3: «Мытье рук снижает вероятность того, что вы захотите обосновать свое решение о том, как вы оценили музыкальные альбомы, а просто думать о мыле - нет». Представьте, что вы моете руки. Чувствуете ли вы какое-либо влияние на ваше желание рационализировать решения? А теперь представьте, как объясняете это учение бабушке Нассима Талеба.

Психолог: Видите ли, бабушка Талеба, есть четкая связь между мытьем рук и оправданием выбора рейтинга альбома.

Бабушка Талеба: Какого хрена ты говоришь?

Психолог: очистка рук «устраняет эффект диссонанса после принятия решений», заставляя вас думать о «чистом листе». Это научные термины, так что вы знаете, что это серьезная наука.

Бабушка: То, что мы используем слово «чистый» в английском для обозначения рук и вашей совести, не означает, что размышления о чистоте в одном контексте изменят ваше поведение в другом контексте.

Психолог: Нет, нет, просто думать о мытье рук является недостаточно , чтобы прайм вас, даже если все остальные исследования грунтования говорит , что это достаточно просто думать о вещах. Размышления о мыле ничего не делают. Вам нужно на самом деле вымыть руки, чтобы получить эффект, и не только потому, что мы пробовали разные способы заправки и сообщили только о том, который дал нам публикуемое значение p.

Бабушка: Хорошо, значит, вы говорите, что мытье рук заставляет меня хотеть «прийти в порядок» и объяснить свое решение о том, как я оценила некоторые альбомы?

Психолог: наоборот! Мойте руки делает вас менее вероятно, чтобы объяснить свое решение, потому что вы уже думаете о себе, как метафорический чистые.

Бабушка: Эта история о мытье рук и объяснении решений зависит от сочетания нескольких шагов, каждый из которых индивидуально нелепый, а направление эффекта на каждом шаге выбирается совершенно случайно. В этой гипотезе есть более обременительные детали, которые могут быть подняты 40 исчерпывающими исследованиями с сотнями участников в каждом, не говоря уже об одном исследовании с 40 студентами, которые не поднимают. Это нелепая чушь, и мне нужно мыть уши мылом, чтобы удалить все следы этой чепухи из моего мозга.

Психолог: Ну, это было достаточно хорошо, чтобы опубликовать в Science. Вы говорите, что экспертная проверка не является гарантией истинных результатов?

Бабушка: Подождите, пока я не расскажу об этом внуку, он сделает всю карьеру из насмешливых людей, таких как вы. #IYI #SkinInTheGame #LindyEffect

Мы можем подвести итоги в приложении к правилу 2.

Правило 2b: нам всем должно быть стыдно, что мы верим в зубрежку даже на секунду.

Правило 3: Правило множественности

Если исследование выглядит так, как будто оно пробовало 20 разных вещей, чтобы получить p-значение, оно имеет. Какой бы эффект он ни обнаружил, это всего лишь артефакт проверки нескольких гипотез.

Я уже написал пару тысяч слов о том, почему исследование, которое использует несколько гипотез и не корректирует множественность, не стоит тех пикселей, на которых оно написано. Это мой пост с наименьшим количеством читаемых сообщений о корректировке качества, потому что даже читатели, которые нажимают на самопровозглашенный «математический блог» под названием «Поместите число в него», не хотят, чтобы в их сообщениях было слишком много фактической математики.

Самое интересное в том, что вы можете угадать, какие исследования являются многозначными только по их рефератам. Вот как одно из исследований было обобщено на викторине 80 000 часов:

Когда люди держат и пишут в более тяжелой дощечке, люди, оценивающие соискателей, оценивают их как «лучше в целом» и «более серьезно заинтересованы в данной должности».

Не метафорически тяжелая дощечка уже несет в себе запах заправки, и как только я увидел слово «и» в описании, я понял, что это подделка, не смотря на размер выборки или значение p. Я мог бы только представить, как исследователи пробуют 27 дощечки из разных материалов, 4 опроса и 15 анализов крови для измерения воздействия, а также 906 эффектов взаимодействия, чтобы быть уверенными, что что-то где-то достигнет публикуемого значения p.

Вот некоторые выдержки из настоящей статьи (любезно предоставлено нашими героями в Sci-Hub):

Опыт физического прикосновения может создать онтологический каркас для развития внутриличностных и межличностных концептуальных и метафорических знаний.

Первый признак того, что вас вот-вот накормят ерундой, - это абстракция, полная 4-слоговых слов, которые подходят для 2-слоговых слов.

Весовой опыт, иллюстрируемый тяжестью и легкостью, метафорически связан с понятиями серьезности и важности. Это подтверждается идиомами «размышления о весомых вещах» и «серьезности ситуации».

Зубрежка действительно похожа на Каббалу, где полу-произвольные совпадения языка имеют силу формировать миры.

В нашем первом исследовании, посвященном тестированию влияния веса на формирование оттиска, у нас было 54 прохожих, которые оценивали кандидата на работу, просматривая резюме на легких (340,2 г) или тяжелых (2041,2 г) планшетах. Участники, использующие тяжелые дощечки, оценили кандидата в целом лучше и, в частности, проявили более серьезный интерес к должности.

Тем не менее, кандидат не был оценен как более вероятный, чтобы «ладить» с коллегами, предполагая, что реплика веса повлияла на впечатления от производительности и серьезности кандидата, в соответствии с «тяжелой» метафорой, но не метафорически нерелевантной чертой схожести.

Кто-нибудь на самом деле верит, что, если кандидат был оценен как более легкий, он признает, что это противоречит их гипотезе, вместо того, чтобы выдумать просто историю о том, как кандидат является «солидным человеком», на которого можно «опираться»?

Наше второе исследование исследовало , как метафорические ассоциации с весом влияют на принятия решений [...] Здесь, главный эффект состояния дощечки, квалифицировались

на взаимодействии с участником полом.

Когда вы отчаянно нуждаетесь в p-значениях и вам необходимо протестировать 100 новых гипотез, разбить свою группу на произвольные категории (по полу, возрасту, расе, астрологическим признакам…) - это самый простой способ сделать это. Это «эффект пожилой испаноязычной женщины».

Сравнимые с пятым исследованием, участники, которые сидели на жестких стульях, оценивали работника как более стабильного (р = 0,030) и менее эмоционального (р = 0,028), но в целом не более позитивного. По задаче переговоров никаких различий в ценах предложения не возникло (р> 0,14).

Затем мы рассчитали изменение цен предложения от первого предложения ко второму, исходя из предположения, что активизация концепций стабильности и жесткости должна снизить гибкость решений людей или их готовность изменить свои предложения.

Среди участников, сделавших второе предложение, жесткие кресла действительно произвели меньшее изменение в цене предложения (M = 896,5 долл. США, SD = 529,6 долл. США), чем мягкие кресла (M = 1243,6 долл. США, SD = 775,9 долл. США).

Это исследование в основном руководство по хакерству. Они даже не пытаются скрыть это, вместо этого подробно описывая, как, когда гипотеза не давала p-значение ниже 0,05, они пробовали все больше и больше вещей, пока случайно не выпало что-то опубликованное.

Это нормально, если одно исследование обнаружит, что вес дощечки влияет только на показатели A и B, а не на C, и только для женщин, а не мужчин, если вы затем проведете другое исследование, которое рассматривает только A, B и женщин . Но исследование, которое проверило 100 вещей и рассказывает о трех из них, похоже на уголовника, который упоминает, что есть некоторые банки, которые он не грабил.

4: Правило силиконовых сисек

Если это сексуально, это, вероятно, подделка.

«Сексуальный» означает «вероятно, будет опубликован в New York Times и / или привлечет исследователя на сцену TEDx». Фактическое исследование сексуальности не является «сексуальным», потому что оно продолжает сталкиваться с неудобными результатами, как то, что богатые и высокопоставленные мужчины в возрасте за сорок и худые женщины в возрасте после двадцати лет, как правило, находят друг друга очень сексуальными. Единственный способ сделать такой результат «сексуальным» - это обвинить в этом патриархат, и большинство психологов не так уж далеко (пока).

Итак: «Участники автоматически проецируют убеждения агентов и сохраняют их таким же образом, как и их собственные представления об окружающей среде (сравнение среднего времени реакции между обработкой ПА и обработкой P-A +)». Я заснул, просто скопировав этот реферат. Это ужасно несексуальное исследование, воспроизведенное с большим размером эффекта.

«Участники в состоянии, которое имитировало стресс бедности, справлялись с задачей внимания хуже, чем те, кто имитировал легкость обогащения». Гораздо сексуальнее, как и все, что связано с образовательными мероприятиями, неравенство богатства - плохо, дискриминация - это плохо. действительно плохой, или любой другой результат, который легко проецируется на прогрессивную платформу политики. Конечно, тиражирование показало почти значимый результат в направлении, противоположном оригиналу - люди в «плохом состоянии» уделяли больше внимания и работали лучше.

Все, что противоречит интуиции, также сексуально, и поэтому (согласно правилу 2) менее вероятно, что оно будет правдой. Так что ничего нового, что не основано на существующем существующем исследовании. В конце концов, Times - это газетный бизнес, а не газетный .

Найти надежные результаты очень сложно, но опубликовать сексуальные результаты очень легко. Таким образом, сексуальные результаты обычно лишены надежности. Лично я нахожу определенную прочность довольно сексуальной, но это отношение, похоже, вышло из моды со времен Ренессанса.

Тициан Венера и музыка

Тициан, Венера и Музыка

Причины оптимизма

Эндрю Гельман написал в 2016 году:

Давайте прямо сейчас проведем яркую линию. 2016 год - это год 1. Все, что публикуется до 2016 года, является предварительным. Не воспринимайте публикацию как значащую часть чего-либо, и просто потому, что статья цитируется одобрительно, этого тоже недостаточно. Вы должны прочитать каждую статью по-своему. Все, что было опубликовано в 2015 году или ранее, является частью эпохи «слишком большой, чтобы обанкротиться», это потенциально мусорная облигация, поддерживаемая ядовитыми кредитами, и вы не должны на это полагаться.

Хотя, безусловно, верно то, что многие психологии были ненужной наукой в ​​эпоху до 2016 года, неясно, улучшится ли ситуация с 2016 года.

Кризис репликации в психологии не является новым явлением. Статистик Джейкоб Коэн отметил, что большинство исследований по психологии недостаточно развиты и полны ложных срабатываний еще в 1962 году . В 1990 году он отметил, что все только ухудшается . Почему голоса, подобные Коэну, игнорировались более 5 десятилетий?

Моя гипотеза такова:

  1. Большинство психологов не могли понять математику того, что было не так, или не хотели попробовать. Стандарты на местах были таковы, что они могли сойти с криминальной методологии.
  2. Психологи, которым не безразлична математическая строгость, оказались в невыгодном положении, поскольку они не могли сравниться с публикацией результатов своих коллег по взлому. Многие из них, вероятно, ушли, чтобы заняться чем-то другим, например, рекламой в 1960-х или наукой о потребительских данных в 2010-х.

Но с ерундой сложнее уйти, если все знают, как их обнаружить, и все знают, что все знают. Если вы и я сможем угадать, какие исследования будут повторяться с точностью, близкой к 90%, то редакторы журналов Nature и Science также могут это сделать, и теперь им придется вместо того, чтобы бить 62% (13/21). Исследователи не могут делать вид, что «репликация испортила эксперимент», если каждый может сразу сказать, что исследование никогда не будет повторяться.

Существуют способы повысить надежность исследований в области психологии, которые требуют изучения некоторой математики, но не выходя за рамки того, что можно узнать из чтения Путанумонита: оценка экспериментальной мощности , вычисление вероятности альтернатив вместо проверки нулевой гипотезы, исправление множественности . Но есть также исправления, которые вообще не требуют знания математики, такие как предварительная регистрация анализа, подозрительность к эффектам взаимодействия, которых не было в основной гипотезе, и получение большего объема выборки, чем у 20 старшекурсников, которые делают это за кредит курса.

Надеемся, что психологические исследователи начали делать эти вещи через пару лет, так как стало ясно, что фигня будет поймана. А если нет, мы их поймаем.

Ilia is a professional writer. He has expert knowledge in GPS and cartography with 15 years of experience. Additionally, Ilia has extensive experience in data recovery on PC and mobile. He started his career as a journalist by reviewing PC and mobile apps. His current responsibilities are to keep track of users' questions on MGT and answer them.