Запах плохой психологии

Автор статьи - putanumonit.com, ссылка на оригинал: The Scent of Bad Psychology. Перевод опубликован с разрешения автора.

Плохая новость: кризис репликации в психологии повторяется. Из 21 случайно выбранных психологических работ, опубликованных в престижных журналах Nature и Science в 2010–2015 годах, только 13 пережили мощное тиражирование.

Хорошая новость: рынок прогнозирования – на котором могут делать ставки коллеги- аналитики, результаты которого будут повторяться, – идентифицировал почти все из них корректно. Так же, как и простой опрос пэров без денежного поощрения.

Лучшая новость: так же, как и я.

предположение репликации

Наилучшее известие: вы тоже можете.

Роб Виблин из 80,000 Hours собрал викторину, которая предлагает описание 21 исследования и позволяет угадать, повторяются ли их основные выводы или нет. Я рекомендую попробовать на себе. Если вы не уверены в своих способностях, можете просмотреть некоторые из моих предыдущих постов о защите от темных искусств (о статистической чуши).

Вонь плохих исследований трудно скрыть, и достаточно нескольких простых правил, чтобы отличить истинное понимание человеческой природы от взломанных научных трудностей. Вот то, что вам нужно знать, чтобы пройти тест и не попасть на следующий кусок психической ерунды.

Правило 1: Правило антизначности.

Если исследование имеет p = 0,049, это фальшивка.

Есть два исследования в викторине с p-значениями чуть ниже общего 0,05 порога. Я сразу (и правильно) идентифицировал оба как подделку, не читая ничего другого.

Если взять класс “Статистика 101” в большинстве университетов, вас обучают следующему правилу статистической значимости:

Результат с p-значением выше 0,05, вероятно, неверен. Значение р ниже 0,05 является статистически значимым. Это означает, что результат верен.

Это никогда не формулируется так явно, но это подразумеваемое правило, которое люди изучают, когда они «проверяют» гипотезы с порогом 0,05, чтобы получить оценку «А». Я получил A + в моем классе статистики в аспирантуре, следуя этому правилу неукоснительно.

Впрочем, это было давно. Сегодня позвольте мне представить Яшино правило антисмысленности:

Результат с p-значением чуть выше 0,05 вполне может быть правдой. Результат с p-значением чуть ниже 0,05 почти наверняка неверен.

Если вы понимаете, почему это так, вы знаете все необходимое о статистике в исследованиях.

Давайте начнем с первой части: насколько вероятен результат с p = 0,06 для репликации?

p = 0,06 примерно означает, что измеренный эффект в 1,5-1,9 раза превышает стандартную ошибку, в зависимости от используемого теста. Измеряемый эффект представляет собой некоторую комбинацию истинного эффекта и шума. Даже если шум составляет половину измерения, истинный эффект в 0,8 раза превышает стандартную ошибку в эксперименте.

Но стандартная ошибка является функцией размера выборки - она должна уменьшаться с квадратным корнем из числа субъектов. Когда мы запускаем репликацию с 10-кратным размером выборки (что делали многие исследования в проекте репликации), вероятность стандартная ошибка будет примерно в 3,1 раза ниже. Это означает, что истинный эффект теперь в 0,8 * 3,1 = 2,5 раза больше стандартной ошибки нового эксперимента с более крупной выборкой. Этого более чем достаточно для успешной репликации. Результат с p = 0,06 будет полностью обусловлен шумом, но многие из них будут указывать на что-то реальное, что необходимо подтвердить более сильной репликацией.

Что еще более важно: р = 0,06 означает, что исследователи честны. Они могли легко взломать результаты ниже 0,05, но предпочли не делать этого. Противоположность верна, когда р = 0,049.

Вероятность того, что значение p исследования окажется точно в диапазоне 0,045-0,05, составляет 0,005 (1/200), если эффекта не существует. Даже если эффект истинен и точно равен линии p = 0,05, вероятность того, что измеренное значение p попадет в это крошечное окно, составляет всего 1/60.

Но если исследование было взломано, если исследователи продолжали жонглировать различными гипотезами, включая и исключая выбросы, и подгонять измерения, то почти гарантированно цифра будет в диапазоне 0,045-0,05.

В байесовских терминах, которые мы должны использовать в любом случае, значение p в диапазоне 0,045-0,05 дает в 60-200 раз большую вероятность для гипотезы «исследование было взломано плохими исследователями», чем для гипотезы. «Исследование попало на это значение р случайно». И поскольку недобросовестные (или просто невежественные) исследователи в области психологии, безусловно, более распространены, чем 1 из 60, вывод (т. е. апостериорный) состоит в том, что исследование с p = 0,049 получило это значение р за счет чуши собачьей, а его результат - чушь собачья.

2: Правило бабушки Талеба

Если предполагаемый эффект звучит неправдоподобно, это действительно так.

Талебс бабушка

У вас есть ум, способный симулировать себя, позволяя вам копировать любые психологические исследования в вашей собственной голове с N=1.

Пример 1: «Люди предпочитают смотреть телевизор в течение 12 минут, а не наедине со своими мыслями в течение 12 минут». Прямо сейчас вы читаете этот блог, потому что не хотите оставаться наедине со своими мыслями. Этот эксперимент легко воспроизвести.

Пример 2: «Если вы воображаете, что ели M & M 30 раз, сразу после этого вы будете есть меньше M & M из миски».Сделайте это. Представьте, что вы едите M & M: поднимаете его, жуете, глотаете. Теперь сделайте это еще 29 раз. Вы почти наверняка почувствуете, как меняется ваше отношение к M & Ms.

Я не знаю, предположил ли бы я раньше, что эффект заставит меня хотеть меньше M & M, но из моего мысленного эксперимента N=1 вполне вероятно, что так или иначе будет данный эффект. Конечно, если бы эффект заставлял людей есть больше M & Ms, исследование все равно было бы опубликовано! Каким бы ни был эффект, у меня были основания полагать, что это будет правдой. Это исследование также воспроизведено, с хорошим размером эффекта.

Пример 3: «Мытье рук снижает вероятность того, что вы захотите обосновать свое решение о том, как вы оценили музыкальные альбомы, а просто думать о мыле - нет». Представьте, что вы моете руки. Чувствуете ли вы какое-либо влияние на ваше желание рационализировать решения? А теперь представьте, как объясняете это учение бабушке Нассима Талеба.

Психолог: Видите ли, бабушка Талеба, есть четкая связь между мытьем рук и оправданием выбора рейтинга альбома.

Бабушка Талеба: Какого хрена ты говоришь?

Психолог: очистка рук «устраняет эффект диссонанса после принятия решений», заставляя вас думать о «чистом листе». Это научные термины, так что вы знаете, что это серьезная наука.

Бабушка: То, что мы используем слово «чистый» в английском для обозначения рук и вашей совести, не означает, что размышления о чистоте в одном контексте изменят ваше поведение в другом контексте.

Психолог: Нет, нет, просто думать о мытье рук является недостаточно , чтобы прайм вас, даже если все остальные исследования грунтования говорит , что это достаточно просто думать о вещах. Размышления о мыле ничего не делают. Вам нужно на самом деле вымыть руки, чтобы получить эффект, и не только потому, что мы пробовали разные способы заправки и сообщили только о том, который дал нам публикуемое значение p.

Бабушка: Хорошо, значит, вы говорите, что мытье рук заставляет меня хотеть «прийти в порядок» и объяснить свое решение о том, как я оценила некоторые альбомы?

Психолог: наоборот! Мойте руки делает вас менее вероятно, чтобы объяснить свое решение, потому что вы уже думаете о себе, как метафорический чистые.

Бабушка: Эта история о мытье рук и объяснении решений зависит от сочетания нескольких шагов, каждый из которых индивидуально нелепый, а направление эффекта на каждом шаге выбирается совершенно случайно. В этой гипотезе есть более обременительные детали, которые могут быть подняты 40 исчерпывающими исследованиями с сотнями участников в каждом, не говоря уже об одном исследовании с 40 студентами, которые не поднимают. Это нелепая чушь, и мне нужно мыть уши мылом, чтобы удалить все следы этой чепухи из моего мозга.

Психолог: Ну, это было достаточно хорошо, чтобы опубликовать в Science. Вы говорите, что экспертная проверка не является гарантией истинных результатов?

Бабушка: Подождите, пока я не расскажу об этом внуку, он сделает всю карьеру из насмешливых людей, таких как вы. #IYI #SkinInTheGame #LindyEffect

Мы можем подвести итоги в приложении к правилу 2.

Правило 2b: нам всем должно быть стыдно, что мы верим в зубрежку даже на секунду.

Правило 3: Правило множественности

Если исследование выглядит так, как будто оно пробовало 20 разных вещей, чтобы получить p-значение, оно имеет. Какой бы эффект он ни обнаружил, это всего лишь артефакт проверки нескольких гипотез.

Я уже написал пару тысяч слов о том, почему исследование, которое использует несколько гипотез и не корректирует множественность, не стоит тех пикселей, на которых оно написано. Это мой пост с наименьшим количеством читаемых сообщений о корректировке качества, потому что даже читатели, которые нажимают на самопровозглашенный «математический блог» под названием «Поместите число в него», не хотят, чтобы в их сообщениях было слишком много фактической математики.

Самое интересное в том, что вы можете угадать, какие исследования являются многозначными только по их рефератам. Вот как одно из исследований было обобщено на викторине 80 000 часов:

Когда люди держат и пишут в более тяжелой дощечке, люди, оценивающие соискателей, оценивают их как «лучше в целом» и «более серьезно заинтересованы в данной должности».

Не метафорически тяжелая дощечка уже несет в себе запах заправки, и как только я увидел слово «и» в описании, я понял, что это подделка, не смотря на размер выборки или значение p. Я мог бы только представить, как исследователи пробуют 27 дощечки из разных материалов, 4 опроса и 15 анализов крови для измерения воздействия, а также 906 эффектов взаимодействия, чтобы быть уверенными, что что-то где-то достигнет публикуемого значения p.

Вот некоторые выдержки из настоящей статьи (любезно предоставлено нашими героями в Sci-Hub):

Опыт физического прикосновения может создать онтологический каркас для развития внутриличностных и межличностных концептуальных и метафорических знаний.

Первый признак того, что вас вот-вот накормят ерундой, - это абстракция, полная 4-слоговых слов, которые подходят для 2-слоговых слов.

Весовой опыт, иллюстрируемый тяжестью и легкостью, метафорически связан с понятиями серьезности и важности. Это подтверждается идиомами «размышления о весомых вещах» и «серьезности ситуации».

Зубрежка действительно похожа на Каббалу, где полу-произвольные совпадения языка имеют силу формировать миры.

В нашем первом исследовании, посвященном тестированию влияния веса на формирование оттиска, у нас было 54 прохожих, которые оценивали кандидата на работу, просматривая резюме на легких (340,2 г) или тяжелых (2041,2 г) планшетах. Участники, использующие тяжелые дощечки, оценили кандидата в целом лучше и, в частности, проявили более серьезный интерес к должности.

Тем не менее, кандидат не был оценен как более вероятный, чтобы «ладить» с коллегами, предполагая, что реплика веса повлияла на впечатления от производительности и серьезности кандидата, в соответствии с «тяжелой» метафорой, но не метафорически нерелевантной чертой схожести.

Кто-нибудь на самом деле верит, что, если кандидат был оценен как более легкий, он признает, что это противоречит их гипотезе, вместо того, чтобы выдумать просто историю о том, как кандидат является «солидным человеком», на которого можно «опираться»?

Наше второе исследование исследовало , как метафорические ассоциации с весом влияют на принятия решений [...] Здесь, главный эффект состояния дощечки, квалифицировались

на взаимодействии с участником полом.

Когда вы отчаянно нуждаетесь в p-значениях и вам необходимо протестировать 100 новых гипотез, разбить свою группу на произвольные категории (по полу, возрасту, расе, астрологическим признакам…) - это самый простой способ сделать это. Это «эффект пожилой испаноязычной женщины».

Сравнимые с пятым исследованием, участники, которые сидели на жестких стульях, оценивали работника как более стабильного (р = 0,030) и менее эмоционального (р = 0,028), но в целом не более позитивного. По задаче переговоров никаких различий в ценах предложения не возникло (р> 0,14).

Затем мы рассчитали изменение цен предложения от первого предложения ко второму, исходя из предположения, что активизация концепций стабильности и жесткости должна снизить гибкость решений людей или их готовность изменить свои предложения.

Среди участников, сделавших второе предложение, жесткие кресла действительно произвели меньшее изменение в цене предложения (M = 896,5 долл. США, SD = 529,6 долл. США), чем мягкие кресла (M = 1243,6 долл. США, SD = 775,9 долл. США).

Это исследование в основном руководство по хакерству. Они даже не пытаются скрыть это, вместо этого подробно описывая, как, когда гипотеза не давала p-значение ниже 0,05, они пробовали все больше и больше вещей, пока случайно не выпало что-то опубликованное.

Это нормально, если одно исследование обнаружит, что вес дощечки влияет только на показатели A и B, а не на C, и только для женщин, а не мужчин, если вы затем проведете другое исследование, которое рассматривает только A, B и женщин . Но исследование, которое проверило 100 вещей и рассказывает о трех из них, похоже на уголовника, который упоминает, что есть некоторые банки, которые он не грабил.

4: Правило силиконовых сисек

Если это сексуально, это, вероятно, подделка.

«Сексуальный» означает «вероятно, будет опубликован в New York Times и / или привлечет исследователя на сцену TEDx». Фактическое исследование сексуальности не является «сексуальным», потому что оно продолжает сталкиваться с неудобными результатами, как то, что богатые и высокопоставленные мужчины в возрасте за сорок и худые женщины в возрасте после двадцати лет, как правило, находят друг друга очень сексуальными. Единственный способ сделать такой результат «сексуальным» - это обвинить в этом патриархат, и большинство психологов не так уж далеко (пока).

Итак: «Участники автоматически проецируют убеждения агентов и сохраняют их таким же образом, как и их собственные представления об окружающей среде (сравнение среднего времени реакции между обработкой ПА и обработкой P-A +)». Я заснул, просто скопировав этот реферат. Это ужасно несексуальное исследование, воспроизведенное с большим размером эффекта.

«Участники в состоянии, которое имитировало стресс бедности, справлялись с задачей внимания хуже, чем те, кто имитировал легкость обогащения». Гораздо сексуальнее, как и все, что связано с образовательными мероприятиями, неравенство богатства - плохо, дискриминация - это плохо. действительно плохой, или любой другой результат, который легко проецируется на прогрессивную платформу политики. Конечно, тиражирование показало почти значимый результат в направлении, противоположном оригиналу - люди в «плохом состоянии» уделяли больше внимания и работали лучше.

Все, что противоречит интуиции, также сексуально, и поэтому (согласно правилу 2) менее вероятно, что оно будет правдой. Так что ничего нового, что не основано на существующем существующем исследовании. В конце концов, Times - это газетный бизнес, а не газетный .

Найти надежные результаты очень сложно, но опубликовать сексуальные результаты очень легко. Таким образом, сексуальные результаты обычно лишены надежности. Лично я нахожу определенную прочность довольно сексуальной, но это отношение, похоже, вышло из моды со времен Ренессанса.

Тициан Венера и музыка

Тициан, Венера и Музыка

Причины оптимизма

Эндрю Гельман написал в 2016 году:

Давайте прямо сейчас проведем яркую линию. 2016 год - это год 1. Все, что публикуется до 2016 года, является предварительным. Не воспринимайте публикацию как значащую часть чего-либо, и просто потому, что статья цитируется одобрительно, этого тоже недостаточно. Вы должны прочитать каждую статью по-своему. Все, что было опубликовано в 2015 году или ранее, является частью эпохи «слишком большой, чтобы обанкротиться», это потенциально мусорная облигация, поддерживаемая ядовитыми кредитами, и вы не должны на это полагаться.

Хотя, безусловно, верно то, что многие психологии были ненужной наукой в эпоху до 2016 года, неясно, улучшится ли ситуация с 2016 года.

Кризис репликации в психологии не является новым явлением. Статистик Джейкоб Коэн отметил, что большинство исследований по психологии недостаточно развиты и полны ложных срабатываний еще в 1962 году . В 1990 году он отметил, что все только ухудшается . Почему голоса, подобные Коэну, игнорировались более 5 десятилетий?

Моя гипотеза такова:

Большинство психологов не могли понять математику того, что было не так, или не хотели попробовать. Стандарты на местах были таковы, что они могли сойти с криминальной методологии.
Психологи, которым не безразлична математическая строгость, оказались в невыгодном положении, поскольку они не могли сравниться с публикацией результатов своих коллег по взлому. Многие из них, вероятно, ушли, чтобы заняться чем-то другим, например, рекламой в 1960-х или наукой о потребительских данных в 2010-х.

Но с ерундой сложнее уйти, если все знают, как их обнаружить, и все знают, что все знают. Если вы и я сможем угадать, какие исследования будут повторяться с точностью, близкой к 90%, то редакторы журналов Nature и Science также могут это сделать, и теперь им придется вместо того, чтобы бить 62% (13/21). Исследователи не могут делать вид, что «репликация испортила эксперимент», если каждый может сразу сказать, что исследование никогда не будет повторяться.

Существуют способы повысить надежность исследований в области психологии, которые требуют изучения некоторой математики, но не выходя за рамки того, что можно узнать из чтения Путанумонита: оценка экспериментальной мощности , вычисление вероятности альтернатив вместо проверки нулевой гипотезы, исправление множественности . Но есть также исправления, которые вообще не требуют знания математики, такие как предварительная регистрация анализа, подозрительность к эффектам взаимодействия, которых не было в основной гипотезе, и получение большего объема выборки, чем у 20 старшекурсников, которые делают это за кредит курса.

Надеемся, что психологические исследователи начали делать эти вещи через пару лет, так как стало ясно, что фигня будет поймана. А если нет, мы их поймаем.