SCIgen

SCIgen — генератор научных статей, использующий контекстно-свободную грамматику для случайного создания псевдонаучных текстов в виде исследовательских работ по информатике. Исходные данные были получены из коллекции статей по информатике, загруженных с CiteSeer. SCIgen формирует все элементы научной статьи, включая графики, диаграммы и ссылки на источники. Программа разработана учёными из Массачусетского технологического института, её заявленной целью является «максимизация удовольствия, а не согласованности»[1]. Первоначально SCIgen был создан в 2005 году для демонстрации недостаточности экспертизы при приёме материалов на конференции, но позже стал использоваться — преимущественно китайскими учёными — для массовой генерации мошеннических конференционных работ, что привело к отзыву 122 статей и созданию ПО для обнаружения таких публикаций[2].

Что важно знать

Пример вывода

Начало аннотации статьи Rooter: Методология типового объединения точек доступа и избыточности:[3]

Многие физики согласились бы, что если бы не контроль перегрузки, оценка веб-браузеров могла бы никогда не произойти. На самом деле, мало кто из хакеров по всему миру стал бы спорить с необходимостью объединения голосовой связи по IP и пар открытого/закрытого ключа. Для решения этой загадки мы показываем, что мультипроцессорные системы могут быть стохастическими, кэшируемыми и взаимозаменяемыми.

Случаи использования

В 2005 году автоматически сгенерированная SCIgen статья Rooter: Методология типового объединения точек доступа и избыточности была принята на рассмотрение без рецензирования на конференцию WMSCI 2005, а авторам предложили выступить с докладом. Команда авторов SCIgen подробно описала этот розыгрыш на своём сайте, и вскоре история получила широкую огласку после публикации на Slashdot. Организаторы конференции отозвали приглашение, однако команда SCIgen всё равно приехала, арендовала помещение в отеле отдельно и провела серию случайно сгенерированных выступлений на собственной «секции». Организатором конференций WMSCI является профессор Нагиб Калаос. С 2000 по 2005 год конференция также спонсировалась IEEE[4]. IEEE прекратила спонсорство Калаоса с 2006 по 2008 годы.

Подача статьи была сознательной попыткой дискредитировать WMSCI, которую авторы обвиняли в приёме работ низкого качества и массовой рассылке приглашений к подаче материалов. Как отмечено на сайте SCIgen:

Одна из возможных практических целей подобной программы — автоматическая генерация заявок на конференции, стандарты отбора которых кажутся вам подозрительно низкими. Типичный пример — SCI/IIIS и десятки сопутствующих конференций (см. крайне расплывчатое описание конференции на сайте WMSCI 2005).

О SCIgen[5]

Компьютерный журналист Стан Келли-Бутл в журнале ACM Queue отметил, что многие предложения из статьи «Rooter» по отдельности выглядят правдоподобно, что затрудняет автоматическое выявление мистификаций. По его мнению, даже читатели-люди могут быть обмануты искусным использованием жаргона («Каламбур root/router — типичный для юмора выпускников MIT, обязательна и хотя бы одна методология»), приписывая кажущуюся бессвязность статьи своим собственным пробелам в знаниях. Он заключил: «Для надёжной фильтрации бессмыслицы требуется тщательное комплексное рецензирование несколькими профильными экспертами».

Schlangemann

Псевдоним «Герберт Шлангеманн» использовался для публикации фиктивных научных работ на международных конференциях, заявляющих о профессиональном рецензировании. Имя взято из шведского короткометражного фильма Der Schlangemann.

  • В 2008 году в ответ на серию спам-рассылок приглашений к подаче статей SCIgen был применён для генерации фиктивной научной работы «Towards the Simulation of E-Commerce», где автором выступал «Герберт Шлангеманн». Статья была принята на конференцию 2008 International Conference on Computer Science and Software Engineering (CSSE 2008), соорганизованную IEEE в Ухане (Китай); «автор» был приглашён быть председателем секции на основании фиктивного резюме[6]. В официальной рецензии было отмечено: «В статье представлено кооперативное решение и классическая коммуникация. В заключение, результат показывает, что несмотря на многоеобещающий амфибический алгоритм для уточнения рандомизированных алгоритмов невозможен, хорошо известный клиент-серверный алгоритм для анализа voice-over-IP, предложенный Кумаром и Раманом, работает за O(n) времени. Авторы явно выделяют важные аспекты визуализации DHT и анализируют их проницательно. Рекомендуется более чётко развивать идеи, лучше структурировать изложение и достигать ясных переходов между мыслями». Статья короткое время находилась в базе IEEE Xplore, затем была удалена. Вся история изложена в официальном блоге «Герберта Шлангеманна»[7], также была упомянута на Slashdot[8] и немецком сайте Heise Online[9].
  • В 2009 году аналогичный случай произошёл снова: авторство Герберта Шлангеманна имела новая фиктивная работа PlusPug: Методология совершенствования локальных сетей, принятая для устного доклада на 2009 International Conference on e-Business and Information System Security (EBISS 2009), также организованную при участии IEEE в Ухане[7].

Во всех случаях публикации отзывались из официальных сборников конференций, а оргкомитет и список пленарных докладчиков удалялись с сайтов мероприятий.

Конференции

  • Роб Томас: Rooter: Методология типового объединения точек доступа и избыточности, 2005, WMSCI (см. выше)
  • Статья Матиаса Услара была принята на конференцию IPSI-BG[10].
  • Профессор Генко Гюлан опубликовал статью на 3-м Международном симпозиуме по дизайну интерактивных медиа[11].
  • В 2013 году научная работа по наукометрии продемонстрировала, что как минимум 85 статей, сгенерированных SCIgen, были опубликованы IEEE и Springer[12]. Более 120 статей были затем удалены, согласно этим исследованиям[13].

Журналы

  • Студенты иранского Шарифского технологического университета опубликовали статью в Journal of Applied Mathematics and Computation издательства Elsevier[14]. Авторы использовали фамилию «MosallahNejad», что буквально переводится с персидского как «из боевого рода» (хотя это и не традиционная фамилия в Иране). После обнаружения мистификации статья была удалена[15].
  • Михаил Гельфанд в августе 2008 года опубликовал перевод статьи «Rooter» в российском журнале «Вестник научных публикаций аспирантов и докторантов» — в знак протеста против отсутствия рецензирования и использования этого журнала российскими соискателями для публикаций в «аккредитированном» научном журнале за 4000 рублей. Аккредитация была отозвана через две недели[16][17]. (См. также Диссернет.)
  • Springer Science+Business Media и IEEE были также объектом подобных мистификаций.

Манипуляция Google Scholar и индексом Хирша

Рецензирование публикаций, организуемое IEEE, подвергалось критике после обнаружения фальшивых статей, сгенерированных SCIgen, в сборниках конференций. Особенно ярко это показали работы Лаббе и исследователь, выступавший под псевдонимом Шлангеманн[18][19][20][21][22][23].

Сирил Лаббе из Университета Гренобля продемонстрировал уязвимость расчётов 'h'-индекса на основе данных Google Scholar. В своей работе 2010 года он загрузил туда большое количество сгенерированных SCIgen статей, ссылающихся друг на друга, организовав своеобразную научную «ферму ссылок»; этот метод позволил поставить «Ike Antkare» выше Альберта Эйнштейна, например[24].

Массовые отозванные публикации в 2013 году

В 2013 году более 122 статей, сгенерированных SCIgen, были отозваны издательствами Springer и IEEE. В отличие от предыдущих розыгрышей, эти публикации преимущественно создавались китайскими учёными для увеличения видимости своих публикаций[25].

SciDetect

В 2015 году издательством Springer было выпущено ПО SciDetect, разработанное Сирилом Лаббе для автоматического обнаружения статей, сгенерированных SCIgen[2].

Отчёт 2021 года

В 2021 году опубликовано исследование о 243 статьях, созданных SCIgen и реально попавших в научную литературу. Было установлено, что на их долю приходится 75 на миллион статей (<0,01 %) в области информационных наук, и только незначительная часть из них была выявлена и обработана[26][27].

Примечания

Литература