SCIgen
SCIgen — генератор научных статей, использующий контекстно-свободную грамматику для случайного создания псевдонаучных текстов в виде исследовательских работ по информатике. Исходные данные были получены из коллекции статей по информатике, загруженных с CiteSeer. SCIgen формирует все элементы научной статьи, включая графики, диаграммы и ссылки на источники. Программа разработана учёными из Массачусетского технологического института, её заявленной целью является «максимизация удовольствия, а не согласованности»[1]. Первоначально SCIgen был создан в 2005 году для демонстрации недостаточности экспертизы при приёме материалов на конференции, но позже стал использоваться — преимущественно китайскими учёными — для массовой генерации мошеннических конференционных работ, что привело к отзыву 122 статей и созданию ПО для обнаружения таких публикаций[2].
Что важно знать
| SCIgen | |
|---|---|
| Тип | генератор научных статей |
| Написана на | Perl |
| Языки интерфейса | английский |
| Репозиторий | github.com/strib/scigen |
| Лицензия | GNU General Public License |
| Сайт | pdos.csail.mit.edu/scige… |
Пример вывода
Начало аннотации статьи Rooter: Методология типового объединения точек доступа и избыточности:[3]
Многие физики согласились бы, что если бы не контроль перегрузки, оценка веб-браузеров могла бы никогда не произойти. На самом деле, мало кто из хакеров по всему миру стал бы спорить с необходимостью объединения голосовой связи по IP и пар открытого/закрытого ключа. Для решения этой загадки мы показываем, что мультипроцессорные системы могут быть стохастическими, кэшируемыми и взаимозаменяемыми.
Случаи использования
В 2005 году автоматически сгенерированная SCIgen статья Rooter: Методология типового объединения точек доступа и избыточности была принята на рассмотрение без рецензирования на конференцию WMSCI 2005, а авторам предложили выступить с докладом. Команда авторов SCIgen подробно описала этот розыгрыш на своём сайте, и вскоре история получила широкую огласку после публикации на Slashdot. Организаторы конференции отозвали приглашение, однако команда SCIgen всё равно приехала, арендовала помещение в отеле отдельно и провела серию случайно сгенерированных выступлений на собственной «секции». Организатором конференций WMSCI является профессор Нагиб Калаос. С 2000 по 2005 год конференция также спонсировалась IEEE[4]. IEEE прекратила спонсорство Калаоса с 2006 по 2008 годы.
Подача статьи была сознательной попыткой дискредитировать WMSCI, которую авторы обвиняли в приёме работ низкого качества и массовой рассылке приглашений к подаче материалов. Как отмечено на сайте SCIgen:
Одна из возможных практических целей подобной программы — автоматическая генерация заявок на конференции, стандарты отбора которых кажутся вам подозрительно низкими. Типичный пример — SCI/IIIS и десятки сопутствующих конференций (см. крайне расплывчатое описание конференции на сайте WMSCI 2005).
— О SCIgen[5]
Компьютерный журналист Стан Келли-Бутл в журнале ACM Queue отметил, что многие предложения из статьи «Rooter» по отдельности выглядят правдоподобно, что затрудняет автоматическое выявление мистификаций. По его мнению, даже читатели-люди могут быть обмануты искусным использованием жаргона («Каламбур root/router — типичный для юмора выпускников MIT, обязательна и хотя бы одна методология»), приписывая кажущуюся бессвязность статьи своим собственным пробелам в знаниях. Он заключил: «Для надёжной фильтрации бессмыслицы требуется тщательное комплексное рецензирование несколькими профильными экспертами».
Псевдоним «Герберт Шлангеманн» использовался для публикации фиктивных научных работ на международных конференциях, заявляющих о профессиональном рецензировании. Имя взято из шведского короткометражного фильма Der Schlangemann.
- В 2008 году в ответ на серию спам-рассылок приглашений к подаче статей SCIgen был применён для генерации фиктивной научной работы «Towards the Simulation of E-Commerce», где автором выступал «Герберт Шлангеманн». Статья была принята на конференцию 2008 International Conference on Computer Science and Software Engineering (CSSE 2008), соорганизованную IEEE в Ухане (Китай); «автор» был приглашён быть председателем секции на основании фиктивного резюме[6]. В официальной рецензии было отмечено: «В статье представлено кооперативное решение и классическая коммуникация. В заключение, результат показывает, что несмотря на многоеобещающий амфибический алгоритм для уточнения рандомизированных алгоритмов невозможен, хорошо известный клиент-серверный алгоритм для анализа voice-over-IP, предложенный Кумаром и Раманом, работает за O(n) времени. Авторы явно выделяют важные аспекты визуализации DHT и анализируют их проницательно. Рекомендуется более чётко развивать идеи, лучше структурировать изложение и достигать ясных переходов между мыслями». Статья короткое время находилась в базе IEEE Xplore, затем была удалена. Вся история изложена в официальном блоге «Герберта Шлангеманна»[7], также была упомянута на Slashdot[8] и немецком сайте Heise Online[9].
- В 2009 году аналогичный случай произошёл снова: авторство Герберта Шлангеманна имела новая фиктивная работа PlusPug: Методология совершенствования локальных сетей, принятая для устного доклада на 2009 International Conference on e-Business and Information System Security (EBISS 2009), также организованную при участии IEEE в Ухане[7].
Во всех случаях публикации отзывались из официальных сборников конференций, а оргкомитет и список пленарных докладчиков удалялись с сайтов мероприятий.
- Роб Томас: Rooter: Методология типового объединения точек доступа и избыточности, 2005, WMSCI (см. выше)
- Статья Матиаса Услара была принята на конференцию IPSI-BG[10].
- Профессор Генко Гюлан опубликовал статью на 3-м Международном симпозиуме по дизайну интерактивных медиа[11].
- В 2013 году научная работа по наукометрии продемонстрировала, что как минимум 85 статей, сгенерированных SCIgen, были опубликованы IEEE и Springer[12]. Более 120 статей были затем удалены, согласно этим исследованиям[13].
- Студенты иранского Шарифского технологического университета опубликовали статью в Journal of Applied Mathematics and Computation издательства Elsevier[14]. Авторы использовали фамилию «MosallahNejad», что буквально переводится с персидского как «из боевого рода» (хотя это и не традиционная фамилия в Иране). После обнаружения мистификации статья была удалена[15].
- Михаил Гельфанд в августе 2008 года опубликовал перевод статьи «Rooter» в российском журнале «Вестник научных публикаций аспирантов и докторантов» — в знак протеста против отсутствия рецензирования и использования этого журнала российскими соискателями для публикаций в «аккредитированном» научном журнале за 4000 рублей. Аккредитация была отозвана через две недели[16][17]. (См. также Диссернет.)
- Springer Science+Business Media и IEEE были также объектом подобных мистификаций.
Рецензирование публикаций, организуемое IEEE, подвергалось критике после обнаружения фальшивых статей, сгенерированных SCIgen, в сборниках конференций. Особенно ярко это показали работы Лаббе и исследователь, выступавший под псевдонимом Шлангеманн[18][19][20][21][22][23].
Сирил Лаббе из Университета Гренобля продемонстрировал уязвимость расчётов 'h'-индекса на основе данных Google Scholar. В своей работе 2010 года он загрузил туда большое количество сгенерированных SCIgen статей, ссылающихся друг на друга, организовав своеобразную научную «ферму ссылок»; этот метод позволил поставить «Ike Antkare» выше Альберта Эйнштейна, например[24].
В 2013 году более 122 статей, сгенерированных SCIgen, были отозваны издательствами Springer и IEEE. В отличие от предыдущих розыгрышей, эти публикации преимущественно создавались китайскими учёными для увеличения видимости своих публикаций[25].
В 2015 году издательством Springer было выпущено ПО SciDetect, разработанное Сирилом Лаббе для автоматического обнаружения статей, сгенерированных SCIgen[2].
В 2021 году опубликовано исследование о 243 статьях, созданных SCIgen и реально попавших в научную литературу. Было установлено, что на их долю приходится 75 на миллион статей (<0,01 %) в области информационных наук, и только незначительная часть из них была выявлена и обработана[26][27].
Примечания
Литература
- Ball, Philip (2005). “Computer conference welcomes gobbledegook paper”. Nature. 434 (7036): 946. Bibcode:2005Natur.434..946B. DOI:10.1038/nature03653. PMID 15846311.
- kdawson. Software-Generated Paper Accepted At IEEE Conference, VA Linux Systems Japan (24 декабря 2008). Дата обращения: 5 мая 2009.
- Peter-Michael Ziegler. Dr. Herbert Schlangemann - oder die Geschichte eines pseudowissenschaftlichen Nonsens-Papiers (на нем.), Heise Zeitschriften Verlag (26 декабря 2008). Дата обращения: 5 мая 2009.


