Semantic Scholar

Semantic Scholar — инструмент поиска и анализа научной литературы. Сервис разрабатывается «Институтом искусственного интеллекта Аллена» и был публично запущен в ноябре 2015 года[1]. Semantic Scholar использует современные методы обработки естественного языка для поддержки исследовательской деятельности, например, предоставляя автоматически сгенерированные аннотации к научным статьям[2]. Команда Semantic Scholar активно исследует применение искусственного интеллекта в обработке естественного языка, машинном обучении, взаимодействии человека и компьютера, а также в информационном поиске[3].

Что важно знать
Semantic Scholar
URL semanticscholar.org
Коммерческий нет
Тип сайта поисковая система
Автор Allen Institute for Artificial Intelligence
Начало работы 2015
Текущий статус активен
Страна

Технологии

Semantic Scholar изначально был ориентирован на публикации по компьютерным наукам, геонаукам и нейронаукам[4]. В 2017 году система начала индексировать и биомедицинские публикации[4]. По состоянию на сентябрь 2022 года Semantic Scholar содержит свыше 200 миллионов публикаций по всем отраслям науки[5].

Semantic Scholar предоставляет однострочное резюме научных публикаций. Одной из задач сервиса было решение проблемы просмотра многочисленных длинных заголовков и аннотаций на мобильных устройствах[6]. Сервис также стремится способствовать тому, чтобы ежегодно публикуемые три миллиона научных работ были доступны читателям, поскольку по оценкам только половина из них прочитывается[7].

Искусственный интеллект используется для выделения существенной информации из работы с помощью абстрактивных методов генерации[2] Проект сочетает машинное обучение, обработку естественного языка и компьютерное зрение для семантического анализа публикаций, а также извлечения релевантных графиков, таблиц, сущностей и наименований конференций из текста статей.[8].

Ещё одна важная функция на базе ИИ — «Research Feeds», интеллектуальные рекомендательные ленты, которые адаптируются к интересам пользователя и предлагают актуальные публикации по релевантным темам. Для этого используется модель эмбеддингов статей, обученная через контрастивное обучение, чтобы находить схожие публикации для каждой тематической подборки[9].

Semantic Scholar также предлагает Semantic Reader — расширенный ридер, который призван сделать чтение научных текстов более доступным и насыщенным дополнительным контекстом[10]. Semantic Reader показывает встроенные карточки цитирований с автоматически сгенерированными сокращёнными резюме (TLDR) и выделяет ключевые фрагменты для быстрого ознакомления с содержанием.

В отличие от Google Scholar и PubMed, Semantic Scholar заточен на выделение наиболее значимых и влиятельных элементов публикаций[11]. Искусственный интеллект используется для поиска скрытых взаимосвязей между исследовательскими темами[12]. Как и другие поисковые системы, Semantic Scholar работает с графовыми структурами данных, такими как Microsoft Academic Knowledge Graph, SciGraph, а также собственной базой Semantic Scholar Corpus, изначально включавшей 45 миллионов публикаций по информатике, нейронаукам и биомедицине[13][14].

Идентификатор статьи

Каждая публикация в Semantic Scholar получает уникальный идентификатор — Semantic Scholar Corpus ID (сокращённо S2CID). Пример оформления библиографической ссылки с этим идентификатором:

Liu, Ying; Gayle, Albert A; Wilder-Smith, Annelies; Rocklöv, Joacim (March 2020). “The reproductive number of COVID-19 is higher compared to SARS coronavirus”. Journal of Travel Medicine. 27 (2). DOI:10.1093/jtm/taaa021. PMID 32052846. S2CID 211099356.

Индексация

Сервис Semantic Scholar является бесплатным, и в отличие от некоторых аналогичных систем, таких как Google Scholar, не индексирует материалы, находящиеся за платными стенами[4].

Одна из работ сравнила полноту индексации Semantic Scholar и Google Scholar для компьютерных наук и показала, что для цитированных вторичными исследованиями публикаций оба поисковика имеют сопоставимую степень покрытия, пропуская лишь единицы работ[15].

Пользователи и количество публикаций

По состоянию на январь 2018 года, после проекта по добавлению работ Аррингтона и тематических обзоров, корпус Semantic Scholar включал более 40 миллионов публикаций по информатике и биомедицине[16]. В марте 2018 года Дуг Рэймонд, ранее занимавшийся развитием машинного обучения в Amazon Alexa, был приглашён для руководства проектом Semantic Scholar[17]. К августу 2019 года число записей в базе метаданных выросло до более чем 173 миллионов[18] после интеграции записей Microsoft Academic Graph[19]. В 2020 году партнёрство с Чикагским университетским издательством позволило включить все статьи этого издательства в корпус Semantic Scholar[20]. К концу 2020 года индекс включал 190 миллионов публикаций[21]. В 2020 году ежемесячная аудитория Semantic Scholar достигла 7 миллионов пользователей[6].

Примечания

Ссылки