Semantic Scholar
Semantic Scholar — инструмент поиска и анализа научной литературы. Сервис разрабатывается «Институтом искусственного интеллекта Аллена» и был публично запущен в ноябре 2015 года[1]. Semantic Scholar использует современные методы обработки естественного языка для поддержки исследовательской деятельности, например, предоставляя автоматически сгенерированные аннотации к научным статьям[2]. Команда Semantic Scholar активно исследует применение искусственного интеллекта в обработке естественного языка, машинном обучении, взаимодействии человека и компьютера, а также в информационном поиске[3].
Что важно знать
| Semantic Scholar | |
|---|---|
| URL | semanticscholar.org |
| Коммерческий | нет |
| Тип сайта | поисковая система |
| Автор | Allen Institute for Artificial Intelligence |
| Начало работы | 2015 |
| Текущий статус | активен |
| Страна | |
Технологии
Semantic Scholar изначально был ориентирован на публикации по компьютерным наукам, геонаукам и нейронаукам[4]. В 2017 году система начала индексировать и биомедицинские публикации[4]. По состоянию на сентябрь 2022 года Semantic Scholar содержит свыше 200 миллионов публикаций по всем отраслям науки[5].
Semantic Scholar предоставляет однострочное резюме научных публикаций. Одной из задач сервиса было решение проблемы просмотра многочисленных длинных заголовков и аннотаций на мобильных устройствах[6]. Сервис также стремится способствовать тому, чтобы ежегодно публикуемые три миллиона научных работ были доступны читателям, поскольку по оценкам только половина из них прочитывается[7].
Искусственный интеллект используется для выделения существенной информации из работы с помощью абстрактивных методов генерации[2] Проект сочетает машинное обучение, обработку естественного языка и компьютерное зрение для семантического анализа публикаций, а также извлечения релевантных графиков, таблиц, сущностей и наименований конференций из текста статей.[8].
Ещё одна важная функция на базе ИИ — «Research Feeds», интеллектуальные рекомендательные ленты, которые адаптируются к интересам пользователя и предлагают актуальные публикации по релевантным темам. Для этого используется модель эмбеддингов статей, обученная через контрастивное обучение, чтобы находить схожие публикации для каждой тематической подборки[9].
Semantic Scholar также предлагает Semantic Reader — расширенный ридер, который призван сделать чтение научных текстов более доступным и насыщенным дополнительным контекстом[10]. Semantic Reader показывает встроенные карточки цитирований с автоматически сгенерированными сокращёнными резюме (TLDR) и выделяет ключевые фрагменты для быстрого ознакомления с содержанием.
В отличие от Google Scholar и PubMed, Semantic Scholar заточен на выделение наиболее значимых и влиятельных элементов публикаций[11]. Искусственный интеллект используется для поиска скрытых взаимосвязей между исследовательскими темами[12]. Как и другие поисковые системы, Semantic Scholar работает с графовыми структурами данных, такими как Microsoft Academic Knowledge Graph, SciGraph, а также собственной базой Semantic Scholar Corpus, изначально включавшей 45 миллионов публикаций по информатике, нейронаукам и биомедицине[13][14].
Идентификатор статьи
Каждая публикация в Semantic Scholar получает уникальный идентификатор — Semantic Scholar Corpus ID (сокращённо S2CID). Пример оформления библиографической ссылки с этим идентификатором:
Liu, Ying; Gayle, Albert A; Wilder-Smith, Annelies; Rocklöv, Joacim (March 2020). “The reproductive number of COVID-19 is higher compared to SARS coronavirus”. Journal of Travel Medicine. 27 (2). DOI:10.1093/jtm/taaa021. PMID 32052846. S2CID 211099356.
Индексация
Сервис Semantic Scholar является бесплатным, и в отличие от некоторых аналогичных систем, таких как Google Scholar, не индексирует материалы, находящиеся за платными стенами[4].
Одна из работ сравнила полноту индексации Semantic Scholar и Google Scholar для компьютерных наук и показала, что для цитированных вторичными исследованиями публикаций оба поисковика имеют сопоставимую степень покрытия, пропуская лишь единицы работ[15].
Пользователи и количество публикаций
По состоянию на январь 2018 года, после проекта по добавлению работ Аррингтона и тематических обзоров, корпус Semantic Scholar включал более 40 миллионов публикаций по информатике и биомедицине[16]. В марте 2018 года Дуг Рэймонд, ранее занимавшийся развитием машинного обучения в Amazon Alexa, был приглашён для руководства проектом Semantic Scholar[17]. К августу 2019 года число записей в базе метаданных выросло до более чем 173 миллионов[18] после интеграции записей Microsoft Academic Graph[19]. В 2020 году партнёрство с Чикагским университетским издательством позволило включить все статьи этого издательства в корпус Semantic Scholar[20]. К концу 2020 года индекс включал 190 миллионов публикаций[21]. В 2020 году ежемесячная аудитория Semantic Scholar достигла 7 миллионов пользователей[6].


