Языки в Интернете
Вопрос о популярности тех или иных языков в современном Интернете остаётся дискуссионным и часто зависит от заданных параметров. Статистический подсчёт осложняется также растущим многоязычием сайтов и даже страниц, которое выступает ключевым фактором цифровой инклюзивности, обеспечивая равные возможности для пользователей независимо от их языка[1]. Данная cтатья освещает распространение языков в сети Интернет, их процентное соотношение по веб-сайтам, по пользователям — носителям языков, и т. п. Поскольку компьютерная сеть, а затем и Интернет в современном его виде появились в США, где самым распространённым языком в масштабах страны, а также единственным официальным на уровне большинства штатов является английский, то первое время именно английский был преобладающим, если не единственным языком Интернет-сайтов, а также большинства пользователей. В настоящее время английский язык остаётся преобладающим, его доля в контенте веб-сайтов составляет 49,6 %[2]. Однако после выхода на мировую арену доля английского языка на сайтах начала стремительно сокращаться в связи с тем, что в мире имеется несколько языков, число носителей которых либо превышает число англоязычных (испанский, хинди), либо растёт более быстрыми темпами (арабского, турецкого, тайского). Кроме этого, активное использование Интернета на правительственных сайтах всех уровней выводит вперёд языки крупнейших по площади государств мира (Россия, КНР, Бразилия). В топ популярных языков Интернета входят английский, испанский (6,0 %), немецкий (6,0 %)[3]. Значительный рост демонстрирует арабский язык, популярность которого продолжает увеличиваться, хотя общая доля сайтов на нём пока невелика (0,6 %)[4]. Далее самые высокие скорости прироста по числу пользователей демонстрируют русский, китайский, португальский и испанский языки.
Общие сведения
| Языки в Интернете | |
|---|---|
| В этом списке перечисляются | язык[d] |
Языки веб-сайтов
Около половины веб-сайтов и веб-страниц в Интернете по-прежнему используют английский как основной язык (49,6 %)[2], однако его доля имеет тенденцию к постепенному сокращению за счёт более быстрого роста сегментов Интернета на других языках. По результатам исследования, проведённого W3Techs, доля английского языка c апреля 2011 года по ноябрь 2017 на всех сайтax мира сократилась с 57,6 % до 51,2 %[5]. Другими языками, которые используются хотя бы на 2,0 % сайтов, являются русский, немецкий, японский, испанский, китайский, французский, итальянский, португальский. Второе место по использованию делят испанский и немецкий (по 6,0 %)[3], за ними следует японский (5,0 %)[6]. С марта 2013 года по декабрь 2017 доля русского языка на сайтах Интернета выросла с 5,9 % до 6,8 %[5] (в основном за счёт роста небольших по трафику сайтов на русском). На русском оперируют 89,8 % сайтов домена .ru и 88,7 % домена .su. В 2013 году 79,0 % сайтов Украины, 86,9 % Беларуси, 84,0 % в Казахстане, 79,6 % в Узбекистане, 75,9 % в Киргизии и 81,8 % в Таджикистане также были на русском. Из 1000 самых посещаемых сайтов мира 2013 года 6 имели преимущественно русское содержание.
Ниже приведена подробная таблица динамики языков, использующихся на веб-сайтах 2011—2019 гг[7].[8].
| Язык | 21.07.2019,% | 1.01.2019,% | 2011,% | |
|---|---|---|---|---|
| английский | 54,0 | 54,0 | 63,7[9] | |
| русский | 6,1 | 6,0 | 6,8 | |
| немецкий | 5,7 | 6.0 | 2,5 | |
| испанский | 5,0 | 4.9 | 3,6 | |
| французский | 3,9 | 4.0 | 2,5 | |
| японский | 3,5 | 3.4 | 1,9 | |
| португальский | 2,9 | 2.9 | 0,7 | |
| итальянский | 2,4 | 2,3 | 0,7 | |
| персидский | 2,0 | 2,0 | 3,5 | |
| польский | 1,7 | 1.7 | 0,5 | |
| китайский | 1,6 | 1,7 | 1,3 | |
| турецкий | 1,3 | 1.2 | ||
| голландский | 1,1 | 1,2 | 0,5 | |
| чешский | 1,0 | 1,0 | ||
| корейский | 1,0 | 0,9 | ||
| вьетнамский | 0,7 | 0,6 | ||
| арабский | 0,6 | 0,6 | ||
| греческий | 0,6 | 0,5 | ||
| венгерский | 0,5 | 0,5 | ||
| шведский | 0,5 | 0,5 | ||
| румынский | 0,5 | 0,4 | ||
| словацкий | 0,4 | 0,4 | ||
| индонезийский | 0,4 | 0,3 | ||
| датский | 0,3 | 0,3 | ||
| тайский | 0,3 | 0,3 | ||
| финский | 0,3 | 0,3 | ||
| болгарский | 0,2 | 0,2 | ||
| украинский | 0,2 | 0,2 | ||
| иврит | 0,2 | 0,2 | ||
| норвежский (букмол) | 0,2 | 0,2 | ||
| хорватский | 0,2 | 0,2 | ||
| сербский | 0,1 | 0,1 | ||
| литовский | 0,1 | 0,1 | ||
| словенский | 0,1 | 0,1 | ||
| норвежский (нюнорск) | 0,1 | 0,1 | ||
| каталонский | 0,1 | 0,1 | ||
| латышский | 0,1 | 0,1 | ||
| хинди | 0,1 | 0,1 | ||
| эстонский | 0,1 | 0,1 | ||
| азербайджанский | <0.1 % | 0,1 |
Все другие языки используются на менее чем 0,1 % сайтов. Статистический подсчёт, однако, осложняется также растущим многоязычием сайтов и даже страниц. Проникновение Интернета, уровень образования, степень реальной урбанизации и постиндустриализации тех или иных сообществ несомненно вносят свои коррективы в динамику использования тех или иных языков в Интернете, вызывая сильные диспропорции. К примеру, сайтов на русском (6,7 %) заметно больше, чем на испанском (5,1 %), хотя доля испаноязычных в мире как минимум вдвое больше, чем русскоязычных. Китайский язык (1,3 %)[10] по-прежнему слабо представлен в контенте: его доля в 2017 году составляла 2,0 % и была практически идентичной доле польского (1,7 %), хотя синоязычных в мире почти в 40 раз больше, чем поляков. Из-за традиционного предпочтения английского языка в Британской Индии, хинди (второй по численности носителей родной язык в мире после китайского) также по-прежнему очень слабо представлен в контенте (менее 0,1 %)[10], и каких-либо сдвигов к продвижению второго по количеству носителей языка в мире технологий пока не наблюдается. При создании интернет-содержания большим спросом по-прежнему практически не пользуются такие весьма известные или многочисленные современные государственные языки как албанский, армянский, африкаанс, тагалог, казахский, узбекский, бенгали, монгольский, урду, суахили, таджикский, малайский и др.
Языки по носителям
Основными пользователями Интернета по состоянию на 2011 год являлись носители английского и китайского языков (26,8 % и 24,2 % от всех пользователей, соответственно). По количеству носителей русский язык занимал девятое место, и русскоязычные составляли 3 % от всех пользователей. Oднако русскоязычные пользователи сумели создать обширный Рунет, охватывающий более 6,5 % мировых сайтов. Отчасти это объясняется тем, что Россия является крупнейшим государством мира, имеющим большое количество правительственных сайтов различного уровня на русском языке.
Арабский язык демонстрирует один из самых заметных темпов роста, достигнув доли 5,2 % от всех пользователей[12].
Ниже приведена подробная таблица десятка самых распространённых языков в Интернете по числу носителей по состоянию на 2011 год.
| Позиция | Язык | Пользователей Интернета | % от всех |
|---|---|---|---|
| 1 | английский | 565 004 126 | 26,8 |
| 2 | китайский | 509 965 013 | 24,2 |
| 3 | испанский | 164 968 742 | 7,8 |
| 4 | японский | 99 182 000 | 4,7 |
| 5 | португальский | 82 586 600 | 3,9 |
| 6 | немецкий | 75 422 674 | 3,6 |
| 7 | арабский | 65 365 400 | 3,3 |
| 8 | французский | 59 779 525 | 3,0 |
| 9 | русский | 59 700 000 | 3,0 |
| 10 | корейский | 39 440 000 | 2,0 |
| Первый десяток | 1 615 957 333 | 82,2 | |
| Остальные языки | 350 557 483 | 17,8 | |
| Все языки | 2 099 926 965 | 100 |
Ниже приведена подробная таблица десятка самых распространённых языков в Интернете по числу пользователей по данным Internet World Stats за март 2020 года[12]
| Позиция | Язык | Пользователей Интернета | % от всех |
|---|---|---|---|
| 1 | английский | 1 186 400 000 | 25,9 |
| 2 | китайский | 888 500 000 | 19,4 |
| 3 | испанский | 363 700 000 | 7,9 |
| 4 | арабский | 237 400 000 | 5,2 |
| 5 | индонезийский / малайский | 198 000 000 | 4,3 |
| 6 | португальский | 171 800 000 | 3,7 |
| 7 | французский | 151 700 000 | 3,3 |
| 8 | японский | 118 600 000 | 2,6 |
| 9 | русский | 116 300 000 | 2,5 |
| 10 | немецкий | 92 500 000 | 2,0 |
| Первый десяток | 3,346,642,747 | 76,3 | |
| Остальные языки | 1,039,842,794 | 23,7 | |
| Все языки | 4,386,485,541 | 100 |
Многоязычие и технологические факторы
Развитию многоязычия в интернете способствует технологическое развитие и системная цифровизация языковых данных. Создание онлайн-словарей, корпусов текстов и систем машинного перевода позволяет активнее использовать различные языки в цифровом пространстве[13]. Важным фактором также является внедрение «Универсального принятия» (Universal Acceptance) — технической готовности программных продуктов и сервисов к работе с доменными именами и адресами электронной почты, использующими символы национальных алфавитов[1].
Значительное влияние на языковой ландшафт интернета оказывает развитие генеративного искусственного интеллекта. ИИ-инструменты позволяют масштабировать производство контента, упрощая перевод и создание материалов на менее распространённых языках[14]. В то же время применение этих технологий создаёт риск «языковой предвзятости»: поскольку большинство крупных языковых моделей обучаются преимущественно на массивах англоязычных данных, это может непреднамеренно укреплять доминирование английского языка и маргинализировать другие языки и диалекты[15].
Просмотры Википедии по языкам
Статистика просмотров страниц языковых разделов Википедии[16].
| Классифицировать | Язык | Ежедневные просмотры страниц (в среднем за последний год с «Агентом» = «Пользователь» на 4 января 2021 г.) |
|---|---|---|
| 1 | Английский | 233,412,890 |
| 2 | Японский | 33,348,255 |
| 3 | Русский | 29,598,303 |
| 4 | Немецкий | 27,414,507 |
| 5 | Испанский | 27,337,625 |
| 6 | Французский | 22,923,283 |
| 7 | Итальянский | 15,724,865 |
| 8 | Китайский | 15,132,890 |
| 9 | Португальский | 8,110,370 |
| 10 | Польский | 7,598,455 |
| 11 | Арабский | 6,827,011 |
| 12 | Персидский | 6,162,496 |
| 13 | Турецкий | 4,229,201 |
| 14 | Голландский | 4,130,998 |
| 15 | Индонезийский | 3,357,910 |
Примечания
Ссылки
- Статистика использования языков на веб-сайтах
- Mark Davis. World GDP by Language (англ.). unicode.org (22 января 2003). Дата обращения: 6 января 2012. Архивировано из оригинала 17 февраля 2011 года.
- Twelve years of measuring linguistic diversity in the Internet (англ.). UNESCO (2009). Дата обращения: 6 января 2012. Архивировано из оригинала 1 апреля 2010 года.