О статистике цитирования научных статей

Виктор Кон,   14.08.2011

В последнее время стали уделять большое внимание анализу цитирования научных статей, и даже на основе этого анализа предлагается оценивать эффективность того или иного ученого. Сама по себе идея формализации данных об эффективности ученых не удивляет. В век компьютеров и программной обработки информации такая техника позволяет оперировать с данными и использовать математику. Хотя на самом деле история учета цитирований насчитывает уже много лет, даже больше столетия. С точки зрения науки важной отметкой явилось создание Института научной информации (ИНИ, по английски Institute of Scientific Information, сокращенно ISI) в 1960 году.

Первоначально такая информация печаталась в толстых книгах мелким шрифтом на тонкой бумаге и в очень сжатом виде. Такие книги стояли на полках, например. в Ленинской библиотеке. Я сам пару раз в них заглядывал, но тогда это было никому не нужно. А потом ИНИ организовал свой сайт и назвал его Web of Science, а позднее Web of Knowledge, на котором он дает полную информацию о статьях определенного автора, включая их цитирование. Но за деньги. Крупные организации проплачивают доступ для своих сотрудников и таким образом можно получить нужную информацию, если иметь знакомых, работающих в таких организациях, или просто бывать там в командировках.

Но это американская организация, и, как всегда, Россия плохо в нее вписывается. Долгое время цитирование в русских статьях учитывалось очень плохо и в основном по переводам. Да и сами статьи в русских журналах не учитывались совсем, если журнал не переводился. Последние годы ИНИ как-то научился учитывать русские статьи в большей степени, чем раньше. И это плюс. Но тем не менее, есть и минусы. ИНИ учитывает только статьи в реферируемых журналах. Это не всегда хорошо, потому что есть очень хорошие сборники статей в виде книг, формируемые по другому принципу.

Вот пример: существует международная организация по оптике и фотонике SPIE. Она регулярно организует конференции и публикует полномасштабные статьи в трудах этой конференции. Труды выходят регулярно и насчитывают уже несколько тысяч томов. Сами статьи не рецензируются, но идет отбор участников конференций. Если докладчик не приехал и доклад не делал, то его статью не печатают. Такие статьи, тем не менее, регулярно читаются и на них ссылаются, потому что они содержат порой уникальную информацию. Но ИНИ их не учитывает. Не учитывает он и труды конференций Американского физического института (AIP). Интересно, что труды многих конференций печатаются в рецензируемых журналах на таких же условиях, что и в SPIE. Но такие статьи учитываются.

Итак, что мы имеем. Данные ИНИ на Вэб оф Сайенс (ВоС) считаются эталоном, эти данные однако закрыты и доступны только за плату, а также они не полные и не учитывают всех публикаций. Хотя широта охвата научной информации все время расчет, а удобство сервиса все время увеличивается, но недостатки все же есть, особенно для русских ученых, для которых почти нет доступа к этой информации.

Но с 2006 года появилась альтернативная система, разрабатываемая кампанией Google (Гугл), она называется Google Академия и работает в рамках общей поисковой системы Google. Эта система тоже дает число цитирований на те статьи, которые она находит. Я буду называть ее ГАк. Она работает на совсем других принципах, чем ВоС. Если ВоС при поиске дифференцирует информацию на "авторы", "название", "аннотация" и так далее, то ГАк дает только одну строку поиска и ищет выбранные слова во всех частях статей. Поэтому получить список опубликованных статей конкретного автора практически невозможно.

Нужны определенные приемы. Например, лучше делать поиск не по одной фамилии, а сразу по двум, тогда вероятность показа лишних статей уменьшается. Однако делать поиск по фамилии автора вообще не очень продуктивно, потому что ГАк показывает все статьи, где данные авторы встречаются не только как авторы, но и в списке литературы. По этой причине для поиска конкретной статьи в ГАк лучше всего в строку поиска ставить полное название статьи. И если ГАк знает эту статью, то она появится в списке первой. А если появится, то будет указано число цитирований этой статьи и даже можно посмотреть все статьи, которые ее цитируют. Но не только, ГАк дает адреса, по которым можно бесплатно скачать эту статью. Как правило, это сайты авторов, которые выставили свои статьи. Так ГАк указывает на все мои статьи, выставленные на моем сайте в списке публикаций.

Для меня это оказалось неожиданностью, так как журналы выдают авторам pdf файлы, но запрещают их распространять. Когда я выставил свои статьи на свой сайт, то я исходил из того, что никто не знает адреса, пока я сам не скажу. Но Гугл все знает и всем показывает мои статьи для скачивания. И не только мои, а вообще все, какие он знает. С другой стороны, появляется возможность получить некоторые статьи бесплатно, что важно для русских ученых, так как доступ к отдельным редким статьям ограничен. В принципе всегда можно написать автору любой статьи и попросить прислать pdf файл. Но анонимная система еще проще.

Другое отличие системы Гугла состоит в том, что она опирается только на интернет ресурсы. Это значит, что она совсем не видит статей, не представленных в интернете. А это снова русские старые статьи. Многие журналы уже давно просканировали все свои статьи, начиная от самого первого выпуска может быть с 19 века. Но только не в России. В России научные журналы даже нормальные сайты не имеют, все делается добровольцами, а редакторы работают по старинке, их очень мало и зарплаты у них мизерные. Нельзя винить Гугл в его методах, это прогрессивные методы, а Гугл - самая "разумная" компания. Все, что она делает - лучше, чем аналоги. Но факт есть факт, русских статей, не представленных в интернете для нее не существует.

Точнее, не совсем так. Она не видит самих статей и не дает их цитирование. Но она видит ссылки на эти статьи в других статьях и если сделать запрос на ссылку, но можно увидеть цитирование косвенным образом. С другой стороны, она видит даже ресурсы, опубликованные на русском языке и может делать по ним поиск. Только цитирование в таком поиске очень низкое. Интересно, что даже если статья опубликована в западном журнале, но ссылки на нее есть в статьях, опубликованных в России, то таких ссылок ГАк тоже не видит. Надо сказать, что до последнего времени я считал, что ГАк - это вообще несерьезно в том смысле, что показатели цитирования, какие она дает, сильно занижены. Но совсем недавно я обнаружил, что это не совсем так.

По многим статьям данные ГАк вполне коррелируют с ВоС, то есть ГАк дает соизмеримые цифры или даже больше. Превышение числа цитирований легко объяснить тем, что ГАк смотрит и SPIE и AIPCP и многие другие издания. Ведь все они представлены в интернете. Более того, вот классический пример. У меня есть вполне важная в научном плане статья, которая однако, опубликована только в виде Препринта Курчатовского Института. Я сделал препринт, потому что спешил опубликовать статью до выступления на воркшопе в Гренобле. Препринт сделали быстро и я взял с собой весь тираж. После моего доклада весь тираж был роздан и, более того, даже пришлось его добавить ксерокопией. Статью потом я так и не опубликовал, так как пришлось резко сменить тему работы - начался 1995 год, в который были опубликованы мои самые цитируемые статьи. Так вот ГАк прекрасно знает о моем препринте - показывает его и даже дает 5 цитирований. Знает он его именно по цитированию, так и написано.

Короче, Google Академия, это довольно интересная система и достаточно полная. Я только недавно это понял и решил написать эту статью, чтобы убедить в этом и других, кому это интересно. Чтобы изучить ситуацию с уровнем информации я провел небольшое исследование на примере своих научных статей. У меня есть данные от ВоС за апрель этого года и я получил данные от ГАк только что, то есть в августе этого года. Разница во времени невелика, так что сравнивать можно. Я выбрал все статьи с уровнем цитирования не меньше 10 по одному из каналов. Результаты представлены на специальном графике, показанном ниже. Так как разброс в цифрах очень большой, то я использовал логарифмический масштаб. Он немного искажает, то все же тенденции показывает.

cites table

На графике показаны две линии: красная слева показывает число цитирований по версии ГАк, синяя справа - число цитирований по версии ВоС. Аргументом является абревиатура журнала, через тире: последние две цифры года, затем через пробел указано число цитирований по версии Вос и через запятую то же самое по версии ГАк. Статьи упорядочены по убыванию цифр по версии ВоС. Ниже я для справок приведу смысл абревиатур журналов.

RSI -- Review of Scientific Instruments
Nat -- Nature
JPC -- Journal of Physics. C.
ACA -- Acta Crystallographica A
APL -- Applied Physics Letters
JETP -- Журнал Экспериментальной и Теоретической Физики
AO -- Applied Optics
PSSa -- Physica Status Solidi (a)
PRB -- Physical Review B
NIM -- Nuclear Instruments and Methods
HI -- Hyperfine Interactions
UFN -- Успехи физических наук
PRL -- Physical Review Letters
FTT -- Физика Твердого Тела
PLa -- Physics Letters
OC -- Optic Communications
EPL -- Europhysics Letters
PS -- Physica Scripta
JETPL -- Письма в Журнал Экспериментальной и Теоретической Физики

Как можно видеть на графике, есть статьи, для которых корреляция в цитировании по двум каналам достаточно высокая. Причем в ряде случаев ГАк показывает даже больше ссылок, чем ВоС. Но ситуация резко меняется в противоположную сторону как только попадаются старые статьи, и даже не важно где опубликованные. Так 4-я статья опубликована в западном журнале в 1971 году. Но полученный в ней результат одновременно был получен в японской статье, поэтому статья относительно слабо цитировалась в западной литературе, но хорошо - в советской. ВоС видит эти ссылки, а ГАк нет, потому что статьи отсутствуют в интернете. Такая же ситуация со статьей в ЖЭТФ 1978 года и со статьей в Phys. Stat. Sol. 1977 года. Интересно, что ссылки на статью в УФН 1986 года Гугл уже видит в полном объеме. Самая критическая ситуация со статьей в ФТТ 1977 года - 38 ссылок от ВоС и всего 3 от ГАк. Надо сказать, что ГАк не видит российские ссылки и на некоторые статьи 80-х годов. А на статьи последнего 10-летия как раз ГАк показывает больше ссылок.

С 2005 года существует еще российская электронная библиотека, которая аккумулирует как раз все российские ресурсы, не забывая и про западные. Но там все как-то несерьезно. Похоже, что авторы сами должны сообщать о своих публикациях в библиотеку для того, чтобы она их учитывала. Что же касается информации о цитировании, то она занижена в десятки раз, либо я чего-то там не понял.

Любопытно, что если считать индекс Хирша по данным ВоС, то получается 23. А по данным ГАк - 22. При этом ГАк проваливает 3 статьи, но зато дает больше ссылок на две другие. Следует также сказать, что и ВоС не показывает всех ссылок в русских статьях, особенно в тех журналах, которые не переводились и в интернете не присутствовали. Но еще несколько лет назад ВоС вообще ничего не показывал русского, как и ГАк. Ситуация меняется очень быстро. Возможно и Гугл тоже найдет способы учитывать старые русские ссылки. В целом же можно сделать такой вывод, что хорошую цитируемость практически невозможно получить не работая на Западе или с западными соавторами. Или, как минимум, не занимаясь рекламой своих результатов на Западе. Примером может служить 3-я статья. Она была написана в России, опубликована на Западе, но и представлена в полной мере всем тем, кому она могла быть интересна. Поэтому приоритет ее результатов не был потерян.


.

Сайт создан в системе uCoz