View
89
Download
5
Category
Preview:
Citation preview
БиоКнол
БиоКнол
БиоКнол
статистика09 сентября 2011 –
14 октября 2013
обращений ~ 500 тыс.
0
50000
100000
150000
200000
250000
300000
350000
400000
450000
500000
весь мир
Россия
количество обращений
за месяц
за все время Россия ~ 200 тыс.всего ~ 550 тыс.
где люди читают?
45%
13%
5%2%2%
2%
2%
1%
1%
1%
26%
Москва
Сакт-Петербург
Новосибирск
Томск
Екатиренбург
Нижний Новгород
Казань
Саратов
Пермь
Черноголовка
Другие города
когда люди читают?
0
20000
40000
60000
80000
100000
120000
140000
00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23
пользователи количество статей
* указано московское время без корректировки часового пояса; только российские пользователи
популярные издательства
21%
10%
10%
9%8%6%3%
3%2%
2%2%2%
22%
Science Direct
Springer
Wiley
IEEE
ACS
JSTOR
Nature
APS
RSC
AIP
Taylor & Francis
SIAM
Другие
анализ массива
извлечение идентификаторов DOI для каждого
запроса
в настоящий момент выполняется «на лету»
до попадания запроса в массив
извлечение идентификаторов
PubMed для каждого DOI
в настоящее время работает для
небольшого процента DOI, но это поправимо
извлечение тематики(MESH-терминов) для
каждого PubMed ID
массив данных
анализ массива
есть DOI90,2%
DOIPubMed
23,3%
всего записей
2 061 270
записей с DOI
1 859 880
записей с DOI иPubMed ID
480 493
популярные тематики
частота встречаемости терминов в базе Pubmed (для скачанных статей)
0
20000
40000
60000
80000
100000
120000
140000
популярные статьи
* популярность статей в данном массиве отследить сложно, так как повторные обращения в основном не учитывались
зеленым выделено количество обращений, белым – количество статейтак, например, 29 раз читали всего одну статью(учитывались только обращения в разные дни)
* статьи идентифицированы по DOI
1 2 3 4 5 6 7 8 9 10 11
1244415 69740 9970 2592 893 312 152 84 52 21 23
12 13 14 15 16 17 18 23 25 28 29
12 12 5 4 3 1 3 1 1 1 1
популярные статьи - PubMed
количество повторных обращенийпо оси X – количество обращений статьи (N),
по Y – количество статей, читаемых N раз (логарифм)просмотров | статей
1 288753
2 44486
3 11492
4 3924
5 1701
6 826
7 416
8 244
9 153
10 113
11 69
12 55
13 35
14 25
15 20
16 14
17 10
18 5
19 5
20 1
21 4
23 2
24 3
27 1
29 1
31 1
44 1
46 1
0
1
2
3
4
5
6
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 23 24 27 29 31 44 46
рейтинг статей - общий
10.1016/j.cell.2012.05.044 2012 г.A whole-cell computational model predicts phenotype from genotypeцитирований 214 просмотрена 29 раз
10.1006/meth.2001.1262 2001 г.Analysis of Relative Gene Expression Data Using Real-Time Quantitative PCR and the 2− ΔΔCT Methodцитирований 36737 просмотрена 25 раз
10.1016/0003-2697(87)90021-2 1987 г.Single-step method of RNA isolation by acid guanidinium thiocyanate-phenol-chloroform extractionцитирований 63734 просмотрена 25 раз
1
2
3
! возможно ли предсказать количество будущих цитирований?
рейтинг статей - PubMed
PMID 19997069 [10.1038/nrg2626] 2010 г.Sequencing technologies — the next generationцитирований 2458 просмотрена 46 раз
PMID 22522955 [10.1038/nbt.2198] 2012 г.Performance comparison of benchtop high-throughput sequencing platformsцитирований 270 просмотрена 44 раза
PMID 22817898 [10.1016/j.cell.2012.05.044] 2012 г.A Whole-Cell Computational Model Predicts Phenotype from Genotypeцитирований 221 просмотрена 31 раз
PMID 22986420 [10.1038/nbt.2198] 2013 г.Effect of high-dose preoperative methylprednisolone on recovery after total hip arthroplasty: a randomized, double-blind, placebo-controlled trialцитирований 6 просмотрена 29 раз
1
2
3
4
формат данных
‘/;’
файл формата CSV ~ 2 млн. строк содержит данные:
время, город, сайт, ссылка, сессия, DOI размер файла 319 мб.
пакетроссийские данные
бонусы: база crossref база pubmed обновления
направления работы
добиться 100% определения
PubMed ID
поиск интересных статистических
закономерностей в массиве
в том числе для целей бизнеса и коммерции
там, где это возможно
фиксирование всех обращений к статьям
в том числе повторных
идентификация пользователей
для определения цепочек
Анализ данных
‘/;’
схема кодирования:
обращение к статьеинтервал м/у обращениями
количество точек =
логарифм ( длина интервала в секундах--------------------------------------------------------длина минимального интервала в серии )
‘/;’
Анализ данных
пример обращений к статьям
14:28:50 10.1016/j.foodchem.2013.11.00814:28:51 10.1016/j.aca.2014.02.03814:28:52 10.1016/j.chroma.2013.07.08414:28:53 10.1016/j.jchromb.2012.12.03214:28:55 10.1016/j.foodcont.2009.09.00614:28:56 10.1016/j.chroma.2007.12.033
21:46:22 10.1016/j.aca.2014.02.03821:46:23 10.1016/j.foodchem.2013.11.00821:46:23 10.1016/j.chroma.2013.07.08421:46:24 10.1016/j.jchromb.2012.12.03221:46:26 10.1016/j.foodcont.2009.09.00621:46:30 10.1016/j.chroma.2007.12.03321:46:35 10.1016/j.aca.2006.09.02521:46:35 10.1016/S0378-4347(97)00644-021:46:36 10.1016/S0731-7085(98)00268-421:46:37 10.1039/AN995200176321:46:48 10.1016/S0003-2670(00)80731-X
Анализ данных
‘/;’
~ 15 000 строк
период взаимодействия
– не менее 45 дней
не менее 10
обращений
фильтрация
наличие не менее N
обращений подряд
Анализ данных
0
50
100
150
200
250
300
350
400
1 4 7
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
10
0
10
3
10
6
10
9
11
2
11
5
11
8
12
1
12
4
зависимость медианы от N
Анализ данных
Анализ данных
Recommended