23
БиоКнол

Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

Embed Size (px)

Citation preview

Page 1: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

БиоКнол

Page 2: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

БиоКнол

Page 3: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

БиоКнол

Page 4: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

статистика09 сентября 2011 –

14 октября 2013

Page 5: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

обращений ~ 500 тыс.

0

50000

100000

150000

200000

250000

300000

350000

400000

450000

500000

весь мир

Россия

количество обращений

за месяц

за все время Россия ~ 200 тыс.всего ~ 550 тыс.

Page 6: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

где люди читают?

45%

13%

5%2%2%

2%

2%

1%

1%

1%

26%

Москва

Сакт-Петербург

Новосибирск

Томск

Екатиренбург

Нижний Новгород

Казань

Саратов

Пермь

Черноголовка

Другие города

Page 7: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

когда люди читают?

0

20000

40000

60000

80000

100000

120000

140000

00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23

пользователи количество статей

* указано московское время без корректировки часового пояса; только российские пользователи

Page 8: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

популярные издательства

21%

10%

10%

9%8%6%3%

3%2%

2%2%2%

22%

Science Direct

Springer

Wiley

IEEE

ACS

JSTOR

Nature

APS

RSC

AIP

Taylor & Francis

SIAM

Другие

Page 9: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

анализ массива

извлечение идентификаторов DOI для каждого

запроса

в настоящий момент выполняется «на лету»

до попадания запроса в массив

извлечение идентификаторов

PubMed для каждого DOI

в настоящее время работает для

небольшого процента DOI, но это поправимо

извлечение тематики(MESH-терминов) для

каждого PubMed ID

массив данных

Page 10: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

анализ массива

есть DOI90,2%

DOIPubMed

23,3%

всего записей

2 061 270

записей с DOI

1 859 880

записей с DOI иPubMed ID

480 493

Page 11: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

популярные тематики

частота встречаемости терминов в базе Pubmed (для скачанных статей)

0

20000

40000

60000

80000

100000

120000

140000

Page 12: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

популярные статьи

* популярность статей в данном массиве отследить сложно, так как повторные обращения в основном не учитывались

зеленым выделено количество обращений, белым – количество статейтак, например, 29 раз читали всего одну статью(учитывались только обращения в разные дни)

* статьи идентифицированы по DOI

1 2 3 4 5 6 7 8 9 10 11

1244415 69740 9970 2592 893 312 152 84 52 21 23

12 13 14 15 16 17 18 23 25 28 29

12 12 5 4 3 1 3 1 1 1 1

Page 13: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

популярные статьи - PubMed

количество повторных обращенийпо оси X – количество обращений статьи (N),

по Y – количество статей, читаемых N раз (логарифм)просмотров | статей

1 288753

2 44486

3 11492

4 3924

5 1701

6 826

7 416

8 244

9 153

10 113

11 69

12 55

13 35

14 25

15 20

16 14

17 10

18 5

19 5

20 1

21 4

23 2

24 3

27 1

29 1

31 1

44 1

46 1

0

1

2

3

4

5

6

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 23 24 27 29 31 44 46

Page 14: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

рейтинг статей - общий

10.1016/j.cell.2012.05.044 2012 г.A whole-cell computational model predicts phenotype from genotypeцитирований 214 просмотрена 29 раз

10.1006/meth.2001.1262 2001 г.Analysis of Relative Gene Expression Data Using Real-Time Quantitative PCR and the 2− ΔΔCT Methodцитирований 36737 просмотрена 25 раз

10.1016/0003-2697(87)90021-2 1987 г.Single-step method of RNA isolation by acid guanidinium thiocyanate-phenol-chloroform extractionцитирований 63734 просмотрена 25 раз

1

2

3

! возможно ли предсказать количество будущих цитирований?

Page 15: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

рейтинг статей - PubMed

PMID 19997069 [10.1038/nrg2626] 2010 г.Sequencing technologies — the next generationцитирований 2458 просмотрена 46 раз

PMID 22522955 [10.1038/nbt.2198] 2012 г.Performance comparison of benchtop high-throughput sequencing platformsцитирований 270 просмотрена 44 раза

PMID 22817898 [10.1016/j.cell.2012.05.044] 2012 г.A Whole-Cell Computational Model Predicts Phenotype from Genotypeцитирований 221 просмотрена 31 раз

PMID 22986420 [10.1038/nbt.2198] 2013 г.Effect of high-dose preoperative methylprednisolone on recovery after total hip arthroplasty: a randomized, double-blind, placebo-controlled trialцитирований 6 просмотрена 29 раз

1

2

3

4

Page 16: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

формат данных

‘/;’

файл формата CSV ~ 2 млн. строк содержит данные:

время, город, сайт, ссылка, сессия, DOI размер файла 319 мб.

пакетроссийские данные

бонусы: база crossref база pubmed обновления

Page 17: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

направления работы

добиться 100% определения

PubMed ID

поиск интересных статистических

закономерностей в массиве

в том числе для целей бизнеса и коммерции

там, где это возможно

фиксирование всех обращений к статьям

в том числе повторных

идентификация пользователей

для определения цепочек

Page 18: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

Анализ данных

‘/;’

схема кодирования:

обращение к статьеинтервал м/у обращениями

количество точек =

логарифм ( длина интервала в секундах--------------------------------------------------------длина минимального интервала в серии )

Page 19: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

‘/;’

Анализ данных

пример обращений к статьям

14:28:50 10.1016/j.foodchem.2013.11.00814:28:51 10.1016/j.aca.2014.02.03814:28:52 10.1016/j.chroma.2013.07.08414:28:53 10.1016/j.jchromb.2012.12.03214:28:55 10.1016/j.foodcont.2009.09.00614:28:56 10.1016/j.chroma.2007.12.033

21:46:22 10.1016/j.aca.2014.02.03821:46:23 10.1016/j.foodchem.2013.11.00821:46:23 10.1016/j.chroma.2013.07.08421:46:24 10.1016/j.jchromb.2012.12.03221:46:26 10.1016/j.foodcont.2009.09.00621:46:30 10.1016/j.chroma.2007.12.03321:46:35 10.1016/j.aca.2006.09.02521:46:35 10.1016/S0378-4347(97)00644-021:46:36 10.1016/S0731-7085(98)00268-421:46:37 10.1039/AN995200176321:46:48 10.1016/S0003-2670(00)80731-X

Page 20: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

Анализ данных

‘/;’

~ 15 000 строк

период взаимодействия

– не менее 45 дней

не менее 10

обращений

фильтрация

наличие не менее N

обращений подряд

Page 21: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

Анализ данных

0

50

100

150

200

250

300

350

400

1 4 7

10

13

16

19

22

25

28

31

34

37

40

43

46

49

52

55

58

61

64

67

70

73

76

79

82

85

88

91

94

97

10

0

10

3

10

6

10

9

11

2

11

5

11

8

12

1

12

4

зависимость медианы от N

Page 22: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

Анализ данных

Page 23: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины

Анализ данных