Click here to load reader

URL-kontroll och analys av Ezproxy loggfiler · PDF file Kontroll av URL i databaslista och e-tidskrifter vi själva lagt in i länkservern. Främst fria resurser som behöver kontrolleras

  • View
    0

  • Download
    0

Embed Size (px)

Text of URL-kontroll och analys av Ezproxy loggfiler · PDF file Kontroll av URL i databaslista och...

  • Thomas Trakell, Linköpings universitetsbibliotek

    URL-kontroll och analys av Ezproxy loggfiler

  • URL kontroll

    Kontroll av URL i databaslista och e-tidskrifter vi själva lagt in i länkservern. Främst fria resurser som behöver kontrolleras. Databasposter registrerar vi i Libris. ”Egna” e-tidskriftsposter lägger vi i eget paket i länkservern.

    2020-03-19

  • Databasposter för Li från Libris som XML i webbläsare Första tvåhundra posterna: http://api.libris.kb.se/xsearch?query=BIBL:Li%20AND %20PROD:DBAS&format=marcxml&format_level=full &holdings=true&start=1&n=200 Nästa tvåhundra: http://api.libris.kb.se/xsearch?query=BIBL:Li%20AND %20PROD:DBAS&format=marcxml&format_level=full &holdings=true&start=201&n=200

    2020-03-19

    http://api.libris.kb.se/xsearch?query=BIBL:Li%20AND%20PROD:DBAS&format=marcxml&format_level=full&holdings=true&start=1&n=200 http://api.libris.kb.se/xsearch?query=BIBL:Li%20AND%20PROD:DBAS&format=marcxml&format_level=full&holdings=true&start=201&n=200

  • I Linux bash till fil (testn.xml): > wget --output-document=test1.xml "http://api.libris.kb.se/xsearch?query=BIBL:Li%20AN D%20PROD:DBAS&format=marcxml&format_level=fu ll&holdings=true&start=1&n=200" > wget --output-document=test2.xml "http://api.libris.kb.se/xsearch?query=BIBL:Li%20AN D%20PROD:DBAS&format=marcxml&format_level=fu ll&holdings=true&start=201&n=200"

    2020-03-19

    http://api.libris.kb.se/xsearch?query=BIBL:Li%20AND%20PROD:DBAS&format=marcxml&format_level=full&holdings=true&start=1&n=200 http://api.libris.kb.se/xsearch?query=BIBL:Li%20AND%20PROD:DBAS&format=marcxml&format_level=full&holdings=true&start=201&n=200

  • Sök i Google på varianter av linkcheck, url check … för att hitta program som kontrollerar fil med URL eller en webbsajt.

    Exempel på program är Linkchecker (9.3). https://wummel.github.io/linkchecker/

    Programmen kollar statuskod för webbsidan som URL- en leder till.

    2020-03-19

    https://wummel.github.io/linkchecker/

  • I Linux kan man använda curl. http://droptips.com/quick-command-to-check-the- status-of-a-url-linux-bsd-os-x

    Exempel: > curl -Is http://droptips.com | head -n 1 > HTTP/1.1 200 OK

    2020-03-19

    http://droptips.com/quick-command-to-check-the-status-of-a-url-linux-bsd-os-x

  • Exempel på statuskoder Lyckad förfrågan 200: OK Vidarekoppling 301: Moved Permanently 302: Moved Temporarily (HTTP/1.0) Klientfel 400: Bad Request 403: Forbidden Serverfel 500: Internal Server Error

    2020-03-19

  • Exempel > curl -Is http://cogprints.org/ | head -n 1 > HTTP/1.1 200 OK

    > curl -Is http://ebooks.library.cornell.edu/m/math/ | head -n 1 > HTTP/1.1 302 Found

    > curl -Is http://primo.getty.edu/primo_library/libweb/action/s earch.do?vid=BHA | head -n 1 >HTTP/1.1 403 Forbidden

    2020-03-19

  • Kontrollera även webbsidans innehåll ibland - inte bara den statuskod som ges!

    > curl -Is http://biblasso.hh.se/byggdok/simple.lasso | head -n 1 > HTTP/1.1 200 OK

    2020-03-19

  • Undersöka "redirects"

    http://www.redirect-checker.org/index.php http://redirectcheck.com/index.php Finns flera andra “redirect checker”

    Result http://ebooks.library.cornell.edu/m/math/ 302 Found https://collections.library.cornell.edu/math/index.php/ 200 OK

    2020-03-19

    http://www.redirect-checker.org/index.php http://redirectcheck.com/index.php

  • Analys av Ezproxy loggfil

    Program som analyserar Ezproxy-loggfil 2 gånger per dag. Tittar på antal rader och antal IP-adresser. Skickar e-post med resultatet. Vid problem/troligt missbruk spärrar vi ID i Ezproxy och skickar ärende till IT-avdelningen.

    2020-03-19

  • Brevhuvud

    Loggfilens storlek = 58498 Kbytes. Om det finns rödmarkerade poster i listan nedan så bör vi verifiera loggfilerna och rapportera till [email protected] Antal användare som loggat in i systemet under perioden = 802. …

    2020-03-19

  • 2020-03-19

  • Observera!

    Vissa sajter genererar naturligt många rader i loggfilen.

    Om man använder Tor browser, Cisco proxy, Google proxy eller annan anonymiseringstjänst blir det flera IP-adresser.

    2020-03-19

  • Analys av Ezproxy loggfil för att söka efter särskild IEEE-sträng en gång per timma.

    ”IT department has created a special parameter that we are sending to Sci-Hub "TT8722537TT"”

    Spärrar användaren [user.txt]. Spärrar IP-adress(er) [rejectIP.txt]. Skickar e-post.

    Motsvarande görs för Elsevier/ScienceDirect.

    2020-03-19

    URL-kontroll och analys av Ezproxy loggfiler URL kontroll� Bildnummer 3 Bildnummer 4 Bildnummer 5 Bildnummer 6 Bildnummer 7 Bildnummer 8 Bildnummer 9 Bildnummer 10 Analys av Ezproxy loggfil�� Bildnummer 12 Bildnummer 13 Bildnummer 14 Bildnummer 15

Search related