Działaj globalnie, czyliTopicmarks w Dolinie Krzemowej
Jaromir Działo
Agenda
● Intro
● Problem
● Rozwiązanie
● Dlaczego Dolina Krzemowa?
● Działaj globalnie
● Q&A
Dziennie powstaje:
60,000 nowych
website’ów 1,5 milionów
artykułów na blogach
10 milionów postów
na tumblr 140 miliony tweetów 1,5 miliarda różnego
rodzaju wpisów na
facebooku
Problem
Problem
Ludzie mają znacznie więcej dokumentów, niż są w stanie przeczytać lub
efektywnie nimi zarządzać. Naszym zadaniem jest odpowiedź na pytanie, co
robić po znalezieniu ciekawych dokumentów, kiedy nadal jest zbyt dużo do
przeczytania. W zbyt gęsto upakowanym tekście można zgubić sens. Badania
wykazały, że niektórzy z Państwa całkowicie pominą to ostatnie, długie zdanie,
szczególnie, jeśli niepoprawne formatowanie sprawi, że będzie wyglądać
nieatrakcyjnie, i to pomimo, że jest dłuższe niż poprzednia część tekstu.
Mamy zbyt dużo do przeczytania ..
Problem
Ludzie mają znacznie więcej dokumentów, niż są w stanie przeczytać lub
efektywnie nimi zarządzać. Naszym zadaniem jest odpowiedź na pytanie, co
robić po znalezieniu ciekawych dokumentów, kiedy nadal jest zbyt dużo do
przeczytania. W zbyt gęsto upakowanym tekście można zgubić sens. Badania
wykazały, że niektórzy z Państwa całkowicie pominą to ostatnie, długie zdanie,
szczególnie, jeśli niepoprawne formatowanie sprawi, że będzie wyglądać
nieatrakcyjnie, i to pomimo, że jest dłuższe niż poprzednia część tekstu.
Mamy zbyt dużo do przeczytania ..
Rozwiązanie
.. niech komputer pomoże nam czytać
Topicmarks can semantically summarize, tag, find relations and organize large collections of documents automagically. It decomposes a document into semantic relations to create multiple, alternative personalized views of content. It allows extracted knowledge to be re-used, namely in the construction of concept maps, documents, presentations and so on
Product
Product
Product
Product
Facts
1. Lego Tetrix is fully compatible with Lego Technic
2. Mindstorms is part of Lego’s broader educational efforts
3. Lego WeDo set is aimed at elementry school age children
Facts
1. Lego Tetrix is fully compatible with Lego Technic
2. Mindstorms is part of Lego’s broader educational efforts
3. Lego WeDo set is aimed at elementry school age children
Product
Engine
Client
e.g. portal, browser
extension, rest API sentence splitter
tokenizer (sentence into words)
sentence parser
fact generation (building semantic relations from parsed sentences)
terms extraction
semantic document representation
Distributed on (1..n) servers
Knowledgebase storage
semantic data model
indexing
text searchengine
Cluster of DB servers
RDF model
Front-end servers
wrapperinduction
PDF Wrapper
HTML Wrapper
Custom Wrappere.g. WIKIPEDIA
Upload
DOC Wrapper
Text processing pipeline
there are over 30 processors implemented in the grammar analyzer pipeline, switched on/off when needed
cache
● Technology difficult to duplicate
● ~20,000 engineering hours invested
● Solves hard natural language processing problems
● Advanced string and graph-theoretic algorithms
● Requires large system architecture design
● Harnesses web intelligence via Web2.0/3.0 APIs
● Makes advanced human-machine collaboration
● Accessible to the casual user
Published USPO patent
● Title: "Method and System for Generating a Document Representation"
● Filed March 5, 2010; priority March 6, 2009
● Total number of claims: 42
Architektura
The many engineering hours invested, proprietary algorithms and a patent make duplication unrealistic
Zastosowania● Analiza dokumentów WikiLeaks
● Procesowanie kanałów RSS
● Analiza Press Releasów giełdowych
Feedback użytkowników:
● student dziękował za "5-tkę", którą otrzymał za wygenerowane streszczenie
● blogger używał Topicmarks do procesowania swoich artykułów pod kątem zrozumiałości – "jeśli maszyna to zrozumie, to może większość ludzi też"
● ktoś generował meta tagi pod SEO
● ktoś przeprocesował list miłosny od swojej dziewczyny.. i dziękował, że tylko dzięki temu go zrozumiał (?!)
Seedcamp
“Topicmarks .. a real need for millions”
May 2010, a winner of
Dlaczego Dolina Krzemowa?
Capital is liquid.
Capitalists are not.
Silicon Valley
● inwestorzy: nie tylko „Sand Hill Road”
● co-working spaces: Pier38, SOMACentral, PariSoma
● media w co drugim (ponieważ same też często są startupem)
● spotkania branżowe
● prawnicy pracujący „za darmo” (do momentu zdobycia finansowania)
Heaven & Hell
Wyjątkowy pomysł? Niekoniecznie.
Odpowiedni moment wejścia na rynek? Bardziej.
Znajomości? Przede wszystkim.
Grand Prize Winner by 66% audience vote and 88% jury points
“Potentially huge—Jeff Clavier”“Solving a very interesting problem”
“Nerdy winner of the night”
Thought through very well” “A ripe acquisition target”
Winning Efforts
:)“Made for […] denser documents”
“Find a new friend in Topicmarks”
Działaj globalnie?
Bilans
● 6 inwestorów oraz 5 advisorów, wśród nich:
• Aaron Patzer (Mint.com [$170m] => Intuit)
• Adeo Ressi (Founder Institute)
• Peter Berger II (Silicon Valley Semantic Technology Forum)
• Jeannie Kahwajy (Adviser to Hillary Clinton)
● koncepcja nowego produktu
● bezcenne kontakty
● współpraca przy procesowaniu repozytoriów Cloud (Evernote, Google Docs, Dropbox, BOX.net)
BilansBiuro Topicmarks w San Francisco
a „za ścianą” mamy:
● Mashable
● Wordpress
● Zite
● Socialize
oraz
● Stadion Baseballa
GO GIANTS!!
Nowy Produkt
Nowy Produkt
Nowy Produkt
Bilans
Topicmarks obecnie:
● używany w 160+ krajach
● procesuje ok. 2 miliony dokumentów tygodniowo
● 35.000 użytkowników..
● ..którzy mówią 62 językami
● promowany na Evernote
● 40.000.000 rekordów w indeksie
● operuje na rynku zarzadzania informacjami w cloudzie, szacowanym na $1mld ($5.5b w 2015)
Bilans
Potential
B2B
B2CDeal in place
Bilans
Organizing information on the cloud is growing 74% per year into a $5.5b market
Cloud storage is exploding into a$33b market in 2015
Sources: OECD, Accenture, IDC IT Cloud Services Forecast, team analysis.
Spending on organizing and retrievingresearch is worth $139b in 2015
CAGR CAGR 11%11%CAGR CAGR 11%11% CAGR CAGR
58%58%CAGR CAGR 58%58%
Digitizatio
n of
paper sources
Multiple devices
Remote collaboration
Better backups
Mainstreamingof research
Information
explosion
Independent
contracting
Knowledge-based
competitiveness
CAGR CAGR 74%74%CAGR CAGR 74%74%
People organizing information throughcloud storage will be a $5.5b market in 2015
.PL
Mamy najlepszych programistów na świecie
.. czas na NASZE globalne produkty
Pytania?
Jaromir Dział[email protected]
twitter: @jaromirdzialo