78
¡Un Enfoque Realmente Simple!

Difusión e integración de contenidos mediante feeds

Embed Size (px)

Citation preview

Page 1: Difusión e integración de contenidos mediante feeds

iexclUn Enfoque Realmente Simple

Los Problemas DiariosLos Costes de Difusioacuten y Explotacioacuten de la InformacioacutenRecoleccioacuten de Informacioacutenhellip iexcly maacutes allaacute

Los Problemas Diarios

El manejo de los sistemas de informacioacuten supone mucho esfuerzohellip iexcly tiempo Lectura y contestacioacuten de e-mail 145 hes (horas empleadosemana)

Crear documentos 133 hes

Buacutesquedas 95 hes

Archivar y organizar documentos 83 hes

Rellanar formularios electroacutenicos 56 hes Seguacuten los estudios de la consultora IDC ademaacutes se gasta el

tiempo conhellip Fusioacuten de documentos con diferentes formatos 38 hes

Buacutesquedas infructuosas 35 hes

Cambiar el formato a documentos 24 hes

Problemas de control de versiones 22 hes

Estamos rodeados de ldquoaplicacionesrdquo (programas software) de ldquodispositivosrdquo (ordenadores teleacutefonos moacuteviles PDAs faxes etc) hellippero tambieacuten de sistemas organizativos de jerarquiacuteas

ordinales de canales de comunicacioacuten (mandatos verbales escritos e-mails post-its etc) hellipque afectan a multitud de documentos y tareas que tiacutepicamente

requierenhellip iexclgestioacuten gestioacuten gestioacuten

Los siacutentomas que delatan los problemas de tanto trasto son numerosas hojas de caacutelculo varias agendas e-mail sin procesarcontestar estructuras complejas de directorios y archivos etc

Adicionalmente la informacioacuten que gestionamos y procesamos necesita ser tambieacuten traspasada a otros probablemente modificada o matizada y tal vez sin perder de vista el original (notas revisiones etc)

Finalmente cada actor (empleado cliente proveedor agente consultor colega etc) se convierte en un foco de difusioacuten que antildeade maacutes confusioacuten a la gestioacuten diaria de la informacioacuten cambiando formatos incorporando nuevos canales a contenidoshellip iexcly asiacute sucesivamente

Podriacutea decirse que con este panorama la eficacia en la gestioacuten empresarial estaacute ligada a la capacidad intuitiva de hacer caso omiso de la mayor parte de la informacioacuten gestionada (tal como propugna el Pensamiento Sisteacutemico-Generalista de Gerald M Weinberg)

Puntos de Recoleccioacuten

Atendiendo a los principios de ldquoproductividad personalrdquo la mejor forma de optimizar el tratamiento de informacioacuten heterogeacutenea es ordenarla en una cola uacutenica (o en muy pocas colas) hellipcomo la cola de recepcioacuten de un CAU oacute 010 o Zuzenean o

similar (faxes emails llamadas etc) hellipcomo la Bandeja de Entrada del e-mail

En definitiva nos hacen falta Puntos de Recoleccioacuten (PR) de la informacioacuten hellippara que desde estos PR se pueda procesar explotar

difundir publicar combinar salvaguardar archivar etc iexclAy Si contaacuteramos con un formato comuacuten para toda la informacioacuten

que manejamoshellip iexclcuaacutento maacutes faacutecil seriacutea su gestioacuten

iquestDoacutende almacenamos la informacioacuten Reflexioacuten (oficina casa en viaje etc)

Yhellip iquestfuncionan nuestros PR Identificacioacuten de PR ldquoAutorizadosrdquo Se trata de cribar yo crear un conjunto razonablemente corto de PRs

(que no incluya nuestra memoria) Algunos PR Baacutesicos Una bandeja fiacutesica de ldquoEntradasrdquo o una carpeta moacutevil con separadores Un bloc de papel o digital Buzoacuten de voz La lista de tareas [de MS Outlook o similar] E-mail

Nuestro PR maacutes versaacutetil iexclEl PR de Feeds

Aunar la informacioacuten en una cola estaacute bienhellip pero no es suficiente Que las bandejas de entrada del e-mail raramente esteacuten

vaciacuteas lo demuestra Las operaciones diarias tienen que ver con el manejo

de diferentes programas (noacuteminas estados financieros noticias etc) hellipy lo ideal seriacutea que el uso de tantos diversos programas

se minimizara hellipy auacuten mejor resultariacutea que la informacioacuten pudiera ser ldquoleiacutedardquo (por

humanos) y ldquoprocesadardquo (por maacutequinas) sin necesidad de cambios y zarandajas de formatos

Recolectar -gt difundir -gt re-difundir -gt combinar

Contenidos y DocumentosSindicacioacutenhellip iexclSimple

La Dificultad de mover Documentos

Un documento es un paquete informativo estructuradoy ajustado a un formato PDF Word Excel Powerpoint etc

Un contenido es un trozo de informacioacuten no necesariamente estructurado y que tiene sentido individualmente o combinado al menos para un receptor hellipcomo la latitudlongitud de una ubicacioacuten o un comentario

sobre un hiper-enlace Web Un documento es un contenido claro

Nos centraremos en los contenidos hellipy sobre todo en los contenidos que envuelven a documentos

(para anotarlos comentarlos matizarlos etc)

Los contenidos son conjuntos de datos que conforman paquetes de informacioacuten que al comunicarse a otros generan conocimiento

Esto significa que los contenidos han de moverse (loacutegica o fiacutesicamente) desde su origen hasta sus receptores El nuacutemero de mi moacutevil que doy de viva voz Una carta con una queja La paacutegina Web de un diario electroacutenico

Los contenidos se muevenhellip o el receptor se mueve hacia elloshellip o ambas cosas En definitiva los contenidos deben organizarse para poder ser

difundidos en tal sentido amplio bi-direccional ser accedidos + ser enviados

Se ha experimentado un cambio en la forma de navegar de los usuarios de internet Ademaacutes de ser los propios usuarios los que generan gran

cantidad de contenidos se les ha proporcionado una ingente cantidad de herramientas para que sean ellos los que filtren en funcioacuten de la informacioacuten y de los contenidos que les interesan

Mashups gadgets widgets sirven a los usuarios para obtener de toda la amalgama de informacioacuten de la web aquello que les interesa y llevaacuterselo a su navegador dispositivo moacutevil correo electroacutenicohellip

Y sobre todo se han acostumbrado a que la informacioacuten fluya hacia ellos en lugar de ir a buscarla a los sitios Web o sistemas que hasta ahora la proveiacutean

Un perioacutedico de un bar pasa por muchas manos y ojos asiacute que la informacioacuten se propaga y la fuente (el papel doblado) permanece

Las circulares de CEBEK propagan informacioacuten de diferentes tiposhellip y posibilitan profundizar en ella (llamando o mandando un e-mail a una determinada persona) Muchos receptores guardan estas circulares para referencias futuras

Los e-mails enviados se guardan para saber queacute es lo que se propagoacute en su diacutea a sus destinatarios para asiacute componer mejor las actualizaciones

Una entrada en Twitter se propaga directamente a los ldquofollowersrdquo e indirectamente a todo el mundo Y subsiste

Resuena por toda la Web la ldquosindicacioacutenrdquo de contenidos que no es maacutes que un anglicismo que en nuestro caso significa que el mismo contenido informativo se difunde para su publicacioacuten en diferentes medios (como ocurre por ejemplo con las tiras de comics) hellipy que podriacuteamos denominar ldquoredifusioacuten de contenidosrdquo

que en realidad se basa en que la informacioacuten se pasa en un formato tan manejable que puede ser difundido procesado e incluso re-difundido

La redifusioacuten Web representa el maacutes comuacuten de estos esquemas de propagacioacuten de contenidos (eacutesta es la expresioacuten que maacutes me gusta) mediante Fuentes Web

Seguacuten Wikipediahellip Una fuente web (usualmente canal web o web feed) es un

medio de redifusioacuten de contenido web Se utiliza para suministrar informacioacuten actualizada frecuente-mente a sus suscriptores En su jerga cuando una paacutegina web redifunde su contenido mediante una fuente web los internautas pueden suscribirse a ella para estar informados de sus novedades Los interesados pueden usar un programa agregador para acceder a sus fuentes suscritas desde un mismo lugar

Asiacute que feed eshellip fuente y Web feed eshellip fuente Web hellippero nosotros hablaremos de ldquofeedsrdquohellip en general

Y ademaacutes resulta que los feeds Web obedecen a dos formatos muy extendidos Atom y RSS yhellip iexclUn momento un momento iquestQueacute es esto iquestMaacutes

formatos iquestMaacutes liacuteos iexclNo no no no nohellip y no

Esto es como ldquopor doacutende cascar el huevo cocidordquo el resultado final es ndashpraacutecticamentendash el mismo asiacute que la direccioacuten el formato o el meacutetodo son cuestioacuten de gusto

En adelante hablaremos de feeds RSS (y los herejes que cambien el teacutermino por Atomhellip iexcly ya estaacute) Veremos tambieacuten con todo que los formatos sonhellip

iexclrealmente simples iexclVeamos pues los feeds RSS

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 2: Difusión e integración de contenidos mediante feeds

Los Problemas DiariosLos Costes de Difusioacuten y Explotacioacuten de la InformacioacutenRecoleccioacuten de Informacioacutenhellip iexcly maacutes allaacute

Los Problemas Diarios

El manejo de los sistemas de informacioacuten supone mucho esfuerzohellip iexcly tiempo Lectura y contestacioacuten de e-mail 145 hes (horas empleadosemana)

Crear documentos 133 hes

Buacutesquedas 95 hes

Archivar y organizar documentos 83 hes

Rellanar formularios electroacutenicos 56 hes Seguacuten los estudios de la consultora IDC ademaacutes se gasta el

tiempo conhellip Fusioacuten de documentos con diferentes formatos 38 hes

Buacutesquedas infructuosas 35 hes

Cambiar el formato a documentos 24 hes

Problemas de control de versiones 22 hes

Estamos rodeados de ldquoaplicacionesrdquo (programas software) de ldquodispositivosrdquo (ordenadores teleacutefonos moacuteviles PDAs faxes etc) hellippero tambieacuten de sistemas organizativos de jerarquiacuteas

ordinales de canales de comunicacioacuten (mandatos verbales escritos e-mails post-its etc) hellipque afectan a multitud de documentos y tareas que tiacutepicamente

requierenhellip iexclgestioacuten gestioacuten gestioacuten

Los siacutentomas que delatan los problemas de tanto trasto son numerosas hojas de caacutelculo varias agendas e-mail sin procesarcontestar estructuras complejas de directorios y archivos etc

Adicionalmente la informacioacuten que gestionamos y procesamos necesita ser tambieacuten traspasada a otros probablemente modificada o matizada y tal vez sin perder de vista el original (notas revisiones etc)

Finalmente cada actor (empleado cliente proveedor agente consultor colega etc) se convierte en un foco de difusioacuten que antildeade maacutes confusioacuten a la gestioacuten diaria de la informacioacuten cambiando formatos incorporando nuevos canales a contenidoshellip iexcly asiacute sucesivamente

Podriacutea decirse que con este panorama la eficacia en la gestioacuten empresarial estaacute ligada a la capacidad intuitiva de hacer caso omiso de la mayor parte de la informacioacuten gestionada (tal como propugna el Pensamiento Sisteacutemico-Generalista de Gerald M Weinberg)

Puntos de Recoleccioacuten

Atendiendo a los principios de ldquoproductividad personalrdquo la mejor forma de optimizar el tratamiento de informacioacuten heterogeacutenea es ordenarla en una cola uacutenica (o en muy pocas colas) hellipcomo la cola de recepcioacuten de un CAU oacute 010 o Zuzenean o

similar (faxes emails llamadas etc) hellipcomo la Bandeja de Entrada del e-mail

En definitiva nos hacen falta Puntos de Recoleccioacuten (PR) de la informacioacuten hellippara que desde estos PR se pueda procesar explotar

difundir publicar combinar salvaguardar archivar etc iexclAy Si contaacuteramos con un formato comuacuten para toda la informacioacuten

que manejamoshellip iexclcuaacutento maacutes faacutecil seriacutea su gestioacuten

iquestDoacutende almacenamos la informacioacuten Reflexioacuten (oficina casa en viaje etc)

Yhellip iquestfuncionan nuestros PR Identificacioacuten de PR ldquoAutorizadosrdquo Se trata de cribar yo crear un conjunto razonablemente corto de PRs

(que no incluya nuestra memoria) Algunos PR Baacutesicos Una bandeja fiacutesica de ldquoEntradasrdquo o una carpeta moacutevil con separadores Un bloc de papel o digital Buzoacuten de voz La lista de tareas [de MS Outlook o similar] E-mail

Nuestro PR maacutes versaacutetil iexclEl PR de Feeds

Aunar la informacioacuten en una cola estaacute bienhellip pero no es suficiente Que las bandejas de entrada del e-mail raramente esteacuten

vaciacuteas lo demuestra Las operaciones diarias tienen que ver con el manejo

de diferentes programas (noacuteminas estados financieros noticias etc) hellipy lo ideal seriacutea que el uso de tantos diversos programas

se minimizara hellipy auacuten mejor resultariacutea que la informacioacuten pudiera ser ldquoleiacutedardquo (por

humanos) y ldquoprocesadardquo (por maacutequinas) sin necesidad de cambios y zarandajas de formatos

Recolectar -gt difundir -gt re-difundir -gt combinar

Contenidos y DocumentosSindicacioacutenhellip iexclSimple

La Dificultad de mover Documentos

Un documento es un paquete informativo estructuradoy ajustado a un formato PDF Word Excel Powerpoint etc

Un contenido es un trozo de informacioacuten no necesariamente estructurado y que tiene sentido individualmente o combinado al menos para un receptor hellipcomo la latitudlongitud de una ubicacioacuten o un comentario

sobre un hiper-enlace Web Un documento es un contenido claro

Nos centraremos en los contenidos hellipy sobre todo en los contenidos que envuelven a documentos

(para anotarlos comentarlos matizarlos etc)

Los contenidos son conjuntos de datos que conforman paquetes de informacioacuten que al comunicarse a otros generan conocimiento

Esto significa que los contenidos han de moverse (loacutegica o fiacutesicamente) desde su origen hasta sus receptores El nuacutemero de mi moacutevil que doy de viva voz Una carta con una queja La paacutegina Web de un diario electroacutenico

Los contenidos se muevenhellip o el receptor se mueve hacia elloshellip o ambas cosas En definitiva los contenidos deben organizarse para poder ser

difundidos en tal sentido amplio bi-direccional ser accedidos + ser enviados

Se ha experimentado un cambio en la forma de navegar de los usuarios de internet Ademaacutes de ser los propios usuarios los que generan gran

cantidad de contenidos se les ha proporcionado una ingente cantidad de herramientas para que sean ellos los que filtren en funcioacuten de la informacioacuten y de los contenidos que les interesan

Mashups gadgets widgets sirven a los usuarios para obtener de toda la amalgama de informacioacuten de la web aquello que les interesa y llevaacuterselo a su navegador dispositivo moacutevil correo electroacutenicohellip

Y sobre todo se han acostumbrado a que la informacioacuten fluya hacia ellos en lugar de ir a buscarla a los sitios Web o sistemas que hasta ahora la proveiacutean

Un perioacutedico de un bar pasa por muchas manos y ojos asiacute que la informacioacuten se propaga y la fuente (el papel doblado) permanece

Las circulares de CEBEK propagan informacioacuten de diferentes tiposhellip y posibilitan profundizar en ella (llamando o mandando un e-mail a una determinada persona) Muchos receptores guardan estas circulares para referencias futuras

Los e-mails enviados se guardan para saber queacute es lo que se propagoacute en su diacutea a sus destinatarios para asiacute componer mejor las actualizaciones

Una entrada en Twitter se propaga directamente a los ldquofollowersrdquo e indirectamente a todo el mundo Y subsiste

Resuena por toda la Web la ldquosindicacioacutenrdquo de contenidos que no es maacutes que un anglicismo que en nuestro caso significa que el mismo contenido informativo se difunde para su publicacioacuten en diferentes medios (como ocurre por ejemplo con las tiras de comics) hellipy que podriacuteamos denominar ldquoredifusioacuten de contenidosrdquo

que en realidad se basa en que la informacioacuten se pasa en un formato tan manejable que puede ser difundido procesado e incluso re-difundido

La redifusioacuten Web representa el maacutes comuacuten de estos esquemas de propagacioacuten de contenidos (eacutesta es la expresioacuten que maacutes me gusta) mediante Fuentes Web

Seguacuten Wikipediahellip Una fuente web (usualmente canal web o web feed) es un

medio de redifusioacuten de contenido web Se utiliza para suministrar informacioacuten actualizada frecuente-mente a sus suscriptores En su jerga cuando una paacutegina web redifunde su contenido mediante una fuente web los internautas pueden suscribirse a ella para estar informados de sus novedades Los interesados pueden usar un programa agregador para acceder a sus fuentes suscritas desde un mismo lugar

Asiacute que feed eshellip fuente y Web feed eshellip fuente Web hellippero nosotros hablaremos de ldquofeedsrdquohellip en general

Y ademaacutes resulta que los feeds Web obedecen a dos formatos muy extendidos Atom y RSS yhellip iexclUn momento un momento iquestQueacute es esto iquestMaacutes

formatos iquestMaacutes liacuteos iexclNo no no no nohellip y no

Esto es como ldquopor doacutende cascar el huevo cocidordquo el resultado final es ndashpraacutecticamentendash el mismo asiacute que la direccioacuten el formato o el meacutetodo son cuestioacuten de gusto

En adelante hablaremos de feeds RSS (y los herejes que cambien el teacutermino por Atomhellip iexcly ya estaacute) Veremos tambieacuten con todo que los formatos sonhellip

iexclrealmente simples iexclVeamos pues los feeds RSS

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 3: Difusión e integración de contenidos mediante feeds

Los Problemas Diarios

El manejo de los sistemas de informacioacuten supone mucho esfuerzohellip iexcly tiempo Lectura y contestacioacuten de e-mail 145 hes (horas empleadosemana)

Crear documentos 133 hes

Buacutesquedas 95 hes

Archivar y organizar documentos 83 hes

Rellanar formularios electroacutenicos 56 hes Seguacuten los estudios de la consultora IDC ademaacutes se gasta el

tiempo conhellip Fusioacuten de documentos con diferentes formatos 38 hes

Buacutesquedas infructuosas 35 hes

Cambiar el formato a documentos 24 hes

Problemas de control de versiones 22 hes

Estamos rodeados de ldquoaplicacionesrdquo (programas software) de ldquodispositivosrdquo (ordenadores teleacutefonos moacuteviles PDAs faxes etc) hellippero tambieacuten de sistemas organizativos de jerarquiacuteas

ordinales de canales de comunicacioacuten (mandatos verbales escritos e-mails post-its etc) hellipque afectan a multitud de documentos y tareas que tiacutepicamente

requierenhellip iexclgestioacuten gestioacuten gestioacuten

Los siacutentomas que delatan los problemas de tanto trasto son numerosas hojas de caacutelculo varias agendas e-mail sin procesarcontestar estructuras complejas de directorios y archivos etc

Adicionalmente la informacioacuten que gestionamos y procesamos necesita ser tambieacuten traspasada a otros probablemente modificada o matizada y tal vez sin perder de vista el original (notas revisiones etc)

Finalmente cada actor (empleado cliente proveedor agente consultor colega etc) se convierte en un foco de difusioacuten que antildeade maacutes confusioacuten a la gestioacuten diaria de la informacioacuten cambiando formatos incorporando nuevos canales a contenidoshellip iexcly asiacute sucesivamente

Podriacutea decirse que con este panorama la eficacia en la gestioacuten empresarial estaacute ligada a la capacidad intuitiva de hacer caso omiso de la mayor parte de la informacioacuten gestionada (tal como propugna el Pensamiento Sisteacutemico-Generalista de Gerald M Weinberg)

Puntos de Recoleccioacuten

Atendiendo a los principios de ldquoproductividad personalrdquo la mejor forma de optimizar el tratamiento de informacioacuten heterogeacutenea es ordenarla en una cola uacutenica (o en muy pocas colas) hellipcomo la cola de recepcioacuten de un CAU oacute 010 o Zuzenean o

similar (faxes emails llamadas etc) hellipcomo la Bandeja de Entrada del e-mail

En definitiva nos hacen falta Puntos de Recoleccioacuten (PR) de la informacioacuten hellippara que desde estos PR se pueda procesar explotar

difundir publicar combinar salvaguardar archivar etc iexclAy Si contaacuteramos con un formato comuacuten para toda la informacioacuten

que manejamoshellip iexclcuaacutento maacutes faacutecil seriacutea su gestioacuten

iquestDoacutende almacenamos la informacioacuten Reflexioacuten (oficina casa en viaje etc)

Yhellip iquestfuncionan nuestros PR Identificacioacuten de PR ldquoAutorizadosrdquo Se trata de cribar yo crear un conjunto razonablemente corto de PRs

(que no incluya nuestra memoria) Algunos PR Baacutesicos Una bandeja fiacutesica de ldquoEntradasrdquo o una carpeta moacutevil con separadores Un bloc de papel o digital Buzoacuten de voz La lista de tareas [de MS Outlook o similar] E-mail

Nuestro PR maacutes versaacutetil iexclEl PR de Feeds

Aunar la informacioacuten en una cola estaacute bienhellip pero no es suficiente Que las bandejas de entrada del e-mail raramente esteacuten

vaciacuteas lo demuestra Las operaciones diarias tienen que ver con el manejo

de diferentes programas (noacuteminas estados financieros noticias etc) hellipy lo ideal seriacutea que el uso de tantos diversos programas

se minimizara hellipy auacuten mejor resultariacutea que la informacioacuten pudiera ser ldquoleiacutedardquo (por

humanos) y ldquoprocesadardquo (por maacutequinas) sin necesidad de cambios y zarandajas de formatos

Recolectar -gt difundir -gt re-difundir -gt combinar

Contenidos y DocumentosSindicacioacutenhellip iexclSimple

La Dificultad de mover Documentos

Un documento es un paquete informativo estructuradoy ajustado a un formato PDF Word Excel Powerpoint etc

Un contenido es un trozo de informacioacuten no necesariamente estructurado y que tiene sentido individualmente o combinado al menos para un receptor hellipcomo la latitudlongitud de una ubicacioacuten o un comentario

sobre un hiper-enlace Web Un documento es un contenido claro

Nos centraremos en los contenidos hellipy sobre todo en los contenidos que envuelven a documentos

(para anotarlos comentarlos matizarlos etc)

Los contenidos son conjuntos de datos que conforman paquetes de informacioacuten que al comunicarse a otros generan conocimiento

Esto significa que los contenidos han de moverse (loacutegica o fiacutesicamente) desde su origen hasta sus receptores El nuacutemero de mi moacutevil que doy de viva voz Una carta con una queja La paacutegina Web de un diario electroacutenico

Los contenidos se muevenhellip o el receptor se mueve hacia elloshellip o ambas cosas En definitiva los contenidos deben organizarse para poder ser

difundidos en tal sentido amplio bi-direccional ser accedidos + ser enviados

Se ha experimentado un cambio en la forma de navegar de los usuarios de internet Ademaacutes de ser los propios usuarios los que generan gran

cantidad de contenidos se les ha proporcionado una ingente cantidad de herramientas para que sean ellos los que filtren en funcioacuten de la informacioacuten y de los contenidos que les interesan

Mashups gadgets widgets sirven a los usuarios para obtener de toda la amalgama de informacioacuten de la web aquello que les interesa y llevaacuterselo a su navegador dispositivo moacutevil correo electroacutenicohellip

Y sobre todo se han acostumbrado a que la informacioacuten fluya hacia ellos en lugar de ir a buscarla a los sitios Web o sistemas que hasta ahora la proveiacutean

Un perioacutedico de un bar pasa por muchas manos y ojos asiacute que la informacioacuten se propaga y la fuente (el papel doblado) permanece

Las circulares de CEBEK propagan informacioacuten de diferentes tiposhellip y posibilitan profundizar en ella (llamando o mandando un e-mail a una determinada persona) Muchos receptores guardan estas circulares para referencias futuras

Los e-mails enviados se guardan para saber queacute es lo que se propagoacute en su diacutea a sus destinatarios para asiacute componer mejor las actualizaciones

Una entrada en Twitter se propaga directamente a los ldquofollowersrdquo e indirectamente a todo el mundo Y subsiste

Resuena por toda la Web la ldquosindicacioacutenrdquo de contenidos que no es maacutes que un anglicismo que en nuestro caso significa que el mismo contenido informativo se difunde para su publicacioacuten en diferentes medios (como ocurre por ejemplo con las tiras de comics) hellipy que podriacuteamos denominar ldquoredifusioacuten de contenidosrdquo

que en realidad se basa en que la informacioacuten se pasa en un formato tan manejable que puede ser difundido procesado e incluso re-difundido

La redifusioacuten Web representa el maacutes comuacuten de estos esquemas de propagacioacuten de contenidos (eacutesta es la expresioacuten que maacutes me gusta) mediante Fuentes Web

Seguacuten Wikipediahellip Una fuente web (usualmente canal web o web feed) es un

medio de redifusioacuten de contenido web Se utiliza para suministrar informacioacuten actualizada frecuente-mente a sus suscriptores En su jerga cuando una paacutegina web redifunde su contenido mediante una fuente web los internautas pueden suscribirse a ella para estar informados de sus novedades Los interesados pueden usar un programa agregador para acceder a sus fuentes suscritas desde un mismo lugar

Asiacute que feed eshellip fuente y Web feed eshellip fuente Web hellippero nosotros hablaremos de ldquofeedsrdquohellip en general

Y ademaacutes resulta que los feeds Web obedecen a dos formatos muy extendidos Atom y RSS yhellip iexclUn momento un momento iquestQueacute es esto iquestMaacutes

formatos iquestMaacutes liacuteos iexclNo no no no nohellip y no

Esto es como ldquopor doacutende cascar el huevo cocidordquo el resultado final es ndashpraacutecticamentendash el mismo asiacute que la direccioacuten el formato o el meacutetodo son cuestioacuten de gusto

En adelante hablaremos de feeds RSS (y los herejes que cambien el teacutermino por Atomhellip iexcly ya estaacute) Veremos tambieacuten con todo que los formatos sonhellip

iexclrealmente simples iexclVeamos pues los feeds RSS

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 4: Difusión e integración de contenidos mediante feeds

El manejo de los sistemas de informacioacuten supone mucho esfuerzohellip iexcly tiempo Lectura y contestacioacuten de e-mail 145 hes (horas empleadosemana)

Crear documentos 133 hes

Buacutesquedas 95 hes

Archivar y organizar documentos 83 hes

Rellanar formularios electroacutenicos 56 hes Seguacuten los estudios de la consultora IDC ademaacutes se gasta el

tiempo conhellip Fusioacuten de documentos con diferentes formatos 38 hes

Buacutesquedas infructuosas 35 hes

Cambiar el formato a documentos 24 hes

Problemas de control de versiones 22 hes

Estamos rodeados de ldquoaplicacionesrdquo (programas software) de ldquodispositivosrdquo (ordenadores teleacutefonos moacuteviles PDAs faxes etc) hellippero tambieacuten de sistemas organizativos de jerarquiacuteas

ordinales de canales de comunicacioacuten (mandatos verbales escritos e-mails post-its etc) hellipque afectan a multitud de documentos y tareas que tiacutepicamente

requierenhellip iexclgestioacuten gestioacuten gestioacuten

Los siacutentomas que delatan los problemas de tanto trasto son numerosas hojas de caacutelculo varias agendas e-mail sin procesarcontestar estructuras complejas de directorios y archivos etc

Adicionalmente la informacioacuten que gestionamos y procesamos necesita ser tambieacuten traspasada a otros probablemente modificada o matizada y tal vez sin perder de vista el original (notas revisiones etc)

Finalmente cada actor (empleado cliente proveedor agente consultor colega etc) se convierte en un foco de difusioacuten que antildeade maacutes confusioacuten a la gestioacuten diaria de la informacioacuten cambiando formatos incorporando nuevos canales a contenidoshellip iexcly asiacute sucesivamente

Podriacutea decirse que con este panorama la eficacia en la gestioacuten empresarial estaacute ligada a la capacidad intuitiva de hacer caso omiso de la mayor parte de la informacioacuten gestionada (tal como propugna el Pensamiento Sisteacutemico-Generalista de Gerald M Weinberg)

Puntos de Recoleccioacuten

Atendiendo a los principios de ldquoproductividad personalrdquo la mejor forma de optimizar el tratamiento de informacioacuten heterogeacutenea es ordenarla en una cola uacutenica (o en muy pocas colas) hellipcomo la cola de recepcioacuten de un CAU oacute 010 o Zuzenean o

similar (faxes emails llamadas etc) hellipcomo la Bandeja de Entrada del e-mail

En definitiva nos hacen falta Puntos de Recoleccioacuten (PR) de la informacioacuten hellippara que desde estos PR se pueda procesar explotar

difundir publicar combinar salvaguardar archivar etc iexclAy Si contaacuteramos con un formato comuacuten para toda la informacioacuten

que manejamoshellip iexclcuaacutento maacutes faacutecil seriacutea su gestioacuten

iquestDoacutende almacenamos la informacioacuten Reflexioacuten (oficina casa en viaje etc)

Yhellip iquestfuncionan nuestros PR Identificacioacuten de PR ldquoAutorizadosrdquo Se trata de cribar yo crear un conjunto razonablemente corto de PRs

(que no incluya nuestra memoria) Algunos PR Baacutesicos Una bandeja fiacutesica de ldquoEntradasrdquo o una carpeta moacutevil con separadores Un bloc de papel o digital Buzoacuten de voz La lista de tareas [de MS Outlook o similar] E-mail

Nuestro PR maacutes versaacutetil iexclEl PR de Feeds

Aunar la informacioacuten en una cola estaacute bienhellip pero no es suficiente Que las bandejas de entrada del e-mail raramente esteacuten

vaciacuteas lo demuestra Las operaciones diarias tienen que ver con el manejo

de diferentes programas (noacuteminas estados financieros noticias etc) hellipy lo ideal seriacutea que el uso de tantos diversos programas

se minimizara hellipy auacuten mejor resultariacutea que la informacioacuten pudiera ser ldquoleiacutedardquo (por

humanos) y ldquoprocesadardquo (por maacutequinas) sin necesidad de cambios y zarandajas de formatos

Recolectar -gt difundir -gt re-difundir -gt combinar

Contenidos y DocumentosSindicacioacutenhellip iexclSimple

La Dificultad de mover Documentos

Un documento es un paquete informativo estructuradoy ajustado a un formato PDF Word Excel Powerpoint etc

Un contenido es un trozo de informacioacuten no necesariamente estructurado y que tiene sentido individualmente o combinado al menos para un receptor hellipcomo la latitudlongitud de una ubicacioacuten o un comentario

sobre un hiper-enlace Web Un documento es un contenido claro

Nos centraremos en los contenidos hellipy sobre todo en los contenidos que envuelven a documentos

(para anotarlos comentarlos matizarlos etc)

Los contenidos son conjuntos de datos que conforman paquetes de informacioacuten que al comunicarse a otros generan conocimiento

Esto significa que los contenidos han de moverse (loacutegica o fiacutesicamente) desde su origen hasta sus receptores El nuacutemero de mi moacutevil que doy de viva voz Una carta con una queja La paacutegina Web de un diario electroacutenico

Los contenidos se muevenhellip o el receptor se mueve hacia elloshellip o ambas cosas En definitiva los contenidos deben organizarse para poder ser

difundidos en tal sentido amplio bi-direccional ser accedidos + ser enviados

Se ha experimentado un cambio en la forma de navegar de los usuarios de internet Ademaacutes de ser los propios usuarios los que generan gran

cantidad de contenidos se les ha proporcionado una ingente cantidad de herramientas para que sean ellos los que filtren en funcioacuten de la informacioacuten y de los contenidos que les interesan

Mashups gadgets widgets sirven a los usuarios para obtener de toda la amalgama de informacioacuten de la web aquello que les interesa y llevaacuterselo a su navegador dispositivo moacutevil correo electroacutenicohellip

Y sobre todo se han acostumbrado a que la informacioacuten fluya hacia ellos en lugar de ir a buscarla a los sitios Web o sistemas que hasta ahora la proveiacutean

Un perioacutedico de un bar pasa por muchas manos y ojos asiacute que la informacioacuten se propaga y la fuente (el papel doblado) permanece

Las circulares de CEBEK propagan informacioacuten de diferentes tiposhellip y posibilitan profundizar en ella (llamando o mandando un e-mail a una determinada persona) Muchos receptores guardan estas circulares para referencias futuras

Los e-mails enviados se guardan para saber queacute es lo que se propagoacute en su diacutea a sus destinatarios para asiacute componer mejor las actualizaciones

Una entrada en Twitter se propaga directamente a los ldquofollowersrdquo e indirectamente a todo el mundo Y subsiste

Resuena por toda la Web la ldquosindicacioacutenrdquo de contenidos que no es maacutes que un anglicismo que en nuestro caso significa que el mismo contenido informativo se difunde para su publicacioacuten en diferentes medios (como ocurre por ejemplo con las tiras de comics) hellipy que podriacuteamos denominar ldquoredifusioacuten de contenidosrdquo

que en realidad se basa en que la informacioacuten se pasa en un formato tan manejable que puede ser difundido procesado e incluso re-difundido

La redifusioacuten Web representa el maacutes comuacuten de estos esquemas de propagacioacuten de contenidos (eacutesta es la expresioacuten que maacutes me gusta) mediante Fuentes Web

Seguacuten Wikipediahellip Una fuente web (usualmente canal web o web feed) es un

medio de redifusioacuten de contenido web Se utiliza para suministrar informacioacuten actualizada frecuente-mente a sus suscriptores En su jerga cuando una paacutegina web redifunde su contenido mediante una fuente web los internautas pueden suscribirse a ella para estar informados de sus novedades Los interesados pueden usar un programa agregador para acceder a sus fuentes suscritas desde un mismo lugar

Asiacute que feed eshellip fuente y Web feed eshellip fuente Web hellippero nosotros hablaremos de ldquofeedsrdquohellip en general

Y ademaacutes resulta que los feeds Web obedecen a dos formatos muy extendidos Atom y RSS yhellip iexclUn momento un momento iquestQueacute es esto iquestMaacutes

formatos iquestMaacutes liacuteos iexclNo no no no nohellip y no

Esto es como ldquopor doacutende cascar el huevo cocidordquo el resultado final es ndashpraacutecticamentendash el mismo asiacute que la direccioacuten el formato o el meacutetodo son cuestioacuten de gusto

En adelante hablaremos de feeds RSS (y los herejes que cambien el teacutermino por Atomhellip iexcly ya estaacute) Veremos tambieacuten con todo que los formatos sonhellip

iexclrealmente simples iexclVeamos pues los feeds RSS

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 5: Difusión e integración de contenidos mediante feeds

Estamos rodeados de ldquoaplicacionesrdquo (programas software) de ldquodispositivosrdquo (ordenadores teleacutefonos moacuteviles PDAs faxes etc) hellippero tambieacuten de sistemas organizativos de jerarquiacuteas

ordinales de canales de comunicacioacuten (mandatos verbales escritos e-mails post-its etc) hellipque afectan a multitud de documentos y tareas que tiacutepicamente

requierenhellip iexclgestioacuten gestioacuten gestioacuten

Los siacutentomas que delatan los problemas de tanto trasto son numerosas hojas de caacutelculo varias agendas e-mail sin procesarcontestar estructuras complejas de directorios y archivos etc

Adicionalmente la informacioacuten que gestionamos y procesamos necesita ser tambieacuten traspasada a otros probablemente modificada o matizada y tal vez sin perder de vista el original (notas revisiones etc)

Finalmente cada actor (empleado cliente proveedor agente consultor colega etc) se convierte en un foco de difusioacuten que antildeade maacutes confusioacuten a la gestioacuten diaria de la informacioacuten cambiando formatos incorporando nuevos canales a contenidoshellip iexcly asiacute sucesivamente

Podriacutea decirse que con este panorama la eficacia en la gestioacuten empresarial estaacute ligada a la capacidad intuitiva de hacer caso omiso de la mayor parte de la informacioacuten gestionada (tal como propugna el Pensamiento Sisteacutemico-Generalista de Gerald M Weinberg)

Puntos de Recoleccioacuten

Atendiendo a los principios de ldquoproductividad personalrdquo la mejor forma de optimizar el tratamiento de informacioacuten heterogeacutenea es ordenarla en una cola uacutenica (o en muy pocas colas) hellipcomo la cola de recepcioacuten de un CAU oacute 010 o Zuzenean o

similar (faxes emails llamadas etc) hellipcomo la Bandeja de Entrada del e-mail

En definitiva nos hacen falta Puntos de Recoleccioacuten (PR) de la informacioacuten hellippara que desde estos PR se pueda procesar explotar

difundir publicar combinar salvaguardar archivar etc iexclAy Si contaacuteramos con un formato comuacuten para toda la informacioacuten

que manejamoshellip iexclcuaacutento maacutes faacutecil seriacutea su gestioacuten

iquestDoacutende almacenamos la informacioacuten Reflexioacuten (oficina casa en viaje etc)

Yhellip iquestfuncionan nuestros PR Identificacioacuten de PR ldquoAutorizadosrdquo Se trata de cribar yo crear un conjunto razonablemente corto de PRs

(que no incluya nuestra memoria) Algunos PR Baacutesicos Una bandeja fiacutesica de ldquoEntradasrdquo o una carpeta moacutevil con separadores Un bloc de papel o digital Buzoacuten de voz La lista de tareas [de MS Outlook o similar] E-mail

Nuestro PR maacutes versaacutetil iexclEl PR de Feeds

Aunar la informacioacuten en una cola estaacute bienhellip pero no es suficiente Que las bandejas de entrada del e-mail raramente esteacuten

vaciacuteas lo demuestra Las operaciones diarias tienen que ver con el manejo

de diferentes programas (noacuteminas estados financieros noticias etc) hellipy lo ideal seriacutea que el uso de tantos diversos programas

se minimizara hellipy auacuten mejor resultariacutea que la informacioacuten pudiera ser ldquoleiacutedardquo (por

humanos) y ldquoprocesadardquo (por maacutequinas) sin necesidad de cambios y zarandajas de formatos

Recolectar -gt difundir -gt re-difundir -gt combinar

Contenidos y DocumentosSindicacioacutenhellip iexclSimple

La Dificultad de mover Documentos

Un documento es un paquete informativo estructuradoy ajustado a un formato PDF Word Excel Powerpoint etc

Un contenido es un trozo de informacioacuten no necesariamente estructurado y que tiene sentido individualmente o combinado al menos para un receptor hellipcomo la latitudlongitud de una ubicacioacuten o un comentario

sobre un hiper-enlace Web Un documento es un contenido claro

Nos centraremos en los contenidos hellipy sobre todo en los contenidos que envuelven a documentos

(para anotarlos comentarlos matizarlos etc)

Los contenidos son conjuntos de datos que conforman paquetes de informacioacuten que al comunicarse a otros generan conocimiento

Esto significa que los contenidos han de moverse (loacutegica o fiacutesicamente) desde su origen hasta sus receptores El nuacutemero de mi moacutevil que doy de viva voz Una carta con una queja La paacutegina Web de un diario electroacutenico

Los contenidos se muevenhellip o el receptor se mueve hacia elloshellip o ambas cosas En definitiva los contenidos deben organizarse para poder ser

difundidos en tal sentido amplio bi-direccional ser accedidos + ser enviados

Se ha experimentado un cambio en la forma de navegar de los usuarios de internet Ademaacutes de ser los propios usuarios los que generan gran

cantidad de contenidos se les ha proporcionado una ingente cantidad de herramientas para que sean ellos los que filtren en funcioacuten de la informacioacuten y de los contenidos que les interesan

Mashups gadgets widgets sirven a los usuarios para obtener de toda la amalgama de informacioacuten de la web aquello que les interesa y llevaacuterselo a su navegador dispositivo moacutevil correo electroacutenicohellip

Y sobre todo se han acostumbrado a que la informacioacuten fluya hacia ellos en lugar de ir a buscarla a los sitios Web o sistemas que hasta ahora la proveiacutean

Un perioacutedico de un bar pasa por muchas manos y ojos asiacute que la informacioacuten se propaga y la fuente (el papel doblado) permanece

Las circulares de CEBEK propagan informacioacuten de diferentes tiposhellip y posibilitan profundizar en ella (llamando o mandando un e-mail a una determinada persona) Muchos receptores guardan estas circulares para referencias futuras

Los e-mails enviados se guardan para saber queacute es lo que se propagoacute en su diacutea a sus destinatarios para asiacute componer mejor las actualizaciones

Una entrada en Twitter se propaga directamente a los ldquofollowersrdquo e indirectamente a todo el mundo Y subsiste

Resuena por toda la Web la ldquosindicacioacutenrdquo de contenidos que no es maacutes que un anglicismo que en nuestro caso significa que el mismo contenido informativo se difunde para su publicacioacuten en diferentes medios (como ocurre por ejemplo con las tiras de comics) hellipy que podriacuteamos denominar ldquoredifusioacuten de contenidosrdquo

que en realidad se basa en que la informacioacuten se pasa en un formato tan manejable que puede ser difundido procesado e incluso re-difundido

La redifusioacuten Web representa el maacutes comuacuten de estos esquemas de propagacioacuten de contenidos (eacutesta es la expresioacuten que maacutes me gusta) mediante Fuentes Web

Seguacuten Wikipediahellip Una fuente web (usualmente canal web o web feed) es un

medio de redifusioacuten de contenido web Se utiliza para suministrar informacioacuten actualizada frecuente-mente a sus suscriptores En su jerga cuando una paacutegina web redifunde su contenido mediante una fuente web los internautas pueden suscribirse a ella para estar informados de sus novedades Los interesados pueden usar un programa agregador para acceder a sus fuentes suscritas desde un mismo lugar

Asiacute que feed eshellip fuente y Web feed eshellip fuente Web hellippero nosotros hablaremos de ldquofeedsrdquohellip en general

Y ademaacutes resulta que los feeds Web obedecen a dos formatos muy extendidos Atom y RSS yhellip iexclUn momento un momento iquestQueacute es esto iquestMaacutes

formatos iquestMaacutes liacuteos iexclNo no no no nohellip y no

Esto es como ldquopor doacutende cascar el huevo cocidordquo el resultado final es ndashpraacutecticamentendash el mismo asiacute que la direccioacuten el formato o el meacutetodo son cuestioacuten de gusto

En adelante hablaremos de feeds RSS (y los herejes que cambien el teacutermino por Atomhellip iexcly ya estaacute) Veremos tambieacuten con todo que los formatos sonhellip

iexclrealmente simples iexclVeamos pues los feeds RSS

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 6: Difusión e integración de contenidos mediante feeds

Adicionalmente la informacioacuten que gestionamos y procesamos necesita ser tambieacuten traspasada a otros probablemente modificada o matizada y tal vez sin perder de vista el original (notas revisiones etc)

Finalmente cada actor (empleado cliente proveedor agente consultor colega etc) se convierte en un foco de difusioacuten que antildeade maacutes confusioacuten a la gestioacuten diaria de la informacioacuten cambiando formatos incorporando nuevos canales a contenidoshellip iexcly asiacute sucesivamente

Podriacutea decirse que con este panorama la eficacia en la gestioacuten empresarial estaacute ligada a la capacidad intuitiva de hacer caso omiso de la mayor parte de la informacioacuten gestionada (tal como propugna el Pensamiento Sisteacutemico-Generalista de Gerald M Weinberg)

Puntos de Recoleccioacuten

Atendiendo a los principios de ldquoproductividad personalrdquo la mejor forma de optimizar el tratamiento de informacioacuten heterogeacutenea es ordenarla en una cola uacutenica (o en muy pocas colas) hellipcomo la cola de recepcioacuten de un CAU oacute 010 o Zuzenean o

similar (faxes emails llamadas etc) hellipcomo la Bandeja de Entrada del e-mail

En definitiva nos hacen falta Puntos de Recoleccioacuten (PR) de la informacioacuten hellippara que desde estos PR se pueda procesar explotar

difundir publicar combinar salvaguardar archivar etc iexclAy Si contaacuteramos con un formato comuacuten para toda la informacioacuten

que manejamoshellip iexclcuaacutento maacutes faacutecil seriacutea su gestioacuten

iquestDoacutende almacenamos la informacioacuten Reflexioacuten (oficina casa en viaje etc)

Yhellip iquestfuncionan nuestros PR Identificacioacuten de PR ldquoAutorizadosrdquo Se trata de cribar yo crear un conjunto razonablemente corto de PRs

(que no incluya nuestra memoria) Algunos PR Baacutesicos Una bandeja fiacutesica de ldquoEntradasrdquo o una carpeta moacutevil con separadores Un bloc de papel o digital Buzoacuten de voz La lista de tareas [de MS Outlook o similar] E-mail

Nuestro PR maacutes versaacutetil iexclEl PR de Feeds

Aunar la informacioacuten en una cola estaacute bienhellip pero no es suficiente Que las bandejas de entrada del e-mail raramente esteacuten

vaciacuteas lo demuestra Las operaciones diarias tienen que ver con el manejo

de diferentes programas (noacuteminas estados financieros noticias etc) hellipy lo ideal seriacutea que el uso de tantos diversos programas

se minimizara hellipy auacuten mejor resultariacutea que la informacioacuten pudiera ser ldquoleiacutedardquo (por

humanos) y ldquoprocesadardquo (por maacutequinas) sin necesidad de cambios y zarandajas de formatos

Recolectar -gt difundir -gt re-difundir -gt combinar

Contenidos y DocumentosSindicacioacutenhellip iexclSimple

La Dificultad de mover Documentos

Un documento es un paquete informativo estructuradoy ajustado a un formato PDF Word Excel Powerpoint etc

Un contenido es un trozo de informacioacuten no necesariamente estructurado y que tiene sentido individualmente o combinado al menos para un receptor hellipcomo la latitudlongitud de una ubicacioacuten o un comentario

sobre un hiper-enlace Web Un documento es un contenido claro

Nos centraremos en los contenidos hellipy sobre todo en los contenidos que envuelven a documentos

(para anotarlos comentarlos matizarlos etc)

Los contenidos son conjuntos de datos que conforman paquetes de informacioacuten que al comunicarse a otros generan conocimiento

Esto significa que los contenidos han de moverse (loacutegica o fiacutesicamente) desde su origen hasta sus receptores El nuacutemero de mi moacutevil que doy de viva voz Una carta con una queja La paacutegina Web de un diario electroacutenico

Los contenidos se muevenhellip o el receptor se mueve hacia elloshellip o ambas cosas En definitiva los contenidos deben organizarse para poder ser

difundidos en tal sentido amplio bi-direccional ser accedidos + ser enviados

Se ha experimentado un cambio en la forma de navegar de los usuarios de internet Ademaacutes de ser los propios usuarios los que generan gran

cantidad de contenidos se les ha proporcionado una ingente cantidad de herramientas para que sean ellos los que filtren en funcioacuten de la informacioacuten y de los contenidos que les interesan

Mashups gadgets widgets sirven a los usuarios para obtener de toda la amalgama de informacioacuten de la web aquello que les interesa y llevaacuterselo a su navegador dispositivo moacutevil correo electroacutenicohellip

Y sobre todo se han acostumbrado a que la informacioacuten fluya hacia ellos en lugar de ir a buscarla a los sitios Web o sistemas que hasta ahora la proveiacutean

Un perioacutedico de un bar pasa por muchas manos y ojos asiacute que la informacioacuten se propaga y la fuente (el papel doblado) permanece

Las circulares de CEBEK propagan informacioacuten de diferentes tiposhellip y posibilitan profundizar en ella (llamando o mandando un e-mail a una determinada persona) Muchos receptores guardan estas circulares para referencias futuras

Los e-mails enviados se guardan para saber queacute es lo que se propagoacute en su diacutea a sus destinatarios para asiacute componer mejor las actualizaciones

Una entrada en Twitter se propaga directamente a los ldquofollowersrdquo e indirectamente a todo el mundo Y subsiste

Resuena por toda la Web la ldquosindicacioacutenrdquo de contenidos que no es maacutes que un anglicismo que en nuestro caso significa que el mismo contenido informativo se difunde para su publicacioacuten en diferentes medios (como ocurre por ejemplo con las tiras de comics) hellipy que podriacuteamos denominar ldquoredifusioacuten de contenidosrdquo

que en realidad se basa en que la informacioacuten se pasa en un formato tan manejable que puede ser difundido procesado e incluso re-difundido

La redifusioacuten Web representa el maacutes comuacuten de estos esquemas de propagacioacuten de contenidos (eacutesta es la expresioacuten que maacutes me gusta) mediante Fuentes Web

Seguacuten Wikipediahellip Una fuente web (usualmente canal web o web feed) es un

medio de redifusioacuten de contenido web Se utiliza para suministrar informacioacuten actualizada frecuente-mente a sus suscriptores En su jerga cuando una paacutegina web redifunde su contenido mediante una fuente web los internautas pueden suscribirse a ella para estar informados de sus novedades Los interesados pueden usar un programa agregador para acceder a sus fuentes suscritas desde un mismo lugar

Asiacute que feed eshellip fuente y Web feed eshellip fuente Web hellippero nosotros hablaremos de ldquofeedsrdquohellip en general

Y ademaacutes resulta que los feeds Web obedecen a dos formatos muy extendidos Atom y RSS yhellip iexclUn momento un momento iquestQueacute es esto iquestMaacutes

formatos iquestMaacutes liacuteos iexclNo no no no nohellip y no

Esto es como ldquopor doacutende cascar el huevo cocidordquo el resultado final es ndashpraacutecticamentendash el mismo asiacute que la direccioacuten el formato o el meacutetodo son cuestioacuten de gusto

En adelante hablaremos de feeds RSS (y los herejes que cambien el teacutermino por Atomhellip iexcly ya estaacute) Veremos tambieacuten con todo que los formatos sonhellip

iexclrealmente simples iexclVeamos pues los feeds RSS

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 7: Difusión e integración de contenidos mediante feeds

Puntos de Recoleccioacuten

Atendiendo a los principios de ldquoproductividad personalrdquo la mejor forma de optimizar el tratamiento de informacioacuten heterogeacutenea es ordenarla en una cola uacutenica (o en muy pocas colas) hellipcomo la cola de recepcioacuten de un CAU oacute 010 o Zuzenean o

similar (faxes emails llamadas etc) hellipcomo la Bandeja de Entrada del e-mail

En definitiva nos hacen falta Puntos de Recoleccioacuten (PR) de la informacioacuten hellippara que desde estos PR se pueda procesar explotar

difundir publicar combinar salvaguardar archivar etc iexclAy Si contaacuteramos con un formato comuacuten para toda la informacioacuten

que manejamoshellip iexclcuaacutento maacutes faacutecil seriacutea su gestioacuten

iquestDoacutende almacenamos la informacioacuten Reflexioacuten (oficina casa en viaje etc)

Yhellip iquestfuncionan nuestros PR Identificacioacuten de PR ldquoAutorizadosrdquo Se trata de cribar yo crear un conjunto razonablemente corto de PRs

(que no incluya nuestra memoria) Algunos PR Baacutesicos Una bandeja fiacutesica de ldquoEntradasrdquo o una carpeta moacutevil con separadores Un bloc de papel o digital Buzoacuten de voz La lista de tareas [de MS Outlook o similar] E-mail

Nuestro PR maacutes versaacutetil iexclEl PR de Feeds

Aunar la informacioacuten en una cola estaacute bienhellip pero no es suficiente Que las bandejas de entrada del e-mail raramente esteacuten

vaciacuteas lo demuestra Las operaciones diarias tienen que ver con el manejo

de diferentes programas (noacuteminas estados financieros noticias etc) hellipy lo ideal seriacutea que el uso de tantos diversos programas

se minimizara hellipy auacuten mejor resultariacutea que la informacioacuten pudiera ser ldquoleiacutedardquo (por

humanos) y ldquoprocesadardquo (por maacutequinas) sin necesidad de cambios y zarandajas de formatos

Recolectar -gt difundir -gt re-difundir -gt combinar

Contenidos y DocumentosSindicacioacutenhellip iexclSimple

La Dificultad de mover Documentos

Un documento es un paquete informativo estructuradoy ajustado a un formato PDF Word Excel Powerpoint etc

Un contenido es un trozo de informacioacuten no necesariamente estructurado y que tiene sentido individualmente o combinado al menos para un receptor hellipcomo la latitudlongitud de una ubicacioacuten o un comentario

sobre un hiper-enlace Web Un documento es un contenido claro

Nos centraremos en los contenidos hellipy sobre todo en los contenidos que envuelven a documentos

(para anotarlos comentarlos matizarlos etc)

Los contenidos son conjuntos de datos que conforman paquetes de informacioacuten que al comunicarse a otros generan conocimiento

Esto significa que los contenidos han de moverse (loacutegica o fiacutesicamente) desde su origen hasta sus receptores El nuacutemero de mi moacutevil que doy de viva voz Una carta con una queja La paacutegina Web de un diario electroacutenico

Los contenidos se muevenhellip o el receptor se mueve hacia elloshellip o ambas cosas En definitiva los contenidos deben organizarse para poder ser

difundidos en tal sentido amplio bi-direccional ser accedidos + ser enviados

Se ha experimentado un cambio en la forma de navegar de los usuarios de internet Ademaacutes de ser los propios usuarios los que generan gran

cantidad de contenidos se les ha proporcionado una ingente cantidad de herramientas para que sean ellos los que filtren en funcioacuten de la informacioacuten y de los contenidos que les interesan

Mashups gadgets widgets sirven a los usuarios para obtener de toda la amalgama de informacioacuten de la web aquello que les interesa y llevaacuterselo a su navegador dispositivo moacutevil correo electroacutenicohellip

Y sobre todo se han acostumbrado a que la informacioacuten fluya hacia ellos en lugar de ir a buscarla a los sitios Web o sistemas que hasta ahora la proveiacutean

Un perioacutedico de un bar pasa por muchas manos y ojos asiacute que la informacioacuten se propaga y la fuente (el papel doblado) permanece

Las circulares de CEBEK propagan informacioacuten de diferentes tiposhellip y posibilitan profundizar en ella (llamando o mandando un e-mail a una determinada persona) Muchos receptores guardan estas circulares para referencias futuras

Los e-mails enviados se guardan para saber queacute es lo que se propagoacute en su diacutea a sus destinatarios para asiacute componer mejor las actualizaciones

Una entrada en Twitter se propaga directamente a los ldquofollowersrdquo e indirectamente a todo el mundo Y subsiste

Resuena por toda la Web la ldquosindicacioacutenrdquo de contenidos que no es maacutes que un anglicismo que en nuestro caso significa que el mismo contenido informativo se difunde para su publicacioacuten en diferentes medios (como ocurre por ejemplo con las tiras de comics) hellipy que podriacuteamos denominar ldquoredifusioacuten de contenidosrdquo

que en realidad se basa en que la informacioacuten se pasa en un formato tan manejable que puede ser difundido procesado e incluso re-difundido

La redifusioacuten Web representa el maacutes comuacuten de estos esquemas de propagacioacuten de contenidos (eacutesta es la expresioacuten que maacutes me gusta) mediante Fuentes Web

Seguacuten Wikipediahellip Una fuente web (usualmente canal web o web feed) es un

medio de redifusioacuten de contenido web Se utiliza para suministrar informacioacuten actualizada frecuente-mente a sus suscriptores En su jerga cuando una paacutegina web redifunde su contenido mediante una fuente web los internautas pueden suscribirse a ella para estar informados de sus novedades Los interesados pueden usar un programa agregador para acceder a sus fuentes suscritas desde un mismo lugar

Asiacute que feed eshellip fuente y Web feed eshellip fuente Web hellippero nosotros hablaremos de ldquofeedsrdquohellip en general

Y ademaacutes resulta que los feeds Web obedecen a dos formatos muy extendidos Atom y RSS yhellip iexclUn momento un momento iquestQueacute es esto iquestMaacutes

formatos iquestMaacutes liacuteos iexclNo no no no nohellip y no

Esto es como ldquopor doacutende cascar el huevo cocidordquo el resultado final es ndashpraacutecticamentendash el mismo asiacute que la direccioacuten el formato o el meacutetodo son cuestioacuten de gusto

En adelante hablaremos de feeds RSS (y los herejes que cambien el teacutermino por Atomhellip iexcly ya estaacute) Veremos tambieacuten con todo que los formatos sonhellip

iexclrealmente simples iexclVeamos pues los feeds RSS

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 8: Difusión e integración de contenidos mediante feeds

Atendiendo a los principios de ldquoproductividad personalrdquo la mejor forma de optimizar el tratamiento de informacioacuten heterogeacutenea es ordenarla en una cola uacutenica (o en muy pocas colas) hellipcomo la cola de recepcioacuten de un CAU oacute 010 o Zuzenean o

similar (faxes emails llamadas etc) hellipcomo la Bandeja de Entrada del e-mail

En definitiva nos hacen falta Puntos de Recoleccioacuten (PR) de la informacioacuten hellippara que desde estos PR se pueda procesar explotar

difundir publicar combinar salvaguardar archivar etc iexclAy Si contaacuteramos con un formato comuacuten para toda la informacioacuten

que manejamoshellip iexclcuaacutento maacutes faacutecil seriacutea su gestioacuten

iquestDoacutende almacenamos la informacioacuten Reflexioacuten (oficina casa en viaje etc)

Yhellip iquestfuncionan nuestros PR Identificacioacuten de PR ldquoAutorizadosrdquo Se trata de cribar yo crear un conjunto razonablemente corto de PRs

(que no incluya nuestra memoria) Algunos PR Baacutesicos Una bandeja fiacutesica de ldquoEntradasrdquo o una carpeta moacutevil con separadores Un bloc de papel o digital Buzoacuten de voz La lista de tareas [de MS Outlook o similar] E-mail

Nuestro PR maacutes versaacutetil iexclEl PR de Feeds

Aunar la informacioacuten en una cola estaacute bienhellip pero no es suficiente Que las bandejas de entrada del e-mail raramente esteacuten

vaciacuteas lo demuestra Las operaciones diarias tienen que ver con el manejo

de diferentes programas (noacuteminas estados financieros noticias etc) hellipy lo ideal seriacutea que el uso de tantos diversos programas

se minimizara hellipy auacuten mejor resultariacutea que la informacioacuten pudiera ser ldquoleiacutedardquo (por

humanos) y ldquoprocesadardquo (por maacutequinas) sin necesidad de cambios y zarandajas de formatos

Recolectar -gt difundir -gt re-difundir -gt combinar

Contenidos y DocumentosSindicacioacutenhellip iexclSimple

La Dificultad de mover Documentos

Un documento es un paquete informativo estructuradoy ajustado a un formato PDF Word Excel Powerpoint etc

Un contenido es un trozo de informacioacuten no necesariamente estructurado y que tiene sentido individualmente o combinado al menos para un receptor hellipcomo la latitudlongitud de una ubicacioacuten o un comentario

sobre un hiper-enlace Web Un documento es un contenido claro

Nos centraremos en los contenidos hellipy sobre todo en los contenidos que envuelven a documentos

(para anotarlos comentarlos matizarlos etc)

Los contenidos son conjuntos de datos que conforman paquetes de informacioacuten que al comunicarse a otros generan conocimiento

Esto significa que los contenidos han de moverse (loacutegica o fiacutesicamente) desde su origen hasta sus receptores El nuacutemero de mi moacutevil que doy de viva voz Una carta con una queja La paacutegina Web de un diario electroacutenico

Los contenidos se muevenhellip o el receptor se mueve hacia elloshellip o ambas cosas En definitiva los contenidos deben organizarse para poder ser

difundidos en tal sentido amplio bi-direccional ser accedidos + ser enviados

Se ha experimentado un cambio en la forma de navegar de los usuarios de internet Ademaacutes de ser los propios usuarios los que generan gran

cantidad de contenidos se les ha proporcionado una ingente cantidad de herramientas para que sean ellos los que filtren en funcioacuten de la informacioacuten y de los contenidos que les interesan

Mashups gadgets widgets sirven a los usuarios para obtener de toda la amalgama de informacioacuten de la web aquello que les interesa y llevaacuterselo a su navegador dispositivo moacutevil correo electroacutenicohellip

Y sobre todo se han acostumbrado a que la informacioacuten fluya hacia ellos en lugar de ir a buscarla a los sitios Web o sistemas que hasta ahora la proveiacutean

Un perioacutedico de un bar pasa por muchas manos y ojos asiacute que la informacioacuten se propaga y la fuente (el papel doblado) permanece

Las circulares de CEBEK propagan informacioacuten de diferentes tiposhellip y posibilitan profundizar en ella (llamando o mandando un e-mail a una determinada persona) Muchos receptores guardan estas circulares para referencias futuras

Los e-mails enviados se guardan para saber queacute es lo que se propagoacute en su diacutea a sus destinatarios para asiacute componer mejor las actualizaciones

Una entrada en Twitter se propaga directamente a los ldquofollowersrdquo e indirectamente a todo el mundo Y subsiste

Resuena por toda la Web la ldquosindicacioacutenrdquo de contenidos que no es maacutes que un anglicismo que en nuestro caso significa que el mismo contenido informativo se difunde para su publicacioacuten en diferentes medios (como ocurre por ejemplo con las tiras de comics) hellipy que podriacuteamos denominar ldquoredifusioacuten de contenidosrdquo

que en realidad se basa en que la informacioacuten se pasa en un formato tan manejable que puede ser difundido procesado e incluso re-difundido

La redifusioacuten Web representa el maacutes comuacuten de estos esquemas de propagacioacuten de contenidos (eacutesta es la expresioacuten que maacutes me gusta) mediante Fuentes Web

Seguacuten Wikipediahellip Una fuente web (usualmente canal web o web feed) es un

medio de redifusioacuten de contenido web Se utiliza para suministrar informacioacuten actualizada frecuente-mente a sus suscriptores En su jerga cuando una paacutegina web redifunde su contenido mediante una fuente web los internautas pueden suscribirse a ella para estar informados de sus novedades Los interesados pueden usar un programa agregador para acceder a sus fuentes suscritas desde un mismo lugar

Asiacute que feed eshellip fuente y Web feed eshellip fuente Web hellippero nosotros hablaremos de ldquofeedsrdquohellip en general

Y ademaacutes resulta que los feeds Web obedecen a dos formatos muy extendidos Atom y RSS yhellip iexclUn momento un momento iquestQueacute es esto iquestMaacutes

formatos iquestMaacutes liacuteos iexclNo no no no nohellip y no

Esto es como ldquopor doacutende cascar el huevo cocidordquo el resultado final es ndashpraacutecticamentendash el mismo asiacute que la direccioacuten el formato o el meacutetodo son cuestioacuten de gusto

En adelante hablaremos de feeds RSS (y los herejes que cambien el teacutermino por Atomhellip iexcly ya estaacute) Veremos tambieacuten con todo que los formatos sonhellip

iexclrealmente simples iexclVeamos pues los feeds RSS

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 9: Difusión e integración de contenidos mediante feeds

iquestDoacutende almacenamos la informacioacuten Reflexioacuten (oficina casa en viaje etc)

Yhellip iquestfuncionan nuestros PR Identificacioacuten de PR ldquoAutorizadosrdquo Se trata de cribar yo crear un conjunto razonablemente corto de PRs

(que no incluya nuestra memoria) Algunos PR Baacutesicos Una bandeja fiacutesica de ldquoEntradasrdquo o una carpeta moacutevil con separadores Un bloc de papel o digital Buzoacuten de voz La lista de tareas [de MS Outlook o similar] E-mail

Nuestro PR maacutes versaacutetil iexclEl PR de Feeds

Aunar la informacioacuten en una cola estaacute bienhellip pero no es suficiente Que las bandejas de entrada del e-mail raramente esteacuten

vaciacuteas lo demuestra Las operaciones diarias tienen que ver con el manejo

de diferentes programas (noacuteminas estados financieros noticias etc) hellipy lo ideal seriacutea que el uso de tantos diversos programas

se minimizara hellipy auacuten mejor resultariacutea que la informacioacuten pudiera ser ldquoleiacutedardquo (por

humanos) y ldquoprocesadardquo (por maacutequinas) sin necesidad de cambios y zarandajas de formatos

Recolectar -gt difundir -gt re-difundir -gt combinar

Contenidos y DocumentosSindicacioacutenhellip iexclSimple

La Dificultad de mover Documentos

Un documento es un paquete informativo estructuradoy ajustado a un formato PDF Word Excel Powerpoint etc

Un contenido es un trozo de informacioacuten no necesariamente estructurado y que tiene sentido individualmente o combinado al menos para un receptor hellipcomo la latitudlongitud de una ubicacioacuten o un comentario

sobre un hiper-enlace Web Un documento es un contenido claro

Nos centraremos en los contenidos hellipy sobre todo en los contenidos que envuelven a documentos

(para anotarlos comentarlos matizarlos etc)

Los contenidos son conjuntos de datos que conforman paquetes de informacioacuten que al comunicarse a otros generan conocimiento

Esto significa que los contenidos han de moverse (loacutegica o fiacutesicamente) desde su origen hasta sus receptores El nuacutemero de mi moacutevil que doy de viva voz Una carta con una queja La paacutegina Web de un diario electroacutenico

Los contenidos se muevenhellip o el receptor se mueve hacia elloshellip o ambas cosas En definitiva los contenidos deben organizarse para poder ser

difundidos en tal sentido amplio bi-direccional ser accedidos + ser enviados

Se ha experimentado un cambio en la forma de navegar de los usuarios de internet Ademaacutes de ser los propios usuarios los que generan gran

cantidad de contenidos se les ha proporcionado una ingente cantidad de herramientas para que sean ellos los que filtren en funcioacuten de la informacioacuten y de los contenidos que les interesan

Mashups gadgets widgets sirven a los usuarios para obtener de toda la amalgama de informacioacuten de la web aquello que les interesa y llevaacuterselo a su navegador dispositivo moacutevil correo electroacutenicohellip

Y sobre todo se han acostumbrado a que la informacioacuten fluya hacia ellos en lugar de ir a buscarla a los sitios Web o sistemas que hasta ahora la proveiacutean

Un perioacutedico de un bar pasa por muchas manos y ojos asiacute que la informacioacuten se propaga y la fuente (el papel doblado) permanece

Las circulares de CEBEK propagan informacioacuten de diferentes tiposhellip y posibilitan profundizar en ella (llamando o mandando un e-mail a una determinada persona) Muchos receptores guardan estas circulares para referencias futuras

Los e-mails enviados se guardan para saber queacute es lo que se propagoacute en su diacutea a sus destinatarios para asiacute componer mejor las actualizaciones

Una entrada en Twitter se propaga directamente a los ldquofollowersrdquo e indirectamente a todo el mundo Y subsiste

Resuena por toda la Web la ldquosindicacioacutenrdquo de contenidos que no es maacutes que un anglicismo que en nuestro caso significa que el mismo contenido informativo se difunde para su publicacioacuten en diferentes medios (como ocurre por ejemplo con las tiras de comics) hellipy que podriacuteamos denominar ldquoredifusioacuten de contenidosrdquo

que en realidad se basa en que la informacioacuten se pasa en un formato tan manejable que puede ser difundido procesado e incluso re-difundido

La redifusioacuten Web representa el maacutes comuacuten de estos esquemas de propagacioacuten de contenidos (eacutesta es la expresioacuten que maacutes me gusta) mediante Fuentes Web

Seguacuten Wikipediahellip Una fuente web (usualmente canal web o web feed) es un

medio de redifusioacuten de contenido web Se utiliza para suministrar informacioacuten actualizada frecuente-mente a sus suscriptores En su jerga cuando una paacutegina web redifunde su contenido mediante una fuente web los internautas pueden suscribirse a ella para estar informados de sus novedades Los interesados pueden usar un programa agregador para acceder a sus fuentes suscritas desde un mismo lugar

Asiacute que feed eshellip fuente y Web feed eshellip fuente Web hellippero nosotros hablaremos de ldquofeedsrdquohellip en general

Y ademaacutes resulta que los feeds Web obedecen a dos formatos muy extendidos Atom y RSS yhellip iexclUn momento un momento iquestQueacute es esto iquestMaacutes

formatos iquestMaacutes liacuteos iexclNo no no no nohellip y no

Esto es como ldquopor doacutende cascar el huevo cocidordquo el resultado final es ndashpraacutecticamentendash el mismo asiacute que la direccioacuten el formato o el meacutetodo son cuestioacuten de gusto

En adelante hablaremos de feeds RSS (y los herejes que cambien el teacutermino por Atomhellip iexcly ya estaacute) Veremos tambieacuten con todo que los formatos sonhellip

iexclrealmente simples iexclVeamos pues los feeds RSS

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 10: Difusión e integración de contenidos mediante feeds

Aunar la informacioacuten en una cola estaacute bienhellip pero no es suficiente Que las bandejas de entrada del e-mail raramente esteacuten

vaciacuteas lo demuestra Las operaciones diarias tienen que ver con el manejo

de diferentes programas (noacuteminas estados financieros noticias etc) hellipy lo ideal seriacutea que el uso de tantos diversos programas

se minimizara hellipy auacuten mejor resultariacutea que la informacioacuten pudiera ser ldquoleiacutedardquo (por

humanos) y ldquoprocesadardquo (por maacutequinas) sin necesidad de cambios y zarandajas de formatos

Recolectar -gt difundir -gt re-difundir -gt combinar

Contenidos y DocumentosSindicacioacutenhellip iexclSimple

La Dificultad de mover Documentos

Un documento es un paquete informativo estructuradoy ajustado a un formato PDF Word Excel Powerpoint etc

Un contenido es un trozo de informacioacuten no necesariamente estructurado y que tiene sentido individualmente o combinado al menos para un receptor hellipcomo la latitudlongitud de una ubicacioacuten o un comentario

sobre un hiper-enlace Web Un documento es un contenido claro

Nos centraremos en los contenidos hellipy sobre todo en los contenidos que envuelven a documentos

(para anotarlos comentarlos matizarlos etc)

Los contenidos son conjuntos de datos que conforman paquetes de informacioacuten que al comunicarse a otros generan conocimiento

Esto significa que los contenidos han de moverse (loacutegica o fiacutesicamente) desde su origen hasta sus receptores El nuacutemero de mi moacutevil que doy de viva voz Una carta con una queja La paacutegina Web de un diario electroacutenico

Los contenidos se muevenhellip o el receptor se mueve hacia elloshellip o ambas cosas En definitiva los contenidos deben organizarse para poder ser

difundidos en tal sentido amplio bi-direccional ser accedidos + ser enviados

Se ha experimentado un cambio en la forma de navegar de los usuarios de internet Ademaacutes de ser los propios usuarios los que generan gran

cantidad de contenidos se les ha proporcionado una ingente cantidad de herramientas para que sean ellos los que filtren en funcioacuten de la informacioacuten y de los contenidos que les interesan

Mashups gadgets widgets sirven a los usuarios para obtener de toda la amalgama de informacioacuten de la web aquello que les interesa y llevaacuterselo a su navegador dispositivo moacutevil correo electroacutenicohellip

Y sobre todo se han acostumbrado a que la informacioacuten fluya hacia ellos en lugar de ir a buscarla a los sitios Web o sistemas que hasta ahora la proveiacutean

Un perioacutedico de un bar pasa por muchas manos y ojos asiacute que la informacioacuten se propaga y la fuente (el papel doblado) permanece

Las circulares de CEBEK propagan informacioacuten de diferentes tiposhellip y posibilitan profundizar en ella (llamando o mandando un e-mail a una determinada persona) Muchos receptores guardan estas circulares para referencias futuras

Los e-mails enviados se guardan para saber queacute es lo que se propagoacute en su diacutea a sus destinatarios para asiacute componer mejor las actualizaciones

Una entrada en Twitter se propaga directamente a los ldquofollowersrdquo e indirectamente a todo el mundo Y subsiste

Resuena por toda la Web la ldquosindicacioacutenrdquo de contenidos que no es maacutes que un anglicismo que en nuestro caso significa que el mismo contenido informativo se difunde para su publicacioacuten en diferentes medios (como ocurre por ejemplo con las tiras de comics) hellipy que podriacuteamos denominar ldquoredifusioacuten de contenidosrdquo

que en realidad se basa en que la informacioacuten se pasa en un formato tan manejable que puede ser difundido procesado e incluso re-difundido

La redifusioacuten Web representa el maacutes comuacuten de estos esquemas de propagacioacuten de contenidos (eacutesta es la expresioacuten que maacutes me gusta) mediante Fuentes Web

Seguacuten Wikipediahellip Una fuente web (usualmente canal web o web feed) es un

medio de redifusioacuten de contenido web Se utiliza para suministrar informacioacuten actualizada frecuente-mente a sus suscriptores En su jerga cuando una paacutegina web redifunde su contenido mediante una fuente web los internautas pueden suscribirse a ella para estar informados de sus novedades Los interesados pueden usar un programa agregador para acceder a sus fuentes suscritas desde un mismo lugar

Asiacute que feed eshellip fuente y Web feed eshellip fuente Web hellippero nosotros hablaremos de ldquofeedsrdquohellip en general

Y ademaacutes resulta que los feeds Web obedecen a dos formatos muy extendidos Atom y RSS yhellip iexclUn momento un momento iquestQueacute es esto iquestMaacutes

formatos iquestMaacutes liacuteos iexclNo no no no nohellip y no

Esto es como ldquopor doacutende cascar el huevo cocidordquo el resultado final es ndashpraacutecticamentendash el mismo asiacute que la direccioacuten el formato o el meacutetodo son cuestioacuten de gusto

En adelante hablaremos de feeds RSS (y los herejes que cambien el teacutermino por Atomhellip iexcly ya estaacute) Veremos tambieacuten con todo que los formatos sonhellip

iexclrealmente simples iexclVeamos pues los feeds RSS

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 11: Difusión e integración de contenidos mediante feeds

Contenidos y DocumentosSindicacioacutenhellip iexclSimple

La Dificultad de mover Documentos

Un documento es un paquete informativo estructuradoy ajustado a un formato PDF Word Excel Powerpoint etc

Un contenido es un trozo de informacioacuten no necesariamente estructurado y que tiene sentido individualmente o combinado al menos para un receptor hellipcomo la latitudlongitud de una ubicacioacuten o un comentario

sobre un hiper-enlace Web Un documento es un contenido claro

Nos centraremos en los contenidos hellipy sobre todo en los contenidos que envuelven a documentos

(para anotarlos comentarlos matizarlos etc)

Los contenidos son conjuntos de datos que conforman paquetes de informacioacuten que al comunicarse a otros generan conocimiento

Esto significa que los contenidos han de moverse (loacutegica o fiacutesicamente) desde su origen hasta sus receptores El nuacutemero de mi moacutevil que doy de viva voz Una carta con una queja La paacutegina Web de un diario electroacutenico

Los contenidos se muevenhellip o el receptor se mueve hacia elloshellip o ambas cosas En definitiva los contenidos deben organizarse para poder ser

difundidos en tal sentido amplio bi-direccional ser accedidos + ser enviados

Se ha experimentado un cambio en la forma de navegar de los usuarios de internet Ademaacutes de ser los propios usuarios los que generan gran

cantidad de contenidos se les ha proporcionado una ingente cantidad de herramientas para que sean ellos los que filtren en funcioacuten de la informacioacuten y de los contenidos que les interesan

Mashups gadgets widgets sirven a los usuarios para obtener de toda la amalgama de informacioacuten de la web aquello que les interesa y llevaacuterselo a su navegador dispositivo moacutevil correo electroacutenicohellip

Y sobre todo se han acostumbrado a que la informacioacuten fluya hacia ellos en lugar de ir a buscarla a los sitios Web o sistemas que hasta ahora la proveiacutean

Un perioacutedico de un bar pasa por muchas manos y ojos asiacute que la informacioacuten se propaga y la fuente (el papel doblado) permanece

Las circulares de CEBEK propagan informacioacuten de diferentes tiposhellip y posibilitan profundizar en ella (llamando o mandando un e-mail a una determinada persona) Muchos receptores guardan estas circulares para referencias futuras

Los e-mails enviados se guardan para saber queacute es lo que se propagoacute en su diacutea a sus destinatarios para asiacute componer mejor las actualizaciones

Una entrada en Twitter se propaga directamente a los ldquofollowersrdquo e indirectamente a todo el mundo Y subsiste

Resuena por toda la Web la ldquosindicacioacutenrdquo de contenidos que no es maacutes que un anglicismo que en nuestro caso significa que el mismo contenido informativo se difunde para su publicacioacuten en diferentes medios (como ocurre por ejemplo con las tiras de comics) hellipy que podriacuteamos denominar ldquoredifusioacuten de contenidosrdquo

que en realidad se basa en que la informacioacuten se pasa en un formato tan manejable que puede ser difundido procesado e incluso re-difundido

La redifusioacuten Web representa el maacutes comuacuten de estos esquemas de propagacioacuten de contenidos (eacutesta es la expresioacuten que maacutes me gusta) mediante Fuentes Web

Seguacuten Wikipediahellip Una fuente web (usualmente canal web o web feed) es un

medio de redifusioacuten de contenido web Se utiliza para suministrar informacioacuten actualizada frecuente-mente a sus suscriptores En su jerga cuando una paacutegina web redifunde su contenido mediante una fuente web los internautas pueden suscribirse a ella para estar informados de sus novedades Los interesados pueden usar un programa agregador para acceder a sus fuentes suscritas desde un mismo lugar

Asiacute que feed eshellip fuente y Web feed eshellip fuente Web hellippero nosotros hablaremos de ldquofeedsrdquohellip en general

Y ademaacutes resulta que los feeds Web obedecen a dos formatos muy extendidos Atom y RSS yhellip iexclUn momento un momento iquestQueacute es esto iquestMaacutes

formatos iquestMaacutes liacuteos iexclNo no no no nohellip y no

Esto es como ldquopor doacutende cascar el huevo cocidordquo el resultado final es ndashpraacutecticamentendash el mismo asiacute que la direccioacuten el formato o el meacutetodo son cuestioacuten de gusto

En adelante hablaremos de feeds RSS (y los herejes que cambien el teacutermino por Atomhellip iexcly ya estaacute) Veremos tambieacuten con todo que los formatos sonhellip

iexclrealmente simples iexclVeamos pues los feeds RSS

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 12: Difusión e integración de contenidos mediante feeds

La Dificultad de mover Documentos

Un documento es un paquete informativo estructuradoy ajustado a un formato PDF Word Excel Powerpoint etc

Un contenido es un trozo de informacioacuten no necesariamente estructurado y que tiene sentido individualmente o combinado al menos para un receptor hellipcomo la latitudlongitud de una ubicacioacuten o un comentario

sobre un hiper-enlace Web Un documento es un contenido claro

Nos centraremos en los contenidos hellipy sobre todo en los contenidos que envuelven a documentos

(para anotarlos comentarlos matizarlos etc)

Los contenidos son conjuntos de datos que conforman paquetes de informacioacuten que al comunicarse a otros generan conocimiento

Esto significa que los contenidos han de moverse (loacutegica o fiacutesicamente) desde su origen hasta sus receptores El nuacutemero de mi moacutevil que doy de viva voz Una carta con una queja La paacutegina Web de un diario electroacutenico

Los contenidos se muevenhellip o el receptor se mueve hacia elloshellip o ambas cosas En definitiva los contenidos deben organizarse para poder ser

difundidos en tal sentido amplio bi-direccional ser accedidos + ser enviados

Se ha experimentado un cambio en la forma de navegar de los usuarios de internet Ademaacutes de ser los propios usuarios los que generan gran

cantidad de contenidos se les ha proporcionado una ingente cantidad de herramientas para que sean ellos los que filtren en funcioacuten de la informacioacuten y de los contenidos que les interesan

Mashups gadgets widgets sirven a los usuarios para obtener de toda la amalgama de informacioacuten de la web aquello que les interesa y llevaacuterselo a su navegador dispositivo moacutevil correo electroacutenicohellip

Y sobre todo se han acostumbrado a que la informacioacuten fluya hacia ellos en lugar de ir a buscarla a los sitios Web o sistemas que hasta ahora la proveiacutean

Un perioacutedico de un bar pasa por muchas manos y ojos asiacute que la informacioacuten se propaga y la fuente (el papel doblado) permanece

Las circulares de CEBEK propagan informacioacuten de diferentes tiposhellip y posibilitan profundizar en ella (llamando o mandando un e-mail a una determinada persona) Muchos receptores guardan estas circulares para referencias futuras

Los e-mails enviados se guardan para saber queacute es lo que se propagoacute en su diacutea a sus destinatarios para asiacute componer mejor las actualizaciones

Una entrada en Twitter se propaga directamente a los ldquofollowersrdquo e indirectamente a todo el mundo Y subsiste

Resuena por toda la Web la ldquosindicacioacutenrdquo de contenidos que no es maacutes que un anglicismo que en nuestro caso significa que el mismo contenido informativo se difunde para su publicacioacuten en diferentes medios (como ocurre por ejemplo con las tiras de comics) hellipy que podriacuteamos denominar ldquoredifusioacuten de contenidosrdquo

que en realidad se basa en que la informacioacuten se pasa en un formato tan manejable que puede ser difundido procesado e incluso re-difundido

La redifusioacuten Web representa el maacutes comuacuten de estos esquemas de propagacioacuten de contenidos (eacutesta es la expresioacuten que maacutes me gusta) mediante Fuentes Web

Seguacuten Wikipediahellip Una fuente web (usualmente canal web o web feed) es un

medio de redifusioacuten de contenido web Se utiliza para suministrar informacioacuten actualizada frecuente-mente a sus suscriptores En su jerga cuando una paacutegina web redifunde su contenido mediante una fuente web los internautas pueden suscribirse a ella para estar informados de sus novedades Los interesados pueden usar un programa agregador para acceder a sus fuentes suscritas desde un mismo lugar

Asiacute que feed eshellip fuente y Web feed eshellip fuente Web hellippero nosotros hablaremos de ldquofeedsrdquohellip en general

Y ademaacutes resulta que los feeds Web obedecen a dos formatos muy extendidos Atom y RSS yhellip iexclUn momento un momento iquestQueacute es esto iquestMaacutes

formatos iquestMaacutes liacuteos iexclNo no no no nohellip y no

Esto es como ldquopor doacutende cascar el huevo cocidordquo el resultado final es ndashpraacutecticamentendash el mismo asiacute que la direccioacuten el formato o el meacutetodo son cuestioacuten de gusto

En adelante hablaremos de feeds RSS (y los herejes que cambien el teacutermino por Atomhellip iexcly ya estaacute) Veremos tambieacuten con todo que los formatos sonhellip

iexclrealmente simples iexclVeamos pues los feeds RSS

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 13: Difusión e integración de contenidos mediante feeds

Un documento es un paquete informativo estructuradoy ajustado a un formato PDF Word Excel Powerpoint etc

Un contenido es un trozo de informacioacuten no necesariamente estructurado y que tiene sentido individualmente o combinado al menos para un receptor hellipcomo la latitudlongitud de una ubicacioacuten o un comentario

sobre un hiper-enlace Web Un documento es un contenido claro

Nos centraremos en los contenidos hellipy sobre todo en los contenidos que envuelven a documentos

(para anotarlos comentarlos matizarlos etc)

Los contenidos son conjuntos de datos que conforman paquetes de informacioacuten que al comunicarse a otros generan conocimiento

Esto significa que los contenidos han de moverse (loacutegica o fiacutesicamente) desde su origen hasta sus receptores El nuacutemero de mi moacutevil que doy de viva voz Una carta con una queja La paacutegina Web de un diario electroacutenico

Los contenidos se muevenhellip o el receptor se mueve hacia elloshellip o ambas cosas En definitiva los contenidos deben organizarse para poder ser

difundidos en tal sentido amplio bi-direccional ser accedidos + ser enviados

Se ha experimentado un cambio en la forma de navegar de los usuarios de internet Ademaacutes de ser los propios usuarios los que generan gran

cantidad de contenidos se les ha proporcionado una ingente cantidad de herramientas para que sean ellos los que filtren en funcioacuten de la informacioacuten y de los contenidos que les interesan

Mashups gadgets widgets sirven a los usuarios para obtener de toda la amalgama de informacioacuten de la web aquello que les interesa y llevaacuterselo a su navegador dispositivo moacutevil correo electroacutenicohellip

Y sobre todo se han acostumbrado a que la informacioacuten fluya hacia ellos en lugar de ir a buscarla a los sitios Web o sistemas que hasta ahora la proveiacutean

Un perioacutedico de un bar pasa por muchas manos y ojos asiacute que la informacioacuten se propaga y la fuente (el papel doblado) permanece

Las circulares de CEBEK propagan informacioacuten de diferentes tiposhellip y posibilitan profundizar en ella (llamando o mandando un e-mail a una determinada persona) Muchos receptores guardan estas circulares para referencias futuras

Los e-mails enviados se guardan para saber queacute es lo que se propagoacute en su diacutea a sus destinatarios para asiacute componer mejor las actualizaciones

Una entrada en Twitter se propaga directamente a los ldquofollowersrdquo e indirectamente a todo el mundo Y subsiste

Resuena por toda la Web la ldquosindicacioacutenrdquo de contenidos que no es maacutes que un anglicismo que en nuestro caso significa que el mismo contenido informativo se difunde para su publicacioacuten en diferentes medios (como ocurre por ejemplo con las tiras de comics) hellipy que podriacuteamos denominar ldquoredifusioacuten de contenidosrdquo

que en realidad se basa en que la informacioacuten se pasa en un formato tan manejable que puede ser difundido procesado e incluso re-difundido

La redifusioacuten Web representa el maacutes comuacuten de estos esquemas de propagacioacuten de contenidos (eacutesta es la expresioacuten que maacutes me gusta) mediante Fuentes Web

Seguacuten Wikipediahellip Una fuente web (usualmente canal web o web feed) es un

medio de redifusioacuten de contenido web Se utiliza para suministrar informacioacuten actualizada frecuente-mente a sus suscriptores En su jerga cuando una paacutegina web redifunde su contenido mediante una fuente web los internautas pueden suscribirse a ella para estar informados de sus novedades Los interesados pueden usar un programa agregador para acceder a sus fuentes suscritas desde un mismo lugar

Asiacute que feed eshellip fuente y Web feed eshellip fuente Web hellippero nosotros hablaremos de ldquofeedsrdquohellip en general

Y ademaacutes resulta que los feeds Web obedecen a dos formatos muy extendidos Atom y RSS yhellip iexclUn momento un momento iquestQueacute es esto iquestMaacutes

formatos iquestMaacutes liacuteos iexclNo no no no nohellip y no

Esto es como ldquopor doacutende cascar el huevo cocidordquo el resultado final es ndashpraacutecticamentendash el mismo asiacute que la direccioacuten el formato o el meacutetodo son cuestioacuten de gusto

En adelante hablaremos de feeds RSS (y los herejes que cambien el teacutermino por Atomhellip iexcly ya estaacute) Veremos tambieacuten con todo que los formatos sonhellip

iexclrealmente simples iexclVeamos pues los feeds RSS

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 14: Difusión e integración de contenidos mediante feeds

Los contenidos son conjuntos de datos que conforman paquetes de informacioacuten que al comunicarse a otros generan conocimiento

Esto significa que los contenidos han de moverse (loacutegica o fiacutesicamente) desde su origen hasta sus receptores El nuacutemero de mi moacutevil que doy de viva voz Una carta con una queja La paacutegina Web de un diario electroacutenico

Los contenidos se muevenhellip o el receptor se mueve hacia elloshellip o ambas cosas En definitiva los contenidos deben organizarse para poder ser

difundidos en tal sentido amplio bi-direccional ser accedidos + ser enviados

Se ha experimentado un cambio en la forma de navegar de los usuarios de internet Ademaacutes de ser los propios usuarios los que generan gran

cantidad de contenidos se les ha proporcionado una ingente cantidad de herramientas para que sean ellos los que filtren en funcioacuten de la informacioacuten y de los contenidos que les interesan

Mashups gadgets widgets sirven a los usuarios para obtener de toda la amalgama de informacioacuten de la web aquello que les interesa y llevaacuterselo a su navegador dispositivo moacutevil correo electroacutenicohellip

Y sobre todo se han acostumbrado a que la informacioacuten fluya hacia ellos en lugar de ir a buscarla a los sitios Web o sistemas que hasta ahora la proveiacutean

Un perioacutedico de un bar pasa por muchas manos y ojos asiacute que la informacioacuten se propaga y la fuente (el papel doblado) permanece

Las circulares de CEBEK propagan informacioacuten de diferentes tiposhellip y posibilitan profundizar en ella (llamando o mandando un e-mail a una determinada persona) Muchos receptores guardan estas circulares para referencias futuras

Los e-mails enviados se guardan para saber queacute es lo que se propagoacute en su diacutea a sus destinatarios para asiacute componer mejor las actualizaciones

Una entrada en Twitter se propaga directamente a los ldquofollowersrdquo e indirectamente a todo el mundo Y subsiste

Resuena por toda la Web la ldquosindicacioacutenrdquo de contenidos que no es maacutes que un anglicismo que en nuestro caso significa que el mismo contenido informativo se difunde para su publicacioacuten en diferentes medios (como ocurre por ejemplo con las tiras de comics) hellipy que podriacuteamos denominar ldquoredifusioacuten de contenidosrdquo

que en realidad se basa en que la informacioacuten se pasa en un formato tan manejable que puede ser difundido procesado e incluso re-difundido

La redifusioacuten Web representa el maacutes comuacuten de estos esquemas de propagacioacuten de contenidos (eacutesta es la expresioacuten que maacutes me gusta) mediante Fuentes Web

Seguacuten Wikipediahellip Una fuente web (usualmente canal web o web feed) es un

medio de redifusioacuten de contenido web Se utiliza para suministrar informacioacuten actualizada frecuente-mente a sus suscriptores En su jerga cuando una paacutegina web redifunde su contenido mediante una fuente web los internautas pueden suscribirse a ella para estar informados de sus novedades Los interesados pueden usar un programa agregador para acceder a sus fuentes suscritas desde un mismo lugar

Asiacute que feed eshellip fuente y Web feed eshellip fuente Web hellippero nosotros hablaremos de ldquofeedsrdquohellip en general

Y ademaacutes resulta que los feeds Web obedecen a dos formatos muy extendidos Atom y RSS yhellip iexclUn momento un momento iquestQueacute es esto iquestMaacutes

formatos iquestMaacutes liacuteos iexclNo no no no nohellip y no

Esto es como ldquopor doacutende cascar el huevo cocidordquo el resultado final es ndashpraacutecticamentendash el mismo asiacute que la direccioacuten el formato o el meacutetodo son cuestioacuten de gusto

En adelante hablaremos de feeds RSS (y los herejes que cambien el teacutermino por Atomhellip iexcly ya estaacute) Veremos tambieacuten con todo que los formatos sonhellip

iexclrealmente simples iexclVeamos pues los feeds RSS

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 15: Difusión e integración de contenidos mediante feeds

Se ha experimentado un cambio en la forma de navegar de los usuarios de internet Ademaacutes de ser los propios usuarios los que generan gran

cantidad de contenidos se les ha proporcionado una ingente cantidad de herramientas para que sean ellos los que filtren en funcioacuten de la informacioacuten y de los contenidos que les interesan

Mashups gadgets widgets sirven a los usuarios para obtener de toda la amalgama de informacioacuten de la web aquello que les interesa y llevaacuterselo a su navegador dispositivo moacutevil correo electroacutenicohellip

Y sobre todo se han acostumbrado a que la informacioacuten fluya hacia ellos en lugar de ir a buscarla a los sitios Web o sistemas que hasta ahora la proveiacutean

Un perioacutedico de un bar pasa por muchas manos y ojos asiacute que la informacioacuten se propaga y la fuente (el papel doblado) permanece

Las circulares de CEBEK propagan informacioacuten de diferentes tiposhellip y posibilitan profundizar en ella (llamando o mandando un e-mail a una determinada persona) Muchos receptores guardan estas circulares para referencias futuras

Los e-mails enviados se guardan para saber queacute es lo que se propagoacute en su diacutea a sus destinatarios para asiacute componer mejor las actualizaciones

Una entrada en Twitter se propaga directamente a los ldquofollowersrdquo e indirectamente a todo el mundo Y subsiste

Resuena por toda la Web la ldquosindicacioacutenrdquo de contenidos que no es maacutes que un anglicismo que en nuestro caso significa que el mismo contenido informativo se difunde para su publicacioacuten en diferentes medios (como ocurre por ejemplo con las tiras de comics) hellipy que podriacuteamos denominar ldquoredifusioacuten de contenidosrdquo

que en realidad se basa en que la informacioacuten se pasa en un formato tan manejable que puede ser difundido procesado e incluso re-difundido

La redifusioacuten Web representa el maacutes comuacuten de estos esquemas de propagacioacuten de contenidos (eacutesta es la expresioacuten que maacutes me gusta) mediante Fuentes Web

Seguacuten Wikipediahellip Una fuente web (usualmente canal web o web feed) es un

medio de redifusioacuten de contenido web Se utiliza para suministrar informacioacuten actualizada frecuente-mente a sus suscriptores En su jerga cuando una paacutegina web redifunde su contenido mediante una fuente web los internautas pueden suscribirse a ella para estar informados de sus novedades Los interesados pueden usar un programa agregador para acceder a sus fuentes suscritas desde un mismo lugar

Asiacute que feed eshellip fuente y Web feed eshellip fuente Web hellippero nosotros hablaremos de ldquofeedsrdquohellip en general

Y ademaacutes resulta que los feeds Web obedecen a dos formatos muy extendidos Atom y RSS yhellip iexclUn momento un momento iquestQueacute es esto iquestMaacutes

formatos iquestMaacutes liacuteos iexclNo no no no nohellip y no

Esto es como ldquopor doacutende cascar el huevo cocidordquo el resultado final es ndashpraacutecticamentendash el mismo asiacute que la direccioacuten el formato o el meacutetodo son cuestioacuten de gusto

En adelante hablaremos de feeds RSS (y los herejes que cambien el teacutermino por Atomhellip iexcly ya estaacute) Veremos tambieacuten con todo que los formatos sonhellip

iexclrealmente simples iexclVeamos pues los feeds RSS

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 16: Difusión e integración de contenidos mediante feeds

Un perioacutedico de un bar pasa por muchas manos y ojos asiacute que la informacioacuten se propaga y la fuente (el papel doblado) permanece

Las circulares de CEBEK propagan informacioacuten de diferentes tiposhellip y posibilitan profundizar en ella (llamando o mandando un e-mail a una determinada persona) Muchos receptores guardan estas circulares para referencias futuras

Los e-mails enviados se guardan para saber queacute es lo que se propagoacute en su diacutea a sus destinatarios para asiacute componer mejor las actualizaciones

Una entrada en Twitter se propaga directamente a los ldquofollowersrdquo e indirectamente a todo el mundo Y subsiste

Resuena por toda la Web la ldquosindicacioacutenrdquo de contenidos que no es maacutes que un anglicismo que en nuestro caso significa que el mismo contenido informativo se difunde para su publicacioacuten en diferentes medios (como ocurre por ejemplo con las tiras de comics) hellipy que podriacuteamos denominar ldquoredifusioacuten de contenidosrdquo

que en realidad se basa en que la informacioacuten se pasa en un formato tan manejable que puede ser difundido procesado e incluso re-difundido

La redifusioacuten Web representa el maacutes comuacuten de estos esquemas de propagacioacuten de contenidos (eacutesta es la expresioacuten que maacutes me gusta) mediante Fuentes Web

Seguacuten Wikipediahellip Una fuente web (usualmente canal web o web feed) es un

medio de redifusioacuten de contenido web Se utiliza para suministrar informacioacuten actualizada frecuente-mente a sus suscriptores En su jerga cuando una paacutegina web redifunde su contenido mediante una fuente web los internautas pueden suscribirse a ella para estar informados de sus novedades Los interesados pueden usar un programa agregador para acceder a sus fuentes suscritas desde un mismo lugar

Asiacute que feed eshellip fuente y Web feed eshellip fuente Web hellippero nosotros hablaremos de ldquofeedsrdquohellip en general

Y ademaacutes resulta que los feeds Web obedecen a dos formatos muy extendidos Atom y RSS yhellip iexclUn momento un momento iquestQueacute es esto iquestMaacutes

formatos iquestMaacutes liacuteos iexclNo no no no nohellip y no

Esto es como ldquopor doacutende cascar el huevo cocidordquo el resultado final es ndashpraacutecticamentendash el mismo asiacute que la direccioacuten el formato o el meacutetodo son cuestioacuten de gusto

En adelante hablaremos de feeds RSS (y los herejes que cambien el teacutermino por Atomhellip iexcly ya estaacute) Veremos tambieacuten con todo que los formatos sonhellip

iexclrealmente simples iexclVeamos pues los feeds RSS

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 17: Difusión e integración de contenidos mediante feeds

Resuena por toda la Web la ldquosindicacioacutenrdquo de contenidos que no es maacutes que un anglicismo que en nuestro caso significa que el mismo contenido informativo se difunde para su publicacioacuten en diferentes medios (como ocurre por ejemplo con las tiras de comics) hellipy que podriacuteamos denominar ldquoredifusioacuten de contenidosrdquo

que en realidad se basa en que la informacioacuten se pasa en un formato tan manejable que puede ser difundido procesado e incluso re-difundido

La redifusioacuten Web representa el maacutes comuacuten de estos esquemas de propagacioacuten de contenidos (eacutesta es la expresioacuten que maacutes me gusta) mediante Fuentes Web

Seguacuten Wikipediahellip Una fuente web (usualmente canal web o web feed) es un

medio de redifusioacuten de contenido web Se utiliza para suministrar informacioacuten actualizada frecuente-mente a sus suscriptores En su jerga cuando una paacutegina web redifunde su contenido mediante una fuente web los internautas pueden suscribirse a ella para estar informados de sus novedades Los interesados pueden usar un programa agregador para acceder a sus fuentes suscritas desde un mismo lugar

Asiacute que feed eshellip fuente y Web feed eshellip fuente Web hellippero nosotros hablaremos de ldquofeedsrdquohellip en general

Y ademaacutes resulta que los feeds Web obedecen a dos formatos muy extendidos Atom y RSS yhellip iexclUn momento un momento iquestQueacute es esto iquestMaacutes

formatos iquestMaacutes liacuteos iexclNo no no no nohellip y no

Esto es como ldquopor doacutende cascar el huevo cocidordquo el resultado final es ndashpraacutecticamentendash el mismo asiacute que la direccioacuten el formato o el meacutetodo son cuestioacuten de gusto

En adelante hablaremos de feeds RSS (y los herejes que cambien el teacutermino por Atomhellip iexcly ya estaacute) Veremos tambieacuten con todo que los formatos sonhellip

iexclrealmente simples iexclVeamos pues los feeds RSS

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 18: Difusión e integración de contenidos mediante feeds

Seguacuten Wikipediahellip Una fuente web (usualmente canal web o web feed) es un

medio de redifusioacuten de contenido web Se utiliza para suministrar informacioacuten actualizada frecuente-mente a sus suscriptores En su jerga cuando una paacutegina web redifunde su contenido mediante una fuente web los internautas pueden suscribirse a ella para estar informados de sus novedades Los interesados pueden usar un programa agregador para acceder a sus fuentes suscritas desde un mismo lugar

Asiacute que feed eshellip fuente y Web feed eshellip fuente Web hellippero nosotros hablaremos de ldquofeedsrdquohellip en general

Y ademaacutes resulta que los feeds Web obedecen a dos formatos muy extendidos Atom y RSS yhellip iexclUn momento un momento iquestQueacute es esto iquestMaacutes

formatos iquestMaacutes liacuteos iexclNo no no no nohellip y no

Esto es como ldquopor doacutende cascar el huevo cocidordquo el resultado final es ndashpraacutecticamentendash el mismo asiacute que la direccioacuten el formato o el meacutetodo son cuestioacuten de gusto

En adelante hablaremos de feeds RSS (y los herejes que cambien el teacutermino por Atomhellip iexcly ya estaacute) Veremos tambieacuten con todo que los formatos sonhellip

iexclrealmente simples iexclVeamos pues los feeds RSS

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 19: Difusión e integración de contenidos mediante feeds

Y ademaacutes resulta que los feeds Web obedecen a dos formatos muy extendidos Atom y RSS yhellip iexclUn momento un momento iquestQueacute es esto iquestMaacutes

formatos iquestMaacutes liacuteos iexclNo no no no nohellip y no

Esto es como ldquopor doacutende cascar el huevo cocidordquo el resultado final es ndashpraacutecticamentendash el mismo asiacute que la direccioacuten el formato o el meacutetodo son cuestioacuten de gusto

En adelante hablaremos de feeds RSS (y los herejes que cambien el teacutermino por Atomhellip iexcly ya estaacute) Veremos tambieacuten con todo que los formatos sonhellip

iexclrealmente simples iexclVeamos pues los feeds RSS

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 20: Difusión e integración de contenidos mediante feeds

Para queacute parecen servirhellip iexcly para queacute sirvenUso tiacutepico de los feeds y FormatosUso praacutectico empresarial

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 21: Difusión e integración de contenidos mediante feeds

Propagacioacuten mediante Feeds RSS

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 22: Difusión e integración de contenidos mediante feeds

El RSS es uno de los formatos maacutes sencillos de intercambio de informacioacuten (de ahiacute sus dos primeras iniciales ldquoReally Simplerdquo) Sus sentildeas de identidad son las siguientes Sencillez

La generacioacuten de los feeds es muy sencilla y la interpretacioacuten de los mismos es intuitiva Es praacutecticamente el sistema maacutes sencillo de presentacioacuten de informacioacuten formado por pares campo-valor

Universalidad Los feeds RSS son utilizados en multitud de aplicaciones y sitios web Este

formato sigue ganando adeptos a pasos agigantados y se ha convertido en un referente en los sistemas de intercambio de informacioacuten digital

Multitud de clientes La evolucioacuten en el nuacutemero de clientes que incorporan estos formatos es

freneacutetica Cuando hace muy poco tiempo era necesario disponer de lectores especiacuteficos hoy en diacutea cualquier navegador o dispositivo es capaz de procesar la informacioacuten recibida en este formato

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 23: Difusión e integración de contenidos mediante feeds

Como ya vimos la definicioacutendescripcioacuten de RSS resuena a teacutecnica (a XML y a otras cosas) RSS es una familia de formatos de fuentes web codificados en XML Se

utiliza para suministrar a suscriptores de informacioacuten actualizada frecuentemente El formato permite distribuir contenido sin necesidad de un navegador utilizando un software disentildeado para leer estos contenidos RSS (agregador) A pesar de eso es posible utilizar el mismo navegador para ver los contenidos RSS Las uacuteltimas versiones de los principales navegadores permiten leer los RSS sin necesidad de software adicional RSS es parte de la familia de los formatos XML desarrollado especiacuteficamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la informacioacuten y usarla en otros sitios web o programas A esto se le conoce como redifusioacuten web o sindicacioacuten web (una traduccioacuten incorrecta pero de uso muy comuacuten)

hellippero su uso es realmente simple Asiacute que prescindamos de los aspectos teacutecnicos y vayamos al grano

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 24: Difusión e integración de contenidos mediante feeds

iquestQueacute son los feeds y coacutemo se utilizan (seguacuten Google) Un feed se compone de un resumen actualizado

perioacutedicamente de un determinado contenido web y de los enlaces a la versioacuten completa del mismo Al suscribirse al feed de un sitio web mediante un lector de feeds obtendraacute un resumen del contenido nuevo de dicho sitio Importante para suscribirse a los feeds de un sitio web debe utilizar

un lector de feeds Al hacer clic en el enlace de un feed RSS o Atom su navegador puede mostrar una paacutegina poco legible y sin formato [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]

Material introductorio multimedia Viacutedeo RSS in plain English (subtitulado en espantildeol)

Viacutedeo de introduccioacuten a RSS en espantildeol

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 25: Difusión e integración de contenidos mediante feeds

NOTICIAS Y NOVEDADES

Diarios El Correo

Deia

El Mundo

El Paiacutes

Ayuntamientos Bilbao

Donosti ()

Vitoria-Gasteiz (en proceso)

ACTUALIZACIONES VARIAS

Comics Forges

Dilbert Blogs Ricardo Devis

Patxi Loacutepez hellipy muchas maacutes Muacutesica

Nuevos productos

iexclAvisos logiacutesticos

Etc etc

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 26: Difusión e integración de contenidos mediante feeds

Maacutes o menoshellip Un sitio Web construye (usualmente de forma

automaacutetica) los feeds y los deja en un directorio Al suscribirse a un feed dado el lector de feeds anota

el directorio del que puede recoger los feedshellip y lo visita cada cierto tiempo (configurable)

En cada visita compara lo que hay con lo que ya habiacutea recogido (como en el correo electroacutenico) y si hay algo nuevohellip avisa

Para entendernoshellip En su versioacuten maacutes simple una suscripcioacuten RSS

funciona como una cuenta de correo electroacutenico

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 27: Difusión e integración de contenidos mediante feeds

Como RSS es tan simple iquestpor queacute no utilizarlo como mecanismo de intercambio conexioacuten e integracioacuten de cualquier servicio o aplicacioacuten software iquestPor queacute no Yahoo Pipes

RSSBus Crear feeds RSS es faacutecil (con herramientas como

FeedforAll por ejemplo) su lectura es inteligible su agregacioacuten es sencilla y su procesamientohellip iexclraacutepido y eficaz Con todo lo anterior hoy estaacute aceptado que RSS es el

lubricante de las tuberiacuteas por la que discurre (toda) la informacioacuten

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 28: Difusión e integración de contenidos mediante feeds

La especificacioacuten RSS 20 es corta y sencilla y los ejemplosson faacutecilmente comprensibles

ltrss version=20gtltchannelgt

ltchannelgtltrssgt

hellipcon algunos campos ldquorequeridosrdquo adicionalesltrss version=20gtltchannelgt

lttitlegtNombre del Canallttitlegt ltlinkgthttpURLdelCanalcomltlinkgtltdescriptiongtRSS en la empresa y bla bla blaltdescriptiongtltitemgtltitemgt

ltchannelgtltrssgt

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 29: Difusión e integración de contenidos mediante feeds

hellipcon maacutes iacutetemsltitemgt

lttitlegtNoticias de uacuteltima horalttitlegtltlinkgthttpmiCanalnoticias-ultima-hora-rsshtmlltlinkgtltdescriptiongtLo uacuteltimo de lo uacuteltimoltdescriptiongt

ltitemgt

hellipy con imaacutegenesltchannelgt

lttitlegt lttitlegtltlinkgt ltlinkgtltimagegt

lturlgthttpmiCanalimagengiflturlgtltlinkgthttpmiCanalexplicacionImagenphpltlinkgt

ltimagegtltchannelgt

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 30: Difusión e integración de contenidos mediante feeds

RSS 090 Desarrollado por NetscapePropoacutesito Construir portales Web de cabeceras de noticias

RSS 091 Desarrollado por UserLand SoftwarePropoacutesito Weblogging products amp web-based writing software

RSS 10 Desarrollado por RSS-DEV Working GroupPropoacutesito aplicaciones basadas en RDF

RSS 20Desarrollado por UserLand SoftwarePropoacutesito Propagacioacuten geneacuterica rica en meta-datos

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 31: Difusión e integración de contenidos mediante feeds

El problema de los feeds es que parece que son subsidiarios respecto de contenidos que tiacutepicamente aparecen en la Web hellipcuando en realidad pueden generarse feeds (y propagarse y

consumirse) sin que se parta de una presentacioacuten sea Web o no Asiacute que se pueden (se deberiacutean) generar feeds dehellip Cambios de estado logiacutestico de enviacuteos Nuevos productos y servicios Ofertas de uacuteltima hora Notificaciones de cobros y pagos Convocatorias y aplazamientos de reuniones

[No debe olvidarse que el correo electroacutenico es una de las formas de ldquoleerrdquo los feeds]

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 32: Difusión e integración de contenidos mediante feeds

Difusioacuten de la Informacioacuten

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 33: Difusión e integración de contenidos mediante feeds

Los feeds RSS sirven para que se nos informe de una novedad o actualizacioacuten en un blog o un sitio Web hellippero tambieacuten se utilizan (se deberiacutean utilizar en verdad) para

avisarnos de la creacioacuten modificacioacuten o actualizacioacuten de contenidos de cualquier tipo

En el Ayuntamiento de Vitoria-Gasteiz por ejemplo cada cambio en un contenido municipal genera un feed RSS que se enviacutea a una maacutequina Google (comprada) y que sirve para distribuir la informacioacuten de forma sencilla hellipsin intervenciones ulteriores de teacutecnicos informaacuteticos

Se propone una integracioacuten basada en tales semillas lo nuevo se genera se almacena y se sirve en razoacuten de las cualificaciones de acceso de los usuarios [explicarhellip maacutes adelante]

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 34: Difusión e integración de contenidos mediante feeds

Una aplicacioacuten de noacuteminas permite mediante interfaces especiacuteficos dar de alta un trabajador introducir sus paraacutemetros (salario base familia etc) y calcular su retribucioacuten Pero una vez hecho esto lo que genera es una noacutemina que

raramente cambiaraacute por lo que no es necesario acudir al costoso (y muchas veces poco intuitivo) programa de creacioacutenedicioacuten para consultarla Por eso muchas empresas convierten las noacuteminas a PDF para

consultarlas mejor Si convertimos toda la informacioacuten proveniente de

diferentes aplicativos al mismo formatohellip tendremos una lingua franca sobre la que trabajar de forma muy productiva

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 35: Difusión e integración de contenidos mediante feeds

No se pretende sustituir a los programas software de creacioacutenedicioacuten de contenidos (como el MS Word o Presto) ni a los sistemas de gestioacuten de ficheros (como MS Sharepoint o Alfresco) tan soacutelo se quiere separar la creacioacutenedicioacuten del resto de operaciones dehellip Consulta (buacutesquedas) Presentacioacuten (listados) Distribucioacuten (propagacioacuten) Versionado (log) Salvaguarda (backups) Transformacioacuten (conversiones)

hellipque ahora podraacuten realizarse sobre un esquema comuacuten (no sobre el ldquomismordquo formato sino sobre un formato siempre comprensible [explicar explicar])

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 36: Difusión e integración de contenidos mediante feeds

Listado de Calendarios

En este caso todos los tiacutetulos de todos los actos y eventos del Ayuntamiento de Vitoria-Gasteiz asiacute como sus fechas y horas asociadas se presentan como resultado de una consulta de feeds

Los hiper-enlaces de cada acto y evento conducen al detalle de los mismoshellip en el gestor de contenidos (esta URL estaacute incluida en cada feed de calendario pues se genera cada vez que se crea ndashen el gestor de contenidosndash un acto o evento)

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 37: Difusión e integración de contenidos mediante feeds

Registro y Control

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 38: Difusión e integración de contenidos mediante feeds

RSSBus Arquitectura

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 39: Difusión e integración de contenidos mediante feeds

Ligando la generacioacuten y su posterior almacenamiento de feeds RSS a los procesos de alta baja y modificacioacuten de contenidos estamos generado una secuencia de todas las operaciones que se realizan con los contenidos de una empresa o institucioacuten Cabe notar que se debiera homogeneizar la creacioacuten de

contenidos de forma que uacutenicamente se puedan crear contenidos de una forma uacutenica y normalizada helliplo que no quiere decir ldquocon los mismos programasrdquo sino con criterios

homogeacuteneos De esta manera recabando la informacioacuten necesaria

estamos creando un registro disponible para su posterior estudio anaacutelisis evaluacioacuten y control que seraacute fiel reflejo de cualquier tipo de actividad relacionada con la generacioacuten de contenidos

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 40: Difusión e integración de contenidos mediante feeds

Todas las susceptibilidades derivadas del miedo a dejar que cualquier persona dentro de la institucioacuten pueda generarmodificareliminar contenidos quedan eliminadas de golpe pues se dispondraacute de un mecanismo eficaz para la auditoriacutea de operaciones en caso de que fuera necesario Y tal mecanismo no dependeraacute de la herramienta utilizada

(como MS Sharepoint Alfresco Interwoven etc que incorporan el trato de versiones) hellipsino que maacutes bien ldquocolaboraraacuterdquo con ellas

El acceso a tal registro puede ser finamente granulado en razoacuten de las necesidades de la empresa

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 41: Difusión e integración de contenidos mediante feeds

Un log secuencial con los datos de las operaciones realizadas por un usuario la fecha en las que las llevoacute a cabo y todos los datos relacionados con el contenido posibilitan dar a los usuarios libertad para operar evitar mecanismos de control que compliquen la interaccioacuten (control de usuarios evaluacioacuten de permisos restriccioacuten de accesoshellip) Es posible dar libertad total de accioacuten a los usuarios lo cual refuerza la

percepcioacuten de confianza que la institucioacuten les otorga Simplemente bastaraacute con advertir que todo lo relativo a la generacioacuten de contenidos queda registrado Se colman asiacute las necesidades de control ante hechos maliciosos

Este log puede servir tambieacuten para estudios estadiacutesticos sobre el trabajo de generacioacuten edicioacuten de contenidos Conociendo la estructura en formato RSS es muy sencillo conformar procesos de explotacioacuten de los datos en funcioacuten de los indicadores que se quieran recoger

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 42: Difusión e integración de contenidos mediante feeds

En lo que a la difusioacuten de la informacioacuten se refiere el usuario cliente o proveedor o empleado deberiacutea tener la misma posibilidad de suscribirse a la actualizacioacuten de un canal o tipo de contenido (lo que incluye paacuteginas Web artiacuteculos y todo tipo de material) Accederaacute al contenido que le resulte de intereacutes y determinaraacute que un

contenido es importante para eacutel La empresa le proporcionaraacute medios para que una vez explicitado el intereacutes

en conocer los cambios en ese contenido por parte del ciudadano cuando eacutestos se produzcan comunicaacuterselo

La opcioacuten baacutesica para satisfacer esta necesidad es la suscripcioacuten al contenido pero al contenido no necesariamente soacutelo a la paacutegina web o a una parte de eacutesta Un contenido puede estar referenciado en varios lugares pero su esencia

reside en el propio contenido las modificaciones en el resto de la paacutegina web que la contiene casi con total seguridad no seraacuten relevantes

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 43: Difusión e integración de contenidos mediante feeds

Ayuntamiento de Vitoria-Gasteiz

Existen multitud de ejemplos de uso de RSS en la industria pero en esta sesioacuten nos centraremos en un ejemplo cercano en el que los feedsconstituyen el alma y pivote de todos los sistemas de informacioacuten de una gran organizacioacuten el Ayuntamiento de Vitoria-Gasteiz

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 44: Difusión e integración de contenidos mediante feeds

Objetivo definir la informacioacuten (XML) que va desde el gestor de contenidos y desde el gestor de ficheros al GSA

Dado que el rastreador es incapaz de indexar automaacuteticamente los contenidos almacenados en el Gestor Documental con sus respectivos metadatos surge la necesidad de alimentar mediante feeds la maacutequina de Google Cada vez que un contenido sea dado de alta modificado o

eliminado hay que indicaacuterselo al indexador Para el modelo de alimentacioacuten Google dispone de dos

modos distintos de insercioacuten la indexacioacuten directa del contenido insertado en el propio XML o la indexacioacuten de la URL del archivo a indexar En ambos modos se generaraacute un XML en el que iraacuten los metadatos

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 45: Difusión e integración de contenidos mediante feeds

La preferencia a la hora de indexar es la de utilizar el meacutetodo de alimentacioacuten por URL pero dado que existen contenidos en el Gestor Documental que no poseen ldquoelementosrdquo directamente indexables por GSA se crea la necesidad de utilizacioacuten del meacutetodo de la alimentacioacuten directa del contenido

Se plantea la cuestioacuten de la indexacioacuten de los contenidos referenciados desde los propios contenidos alimentados por URL y por contenido Google confirma que utiliza el Crawler para indexar las

referencias (los enlaces y los documentos adjuntos) de un documento alimentado por URL o por contenido

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 46: Difusión e integración de contenidos mediante feeds

Por cada tipo de contenido se tendraacuten que definir el meacutetodo de alimentacioacuten (URL o contenido) los metadatos a indexar el contenido a indexar el UID las referencias a contenedores padre o contenidos hijo y los datos la forma y las referencias que seraacuten presentados en los resultados

Se plantea el lugar por el que alimentar al GSA respecto a varios metadatos por los que el usuario podraacute buscar es decir si una categoriacutea por ejemplo se deberaacute incluir en la etiqueta ltcontentgt para que aparezca en las buacutesquedas de los usuarios o ya se realiza la buacutesqueda en los metadatos

Se requiere la posibilidad de la devolucioacuten de metadatos en los resultados para un posible tratamiento posterior de los datos devueltos

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 47: Difusión e integración de contenidos mediante feeds

Analizaremos la estructura de los XML Feeds a fin de crear un documento baacutesico y geneacuterico para los contenidos del Gestor Documental que serviraacute de base para la definicioacuten de los feeds por cada tipo de contenido

En el XML se incluiraacute la URL de la paacutegina estaacutetica HTML ndashen nuestro caso todos los contenidos la poseenndash o la informacioacuten textual del documento y los datos comunes a todos los tipos que puedan utilizarse en las buacutesquedas como metadatos Posteriormente y por cada tipo de contenido se estudiaraacute

si es necesario incluir maacutes informacioacuten

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 48: Difusión e integración de contenidos mediante feeds

La informacioacuten sobre la que Google realizaraacute las buacutesquedas es decir con la que compararaacute los teacuterminos de buacutesquedas es la introducida en la etiqueta ltcontentgt del XML

En un principio se introduciraacuten en ella los siguientes datos del contenido (aunque se antildeadiraacuten los datos necesarios especiacuteficos de cada contenido) Tiacutetulo Descripcioacuten Catalogacioacuten y Ejes

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 49: Difusión e integración de contenidos mediante feeds

Los metadatos ademaacutes de indexarse facilitaraacuten la precisioacuten de las buacutesquedas permitiendo filtrar por ellos ademaacutes de permitir mostrar informacioacuten parcial por ejemplo el tiacutetulo

Algunos seraacuten utilizados para la buacutesqueda desde un primer momento y otros se incluiraacuten con el fin de estar abiertos a futuras condiciones de buacutesqueda

Los metadatos comunes se detallan a continuacioacuten

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 50: Difusión e integración de contenidos mediante feeds

Visibilidad para controlar la privacidad de los contenidos de intranet en las buacutesquedas puacuteblicas

Fechas de publicacioacuten y fin de vigor (incluyen hora) Se hacen imprescindibles para buscar uacutenicamente entre contenidos que esteacuten en vigor

UID Idioma Tipo de contenido que facilitaraacute el filtrado de

contenidos por su tipologiacutea Usuario creador

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 51: Difusión e integración de contenidos mediante feeds

Usuario uacuteltima modificacioacuten Fecha y hora de creacioacuten Fecha y hora de uacuteltima modificacioacuten Para

facilitar la utilizacioacuten de las fechas en las buacutesquedas se almacenaraacuten en formato numeacuterico (en milisegundos) de tal forma que el diacutea y la hora no esteacuten en campos separados

Localizacioacuten Catalogacioacuten y Ejes Por lo general un teacutermino

de buacutesqueda se contrasta ademaacutes de con la informacioacuten textual del contenido con estos dos campos

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 52: Difusión e integración de contenidos mediante feeds

Para mostrar informacioacuten en los resultados de la buacutesqueda de la web los contenidos miacutenimos seriacutean Visibilidad (visibilidad)

URL (URL)

UID (uid) si es necesario para los contenidos de la aplicacioacuten

Idioma del contenido (idioma)

Tipo de contenido (tipo)

Tiacutetulo (titulo)

Descripcioacuten (descripcion)

Vigencia (vigente)

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 53: Difusión e integración de contenidos mediante feeds

Pasamos a definir el XML Feed baacutesico Hay que especificar que es un url feed Para ello indicaremos que el datasource es ldquoIB021rdquo es

decir que la fuente de la informacioacuten es la aplicacioacuten de gestioacuten de contenidos y en el XML se va a incluir la URL del contenido

En un XML Feed se pueden incluir varios contenidos que se identificaraacuten por su URL (que deberaacute ser uacutenica) pero para la alimentacioacuten de contenidos del Gestor Documental no haraacute falta ya que se crearaacute un xmlcada vez que se guarden los cambios de un contenido (o las acciones que se crean convenientes)

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 54: Difusión e integración de contenidos mediante feeds

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergt

ltdatasourcegtsampleltdatasourcegtltfeedtypegtmetadata-and-urlltfeedtypegt

ltheadergtltgroupgt

ltrecord url=httpwwwcorpenterprisecomhello01 mimetype=textplain last-modified=Tue 15 Nov 1994 124526 GMTgt

ltmetadatagtltmeta name=author content=Jonesgtltmeta name=project content=hello01gtltmeta name=department content=engineeringgt

ltmetadatagtltrecordgt

ltgroupgtltgsafeedgt

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 55: Difusión e integración de contenidos mediante feeds

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgt

ltheadergtltdatasourcegtIB021ltdatasourcegt

ltfeedtypegtfullltfeedtypegtltheadergt

ltrecord url=uid=[uid]ampidioma=[idioma_version] mimetype=texthtml last-modified=rdquo[fechahoramodificacion en formato RFC822 (Ej Mon 15 Nov 2004

045808 GMT)]rdquogtltmetadatagt

ltmeta name=rdquotitulordquo content=rdquo[titulo]rdquogt ltmeta name=rdquotipordquo content=rdquo[tipo]rdquogt ltmeta name=rdquouidrdquo content=rdquo[uid]rdquogt ltmeta name=rdquoidiomardquo content=rdquo[C|E|I]rdquogtltmeta name=rdquovisibilidadrdquo content=rdquo[intranet|internet]rdquogtltmeta name=rdquocatalogacionrdquo content=rdquo[cat1]-[cat2]-hellip-[catX]rdquogt

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 56: Difusión e integración de contenidos mediante feeds

ltmeta name=rdquoejesrdquo content=rdquo[eje1]-hellip-[ejeX]rdquogt ltmeta name=rdquofechahoradesderdquo content=rdquo[xxxxxxxx]rdquogtltmeta name=rdquofechahorahastardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquousraltardquo content=rdquo[tipo]rdquogt ltmeta name=rdquousrmodificacionrdquo content=rdquo[tipo]rdquogt ltmeta name=rdquofechahoraaltardquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquofechahoramodificacionrdquo content=rdquo[xxxxxxxx]rdquogt ltmeta name=rdquolocalizacionrdquo content=rdquo[localizacion]rdquogt

ltmetadatagtltcontentgt

TiacutetuloDescripcioacuten del contenidoCatalogacioacutenEjes

ltcontentgtltrecordgt

ltgsafeedgt

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 57: Difusión e integración de contenidos mediante feeds

En un content feed se pueden incluir soacutelo los cambios de un contenido haciendo que eacuteste se actualice de forma incremental o el contenido completo (tipo full) que sustituiraacute a la anterior versioacuten si es que eacuteste contenido ya estaba indexado por Google Nuestra propuesta de eacuteste documento es que los

feeds sean completos Inicialmente se va usar el feed de URL ya que

Google rastrea en la URL para indexar todos los contenidos que posee

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 58: Difusión e integración de contenidos mediante feeds

Hay que tener en cuenta si la url del contenido contiene la parte superior y lateral (cabecera y menuacute) ya que en ellas se encuentran links que no se desean indexar Por este motivo lo mejor podriacutea ser modificar los feed para que sean de tipo contenido en lugar de url Para esto habraacute que tener en cuenta que en la parte del

content habraacute que antildeadir el contenido de los documentos adjuntos y los links a las urls referenciadas que en principio se obtendriacutean del campo con_xml_cntnd ya que se supone se guardan ahiacute y en caso de que no se encuentren ahiacute se recogeriacutean mediante la funcionalidad existente en el gestor de contenidos de extractor de texto

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 59: Difusión e integración de contenidos mediante feeds

ltxml version=10 encoding=ISO-8859-1gtltDOCTYPE gsafeed PUBLIC -GoogleDTD GSA FeedsEN gtltgsafeedgtltheadergtltdatasourcegtib021ltdatasourcegtltfeedtypegtincrementalltfeedtypegtltheadergtltgroupgt

ltrecordurl=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=d

etalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cmimetype=texthtml last-modified=Fri 03 Oct 2008 005535 GMTgtltmetadatagtltmeta name=tipo content=Contenido editorialgtltmeta name=URL

content=httpdwwwamvisaorgib021wascontenidosEditorialesdoaccion=detalleampampuid=_71824d8_11cbc00cda5__7fbaampampidiomaContenido=Cgt

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 60: Difusión e integración de contenidos mediante feeds

ltmeta name=titulo content=El Ayuntamiento edita material didaacutectico audiovisual sobre la Catedral Santa Mariacuteagt

ltmeta name=uid content=_71824d8_11cbc00cda5__7fbagtltmeta name=idioma content=Cgtltmeta name=visibilidad content=internetgtltmeta name=catalogacion content=CULTURA-

EDUCACION[CULTURA EDUCACION]gtltmeta name=ejes content=EDUCACION-CULTURA[CULTURA

EDUCACION][LjavalangString17bab1cegtltmeta name=fd content=2008-10-02gtltmeta name=hd content=1529gtltmeta name=fh content=2008-10-31gtltmeta name=hh content=0001gtltmeta name=usralta content=U101500Dgtltmeta name=fa content=2008-10-02 153121gtltmeta name=fm content=2008-10-03 125535gt

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 61: Difusión e integración de contenidos mediante feeds

ltmeta name=contenedorID content=32gtltmeta name=contenedores content=Ayuntamiento de

Vitoria-Gasteiz$32notgtltmeta name=vigente content=NOgtltmetadatagtltcontentgt

lt[CDATA[ lthtmlgt ltbodygt

ltemgtnullltemgtltbodygt

lthtmlgt ]]gt ltcontentgt

ltrecordgtltgroupgtltgsafeedgt

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 62: Difusión e integración de contenidos mediante feeds

_ lt gsafeed gt _ lt header gt lt datasource gt ib021 lt datasource gt lt feedtype gtincrementallt feedtype gt lt header gt _ lt group gt _ lt record url = httppintravitoria-gasteizorgib021wasdetalleCalendariosdoaccion=detalleamp clave=346ampidiomaContenedor=Iampidioma=I mimetype = texthtml last-modified = Wed 28 Oct 2009 000000 GMT gt _ lt metadata gt

lt meta name = tipo content = calendario gt lt meta name = titulo content = Exposiciones Periscopio 2009 gt lt meta name = descripcion content = Exposiciones del Festival Internacional de

fotoperiodismo Periscopio 2009 gt lt meta name = idioma content = I gt lt meta name = calendarioID content = 346 gt lt meta name = visibilidad content = internet gt lt meta name = vigente content = SI gt lt meta name = claveArea content = 39 gt lt meta name = fa content = 2009-10-28 120000 gt

lt metadata gt lt content gt Exposiciones Periscopio 2009 lt content gt lt record gt lt group gt lt gsafeed gt

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 63: Difusión e integración de contenidos mediante feeds

package we001businessgooglepersistence

import we001businessgoogleCategoriaElemetosValueObject

import we001businessgoogleGoogleValueObject

import we001businessgoogleTituloUrlValueObject

import javautilArrayList

import javautilCollections

import javautilDate

import javautilDictionary

import javautilHashtable

import javautilList

import javautilProperties

import javautilStringTokenizer

import javautilGregorianCalendar

import javautilVector

import avggsaapiGsaClientAVG

import we001commonserviceconfigConfiguracion

import we001commonutil

import ib021businessareaAreaValueObject

import ib021businessasuntoLineaPorAsuntoValueObject

import ib021businessasuntopersistenceAsuntoManager

import ib021businesscontenidoReferenciaValueObject

import ib021commonserviceconfigConstantes

import ib021commonserviceutilContenidosEstaticosUtils

import ib021commonserviceutilFechasHoras

import ib021commonserviceutilUtils

import netsfgsaapiGSAClient

import netsfgsaapiGSAKeymatch

import netsfgsaapiGSAQuery

import netsfgsaapiGSAResponse

import netsfgsaapiGSAResult

import netsfgsaapiconstantsFilter

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 64: Difusión e integración de contenidos mediante feeds

Uacutetiles RSSEntornos Mashup

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 65: Difusión e integración de contenidos mediante feeds

Herramientas Uacutetiles

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 66: Difusión e integración de contenidos mediante feeds

Existen multitud de herramientas RSS comohellip Lectores de Feeds RSS para Windows Linux y Mac Add-ons RSS para navegadores Web Lectores RSS on-line (y maacutes) Enrutadores RSS para e-mail

hellipy tambieacuten extractores de feeds de paacuteginas Web que no los generan comohellip FeedYes Page2RSS

Por uacuteltimo cabe destacar algunos servidores y brokers de feeds RSSBus Yahoo Pipes Attensa StreamServer NewsGator

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 67: Difusión e integración de contenidos mediante feeds

Apatar es un entorno open-source de integracioacuten de datos (sin IDE Web) con conectores a varias bases de datos y a CRMs (Salesforce SugarCRM etc)

BEArsquos Aqualogic Pages es un producto comercial completo(montado sobre la infraestructura de BEA) para operargraacuteficamente con mashups

Dapper es un producto Web 100 con asistentes que puedenmanejar contenidos XML RSS Google Gadget Netvibes iCalendar y maacutes

Applibasersquos DataMashups es uno de los constructores actuales de mashups maacutes sofisticados y completos con soporte directo paramySQL y con muchiacutesimos ejemplos de remezclas (mashupexamples gallery)

Denodorsquos product suite puede combinar datos de la Web Intranet documentos electroacutenicos datos no estructurados bases de datos datawarehouses repositorios XML SAP Siebel e-mail etc

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 68: Difusión e integración de contenidos mediante feeds

Extensio estaacute basado en el integrador SOA Symphony y puedecombinar datos de teleacutefonos moacuteviles Excel widgets Web bases de datos relacionales sistemas ERP y CRM y muchos maacutes Soportala creacioacuten simple de widgets personalizables (widget gallery)

JackBersquos Presto es una buena solucioacuten corporativa montada biensobre un IDE Eclipse bien con sus propias interfaces de usosencillo

Kapow es un producto comercial con su versioacuten open (OpenKapow) con buenas capacidades de gestioacuten de errores en la adquisicioacuten de datos

Proto es un producto comercial gratuito para uso personal (ejemplos en su application gallery

WSO2 Mashup Server es un servicio open-source de mezcla de datos y remezcla de servicios para convertirlos en mejoresconsumibles

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 69: Difusión e integración de contenidos mediante feeds

IBMrsquos QEDWiki es una de las plataformas de mashup maacutesimpresionantes del mercado basada en el modelo Wiki (cadacambio en cada paacutegina de coacutedigo se versiona como en un Wiki )

RSSBus tiene un concepto simple parecido al de Yahoo Pipes transforma cualquier clase de datos en feeds RSS que asiacute puedenser consumidos por cualquier aplicacioacuten que pueda procesar RSS

SnapLogic es open-source de calidad con un IDE graacutefico avanzadoy soporte para JSON y RSS

SOA Express de StrikeIron es una herramienta basada enhellip iexclMS Excel Las hojas de caacutelculo sirven de soporte para la integracioacuten

Teqlo aporta un enfoque diferente cercano a los presupuestos de la Web 30 soporte a la construccioacuten guiada de mashups con widgets y una magniacutefica interfaz graacutefica

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 70: Difusión e integración de contenidos mediante feeds

Una Visioacuten ConvergenteReflexioacuten PonenteAsistentesDebate Final

Debate Final

Page 71: Difusión e integración de contenidos mediante feeds

Debate Final

Page 72: Difusión e integración de contenidos mediante feeds