Lluís Bassets - Del alfiler al elefante

Publicar un comentario

If you have a TypeKey or TypePad account, please Inicia sesión

marzo 2009

Esperando Contenido Widget ...
lun. mar. mié. jue. vie. sáb. dom.
            1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31          

« El síndrome de 'Stephen Wip' | Inicio | Nuevos ricos »

19 febrero, 2008

¿De dónde salen los datos?

Es una pregunta que os hacéis la mayoría de los usuarios de lalistaWIP.com. Y es muy sencillo una vez que se comprende. Para empezar, por si queda todavía algún despistado, es importante recordar que nuestra web se basa en la tecnología de la Inteligencia Semántica, por lo que no tiene nada que ver con el sistema de los motores de búsqueda más conocidos.

Para marcar la posición de los personajes, Julio Casal (Ingeniero de Desarrollo de BuzzTrend, compañía que ha desarrollado la herramienta, y experto en análisis semántico) nos explica que los 'bots', esos robots 'empollones' de los que ya hemos hablado, recorren cada día el ciberespacio leyendo y analizando millones de páginas. Después, extrapolan los datos obtenidos en una estadística, y la comparan con los resultados de algunos personajes 'de control' en varios buscadores de referencia (como Google o Yahoo).

El cálculo de lalistaWIP.com, sin embargo, es mucho más complejo que el de estos buscadores. Un ejemplo: si necesitaras información del presidente de EEUU, ¿cómo lo buscarías en Google? Tienes lalistaWIP.comvarias opciones. La primera es poner “George W Bush”, que te daría un resultado irrealmente bajo. También puedes poner “George Bush”, pero entraría también toda la información sobre su padre. O probar con “Bush” a secas. El problema es que 'bush' significa arbusto en inglés... Con la web semántica no pasa eso, explica Casal, porque nuestros 'bots' son capaces de distinguir si se está hablando de una persona o de un tipo de vegetación, y, en el primer caso, saber a qué se dedica esa persona o con que otros personajes está relacionado. Puedes verlo más claro en gráfico de arriba.

En esta primera fase que hemos puesto marcha, todavía no se valora la relevancia de la fuente, aunque más adelante será posible. De momento, todas las páginas 'pesan' lo mismo. Para medir los cambios relacionados con la actualidad, sí se hace una distinción cuando. Es lo que pasa, por ejemplo, si queremos saber si Carla Bruni es más famosas desde su boda. En este caso, se valora más la presencia del personaje en ciertos sitios, como periódicos o blogs. Quiere decir que si de repente se empieza a hablar más de alguien por cualquier circunstancia, aunque este aumento sea mínimo en comparación con los millones de páginas que ya hablan de él, nosotros somos capaces de detectar el cambio. Así conseguimos una lista más dinámica y sensible, ligada a la actualidad.

Comentarios

Mi opinión sobre el artículo: DE DÓNDE SALEN LOS DATOS

20/02/2008

No acabo de entender esas explicaciones ni el alcance de la `búsqueda semántica’.
Me atengo a lo que dicen en su página de presentación ‘Nace la listawip’. Allí se lee directamente: “ lalistaWIP.com, el ranking que mide la popularidad en la Red. Lo hace con espíritu generalista y con la propuesta de ofrecer listas de personajes ordenadas en función del número de páginas en las que aparezcan citados.”

Creo que Fernando Alonso y Antonio Banderas son bastante explicativos para los buscadores y el número de búsquedas aportado por los buscadores es de sobra fiable.
En este momento 20/02/2008 23:45:26 los búsquedas están así:

Google Web
Fernando Alonso: 6.230.000
Antonio Banderas: 545.000
Google Noticias
Fernando Alonso: 4.653
Antonio Banderas: 514

Referencias en la listawip
Fernando Alonso: 11.050.987
Antonio Banderas 10.230.320

Por mucho barniz semántico que le demos, aquí hay algo que no cuadra.
Creo que siguen siendo válidas las tablas que preparé el otro día y que pueden verse en la URL adjunta.


21/02/2008 10:09:48

Esta mañana he leído con más detención este artículo del blog.

Quizás yo sea uno de esos ‘despistados’ a los que se alude. Pero insisto en que esa ‘Inteligencia semántica’, en mi opinión, no es fiel a la popularidad en la red, que es lo que realmente indica el nombre del sitio, lalistawip= lista de personas importantes en la web.

No me convencen las razones aportadas:

1.- Caso Bush

Acepto que la inteligencia semántica distinga entre padre, hijo y arbusto. Acepto incluso que hubiera errores en el proceso de términos ambiguos como éste.
Pero ese no es el caso cuando buscamos a Fernando Alonso o a Antonio Banderas. Aún más, si el buscador nos colmase con los componentes de estas búsquedas compuestas, Antonio Banderas debiera ir el primero por la mayor extensión del nombre: ‘Antonio’ (Google Noticias: 72.965) es más popular que ‘Fernando’ (Google Noticias: 50.095).

Y hete aquí el resultado de la búsqueda en Noticias de Google:
Antonio Banderas:---- 485
Fernando Alonso:--- 4.425
Lalistawip: más o menos 10.000.000 para ambos

Esto no es serio.

2.- Caso Bruni.

Según se lee en su artículo: ” se valora más la presencia del personaje en ciertos sitios, como periódicos o blogs.”

Arriba están los resultados de los periódicos (noticias). Y respecto a los blogs, miren:
Antonio Banderas:-------- 4,910
Fernando Alonso:--- 1,126,828

También dicen que si se comienza a hablar más de unas persona: “nosotros somos capaces de detectar el cambio”.

Y de repente, por unos cientos de artículos puntuales, el personaje avanza solemnemente en lalistawip.

Muy fácil de manejar y poco fiable.

3.- Una última pregunta:

Si ustedes se basan fundamentalmente en las noticias y blogs, ya extractados y de reducido alcance, ¿de dónde sacan ustedes esas referencias astronómicas de más de diez millones?

Miguel
Gijón.

La iniciativa me parece interesante, aunque compruebo que hay personajes que no aparecen en vuestros listados. Por ejemplo, cantantes como Mika o Feist; o actrices como Cher. Supongo que el hecho de que solo se les conozca por el nombre dificulta la búsqueda, aunque veo que Madonna, Chenoa, Raul o Guti no tienen esos problemas. Tampoco encuentro a actores como Zac Efron, o a cantantes como Nuria Fergó o Manu Tenorio, por citar nombres populares. Tampoco encuentro a diputados españoles o a artistas de la escena independiente española, como Guille Milkyway.

Supongo que son nombres que no han entrado en vuestra preselección de personajes. Sin embargo, me gustaría saber si este listado podría aumentar considerablemente con el tiempo, o podría detectar la aparición de nombres nuevos por sí mismo. En todo caso, quizás habría que explicar cuales han sido los criterios para introducir algunos nombres y no otros, ya que me parece que la lista pierde cierta pureza y objetividad si depende de una preselección previa de personajes.

Hola Miguel, gracias por visitar lalistaWIP.com. Es posible que no hayas comprendido del todo este post. Si lo lees con atención comprobarás que el sistema de recuperación de datos de lalistaWIP.com no tiene nada que ver con los resultados que un usuario pueda obtener a través de Google, Yahoo o algún similar. El funcionamiento de un motor de búsqueda y el de nuestros 'bots' no es comparable, porque no están al mismo nivel ni buscan el mismo destino. Ahí es donde entran en juego los parámetros, que quizás es lo que más dificil te puede resultar de entender. Por favor, si tienes alguna otra duda, no dudes en escribirnos a info@lalistawip.com. Un saludo.

Hola Antonio, gracias por tu comentario. Efectivamente, en una primera fase entraron 50.000 personajes para poder controlar el flujo inicial de datos. Ahora la cifra ha aumentado considerablemente y lo sigue haciendo cada día. La ficha de Cher, por ejemplo, ya está accesible. La actriz y cantante ocupa el puesto 67 en la lista general de música. Puedes visitarla desde este link: http://www.lalistawip.com/personaje/Cher_26253835 Un saludo.

como puede ser que no se encuentre la cantante pink. es patetico.!!!!!

Quiero advertir de un error. En los mas buscados de Zaragoza, aparece un tal Mark Consuelos, que no es de Zaragoza, como se puede entender.

estos bots... ¿tienen "inteligencia semántica" en todos los idiomas?

algunas variaciones extrañas en la evolución de los últimos 3 meses me hace dudar de la fiabilidad del ranking. ¿qué ha sucedido para que Banderas incremente su notoriedad x10 en los últimos 4 meses?. Pudiera ser que se me escapara alguna noticia muy notoria en los USA, vale, pues otro personaje más local de España, Aznar, sucede el efecto contrario: disminuye en 5 veces su notoriedad sobre una media constante de 2.5 M de menciones... muy extraño y poco fiable, la verdad.

Permitam-me algumas questões, que gostaria muito que fossem respondidas:

1) No começo da carreira, o atleta Ronaldo (fenômeno) era conhecido como Ronaldinho. Será mesmo que o sistema consegue diferenciar os dois, dada tal semelhança?;

2) Se o lalistawip.com trabalha com um sistema semântico, qual a explicação para que o presidente brasileiro Lula da Silva tenha tido menos referências no Google, que em tese, teria captado todo o tipo de referências a esta expressão?

3) Como é a forma de pré-seleção dos personagens? Qual o critério para que os “personagens” entrem no ranking? Quem e como é determinado? Parte-se do princípio de que se o sistema é realmente semântico, essas classificações não poderiam ocorrer.

4)Qual a explicação para que tenhamos no ranking Brasil personagens que nem são brasileiros?

Holaa!
bueno, esta pagina me llamo mucho la atencion, la vi en las noticias de acá de México..
bueno como soy un fan de Shakira, decidi hacer un Fotolog que anunciara sobre el acenso o descenso de Shakira en La Lista Wip..
bueno asi, patrocino a Shakira y a la Lsita Wip..
pero creo que Shakira deberia estar en la #1.. hay muchas paginas dedicadas a ella..
buenoo peroo yo aun no entiendo como funciona la pagina de la Lsita Wip..
pero poes trato de imaginarmelo..
jeje..
bueno me despido.!
zsaludoOs a toOdoz!!
bezOz y abrazOz..
=)

..•Shakiraismylife•..

Me parece super interesante esta tecnología y los usos que se podrían hacer, ya no solo para saber el grado de popularidad de las personas, sino poder trabajar las palabras, las emociones, etc. Me gustaría saber algo más sobre Julio Casal, poder contactar con él. Y si es él único creador de Buzz Trend. ¿Alguien lo sabe?
Gracias de antemano

De donde salen los datos. Que lugar ocupo yo en la lista

muy buena pajina

Creo que su lista tiene errores graves ya que supuestamente el filtro no permite que salgan personajes históricos y en la lista top 100 de México salen Guadalupe Victoria y Melchor Ocampo, ambos del siglo XIX; por lo tanto son historia así como Elvis Presley y John Lenon.
En la lista de México ponen a Fidel Velázquez como presidente siendo que el era un lider sindical y nunca ocupó la presidencia además de que ya falleció.
Y en el top 100 de deportes mundial no concibo que no aparezca Lorena Ochoa, la mejor golfista hoy por hoy.
Saludos

Como es posible q algún político como Xose Manuel Beiras Torrado, aparezca relacionado con la música

Coincido con el análisis de varias personas que hablaron antes.
Sinceramente deberían por lo menos ponerle Beta sino Alfa a la web porque eso es lo que parece ser, modelos de pruebas.
GMAIL sigue siendo Beta sin miedos ni remilgos... cual es el problema...
Es evidente que la semantica lingüistica es mucho mas compleja de lo que evidentemente se quiere intentar... ejemplo:
Personaje: Carlos Gardel
Aparecen noticias que claro se refieren a cosas que pueda tener referencia.
"6/5/2008
Por una cabeza Boca Juniors venció a su archirrival River Plate en ...
La Jornada (México) Mexico"
Por una cabeza es un tema que solía cantar y por supuesto una expresión que se usa desde hace mas de 2 siglos en las carreras de caballos... en fin.
otra
"28/3/2008
URUGUAYOS Y CUBANO GALARDONADOS CON PREMIO GARDEL
AnsaLatina.com Italy"
Si bien se lo nombra ya pasó a ser el nombre de un premio... cosas que pasan y que por suerte un "bot" no entiende...
Así que si le encuentran la vuelta a esto se converirán en Gardel para algunos. - Claro "se converirán" es una verbo aplicable a personas por lo tanto Gardel nombre propio y sube la fama de Gardel.
Arboles, ríos, mares, montañas, etc... eso debería figurar en el top ten de mas famosos... luego, Mamá, Papá... en fin... arriverci

Trevor McDonald no es boliviano pero sin embargo aparece en su listado de personas mas referenciadas en internet. Trevo Mcdonald nacio en trinidad y tobago no en Bolivia por ello deberian revisar este error. saludos

Hola! No sé si es el lugar más apropiado, pero quería comentar que es un fallo contabilizar las apariciones de Melanie C como "Melanie Chisholm", ya que nadie se refiere a ella así, ya que su nombre artístico es Melanie C.

En el caso de Mel B por ejemplo sí que la contabilizáis por ese nombre y no por Melanie Brown. Así que no creo que sea complicado buscarla por su nombre correcto, aunque sea bastante genérico.

me parece increible que david guetta , paul van dyk ,eric prydz esten por delante de dj tiesto en djs, es un crimen asi de claro no se en que os basais de inteligencia semantica,aun tiene un pase que paul van dyk este por delante por que ha sido dos veces numero uno del mundo pero tiesto es el dj que mas cobra en el mundo el que mas fama arrasta en el mundo y lo ha ganado todo y es el que mas ha conseguido,trabaja con armani,reebook,hace conciertos tipo estrellas como U2,ha pinchado ante 300mil personas en ipanema brasil etc y es el actual numero dos del mundo y armin van buuren el numero uno que ni aparece en la lista que es otro crimen por que la lista es horrorosa y david guetta no llega a la suela de los zapatos ni a tiesto ni armin van buuren ni paul van dyk david guetta es un dj mas muy popular en francia que por primera vez se ha metido en el top ten mundial pero nada mas no ha conseguido nada,y de nombres no voy hablar mas por que faltan muchos en la lista por que es malisima la lista de djs.y eric prydz otro buen dj y ya esta.os felicito.saludos.

No me merece ninguna confianza cuando veo que el Presidente de la Generalitat, del cual se habla por todas partes, no sale en la lista de los 100 de Barcelona, mientras salen los expresidentes y escultores con exposiciones puntuales.

La idea me parece genial, aunque se debiera desvincular, al menos cara afuera, del grupo Prisa.... yo por ejemplo, no puedo evitar pensar que pueda haber manipulación en las estadísticas de personajes públicos, por ejemplo, cosa que nunca me pasaría con Google.

Lo siento, pero si leo El País o El Mundo, ya sé a qué lado tira cada uno, y lo mismo con este sitio.

Enhorabuena de todas formas!.

""Así conseguimos una lista más dinámica y sensible, ligada a la actualidad. ""

¿Como es posible tener una lista ligada a la actualidad, si no tienen en cuenta el CUANDO se escribió el texto del cual ustedes extraen dicha información?

Es decir,ustedes encontrarán textos que hablen de Aznar de fecha de hoy , textos que hablen de Aznar con fecha de hace un año, o incluso página donde existan un texto que se hable de Aznar con multitud de fechas (ejemplo: foros).?

Aclaren esta cuestion gracias.

Vota a zemmz para la listaWIP, y asi sere un famosoWIP salido del ciberespacio.
Nos vemos en la red o en los bares. www.zemmz.es

Pues a mí esto me parece muy bien, salvo por un detalle... y es que la búsqueda semántica no funciona más que en ciertas lenguas y alfabetos, que no son precisamente mayoritarios en el mundo... La lista pues, no es de "la web", sino de la "web en inglés o español", lo cual no es más que "una parte de la Web".

Buenas tardes
como si puede añadir un actor a esta pagina.

TrackBack

URL del Trackback para esta entrada:
http://www.typepad.com/services/trackback/6a00e5502b24f8883400e5506cfddd8834

Listed below are links to weblogs that reference ¿De dónde salen los datos?:

Prisacom S.A. - Ribera del Sena S/N - Edificio APOT - Madrid [España]