Google lanzó el chatbot Bard en forma limitada en marzo pasado, en un intento de responder a ChatGPT de OpenAI.
Para evaluar la calidad de las respuestas del chatbot de IA, la empresa contrató a un gran equipo de trabajadores externos. Sin embargo, los socios admitieron que a menudo no contaban con el tiempo suficiente para evaluar la precisión de las respuestas a estas consultas.
Appen es un contratista que ayuda a mejorar el chatbot de Google. A los empleados de la empresa no se les informó que su tarea involucraba a Bard, pero las conversaciones internas sobre la nueva tarea comenzaron el 7 de febrero, aproximadamente cuando el gigante de las búsquedas anunció por primera vez su chatbot de IA.
La precisión de las respuestas que proporciona Bard AI está siendo cuestionada ya que los socios de Google admiten que tienen que "adivinar" las respuestas en algunos casos.
Los socios, conocidos como “evaluadores”, generalmente revisan los algoritmos de búsqueda de Google y la relevancia de los anuncios colocados en los resultados de búsqueda, además de marcar los sitios web maliciosos para que no aparezcan en la página de resultados.
Desde enero, la mayor parte del trabajo de los revisores se ha centrado en revisar las indicaciones de la IA, según fuentes internas. Añadieron que no tienen tiempo suficiente para evaluar la precisión de las respuestas del bot, por lo que a veces simplemente hacen una "conjetura".
Bard recibió críticas después de que se descubriera que el chatbot daba respuestas incorrectas durante su lanzamiento. Google afirmó que el chatbot mejoraría con el tiempo y no debería considerarse un sustituto de su motor de búsqueda.
Antes de su lanzamiento en febrero, Google también requirió que los empleados pasaran de dos a cuatro horas probando el bot, haciéndole preguntas y marcando las respuestas que no cumplían con los estándares de la empresa.
Los contratistas indicaron que contaban con un tiempo determinado para completar cada tarea, que variaba desde tan solo 60 segundos hasta varios minutos. Sin embargo, los evaluadores comentaron que era difícil evaluar las respuestas cuando no entendían el tema del chatbot, que incluía aspectos técnicos como blockchain.
Cada tarea asignada representa tiempo facturable, por lo que los empleados encontrarán formas de completar la tarea incluso si no pueden evaluar con precisión las respuestas que brinda el chatbot.
Estos empleados dicen que quieren obtener los datos correctos y brindar la mejor experiencia de chatbot posible, pero simplemente no tienen tiempo suficiente para investigar el problema antes de dar una calificación.
“Se necesitan 3 horas de investigación para completar una tarea de 60 segundos, ese es el problema que enfrentamos ahora mismo”, compartió uno de los revisores.
(Fuente: Vietnamnet/Insider)
Útil
Emoción
Creativo
Único
Ira
[anuncio_2]
Fuente
Kommentar (0)