Scale AI Enfrenta un Problema de Seguridad de Datos

Los documentos públicos de Google de Scale AI revelan información sensible de clientes como Meta y Google, lo que plantea preocupaciones sobre la protección de datos en proyectos de IA.
A medida que Scale AI busca tranquilizar a los clientes sobre la seguridad de sus datos tras la inversión de 14.3 mil millones de dólares de Meta, archivos filtrados y los propios contratistas de la startup indican que tiene serios fallos de seguridad.
Scale AI utiliza rutinariamente Google Docs públicos para rastrear el trabajo de clientes de alto perfil como Google, Meta y xAI, dejando múltiples documentos de formación de IA etiquetados como "confidenciales" accesibles para cualquier persona con el enlace, encontró Business Insider.
Los contratistas dijeron a BI que la empresa depende de Google Docs públicos para compartir archivos internos, un método que es eficiente para su vasta plantilla de al menos 240,000 contratistas y presenta claros riesgos de ciberseguridad y privacidad.
Scale AI también dejó Google Docs públicos con detalles sensibles sobre miles de sus contratistas, incluyendo sus direcciones de correo electrónico privadas y si se sospechaba que habían "engañado". Algunos de esos documentos pueden ser vistos y también editados por cualquiera que tenga el enlace correcto.
No hay indicios de que Scale AI haya sufrido una violación a causa de esto. Dos expertos en ciberseguridad dijeron a BI que tales prácticas podrían dejar a la empresa y a sus clientes vulnerables a varios tipos de ataques, como hackers que se hacen pasar por contratistas o que suben malware a archivos accesibles.
Scale AI le dijo a Business Insider que se toma muy en serio la seguridad de los datos y que están investigando el asunto.
"Estamos llevando a cabo una investigación exhaustiva y hemos deshabilitado la capacidad de cualquier usuario de compartir públicamente documentos desde sistemas gestionados por Scale", dijo un portavoz de Scale AI. "Seguimos comprometidos con salvaguardias técnicas y políticas robustas para proteger la información confidencial y siempre estamos trabajando para fortalecer nuestras prácticas".
Meta se negó a comentar. Google y xAI no respondieron a las solicitudes de comentarios.
Tras la inversión de Meta, clientes como Google, OpenAI y xAI pausaron el trabajo con Scale. En una publicación de blog la semana pasada, Scale aseguró a los grandes clientes tecnológicos que sigue siendo un socio neutral e independiente con estrictos estándares de seguridad.
Los proyectos de IA confidenciales eran accesibles
BI pudo visualizar miles de páginas de documentos de proyectos a través de 85 documentos individuales de Google vinculados al trabajo de Scale AI con grandes clientes tecnológicos. Los documentos incluyen detalles sensibles, como cómo Google utilizó ChatGPT para mejorar su propio chatbot, llamado Bard.
Scale también dejó públicos al menos siete manuales de instrucciones marcados como "confidenciales" por Google, que eran accesibles para cualquier persona con el enlace. Esos documentos detallaban lo que Google pensaba que estaba mal con Bard — que tenía dificultades para responder preguntas complejas — y cómo los contratistas de Scale deberían solucionarlo.
En el caso de xAI de Elon Musk, para el cual Scale manejó al menos 10 proyectos generativos de IA hasta abril, documentos y hojas de cálculo de Google públicos muestran detalles de "Project Xylophone", informó BI a principios de este mes. Documentos de formación y una lista de 700 indicaciones de conversación revelaron cómo el proyecto se enfocó en mejorar las habilidades de conversación de la IA sobre una amplia variedad de temas, desde apocalipsis zombi hasta plomería.
Los documentos de capacitación de Meta, marcados como confidenciales en la parte superior, también quedaron públicos para cualquiera con el enlace. Estos incluían enlaces a archivos de audio accesibles con ejemplos de indicaciones de habla "buenas" y "malas", sugiriendo los estándares que Meta estableció para la expresividad en sus productos de IA.
Varios contratistas de Scale AI entrevistados por BI dijeron que era fácil averiguar para qué cliente trabajaban, incluso si estaban codificados, a menudo solo por la naturaleza de la tarea o la forma en que estaban redactadas las instrucciones. A veces era aún más fácil: una presentación vista por BI tenía el logo de Google.
Aun cuando los proyectos estaban destinados a ser anonimizados, contratistas de diferentes proyectos describieron reconocer instantáneamente a los clientes o productos. En algunos casos, simplemente solicitar el modelo o preguntarle directamente cuál chatbot era revelaría al cliente subyacente, dijeron los contratistas.
Otros documentos mostraron cuánto se pagó a los contratistas individuales, junto con notas detalladas sobre disputas salariales y discrepancias.
El sistema parecía 'increíblemente torpe'
Cinco contratistas actuales y anteriores de Scale AI que trabajaron en diferentes proyectos le dijeron a BI que el uso de Google Docs públicos era generalizado en la empresa. Los contratistas dijeron que usarlos agiliza las operaciones para Scale, que depende principalmente de contribuyentes freelance. Manejar permisos de acceso individuales para cada contratista habría ralentizado el proceso.
La plataforma interna de Scale AI requiere que los trabajadores se verifiquen a sí mismos, a veces usando su cámara, dijeron los contratistas a BI. Al mismo tiempo, muchos documentos que contienen información sobre el entrenamiento de modelos de IA se pueden acceder a través de enlaces públicos o enlaces en otros documentos sin verificación.
“Todo el sistema de Google Docs siempre pareció increíblemente torpe”, dijo un trabajador.
Dos trabajadores más dijeron que mantenían el acceso a proyectos antiguos en los que ya no trabajaban, que a veces se actualizaban con solicitudes de la empresa cliente sobre cómo deberían ser entrenados los modelos.
'Por supuesto que es peligroso'
Organizar el trabajo interno a través de Google Docs públicos puede crear serios riesgos de ciberseguridad, dijo a BI Joseph Steinberg, un profesor de ciberseguridad de la Universidad de Columbia.
“Por supuesto que es peligroso. En el mejor de los casos, solo está habilitando la ingeniería social”, dijo.
La ingeniería social se refiere a ataques donde los hackers engañan a empleados o contratistas para que entreguen acceso, a menudo impersonando a alguien dentro de la empresa.
Dejar detalles sobre miles de contratistas fácilmente accesibles crea muchas oportunidades para ese tipo de violación, dijo Steinberg.
Al mismo tiempo, invertir más en seguridad puede ralentizar a las startups orientadas al crecimiento.
“Las empresas que realmente se toman el tiempo para hacer la seguridad bien muy a menudo se quedan atrás porque otras empresas se mueven más rápido al mercado”, dijo Steinberg.
El hecho de que algunos de los Google Docs fueran editables por cualquiera crea riesgos, como que actores maliciosos insertan enlaces maliciosos en los documentos para que otros hagan clic, dijo Stephanie Kurtz, directora regional de la firma cibernética Trace3.
Kurtz agregó que las empresas deben comenzar gestionando el acceso a través de invitaciones.
“Ponerlo ahí y esperar que alguien no comparta un enlace no es una gran estrategia”, dijo.
Comments ()