Etiquetar todo
En este post, seguiremos la historia de Jane, la directora de PNL de Automatic Pizza. Automatic Pizza quiere mejorar su eficiencia permitiendo a los clientes pedir pizza a través de una interfaz de chat. Ya han implementado la interfaz, pero actualmente tienen empleados que introducen la información manualmente en su sistema de pedidos. A Jane se le ha encomendado la tarea de construir un sistema de PNL que pueda leer los pedidos a medida que llegan y los introduzca con precisión en el sistema de pedidos de Automatic Pizza.
Janes sabe que tiene que ser capaz de analizar muchos datos para construir un sistema de este tipo y, por suerte para ella, Automatic Pizza tiene más de un terabyte de historial de conversaciones con el que puede trabajar. Por desgracia para ella, nadie previó la necesidad de etiquetar los datos de ninguna manera; por lo tanto, no hay conexiones entre conversaciones específicas y la pizza que se pidió en esa conversación. Jane se da cuenta de que, si quiere llevar a cabo este proyecto, tendrá que encontrar una forma de etiquetar los datos con precisión y rapidez.
En esta entrada, nos basaremos en nuestra experiencia con varios proyectos de anotación para describir las siete etapas distintas del ciclo de vida de la anotación por las que pasará Jane. Explicaremos el propósito de cada etapa, describiremos las consideraciones clave que deben ocurrir durante cada una y concluiremos cada etapa con los activos que debe esperar tener al final.
Ideas de etiquetado
Las etiquetas deben describir el propósito del control del formulario. Esta sección del tutorial describe cómo proporcionar etiquetas que se asocien adecuadamente con los controles de formularios. En secciones posteriores se explica cómo proporcionar instrucciones, validar la entrada del usuario y proporcionar información para ayudar a los usuarios a completar el formulario.
Una etiqueta y un control de formulario deben estar asociados entre sí, ya sea implícita o explícitamente. Los navegadores web proporcionan la etiqueta como un área más grande en la que se puede hacer clic, por ejemplo, para seleccionar o activar el control. También garantiza que la tecnología de asistencia pueda referirse a la etiqueta correcta al presentar un control de formulario.
Una etiqueta para un control de formulario ayuda a todos a entender mejor su propósito. En algunos casos, el propósito puede estar suficientemente claro por el contexto cuando el contenido se presenta visualmente. La etiqueta puede ser ocultada visualmente, aunque todavía necesita ser proporcionada dentro del código para soportar otras formas de presentación e interacción, como para los usuarios de lectores de pantalla y de entrada de voz. El método utilizado en este tutorial para ocultar un elemento visualmente pero hacerlo disponible para las tecnologías de asistencia se explica en Nota sobre la ocultación de elementos.
Cómo etiquetar datos para el aprendizaje automático
Tiempo de lectura: 16 minutos Si hubiera un salón de la fama de la ciencia de datos, tendría una sección dedicada al proceso de etiquetado de datos en el aprendizaje automático. El monumento a los etiquetadores podría ser Atlas sosteniendo esa gran roca que simboliza sus arduas y minuciosas responsabilidades. ImageNet, una base de datos de imágenes, merecería su propio estilo. Durante nueve años, sus colaboradores anotaron manualmente más de 14 millones de imágenes. Sólo pensar en ello cansa.
Aunque etiquetar no es lanzar un cohete al espacio, sigue siendo un asunto serio. El etiquetado es una etapa indispensable del preprocesamiento de datos en el aprendizaje supervisado. Para este estilo de entrenamiento del modelo se utilizan datos históricos con atributos objetivo predefinidos (valores). Un algoritmo sólo puede encontrar los atributos objetivo si un humano los ha etiquetado.
¿Cómo conseguir un conjunto de datos etiquetados de alta calidad sin que le salgan canas? El principal reto es decidir quién se encargará del etiquetado, estimar cuánto tiempo llevará y qué herramientas son mejores para utilizar.
El etiquetado de datos (o anotación de datos) es el proceso de añadir atributos objetivo a los datos de entrenamiento y etiquetarlos para que un modelo de aprendizaje automático pueda aprender qué predicciones se espera que haga. Este proceso es una de las etapas de la preparación de los datos para el aprendizaje automático supervisado.
Cómo etiquetar un esqueleto
La creciente digitalización de las máquinas y los procesos de producción abre muchas posibilidades interesantes. Un caso de uso clave es la detección de situaciones durante el funcionamiento de las máquinas a partir de los datos de los sensores mediante la inteligencia artificial (IA). Las aplicaciones van desde la detección temprana de problemas hasta la identificación de diferentes estados de funcionamiento. Por ejemplo, un fabricante de máquinas puede avisar a sus clientes con mucha antelación antes de que surjan los problemas (“mantenimiento predictivo”). El fabricante también puede estar interesado en aprender qué operaciones realiza el cliente con las máquinas para optimizar su oferta comercial.
Para que un algoritmo (por ejemplo, la IA) reconozca estados significativos a partir de los datos brutos de los sensores, la información sobre los estados debe estar disponible explícitamente. Por lo tanto, la IA necesita información como El estado A se produjo de 3:10 a 3:17 y de 5:23 a 5:35, el estado B se produjo de 7:28 a 8:11.
En muchos casos, la información sobre estos estados no está disponible explícitamente en los datos brutos, sino que debe generarse primero antes de entrenar el modelo de IA. Este proceso se denomina etiquetado de datos. El objetivo del etiquetado es, pues, hacer explícita la información sobre las clases distinguidas (como los estados de la máquina). Esta información puede utilizarse para entrenar un modelo de IA para la distinción automática de los estados. La siguiente imagen ilustra una serie temporal de máquinas en la que se han distinguido dos estados mediante el etiquetado (intervalos naranjas), a saber, el funcionamiento normal (verde) y los procedimientos de apagado y arranque (azul).