• La visión artificial, a menudo abreviada como CV, se define como un campo de estudio que busca desarrollar técnicas para ayudar a las computadoras a "ver" y comprender el contenido de imágenes digitales como fotografías y videos.
  • Utiliza aprendizaje automático, específicamente aprendizaje profundo, y redes neuronales convolucionales para analizar datos.

La visión artificial es un campo de la IA que utiliza aprendizaje automático y redes neuronales para permitir a las computadoras y sistemas extraer información significativa de imágenes digitales, videos y otras entradas visuales. Esto les permite hacer recomendaciones o tomar acciones en respuesta a defectos o problemas que perciben.

¿Qué es la visión artificial?

La visión artificial aplica el aprendizaje automático a imágenes y videos para comprender los medios y tomar decisiones basadas en ellos. En esencia, le da al software y a la tecnología la capacidad de "ver".

Si la IA permite que las computadoras piensen, la visión artificial les permite ver, observar y comprender. Si bien la visión artificial funciona de manera similar a la visión humana, los humanos tienen la ventaja de la experiencia contextual para distinguir objetos, juzgar distancias, detectar movimiento o identificar anomalías en las imágenes.

¿Cómo funciona la visión artificial?

La visión artificial depende en gran medida de los datos. Analiza repetidamente los datos para discernir patrones y, en última instancia, reconocer imágenes. Por ejemplo, para entrenar a una computadora para identificar neumáticos de automóviles se requiere alimentarla con una gran cantidad de imágenes de neumáticos y elementos relacionados para que aprenda las diferencias y pueda identificar neumáticos con precisión, especialmente aquellos sin defectos. Dos tecnologías clave utilizadas para este propósito son el aprendizaje profundo y las redes neuronales convolucionales (CNN, por sus siglas en inglés).

El aprendizaje automático emplea modelos algorítmicos que permiten a las computadoras aprender de forma autónoma el contexto de los datos visuales. Con suficientes datos, la computadora aprende a diferenciar entre imágenes por sí sola, en lugar de mediante una programación explícita para el reconocimiento de imágenes.

Una CNN ayuda a los modelos de aprendizaje automático o aprendizaje profundo al descomponer las imágenes en píxeles etiquetados o marcados. Utilizando estas etiquetas, la CNN realiza convoluciones —una operación matemática que combina dos funciones para producir una tercera— y predice el contenido que "ve". La red neuronal refina sus predicciones mediante convoluciones iterativas, mejorando gradualmente la precisión hasta que sus predicciones coinciden con la realidad. De esta manera, percibe o reconoce imágenes de forma similar a la percepción humana.

Lea también: Explorando la visión artificial a través de la conducción autónoma

Lea también: ¿Por qué la visión artificial es tan difícil?

Historia de la visión artificial

Durante aproximadamente 60 años, científicos e ingenieros se han esforzado por desarrollar métodos para que las máquinas perciban y comprendan datos visuales. Los experimentos iniciales en 1959 involucraron a neurofisiólogos que presentaban conjuntos de imágenes a gatos para observar las respuestas cerebrales correspondientes.

La década de 1960 presenció el surgimiento de la IA como una disciplina académica, marcando el comienzo de los esfuerzos para abordar los desafíos de la visión humana.

En 1974 se introdujo la tecnología de reconocimiento óptico de caracteres (OCR) capaz de identificar texto independientemente de la fuente o el tipo de letra. De manera similar, el reconocimiento inteligente de caracteres (ICR) podía descifrar texto escrito a mano utilizando redes neuronales.

En 1982, el neurocientífico David Marr estableció la naturaleza jerárquica de la visión e introdujo algoritmos que permitían a las máquinas detectar bordes, esquinas, curvas y otras formas fundamentales.

Para el año 2000, el enfoque se desplazó hacia el reconocimiento de objetos, culminando con el debut de aplicaciones de reconocimiento facial en tiempo real en 2001. A lo largo de la década del 2000, la estandarización del etiquetado y anotación de conjuntos de datos visuales ganó prominencia.