- Se hablará de varios tipos de visión por computadora, como la clasificación de imágenes, la localización de objetos, la detección de objetos y la segmentación de imágenes.
- La visión por computadora se utiliza en muchas áreas para mejorar los negocios, el transporte, la atención médica y más.
La IA es un tema amplio de investigación y debate. Este artículo cubrirá varios tipos de visión por computadora, incluyendo la clasificación de imágenes, la localización de objetos, la detección de objetos y la segmentación de imágenes. ¿Cuál es el tipo específico que te interesa?
Tipos de visión por computadora
La visión por computadora es un subcampo de la IA que permite a las computadoras y sistemas procesar datos visuales, como imágenes y videos, y generar patrones para detectar, rastrear y clasificar objetos. Dependiendo del enfoque de entrenamiento de aprendizaje automático, la visión por computadora puede formar parte de diferentes subcampos de la IA. A continuación, se presentan algunos tipos de visión por computadora:
1. Clasificación de imágenes
La clasificación de imágenes, también conocida como reconocimiento de imágenes, es una tarea fundamental en la visión por computadora que implica asociar una o varias etiquetas a una imagen determinada. En la clasificación de una sola etiqueta, el objetivo es asignar una única etiqueta a una imagen de un conjunto predefinido de categorías. En la clasificación multietiqueta, una imagen puede estar asociada a varias etiquetas simultáneamente.
2. Localización de objetos
La localización de objetos es el proceso de identificar la ubicación de un objeto en una imagen o video, generalmente utilizando un cuadro delimitador. Es una tarea común en la visión por computadora donde solo aparece un único objeto en la imagen.
3. Detección de objetos
La detección de objetos amplía la clasificación de imágenes no solo clasificando objetos, sino también detectando sus ubicaciones en la imagen y dibujando cuadros delimitadores a su alrededor. La detección de objetos tiene como objetivo encontrar todos los objetos y sus límites en una imagen.
4. Segmentación de imágenes
La segmentación de imágenes implica dividir una imagen en segmentos o regiones para simplificar la representación de un objeto dentro de su marco. Esto se realiza a nivel de píxel para delinear con precisión los límites del objeto y asignar una etiqueta a cada segmento.
Leer también: ¿Es la visión por computadora una ciencia de datos?
Leer también: ¿Qué es la visión por computadora 3D?
Visión humana vs. visión por computadora
Los investigadores se inspiran en la visión humana para desarrollar la visión por computadora. La estructura y el funcionamiento del sistema visual humano, como la disposición de las neuronas en la corteza visual y los mecanismos de reconocimiento de objetos, inspiran el diseño de redes neuronales y algoritmos para el procesamiento de imágenes y el reconocimiento de patrones.
La visión humana implica que los ojos capturan la luz y envían señales al cerebro para su interpretación. Es un proceso complejo que incluye la percepción, el reconocimiento y la interpretación de la información visual. En contraste, la visión por computadora permite a las computadoras interpretar y comprender el mundo visual a través de imágenes o videos digitales.
Aplicaciones de la visión por computadora
Si bien la tecnología de visión por computadora continúa evolucionando con investigaciones en curso, se han establecido varias aplicaciones en el mundo real:
- Google Translate: Al usar la cámara del teléfono para escanear letreros en idiomas extranjeros, Google Translate proporciona traducciones instantáneas al idioma del usuario. La aplicación puede reconocer y traducir 133 idiomas a partir de 2022.
- Vehículos autónomos: La visión por computadora permite a los vehículos autónomos interpretar los datos visuales capturados por las cámaras montadas en el vehículo. Estos datos ayudan al vehículo a identificar automóviles, señales de tráfico, peatones, luces y otros objetos en su entorno. La función Autopilot de Tesla, estándar en los modelos más nuevos, es un ejemplo de esta tecnología en acción.

