Reconocimiento de imagenes python

Reconocimiento de imagenes python

opencv

Hay muchas aplicaciones para el reconocimiento de imágenes. Una de las más grandes con las que la gente está más familiarizada sería el reconocimiento facial, que es el arte de hacer coincidir las caras en las fotos con las identidades. Sin embargo, el reconocimiento de imágenes va mucho más allá. Puede permitir que los ordenadores traduzcan el texto escrito en papel a texto digital, puede ayudar al campo de la visión artificial, donde los robots y otros dispositivos pueden reconocer personas y objetos.

En este caso, nuestro objetivo es empezar a utilizar el aprendizaje automático, en forma de reconocimiento de patrones, para enseñar a nuestro programa cómo es el texto. En este caso, utilizaremos números, pero esto podría traducirse en todas las letras del alfabeto, palabras, caras, realmente cualquier cosa. Cuanto más compleja sea la imagen, más complejo tendrá que ser el código. Sin embargo, cuando se trata de letras y caracteres, es relativamente sencillo.

A partir de ahí, extrae la carpeta zip y mueve el directorio «images» a donde estés escribiendo este script. Dentro de él, deberías tener un directorio «images». Dentro de él, tienes algunas imágenes simples que vamos a utilizar y luego tienes un montón de números de ejemplo dentro del directorio de números.

tensorflow

Cuando empieces a leer este artículo sobre Clasificación de Imágenes, quiero que mires a tu alrededor y observes las cosas que puedes ver. Según el lugar en el que te encuentres, las cosas que veas serán diferentes. Casi el 99% de las veces, puedes nombrar estas cosas, incluso si no sabes el nombre exacto, sabes a qué se parece. Caminando por la carretera, ves una especie completamente nueva de gato que nunca habías visto antes, pero aún así sabes que es un gato, ¿verdad? Eso es porque tu cognición y el sistema visual pueden generalizar bien.  Hay muchos problemas que pueden ocurrir al percibir cosas en los que nunca pensamos, como la variación del punto de vista, la variación del tamaño, la oclusión (mezcla de objetos con otros objetos en la imagen), las diferencias en la dirección y la fuente de luz. Esto se debe a que nuestros cerebros han evolucionado a lo largo de millones de años para mitigar estos desafíos. Por otro lado, los algoritmos de aprendizaje automático, al clasificar las imágenes, se enfrentan a estos retos, y la clasificación de imágenes se convierte en un problema apasionante que debemos resolver.

->  Ejercicios de solfeo para principiantes

numpy

Veamos la foto de abajo para entender cómo funciona la clasificación de imágenes en nuestro cerebro. La foto de arriba puede interpretarse como una mujer vieja o joven. El dilema se produce porque las características de la imagen pueden interpretarse de dos maneras diferentes. Esto explica cómo nuestro cerebro realiza cualquier tarea de clasificación de imágenes. El cerebro intenta extraer ciertas características de la imagen. Según las características extraídas, se realiza la clasificación.

El cerebro está formado por neuronas y pesos que se conectan entre ellas. Los algoritmos de aprendizaje automático siguen el mismo diseño de la estructura del cerebro, ya que tiene neuronas en la llamada capa y pesos que se conectan entre ellos y que se actualizan de acuerdo con una función de pérdida específica. Las diferentes redes neuronales imitan diferentes funcionalidades del cerebro. Por ejemplo, las redes neuronales recurrentes imitan la parte de la memoria del cerebro. Una de las aplicaciones de las redes neuronales convolucionales es la funcionalidad cerebral relacionada con la visión y el reconocimiento de imágenes. Este es el tema principal de nuestro artículo.

->  Como tener voz grave

pytorch

Este tutorial muestra cómo clasificar imágenes de flores. Crea un clasificador de imágenes utilizando un modelo tf.keras.Sequential, y carga los datos utilizando tf.keras.utils.image_dataset_from_directory. Obtendrás experiencia práctica con los siguientes conceptos:

Vamos a cargar estas imágenes del disco utilizando la útil utilidad tf.keras.utils.image_dataset_from_directory. Esto te llevará de un directorio de imágenes en el disco a un tf.data.Dataset en sólo un par de líneas de código. Si quieres, también puedes escribir tu propio código de carga de datos desde cero visitando el tutorial Cargar y preprocesar imágenes.

El lote_de_imágenes es un tensor de la forma (32, 180, 180, 3). Se trata de un lote de 32 imágenes de forma 180x180x3 (la última dimensión se refiere a los canales de color RGB). El lote_etiqueta es un tensor de la forma (32,), son las etiquetas correspondientes a las 32 imágenes.

->  Tablas comparativas en excel

El modelo secuencial consiste en tres bloques de convolución (tf.keras.layers.Conv2D) con una capa de max pooling (tf.keras.layers.MaxPooling2D) en cada uno de ellos. Hay una capa totalmente conectada (tf.keras.layers.Dense) con 128 unidades en la parte superior que se activa por una función de activación ReLU (‘relu’). Este modelo no ha sido ajustado para obtener una alta precisión-el objetivo de este tutorial es mostrar un enfoque estándar.

Esta web utiliza cookies propias para su correcto funcionamiento. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad