Частный вопрос по компьютерному зрению

Пользователь

от glovatckyvl , в категории: Python , 2 года назад

Я не программист. Меня заинтересовала тема компьютерного зрения, и когда я начал изучать информацию по ней, оказалось, что компьютерное зрение не работает, его нет универсального, и похоже, что из-за этого нет роботов.


У меня есть идея (уйти от построения 3D картинки для компьютерного зрения, наверное, так и есть в существующем ПО), я пытался что-то сделать по этому вопросу, но пока ничего не получилось. Конечно, это с интересом монетизации. По существующему ПО информация разрозненна, и нет общей картины. Может быть, кто-нибудь подскажет об источнике, где есть наиболее полная информация по этому вопросу? В частности, меня интересует общий алгоритм, с помощью которого обнаруживается объект. Я хотел бы понять, подходит ли то, что я хочу сделать или предложить сделать, для того, к чему пришла наука? Я хочу сделать распознавание, как описано где-то в интернете, по схематичному шаблону, есть фото, сравнить с очертаниями, допустим с неким описанием, подобных объектов, как узнают объекты на тестах по силуэту. Или может быть мой вариант тоже не подходит, как и существующий:


1 не совсем понятно, как ИИ производит распознавание, допустим у него есть картинка и набор подобных картинок (например, производственная линия с проверкой брака) и он просто сравнивает проверяемую картинку с теми что у него есть и выдает результат с погрешностью?


2. какое изображение используется (2d или построение 3d картинки),


3. обрабатывается ли изображение или нет после получения его из окружающей среды перед распознаванием и т.д.


У меня есть фото (с объектом) для распознавания, я снял видео, но его нужно обрабатывать.


Если есть специалист, я бы хотел пообщаться с ним.

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

4 ответа

Пользователь

от dmitrypro77 , 2 года назад

@glovatckyvl На одной из моих предыдущих работ мы работали над распознаванием лейблов на картинках, легко также распознает на видео объекты (включая потоковые видео) и мы использовали AWS Amazon Rekognition и вот тут можете найти побольше информации https://aws.amazon.com/rekognition/?p=ft&c=ml&z=3 По-моему у них 5000 изображений каждый месяц бесплатно, но я не уверен. Вот тут также как можно создать свой data-set модель и ее тренировать https://docs.aws.amazon.com/rekognition/latest/customlabels-dg/md-dataset-purpose.html. Вы загружаете картинки варианты и помечаете нужный объект и потом там можно запустить training (обучение) и по предоставленным данным компьютер обучается (больше данных - лучше распознавания).


По поводу ответа на Ваши вопросы:

  1. Они используют Машинное обучение (Machine Learning) и погрешности конечно же есть, но чем больше количество изображений и примеров - точность распознавания возрастает.
  2. Мы использовали 2d картинки обычные (так как на складе просто фоткали в приложении и отправляли картинку и мы сохраняли ее на S3 бакет и дальше использовалось для распознавания). Но работает также с видео я точно знаю.
  3. Мы ничего не обрабатывали они как фоткали при любом освещении и мы просто сохраняли как есть и отправляли его. Наверное если будете обрабатывать перед отправкой, то вероятность распознавания будет выше

Опять же я рекомендую Вам поиграть с данным сервисом и посмотреть (тем более 5000 картинок бесплатно для теста точно хватит).

Всегда открыт для интересных проектов. Ссылки на мои соц. сети в профиле.

Пользователь

от clifford , 2 года назад

@glovatckyvl Интересный топик и с удовольствием послушаю и поучавствую. @dmitrypro77 А есть какие то отечественные аналоги Amazon Rekognition ?

Пользователь

от glovatckyvl , 2 года назад

@glovatckyvl Предполагается использовать 2d-сцену изображения: на синем фоне изображение перевернутой фигуры тающего льда (сосульки), на изображение накладывается желтый фон с белой сеткой

Синий - самый сложный цвет, желтый фильтрует его для четкости

, черный - это простой цвет

распознавание цвета, предполагается в соответствии с шаблоном путем подсчета количества оттенков пятна объекта и вычисления средневзвешенной гармонической

Я провел эксперимент с искаженной синей надписью (на тюбике): я сделал фото без желтого фильтра и с желтым фильтром, получились очень похожие фотографии, затем я загрузил обе фотографии в онлайн-переводчик и в результате, то, что было переведено (и распознано) - с фильтром, то, что было переведено неправильно- без фильтра -запись была распознана некорректно

показать файл со скриншотами я не могу, потому что надпись будет рекламой, я могу скинуть лично

Пользователь

от glovatckyvl , 2 года назад

@glovatckyvl