Новая технология делает интернет-мемы доступными для людей с нарушениями зрения: исследователи CMU разрабатывают систему для идентификации и перевода мемов

Чтобы противостоять этому, исследователи из Университета Карнеги-Меллона разработали метод автоматической идентификации мемов и применения предварительно написанных шаблонов для добавления описательного альтернативного текста, делая их понятными с помощью существующих вспомогательных технологий.
Мемы – это изображения, которые копируются, а затем накладываются на них с небольшими вариациями текста.

Они часто юмористичны и передают общий опыт, но «если вы слепой, вы пропустите эту часть разговора», – сказал Коул Глисон, доктор философии.D. студент Института взаимодействия человека и компьютера КМУ (HCII.)
«Мемы могут показаться не самой важной проблемой, но жизненно важная часть доступности – это не выбирать для людей то, что заслуживает их внимания», – сказал Джефф Бигхэм, доцент HCII. "Многие люди используют мемы, поэтому они должны быть доступны."
Мемы в основном живут на платформах социальных сетей, у которых есть препятствия для добавления альтернативного текста.

Twitter, например, позволяет людям добавлять замещающий текст к своим изображениям, но эту функцию не всегда легко найти. Из 9 миллионов твитов, изученных исследователями CMU, один миллион содержал изображения, и только 0 из них.1 процент включал замещающий текст.

Глисон сказал, что базовые методы компьютерного зрения позволяют описывать изображения, лежащие в основе каждого мема, будь то знаменитость, плачущий ребенок, мультипликационный персонаж или сцена, такая как автобус, перевернутый в воронку. Для расшифровки наложенного текста используются методы оптического распознавания символов, которые могут изменяться с каждой итерацией мема. Для каждого типа мема необходимо создать только один шаблон, описывающий изображение, и наложенный текст может быть добавлен для каждой итерации этого мема.

Но написать, что должен передать мем, оказалось сложно.
"Это зависело от мема, если юмор переводился. Некоторые визуальные эффекты более детализированы, – сказал Глисон. "А иногда это явно, и вы можете просто описать это.«Например, полный альтернативный текст для так называемого мема« ребенок успеха »гласит:« Малыш сжимает кулак перед самодовольным лицом. Наложенный текст сверху: Был плохим мальчиком весь год.

Наложенный текст внизу: все еще есть классные подарки от Санта-Клауса."
Команда также создала платформу для перевода мемов в звук, а не в текст.

Пользователи ищут в библиотеке звуков и перетаскивают элементы в шаблон. Эта система была создана для перевода существующих мемов и передачи настроения с помощью музыки и звуковых эффектов.
«Одна из причин, по которой мы попробовали аудио-мемы, заключалась в том, что мы думали, что альтернативный текст убьет шутку, но люди по-прежнему предпочитали текст, потому что они так привыкли к нему», – сказал Глисон.
Развернуть технологию будет непросто.

Даже если бы он был интегрирован в веб-сайт генератора мемов, этот альтернативный текст не будет автоматически копироваться при публикации изображения в социальных сетях.
«Нам придется убедить Twitter добавить новую функцию», – сказал Глисон.

Это может быть что-то добавленное к личному смартфону, но он отметил, что это возлагает бремя на пользователя. Исследователи CMU в настоящее время работают над связанными проектами, включая расширение браузера для Twitter, которое пытается добавить альтернативный текст для каждого изображения и может включать систему мемов.

Другой проект направлен на интеграцию замещающего текста в метаданные изображений, которые будут оставаться с изображением, где бы оно ни было размещено.
Эта работа была представлена ​​ранее в этом году на конференции ACCESS в Питтсбурге.

Среди других исследователей, участвовавших в исследовании, – докторант HCII Эми Павел, студентка CMU Синю Лю, доцент HCII Патрик Каррингтон и Лидия Чилтон из Колумбийского университета.