Facebook мог бы пригодиться для хорошего пиара после того, как последние новости показали, что компания, занимающаяся социальными сетями, допустила кражу данных миллионов клиентов. Чтобы немного исправить ситуацию, Facebook создал набор данных с открытым исходным кодом, который, по мнению компании, уменьшит предвзятость ИИ.
Читайте также: Утечка данных Facebook от более чем 500 миллионов пользователей
Facebook стремится исправить предвзятость ИИ
Существующей проблемой распознавания лиц является предвзятость ИИ. Хотя искусственный интеллект пытается идентифицировать людей по уникальным чертам лица, исторически он не очень хорошо справляется с небелыми и немужскими людьми.
Facebook намеревается исправить предвзятость ИИ с помощью набора данных с открытым исходным кодом, который он называет «Случайные разговоры». Он включает 45 186 видеороликов, на которых более 3 000 человек разговаривают без сценария. Участники разных полов, возрастных групп и оттенков кожи.
Актерам платили за отправку видеороликов, включающих их собственные описания возраста и пола, чтобы максимально исключить влияние искусственного интеллекта. Затем команда Facebook маркировала их по тону кожи на основе шкалы Фитцпатрика, которая оценивает шесть оттенков кожи.
Также было отмечено, что освещение показывает разные оттенки кожи в условиях низкой освещенности. Аудио и визуальный ИИ можно протестировать с помощью набора данных «Повседневные разговоры». Целью является не разработка алгоритмов, а оценка эффективности алгоритмов с разных сторон.
Два из используемых в настоящее время наборов данных для распознавания лиц — UB-A и Adience — состоят в основном из белокожих людей. В UB-A участвовало 79,6 процента белых людей, а в Adience — 86,2 процента.
По данным исследования Массачусетского технологического института (кроме цвета кожи), классификаторы IBM, Microsoft и Face++ лучше работают с мужскими лицами, чем с женскими голосами. С белыми мужскими лицами ошибок почти не было, тогда как для более темных женских лиц доля ошибок составляла почти 35 процентов.
Программа «Случайные беседы» призвана помочь оценить используемый в настоящее время алгоритм. «Наш новый набор данных «Случайные беседы» следует использовать в качестве дополнительного инструмента для измерения справедливости компьютерного зрения и аудиомоделей, а также для тестов на точность для сообществ, представленных в наборе данных», — заявила команда Facebook, работающая над проектом.
Оценки случайных разговоров
Facebook использовал случайные разговоры для тестирования пяти алгоритмов, победивших в конкурсе Deepfake Detection Challenge в 2020 году. Он был разработан для выявления публикуемых поддельных медиа.
Несмотря на то, что они являются уважаемыми алгоритмами, они сталкивались с проблемами темных оттенков кожи. Победитель, занявший третье место в соревновании, фактически показал лучшие результаты в непринужденных беседах.
Facebook уже предоставил набор данных сообществу разработчиков ПО с открытым исходным кодом. При этом он отметил, что идентифицирует полы «мужской», «женский» и «другой», объясняя это тем, что не может идентифицировать тех, кто идентифицирует себя как небинарный.
«В течение следующего года или около того мы изучим пути расширения этого набора данных, чтобы сделать его еще более инклюзивным, включив в него более широкий спектр гендерной идентичности, возраста, географического местоположения, видов деятельности и других характеристик», — сказал он. Facebook о своих усилиях по устранению предвзятости ИИ.
Читайте дальше, чтобы узнать об усилиях Microsoft по регулированию распознавания лиц для устранения оснований.