Ваша конфиденциальность, возможно, была сломана. Эти данные ИИ, вероятно, будут содержать ваше лицо, адрес или резюме | Vosveteit.skИсследователи MIT предупреждают, что в одном из крупнейших тренировок с открытым исходным кодом для искусственного интеллекта миллионы изображений паспортов, кредитных карт, тестов на родину и других необычных личных документов. В то же время авторы нового исследования обнаружили тысячи фотографий, на которых лица были четко идентифицированы в базе данных CommonPool с помощью DATACACP. Это один из самых используемых учебных наборов для ИИ для генерирования изображений. Компании по данным приобрели материал в разных частях ИнтернетаПолем Только 0,1% базы данных CommonPool прошли через исследование. По этой причине они оценивают, что некоторые конфиденциальные документы и идентификаторы будут намного больше. Возьмите vosveteit.sk от Telegram и подпишитесь на сообщения «Все, что пользователь вкладывает в Интернет, будет рано или поздно будет использоваться для обучения ИИ», -говорит Уильям Агнью, эксперт по искусственному искусству и один из авторов исследования. Как мы уже упоминали, исследователи выявили тысячи случаев, когда они обнаружили документы, чтобы выявить человеческую идентичность. Это были фотографии кредитных карт, водительских лицензий, паспортов или тестов на рождение. В частности, они определили более 800 заявок на работу, включая CVS или мотивирующие буквы. Эти документы были затем подтверждены LinkedIn. Источник: Dall · E, Vosveteit.sk, Фотографии, удостоверения личности, кредитные карты Несколько отображаемых CVS содержали конфиденциальную информацию, такую как инвалидность, дни рождения, место рождения, раса или резиденция. Когда биография может связаться с конкретным человекомЗатем исследователи смогли посмотреть на различную контактную информацию, такую как правильный адрес, номера телефонов или другие. Компания выпустила свою базу данных CommonPool в 2023 году. В том же году она содержала 12,8 миллиона образцов данных. Это была самая большая база данных общедоступных изображений и текстовых пар. Эта база данных предназначена для обучения искусственного интеллекта, который может сделать текст, чтобы поощрять любое изображение. DataComp сказал, что база данных CommonPool предназначена для академических исследований, но лицензия этой базы данных не предотвращает коммерческое использование. Не упускайте из виду Универсальный рак мРНК -Vaccine может скоро стать реальностью. Ученые сообщают о огромном прогрессе «База данных сообщества была создана в качестве преемника базы данных LAION-5B. Эта база данных, используемая для обучения моделей в качестве стабильного распространения или набора данных в середине года, но вытягивает из одного и того же источника данных. Модели бизнес -ИИ часто не узнают, какие данные они изучили. Commonpool и Laion-5b Но они обмениваются ресурсами данных, что означает, что эти базы данных схожи и, скорее всего, содержат одинаковые идентификаторыПолем В то же время авторы исследования говорят, что за последние два года база данных CommonPool вышла на пенсию более 2 миллионов раз. Это означает, что, скорее всего, есть много современных ИИ, обученных в этой базе данных, а также извлечено из личной информации пользователей. «Мы можем предположить, что все базы данных, созданные огромной загрузкой онлайн -данных, будут содержать то, что не должно быть там каждый раз. Источник: vosveteit.sk, ai Пользователи, вероятно, не дали согласия DataCP, создатель базы данных CommonPool, знал, что личная информация от пользователей также может ввести свою базу данных. Вот почему она предприняла хотя бы несколько шагов, чтобы сохранить конфиденциальность пользователейПолем Будучи массовой базой данных, она использовала алгоритм, чтобы установить конфиденциальность, которая, например, смазала все лица людей. Но исследователи обнаружили, что более 800 лиц, которые упускают из виду алгоритм. Опять же, они помнят, что изучали только 0,1% данных. Это означает, что будет намного больше лиц. По оценкам ученых, в общей сложности 102 миллиона лиц могут упускать из виду алгоритм. С другой стороны, они выступают за то, что фильтрация чрезвычайно трудно сделать. Проблема, однако, заключается в том, что большинство людей, чья личная информация, включая лица, была найдена в базе данных, вероятно, не согласились использовать свои данные.
Вам понравился предмет? Следите за нами на Facebook
Следите за нашей новой страницей Facebook и присоединяйтесь!