Новости:

You are not allowed to view links. Register or Login or You are not allowed to view links. Register or Login

Обсуждение, наболевшее, предложения.

Главное меню
avatar_Grafff

«Википедия» выпустила набор данных для обучения ИИ

Автор Grafff, 18-04-2025, 11:58

« назад - далее »

0 Пользователи и 1 гость просматривают эту тему.

GrafffTopic starter

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Guests are not allowed to view images in posts, please You are not allowed to view links. Register or Login or You are not allowed to view links. Register or Login

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента "Википедии" на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента "Википедии"», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.
Guests are not allowed to view images in posts, please You are not allowed to view links. Register or Login or You are not allowed to view links. Register or Login

Guests are not allowed to view images in posts, please You are not allowed to view links. Register or Login or You are not allowed to view links. Register or Login

Guests are not allowed to view images in posts, please You are not allowed to view links. Register or Login or You are not allowed to view links. Register or Login


You are not allowed to view links. Register or Login

🡱 🡳

* Ваши права в разделе

  • Вы не можете создавать новые темы.
  • Вы не можете отвечать в темах.
  • Вы не можете прикреплять вложения.
  • Вы не можете изменять свои сообщения.