火绒安全软件

新闻资讯区
发新帖
打印 上一主题 下一主题

[软件资讯] 维基百科现已提供 JSON 格式内容快照数据集:机器可读

[复制链接]
1307 0
楼主
发表于 2025-4-21 09:36:38 | 只看该作者 |倒序浏览 |阅读模式
跳转到指定楼层
4 月 18 日消息,维基百科运营方维基媒体基金会下辖 Wikimedia Enterprise 当地时间 16 日宣布其在 Kaggle 平台上发布了 JSON 格式、英语和法语版本的测试版维基百科结构化内容快照数据集。
该数据集可用于 AI / ML 建模、基准测试、对齐、微调和探索性分析。其在设计时考虑了机器学习工作流程,简化了机器访问内容的流程,使用者无需对维基百科主站原始内容进行抓取和或解析。
这也意味着 AI 爬虫可直接利用现成的数据集,减少了机器人在主站爬取带来的流量开支,有利于维基百科的可持续运营。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | [立即注册]

本版积分规则

快速回复 返回顶部 返回列表