您现在的位置是：首页 > 人工智能AI > 正文

人工智能AI

OpenAI公布网页爬虫GPTBot，解决网页数据截取疑虑

OpenAI

1987web2023-08-07人工智能AI717

为解决从公开网站上掠取数据的隐私与知识产权争议，OpenAI本周一发布网页爬虫技术GPTBot，以更透明方式搜集公开网页数据来训练其AI模型。OpenAI指出，GPTBot以明白的useragent

为解决从公开网站上掠取数据的隐私与知识产权争议，OpenAI本周一发布网页爬虫技术GPTBot，以更透明方式搜集公开网页数据来训练其AI模型。

OpenAI指出，GPTBot以明白的user agent token（GPTBot）及完整字符串（Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)表明它是来自OpenAI。

OpenAI表示，以GPTBot user agent抓取的网页数据可能会用于改良未来模型，过程中会筛选掉需要付费的来源，但其中仍可能包含可识别身份的资讯，或是违反OpenAI政策的文本。

若网站管理员允许GPTBot访问网站，将可协助改进AI模型的精确度，提升其能力及安全。但若网站管理员不希望其网站被搜集数据，OpenAI也提供了拒绝的方法说明。包括在网站robots.txt文件中加入GPTBot（如图），也可以自订GPTBot访问网站部分内容（如图）。此外，OpenAI也公布GPTBot使用（https://openai.com/gptbot-ranges.txt）的IP地址范围，方便网站识别与封锁。

OpenAI公布网页爬虫GPTBot

此类透明化措施可说是OpenAI对媒体或内容网站对AI模型企业未经同意搜集数据的批评的回应。现在普遍认为，企业未经同意搜集公开网站的内容来训练自己的AI模型，侵犯了知识产权、隐私权；他们应该要提供opt-in或opt-out选项，让网站或数据持有人决定是不是要提供自己网站上的内容。

上周募集资金平台Kickstarter也颁布一项AI相关规定，其中一项规定是若创业公司项目使用了外部数据源，应出具来源网站的许可政策及同意证明。无法提供的项目则无法通过审核在Kickstarter上架。

而本周OpenAI预计也将有大改版，包括ChatGPT底层将升级为GPT-4，而插件Code Interpreter也将支持上传多个文件到提示中。

人工智能AI

OpenAI公布网页爬虫GPTBot，解决网页数据截取疑虑

网站可以阻止OpenAI网络爬虫，避免数据用于训练 GPT 模型

如何把文字转换成语音？5款专业文字转语音工具推荐

相关文章