1987WEB视界-分享互联网热点话题和事件

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

OpenAI公布网页爬虫GPTBot,解决网页数据截取疑虑

1987web2023-08-07人工智能AI147
为解决从公开网站上掠取数据的隐私与知识产权争议,OpenAI本周一发布网页爬虫技术GPTBot,以更透明方式搜集公开网页数据来训练其AI模型。OpenAI指出,GPTBot以明白的useragent

为解决从公开网站上掠取数据的隐私与知识产权争议,OpenAI本周一发布网页爬虫技术GPTBot,以更透明方式搜集公开网页数据来训练其AI模型。

OpenAI指出,GPTBot以明白的user agent token(GPTBot)及完整字符串(Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)表明它是来自OpenAI。

OpenAI表示,以GPTBot user agent抓取的网页数据可能会用于改良未来模型,过程中会筛选掉需要付费的来源,但其中仍可能包含可识别身份的资讯,或是违反OpenAI政策的文本。

若网站管理员允许GPTBot访问网站,将可协助改进AI模型的精确度,提升其能力及安全。但若网站管理员不希望其网站被搜集数据,OpenAI也提供了拒绝的方法说明。包括在网站robots.txt文件中加入GPTBot(如图),也可以自订GPTBot访问网站部分内容(如图)。此外,OpenAI也公布GPTBot使用(https://openai.com/gptbot-ranges.txt)的IP地址范围,方便网站识别与封锁。

OpenAI公布网页爬虫GPTBot

OpenAI公布网页爬虫GPTBot

此类透明化措施可说是OpenAI对媒体或内容网站对AI模型企业未经同意搜集数据的批评的回应。现在普遍认为,企业未经同意搜集公开网站的内容来训练自己的AI模型,侵犯了知识产权、隐私权;他们应该要提供opt-in或opt-out选项,让网站或数据持有人决定是不是要提供自己网站上的内容。

上周募集资金平台Kickstarter也颁布一项AI相关规定,其中一项规定是若创业公司项目使用了外部数据源,应出具来源网站的许可政策及同意证明。无法提供的项目则无法通过审核在Kickstarter上架。

而本周OpenAI预计也将有大改版,包括ChatGPT底层将升级为GPT-4,而插件Code Interpreter也将支持上传多个文件到提示中。