GPT-4等大模型更能记住版权书籍的内容 容易导致侵权和社会偏见问题_全球今亮点
站长之家(ChinaZ.com)5月5日 消息:一项研究指出了当今大型语言模型的另一个潜在版权问题和文化挑战:一本书越有名和越受欢迎,语言模型就越能记住其内容。
加州大学伯克利分校的研究人员测试了ChatGPT、GPT-4和 BERT 的“背诵”能力。根据这项研究,语言模型记住了“大量受版权保护的材料”。一本书的内容在网上越受欢迎多,语言模型就越能记住其内容。
(相关资料图)
根据这项研究,OpenAI 的模型特别擅长记忆科幻小说、奇幻小说和畅销书。其中包括 《1984》、《德古拉》和《弗兰肯斯坦》等经典作品,以及《哈利波特与魔法石》等近期作品。
研究人员将谷歌的 BERT 与 ChatGPT 和 GPT-4进行了比较。“BookCorpus”是一套据称由未知作者创作的免费书籍的训练集,其中包括《丹·布朗》或《五十度灰》的作品。BERT 会记住这些书中的信息,因为这些都数据的一部分。
研究人员写道,一本书在网络上出现的次数越多,大型语言模型对它的记忆就越详细。记忆决定了语言模型执行有关一本书的下游任务的能力:一本书越为人所知,语言模型就越有可能成功地执行诸如命名出版年份或正确识别书中字符等任务。
研究人员主要关注的不是版权问题。相反,他们关心的是使用大规模语言模型进行文化分析的潜在机会和问题,特别是通俗科幻小说和奇幻作品中的共同叙事所造成的社会偏见。
文化分析研究可能会受到大规模语言模型的严重影响,并且根据培训材料中书籍的存在而产生的不同表现可能会导致研究出现偏差。
在此背景下,研究团队有一个明确的诉求:训练数据的公开。
研究人员写道,这些模型特别擅长从流行的叙述中学习,但这些叙述并不代表大多数人的经历。这一事实如何影响大规模语言模型的输出,以及它们作为文化分析工具的有用性,需要进一步研究。
此外,该团队表示,研究表明流行书籍并不是大型语言模型的良好性能测试,它们可能会表现更为出色。
(举报)
标签:
- GPT-4等大模型更能记住版权书籍的内容 容易导致侵权和社会偏见问题_全球今亮点
- 今日热文:泽塔奥特曼:雷德王夫妻大战泽塔,用生命保护孩子,遥辉落泪!
- 【当前热闻】天下岳商聚巴陵丨第三届岳商大会签约 21个项目总投资369.2亿
- 如何分辨孕妇是否缺锌?
- 董明珠股份遭冻结!1150万股!市值超4亿元!_环球热闻
- 12306登录不上显示已注册_12306登录不上 即时焦点
- win10小黑记事本怎么删除重名_win10卸载小黑记事本
- 反诈行为获见义勇为表彰 天天快播
- 韵达股份:5月4日融资买入1477.14万元,融资融券余额2.94亿元 实时焦点
- 实时:2023福建福州市连江县一环和贵安新天地片区部分学校选调教师资格审核工作通知
- 个税实名认证怎么操作(个税办税员实名认证怎么操作)
- 5月5日新股提示:华纬科技等申购
- 凯撒文化:5月4日获融资买入9120.35万元,占当日流入资金比例20.04% 全球微速讯
- 钛媒体科股早知道:AI与大基建的完美结合,这一行业人力成本占比高达90%_观天下
- 十一部门联合发文剑指医美乱象!这个“圈子”乱在哪?
- 【全球聚看点】spcc和q235材质的区别_spcc
- win10任务管理器怎么打开设置 win10任务管理器怎么打开 热头条
- 今热点:usb3.0传输速度只有30mb_usb3 0传输速度慢的原因
- 全球球精选!光明重金聚贤招才 优秀毕业生最高补助10万元
- 环球报道:襄阳100平米装修多少钱_100平米装修多少钱
- 每日聚焦:无人机袭击事件后,克宫平静如常,普京今日行程将正常公布
- 5月4日晚间利好消息一览(名单)
- 报名通道已开启!2023世界电信和信息社会日大会暨系列活动日程出炉_世界即时看
- 眼哭肿了怎么快速消肿止痛_眼哭肿了怎么快速消肿
- 土耳其警方抓获至少524名毒品犯罪嫌疑人 环球新要闻
- 将于4月24日开启预订 新款吉利ICON主角官图发布-世界报道
- 奥飞久通2022年亏损143.89万同比由盈转亏 产品成本大涨
- FIRST CREDIT(08215)发布一季度业绩 股东应占亏损991.14万港元 同比扩大646.45% 环球新资讯
- 进球助攻一个不少 扬州籍球员表现优异-快讯
- 沃格光电:副总经理张雄斌辞职|焦点速看