焦点热文:AI契约论⑥:一方水土养一方AI?数据合规对人工智能训练意味着什么
南方财经全媒体 吴立洋 21世纪经济报道 郑雪 实习生阳飘飘 上海、北京报道
编者按:
在2023年过去的几个月里,各大公司抢滩大模型、GPT商用化探索、算力基础设施看涨……如同15世纪开启的大航海时代,人类交往、贸易、财富有了爆炸性增长,空间革命席卷全球。变革同时,也带来了秩序的挑战,数据泄露、个人隐私风险、著作权侵权、虚假信息......此外,AI带来的后人类主义危机已然摆在桌面,人们该以何种姿态迎接人机混杂带来的迷思?
【资料图】
此刻,寻求AI治理的共识、重塑新秩序成了各国共同面对的课题。南财合规科技研究院将推出AI契约论系列报道,从中外监管模式、主体责任分配、语料库数据合规、AI伦理、产业发展等维度,进行剖析,以期为AI治理方案提供一些思路,保障负责任的创新。
随着AI产业的快速发展,被用于训练的数据集规模亦呈指数级上升趋势,人类在漫长历史中积累的经验与文化正快速被人工智能这一新兴智能形态所汲取,岁月的积累成为培养未来科技的基底,知识的璀璨星光同时照亮了文明的过去、现在与未来。
随着越来越多的数据被AI所学习乃至理解,人们欣喜地看到,人工智能的智慧与能力正发生翻天覆地的变化,这种进化速度远超已知的任何一种自然或人类造物,但同样也带来了社会对未知的隐忧。
难以完全确认的是,在人工标识和清洗那些被AI所汲取的数据和文本时,那些同样根植于历史的系统性恶意与偏见能够被抹去。人们不可避免地发问,当似乎有着无限潜能的AI在仰望亘古以来的知识星空时,是否应同时对其教化以人类社会的精神和道德法则。
善意、德行与律法,当从AI生成与成长的源头追溯是什么塑造了人工智能的形态,似乎仍需回到由人类所生产与处理的数据本身,而如何在数据的构建和使用中建立规则,同样蕴含着我们与AI这一内容、工具抑或是伙伴真正的相处模式,以及互相影响的未来。
在数据的合规标准中,个人隐私与版权是当前已具备一定实践标准的监管领域,但面对AIGC庞大的数据需求量和生产的“黑箱化”,隐私与版权合规在人工智能爆发期仍面临很多难以完全依据过往经验解决的新问题。
数据的源头
根据自第一代发布的GPT训练数据库至GPT-3的数据库总量,有观点推测,ChatGPT的基础GPT-4模型使用的训练数据量已超过10TB,1.8万亿参数。
(表1:历代CPT数据库构成及大小
数据来源:CPT论文、Alan D. Thompson)
如表1所示,在对第一代GPT模型进行训练时,OpenAI仅使用了4.6GB的书籍数据,随着版本的更新迭代,维基百科、期刊、Reddit链接、Common Crawl等其他数据被逐渐加入到训练数据中。
选择书籍作为数据库基础的原因也并不难理解——作为一种精炼且结构化的内容,书籍文本所具备的信息量和逻辑性高,非常适合人工智能进行学习。
“除数据规模外,决定数据集对模型训练效果的因素还包括数据的准确度和数据分布。”绿盟科技天枢实验室主任顾杜鹃在接受南方财经全媒体记者采访时表示,数据集在收集阶段会集合大量冗余数据、缺失数据和有毒数据,需要贴合目标任务对数据进行选择和预处理;而数据集合中不同类型的数据分布(例如正常/不正常数据的黑样本与白样本比例)同样会影响模型训练的效果。
除数据质量外,从当前各公司大模型研发实践来看,可得性亦是其构建训练数据集时需要重点考虑的因素。今年4月,作为GPT模型训练数据的重要来源之一,拥有5000多万DAU、3.66亿帖子数量的社交新闻站点Reddit宣布将针对AI大模型训练,对其企业级API收费,这无疑将抬高数据的获得门槛。
多位业内人士在与记者交流时指出,以数据质量和可得性为主要衡量维度,当前AIGC厂商的数据来源大致可分为三个面向:
其一是各个厂商历史积累的数据,数据的具体类型和质量取决于厂商的主营业务情况;其二是公开渠道爬取的数据,受限于当前各类反爬取技术和规则,此类数据获取将愈加困难;其三则是各类免费或付费的第三方数据库与数据集,例如GPT数据来源中全球最大的免费网页数据库Common Crawl,各类高校,以及企业科研机构所搜集和处理的开源数据集如WikiQA(微软研究院发布)、EXEQ-300K(北京大学、宾夕法尼亚大学、中山大学发布)、ArxivPapers(Facebook、伦敦大学学院、DeepMind发布)等。
不同数据来源的特征与实际应用需求间的耦合性,则形成了开发者不同的数据集构建策略,而合规,则是其中重要的原则之一。
顾杜鹃指出,开发者在制定数据收集策略时,需综合衡量在数据收集上的预算限制、数据质量、数据合规性以及数据源可靠性,对比各收费和免费数据源是否具备多样性、准确性、合法合规性等,结合开发目标,最终决定AI开发项目的数据源构成。
隐私保护与版权
在数据成为企业重要竞争力的今天,摆在企业面前的,除了回答如何获取数据的问题之外,最为直接的问题是,如何确保来源繁杂且格式不一的AI训练数据在个人隐私与版权层面的合规。
国内大模型方面,百度、阿里、科大讯飞等积累了丰富数据资源的企业纷纷加入大模型之战。其中,隐私数据成为数据治理和使用中不可逾越的红线。
一位不愿具名的算法工程师对记者介绍称,近些年来,企业对于隐私数据进行专门治理,公司内部所积累的相关数据很难接触,相关数据需要经过脱敏等措施才可使用。“从技术上来说,不会故意使用相关数据;如果发现相关漏洞,第一选择一定是堵上漏洞,现在谁都不敢去踩红线。”
大模型自身“大力出奇迹”的暴力美学,拥有的数据越多、质量越高,大模型的能力也就愈加强大。如上文所言,除企业本身所积累的数据之外,公开数据、开源数据集等也构成大模型数据来源的一部分。
某互联网大厂人工智能架构师对记者表示,“对于大模型来说,数据集的范围肯定是越多越好,覆盖的领域越广越好。开源的数据集的使用则会根据哪部分数据的适用途径进行匹配。”
但其中,随着数据来源的扩大,如何解决人工智能模型训练数据中的可版权性问题,成为关注的焦点。即便是号称“开源”的各类数据库,也并非意味着完全不存在版权层面的合规问题,当前各类开源平台往往以开放数据共享、社区数据许可协议等协议方式规范相关内容的署名权、继承权、盈利权、演绎权等权益。
具体到开发层面,我国的AIGC领域的版权规制亦存在争议。上海大邦律师事务所高级合伙人游云庭在接受记者采访时表示,根据相关法律,利用数据训练人工智能实际上存在“先上车再买票”的问题:“我国著作权法并没有规定合理使用的相关情况。线上线下的声音文字图片,如果有独创性,是个人创作的,就构成受著作权法保护的作品,未经著作权人许可进行使用,涉嫌侵权。”
值得关注的是,传统的“授权许可模式”对于大模型的数据训练存在天然困境,不仅在于实操层面难以落地,更在于对产业研发的长期影响。业界有观点认为,需将数据纳入合理使用的范畴进行规制。
可以看到,日本、英国、欧盟等已对将数据挖掘作为合理使用的情形进行了立法确认:日本以“计算机信息分析”的名义规定了文本数据挖掘的著作权例外,英国同样引入文本和数据挖掘的版权许可或例外情况,欧盟则选择“非科研目的”例外的谨慎方案……这些监管举措的背后,则是各国对AIGC规制路径的探索。
规则实践
梳理近期不同国家和地区对AIGC的立法不难发现,基于不同的法律体系和产业发展愿景,不同国家选取的实践路径亦各有侧重。
以近期刚刚在欧洲议会通过《人工智能法案》谈判授权草案的欧盟为例,这部于2021年正式成为欧盟委员会提案的法案中规定,人工智能大模型的创建者需要在人工智能使用之前进行评估并减轻各种风险。相关公司必须公开训练人工智能使用的数据,以确保其使用受版权法保护的数据训练。
而随着立法期间ChatGPT的横空出世,欧洲立法者很快对法案增添了修正案,扩大了AI开发者的禁止行为清单,其中包括“禁止从社交媒体或监控摄像头中抓取生物特征数据以创建面部识别数据库(侵犯人权和隐私权)”。
在立法层面的法律法规不断推进的同时,司法层面的案例亦开始涌现,今年1月,三名艺术家联合对Stability Al、DeviantArt和Midjourney发起集体诉讼,指控其训练数据侵害了艺术家版权。
作为全球首例知名的AIGC商业化应用领域,算法模型及训练数据版权侵权案,原告认为Stable Diffusion等AI模型“将无数受版权保护的图像存储和合并为训练图像后……生成完全基于训练图像的‘新’图像”,从而获得商业利润,挤占了原作品的交易市场。
虽然Stable Diffusion案距尘埃落定无疑还将面临长久的诉讼过程,但在部分国家,为AI产业大开绿灯已成为重要的政策指引方向。
近日,日本最高教育行政长官、文部科学大臣在会议上重申,日本政府不会对人工智能训练过程中使用的数据实施版权保护。上海大邦律游云庭告诉南方财经全媒体记者,根据日本著作权法第30条第4款规定,如果不以欣赏作品中表达的思想或情感为目的,且没有不合理地损害著作人权益的,可以合理使用他人享有著作权的作品。
“考虑到立法已经先行,虽然会有动漫,影视制作的利益群体的游说,个人认为这个事情法律上的争议还是会比较小。”游云庭表示。
“整体来看,各国都在基于自身人工智能产业发展的不同定位和战略诉求,设计和实现自身的治理框架和治理主张,并引入与之匹配的治理机制。”
北京师范大学法学院博士生导师、中国互联网协会研究中心副主任吴沈括指出,以欧盟为例,基于其强调数字主权的立场,其更倾向于从数据治理角度强化与AI相关的数据流转利用规则,日本则表现出以产业数据促进流转利用的治理思路。“我国强调的是一种以风险为导向的综合治理思路。”他进一步表示。
某种程度上,隐私与版权仍是沿用人类已有的法律体系对AI利用生产资料的方式加以监督,而如何保证AI这一新兴事物的“思考”与“输出”符合人类的伦理和道德,却是一项几无先例可循的监管实践。在本专题的下一篇,我们将进一步探讨如何由从数据角度对AI生成与训练加以梳理和监管,以打造真正“向善”的下一代人工智能。
统筹:王俊
记者:吴立洋 郑雪 阳飘飘
标签:
推荐文章
- 焦点热文:AI契约论⑥:一方水土养一方AI?数据合规对人工智能训练意味着什么
- 长城汽车5月销售超10万辆 新能源、海外销量均创新高 环球讯息
- 探访北京二手房中介门店:挂牌量增多 市场仍将筑底
- 全球热点!2009.13亿元!南京,跑起来了
- 环球播报:8月底前,太山景区向未成年人免费开放
- 广西烧烤竹签长1米8 主要是招待客人酒席时做的_环球新消息
- 世界瑶族发祥地灌阳千家洞文旅度假区开门迎客_世界快看点
- 妒海泰国电视剧全集完整版_妒海男主角
- 沪深股通|楚天高速6月5日获外资卖出0.05%股份|环球资讯
- 天猫上的太平鸟官方旗舰店的女装是正品吗_今天去买衣服 店员说那都是假的 说不可能做网店砸自己牌子
- 全国公路水运工程试验检测管理信息系统
- 市气象局:送气象科普知识进校园 天天速递
- 每日热闻!四川理塘格聂景区要求游客提前15天报备核准!称将长期执行
- 今日热闻!劲嘉股份:公司实际控制人被调查一事,公司尚未知悉相关进展及结论
- 中远海控:预计前三季净利约972.06亿元,同比增约43.73%
- 当前关注:汽车发动机排名前十位的(汽车发动机排名前十)
- 殿堂级私人收藏春拍预展 天民楼藏瓷呈现顶级艺术盛宴 天天时讯
- 世界热议:面面垂直的判定定理_面面垂直
- 杭州热电(605011.SH)股价再创历史新高! 上交所:公司股价与基本面严重偏离_世界快报
- 宝石td迷宫七进七出_宝石TD
- 当前热文:moto razr 40 Ultra销量破万台 今天刚首销
- 创世纪:公司的核心产品是中高端数控机床,公司产品应用广泛,主要产品可用于机器人部分零部件的加工
- 今日快讯:创耀科技: 关于开立募集资金理财产品专用结算账户的公告
- 畅享“冰甜夏日” 新华数藏芒种节气数字藏品限量发行
- 世界新消息丨“路二代”张峰 (图)
- 世界资讯:全国自驾游最佳路线_全国自驾游最佳路线推荐
- “猛士”迎“归舟” 东风持续助力中国航天梦
- 世界看热讯:山东:去年审结案件15293件 依法保障绿水青山
- 中国电建:分拆上市不会影响公司控股权 同时可以解决同业竞争问题
- 李嗣镕庆祝职业联赛首秀:感谢支持我的人,这只是篇章的开始
- 全球热议:北京朝阳区“开放活力看朝阳”主题展将亮相深圳文博会
- 环球时讯:开封市通许县四所楼镇:多措并举确保小麦颗粒归仓
- 快资讯丨我们为什么爱演唱会“回忆杀”
- 6月16日至18日第一届山东省职业技能大赛将在青岛举办
- 雅阁“亲兄弟”!直瀑式中网造型更显凶悍 海外网友都夸好
- 浙江永强:6月2日融资买入2140.17万元,融资融券余额2.36亿元
- 消息与供需共振 镍价以偏弱震荡为主
- 偏低是什么意思_偏低-焦点滚动
- 当前滚动:克里斯-保罗_克里斯保罗介绍
- 环球播报:自助保险卡激活流程_自助保险卡激活
- 消息!混凝土的配合比设计 c25混凝土的配合比
- 长期股权投资是什么意思啊_长期股权投资是什么意思 全球聚焦
- 中原关话_中原关中指的是什么
- 首都在线:英伟达是公司的主要供应商|焦点消息
- 记者:加尔蒂将离开但穆帅不太可能接任 巴黎在谈B席交易
- 印尼马鲁古省附近海域发生6.0级地震 快报
- 玉马遮阳:暂时没有涉及遮阳成品制造计划_天天滚动
- 环球热点!行业追踪|软饮料市场(5月29日-6月4日):玻璃价格环比大幅下跌
- 世界速讯:产品工作环境条件有哪些_产品工作环境条件
- 世界速讯:妣读什么音?身上起包吃什么药(妣读什么音)
- 海口发布中高考期间饮食安全消费提示:不要迷信“补脑”产品
- 神舟十五号航天员乘组安全顺利出舱_世界讯息
- 胸围34b是什么尺码是多大_胸围34b是什么尺码|世界要闻
- 红外线波长与温度的关系(红外线波长)|世界报资讯
X 关闭
最新资讯
- 最新拆迁消息!涉及绍兴这8个村 全球看热讯
- 天天观热点:浓硫酸浓度密度对照表(浓硫酸浓度)
- 精彩看点:描写春天的诗句有哪些古诗_描写春天的诗句有哪些
- 蓝色白色和什么颜色搭配_白色和什么颜色搭配
- 属牛的和什么属相不合生相克,属牛的!属相和什么属相犯冲|天天快播
- 世界即时:侯友宜高呼我是闽南人 两岸交流就不会打仗
- 流线型是什么意思_流线型|当前观点
- 世界即时:三甲医院里的绝活儿丨甲状腺“无痕”手术让健康与美丽同行
- 不落下的纸飞机怎么折_不落的纸飞机的折法
- 微信群管理员怎么给 微信群管理员设置方法 微信群群管理员怎么设置?|天天观热点
- 【热闻】苏拉玛突破碎光之地_突破碎光之地
- 压力面试案例(压力面试一般被安排在整个面试的哪个阶段)_最新资讯
- 满洲里市气象台发布雷电黄色预警【III级/较重】【2023-06-03】
- 城市的风景线 车迷的盛宴 “老爷车+超级跑车”巡游郑州
- 视讯!谁能阻挡这个“灵活的胖子”呢?
- 农耕不断,“罗布泊”放心钾一路相伴_世界快资讯
- 泰丰智能过会:今年IPO过关第134家 一创投行过3单 全球百事通
- 21汽车视频|新造车排位赛5月再生变:理想、埃安再创新高
- 黯然销魂歌曲原唱_黯然销魂蛋文集 通讯
- 美航母现身_北极挑战_演习具体是什么情况-每日讯息
- 扬州市委书记王进健:深化企地合作 全力推进港产城深度融合发展
- 今日热闻!打印机怎么清洗内部滚轴 打印机怎么清洗
- 戏曲脸谱_当前焦点
- 一闪一闪亮晶晶儿歌中文名字_一闪一闪亮晶晶儿歌中文_今日热闻
- 用友t打印凭证怎么设置_用友t6凭证纸打印设置
- 国家能源局组织发布《新型电力系统发展蓝皮书》 新型电力系统将加强四大体系建设|世界即时看
- 媚儿个人资料三围照片 22岁健身女孩8个月练出翘臀 全球观察
- 男生手脚冰凉怎么调理饮食_男生手脚冰凉怎么调理|天天热资讯
- 【全球新视野】启用网络发现保存后又变成了关闭_启用
- 6月1日起江苏全面进入汛期 全省扎实推进各项备汛措施再落实_新资讯
- 微软的新猎物:OpenAI之后,下一个是动视暴雪
- 文件被和谐是什么意思_被和谐是什么意思
- 天天通讯!“百模”争舸:群雄逐鹿的野心和背后的冷思考
- 岳阳高速警察通报一起危险化学品运输车辆交通事故:两车受损,一人受轻微伤 天天热门
- 世界快消息!我的世界喷药水怎么做_我的世界凋零药水怎么做
- 别让六一成为孩子的“一日童年”体验券
- oppo(enco q1)-热闻
- 纵横游控股(08069)完成发行1.125亿股配售股份
- 宫城理子(关于宫城理子介绍) 焦点要闻
- 公共 | “馆校合作”为荔湾学子送上“六一”大礼包 消息
- 每日消息!微博自己的二维码怎么弄出来 微博二维码怎么生成
- 今亮点!恋爱错误宝典广播剧在哪里播_主役是谁
- 世界百事通!延庆大榆树镇:“田间地头”绽放别样“青春光彩”
- play的第三人称单数句_play的第三人称单数
- 如何通过券商公司理财服务实现专业化安全高效的个人财富管理 最资讯
- RCEP对15个签署国全面生效 将为区域经济一体化注入强劲动力
- 23.18万元!新摩卡DHT-PHEV上市
- 习主席复信的孟加拉国儿童 她的名字叫“中国”
- 香港特区政府发售近60亿美元绿色债券 增设10年期人民币债券
- 临沂科技职业学院怎么样 好不好
X 关闭