97SE狼狼狼狼狼亚洲网,日韩亚洲国产高清免费视频,亚洲精品乱码久久久久久APP

　　来源：中国经营报

　　本报记者秦枭北京报道

　　在人工智能飞速发展的当下，随着模型规模的不断扩大，一个严峻的问题正逐渐浮现——可用数据面临枯竭。数据，作为AI大模型的“血液”，其质量与数量直接决定了模型性能的上限。研究机构Epoch AI近日公布的研究预测，到2028年，用于训练AI模型的典型数据集的规模将达到公共在线文本总量的估计规模。这意味着，未来几年内，AI大模型可能会耗尽可用于训练的高质量数据资源。《自然》杂志最近也在头版敲响警钟——AI革命正“吸干”互联网数据的海洋。

　　互联网数据见底？

　　AI大模型对数据的需求量是巨大的。以GPT-4为例，其参数量达到了万亿级别，需要海量的数据来进行训练。

　　一位智算中心的工作人员告诉记者：“大模型的数据来源主要有几种，第一种互联网公开数据是常见的数据来源，涵盖网页、社交媒体、论坛、学术论文和开源数据集等，可通过爬虫或API获取。第二种是企业内部数据，包括用户行为、交易和产品日志等，对特定行业的大模型更有价值。第三种是第三方数据提供商则提供专业整理的行业数据。”

　　然而，互联网上可用的高质量数据资源却十分有限。虽然互联网上每天都在产生大量的数据，但这些数据的生成速度远远无法满足AI大模型的需求。

　　OpenAI原科学家苏茨克维尔曾表示，“我们只有一个互联网”，数据的增长正在放缓，而这一推动AI飞跃的“化石燃料”正逐渐枯竭。

　　上述工作人员坦言：“互联网数据面临枯竭的说法并不准确，准确地说是目前高质量的数据已经见顶。社交媒体上的虚假信息、冗余内容，以及网络上的偏见言论以及AI自己生成的数据等，都严重影响了数据的质量。这些低质量的数据不仅无法为模型提供有效的训练素材，还可能对模型的判断产生误导，导致模型性能的下降。低质量数据对大模型来说不是养料，而是毒药。”

　　他举例道：“之前（有报道称）Gemini说自己就是文心一言，听起来挺搞笑的，但背后就是互联网上的资料可能被AI严重污染了。”

　　八友科技创始人、CEO梁斌表示：“在2023年的市场上，所有大模型的客户，包括各类企业，都在拼命购买数据，但他们并不完全了解那些数据是好或是坏。到了2024年，客户只购买那些有着严格标准的数据，例如购买图片时，他们会指定图片中景物的大小和所需包含的内容。因此，客户现在已经能够识别出什么是好的数据，也就是说高质量数据的重要性正在日益增加。”

　　“而对于数据来源的后两者来说，获取的难度是极大的。”上述工作人员表示，“现在AI大模型用得越来越多了，数据所有者也开始管得越来越严，对内容的使用规则更加严格了。”

　　工信部信息通信经济专家委员会委员、DCCI互联网研究院院长刘兴亮向记者分析道，隐私与安全法规是限制数据获取的主要原因之一，全球范围内对数据隐私和安全的关注度持续提升，如《欧盟通用数据保护条例（GDPR）》和《数据安全法》等法律法规限制了数据的采集、存储和使用。用户对隐私保护的需求增加，许多企业和平台不愿意或无法提供大规模用户数据。

　　除上述原因之外，高质量数据获取的成本之高，使得企业难负其重。目前大模型厂商正在投入巨资清洗数据，但代价高昂。

　　“原始数据中存在大量噪声，进行清洗和标注的成本极高，尤其是在一些高精度需求的领域（如医疗、法律）。”刘兴亮表示，“与此同时，数据获取还面临数据版权问题，许多高价值数据（如文学作品、科研论文等）受版权保护，导致数据获取和使用受到法律约束。”

　　业内普遍认为，久久未能发布的GPT-5正是因为数据瓶颈显现，导致训练之路困难重重。

　　不过，OpenAI、谷歌等几家头部公司也坚称，AI并没有遇到所谓的“壁垒”和“瓶颈”。他们依然对AI的前景感到乐观，并认为通过开发新型数据源、增加模型推理能力以及应用合成数据，AI模型将继续保持进步。

　　突破数据瓶颈

　　数据枯竭问题的渐显，为AI大模型的发展敲响了警钟。企业也开始正视这一问题，积极寻找解决之道。通过挖掘现有数据的潜力、利用合成数据、建立数据共享平台、加强数据治理以及探索新的数据来源等多方面的努力。比如，OpenAI成立了一个基础团队，该团队主要探索如何应对训练数据的匮乏，调整规模法则的应用，保持模型改进的稳定性。

　　“现在大模型频繁地降价，一方面是成本因素，另一方面也是为了获得更多的数据。”上述智算中心的工作人员直言，“通过低价甚至免费吸引用户使用模型，从而获得更多的数据来优化模型效果，使用更多的数据能带来更出色的模型效果，进而吸引更多用户，形成良性循环。”

　　在大部分业内人士看来，在数据资源有限的情况下，如何促进不同机构、不同行业之间的数据共享与合作，是解决数据荒的有效途径。通过数据共享平台，企业、研究机构等可以将自己的数据资源进行整合和共享，实现数据的互联互通。

　　知名经济学者、工信部信息通信经济专家委员会委员盘和林认为：“最直接的办法，AI企业和互联网平台企业合作，共同打造AI大模型。互联网平台的算力、资金、数据都很充足。”

　　中国科学院院士梅宏在接受记者采访时表示：“举个例子，现在的公交车、出租车、地铁等各种出行方式的数据，均是由各自独立的信息系统来汇聚的，形成了一系列的数据孤岛。如果要把这些数据汇在一起共享融合，需要实现各系统间的互操作。如果每个机构都做一遍，成本很高，效率也很低。因此，需要构建一套以数据为中心的新型基础设施，从根本上支撑数据在互联网上的互联互通，这就是所谓的数据基础设施，它本质上是互联网技术体系的一次拓展和延伸。”

　　“鼓励建立行《500万足球比分旧版本》业间或科研领域的开放数据平台，同时制定合理的数据共享与使用规范，确保合规性。”刘兴亮表示，“‘数据荒’更像是数据获取和使用效率的问题，而非绝对的数据匮乏。隐私与安全法规确实对数据的自由流通提出了更高要求，但也推动了技术手段和商业模式的创新。未来，人工智能行业需要在数据获取效率、技术突破和法规遵循之间找到平衡点。”

责任编辑：李桐

亚洲国产日韩不卡综合,内射在线Chinese,日韩综合一卡二卡三卡死四卡 ,国产精品久久午夜夜伦鲁鲁

给大家科普一下500万足球比分旧版本

光大期货：6月1日金融日报

雷科防务(002413.SZ)：以6300万元转让孙公司理工睿行21%股权资产

光大期货0530热点追踪：玻璃现货依旧弱势？

Mac 用户请尽快升级：微软发现苹果 macOS 漏洞，可绕过系统安全防护

中信证券：维持华虹半导体买入评级目标价42港元

口子窖跌落“徽酒老二”之位投资者质疑管理层不作为

同道猎聘(06100)5月30日耗资约177.94万港元回购20.66万股

交易荒继续，高盛考虑第三轮裁员

比亚迪：今年新能源汽车累计销量已超100万辆

“一成首付”卖房，安徽国企安联高速在上海面临去化难题

6月2日沪深两市涨停分析：地在线录得6天4板冠石科技走出3连板

中国资源交通公布呈请人已撤回呈请