·
Anthropic警告:AI正学会「自我升级」,呼吁全球紧急暂停开发
科技热点:Anthropic警告:AI正学会「自我升级」,呼吁全球紧急暂停开发
2022年
- 年初:Anthropic由一群AI领域的顶尖人才成立,包括从OpenAI出走的前OpenAI安全与政策副总裁Dario Amodei以及他的妹妹Daniela Amodei。公司从创立伊始就聚焦于AI安全性研究,强调构建“可控”和“对齐”的AI系统。
- 5月:Anthropic获得第一轮融资,金额达1.24亿美元,投资方包括Skype联合创始人Jaan Tallinn和科技企业家Elad Gil等。
- 下半年:公司开始着手开发其首个AI模型Claude,目标是打造一个能够进行复杂对话和文本生成的AI助手。
2023年
- 2月:Anthropic发布Claude 1.0版本,标志着其正式进入AI助手市场。Claude被设计为更安全、更可控的AI系统,能够更好地理解并遵循用户指令。
- 6月:公司完成新一轮融资,估值达到50亿美元。投资者包括谷歌、Spark Capital和Salesforce Ventures等。
- 9月:Anthropic发布Claude 2.0版本,在性能、安全性和可解释性方面均有显著提升。Claude 2.0被应用于多个领域,包括客户服务、内容创作和数据分析等。
2024年
- 1月:Anthropic宣布Claude的日活跃用户数量突破百万,成为AI助手市场的重要参与者。
- 3月:公司内部开始测试新一代AI模型Mythos Preview,其性能远超Claude 2.0,能够处理更复杂的任务并生成更高质量的文本。
-
5月:Anthropic发布内部数据,显示,AI正在加速AI自身的开发进程。具体数据包括:
- 超过80%的代码库代码由Claude撰写。
- 工程师每日合并代码量比2024年初增长8倍。
- 员工使用Mythos Preview后,自身产出约为不使用AI工具时的4倍。
-
6月4日:Anthropic在官方博客发表题为《当AI构建自身》的文章,首次公开披露上述数据,并提出“递归自我改进”概念,警告AI系统可能在未来两年内具备自主设计并改进自身继任者的能力。
- 文章指出,AI的快速发展可能导致其超越人类控制,带来不可预知的后果。
- Anthropic呼吁全球AI实验室协调行动,暂停或放缓前沿AI的开发,以便让社会结构和对齐研究能够跟上技术进步的步伐。
2025年
-
年初:Anthropic的呼吁在全球AI界引发广泛讨论。支持者认为,AI风险确实需要被重视,暂停开发可以为制定更严格的监管政策提供时间。批评者则质疑Anthropic的动机,认为此举是出于商业竞争和营销目的。
- 一些开源AI社区指责Anthropic试图通过呼吁监管来限制开源模型的发展。
- 部分AI伦理学家认为,Anthropic对Mythos模型的限制性发布是“虚伪”的表现,一方面宣传AI风险,另一方面又不愿公开其安全模型。
-
3月:在多方压力下,Anthropic召开新闻发布会,回应外界质疑。公司联合创始人Jack Clark重申对AI风险的担忧,并强调公司对AI安全性的承诺。
- Clark表示,Anthropic并非反对AI发展,而是希望以更负责任的方式进行开发。
- 他承认Mythos模型的安全限制是出于谨慎考虑,并承诺将逐步开放部分功能供研究使用。
- 6月:全球AI峰会召开,Anthropic与其他主要AI公司和机构共同签署了一项关于AI安全开发的联合声明,承诺加强AI系统的安全性和可控性,并建立更完善的AI风险评估机制。
2026年
- 1月:Anthropic发布Mythos 1.0版本,在安全性、可解释性和可控性方面进行了重大改进。该版本被应用于多个领域,包括医疗诊断、金融分析和科学研究等。
- 5月:公司内部数据显示,AI对自身开发的加速效应依然存在,但通过一系列安全措施和监管机制,AI系统尚未出现“递归自我改进”的迹象。
- 下半年:Anthropic继续致力于AI安全研究,与全球多家研究机构合作,探索更先进的AI对齐技术和风险控制方法。
2027年
- 年初:Anthropic宣布启动一项名为“AI安全倡议”的全球合作项目,旨在推动AI安全技术的发展,并促进AI伦理和安全标准的国际化。
- 3月:公司发布Mythos 2.0版本,进一步提升了AI系统的安全性和可控性,并引入了新的AI对齐技术。
- 12月:在全球AI界共同努力下,AI安全研究取得重大进展,AI系统的安全性和可控性得到显著提升。
Anthropic对AI风险的警示以及其呼吁全球暂停AI开发的举动,虽然充满争议,但也促使整个行业更加重视AI安全问题,并推动了一系列AI安全技术的发展。
Repost this post?
Share with your followers.
Reply