近日,苹果公司与瑞士洛桑联邦理工学院(EPFL)联合开源了一款名为4M-21的多模态视觉模型。该模型具有广泛的通用性和灵活性,尽管只有30亿参数,但它可以执行数十种任务,包括图像分类、目标检测、语义分割、实例分割、深度估计和表面法线估计等。
4M-21模型在21种不同的模态下进行训练,能够处理包括图像、文本、音频等多种模态的任务。这种多模态能力使其在跨模态检索、可控生成和开箱即用性能方面表现出色。
4M-21还支持任意到任意模态的转换,进一步扩展了其应用范围。
4M-21模型的推出标志着从传统单模态优化模型向多模态综合处理能力的重大转变,展示了苹果在AI领域的强大实力和创新能力。
开源地址:https://github.com/apple/ml-4m/ 论文地址:https://arxiv.org/abs/2406.09406 在线demo:https://huggingface.co/spaces/EPFL-VILAB/4M
前几天给大家分享了 Google 推出的一款名为 Project IDX 的新型云集成开发环境(IDE),以改善开发人员的体验,提供人工智能工具和功能,以更有效地构建应用程序。
近日,全球著名开源平台GitHub在官网宣布,GitHub Copilot Chat正式公测。GitHub Copilot Chat是Copilot X的核心功能,集成了OpenAI的GPT-4模型,无论是经验丰富的专业开发人员,还是刚入门的小白,都能通过文本对话的方式快速获取源代码和多种开发指导。
目前,所有GitHub Copilot 企业版用户,都可以访问GitHub Copilot Chat公测版,将对话式开发体验带入到Visual Studio和VS Code开发平台中,几分钟就能获取一套完整的应用源代码。
昨天晚上,Anthropic 正式推出了 Claude 3 系列模型,包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。
这些模型在多个方面超越了GPT-4,包括推理、数学、编码、多语言理解和视觉处理等。
以下是Claude 3系列模型与同行在多个能力评估基准上的对比:
可以看到,其中Claude 3 Opus模型性能完全碾压GPT-4,以及Gemini 1.0 Ultra。
Claude 3 Sonnet在部分基准上,比如GSM8K、MATH等超越了GPT-4。Claude 3 Haiku可以与Gemini 1.0 Pro相抗衡。
GPT-4是否真的已经过时?Claude 3的横空出世是否意味着我们即将进入一个全新的AI时代?
Claude 3 体验地址:https://claude.ai/chats
这绝对是人工智能领域再迎里程碑式突破!阿里巴巴旗下Qwen团队今日宣布,其对话平台Qwen Chat正式上线"AI前端工程师"功能(Web Dev模式),用户可通过自然语言指令一键生成完整网页应用,涵盖HTML、CSS、JavaScript三大核心技术栈。
该功能展现出五大核心创新: 1. 全栈代码智能生成 用户输入如"创建水果电商网站"等指令,系统即可生成基于React框架的生产级代码,默认采用Tailwind CSS样式与.jsx单文件结构,实现像素级精准渲染。实测显示,个人主页、客服表单等基础页面生成仅需数秒。 2. 跨模态界面复刻 支持"复刻Twitter/X界面"等指令,AI可精准还原目标网站布局与视觉元素。开发者社区已有成功复刻GitHub等复杂界面的案例,代码结构清晰且具备语义化特征。 3. 动态交互实现突破 突破传统静态页面限制,可生成含商品轮播、交互动画等元素的电商展示页面。官方演示中,防晒产品网站的动态视觉呈现达到专业前端工程师水准。 4. 智能解析增强开发 支持网页文件上传解析,AI自动识别内容结构并生成适配展示方案,大幅降低原型设计到代码实现的门槛。 5. 双模式协同优化 搭配"深度思考"模式可提升生成质量,系统通过延长推理时间优化代码健壮性与兼容性,满足企业级应用需求。
当前该功能已全面接入Qwen Chat平台(chat.qwen.ai),支持平台内所有大模型调用,感兴趣的小伙伴可以试玩一下!