近日,苹果公司与瑞士洛桑联邦理工学院(EPFL)联合开源了一款名为4M-21的多模态视觉模型。该模型具有广泛的通用性和灵活性,尽管只有30亿参数,但它可以执行数十种任务,包括图像分类、目标检测、语义分割、实例分割、深度估计和表面法线估计等。
4M-21模型在21种不同的模态下进行训练,能够处理包括图像、文本、音频等多种模态的任务。这种多模态能力使其在跨模态检索、可控生成和开箱即用性能方面表现出色。
4M-21还支持任意到任意模态的转换,进一步扩展了其应用范围。
4M-21模型的推出标志着从传统单模态优化模型向多模态综合处理能力的重大转变,展示了苹果在AI领域的强大实力和创新能力。
开源地址:https://github.com/apple/ml-4m/ 论文地址:https://arxiv.org/abs/2406.09406 在线demo:https://huggingface.co/spaces/EPFL-VILAB/4M
今天我要向大家介绍一个非常强大的工具——Perplexity Deep Research。在Humanity’s Last Exam这个测试中,我刷到了20.5%的成绩,这个成绩超过了目前发布的所有模型,仅次于OpenAI的Deep Research。最棒的是,这个工具是免费提供的!
让我来简单介绍一下它的工作原理: 1. 研究推理:Perplexity的深度研究模式配备了搜索和编码功能,能够迭代搜索、阅读文档,并推理下一步行动。我自己在使用时,发现它能够非常智能地找到相关材料并进行深入分析。 2. 报告撰写:一旦源材料被全面评估,它会将所有研究综合成一份清晰而全面的报告。我在使用过程中,发现生成的报告非常详细且易于理解。 3. 导出与分享:你可以将最终报告导出为PDF或文档,或者将其转换为Perplexity Page,与同事或朋友分享。我自己就经常把报告导出为PDF,方便与团队共享。
关于测试得分,Humanity’s Last Exam上达到了20.5%的准确率,这个成绩显著高于Gemini Thinking、o3-mini、o1、DeepSeek-R1等众多领先模型。在SimpleQA基准测试中,Perplexity Deep Research以93.9%的准确率远超其他领先模型的性能,这个测试包含数千个用于检验事实性的问题。而且,Perplexity Deep Research在完成大多数研究任务时仅需不到3分钟,效率非常高。