Featured image of post 音频生成的未来:多语言文本转换模型 | 开源日报 No.720

音频生成的未来:多语言文本转换模型 | 开源日报 No.720

Bark 是一个开源的文本到音频生成模型,基于变换器架构,支持多语言自动识别,能够生成真实的语音及多种音频内容,包括音乐和音效,甚至非言语交流。该项目提供预训练模型,支持商业和研究用途,且在性能上在 GPU 和 CPU 上均有显著的速度提升。

MetaGLM/FinGLM

Github Repo Stars License: `NOASSERTION` Language: `Unknown`

demo-picture-of-FinGLM

FinGLM 是一个致力于构建开放、公益和持久的金融大模型项目,旨在通过开源促进「AI+ 金融」的发展。

  • 提供深度解析上市公司年报的对话交互智能系统
  • 开放 70G/1w+ 份年报数据及 10000 条人工标注评测数据
  • 支持多种微调策略,如 ptuningv2 和 lora 等
  • 设有详细的数据准备、模型微调及问答流程指导

uiua-lang/uiua

Github Repo Stars License: `MIT` Language: `Unknown`

demo-picture-of-uiua

uiua 是一种基于栈的数组编程语言。

  • 提供在线解释器,用户无需安装即可尝试语言。
  • 支持通过 Cargo 安装本地解释器,适用于多种操作系统。
  • 内置语言服务器,可与编辑器扩展配合使用,提高开发效率。
  • 可选功能包括音频和摄像头支持,以增强应用程序能力。

hteen/apple-store-helper

Github Repo Stars License: `GPL-3.0` Language: `Unknown`

demo-picture-of-apple-store-helper

apple-store-helper 是一个用于帮助用户预约购买 iPhone 的工具。

  • 支持 iPhone 16 系列的预约
  • 手动选择门店和型号,灵活性高
  • 可以实时监听库存变化,并在有货时自动打开购物车页面
  • 提供推送通知功能,通过「Bark」应用将信息发送到 iOS 设备
  • 简单易用,可通过命令行运行和打包

CVI-SZU/Linly

Github Repo Stars License: `NOASSERTION` Language: `Unknown`

demo-picture-of-Linly

Linly 是一个开源的中文对话模型和基础模型项目,提供多种基于 LLaMA 和 Falcon 的中文 NLP 模型及其训练数据。

  • 提供 Linly-ChatFlow 中文对话模型以及 Chinese-LLaMA (1-2) 和 Chinese-Falcon 基础模型
  • 支持全参数训练和多种量化方案,适用于 CUDA 和边缘设备部署
  • 开放从头训练的 Linly-OpenLLaMA 模型,并优化了字词结合 tokenizer
  • 详细公开了数据准备、模型训练和评估流程代码,实现可复现性

suno-ai/bark

Github Repo Stars License: `MIT` Language: `Unknown`

demo-picture-of-bark

Bark 是一个基于变换器的文本到音频生成模型,能够生成高度真实的多语言语音及其他音频内容。

  • 支持多种语言,并能自动识别输入文本的语言。
  • 生成包括音乐、背景噪声和简单声音效果在内的各种类型音频。
  • 能够产生非言语交流,如笑声、叹息和哭泣等声音。
  • 提供预训练模型检查点,支持商业用途并可用于研究目的。
  • 在 GPU 上实现 2 倍速度提升,在 CPU 上实现 10 倍速度提升。
Licensed under CC BY-NC-SA 4.0