论文
通过 OWL-ViT 实现开放词汇对象检测
通过 OWL-ViT 实现开放词汇对象检测
神经网络
[Libra] 利用解耦视觉系统对大规模语言模型进行新的多模态设计
[Libra] 利用解耦视觉系统对大规模语言模型进行新的多模态设计
大型语言模型
[DrHouse]利用传感器信息和专业知识的诊断系统
[DrHouse]利用传感器信息和专业知识的诊断系统
医疗
全面调查钢铁行业基于人工智能的预测性维护的现状和挑战
全面调查钢铁行业基于人工智能的预测性维护的现状和挑战
预测模型
利用信息熵和 CRReLU 优化激活函数的方法
利用信息熵和 CRReLU 优化激活函数的方法
损失函数
[让每个人都能享受便利......]使用 WHISPER 对发音障碍者的语音进行适配
[让每个人都能享受便利......]使用 WHISPER 对发音障碍者 ...
肢体瘫痪者的语音识别功能
[你使用的是 Wav2vec2?这是一种更有效的语音特征提取方法
[你使用的是 Wav2vec2?这是一种更有效的语音特征提取方法
肢体瘫痪者的语音识别功能
一篇推翻传统观点的论文!听力障碍者是根据噪音而不是根据他们的特征进行分类的!
一篇推翻传统观点的论文!听力障碍者是根据噪音而不是根据他们的特征进行分 ...
肢体瘫痪者的语音识别功能
平等享受便利!EasyCall 语料库",这是一个针对听力障碍者的语音语料库
平等享受便利!EasyCall 语料库",这是一个针对听力障碍者的语音 ...
肢体瘫痪者的语音识别功能
质疑 "规范"!使用超低复杂度 DNN 抑制噪音
质疑 "规范"!使用超低复杂度 DNN 抑制噪音
噪声抑制
人人都会说英语的时代已经到来!适用于多种语言的零镜头语音合成技术让任何人都能像母语人士一样轻松发音!
人人都会说英语的时代已经到来!适用于多种语言的零镜头语音合成技术让任何 ...
肢体瘫痪者的语音识别功能
MVANet:最强大的背景消除模型
MVANet:最强大的背景消除模型
神经网络
[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步
[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步
神经网络
PosterLlama:语言模型设计能力和内容感知布局生成
PosterLlama:语言模型设计能力和内容感知布局生成
布局生成
MaskDiT:用于图像生成的低学习成本扩散模型
MaskDiT:用于图像生成的低学习成本扩散模型
生成图像
从制造业机器人操作演示中学习的路线图
从制造业机器人操作演示中学习的路线图
机器人
根据产品类别和品牌风格生成电子商务背景图片
根据产品类别和品牌风格生成电子商务背景图片
生成图像