用AI声控玩原神,动动嘴皮即可打怪,代码教程已开源( 三 )


你要做的就是告诉机器这些组合和文字的对应关系 , 接着让设备进行机器学习 。
通过这样的方式获得图片本身和图片中视觉概念(V1 , V2 , V3)的编码 。与视觉概念对应的文本 , 则通过文本编码器一一编码获得 , 例如图片标题、区域描述、或物体标签 。

用AI声控玩原神,动动嘴皮即可打怪,代码教程已开源

文章插图
这一顿操作下来 , 小编也被绕晕了 。这玩意的作用有点像我们的眼睛 , 当我看到一个“书包” , 虽然我没见过这个款式的 , 但根据特征提取 , 我知道这个东西就是书包 , X-VLM就是这样一个工具 。
X-VLM可以在接收WeNet输出的文本信息后 , 将图像中相关联的物件提取出来 , 实现语言与视觉相关联 。到这里 , 我们可以实现让电脑知道我们说的话指的是图片里面的啥玩意了 。
第三步:追踪图像
在使用了X-VLM和WeNet之后 , 我们成功让设备听得懂咱们说的是啥玩意了 , 接下来要做的就是实现“追踪目标” , 听起来是不是很酷炫 , 有种开战斗机发射追踪导弹的感觉~
用AI声控玩原神,动动嘴皮即可打怪,代码教程已开源

文章插图
相信不少小伙伴们都猜到了 , 这剩下的最后一个“STARK”就是用于实现图像追踪功能的AI工具 。
Stark是最新的SOTA跟踪模型 , 模型使用了transformer来结合空间信息以及时域信息 。
模型包括一个encoder , decoder以及prediction head 。其中encoder接收三个输入:当前帧图像 , 初始目标以及一个动态变化的模板图片 。由于模板图片在追踪过程中是动态变化 , 不断更新的 , 因此encoder可以同时捕获到目标的时域和空间信息 。
获取目标信息以后 , 工具会通过预测左上与右下角热力图的方式 , 在每帧图像中得到一个最优的边界框 , 并且可以直接在GPU端运行 。
用AI声控玩原神,动动嘴皮即可打怪,代码教程已开源

文章插图
简单说就是 , 在我们通过X-VLM确定要追踪的目标以后 , Stark就像钢铁侠Tony Stark的追踪系统一样 , 会记录对象在静止状态和动态状态下的样子 , 处理分析之后实现追踪动态对象 。
那么 , 讲到这里 , 我们已经基本明白这语音玩原神三大技术的原理 。那角色是怎么动起来执行战术的呢?
其实实现角色自动攻击、释放技能这一块 , 反而是AI语音玩原神中最容易实现的一个环节 。这个功能可以通过宏指令或者代码编程来实现 。小编特意到作者分享的代码文件中瞄了一眼 , 下面是部分代码的展示 。
用AI声控玩原神,动动嘴皮即可打怪,代码教程已开源

文章插图
这一段操作代码使用python写的 , 逻辑也相当的简单 , 就是执行一串预设好的按键指令 。上面图片展示的应该是对应战术一的操作 。其中key跟mouse后面的数字或者字母对应了切换角色和释放技能 。
用AI声控玩原神,动动嘴皮即可打怪,代码教程已开源

文章插图
代码也解释了为啥角色执行完战术之后就杵在原地发呆 , 因为没有了后续的指令和输入 。
总的来说 , 如果有小伙伴想简单尝鲜一下这个AI语音玩原神 , 可以直接下载作者分享的代码 , 运行程序即可 。你只需将英雄阵容及顺序设计成和作者一样 , 就可以达到作者视频展示的的效果了 。