再也不怕「视频会议」尬住了,谷歌CHI顶会发布新神器VisualCapt

2023-06-13 14:42 来源:IT之家   阅读量:4589   

一图胜千言,再也不怕视频会议说不明白了!

最近几年,「视频会议」在工作中的占比逐渐增加,厂商也开发了各种诸如实时字幕等技术以方便会议中不同语言的人之间交流。

但还有一个痛点,要是对话中提到了一些对方很陌生的名词,并且很难用语言描述出来,比如食物「寿喜烧」,或是说「上周去了某个公园度假」,很难用语言给对方描述出的美景;甚至是指出「东京位于日本关东地区」,需要一张地图来展示等,如果只用语言可能会让对方越来越迷茫。

Visual Captions 系统基于一个微调后的大型语言模型,可以在开放词汇的对话中主动推荐相关的视觉元素,并已融入开源项目 ARChat 中。

在用户调研中,研究人员邀请了实验室内的 26 位参与者,与实验室外的 10 位参与者对系统进行评估,超过 80% 的用户基本都认同 Video Captions 可以在各种场景下能提供有用、有意义的视觉推荐,并可以提升交流体验。

设计思路

在开发之前,研究人员首先邀请了 10 位内部参与者,包括软件工程师、研究人员、UX 设计师、视觉艺术家、学生等技术与非技术背景的从业者,讨论对实时视觉增强服务的特定需求和期望。

两次会议后,根据现有的文本转图像系统,确立了预期原型系统的基本设计,主要包括八个维度。

D1:时序,视觉增强系统可与对话同步或异步展现

D2:主题,可用于表达和理解语音内容

D3:视觉,可使用广泛的视觉内容、视觉类型和视觉源

D4:规模,根据会议规模的不同,视觉增强效果可能有所不同

D5:空间,视频会议是在同一地点还是在远程设置中

D6:隐私,这些因素还影响视觉效果是否应该私下显示、在参与者之间共享或向所有人公开

D7:初始状态,参与者还确定了他们希望在进行对话时与系统交互的不同方式,例如,不同级别的「主动性」,即用户可以自主确定系统何时介入聊天 D8:交互,参与者设想了不同的交互方法,例如,使用语音或手势进行输入

用动态的视觉效果增强语言交流的设计空间

虽然在探索性会议中的想法大多关注于一对一远程对话的形式,Video Caption 同样也可以用于一对多的和多对多场景(多人会议讨论)的部署。

除此之外,最能补充对话的视觉效果在很大程度上取决于讨论的上下文,所以需要一个专门制作的训练集。

比如用户说「我很想看看!」对应于「面部微笑」(face smiling)的视觉内容、「表情符号」(emoji)的视觉类型和「公共搜索」(public search)的视觉源。

「她有没有告诉你我们去墨西哥的事?」对应于「来自墨西哥之旅的照片」的视觉内容、「照片」的视觉类型以及「个人相册」的视觉源。

该数据集 VC 1.5K 目前已开源。

为了预测哪些视觉效果可以补充对话,研究人员使用 VC1.5K 数据集基于大型语言模型训练了一个视觉意图预测模型。

在训练阶段,每个视觉意图解析为「 lt;Visual Typegt; of lt;Visual Contentgt; from lt;Visual Sourcegt; 」的格式。

基于该格式,系统可以处理开放词汇会话和上下文预测视觉内容、视觉源和视觉类型。

研究人员使用 VC1.5K 数据集中的 1276 个样本来微调大型语言模型,其余 319 个(20%)示例作为测试数据,并使用 token 准确率指标来度量微调模型的性能,即模型正确预测的样本中 token 正确的百分比。

最终模型可以实现 97% 的训练 token 准确率和 87% 的验证 token 准确率。

实用性调研

为了评估训练的视觉字幕模型的实用性,研究团队邀请了 89 名参与者执行 846 项任务,要求对效果进行打分,1 为非常不同意、7 为非常同意(strongly agree)。

实验结果显示,大多数参与者更喜欢在对话中看到视觉效果,83% 给出了 5-有些同意(somewhat agree)以上的评价。

此外,参与者认为显示的视觉效果是有用的且信息丰富的,82% 给出了高于 5 分的评价;高质量的(Q3),82% 给出了高于 5 分的评价;并与原始语音相关(Q4,84%)。

研究参与者对可视化预测模型的技术评价结果进行评分

基于该微调的视觉意图预测模型,研究人员在 ARChat 平台上开发了 Visual Captions,可以直接在视频会议平台的摄像头流上添加新的交互式小部件。

在系统工作流程中,Video Captions 可以自动捕获用户的语音、检索最后的句子、每隔 100 毫秒将数据输入到视觉意图预测模型中、检索相关视觉效果,然后提供推荐的视觉效果。

Visual Captions 的系统工作流

Visual Captions 在推荐视觉效果时提供三个级别的可选主动性:

自动显示:系统自主搜索并向所有会议参与者公开显示视觉效果,无需用户交互。

自动推荐:推荐的视觉效果显示在私人滚动视图中,然后用户点击一个视觉对象可以进行公开展示;在这种模式下,系统会主动推荐视觉效果,但用户决定何时显示以及显示什么。

按需建议:用户按下空格键后,系统才会推荐视觉效果。

研究人员在对照实验室研究和测试阶段部署研究(n = 10)中评估了 Visual Captions 系统,参与者发现,实时视觉效果有助于解释不熟悉的概念、解决语言歧义,并使对话更具吸引力,从而促进了现场对话。

参与者的 task load 指数和 Likert scale 评级,包括无 VC、以及三个不同主动性的 VC

与会者还报告了在现场进行交互中的不同的系统偏好,即在不同的会议场景中使用不同程度的 VC 主动性

参考资料:

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

热门

一键全自动换电——泰州市首家蔚来第三代换电站在兴化戴南上线
一键全自动换电——泰州市首家蔚来第三代换电站

一辆新能源汽车稳稳地停到蔚来充换电一体站的停车平台上,汽车下部的换电装置自动开启,卸下用完电的电池,换上充足电的...更多>

azg集团多维度赋能品牌,助力打造可持续产业生态
azg集团多维度赋能品牌,助力打造可持续产业

日前,由azg集团与Bubs贝儿联合举办的“Bubs贝儿纯净营养,守护新队友”五一特别场线下亲子活动圆满结束,门...更多>

喜报!中诚信托荣获深交所优秀债券投资交易机构奖项
喜报!中诚信托荣获深交所优秀债券投资交易机构

2月27日,深圳证券交易所组织召开2022年度债券监管发展业务座谈会,并表彰在服务国家重点战略、推进债券市场高质...更多>

银保监会就保险保障基金管理办法公开征求意见
银保监会就保险保障基金管理办法公开征求意见

为促进保险业稳健经营和高质量发展,更好发挥保险保障基金的积极作用,维护保单持有人合法权益,银保监会商有关部门对2...更多>

人民银行:指导银行将个人信贷延期还款政策落到实处
人民银行:指导银行将个人信贷延期还款政策落到

2022年第一季度金融统计数据新闻发布会现场。人民网黄盛摄人民网北京4月14日电(黄盛)今日,中国人民银行(以下...更多>

聚焦

发放消费券、举办消费节、推动线上线下消费融合,近期一批促消费措施密集推出—— 为消费升温积聚合力
时代天使06699附属向宋鑫提供本金总额约1
智通财经APP讯,时代天使发布公告,于2023年6月12日(...更多>
普利特:控股股东、实控人周文累计质押6840
普利特日前公告称,公司控股股东、实控人周文将其持有的1450...更多>
美股异动新能源车板块上涨已连涨11个交易日的
智通财经APP获悉,6月12日,美股新能源车板块走高,截至发...更多>
午评:A股三大指数震荡涨跌互现,科创50指数
今日A股三大指数集体低开,早盘沪指窄幅震荡,深成指、创业板指...更多>
育碧中国背景免费手游《刺客信条:代号JADE
,在今天的育碧前瞻会2023中,育碧公布了开放世界手游《刺客...更多>
邮储银行江阴市支行、江阴邮政分公司与江阴市数
中国网middot;美丽江苏讯为创新基层党建工作载体,充分发...更多>
一季度美国下载量最高五大应用四个是中国应用
据SensorTower,随着《Shein》的安装量在202...更多>
Epomaker推出MACHENIKEG5P
感谢IT之家网友华南吴彦祖的线索投递! ,Epomaker...更多>
消息称三星GalaxyZFold5折叠屏手机
,三星爆料人UniverseIce今日在推特发文称,三星新款...更多>
人民网《乡村振兴·中国力量》走进湖南华容
民族要复兴,乡村必振兴。人民网《乡村振兴·中国力量》栏目走进...更多>