监控技术在安全、隐私及使用边界等问题上持续引发争议,但相关市场仍在扩张,新一代视觉语言模型的应用正推动企业级视频监控产品加速发展。
视频监控初创公司 Conntour 联合创始人兼首席执行官 Matan Goldner 在接受 TechCrunch 独家采访时表示,公司在业务拓展中高度重视伦理问题,并在客户选择上保持谨慎。据其介绍,Conntour 已与多家大型政府机构和上市公司合作,其中包括新加坡中央缉毒局,这使公司在筛选客户和使用场景方面拥有一定主动权。
Goldner称:“我们真正掌控着使用者是谁、使用场景是什么,可以筛选出我们认为道德且合法的客户。我们运用所有判断力,根据具体客户做出合作决定,因为我们知道他们将如何使用我们的产品。”
在获得市场认可的同时,Conntour也吸引了投资机构的关注。公司近日完成一轮700万美元的种子融资,投资方包括 General Catalyst、Y Combinator、SV Angel 和 Liquid 2 Ventures。Goldner表示,这轮融资在约72小时内完成,他在大约八天内安排了约90场会议,从周一启动融资流程,到周三下午即告结束。
Conntour的核心产品是一个面向安防场景的视频平台,利用视觉语言模型和自然语言处理技术,让安保人员可以通过自然语言在监控画面中检索任意物体、人物或情境。Goldner将其形容为“专为安全视频画面打造的类似谷歌的搜索引擎”。
与依赖预设规则或参数来识别特定物体、运动模式或行为的传统系统不同,Conntour表示,其平台基于自然语言和视觉语言模型,强调灵活性和易用性。用户可以输入诸如“查找穿运动鞋在大厅传递包裹的人”之类的查询,系统会在所有录制视频和实时视频流中进行搜索,并返回相关片段。
平台内置的模型还支持用户直接就视频内容提出问题,并以文本形式给出回答,同时附上对应画面并生成事件报告。Conntour将此作为产品的一项重要功能进行推广。

在技术架构方面,Goldner称,Conntour与其他视频AI搜索服务的主要差异在于可扩展性。其系统被设计为可扩展至数千路摄像头信号。他表示,Conntour的平台能够在单块消费级 GPU(例如 Nvidia RTX 4090)上同时处理多达约50路摄像头画面。
为降低算力消耗,公司采用多种模型与逻辑系统组合的方式,并根据每一次查询动态选择最合适的模型和处理路径,以在尽可能少的计算资源下提供搜索结果。
Conntour称,其系统支持多种部署模式,可完全本地化部署,也可完全运行在云端,或采用本地与云端结合的混合架构。平台可以接入大多数现有安防系统,也可作为独立的完整监控解决方案使用。
不过,视频监控行业长期面临的基础问题仍然存在:监控效果高度依赖摄像头本身的画质。例如,在光线不足、镜头污损且分辨率较低的停车场环境中,画面细节往往难以辨认。
针对这一问题,Goldner表示,Conntour通过为搜索结果提供置信度评分来反映画面质量和识别可靠性。如果摄像头画面质量较差,系统返回的结果会标注较低的置信度。
谈及后续技术方向,Goldner认为,如何在保持系统高效运行的前提下,进一步引入大型语言模型(LLM)的能力,是公司面临的主要技术挑战之一。
他指出,一方面,公司希望为用户提供接近LLM的自然语言灵活性,使其可以提出几乎任何问题;另一方面,系统需要在处理数千路视频流时保持较低的资源消耗。这两方面需求之间的矛盾,被他视为当前领域中的重要技术难题,也是Conntour正在重点攻克的方向。