无需云付费,10分钟为Win11应用添加AI功能。
4月7日消息,科技媒体WindowsCentral今日发布博文,报道称微软12年最有价值专家(MVP)Lance McCarthy在其博客中展示了一种方法,可在10分钟内通过Windows AI APIs为应用程序添加基于NPU的AI功能。 这一技术进展表明,微软正在进一步降低AI技术的使用门槛,让开发者能够更快速地将先进的AI能力集成到自己的应用中。随着NPU(神经网络处理单元)在现代设备中的普及,这种便捷的集成方式无疑将推动更多创新应用的出现。对于开发者而言,这不仅节省了时间,也降低了技术壁垒,有助于加速AI功能的落地与推广。
McCarthy在博文中提到,在生成式AI迅速发展的背景下,传统客户端开发者常常因为学习门槛高、云服务费用昂贵或时间有限而难以涉足。而Windows AI APIs的推出将有效解决这一问题,它将强大的AI功能直接整合到本地设备中,无需依赖云端API、无需支付费用、也不需要进行REST调用,只需几行代码就能轻松实现功能集成。
该方案的主要优势在于即开即用且无需成本。开发者可以直接调用PhiSilica(本地语言模型)、AITextRecognition(AI文本识别)、AIImaging(AI图像处理)以及WindowsStudioEffects等功能。唯一的限制是用户需配备Windows 11 AIPC。
在博文中,McCarthy以开源应用XkcdViewer为例,具体实践了整套流程。该应用原本缺乏对视障用户的友好支持,通过集成ImageDescriptionAPI,应用能够理解图像语境并生成生动的解说,从而提升了用户体验。 我认为,这一举措体现了技术在无障碍设计中的重要作用。随着社会对包容性需求的提升,开发者在产品设计中融入辅助功能已成为趋势。XkcdViewer的改进不仅让视障用户受益,也为其他类似应用提供了可借鉴的实践路径。这种通过技术手段增强内容可访问性的做法,值得更多开发者关注和推广。
代码实现简洁高效:首先通过AppUtils.HasNpu()检测设备是否支持NPU,随后调用ImageDescriptionGenerator.DescribeAsync方法生成图像描述,最后通过语音合成功能将内容朗读出来。整个流程无需引入自定义ONNX模型,完全依托WindowsAIFoundry的本地计算能力。附上演示视频如下: 这种技术方案体现了对现有系统资源的高效利用,减少了对外部模型的依赖,提升了运行效率和稳定性。同时,也展示了在不增加复杂性的情况下,实现智能功能的可能性,具有较强的实用价值和推广前景。
技术实现上,开发者需要在项目中引入WinAppSDK,并通过检查AIFeatureReadyState来确认AI服务是否已准备就绪。在代码示例中,作者将ViewModel拆分为多个部分,在检测到NPU存在后,动态加载AI相关功能,并默认采用DetailedNarration模式,以更有效地传达漫画中的幽默元素。
参考
Use Windows AI APIs to Your App in 10 Minutes