当你还没把Siri的全部功能玩溜的时候,谷歌又通过人工智能推出了一个让你的搜索更生动的功能。简而言之,无论你大脑中曾构想过什么天马行空的画面,只要说出来,谷歌都能满足你。
这个功能其实是一个从文本出发的图像生成器,通过大型 Transformer语言模型来理解文本,然后再依靠扩散模型来执行高保真图像的生成。据谷歌表示,该功能“具有前所未有的逼真度和语言理解深度”。
不过该功能目前在生成人物图像时存在比较大的漏洞,例如无法很好地管制色情图像、种族主义以及反社会内容等生成,系统一旦对公众开放,被滥用的可能性很大,因此在尊重创意自由与社会规管中间找到平衡以前,Imagen将暂时禁止使用。
目前在谷歌的Imagen官网上,已经展示了大量由该功能生成的图像和对应文本,风格从素描再到油画甚至CGI都有涉及。我浏览了一下这个网站,这个功能生成的图像逼真度不能说惊人,只能说毫无出入,一旦开放,对于创意工作者而言将是强有力的工具,也许摄影器材都将被淘汰,有生之年可以期待一下。
以下是部分文本在通过Imagen理解后生成的图像,大家也可以亲自去官网脑洞一下。(官网在此:https://imagen.research.google)