风靡朋友圈的妙鸭相机，到底用了哪些底层技术？

2023-08-07 10:33:54 来源：商业新知网

来源 | 机器之心

不知道大家近期的朋友圈有没有被和海马体、天真蓝如出一辙的AI写真刷屏！

这些面若桃花、精致到头发丝、光影充满氛围感的写真都是一款叫一款叫“妙鸭相机”的小程序生成的！只要9.9，就能体验999写真！

(资料图片)

虽然只要9.9，但生成的照片真的很逼真！

在大家被ChatGPT和Midjourney所惊艳之后，如今又惊叹于妙鸭相机的写真能力！

它到底用到了什么AI技术才做到这么厉害的呢？

本文就带大家来探索一下！

01
AIGC关键技术
无论是ChatGPT，还是Midjourney、妙鸭相机，都属于人工智能创造内容（AI Generated Content，AIGC）！
AIGC有两项关键技术：
一个是ChatGPT所代表的大模型（Large Language Model，LLM）技术。
另一个是Midjourney、妙鸭相机等AI绘画作图背后的扩散模型（Diffusion Model）技术。
AI绘画、AI对话、AI游戏创作等这些产物的背后是深度生成模型，它可以根据已有的数据和计算机程序生成新的数据。
真实世界的数据是复杂的，其维度高、分布复杂，变量之间还存在非线性关系，例如，图片数据被认为是二维空间的像素点数据，并且图片内容决定了像素点之间有着复杂的交互关系。这对使用传统模型进行拟合数据分布提出了巨大挑战。
此外，我们不仅希望AI生成的内容有真实性，也希望其是新颖的，即可以对问题提出新的解决方案，而不只是复制已有的内容；高效地利用计算机的运算能力，实现高效的自动化生产；根据用户需求提供相应的内容，等等。
在这些需求下，扩散模型能够捕捉复杂的数据分布、产生真实、新颖的内容，并且能够实现个性化的、高效的生产。因此，引起了人们的广泛关注。
深度生成模型源于生成式建模和深度学习。
生成建模认为数据在相应的空间存在着概率密度分布，其目的就是建模和学习这种潜在分布。早期的生成建模如高斯混合模型（GMM），隐马尔可夫模型（HMM）在表达能力和可扩展性方面存在局限性，在现实数据的复杂性面前表现得较为吃力。
随后生成建模成功地与深度学习结合，产生了著名的变分自编码器（VAE）、生成对抗网络（GAN），等等。
VAE将深度神经网络与变分推断技术相结合，学习潜在先验并生成新样本。它们提供了端到端训练的框架，并提供了更灵活的生成建模能力。
GAN在深度生成模型的历史中是另一个重要的里程碑，GAN引入了一种新颖的对抗训练方法，同时训练生成器网络和判别器网络。该架构通过生成器和判别器网络之间的最小、最大博弈来生成高度逼真的样本。
深度生成模型还有基于能量的模型和基于流的模型，等等。
02
扩散模型
扩散模型于2020年被提出，但其发源可以追溯到2015年，理论背景甚至可以追溯到20世纪对于随机过程、随机微分方程的研究。
扩散模型通过向原始数据逐步加入噪声来破坏原始信息，然后再逆转这一过程生成样本。相较于以往的深度生成模型，扩散模型生成的数据质量更高、多样性更强，并且扩散模型的结构也很灵活，这使得扩散模型很快成为了研究和应用的热点。在《扩散模型：生成式AI模型的理论、应用与代码实践》一书中就详细讨论了扩散模型与其他深度生成模型的关系。
我们可以考虑一个物理过程来通俗地理解扩散模型。把真实世界的数据比作空气中的一团分子，它们互相交织，形成了具有特定结构的整体。由于这个分子团过于复杂，我们无法直接了解其结构，但我们可以理解在空气中做无规则运动的某种粒子，即对应着服从标准高斯分布的某个变量。从无规则运动的粒子出发，我们不断变换这些粒子的相对位置，每次只变换一小步，最终将这些粒子的分布状态变换为我们想要的复杂的分子的形态。也就是说，从纯噪声开始，我们进行了很多小的“去噪”变换，逐渐地将噪声的分布转换为数据的分布，这样就可以利用得到的数据分布进行采样，得到新的数据。可以看到，我们需要知道的信息就是——该如何进行每一步的变换。这比直接学习原始数据的分布简单得多，并且朴素地解释了扩散模型的有效性。《扩散模型：生成式AI模型的理论、应用与代码实践》一书会详细、严格地介绍扩散模型的原理和算法。
扩散模型也有其内在的缺点，如采样速度慢、对结构化数据处理能力较差，等等。例如，扩散模型在将噪声分布逐步转换为数据分布的过程中需要大量调用神经网络，这就导致了生成高质量图片时采样时间较长。后续大量的研究就是致力于提升扩散模型各个方面的性能，使扩散模型可以真正帮助人们高效解决现实问题。《扩散模型：生成式AI模型的理论、应用与代码实践》一书将详细分析扩散模型的优缺点，并系统地讲解扩散模型的进一步发展。
03
扩散模型应用
得益于扩散模型的强大性能，图片生成的应用Stable Diffusion、DALLE·2、Midjourney、妙鸭相机等在实际生产中都有利用扩散模型进行创造性内容生成。
这些应用程序利用扩散模型进行条件生成，即基于输入，引导、生成符合条件的内容。这种引导可以是自然语句，可以是部分图像，也可以用低分辨率的图像作为引导，生成高分辨率的图像，等等。
此外还有利用扩散模型生成语音、视频等各种模态数据的应用。艺术创作者们可以使用这些应用进行直接创作，或者使用它来提供灵感。在生成内容上进行修改可以大大提升工作效率。
但同时，扩散模型的强大能力和广泛引用也导致了潜在的负面影响。
AI的高效让部分创作者面临失业的风险；
扩散模型生成的内容存在版权问题、隐私问题和偏见问题；
AI生成的内容可能被用于有害的用途；
……
此外，扩散模型在科学研究领域也有应用，比如分子结构生成、分子动力学模拟。扩散模型可以生成表示分子的3D表示、分子的图结构，或者二者同时生成，以及控制生成分子的性质。这对于AI制药领域是又一大研究贡献。
在工业界的应用有点云生成和补全、异常检测等。
在医学领域的应用包括医学图像重建和病灶检测等。
总的来看，扩散模型在各个领域正处于一个百花齐放的状态。
《扩散模型：生成式AI模型的理论、应用与代码实践》一书也会详细介绍扩散模型在各个领域的应用研究。

标签：

为您推荐

沙场并肩砺兵共赴和平使命

中国参演官兵驾乘装甲输送车向目标地域行进。巴基斯坦参演官兵开展战术演练。蒙古国参演官兵进行警戒巡...

2021-09-18

南部战区陆军某旅开展巡回心理服务

“请大家闭上眼睛，把注意力从头顶‘漫游’到眉头……”8月底，南部战区陆军某旅驻岛某海防连课室内，官...

2021-09-18

《军营理论热点怎么看·2021》走进基层

9月15日上午，解放军新闻传播中心出版社举行赠书活动，向陆军第83集团军某旅“红一连”官兵赠送由中央军...

2021-09-18

王毅会见印度外长苏杰生

新华社杜尚别9月17日电当地时间2021年9月16日，国务委员兼外长王毅在杜尚别应约会见印度外长苏杰生。...

2021-09-18

人民网评：国务院第八次大督查为何屡上“热搜”？

办房本要找“黄牛”、应急管理部门涉嫌搞垄断、行业协会以办理车辆登记上牌备案之名借机收费敛财、中小...

2021-09-18

王毅出席中俄巴伊四国阿富汗问题非正式会议

新华社杜尚别9月16日电当地时间2021年9月16日，国务委员兼外长王毅在杜尚别同俄罗斯外长拉夫罗夫、巴...

2021-09-18

民政部：“十四五”期间将健全基本养老服务体系

人民网北京9月17日电（记者温璐、宋子节）今日，国务院新闻办就扎实做好民政在全面小康中的兜底夯基工...

2021-09-18

第十三届中韩媒体高层对话举办

9月15日，由中国国务院新闻办公室和韩国文化体育观光部指导，中国外文局和21世纪韩中交流协会共同主办的...

2021-09-18

中国美国商会总裁毕艾伦：大多数会员公司在全球战略中会优先考虑中国市场

人民网杭州9月17日电（记者孙博洋）9月16日至17日，中国质量（杭州）大会在浙江杭州举行。在16日举行...

2021-09-18

注意！国庆假期首日火车票今日开售

人民网北京9月17日电（记者王连香）据中国国家铁路集团消息，今日，十一黄金周火车票正式开售，车票预...

2021-09-18

卢铁忠：核能助力“双碳”目标清洁赋能美好未来

9月16日，清华五道口“碳中和经济”论坛召开。中国核电党委书记、董事长卢铁忠作为核能企业代表受邀视频...

2021-09-18

以学术出版助力国际传播

会议现场。人民网讯 9月14日，在第28届北京国际书展开幕之际，由中国社会科学出版社主办的“新形势下学...

2021-09-18

新闻快讯

风靡朋友圈的妙鸭相机，到底用了哪些底层技术？

诗海拾贝之风雅楹联专刊十四

以兼职为饵 “培训贷”为何盯上大学生

珠三角最大番石榴种植镇“上云”，广州南沙万顷沙镇打开粤港澳高端市场新销路

山东威达：融资净买入207.64万元，融资余额1.05亿元（08-04）

沪深股通|光力科技8月4日获外资卖出0.05%股份

绿坝官网下载绿坝官网

集资房过户要交多少税_集资房和商品房的区别

道路受阻通信中断北京联通应急通信团队如何抢修通信？

初乳素的功效与作用（初乳素）

北京门头沟：35个山区村已恢复市政用电，排水设施完成第一轮清表

河北：加快恢复重建保障群众正常生产生活

沉浸式航天体验、艺术化科普盛宴：太空漫步航天科技艺术展走进长沙

microsoftexcel表格打印（microsoftexcel表格）

“蓄滞洪区是当前防洪聚焦点”——冀津东淀蓄滞洪区见闻

翔宇医疗：上半年净利1.08亿元，同比增169%

湖南怀化：跨省人大代表联络站促民族团结进步

外观细节优化，内饰更豪华，新款捷尼赛思G80谍照曝光，喜欢吗？

泽连斯基：俄军再次对乌发动导弹袭击，乌航空发动机企业设施被击中

保利置业集团：预期上半年公司拥有人应占溢利同比下跌约50%

同样演“双面特工”，黄晓明、靳东对比，差异很明显

三国时蜀汉为何不能统一全国？千年前的管仲早已指明原因！

卢靖姗穿白色吊带裙优雅美艳！她魔鬼身材性感火辣！

世体：担心影响更衣室气氛，哈维和他的教练组不赞成内马尔回归

IPO聚焦 | 本周13家企业撤材料，这个行业的居多

已知的拼音已知装字的拼音输入码

当好群众贴心人人大代表助力“剪”掉群众烦心事

“新三样”表现亮眼成为拉动长三角外贸发展新引擎

闻“汛”而动︱房山区窦店镇灾后重建工作有序展开

小胡鸭和周黑鸭哪个更好吃小胡鸭

中期改款奥迪Q3效果图来了，前脸有点新能源车的味道

巴拿马运河或因干旱延长限行措施

7月中国物流业景气指数为50.9% 新订单指数回升

中国新疆国际民族舞蹈节：大型民族舞剧《醒·狮》精彩上演

海外网评：美国打开了司法政治化的“潘多拉魔盒”

突破！液流电池重大发现行业产业化大门开启

这几款免费的录音转文字软件分享给你

黑龙江25条河流超警戒水位

印度总理莫迪将赴南非参加金砖国家峰会

中国银行携手中国电信、中国联通推出SIM卡硬钱包

湖南省耒阳市发布高温橙色预警

河北涿州主城区积水基本退去生活秩序逐步恢复

班凯罗：选择美国队而不是意大利队是个艰难的决定希望这不会让人难受

两次载客退行250余米避山洪

青岛琅琊镇举行长桌宴游客品特色海鲜感受传统渔家风情

如何唤醒孩子们沉睡的文化基因，答案来了！

那些年你曾经读过的书，真的读进脑子里了吗？

Block跌11.68% Q2营收同比增长25.8% 上调全年指引

收评：沪指放量涨0.23%，金融板块集体拉升，超导概念再活跃

证监会：将继续推进资本市场信息化建设