共计 2917 个字符,预计需要花费 8 分钟才能阅读完成。
闲聊一下
从去年的大模型开始其实,文生视频的 Ai 我的项目
曾经层出不穷,像 Runway
、Pika
、Leonordo
从巨头到各种各样的初创公司。因为我自身从去年到今年以来也自身始终在做一些 Ai 方面的工作(Midjourney、MyShell、Character Ai 等),我大多数时候感觉很多的模型和产品都是在抬高自己(全世界的 Ai 产品都这样~),但理论体验比拟 个别
甚至称得上 毛糙
。
而为什么 Sora
值得一讲,因为我在 Openai
的宣传中,看到对于视频渲染的 真实性
和 物理世界引擎
连贯性(不得不吐槽一些还几帧几帧的文生图产品)
几乎对于其余的文生图模型是降维打击(这是在 Gpt
之后的第二波了)。
而后当初是在 Beta
版,但我曾经想提前做点事件,去承接一下了。
重要的事件讲三遍!!!它是 Beta
版!!!谨防常识付费 / 欺骗。
Sora
只有外部能用,当初这个阶段的常识付费全是割韭菜!!!
什么是 Sora?
Sora
是 OpenAI
的技术,能够将文本转换成视频,就像是魔术一样,将你的故事或形容的文字以视频的模式出现。它能够为各种各样的场景发明视觉效果,从日常场景到富裕想象力的奇幻场景,能够参考 Dall-e-3
的 vivid
和 natural
。
它的应用场景
首先是最根底的一点,Ai
的呈现在某种程度上来说是对于集体和小型团队和工作室的微小利好,所有的 Ai
工具都是效率工具。
其次它是 创造力
和 认知
的延长。
Sora 实用于那些心愿从文本中生成 真切
和 想象力
视频的用户。它面向须要生成 简单
场景、角色和动作的集体或组织,比方讲故事、娱乐、教育或内容创作等。能够设想这对于 视频内容创作
的大洗牌。
代码实现
看起来它跟其余的 Api
用法差异不大。
import openai
import requests
import time
# Set OpenAI API key
openai.api_key = 'your-api-key'
# Define a function to generate video using Sora
def generate_video(description, engine="sora-beta", max_tokens=150):
try:
# Generate video using Sora
response = openai.Completion.create(
engine=engine,
prompt=description,
max_tokens=max_tokens
)
# Retrieve the generated video URL
video_url = response['choices'][0]['video']
return video_url
except Exception as e:
print("An error occurred:", e)
return None
# Define a function to download the generated video
def download_video(video_url, output_file):
try:
# Send request to download video
with requests.get(video_url, stream=True) as r:
r.raise_for_status()
with open(output_file, 'wb') as f:
for chunk in r.iter_content(chunk_size=8192):
f.write(chunk)
print("Video downloaded successfully!")
return output_file
except Exception as e:
print("An error occurred:", e)
return None
# Define the main function
def main():
# Define a short description for the desired video
description = "A bustling futuristic cityscape with flying cars and neon lights."
# Generate video using Sora
video_url = generate_video(description)
if video_url:
# Define output file path
output_file = "generated_video.mp4"
# Download the generated video
downloaded_file = download_video(video_url, output_file)
if downloaded_file:
# Display the generated video URL and path
print("Generated Video URL:", video_url)
print("Downloaded Video Path:", downloaded_file)
# Call the main function
if __name__ == "__main__":
main()
它是如何工作的?
Sora
是基于以前的 DALL·E
和 GPT
模型钻研的一个弱小的 AI 模型。它利用了在 DALL·E 3
模型中采纳的从新题目(re-captioning
)技术,这种技术可能为视觉训练数据生成高度形容的字幕。
扩大一下,re-captioning
是一种语义标注办法,通过 AI 技术生成内容丰盛、准确度高的形容,为模型训练提供更具描述性的信息。这种办法在视觉和文本信息之间建设强链接,因而能够更好地训练模型了解和生成图像。
与此同时 Sora
也是一个 扩散模型
(扩散模型是从噪声开始,而后逐渐打消噪声生成数据。它首先从看似动态噪声的视频开始,而后缓缓地消去噪声,让视频变得越来越清晰。这种过程能够看作是从一个模糊不清的图像开始,随着工夫的推移,图像变得越来越清晰和锐利,就像照片从含糊逐步对焦直至清晰一样),它应用的是相似于 GPT
模型的 变形器架构
。变形器架构是一种深度学习模型架构,它应用了地位编码和自注意力机制,可能解决程序数据,并从全局内容中抉择要害信息。
而在解决视频和图像时,Sora
将其合成为多个较小的单元,称为补丁,相似于语言人工智能中的标记拆分单词的形式。每一个补丁都蕴含了局部图像的信息,这样解决能够不便模型解决和了解视觉数据。
Sora 能够一次创立残缺的视频,或者使已有的视频变得更长。它能够跟踪视频中产生的状况,并在多个帧中继续追踪,所以即便某些货色临时来到画面,它依然晓得它的存在。
这个模型最牛逼的就是放弃主体的一致性,即便它来到了画面。应用过 DALL-E
并试图创立保持一致的角色的人都晓得,当角色一直变动时,它们永远不会看起来雷同是如许艰难。因而,发明一个不仅仅是文本到视频转换,还放弃角色统一的模型,这也就是我下面提到的 连贯性
十分的牛逼了。
另外 Sora 能够依据书面领导制作视频,将动态图像变得活泼,或者为现有视频增加内容。它留神细节,以使动画更加精确。
最初
有趣味的小伙伴能够来一起做一些乏味的事件和副业,不论是 Ai
、区块链
、 金融
等。我恰恰好有十分多的想法和同行者。
言归正传,能够关注一下公众号 Ai Sora
,也能够退出咱们的社群 学境
。