关于机器学习:使用Streamlit和OpenAI-API构建视频摘要

54次阅读

共计 3338 个字符,预计需要花费 9 分钟才能阅读完成。

本文提供了应用 Streamlit 和 OpenAI 创立的视频摘要应用程序的概述。该程序为视频的每个片段创立简洁的摘要,并总结视频的残缺内容。

要运行应用程序,须要装置以下依赖项:

  • Python(3.7 或更高版本)
  • Streamlit
  • OpenAI API 密钥
  • llama_index
  • youtube_transcript_api
  • html2image
  • langchain

搭建环境

首先,须要设置咱们的开发环境,能够应用以下代码片段将 API 密钥设置为环境变量:

 import os
 os.environ["OPENAI_API_KEY"] = '{your_Api_Key}'

而后导入所有的包

 from llama_index import StorageContext, load_index_from_storage
 from llama_index import VectorStoreIndex
 import streamlit as st
 from llama_index import download_loader
 from llama_index import GPTVectorStoreIndex
 from llama_index import LLMPredictor, GPTVectorStoreIndex, PromptHelper, ServiceContext
 from langchain import OpenAI
 from langchain.chat_models import ChatOpenAI
 
 from youtube_transcript_api import YouTubeTranscriptApi
 from youtube_transcript_api.formatters import JSONFormatter
 import json
 import datetime
 from html2image import Html2Image

解决用户输出和 YouTube 视频检索

以下代码是 Streamlit 的按钮和事件:咱们提醒用户输出一个 YouTube 视频链接。应用 st.text_input 捕捉输出,并将其存储在 youtube_link 变量中。按钮的名字为“Summarize!”,当单击该按钮时将触发咱们的处理过程。上面是相干的代码片段:

 youtube_link = st.text_input("Youtube link:")
 st.button("Summarize!", on_click=send_click)

获取视频文本和预处理

应用 YouTubeTranscriptApi 能够取得视频文本。而后将转录本格式化为 JSON 并保留到文件中。而后再应用 Html2Image 库捕捉 YouTube 视频的屏幕截图:

 srt = YouTubeTranscriptApi.get_transcript(st.session_state.video_id, languages=['en'])
 formatter = JSONFormatter()
 json_formatted = formatter.format_transcript(srt)
 with open(transcript_file, 'w') as f:
     f.write(json_formatted)
 
 hti = Html2Image()
 hti.screenshot(url=f"https://www.youtube.com/watch?v={st.session_state.video_id}", save_as=youtube_img)

建设索引和查询语言模型

上面就是对下面获取文本的解决,应用 llama_index 库中的 VectorStoreIndex 类创立索引。索引是依据视频文本构建的,另外还定义了 LLMPredictor 和 ServiceContext 来解决语言模型交互。上面是相干的代码片段:

 documents = loader.load_data()
 
 # define LLM
 llm_predictor = LLMPredictor(llm=OpenAI(temperature=0, model_name="gpt-3.5-turbo", max_tokens=500))
 service_context = ServiceContext.from_defaults(llm_predictor=llm_predictor)
 
 # Create and load the index
 index = GPTVectorStoreIndex.from_documents(documents, service_context=service_context)
 index.storage_context.persist()
 
 # Load the index from storage
 storage_context = StorageContext.from_defaults(persist_dir=index_file)
 index = load_index_from_storage(storage_context, service_context=service_context)
 
 # Create a query engine for the index
 query_engine = index.as_query_engine()

生成视频摘要

这一步遍历视频文本并为视频的每个局部生成摘要。通过应用 query_engine 从视频局部结构的提醒来查询语言模型。生成的摘要存储在 section_response 变量中:

 section_response = ''
 
 for d in transcript:
     # ...
 
     if d["start"] <= (section_start_s + 300) and transcript.index(d) != len(transcript) - 1:
         section_texts += '' + d["text"]
     else:
         end_text = d["text"]
 
         prompt = f"summarize this article from \"{start_text}\"to \"{end_text}\", limited to 100 words, start with \"This section of video\""
         response = query_engine.query(prompt)
         
         start_time = str(datetime.timedelta(seconds=section_start_s))
         end_time = str(datetime.timedelta(seconds=int(d['start'])))
 
         section_start_s += 300
         start_text = d["text"]
         section_texts = ''section_response += f"**{start_time} - {end_time}:**\n\r{response}\n\r"

生成最终总结

在解决完所有视频片段后,,生成整个视频的最终摘要。生成的摘要存储在响应变量中:

 prompt = "Summarize this article of a video, start with \"This Video\", the article is:" + section_response
 response = query_engine.query(prompt)

显示后果

最初,咱们应用 streamlit 显示生成的摘要和局部详细信息:

 st.subheader("Summary:")
 st.success(response, icon="🤖")
 
 with st.expander("Section Details:"):
     st.write(section_response)
 
 st.session_state.video_id = ''
 st.stop()

总结

本文演示了如何创立一个基于 python 的视频摘要程序。应用 youtube_transcript_apto 间接获取视频的文本,并通过 OpenAI 的语言模型来提供摘要。

作者没有个残缺代码地址,所以有趣味请与原文作者分割:

https://avoid.overfit.cn/post/a2ca634c772d4bcead5e2b72f3042b1e

作者:Abhijeetas

正文完
 0