Spaces:

daniellefranca96
/

chat_cpu_inf

Sleeping

daniellefranca96 commited on Dec 30, 2023

Commit

b160907

1 Parent(s): ca13c5e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,5 @@
 import time
 import gradio as gr
-from transformers import AutoTokenizer
 import json
 import requests
@@ -32,11 +31,6 @@ def update(prompt, llm, nctx, max_tokens):
     answer = {}
-    tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-chat-hf")
-    # Tokenize the input text
-    tokenized_input = tokenizer.encode(prompt, return_tensors="pt")
     # Measure processing time
     start_time = time.time()
     result = make_request_to_llm(llm, prompt, max_tokens, int(nctx)*1000)
@@ -47,8 +41,6 @@ def update(prompt, llm, nctx, max_tokens):
     duration = end_time - start_time
     answer['Duration'] = duration
     print("Duration: "+str(duration))
-    tokens_per_second = len(tokenized_input) / duration
-    answer['Tokens Per Second'] = tokens_per_second
     answer['answer'] = result
     return json.dumps(answer)

 import time
 import gradio as gr
 import json
 import requests
     answer = {}
     # Measure processing time
     start_time = time.time()
     result = make_request_to_llm(llm, prompt, max_tokens, int(nctx)*1000)
     duration = end_time - start_time
     answer['Duration'] = duration
     print("Duration: "+str(duration))
     answer['answer'] = result
     return json.dumps(answer)