본문 바로가기
728x90
반응형

코딩 수업14

[파이썬] 영화 자막에서 대사만 남긴 결과값을 txt 파일로 저장하기 예제 : 영화 자막 파일에서 대사만 정리한 결과값을 txt 파일로 저장하기 import re def subtitle(input): # 시간 정보를 가지고 있는 행을 제거 time = re.compile(r'\d+\n\d{2}:\d{2}:\d{2},\d{3} --> \d{2}:\d{2}:\d{2},\d{3}') result_text = re.sub(time, '', input) # 태그와 하이픈(-) 제거 result_text = re.sub(r'|-', '', result_text) # 여러 개의 연속된 빈 줄을 하나의 빈 줄로 대체 result_text = re.sub(r'\n\s*\n', '\n\n', result_text) return result_text.strip() # 사용 예시 ori = ".. 2024. 1. 29.
[파이썬] 자막 파일에서 대사만 남기기 예제 Python Example : Extracting Only Dialogue from Subtitle Files 예제 : 영화 자막 파일에서 대사만 남기고 정리하기 import re def subtitle(input): #시간 정보를 가지고 있는 행을 제거 time = re.compile(r'\d+\n\d{2}:\d{2}:\d{2},\d{3} --> \d{2}:\d{2}:\d{2},\d{3}') result_text = re.sub(time, '', input) # 태그와 하이픈(-) 제거 result_text = re.sub(r'|-', '', result_text) # 여러 개의 연속된 빈 줄을 하나의 빈 줄로 대체 result_text = re.sub(r'\n\s*\n', '\n\n', result_text) return result_text.strip() # 사용 예시 ori = """ 4 00:00:09,.. 2024. 1. 28.
[파이썬] 특정 글에서 특정 기호 제거하기 (정규표현식, sub, strip) 예제 : 특정 글에서 , , - 기호를 제거하기 import re # \/는 / 문자를 이스케이프하기 위한 것으로, ?는 0회 또는 1회의 발생 def removal (input): result = re.sub(r'|-', '', input) return result.strip() # 사용 예시 ori= """ - What do you think? - Let's go.""" clean = removal(ori) print(clean) 출력> What do you think? Let's go. 2024. 1. 28.
[파이썬] 특정 패턴 가진 문자열 제거 (정규표현식, re, pattern, compile, sub) 예제 : 영화 자막 SRT문서에서 script만 남기기 import re # 예시 문자열 text = """ 24 00:01:24,519 --> 00:01:26,470 we avoid a fight. 25 00:01:26,471 --> 00:01:28,406 No one else dies. 26 00:01:31,410 --> 00:01:33,360 Okay. """ # 정규표현식 Regular Expression, regex, regexp : 문자열의 패턴을 나타내기 위한 형식 언어 # re.compile()은 정규표현식을 미리 컴파일하여 정규표현식 객체를 반환하는 함수 # re.sub(pattern, replacement, string) pattern = re.compile(r'\d+\n\d{2}:\d.. 2024. 1. 28.
728x90
반응형