日志文件太大,python怎么分割文件,多线程操作

发布网友发布时间：2022-04-24 03:08

共3个回答

懂视网时间：2022-05-10 20:34

这篇文章主要介绍了Python实现模拟分割大文件及多线程处理的方法,涉及Python文件读取、分割及多线程相关操作技巧,需要的朋友可以参考下

本文实例讲述了Python实现模拟分割大文件及多线程处理的方法。分享给大家供大家参考，具体如下：

#!/usr/bin/env python
#--*-- coding:utf-8 --*--
from random import randint
from time import ctime
from time import sleep
import queue
import threading
class MyTask(object):
 """具体的任务类"""
 def __init__(self, name):
 self.name = name
 self._work_time = randint(1, 5)
 def work(self):
 print("Task %s is start : %s, sleep time= %d" % (self.name, ctime(), self._work_time))
 sleep(self._work_time)
 print("Task %s is end : %s" % (self.name, ctime()))
class MyThread(threading.Thread):
 """多线程的类"""
 def __init__(self, my_queue):
 self.my_queue = my_queue
 super(MyThread, self).__init__()
 def run(self):
 while True:
 if self.my_queue.qsize() > 0:
 self.my_queue.get().work()
 else:
 break
def print_split_line(num=30):
 print("*" * num)
if __name__ == "__main__":
 print_split_line()
 import my_read_file
 # 分割文件
 sf = my_read_file.SplitFiles(r"F:multiple_thread_read_file.txt", line_count=300)
 file_num = sf.split_file()
 queue_length = file_num
 my_queue = queue.LifoQueue(queue_length)
 threads = []
 for i in range(queue_length):
 file_name = sf.get_part_file_name(i)
 mt = MyTask(file_name)
 my_queue.put_nowait(mt)
 for i in range(queue_length):
 mtd = MyThread(my_queue)
 threads.append(mtd)
 for i in range(queue_length):
 threads[i].start()
 for i in range(queue_length):
 threads[i].join()
 print_split_line()

热心网友时间：2022-05-10 17:42

python的多线程为伪多线程，多线程并不能提高文件IO的速度，在读取文件时使用直接读取 for line in open('文件名', 'r') 效率最高，因为此方式为直接读取，不像其它方式要把文件全部加载到内存再读取，所以效率最高。分割时文件时，提前计算好行数，把读取的每固定数量的行数存入新文件，直接读取完成，最后删除旧文件，即可实现文件分割。

示意代码：

line_count = 0
index = 0
fw = open('part'+str(index)+'.log', 'w')
for line in open('filename.log', 'r'):
    fw.write(line)
    line_count += 1
    # 假设每10000行写一个文件
    if line_count > 10000:
        fw.close()
        index += 1
        fw = open('part'+str(index)+'.log', 'w')
fw.close()

热心网友时间：2022-05-10 19:00

提供一个思路
Python 的file.readlines()可以添加参数，也就是说你可以用一个线程来读文件，将读取的行数存入某个线程安全容器，其他线程就可以处理这些数据。