segalign: runner.py comparison

comparison runner.py @ 21:25fa179d9d0a draft

planemo upload for repository https://github.com/richard-burhans/galaxytools/tree/main/tools/segalign commit e4e05d23d9da18ea87bc352122ca9e6cfa73d1c7

author	richard-burhans
date	Fri, 09 Aug 2024 20:23:12 +0000
parents	96ff17622b17
children

comparison

equal deleted inserted replaced

-:96ff17622b17
+:25fa179d9d0a
 break
 run_args = ["python", f"{args.tool_directory}/diagonal_partition.py", str(chunk_size)]
 for word in line.split():
 run_args.append(word)
-process = subprocess.run(run_args, stdin=subprocess.DEVNULL, stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
+process = subprocess.run(run_args, stdin=subprocess.DEVNULL, stdout=subprocess.PIPE, stderr=subprocess.PIPE, bufsize=1, text=True)
 for line in process.stdout.splitlines():
 output_q.put(line)
 for line in process.stderr.splitlines():
 if process.returncode != 0:
 sys.exit(f"Error: diagonal partitioner {instance} exited with returncode {process.returncode}")
 def estimate_chunk_size(args: argparse.Namespace) -> int:
+# only used when segment size is being estimated
+MAX_CHUNK_SIZE = 50000
 chunk_size = -1
 line_size = -1
 if args.debug:
 r_beg = resource.getrusage(resource.RUSAGE_SELF)
 except FileNotFoundError:
 continue
 fdict[entry.name.split(".split", 1)[0]] += file_size
-# if noot enough segment files for estimation, continue
+if len(fdict) < 7:
-if len(fdict) > 2:
+# outliers can heavily skew prediction if <7 data points
+# to be safe, use 50% quantile
+chunk_size = int(statistics.quantiles(fdict.values())[1] // line_size)
+else:
+# otherwise use 75% quantile
 chunk_size = int(statistics.quantiles(fdict.values())[-1] // line_size)
+# if not enough data points, there is a chance of getting unlucky
+# minimize worst case by using MAX_CHUNK_SIZE
+chunk_size = min(chunk_size, MAX_CHUNK_SIZE)
 if args.debug:
 ns: int = time.monotonic_ns() - beg
 r_end = resource.getrusage(resource.RUSAGE_SELF)
 print(f"estimate chunk size clock time: {ns} ns", file=sys.stderr, flush=True)

Mercurial > repos > richard-burhans > segalign

comparison runner.py @ 21:25fa179d9d0a draft