Repository 'matchms_filtering'
hg clone https://toolshed.g2.bx.psu.edu/repos/recetox/matchms_filtering

Changeset 5:a177ac3c752c (2023-06-27)
Previous changeset 4:357df6c47d92 (2023-04-27) Next changeset 6:13de8005adba (2023-10-12)
Commit message:
planemo upload for repository https://github.com/RECETOX/galaxytools/tree/master/tools/matchms commit f79a5b51599254817727bc9028b9797ea994cb4e
modified:
macros.xml
matchms_filtering.xml
added:
formatter.py
help.xml
matchms_networking_wrapper.py
matchms_similarity_wrapper.py
matchms_split.py
test-data/convert/harmonized_msp_out.msp
test-data/convert/harmonized_msp_peakcomments_out.msp
test-data/convert/json_out.json
test-data/convert/metadata.csv
test-data/convert/mgf_out.mgf
test-data/convert/msp_out.msp
test-data/fingerprints/cosine.json
test-data/fingerprints/dice.json
test-data/fingerprints/jaccard_scores.json
test-data/formatter/fill2_formatted.tsv
test-data/formatter/fill2_trunc_scores_with_metadata_match.json
test-data/formatter/test4_formatted.tsv
test-data/metadata_match/inchi_key_inner.json
test-data/metadata_match/inner_join_ri_20.json
test-data/metadata_match/left_join_ri_20.json
test-data/metadata_match/ri_match_60.json
test-data/metadata_match/smiles.json
test-data/scores.json
test-data/similarity/RECETOX_Exposome_pesticides_HR_MS_20220323.msp
test-data/similarity/fill.mgf
test-data/similarity/fill2.msp
test-data/similarity/rcx_exposome_pesticides_subset.msp
test-data/similarity/rcx_gc-ei_ms_subset.msp
test-data/similarity/recetox_gc-ei_ms_20201028.msp
test-data/similarity/scores_test1_out.json
test-data/similarity/scores_test2_out.json
test-data/similarity/scores_test3_out.json
test-data/similarity/scores_test4_out.json
test-data/similarity/scores_test5_out.json
test-data/similarity/scores_test6_out.json
test-data/similarity/spec2vec/inp_filtered_library.msp
test-data/similarity/spec2vec/inp_filtered_spectra.msp
test-data/similarity/spec2vec/model.json
test-data/similarity/spec2vec/weights_100.binary
test-data/spectral_similarity/test1.json
test-data/spectral_similarity/test2.json
test-data/split/chunk-size/chunk_0.msp
test-data/split/chunk-size/chunk_1.msp
test-data/split/chunk-size/chunk_2.msp
test-data/split/num-chunks/chunk_0.msp
test-data/split/num-chunks/chunk_1.msp
test-data/split/one-per-file/1NITROPYRENE.msp
test-data/split/one-per-file/23DICHLOROPHENOL.msp
test-data/split/one-per-file/245TRICHLOROPHENOL.msp
test-data/split/one-per-file/246TRICHLOROPHENOL.msp
test-data/split/one-per-file/24DICHLOROPHENOL.msp
test-data/split/one-per-file/24DINITROPHENOL.msp
test-data/split/one-per-file/25DICHLOROPHENOL.msp
test-data/split/one-per-file/26DICHLOROPHENOL.msp
test-data/split/one-per-file/34DICHLOROPHENOL.msp
test-data/split/one-per-file/35DICHLOROPHENOL.msp
test-data/split/sample_input.msp
b
diff -r 357df6c47d92 -r a177ac3c752c formatter.py
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/formatter.py Tue Jun 27 14:25:01 2023 +0000
[
@@ -0,0 +1,49 @@
+import click
+from matchms.importing import scores_from_json
+from pandas import DataFrame
+
+
+def scores_to_dataframe(scores):
+    """Unpack scores from matchms.scores into two dataframes of scores and matches.
+
+    Args:
+        scores (matchms.scores): matchms.scores object.
+
+    Returns:
+        DataFrame: Scores
+        DataFrame: Matches
+    """
+    dataframe = DataFrame(columns=['query', 'reference', *scores.scores.score_names])
+
+    for i, (row, col) in enumerate(zip(scores.scores.row, scores.scores.col)):
+        dataframe.loc[i] = [scores.queries[col].metadata['compound_name'], scores.references[row].metadata['compound_name'], *scores.scores.data[i]]
+
+    return dataframe
+
+
+def load_data(scores_filename: str) -> DataFrame:
+    """Load data from filenames and join on compound id.
+
+    Args:
+        scores_filename (str): Path to json file with serialized scores.
+
+    Returns:
+        DataFrame: Joined dataframe on compounds containing scores and matches in long format.
+    """
+    scores = scores_from_json(scores_filename)
+    scores = scores_to_dataframe(scores)
+
+    return scores
+
+
+@click.group(invoke_without_command=True)
+@click.option('--sf', 'scores_filename', type=click.Path(exists=True), required=True)
+@click.option('--o', 'output_filename', type=click.Path(writable=True), required=True)
+def cli(scores_filename, output_filename):
+    result = load_data(scores_filename)
+    result.to_csv(output_filename, sep="\t", index=False)
+    pass
+
+
+if __name__ == '__main__':
+    cli()
b
diff -r 357df6c47d92 -r a177ac3c752c help.xml
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/help.xml Tue Jun 27 14:25:01 2023 +0000
[
@@ -0,0 +1,58 @@
+<macros>
+    <token name="@HELP_matchms@">
+        Documentation
+            The Python library matchms provides functions to convert, filter and compare mass spectrometry data.
+            For an overview of the different galaxy modules, see the figure below.
+            For detailed documentation on the tool, see https://github.com/matchms/matchms/blob/master/README.rst
+            and https://matchms.readthedocs.io/en/latest/ for the Python API.
+
+            To get more familiar with the library, there is a `tutorial`_ available which explains how to build a mass spectrometry data processing
+            pipeline with matchms.
+                
+            .. _tutorial: https://medium.com/escience-center/build-your-own-mass-spectrometry-analysis-pipeline-in-python-using-matchms-part-i-d96c718c68ee
+
+        Overview
+            .. image:: https://github.com/RECETOX/galaxytools/raw/29e54e69dab6ab1263f56d35ea19f5d7f284d728/tools/matchms/images/matchms_galaxytools.png
+               :width: 3120
+               :height: 1686
+               :scale: 30
+               :alt: Overview of different matchms galaxytools and how they are connected.
+    </token>
+    <token name="@HELP_matchms_networking@">
+        <![CDATA[
+        Documentation
+        For documentation on the tool see https://github.com/matchms/matchms/blob/master/README.rst
+        and https://matchms.readthedocs.io/en/latest/.
+        
+        **Upstream Tools**
+
+        matchms similarity
+        
+        **Downstream Tools**
+        
+        The output is a network-graph file that can be visualized using graph visualization software (e.g., Cytoscape).
+        ]]>
+    </token>
+    
+    <token name="@HELP_formatter@">
+        <![CDATA[
+            Usage
+                This tool creates user friendly tables from the similarity scores produced by **matchms similarity**.
+                The tool can be operated on two modes based on (i) thresholds or (ii) top k matches.
+
+            Input Table Format
+                The tool expects a JSON file containing serialized matchms Scores object.
+
+            Output Table Format
+                +----------+-----------+---------+--------+
+                | query    | reference | matches | scores |
+                +==========+===========+=========+========+
+                | C001     | Glycine   |      6  | 0.5    |
+                +----------+-----------+---------+--------+
+                | C002     | Glycine   |     3   | 0.34   |
+                +----------+-----------+---------+--------+
+                |   ...    | ...       | ...     | ...    |
+                +----------+-----------+---------+--------+
+        ]]>
+    </token>
+</macros>
\ No newline at end of file
b
diff -r 357df6c47d92 -r a177ac3c752c macros.xml
--- a/macros.xml Thu Apr 27 12:01:48 2023 +0000
+++ b/macros.xml Tue Jun 27 14:25:01 2023 +0000
[
@@ -1,5 +1,5 @@
 <macros>
-    <token name="@TOOL_VERSION@">0.17.0</token>
+    <token name="@TOOL_VERSION@">0.20.0</token>
 
     <xml name="creator">
         <creator>
@@ -31,69 +31,75 @@
         </creator>
     </xml>
     
-    <token name="@HELP_matchms@">
-        <![CDATA[
-            Documentation
-                For documentation on the tool see https://github.com/matchms/matchms/blob/master/README.rst
-                and https://matchms.readthedocs.io/en/latest/.
+    <xml name="bio.tools">
+        <xrefs>
+            <xref type="bio.tools">matchms</xref>
+        </xrefs>
+    </xml>
 
-            Upstream Tools
-                +-----------+---------------+--------+-----------+
-                | Name      | Output File   | Format | Parameter |
-                +===========+===============+========+===========+
-                | RAMClustR | Mass spectra  | msp    | references|
-                +-----------+---------------+--------+-----------+
-                | RAMClustR | Mass spectra  | msp    | queries   |
-                +-----------+---------------+--------+-----------+
+    <xml name="similarity_metrics">
+        <option value="CosineGreedy" selected="true">CosineGreedy</option>
+        <option value="CosineHungarian">CosineHungarian</option>
+        <option value="ModifiedCosine">ModifiedCosine</option>
+        <option value="NeutralLossesCosine">NeutralLossesCosine</option>
+    </xml>
 
-            Downstream Tools
-                The output is a JSON file containing serialized matchMS Scores object. The file can be processed by **matchMS output formatter**. 
-        ]]>
-    </token>
-    
-    <token name="@HELP_matchms_networking@">
-        <![CDATA[
-        Documentation
-        For documentation on the tool see https://github.com/matchms/matchms/blob/master/README.rst
-        and https://matchms.readthedocs.io/en/latest/.
-        
-        **Upstream Tools**
+    <xml name="similarity_algorithm_params">
+        <section name="algorithm" title="Algorithm Parameters" expanded="true">
+            <param label="tolerance [Da]" name="tolerance" type="float" value="0.1"
+                   help="Peaks will be considered a match when less than tolerance apart. Absolute m/z value, not in ppm."/>
+            <param label="mz_power" name="mz_power" type="float" value="0.0"
+                   help="The power to raise mz to in the cosine function."/>
+            <param label="intensity_power" name="intensity_power" type="float" value="1.0"
+                   help="The power to raise intensity to in the cosine function."/>
+        </section>
+    </xml>
 
-        matchMS similarity
-        
-        **Downstream Tools**
-        
-        The output is a network-graph file that can be visualized using graph visualization software (e.g., Cytoscape).
-        ]]>
-    </token>
-    
-    <token name="@HELP_formatter@">
-        <![CDATA[
-            Usage
-                This tool creates user friendly tables from the similarity scores produced by **matchMS similarity**.
-                The tool can be operated on two modes based on (i) thresholds or (ii) top k matches.
-
-            Input Table Format
-                The tool expects a JSON file containing serialized matchMS Scores object.
+    <xml name="input_param">
+        <conditional name="scores">
+            <param name="use_scores" label="Use Scores Object" type="boolean" truevalue="TRUE" falsevalue="FALSE"
+                   checked="false"/>
+            <when value="TRUE">
+                <param label="Scores object" name="scores_in" type="data" format="json"
+                    help="Scores objects calculated previously using one of the matchms similarity tools." />
+                <param label="join type" name="join_type" type="select" display="radio"
+                    help="The join type to use for appending scores - see [1] for details.">
+                    <option value="left" selected="true">left</option>
+                    <option value="inner">inner</option>
+                    <option value="right">right</option>
+                    <option value="outer">outer</option>
+                </param>
+            </when>
+            <when value="FALSE">
+                <param label="Queries spectra" name="queries" type="data" format="msp"
+                    help="Query mass spectra to match against references."/>
+                <param label="Reference spectra" name="references" type="data" format="msp"
+                    help="Reference mass spectra to match against as library."/>
+            </when>
+        </conditional>
+    </xml>
 
-            Output Table Format
-                +----------+-----------+---------+--------+
-                | query    | reference | matches | scores |
-                +==========+===========+=========+========+
-                | C001     | Glycine   |      6  | 0.5    |
-                +----------+-----------+---------+--------+
-                | C002     | Glycine   |     3   | 0.34   |
-                +----------+-----------+---------+--------+
-                |   ...    | ...       | ...     | ...    |
-                +----------+-----------+---------+--------+
-        ]]>
-    </token>
-    
-        <xml name="citations">
-            <citations>
-                <citation type="doi">10.5281/zenodo.7178586</citation>
-                <citation type="doi">10.21105/joss.02411</citation>
-            </citations>
-        </xml>
+    <xml name="citations">
+        <citations>
+            <citation type="doi">10.5281/zenodo.7178586</citation>
+            <citation type="doi">10.21105/joss.02411</citation>
+        </citations>
+    </xml>
 
+<token name="@init_scores@">
+from matchms.importing import load_from_msp, scores_from_json
+from matchms import Scores
+#if $scores.use_scores
+scores = scores_from_json("$scores_in")
+join_type = "$scores.join_type"
+#else
+scores = Scores(references=list(load_from_msp("$references")), queries=list(load_from_msp("$queries")), is_symmetric=False)
+join_type = "left"
+#end if
+</token>
+
+<token name="@init_logger@">
+from matchms import set_matchms_logger_level
+set_matchms_logger_level("WARNING")
+</token>   
 </macros>
b
diff -r 357df6c47d92 -r a177ac3c752c matchms_filtering.xml
--- a/matchms_filtering.xml Thu Apr 27 12:01:48 2023 +0000
+++ b/matchms_filtering.xml Tue Jun 27 14:25:01 2023 +0000
[
@@ -1,22 +1,30 @@
-<tool id="matchms_filtering" name="matchMS filtering" version="@TOOL_VERSION@+galaxy0">
+<tool id="matchms_filtering" name="matchms filtering" version="@TOOL_VERSION@+galaxy0" profile="21.09">
     <description>filter and normalize mass spectrometry data</description>
+
     <macros>
         <import>macros.xml</import>
+        <import>help.xml</import>
     </macros>
+
     <expand macro="creator"/>
+
+    <edam_operations>
+        <edam_operation>operation_3695</edam_operation>
+    </edam_operations>
+    <expand macro="bio.tools"/>
+
     <requirements>
         <requirement type="package" version="@TOOL_VERSION@">matchms</requirement>
-        <requirement type="package" version="1.1.4">pandas</requirement>
     </requirements>
 
+    <command detect_errors="exit_code"><![CDATA[
+        sh ${matchms_python_cli}
+    ]]> </command>
+
     <environment_variables>
         <environment_variable name="MPLCONFIGDIR">\$_GALAXY_JOB_TMP_DIR</environment_variable>
     </environment_variables>
 
-    <command detect_errors="exit_code"><![CDATA[
-        sh ${matchms_python_cli}
-    ]]> </command>
-
     <configfiles>
         <configfile name="matchms_python_cli">
             python3 ${__tool_directory__}/matchms_filtering_wrapper.py \
@@ -67,8 +75,8 @@
             <param name="is_true" label="Filter relative intensity" type="boolean" truevalue="TRUE" falsevalue="FALSE" checked="false"
                    help="Keep only peaks within set relative intensity range (keep if maximum >= intensity >= minimum)." />
             <when value="TRUE">
-                <param label="Minimum intensity" name="from_intensity" optional="true" type="float" help="Lower bound for intensity filter." />
-                <param label="Maximum intensity" name="to_intensity" optional="true" type="float" help="Upper bound for intensity filter." />
+                <param label="Minimum intensity" name="from_intensity" value="0" type="float" help="Lower bound for intensity filter." />
+                <param label="Maximum intensity" name="to_intensity" value="1" type="float" help="Upper bound for intensity filter." />
             </when>
         </conditional>
 
@@ -129,23 +137,9 @@
         </test>
     </tests>
 
-    <help><![CDATA[
-    Documentation
-        For documentation on the tool see https://github.com/matchms/matchms/blob/master/README.rst and https://matchms.readthedocs.io/en/latest/.
-
-    Upstream Tools
-        +-----------+---------------+--------+-----------+
-        | Name      | Output File   | Format | Parameter |
-        +===========+===============+========+===========+
-        | RAMClustR | Mass spectra  | msp    | references|
-        +-----------+---------------+--------+-----------+
-        | RAMClustR | Mass spectra  | msp    | queries   |
-        +-----------+---------------+--------+-----------+
-
-    Downstream Tools
-        The output is an msp file after applying the specified filters.
-    ]]></help>
-
+    <help>
+        @HELP_matchms@
+    </help>
 
     <expand macro="citations"/>
 </tool>
b
diff -r 357df6c47d92 -r a177ac3c752c matchms_networking_wrapper.py
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/matchms_networking_wrapper.py Tue Jun 27 14:25:01 2023 +0000
[
@@ -0,0 +1,39 @@
+import argparse
+import sys
+
+from matchms.importing import scores_from_json
+from matchms.networking import SimilarityNetwork
+
+
+def main(argv):
+    parser = argparse.ArgumentParser(description="Create network-graph from similarity scores.")
+    parser.add_argument("--graph_format", type=str, help="Format of the output similarity network.")
+    parser.add_argument("--score_name", type=str, help="Name of the score layer to use for creating the network graph.")
+    parser.add_argument("--identifier", type=str, help="Unique metadata identifier of each spectrum from which scores are computed.")
+    parser.add_argument("--top_n", type=int, help="Number of highest-score edges to keep.")
+    parser.add_argument("--max_links", type=int, help="Maximum number of links to add per node.")
+    parser.add_argument("--score_cutoff", type=float, help="Minimum similarity score value to link two spectra.")
+    parser.add_argument("--link_method", type=str, help="Method for selecting top N edges for each node.")
+    parser.add_argument("--keep_unconnected_nodes", help="Keep unconnected nodes in the network.", action="store_true")
+    parser.add_argument("scores", type=str, help="Path to matchms similarity-scores .json file.")
+    parser.add_argument("output_filename", type=str, help="Path where to store the output similarity network.")
+    args = parser.parse_args()
+
+    scores = scores_from_json(args.scores)
+
+    network = SimilarityNetwork(identifier_key=args.identifier,
+                                top_n=args.top_n,
+                                max_links=args.max_links,
+                                score_cutoff=args.score_cutoff,
+                                link_method=args.link_method,
+                                keep_unconnected_nodes=args.keep_unconnected_nodes)
+
+    network.create_network(scores, args.score_name)
+    network.export_to_file(filename=args.output_filename, graph_format=args.graph_format)
+
+    return 0
+
+
+if __name__ == "__main__":
+    main(argv=sys.argv[1:])
+    pass
b
diff -r 357df6c47d92 -r a177ac3c752c matchms_similarity_wrapper.py
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/matchms_similarity_wrapper.py Tue Jun 27 14:25:01 2023 +0000
[
@@ -0,0 +1,136 @@
+import argparse
+import json
+import sys
+
+from matchms import calculate_scores
+from matchms.importing import load_from_mgf, load_from_msp
+from matchms.similarity import (CosineGreedy, CosineHungarian, MetadataMatch,
+                                ModifiedCosine, NeutralLossesCosine)
+from spec2vec import Spec2Vec
+from spec2vec.serialization.model_importing import load_weights, Word2VecLight
+
+
+def convert_precursor_mz(spectrum):
+    """
+    Check the presence of precursor m/z since it is needed for ModifiedCosine similarity metric. Convert to float if
+    needed, raise error if missing.
+    """
+
+    if "precursor_mz" in spectrum.metadata:
+        metadata = spectrum.metadata
+        metadata["precursor_mz"] = float(metadata["precursor_mz"])
+        spectrum.metadata = metadata
+        return spectrum
+    else:
+        raise ValueError("Precursor_mz missing. Apply 'add_precursor_mz' filter first.")
+
+
+def load_model(model_file, weights_file) -> Word2VecLight:
+    """
+    Read a lightweight version of a :class:`~gensim.models.Word2Vec` model from disk.
+
+    Parameters
+    ----------
+    model_file:
+        A path of json file to load the model.
+    weights_file:
+        A path of `.npy` file to load the model's weights.
+
+    Returns
+    -------
+    :class:`~spec2vec.serialization.model_importing.Word2VecLight` – a lightweight version of a
+    :class:`~gensim.models.Word2Vec`
+    """
+    with open(model_file, "r", encoding="utf-8") as f:
+        model: dict = json.load(f)
+        del (model["mapfile_path"])
+
+    weights = load_weights(weights_file, model["__weights_format"])
+    return Word2VecLight(model, weights)
+
+
+def main(argv):
+    parser = argparse.ArgumentParser(description="Compute MSP similarity scores")
+    parser.add_argument("-r", dest="ri_tolerance", type=float, help="Use RI filtering with given tolerance.")
+    parser.add_argument("-s", dest="symmetric", action='store_true', help="Computation is symmetric.")
+    parser.add_argument("--array_type", type=str, help="Type of array to use for storing scores (numpy or sparse).")
+    parser.add_argument("--ref", dest="references_filename", type=str, help="Path to reference spectra library.")
+    parser.add_argument("--ref_format", dest="references_format", type=str, help="Reference spectra library file format.")
+    parser.add_argument("--spec2vec_model", dest="spec2vec_model", type=str, help="Path to spec2vec model.")
+    parser.add_argument("--spec2vec_weights", dest="spec2vec_weights", type=str, help="Path to spec2vec weights.")
+    parser.add_argument("--allow_missing_percentage", dest="allowed_missing_percentage", type=lambda x: float(x) * 100.0, help="Maximum percentage of missing peaks in model corpus.")
+    parser.add_argument("queries_filename", type=str, help="Path to query spectra.")
+    parser.add_argument("queries_format", type=str, help="Query spectra file format.")
+    parser.add_argument("similarity_metric", type=str, help='Metric to use for matching.')
+    parser.add_argument("tolerance", type=float, help="Tolerance to use for peak matching.")
+    parser.add_argument("mz_power", type=float, help="The power to raise mz to in the cosine function.")
+    parser.add_argument("intensity_power", type=float, help="The power to raise intensity to in the cosine function.")
+    parser.add_argument("output_filename_scores", type=str, help="Path where to store the output .json scores.")
+    args = parser.parse_args()
+
+    if args.queries_format == 'msp':
+        queries_spectra = list(load_from_msp(args.queries_filename))
+    elif args.queries_format == 'mgf':
+        queries_spectra = list(load_from_mgf(args.queries_filename))
+    else:
+        raise ValueError(f'File format {args.queries_format} not supported for query spectra.')
+
+    if args.symmetric:
+        reference_spectra = queries_spectra.copy()
+    else:
+        if args.references_format == 'msp':
+            reference_spectra = list(load_from_msp(args.references_filename))
+        elif args.references_format == 'mgf':
+            reference_spectra = list(load_from_mgf(args.references_filename))
+        else:
+            raise ValueError(f'File format {args.references_format} not supported for reference spectra library.')
+
+    if args.similarity_metric == 'CosineGreedy':
+        similarity_metric = CosineGreedy(args.tolerance, args.mz_power, args.intensity_power)
+    elif args.similarity_metric == 'CosineHungarian':
+        similarity_metric = CosineHungarian(args.tolerance, args.mz_power, args.intensity_power)
+    elif args.similarity_metric == 'ModifiedCosine':
+        similarity_metric = ModifiedCosine(args.tolerance, args.mz_power, args.intensity_power)
+        reference_spectra = list(map(convert_precursor_mz, reference_spectra))
+        queries_spectra = list(map(convert_precursor_mz, queries_spectra))
+    elif args.similarity_metric == 'NeutralLossesCosine':
+        similarity_metric = NeutralLossesCosine(args.tolerance, args.mz_power, args.intensity_power)
+        reference_spectra = list(map(convert_precursor_mz, reference_spectra))
+        queries_spectra = list(map(convert_precursor_mz, queries_spectra))
+    elif args.similarity_metric == 'Spec2Vec':
+        model = load_model(args.spec2vec_model, args.spec2vec_weights)
+        similarity_metric = Spec2Vec(model, intensity_weighting_power=args.intensity_power, allowed_missing_percentage=args.allowed_missing_percentage)
+    else:
+        return -1
+
+    print("Calculating scores...")
+    scores = calculate_scores(
+        references=reference_spectra,
+        queries=queries_spectra,
+        array_type=args.array_type,
+        similarity_function=similarity_metric,
+        is_symmetric=args.symmetric
+    )
+
+    if args.ri_tolerance is not None:
+        print("RI filtering with tolerance ", args.ri_tolerance)
+        ri_matches = calculate_scores(references=reference_spectra,
+                                      queries=queries_spectra,
+                                      similarity_function=MetadataMatch("retention_index", "difference", args.ri_tolerance),
+                                      array_type="numpy",
+                                      is_symmetric=args.symmetric).scores
+        scores.scores.add_coo_matrix(ri_matches, "MetadataMatch", join_type="inner")
+
+    write_outputs(args, scores)
+    return 0
+
+
+def write_outputs(args, scores):
+    """Write Scores to json file."""
+    print("Storing outputs...")
+    scores.to_json(args.output_filename_scores)
+
+
+if __name__ == "__main__":
+    main(argv=sys.argv[1:])
+    pass
b
diff -r 357df6c47d92 -r a177ac3c752c matchms_split.py
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/matchms_split.py Tue Jun 27 14:25:01 2023 +0000
[
@@ -0,0 +1,90 @@
+import argparse
+import itertools
+import os
+from typing import List
+
+from matchms.exporting import save_as_msp
+from matchms.importing import load_from_msp
+
+
+def get_spectra_names(spectra: list) -> List[str]:
+    """Read the keyword 'compound_name' from a spectra.
+
+    Args:
+        spectra (list): List of individual spectra.
+
+    Returns:
+        List[str]: List with 'compoud_name' of individual spectra.
+    """
+    return [x.get("compound_name") for x in spectra]
+
+
+def make_outdir(outdir: str):
+    """Create destination directory.
+
+    Args:
+        outdir (str): Path to destination directory where split spectra files are generated.
+    """
+    return os.mkdir(outdir)
+
+
+def write_spectra(spectra, outdir):
+    """Generates MSP files of individual spectra.
+
+    Args:
+        spectra (List[Spectrum]): Spectra to write to file
+        outdir   (str): Path to destination directory.
+    """
+    names = get_spectra_names(spectra)
+    for i in range(len(spectra)):
+        outpath = assemble_outpath(names[i], outdir)
+        save_as_msp(spectra[i], outpath)
+
+
+def assemble_outpath(name, outdir):
+    """Filter special chracteres from name.
+
+    Args:
+        name   (str): Name to be filetered.
+        outdir (str): Path to destination directory.
+    """
+    filename = ''.join(filter(str.isalnum, name))
+    outfile = str(filename) + ".msp"
+    outpath = os.path.join(outdir, outfile)
+    return outpath
+
+
+def split_round_robin(iterable, num_chunks):
+    chunks = [list() for _ in range(num_chunks)]
+    index = itertools.cycle(range(num_chunks))
+    for value in iterable:
+        chunks[next(index)].append(value)
+    chunks = filter(lambda x: len(x) > 0, chunks)
+    return chunks
+
+
+listarg = argparse.ArgumentParser()
+listarg.add_argument('--filename', type=str)
+listarg.add_argument('--method', type=str)
+listarg.add_argument('--outdir', type=str)
+listarg.add_argument('--parameter', type=int)
+args = listarg.parse_args()
+outdir = args.outdir
+filename = args.filename
+method = args.method
+parameter = args.parameter
+
+
+if __name__ == "__main__":
+    spectra = load_from_msp(filename, metadata_harmonization=True)
+    make_outdir(outdir)
+
+    if method == "one-per-file":
+        write_spectra(list(spectra), outdir)
+    else:
+        if method == "chunk-size":
+            chunks = iter(lambda: list(itertools.islice(spectra, parameter)), [])
+        elif method == "num-chunks":
+            chunks = split_round_robin(spectra, parameter)
+        for i, x in enumerate(chunks):
+            save_as_msp(x, os.path.join(outdir, f"chunk_{i}.msp"))
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/convert/harmonized_msp_out.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/convert/harmonized_msp_out.msp Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,6038 @@\n+SCANNUMBER: 1161\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C4H10NO3PS\n+INCHIKEY: YASYVMFAVPKPKE-SECBINFHSA-N\n+SMILES: COP(=O)(N=C(O)C)SC\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Acephate\n+RETENTION_TIME: 1.232997\n+PRECURSOR_MZ: 184.0194\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 16\n+90.09368    1128.0\n+93.11512    1241.0\n+95.10279    1118.0\n+101.31465   1152.0\n+102.90688   1322.0\n+103.98039   1201.0\n+112.01607   12289.0\n+112.99994   38027.0\n+115.00399   1634.0\n+124.98121   922.0\n+128.97701   9208.0\n+132.57193   1350.0\n+135.84808   1428.0\n+142.99275   16419.0\n+147.94205   1750.0\n+173.5094    2353.0\n+\n+SCANNUMBER: 2257\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C12H11NO2\n+INCHIKEY: CVXBEEMKQHEXEN-UHFFFAOYSA-N\n+SMILES: CN=C(Oc1cccc2c1cccc2)O\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Carbaryl\n+RETENTION_TIME: 5.259445\n+PRECURSOR_MZ: 202.0863\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 1\n+145.06491   1326147.0\n+\n+SCANNUMBER: 1516\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C8H16NO5P\n+INCHIKEY: VEENJGZXVHKXNB-UHFFFAOYSA-N\n+SMILES: COP(=O)(OC(=CC(=O)N(C)C)C)OC\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Dicrotophos\n+RETENTION_TIME: 2.025499\n+PRECURSOR_MZ: 238.0844\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 5\n+112.074     102027.0\n+112.07591   9070987.0\n+127.01563   3230337.0\n+193.02605   7897744.0\n+238.08437   2973124.0\n+\n+SCANNUMBER: 1865\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C5H12NO3PS2\n+INCHIKEY: MCWXGJITAZMZEV-UHFFFAOYSA-N\n+SMILES: CN=C(CSP(=S)(OC)OC)O\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Dimethoate\n+RETENTION_TIME: 2.866696\n+PRECURSOR_MZ: 230.0072\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 8\n+88.0219     548446.0\n+124.98233   183861.0\n+142.99275   722053.0\n+156.95422   80792.0\n+170.97      1426256.0\n+197.98123   240915.0\n+198.96501   5415933.0\n+230.00722   497851.0\n+\n+SCANNUMBER: 3852\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C21H22NO4Cl\n+INCHIKEY: QNBTYORWCCMPQP-UHFFFAOYSA-N\n+SMILES: COc1cc(ccc1OC)C(=CC(=O)N1CCOCC1)c1ccc(cc1)Cl\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Dimethomorph\n+RETENTION_TIME: 7.060486\n+PRECURSOR_MZ: 388.1316\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 22\n+114.05532   468862.0\n+125.01571   886745.0\n+138.99484   4138370.0\n+155.0705    425164.0\n+165.05519   15513399.0\n+165.06543   350695.0\n+195.08057   386226.0\n+215.0262    490061.0\n+223.07544   702025.0\n+227.02576   230514.0\n+229.04225   216308.0\n+235.07555   241142.0\n+238.09914   1323577.0\n+242.04929   2449236.0\n+243.02142   891584.0\n+257.03726   578874.0\n+258.04443   3232295.0\n+266.0943    358273.0\n+270.04492   608851.0\n+273.06772   3866006.0\n+286.03912   483547.0\n+301.06311   4060551.0\n+\n+SCANNUMBER: 1009\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C2H8NO2PS\n+INCHIKEY: NNKVPIKMPCQWCG-ZCFIWIBFSA-N\n+SMILES: COP(=O)(SC)N\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Methamidophos\n+RETENTION_TIME: 1.153307\n+PRECURSOR_MZ: 142.0089\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 4\n+98.00042    37721.0\n+109.98272   71172.0\n+112.01607   2867923.0\n+127.99321   75837.0\n+\n+SCANNUMBER: 1924\n+IONMODE:'..b'ryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Propamocarb_2\n+RETENTION_TIME: 1.081971\n+PRECURSOR_MZ: 189.1603\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 2\n+86.0966     107829.0\n+102.05516   2507023.0\n+\n+SCANNUMBER: 711\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C11H15N3O2\n+INCHIKEY: MYPKGPZHHQEODQ-UHFFFAOYSA-N\n+SMILES: CN=C(Oc1cccc(c1)N=CN(C)C)O\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Formetanate_1\n+RETENTION_TIME: 0.7730471\n+PRECURSOR_MZ: 222.1239\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 13\n+93.03365    1796.0\n+107.04935   1981.0\n+111.04435   82262.0\n+118.04142   1927.0\n+120.04462   150907.0\n+121.03984   67610.0\n+122.06016   5909.0\n+122.75254   1678.0\n+150.98424   1930.0\n+165.1024    143887.0\n+173.50876   2616.0\n+200.05632   2056.0\n+208.52768   2170.0\n+\n+SCANNUMBER: 1161\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C11H15N3O2\n+INCHIKEY: MYPKGPZHHQEODQ-UHFFFAOYSA-N\n+SMILES: CN=C(Oc1cccc(c1)N=CN(C)C)O\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Formetanate_2\n+RETENTION_TIME: 1.13043\n+PRECURSOR_MZ: 222.1239\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 15\n+91.05441    6330.0\n+93.03365    27201.0\n+107.04935   4024.0\n+111.04435   131558.0\n+115.05429   3711.0\n+117.06996   5571.0\n+118.04177   4476.0\n+120.04462   274740.0\n+121.03984   113412.0\n+122.06016   7843.0\n+124.07605   4049.0\n+135.04427   4178.0\n+145.06488   3067.0\n+164.95049   3848.0\n+165.1024    263802.0\n+\n+SCANNUMBER: 1328\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C12H18N2O2\n+INCHIKEY: YNEVBPNZHBAYOA-UHFFFAOYSA-N\n+SMILES: CN=C(Oc1cc(C)c(c(c1)C)N(C)C)O\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Mexacarbate\n+RETENTION_TIME: 1.682191\n+PRECURSOR_MZ: 223.1443\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 5\n+134.07283   2632951.0\n+136.07611   26036728.0\n+150.092     1572118.0\n+151.09932   54847764.0\n+166.12282   1541928.0\n+\n+SCANNUMBER: 3999\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C19H21N2OCl\n+INCHIKEY: OGYFATSSENRIKG-UHFFFAOYSA-N\n+SMILES: Clc1ccc(cc1)CN(C(=Nc1ccccc1)O)C1CCCC1\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Monceren\n+RETENTION_TIME: 7.14553\n+PRECURSOR_MZ: 329.1426\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 5\n+89.03881    550831.0\n+94.06543    635265.0\n+106.06545   446416.0\n+125.01307   512150.0\n+125.01532   37442116.0\n+\n+SCANNUMBER: 2271\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C16H16N2O4\n+INCHIKEY: WZJZMXBKUWKXTQ-UHFFFAOYSA-N\n+SMILES: CCOC(=Nc1cccc(c1)OC(=Nc1ccccc1)O)O\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Desmedipham\n+RETENTION_TIME: 6.430396\n+PRECURSOR_MZ: 301.1192\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 3\n+136.03947   1773399.0\n+154.04993   1002798.0\n+182.08162   6480130.0\n+\n+SCANNUMBER: 2458\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C16H16N2O4\n+INCHIKEY: IDOWTHOLJBTAFI-UHFFFAOYSA-N\n+SMILES: COC(=Nc1cccc(c1)OC(=Nc1cccc(c1)C)O)O\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Phenmedipham\n+RETENTION_TIME: 6.570995\n+PRECURSOR_MZ: 301.1185\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 2\n+136.03947   2596929.0\n+168.06587   7038054.0\n+\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/convert/harmonized_msp_peakcomments_out.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/convert/harmonized_msp_peakcomments_out.msp Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,6038 @@\n+SCANNUMBER: 1161\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C4H10NO3PS\n+INCHIKEY: YASYVMFAVPKPKE-SECBINFHSA-N\n+SMILES: COP(=O)(N=C(O)C)SC\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Acephate\n+RETENTION_TIME: 1.232997\n+PRECURSOR_MZ: 184.0194\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 16\n+90.09368    1128.0\n+93.11512    1241.0\n+95.10279    1118.0\n+101.31465   1152.0\n+102.90688   1322.0\n+103.98039   1201.0\n+112.01607   12289.0\n+112.99994   38027.0\n+115.00399   1634.0\n+124.98121   922.0\n+128.97701   9208.0\n+132.57193   1350.0\n+135.84808   1428.0\n+142.99275   16419.0\n+147.94205   1750.0\n+173.5094    2353.0\n+\n+SCANNUMBER: 2257\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C12H11NO2\n+INCHIKEY: CVXBEEMKQHEXEN-UHFFFAOYSA-N\n+SMILES: CN=C(Oc1cccc2c1cccc2)O\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Carbaryl\n+RETENTION_TIME: 5.259445\n+PRECURSOR_MZ: 202.0863\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 1\n+145.06491   1326147.0   "Theoretical m/z 145.064787, Mass diff 0 (0.85 ppm), SMILES OC1=CC=CC=2C=CC=CC12, Annotation [C10H8O+H]+, Rule of HR True"\n+\n+SCANNUMBER: 1516\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C8H16NO5P\n+INCHIKEY: VEENJGZXVHKXNB-UHFFFAOYSA-N\n+SMILES: COP(=O)(OC(=CC(=O)N(C)C)C)OC\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Dicrotophos\n+RETENTION_TIME: 2.025499\n+PRECURSOR_MZ: 238.0844\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 5\n+112.074     102027.0\n+112.07591   9070987.0   "Theoretical m/z 112.075687, Mass diff 0 (1.99 ppm), SMILES O=C(C=CC)N(C)C, Annotation [C6H11NO-H]+, Rule of HR True"\n+127.01563   3230337.0   "Theoretical m/z 127.01547, Mass diff 0 (1.26 ppm), SMILES O=P(O)(OC)OC, Annotation [C2H7O4P+H]+, Rule of HR True"\n+193.02605   7897744.0   "Theoretical m/z 193.026035, Mass diff 0 (0.08 ppm), SMILES O=CC=C(OP(=O)(OC)OC)C, Annotation [C6H11O5P-H]+, Rule of HR True"\n+238.08437   2973124.0   "Theoretical m/z 238.083891, Mass diff 0 (2.01 ppm), SMILES O=C(C=C(OP(=O)(OC)OC)C)N(C)C, Annotation [C8H16NO5P+H]+, Rule of HR True"\n+\n+SCANNUMBER: 1865\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C5H12NO3PS2\n+INCHIKEY: MCWXGJITAZMZEV-UHFFFAOYSA-N\n+SMILES: CN=C(CSP(=S)(OC)OC)O\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Dimethoate\n+RETENTION_TIME: 2.866696\n+PRECURSOR_MZ: 230.0072\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 8\n+88.0219     548446.0    "Theoretical m/z 88.021549, Mass diff 0 (3.99 ppm), SMILES SCC=NC, Annotation [C3H7NS-H]+, Rule of HR True"\n+124.98233   183861.0    "Theoretical m/z 124.982067, Mass diff 0 (2.11 ppm), SMILES S=P(OC)OC, Annotation [C2H7O2PS-H]+, Rule of HR True"\n+142.99275   722053.0    "Theoretical m/z 142.993177, Mass diff 0 (0 ppm), Formula C2H8O3PS"\n+156.95422   80792.0     "Theoretical m/z 156.954136, Mass diff 0 (0.54 ppm), SMILES S=P(S)(OC)OC, Annotation [C2H7O2PS2-H]+, Rule of HR True"\n+170.97      1426256.0   "Theoretical m/z 170.969791, Mass diff 0 (1.22 ppm), SMILES S=P(OC)(OC)SC, Annotation [C3H9O2PS2-H]+, Rule of HR True"\n+197.98123   240915.0    "Theoretical m/z 197.980686, Mass diff 0.001 (2.75 ppm), SMILES S=P(OC)SCC(O)=NC, Annotation [C4H10NO2PS2-H]+, Rule of HR True"\n+198.96501   5415933.0   "Theoretical m/z 198.965248, Mass diff 0 (0 ppm), Formula C4H8O3PS2"\n+230.00722   497851.0    "Theoretical m/z 230.006895, Mass diff 0 (1.41 ppm), SMILES S=P(OC)(OC)SCC(O)=NC, Annotation [C5H12NO3PS2+H]+, Rule of HR True"\n+\n+SCANNUMBER: 3852\n+IONMODE: po'..b's diff 0 (1.02 ppm), SMILES OC1=CC=CC(N=CN(C)C)=C1, Annotation [C9H12N2O+H]+, Rule of HR True"\n+\n+SCANNUMBER: 1328\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C12H18N2O2\n+INCHIKEY: YNEVBPNZHBAYOA-UHFFFAOYSA-N\n+SMILES: CN=C(Oc1cc(C)c(c(c1)C)N(C)C)O\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Mexacarbate\n+RETENTION_TIME: 1.682191\n+PRECURSOR_MZ: 223.1443\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 5\n+134.07283   2632951.0   "Theoretical m/z 134.072623, Mass diff 0 (1.55 ppm), SMILES O(C=1C=C(C=C(C1)C)C)C, Annotation [C9H12O-2H]+, Rule of HR False"\n+136.07611   26036728.0  "Theoretical m/z 136.076239, Mass diff 0 (0 ppm), Formula C8H10NO"\n+150.092     1572118.0   "Theoretical m/z 150.091343, Mass diff 0.001 (4.38 ppm), SMILES OC1=CC=C(C(=C1)C)N(C)C, Annotation [C9H13NO-H]+, Rule of HR True"\n+151.09932   54847764.0  "Theoretical m/z 151.099168, Mass diff 0 (1.01 ppm), SMILES OC1=CC=C(C(=C1)C)N(C)C, Annotation [C9H13NO]+, Rule of HR False"\n+166.12282   1541928.0   "Theoretical m/z 166.122633, Mass diff 0 (1.13 ppm), SMILES OC=1C=C(C(=C(C1)C)N(C)C)C, Annotation [C10H15NO+H]+, Rule of HR True"\n+\n+SCANNUMBER: 3999\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C19H21N2OCl\n+INCHIKEY: OGYFATSSENRIKG-UHFFFAOYSA-N\n+SMILES: Clc1ccc(cc1)CN(C(=Nc1ccccc1)O)C1CCCC1\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Monceren\n+RETENTION_TIME: 7.14553\n+PRECURSOR_MZ: 329.1426\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 5\n+89.03881    550831.0    "Theoretical m/z 89.038575, Mass diff 0 (2.63 ppm), SMILES C=1C=CC(=CC1)C, Annotation [C7H8-3H]+, Rule of HR True"\n+94.06543    635265.0    "Theoretical m/z 94.065123, Mass diff 0 (3.27 ppm), SMILES NC=1C=CC=CC1, Annotation [C6H7N+H]+, Rule of HR True"\n+106.06545   446416.0    "Theoretical m/z 106.065123, Mass diff 0 (3.09 ppm), SMILES N(=C)C=1C=CC=CC1, Annotation [C7H7N+H]+, Rule of HR True"\n+125.01307   512150.0\n+125.01532   37442116.0  "Theoretical m/z 125.015255, Mass diff 0 (0.52 ppm), SMILES ClC1=CC=C(C=C1)C, Annotation [C7H7Cl-H]+, Rule of HR True"\n+\n+SCANNUMBER: 2271\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C16H16N2O4\n+INCHIKEY: WZJZMXBKUWKXTQ-UHFFFAOYSA-N\n+SMILES: CCOC(=Nc1cccc(c1)OC(=Nc1ccccc1)O)O\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Desmedipham\n+RETENTION_TIME: 6.430396\n+PRECURSOR_MZ: 301.1192\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 3\n+136.03947   1773399.0   "Theoretical m/z 136.03931, Mass diff 0 (1.18 ppm), SMILES OC(O)=NC=1C=CC=CC1, Annotation [C7H7NO2-H]+, Rule of HR True"\n+154.04993   1002798.0   "Theoretical m/z 154.049864, Mass diff 0 (0.43 ppm), SMILES OC(O)=NC=1C=CC=C(O)C1, Annotation [C7H7NO3+H]+, Rule of HR True"\n+182.08162   6480130.0   "Theoretical m/z 182.081175, Mass diff 0 (2.45 ppm), SMILES OC(=NC=1C=CC=C(O)C1)OCC, Annotation [C9H11NO3+H]+, Rule of HR True"\n+\n+SCANNUMBER: 2458\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C16H16N2O4\n+INCHIKEY: IDOWTHOLJBTAFI-UHFFFAOYSA-N\n+SMILES: COC(=Nc1cccc(c1)OC(=Nc1cccc(c1)C)O)O\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Phenmedipham\n+RETENTION_TIME: 6.570995\n+PRECURSOR_MZ: 301.1185\n+ADDUCT: [M+H]+\n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 2\n+136.03947   2596929.0   "Theoretical m/z 136.03931, Mass diff 0 (1.18 ppm), SMILES OC(O)=NC=1C=CC=CC1, Annotation [C7H7NO2-H]+, Rule of HR True"\n+168.06587   7038054.0   "Theoretical m/z 168.065519, Mass diff 0 (2.09 ppm), SMILES OC(=NC=1C=CC=C(O)C1)OC, Annotation [C8H9NO3+H]+, Rule of HR True"\n+\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/convert/json_out.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/convert/json_out.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+[{"scannumber": "1161", "ionmode": "Positive", "spectrumtype": "Centroid", "formula": "C4H10NO3PS", "inchikey": "YASYVMFAVPKPKE-SECBINFHSA-N", "inchi": "", "smiles": "COP(=O)(N=C(O)C)SC", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "comment": "", "num_peaks": "16", "compound_name": "Acephate", "retention_time": "1.232997", "precursor_mz": "184.0194", "adduct": "[M+H]+", "collision_energy": "", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[90.09368, 1128.0], [93.11512, 1241.0], [95.10279, 1118.0], [101.31465, 1152.0], [102.90688, 1322.0], [103.98039, 1201.0], [112.01607, 12289.0], [112.99994, 38027.0], [115.00399, 1634.0], [124.98121, 922.0], [128.97701, 9208.0], [132.57193, 1350.0], [135.84808, 1428.0], [142.99275, 16419.0], [147.94205, 1750.0], [173.5094, 2353.0]]}, {"scannumber": "2257", "ionmode": "Positive", "spectrumtype": "Centroid", "formula": "C12H11NO2", "inchikey": "CVXBEEMKQHEXEN-UHFFFAOYSA-N", "inchi": "", "smiles": "CN=C(Oc1cccc2c1cccc2)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "comment": "", "peak_comments": {"145.06491": "Theoretical m/z 145.064787, Mass diff 0 (0.85 ppm), SMILES OC1=CC=CC=2C=CC=CC12, Annotation [C10H8O+H]+, Rule of HR True"}, "num_peaks": "1", "compound_name": "Carbaryl", "retention_time": "5.259445", "precursor_mz": "202.0863", "adduct": "[M+H]+", "collision_energy": "", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[145.06491, 1326147.0]]}, {"scannumber": "1516", "ionmode": "Positive", "spectrumtype": "Centroid", "formula": "C8H16NO5P", "inchikey": "VEENJGZXVHKXNB-UHFFFAOYSA-N", "inchi": "", "smiles": "COP(=O)(OC(=CC(=O)N(C)C)C)OC", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "comment": "", "peak_comments": {"112.07591": "Theoretical m/z 112.075687, Mass diff 0 (1.99 ppm), SMILES O=C(C=CC)N(C)C, Annotation [C6H11NO-H]+, Rule of HR True", "127.01563": "Theoretical m/z 127.01547, Mass diff 0 (1.26 ppm), SMILES O=P(O)(OC)OC, Annotation [C2H7O4P+H]+, Rule of HR True", "193.02605": "Theoretical m/z 193.026035, Mass diff 0 (0.08 ppm), SMILES O=CC=C(OP(=O)(OC)OC)C, Annotation [C6H11O5P-H]+, Rule of HR True", "238.08437": "Theoretical m/z 238.083891, Mass diff 0 (2.01 ppm), SMILES O=C(C=C(OP(=O)(OC)OC)C)N(C)C, Annotation [C8H16NO5P+H]+, Rule of HR True"}, "num_peaks": "5", "compound_name": "Dicrotophos", "retention_time": "2.025499", "precursor_mz": "238.0844", "adduct": "[M+H]+", "collision_energy": "", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[112.074, 102027.0], [112.07591, 9070987.0], [127.01563, 3230337.0], [193.02605, 7897744.0], [238.08437, 2973124.0]]}, {"scannumber": "1865", "ionmode": "Positive", "spectrumtype": "Centroid", "formula": "C5H12NO3PS2", "inchikey": "MCWXGJITAZMZEV-UHFFFAOYSA-N", "inchi": "", "smiles": "CN=C(CSP(=S)(OC)OC)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "comment": "", "peak_comments": {"88.0219": "Theoretical m/z 88.021549, Mass diff 0 (3.99 ppm), SMILES SCC=NC, Annotation [C3H7NS-H]+, Rule of HR True", "124.98233": "Theoretical m/z 124.982067, Mass diff 0 (2.11 ppm), SMILES S=P(OC)OC, Annotation [C2H7O2PS-H]+, Rule of HR True", "142.99275": "Theoretical m/z 142.993177, Mass diff 0 (0 ppm), Formula C2H8O3PS", "156.95422": "Theoretical m/z 156.954136, Mass diff 0 (0.54 ppm), SMILES S=P(S)(OC)OC, Annotation [C2H7O2PS2-H]+, Rule of HR True", "170.97": "Theoretical m/z 170.969791, Mass diff 0 (1.22 ppm), SMILES S=P(OC)(OC)SC, Annotation [C3H9O2PS2-H]+, Rule of HR True", "197.98123": "Theoretical m/z 197.980'..b'C(=C1)C)N(C)C, Annotation [C9H13NO-H]+, Rule of HR True", "151.09932": "Theoretical m/z 151.099168, Mass diff 0 (1.01 ppm), SMILES OC1=CC=C(C(=C1)C)N(C)C, Annotation [C9H13NO]+, Rule of HR False", "166.12282": "Theoretical m/z 166.122633, Mass diff 0 (1.13 ppm), SMILES OC=1C=C(C(=C(C1)C)N(C)C)C, Annotation [C10H15NO+H]+, Rule of HR True"}, "num_peaks": "5", "compound_name": "Mexacarbate", "retention_time": "1.682191", "precursor_mz": "223.1443", "adduct": "[M+H]+", "collision_energy": "", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[134.07283, 2632951.0], [136.07611, 26036728.0], [150.092, 1572118.0], [151.09932, 54847764.0], [166.12282, 1541928.0]]}, {"scannumber": "3999", "ionmode": "Positive", "spectrumtype": "Centroid", "formula": "C19H21N2OCl", "inchikey": "OGYFATSSENRIKG-UHFFFAOYSA-N", "inchi": "", "smiles": "Clc1ccc(cc1)CN(C(=Nc1ccccc1)O)C1CCCC1", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "comment": "", "peak_comments": {"89.03881": "Theoretical m/z 89.038575, Mass diff 0 (2.63 ppm), SMILES C=1C=CC(=CC1)C, Annotation [C7H8-3H]+, Rule of HR True", "94.06543": "Theoretical m/z 94.065123, Mass diff 0 (3.27 ppm), SMILES NC=1C=CC=CC1, Annotation [C6H7N+H]+, Rule of HR True", "106.06545": "Theoretical m/z 106.065123, Mass diff 0 (3.09 ppm), SMILES N(=C)C=1C=CC=CC1, Annotation [C7H7N+H]+, Rule of HR True", "125.01532": "Theoretical m/z 125.015255, Mass diff 0 (0.52 ppm), SMILES ClC1=CC=C(C=C1)C, Annotation [C7H7Cl-H]+, Rule of HR True"}, "num_peaks": "5", "compound_name": "Monceren", "retention_time": "7.14553", "precursor_mz": "329.1426", "adduct": "[M+H]+", "collision_energy": "", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[89.03881, 550831.0], [94.06543, 635265.0], [106.06545, 446416.0], [125.01307, 512150.0], [125.01532, 37442116.0]]}, {"scannumber": "2271", "ionmode": "Positive", "spectrumtype": "Centroid", "formula": "C16H16N2O4", "inchikey": "WZJZMXBKUWKXTQ-UHFFFAOYSA-N", "inchi": "", "smiles": "CCOC(=Nc1cccc(c1)OC(=Nc1ccccc1)O)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "comment": "", "peak_comments": {"136.03947": "Theoretical m/z 136.03931, Mass diff 0 (1.18 ppm), SMILES OC(O)=NC=1C=CC=CC1, Annotation [C7H7NO2-H]+, Rule of HR True", "154.04993": "Theoretical m/z 154.049864, Mass diff 0 (0.43 ppm), SMILES OC(O)=NC=1C=CC=C(O)C1, Annotation [C7H7NO3+H]+, Rule of HR True", "182.08162": "Theoretical m/z 182.081175, Mass diff 0 (2.45 ppm), SMILES OC(=NC=1C=CC=C(O)C1)OCC, Annotation [C9H11NO3+H]+, Rule of HR True"}, "num_peaks": "3", "compound_name": "Desmedipham", "retention_time": "6.430396", "precursor_mz": "301.1192", "adduct": "[M+H]+", "collision_energy": "", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[136.03947, 1773399.0], [154.04993, 1002798.0], [182.08162, 6480130.0]]}, {"scannumber": "2458", "ionmode": "Positive", "spectrumtype": "Centroid", "formula": "C16H16N2O4", "inchikey": "IDOWTHOLJBTAFI-UHFFFAOYSA-N", "inchi": "", "smiles": "COC(=Nc1cccc(c1)OC(=Nc1cccc(c1)C)O)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "comment": "", "peak_comments": {"136.03947": "Theoretical m/z 136.03931, Mass diff 0 (1.18 ppm), SMILES OC(O)=NC=1C=CC=CC1, Annotation [C7H7NO2-H]+, Rule of HR True", "168.06587": "Theoretical m/z 168.065519, Mass diff 0 (2.09 ppm), SMILES OC(=NC=1C=CC=C(O)C1)OC, Annotation [C8H9NO3+H]+, Rule of HR True"}, "num_peaks": "2", "compound_name": "Phenmedipham", "retention_time": "6.570995", "precursor_mz": "301.1185", "adduct": "[M+H]+", "collision_energy": "", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[136.03947, 2596929.0], [168.06587, 7038054.0]]}]\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/convert/metadata.csv
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/convert/metadata.csv Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,171 @@\n+ionization,inchi,authors,spectrumtype,inchikey,instrument_type,smiles,license,scannumber,comment,ionmode,compound_name,adduct,num_peaks,precursor_mz,peak_comments,instrument,formula,collision_energy,retention_time\r\n+ESI+,,"Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)",Centroid,YASYVMFAVPKPKE-SECBINFHSA-N,LC-ESI-Orbitrap,COP(=O)(N=C(O)C)SC,CC BY-NC,1161,,Positive,Acephate,[M+H]+,16,184.0194,,LC Orbitrap Fusion Tribrid MS,C4H10NO3PS,,1.232997\r\n+ESI+,,"Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)",Centroid,CVXBEEMKQHEXEN-UHFFFAOYSA-N,LC-ESI-Orbitrap,CN=C(Oc1cccc2c1cccc2)O,CC BY-NC,2257,,Positive,Carbaryl,[M+H]+,1,202.0863,"{145.06491: \'Theoretical m/z 145.064787, Mass diff 0 (0.85 ppm), SMILES OC1=CC=CC=2C=CC=CC12, Annotation [C10H8O+H]+, Rule of HR True\'}",LC Orbitrap Fusion Tribrid MS,C12H11NO2,,5.259445\r\n+ESI+,,"Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)",Centroid,VEENJGZXVHKXNB-UHFFFAOYSA-N,LC-ESI-Orbitrap,COP(=O)(OC(=CC(=O)N(C)C)C)OC,CC BY-NC,1516,,Positive,Dicrotophos,[M+H]+,5,238.0844,"{112.07591: \'Theoretical m/z 112.075687, Mass diff 0 (1.99 ppm), SMILES O=C(C=CC)N(C)C, Annotation [C6H11NO-H]+, Rule of HR True\', 127.01563: \'Theoretical m/z 127.01547, Mass diff 0 (1.26 ppm), SMILES O=P(O)(OC)OC, Annotation [C2H7O4P+H]+, Rule of HR True\', 193.02605: \'Theoretical m/z 193.026035, Mass diff 0 (0.08 ppm), SMILES O=CC=C(OP(=O)(OC)OC)C, Annotation [C6H11O5P-H]+, Rule of HR True\', 238.08437: \'Theoretical m/z 238.083891, Mass diff 0 (2.01 ppm), SMILES O=C(C=C(OP(=O)(OC)OC)C)N(C)C, Annotation [C8H16NO5P+H]+, Rule of HR True\'}",LC Orbitrap Fusion Tribrid MS,C8H16NO5P,,2.025499\r\n+ESI+,,"Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)",Centroid,MCWXGJITAZMZEV-UHFFFAOYSA-N,LC-ESI-Orbitrap,CN=C(CSP(=S)(OC)OC)O,CC BY-NC,1865,,Positive,Dimethoate,[M+H]+,8,230.0072,"{88.0219: \'Theoretical m/z 88.021549, Mass diff 0 (3.99 ppm), SMILES SCC=NC, Annotation [C3H7NS-H]+, Rule of HR True\', 124.98233: \'Theoretical m/z 124.982067, Mass diff 0 (2.11 ppm), SMILES S=P(OC)OC, Annotation [C2H7O2PS-H]+, Rule of HR True\', 142.99275: \'Theoretical m/z 142.993177, Mass diff 0 (0 ppm), Formula C2H8O3PS\', 156.95422: \'Theoretical m/z 156.954136, Mass diff 0 (0.54 ppm), SMILES S=P(S)(OC)OC, Annotation [C2H7O2PS2-H]+, Rule of HR True\', 170.97: \'Theoretical m/z 170.969791, Mass diff 0 (1.22 ppm), SMILES S=P(OC)(OC)SC, Annotation [C3H9O2PS2-H]+, Rule of HR True\', 197.98123: \'Theoretical m/z 197.980686, Mass diff 0.001 (2.75 ppm), SMILES S=P(OC)SCC(O)=NC, Annotation [C4H10NO2PS2-H]+, Rule of HR True\', 198.96501: \'Theoretical m/z 198.965248, Mass diff 0 (0 ppm), Formula C4H8O3PS2\', 230.00722: \'Theoretical m/z 230.006895, Mass diff 0 (1.41 ppm), SMILES S=P(OC)(OC)SCC(O)=NC, Annotation [C5H12NO3PS2+H]+, Rule of HR True\'}",LC Orbitrap Fusion Tribrid MS,C5H12NO3PS2,,2.866696\r\n+ESI+,,"Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)",Centroid,QNBTYORWCCMPQP-UHFFFAOYSA-N,LC-ESI-Orbitrap,COc1cc(ccc1OC)C(=CC(=O)N1CCOCC1)c1ccc(cc1)Cl,CC BY-NC,3852,,Positive,Dimethomorph,[M+H]+,22,388.1316,"{114.05532: \'Theoretical m/z 114.054958, Mass diff 0 (3.17 ppm), SMILES O=CN1CCOCC1, Annotation [C5H9NO2-H]+, Rule of HR True\', 125.01571: \'Theoretical m/z 125.015255, Mass diff 0 (3.64 ppm), SMILES ClC1=CC=C(C=C1)C, Annotation [C7H7Cl-H]+, Rule of HR True\', 138.99484: \'Theoretical m/z 138.995067, Mass diff 0 (0 ppm), Formula C7H4ClO\', 155.0705: \'Theoretical m/z 155.070819, Mass diff 0 (0 ppm), Formula C8H11O3\', 165.05519: \'Theoretical m/z 165.055169, Mass diff -0.001 (0 ppm), Formula C9H9O3\', 195.08057: \'Theoretical m/z 195.08099, Mass diff 0 (0 ppm), Formula C14H11O\', 215.0262: \'Theoretical m/z 215.026368, Mass diff 0 (0 ppm), Formula C13H8ClO\', 223.07544: \'Theoretical m/z 223.075837, Mass diff 0 (1.78 ppm), SMILES O=C(C=CC1=CC=C(Cl)C=C1)N(C)CC, Annotation [C12H14ClNO]+, Rule of HR False\', 227.02576: \'Theoretical m/z 227.026368, Mass diff 0 (0 ppm), Formula C14'..b' (0 ppm), Formula C6H7O2\', 115.05429: \'Theoretical m/z 115.054775, Mass diff 0 (0 ppm), Formula C9H7\', 117.06996: \'Theoretical m/z 117.070425, Mass diff 0 (0 ppm), Formula C9H9\', 118.04177: \'Theoretical m/z 118.041865, Mass diff 0 (0 ppm), Formula C8H6O\', 120.04462: \'Theoretical m/z 120.044391, Mass diff 0 (1.91 ppm), SMILES OC1=CC=CC(N=C)=C1, Annotation [C7H7NO-H]+, Rule of HR True\', 121.03984: \'Theoretical m/z 121.040188, Mass diff 0 (0 ppm), Formula C6H5N2O\', 122.06016: \'Theoretical m/z 122.060041, Mass diff 0 (0.97 ppm), SMILES OC1=CC=CC(N=C)=C1, Annotation [C7H7NO+H]+, Rule of HR True\', 124.07605: \'Theoretical m/z 124.075689, Mass diff 0 (2.91 ppm), SMILES O(C1=CC=CC(N)=C1)C, Annotation [C7H9NO+H]+, Rule of HR True\', 135.04427: \'Theoretical m/z 135.044604, Mass diff 0 (0 ppm), Formula C8H7O2\', 145.06488: \'Theoretical m/z 145.06534, Mass diff 0 (0 ppm), Formula C10H9O\', 165.1024: \'Theoretical m/z 165.102232, Mass diff 0 (1.02 ppm), SMILES OC1=CC=CC(N=CN(C)C)=C1, Annotation [C9H12N2O+H]+, Rule of HR True\'}",LC Orbitrap Fusion Tribrid MS,C11H15N3O2,,1.13043\r\n+ESI+,,"Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)",Centroid,YNEVBPNZHBAYOA-UHFFFAOYSA-N,LC-ESI-Orbitrap,CN=C(Oc1cc(C)c(c(c1)C)N(C)C)O,CC BY-NC,1328,,Positive,Mexacarbate,[M+H]+,5,223.1443,"{134.07283: \'Theoretical m/z 134.072623, Mass diff 0 (1.55 ppm), SMILES O(C=1C=C(C=C(C1)C)C)C, Annotation [C9H12O-2H]+, Rule of HR False\', 136.07611: \'Theoretical m/z 136.076239, Mass diff 0 (0 ppm), Formula C8H10NO\', 150.092: \'Theoretical m/z 150.091343, Mass diff 0.001 (4.38 ppm), SMILES OC1=CC=C(C(=C1)C)N(C)C, Annotation [C9H13NO-H]+, Rule of HR True\', 151.09932: \'Theoretical m/z 151.099168, Mass diff 0 (1.01 ppm), SMILES OC1=CC=C(C(=C1)C)N(C)C, Annotation [C9H13NO]+, Rule of HR False\', 166.12282: \'Theoretical m/z 166.122633, Mass diff 0 (1.13 ppm), SMILES OC=1C=C(C(=C(C1)C)N(C)C)C, Annotation [C10H15NO+H]+, Rule of HR True\'}",LC Orbitrap Fusion Tribrid MS,C12H18N2O2,,1.682191\r\n+ESI+,,"Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)",Centroid,OGYFATSSENRIKG-UHFFFAOYSA-N,LC-ESI-Orbitrap,Clc1ccc(cc1)CN(C(=Nc1ccccc1)O)C1CCCC1,CC BY-NC,3999,,Positive,Monceren,[M+H]+,5,329.1426,"{89.03881: \'Theoretical m/z 89.038575, Mass diff 0 (2.63 ppm), SMILES C=1C=CC(=CC1)C, Annotation [C7H8-3H]+, Rule of HR True\', 94.06543: \'Theoretical m/z 94.065123, Mass diff 0 (3.27 ppm), SMILES NC=1C=CC=CC1, Annotation [C6H7N+H]+, Rule of HR True\', 106.06545: \'Theoretical m/z 106.065123, Mass diff 0 (3.09 ppm), SMILES N(=C)C=1C=CC=CC1, Annotation [C7H7N+H]+, Rule of HR True\', 125.01532: \'Theoretical m/z 125.015255, Mass diff 0 (0.52 ppm), SMILES ClC1=CC=C(C=C1)C, Annotation [C7H7Cl-H]+, Rule of HR True\'}",LC Orbitrap Fusion Tribrid MS,C19H21N2OCl,,7.14553\r\n+ESI+,,"Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)",Centroid,WZJZMXBKUWKXTQ-UHFFFAOYSA-N,LC-ESI-Orbitrap,CCOC(=Nc1cccc(c1)OC(=Nc1ccccc1)O)O,CC BY-NC,2271,,Positive,Desmedipham,[M+H]+,3,301.1192,"{136.03947: \'Theoretical m/z 136.03931, Mass diff 0 (1.18 ppm), SMILES OC(O)=NC=1C=CC=CC1, Annotation [C7H7NO2-H]+, Rule of HR True\', 154.04993: \'Theoretical m/z 154.049864, Mass diff 0 (0.43 ppm), SMILES OC(O)=NC=1C=CC=C(O)C1, Annotation [C7H7NO3+H]+, Rule of HR True\', 182.08162: \'Theoretical m/z 182.081175, Mass diff 0 (2.45 ppm), SMILES OC(=NC=1C=CC=C(O)C1)OCC, Annotation [C9H11NO3+H]+, Rule of HR True\'}",LC Orbitrap Fusion Tribrid MS,C16H16N2O4,,6.430396\r\n+ESI+,,"Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)",Centroid,IDOWTHOLJBTAFI-UHFFFAOYSA-N,LC-ESI-Orbitrap,COC(=Nc1cccc(c1)OC(=Nc1cccc(c1)C)O)O,CC BY-NC,2458,,Positive,Phenmedipham,[M+H]+,2,301.1185,"{136.03947: \'Theoretical m/z 136.03931, Mass diff 0 (1.18 ppm), SMILES OC(O)=NC=1C=CC=CC1, Annotation [C7H7NO2-H]+, Rule of HR True\', 168.06587: \'Theoretical m/z 168.065519, Mass diff 0 (2.09 ppm), SMILES OC(=NC=1C=CC=C(O)C1)OC, Annotation [C8H9NO3+H]+, Rule of HR True\'}",LC Orbitrap Fusion Tribrid MS,C16H16N2O4,,6.570995\r\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/convert/mgf_out.mgf
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/convert/mgf_out.mgf Tue Jun 27 14:25:01 2023 +0000
[
b"@@ -0,0 +1,7057 @@\n+BEGIN IONS\n+SCANNUMBER=1161\n+IONMODE=Positive\n+SPECTRUMTYPE=Centroid\n+FORMULA=C4H10NO3PS\n+INCHIKEY=YASYVMFAVPKPKE-SECBINFHSA-N\n+INCHI=\n+SMILES=COP(=O)(N=C(O)C)SC\n+AUTHORS=Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT=LC Orbitrap Fusion Tribrid MS\n+IONIZATION=ESI+\n+LICENSE=CC BY-NC\n+COMMENT=\n+NUM_PEAKS=16\n+COMPOUND_NAME=Acephate\n+RETENTION_TIME=1.232997\n+PRECURSOR_MZ=184.0194\n+ADDUCT=[M+H]+\n+COLLISION_ENERGY=\n+INSTRUMENT_TYPE=LC-ESI-Orbitrap\n+90.09368 1128.0 \n+93.11512 1241.0 \n+95.10279 1118.0 \n+101.31465 1152.0 \n+102.90688 1322.0 \n+103.98039 1201.0 \n+112.01607 12289.0 \n+112.99994 38027.0 \n+115.00399 1634.0 \n+124.98121 922.0 \n+128.97701 9208.0 \n+132.57193 1350.0 \n+135.84808 1428.0 \n+142.99275 16419.0 \n+147.94205 1750.0 \n+173.5094 2353.0 \n+END IONS\n+\n+BEGIN IONS\n+SCANNUMBER=2257\n+IONMODE=Positive\n+SPECTRUMTYPE=Centroid\n+FORMULA=C12H11NO2\n+INCHIKEY=CVXBEEMKQHEXEN-UHFFFAOYSA-N\n+INCHI=\n+SMILES=CN=C(Oc1cccc2c1cccc2)O\n+AUTHORS=Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT=LC Orbitrap Fusion Tribrid MS\n+IONIZATION=ESI+\n+LICENSE=CC BY-NC\n+COMMENT=\n+PEAK_COMMENTS={145.06491: 'Theoretical m/z 145.064787, Mass diff 0 (0.85 ppm), SMILES OC1=CC=CC=2C=CC=CC12, Annotation [C10H8O+H]+, Rule of HR True'}\n+NUM_PEAKS=1\n+COMPOUND_NAME=Carbaryl\n+RETENTION_TIME=5.259445\n+PRECURSOR_MZ=202.0863\n+ADDUCT=[M+H]+\n+COLLISION_ENERGY=\n+INSTRUMENT_TYPE=LC-ESI-Orbitrap\n+145.06491 1326147.0 \n+END IONS\n+\n+BEGIN IONS\n+SCANNUMBER=1516\n+IONMODE=Positive\n+SPECTRUMTYPE=Centroid\n+FORMULA=C8H16NO5P\n+INCHIKEY=VEENJGZXVHKXNB-UHFFFAOYSA-N\n+INCHI=\n+SMILES=COP(=O)(OC(=CC(=O)N(C)C)C)OC\n+AUTHORS=Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT=LC Orbitrap Fusion Tribrid MS\n+IONIZATION=ESI+\n+LICENSE=CC BY-NC\n+COMMENT=\n+PEAK_COMMENTS={112.07591: 'Theoretical m/z 112.075687, Mass diff 0 (1.99 ppm), SMILES O=C(C=CC)N(C)C, Annotation [C6H11NO-H]+, Rule of HR True', 127.01563: 'Theoretical m/z 127.01547, Mass diff 0 (1.26 ppm), SMILES O=P(O)(OC)OC, Annotation [C2H7O4P+H]+, Rule of HR True', 193.02605: 'Theoretical m/z 193.026035, Mass diff 0 (0.08 ppm), SMILES O=CC=C(OP(=O)(OC)OC)C, Annotation [C6H11O5P-H]+, Rule of HR True', 238.08437: 'Theoretical m/z 238.083891, Mass diff 0 (2.01 ppm), SMILES O=C(C=C(OP(=O)(OC)OC)C)N(C)C, Annotation [C8H16NO5P+H]+, Rule of HR True'}\n+NUM_PEAKS=5\n+COMPOUND_NAME=Dicrotophos\n+RETENTION_TIME=2.025499\n+PRECURSOR_MZ=238.0844\n+ADDUCT=[M+H]+\n+COLLISION_ENERGY=\n+INSTRUMENT_TYPE=LC-ESI-Orbitrap\n+112.074 102027.0 \n+112.07591 9070987.0 \n+127.01563 3230337.0 \n+193.02605 7897744.0 \n+238.08437 2973124.0 \n+END IONS\n+\n+BEGIN IONS\n+SCANNUMBER=1865\n+IONMODE=Positive\n+SPECTRUMTYPE=Centroid\n+FORMULA=C5H12NO3PS2\n+INCHIKEY=MCWXGJITAZMZEV-UHFFFAOYSA-N\n+INCHI=\n+SMILES=CN=C(CSP(=S)(OC)OC)O\n+AUTHORS=Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT=LC Orbitrap Fusion Tribrid MS\n+IONIZATION=ESI+\n+LICENSE=CC BY-NC\n+COMMENT=\n+PEAK_COMMENTS={88.0219: 'Theoretical m/z 88.021549, Mass diff 0 (3.99 ppm), SMILES SCC=NC, Annotation [C3H7NS-H]+, Rule of HR True', 124.98233: 'Theoretical m/z 124.982067, Mass diff 0 (2.11 ppm), SMILES S=P(OC)OC, Annotation [C2H7O2PS-H]+, Rule of HR True', 142.99275: 'Theoretical m/z 142.993177, Mass diff 0 (0 ppm), Formula C2H8O3PS', 156.95422: 'Theoretical m/z 156.954136, Mass diff 0 (0.54 ppm), SMILES S=P(S)(OC)OC, Annotation [C2H7O2PS2-H]+, Rule of HR True', 170.97: 'Theoretical m/z 170.969791, Mass diff 0 (1.22 ppm), SMILES S=P(OC)(OC)SC, Annotation [C3H9O2PS2-H]+, Rule of HR True', 197.98123: 'Theoretical m/z 197.980686, Mass diff 0.001 (2.75 ppm), SMILES S=P(OC)SCC(O)=NC, Annotation [C4H10NO2PS2-H]+, Rule of HR True', 198.96501: 'Theoretical m/z 198.965248, Mass diff 0 (0 ppm), Formula C4H8O3PS2', 230.00722: 'Theoretical m/z 230.006895, Mass diff 0 (1.41 ppm), SMILES S=P(OC)(OC)SCC(O)=NC, Annotation [C5H12NO3PS2+H]+, Rule of HR True'}\n+NUM_PEAKS=8\n+COMPOUND_NAME=Dimethoate\n+RETENTION_TIME=2.866696"..b"RUMENT=LC Orbitrap Fusion Tribrid MS\n+IONIZATION=ESI+\n+LICENSE=CC BY-NC\n+COMMENT=\n+PEAK_COMMENTS={134.07283: 'Theoretical m/z 134.072623, Mass diff 0 (1.55 ppm), SMILES O(C=1C=C(C=C(C1)C)C)C, Annotation [C9H12O-2H]+, Rule of HR False', 136.07611: 'Theoretical m/z 136.076239, Mass diff 0 (0 ppm), Formula C8H10NO', 150.092: 'Theoretical m/z 150.091343, Mass diff 0.001 (4.38 ppm), SMILES OC1=CC=C(C(=C1)C)N(C)C, Annotation [C9H13NO-H]+, Rule of HR True', 151.09932: 'Theoretical m/z 151.099168, Mass diff 0 (1.01 ppm), SMILES OC1=CC=C(C(=C1)C)N(C)C, Annotation [C9H13NO]+, Rule of HR False', 166.12282: 'Theoretical m/z 166.122633, Mass diff 0 (1.13 ppm), SMILES OC=1C=C(C(=C(C1)C)N(C)C)C, Annotation [C10H15NO+H]+, Rule of HR True'}\n+NUM_PEAKS=5\n+COMPOUND_NAME=Mexacarbate\n+RETENTION_TIME=1.682191\n+PRECURSOR_MZ=223.1443\n+ADDUCT=[M+H]+\n+COLLISION_ENERGY=\n+INSTRUMENT_TYPE=LC-ESI-Orbitrap\n+134.07283 2632951.0 \n+136.07611 26036728.0 \n+150.092 1572118.0 \n+151.09932 54847764.0 \n+166.12282 1541928.0 \n+END IONS\n+\n+BEGIN IONS\n+SCANNUMBER=3999\n+IONMODE=Positive\n+SPECTRUMTYPE=Centroid\n+FORMULA=C19H21N2OCl\n+INCHIKEY=OGYFATSSENRIKG-UHFFFAOYSA-N\n+INCHI=\n+SMILES=Clc1ccc(cc1)CN(C(=Nc1ccccc1)O)C1CCCC1\n+AUTHORS=Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT=LC Orbitrap Fusion Tribrid MS\n+IONIZATION=ESI+\n+LICENSE=CC BY-NC\n+COMMENT=\n+PEAK_COMMENTS={89.03881: 'Theoretical m/z 89.038575, Mass diff 0 (2.63 ppm), SMILES C=1C=CC(=CC1)C, Annotation [C7H8-3H]+, Rule of HR True', 94.06543: 'Theoretical m/z 94.065123, Mass diff 0 (3.27 ppm), SMILES NC=1C=CC=CC1, Annotation [C6H7N+H]+, Rule of HR True', 106.06545: 'Theoretical m/z 106.065123, Mass diff 0 (3.09 ppm), SMILES N(=C)C=1C=CC=CC1, Annotation [C7H7N+H]+, Rule of HR True', 125.01532: 'Theoretical m/z 125.015255, Mass diff 0 (0.52 ppm), SMILES ClC1=CC=C(C=C1)C, Annotation [C7H7Cl-H]+, Rule of HR True'}\n+NUM_PEAKS=5\n+COMPOUND_NAME=Monceren\n+RETENTION_TIME=7.14553\n+PRECURSOR_MZ=329.1426\n+ADDUCT=[M+H]+\n+COLLISION_ENERGY=\n+INSTRUMENT_TYPE=LC-ESI-Orbitrap\n+89.03881 550831.0 \n+94.06543 635265.0 \n+106.06545 446416.0 \n+125.01307 512150.0 \n+125.01532 37442116.0 \n+END IONS\n+\n+BEGIN IONS\n+SCANNUMBER=2271\n+IONMODE=Positive\n+SPECTRUMTYPE=Centroid\n+FORMULA=C16H16N2O4\n+INCHIKEY=WZJZMXBKUWKXTQ-UHFFFAOYSA-N\n+INCHI=\n+SMILES=CCOC(=Nc1cccc(c1)OC(=Nc1ccccc1)O)O\n+AUTHORS=Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT=LC Orbitrap Fusion Tribrid MS\n+IONIZATION=ESI+\n+LICENSE=CC BY-NC\n+COMMENT=\n+PEAK_COMMENTS={136.03947: 'Theoretical m/z 136.03931, Mass diff 0 (1.18 ppm), SMILES OC(O)=NC=1C=CC=CC1, Annotation [C7H7NO2-H]+, Rule of HR True', 154.04993: 'Theoretical m/z 154.049864, Mass diff 0 (0.43 ppm), SMILES OC(O)=NC=1C=CC=C(O)C1, Annotation [C7H7NO3+H]+, Rule of HR True', 182.08162: 'Theoretical m/z 182.081175, Mass diff 0 (2.45 ppm), SMILES OC(=NC=1C=CC=C(O)C1)OCC, Annotation [C9H11NO3+H]+, Rule of HR True'}\n+NUM_PEAKS=3\n+COMPOUND_NAME=Desmedipham\n+RETENTION_TIME=6.430396\n+PRECURSOR_MZ=301.1192\n+ADDUCT=[M+H]+\n+COLLISION_ENERGY=\n+INSTRUMENT_TYPE=LC-ESI-Orbitrap\n+136.03947 1773399.0 \n+154.04993 1002798.0 \n+182.08162 6480130.0 \n+END IONS\n+\n+BEGIN IONS\n+SCANNUMBER=2458\n+IONMODE=Positive\n+SPECTRUMTYPE=Centroid\n+FORMULA=C16H16N2O4\n+INCHIKEY=IDOWTHOLJBTAFI-UHFFFAOYSA-N\n+INCHI=\n+SMILES=COC(=Nc1cccc(c1)OC(=Nc1cccc(c1)C)O)O\n+AUTHORS=Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT=LC Orbitrap Fusion Tribrid MS\n+IONIZATION=ESI+\n+LICENSE=CC BY-NC\n+COMMENT=\n+PEAK_COMMENTS={136.03947: 'Theoretical m/z 136.03931, Mass diff 0 (1.18 ppm), SMILES OC(O)=NC=1C=CC=CC1, Annotation [C7H7NO2-H]+, Rule of HR True', 168.06587: 'Theoretical m/z 168.065519, Mass diff 0 (2.09 ppm), SMILES OC(=NC=1C=CC=C(O)C1)OC, Annotation [C8H9NO3+H]+, Rule of HR True'}\n+NUM_PEAKS=2\n+COMPOUND_NAME=Phenmedipham\n+RETENTION_TIME=6.570995\n+PRECURSOR_MZ=301.1185\n+ADDUCT=[M+H]+\n+COLLISION_ENERGY=\n+INSTRUMENT_TYPE=LC-ESI-Orbitrap\n+136.03947 2596929.0 \n+168.06587 7038054.0 \n+END IONS\n+\n"
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/convert/msp_out.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/convert/msp_out.msp Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,6548 @@\n+SCANNUMBER: 1161\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C4H10NO3PS\n+INCHIKEY: YASYVMFAVPKPKE-SECBINFHSA-N\n+INCHI: \n+SMILES: COP(=O)(N=C(O)C)SC\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+COMPOUND_NAME: Acephate\n+RETENTION_TIME: 1.232997\n+PRECURSOR_MZ: 184.0194\n+ADDUCT: [M+H]+\n+COLLISION_ENERGY: \n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 16\n+90.09368    1128.0\n+93.11512    1241.0\n+95.10279    1118.0\n+101.31465   1152.0\n+102.90688   1322.0\n+103.98039   1201.0\n+112.01607   12289.0\n+112.99994   38027.0\n+115.00399   1634.0\n+124.98121   922.0\n+128.97701   9208.0\n+132.57193   1350.0\n+135.84808   1428.0\n+142.99275   16419.0\n+147.94205   1750.0\n+173.5094    2353.0\n+\n+SCANNUMBER: 2257\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C12H11NO2\n+INCHIKEY: CVXBEEMKQHEXEN-UHFFFAOYSA-N\n+INCHI: \n+SMILES: CN=C(Oc1cccc2c1cccc2)O\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+COMPOUND_NAME: Carbaryl\n+RETENTION_TIME: 5.259445\n+PRECURSOR_MZ: 202.0863\n+ADDUCT: [M+H]+\n+COLLISION_ENERGY: \n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 1\n+145.06491   1326147.0\n+\n+SCANNUMBER: 1516\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C8H16NO5P\n+INCHIKEY: VEENJGZXVHKXNB-UHFFFAOYSA-N\n+INCHI: \n+SMILES: COP(=O)(OC(=CC(=O)N(C)C)C)OC\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+COMPOUND_NAME: Dicrotophos\n+RETENTION_TIME: 2.025499\n+PRECURSOR_MZ: 238.0844\n+ADDUCT: [M+H]+\n+COLLISION_ENERGY: \n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 5\n+112.074     102027.0\n+112.07591   9070987.0\n+127.01563   3230337.0\n+193.02605   7897744.0\n+238.08437   2973124.0\n+\n+SCANNUMBER: 1865\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C5H12NO3PS2\n+INCHIKEY: MCWXGJITAZMZEV-UHFFFAOYSA-N\n+INCHI: \n+SMILES: CN=C(CSP(=S)(OC)OC)O\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+COMPOUND_NAME: Dimethoate\n+RETENTION_TIME: 2.866696\n+PRECURSOR_MZ: 230.0072\n+ADDUCT: [M+H]+\n+COLLISION_ENERGY: \n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 8\n+88.0219     548446.0\n+124.98233   183861.0\n+142.99275   722053.0\n+156.95422   80792.0\n+170.97      1426256.0\n+197.98123   240915.0\n+198.96501   5415933.0\n+230.00722   497851.0\n+\n+SCANNUMBER: 3852\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C21H22NO4Cl\n+INCHIKEY: QNBTYORWCCMPQP-UHFFFAOYSA-N\n+INCHI: \n+SMILES: COc1cc(ccc1OC)C(=CC(=O)N1CCOCC1)c1ccc(cc1)Cl\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+COMPOUND_NAME: Dimethomorph\n+RETENTION_TIME: 7.060486\n+PRECURSOR_MZ: 388.1316\n+ADDUCT: [M+H]+\n+COLLISION_ENERGY: \n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 22\n+114.05532   468862.0\n+125.01571   886745.0\n+138.99484   4138370.0\n+155.0705    425164.0\n+165.05519   15513399.0\n+165.06543   350695.0\n+195.08057   386226.0\n+215.0262    490061.0\n+223.07544   702025.0\n+227.02576   230514.0\n+229.04225   216308.0\n+235.07555   241142.0\n+238.09914   1323577.0\n+242.04929   2449236.0\n+243.02142   891584.0\n+257.03726   578874.0\n+258.04443   3232295.0\n+266.0943    358273.0\n+270.04492   608851.0\n+273.06772   3866006.0\n+286.03912   483547.0\n+301.06311   4060551.0\n+\n+SCANNUMBER: 1009\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C2H8NO2PS\n+INCHIKEY: NNKVPIKMPCQWCG-ZCFIWIBFSA-N\n+INCHI: \n+SMILES: COP(=O)(SC)N\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+COMPOUND_NAME: Methamidophos\n+RETENTIO'..b': 2\n+86.0966     107829.0\n+102.05516   2507023.0\n+\n+SCANNUMBER: 711\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C11H15N3O2\n+INCHIKEY: MYPKGPZHHQEODQ-UHFFFAOYSA-N\n+INCHI: \n+SMILES: CN=C(Oc1cccc(c1)N=CN(C)C)O\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+COMPOUND_NAME: Formetanate_1\n+RETENTION_TIME: 0.7730471\n+PRECURSOR_MZ: 222.1239\n+ADDUCT: [M+H]+\n+COLLISION_ENERGY: \n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 13\n+93.03365    1796.0\n+107.04935   1981.0\n+111.04435   82262.0\n+118.04142   1927.0\n+120.04462   150907.0\n+121.03984   67610.0\n+122.06016   5909.0\n+122.75254   1678.0\n+150.98424   1930.0\n+165.1024    143887.0\n+173.50876   2616.0\n+200.05632   2056.0\n+208.52768   2170.0\n+\n+SCANNUMBER: 1161\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C11H15N3O2\n+INCHIKEY: MYPKGPZHHQEODQ-UHFFFAOYSA-N\n+INCHI: \n+SMILES: CN=C(Oc1cccc(c1)N=CN(C)C)O\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+COMPOUND_NAME: Formetanate_2\n+RETENTION_TIME: 1.13043\n+PRECURSOR_MZ: 222.1239\n+ADDUCT: [M+H]+\n+COLLISION_ENERGY: \n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 15\n+91.05441    6330.0\n+93.03365    27201.0\n+107.04935   4024.0\n+111.04435   131558.0\n+115.05429   3711.0\n+117.06996   5571.0\n+118.04177   4476.0\n+120.04462   274740.0\n+121.03984   113412.0\n+122.06016   7843.0\n+124.07605   4049.0\n+135.04427   4178.0\n+145.06488   3067.0\n+164.95049   3848.0\n+165.1024    263802.0\n+\n+SCANNUMBER: 1328\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C12H18N2O2\n+INCHIKEY: YNEVBPNZHBAYOA-UHFFFAOYSA-N\n+INCHI: \n+SMILES: CN=C(Oc1cc(C)c(c(c1)C)N(C)C)O\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+COMPOUND_NAME: Mexacarbate\n+RETENTION_TIME: 1.682191\n+PRECURSOR_MZ: 223.1443\n+ADDUCT: [M+H]+\n+COLLISION_ENERGY: \n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 5\n+134.07283   2632951.0\n+136.07611   26036728.0\n+150.092     1572118.0\n+151.09932   54847764.0\n+166.12282   1541928.0\n+\n+SCANNUMBER: 3999\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C19H21N2OCl\n+INCHIKEY: OGYFATSSENRIKG-UHFFFAOYSA-N\n+INCHI: \n+SMILES: Clc1ccc(cc1)CN(C(=Nc1ccccc1)O)C1CCCC1\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+COMPOUND_NAME: Monceren\n+RETENTION_TIME: 7.14553\n+PRECURSOR_MZ: 329.1426\n+ADDUCT: [M+H]+\n+COLLISION_ENERGY: \n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 5\n+89.03881    550831.0\n+94.06543    635265.0\n+106.06545   446416.0\n+125.01307   512150.0\n+125.01532   37442116.0\n+\n+SCANNUMBER: 2271\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C16H16N2O4\n+INCHIKEY: WZJZMXBKUWKXTQ-UHFFFAOYSA-N\n+INCHI: \n+SMILES: CCOC(=Nc1cccc(c1)OC(=Nc1ccccc1)O)O\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+COMPOUND_NAME: Desmedipham\n+RETENTION_TIME: 6.430396\n+PRECURSOR_MZ: 301.1192\n+ADDUCT: [M+H]+\n+COLLISION_ENERGY: \n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 3\n+136.03947   1773399.0\n+154.04993   1002798.0\n+182.08162   6480130.0\n+\n+SCANNUMBER: 2458\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C16H16N2O4\n+INCHIKEY: IDOWTHOLJBTAFI-UHFFFAOYSA-N\n+INCHI: \n+SMILES: COC(=Nc1cccc(c1)OC(=Nc1cccc(c1)C)O)O\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n+IONIZATION: ESI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+COMPOUND_NAME: Phenmedipham\n+RETENTION_TIME: 6.570995\n+PRECURSOR_MZ: 301.1185\n+ADDUCT: [M+H]+\n+COLLISION_ENERGY: \n+INSTRUMENT_TYPE: LC-ESI-Orbitrap\n+NUM PEAKS: 2\n+136.03947   2596929.0\n+168.06587   7038054.0\n+\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/fingerprints/cosine.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/fingerprints/cosine.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "1161", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C4H10NO3PS", "inchikey": "YASYVMFAVPKPKE-SECBINFHSA-N", "smiles": "COP(=O)(N=C(O)C)SC", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "num_peaks": "16", "compound_name": "Acephate", "retention_time": 1.232997, "precursor_mz": 184.0194, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[90.09368, 1128.0], [93.11512, 1241.0], [95.10279, 1118.0], [101.31465, 1152.0], [102.90688, 1322.0], [103.98039, 1201.0], [112.01607, 12289.0], [112.99994, 38027.0], [115.00399, 1634.0], [124.98121, 922.0], [128.97701, 9208.0], [132.57193, 1350.0], [135.84808, 1428.0], [142.99275, 16419.0], [147.94205, 1750.0], [173.5094, 2353.0]]}, {"scannumber": "2257", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C12H11NO2", "inchikey": "CVXBEEMKQHEXEN-UHFFFAOYSA-N", "smiles": "CN=C(Oc1cccc2c1cccc2)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"145.06491": "Theoretical m/z 145.064787, Mass diff 0 (0.85 ppm), SMILES OC1=CC=CC=2C=CC=CC12, Annotation [C10H8O+H]+, Rule of HR True"}, "num_peaks": "1", "compound_name": "Carbaryl", "retention_time": 5.259445, "precursor_mz": 202.0863, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[145.06491, 1326147.0]]}, {"scannumber": "1516", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C8H16NO5P", "inchikey": "VEENJGZXVHKXNB-UHFFFAOYSA-N", "smiles": "COP(=O)(OC(=CC(=O)N(C)C)C)OC", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"112.07591": "Theoretical m/z 112.075687, Mass diff 0 (1.99 ppm), SMILES O=C(C=CC)N(C)C, Annotation [C6H11NO-H]+, Rule of HR True", "127.01563": "Theoretical m/z 127.01547, Mass diff 0 (1.26 ppm), SMILES O=P(O)(OC)OC, Annotation [C2H7O4P+H]+, Rule of HR True", "193.02605": "Theoretical m/z 193.026035, Mass diff 0 (0.08 ppm), SMILES O=CC=C(OP(=O)(OC)OC)C, Annotation [C6H11O5P-H]+, Rule of HR True", "238.08437": "Theoretical m/z 238.083891, Mass diff 0 (2.01 ppm), SMILES O=C(C=C(OP(=O)(OC)OC)C)N(C)C, Annotation [C8H16NO5P+H]+, Rule of HR True"}, "num_peaks": "5", "compound_name": "Dicrotophos", "retention_time": 2.025499, "precursor_mz": 238.0844, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[112.074, 102027.0], [112.07591, 9070987.0], [127.01563, 3230337.0], [193.02605, 7897744.0], [238.08437, 2973124.0]]}, {"scannumber": "1865", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C5H12NO3PS2", "inchikey": "MCWXGJITAZMZEV-UHFFFAOYSA-N", "smiles": "CN=C(CSP(=S)(OC)OC)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"88.0219": "Theoretical m/z 88.021549, Mass diff 0 (3.99 ppm), SMILES SCC=NC, Annotation [C3H7NS-H]+, Rule of HR True", "124.98233": "Theoretical m/z 124.982067, Mass diff 0 (2.11 ppm), SMILES S=P(OC)OC, Annotation [C2H7O2PS-H]+, Rule of HR True", "142.99275": "Theoretical m/z 142.993177, Mass diff 0 (0 ppm), Formula C2H8O3PS", "156.95422": "Theoretical m/z 156.954136, Mass diff 0 (0.54 ppm), SMILES S=P(S)(OC)OC, Annotation [C2H7O2PS2-H]+, Rule of HR True", "170.97": "Theoretical m/z 170.969791, Mass diff 0 (1.22 ppm), SMILES S=P(OC)(OC)SC, Annotation [C3H9O2PS2-H]+, Rule of HR True", "197.98123": "Theoretical m/z 197.980686, Mass diff 0.001 (2.75 ppm), SMILES S=P(OC)SCC(O)=NC, Annotation [C4H10NO2PS2-H]+, Rule of HR True", "198.96501": "Theoretical m/z 198'..b'), Formula C15H7", "189.06969": "Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9", "201.06973": "Theoretical m/z 201.070425, Mass diff 0 (0 ppm), Formula C16H9", "233.04245": "Theoretical m/z 233.042496, Mass diff -0.001 (0 ppm), Formula C16H9S", "234.04965": "Theoretical m/z 234.049775, Mass diff 0 (0.53 ppm), SMILES S1C=2C=CC=CC2C=3C=CC=4C=CC=CC4C13, Annotation [C16H10S]+, Rule of HR False"}, "num_peaks": "23", "compound_name": "Benzo[b]naphtho[2,1-d]thiophene", "retention_time": null, "retention_index": 2419.3, "precursor_mz": 234.04965, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[91.05425, 49130.0], [93.52686, 61653.0], [94.53469, 76638.0], [104.01679, 126871.0], [116.01675, 112547.0], [117.02459, 99108.0], [162.04623, 54491.0], [163.05408, 136418.0], [164.06198, 56321.0], [187.05406, 273349.0], [188.06189, 200750.0], [189.06969, 453336.0], [190.07306, 77884.0], [200.06189, 135620.0], [201.06973, 74692.0], [202.07758, 425058.0], [203.08086, 72058.0], [226.07762, 63460.0], [232.03409, 769638.0], [233.04245, 382457.0], [234.04965, 4404102.0], [235.05304, 725574.0], [236.04547, 251450.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C17H12", "inchikey": "HAPOJKSPCGLOOD-UHFFFAOYSA-N", "smiles": "C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"163.05414": "Theoretical m/z 163.054775, Mass diff 0 (0 ppm), Formula C13H7", "187.05412": "Theoretical m/z 187.054775, Mass diff 0 (0 ppm), Formula C15H7", "189.06975": "Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9", "211.05426": "Theoretical m/z 211.054775, Mass diff 0 (0 ppm), Formula C17H7", "213.0699": "Theoretical m/z 213.070425, Mass diff 0 (0 ppm), Formula C17H9", "215.0855": "Theoretical m/z 215.086075, Mass diff 0 (0 ppm), Formula C17H11", "216.09326": "Theoretical m/z 216.093354, Mass diff 0 (0.44 ppm), SMILES C=1C=CC=2C=C3C(=CC2C1)C=4C=CC=CC4C3, Annotation [C17H12]+, Rule of HR False"}, "num_peaks": "21", "compound_name": "2,3-Benzofluorene", "retention_time": null, "retention_index": 2257.5, "precursor_mz": 216.09326, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[93.52689, 122035.0], [94.53471, 241743.0], [95.03638, 42130.0], [105.52688, 47526.0], [106.53471, 171653.0], [107.03639, 60004.0], [107.5425, 180288.0], [108.03385, 97471.0], [163.05414, 68194.0], [187.05412, 167183.0], [188.06201, 86262.0], [189.06975, 239421.0], [190.07321, 37778.0], [211.05426, 117044.0], [212.06215, 60813.0], [213.0699, 808499.0], [214.07317, 202222.0], [215.0855, 3634570.0], [216.09326, 2535030.0], [217.09671, 444170.0], [218.09999, 37976.0]]}], "n_row": 5, "n_col": 7, "row": [0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4], "col": [0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6], "data": [[0.0563436169819011], [0.05741692517632146], [0.1213570784945665], [0.0563436169819011], [0.06510467359823571], [0.06311869632330808], [0.161218884399274], [0.4023956421624664], [0.4011466400553764], [0.27508612307793867], [0.4023956421624664], [0.1549884934836848], [0.27137377914817884], [0.2569780843750233], [0.08328129877731794], [0.08486775178136235], [0.14708952027694389], [0.08328129877731794], [0.07698478818604926], [0.12056651728064088], [0.1588647043434069], [0.06928995160692483], [0.07060987881136029], [0.11939348655940786], [0.06928995160692483], [0.09912695235553014], [0.09724046213130343], [0.14728100877622677], [0.16031154731160938], [0.1520987974102627], [0.22384378823632398], [0.16031154731160938], [0.13626771391646142], [0.2000718754617515], [0.36485712884822324]], "dtype": [["FingerprintSimilarity_cosine", "<f8"]]}\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/fingerprints/dice.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/fingerprints/dice.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "1161", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C4H10NO3PS", "inchikey": "YASYVMFAVPKPKE-SECBINFHSA-N", "smiles": "COP(=O)(N=C(O)C)SC", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "num_peaks": "16", "compound_name": "Acephate", "retention_time": 1.232997, "precursor_mz": 184.0194, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[90.09368, 1128.0], [93.11512, 1241.0], [95.10279, 1118.0], [101.31465, 1152.0], [102.90688, 1322.0], [103.98039, 1201.0], [112.01607, 12289.0], [112.99994, 38027.0], [115.00399, 1634.0], [124.98121, 922.0], [128.97701, 9208.0], [132.57193, 1350.0], [135.84808, 1428.0], [142.99275, 16419.0], [147.94205, 1750.0], [173.5094, 2353.0]]}, {"scannumber": "2257", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C12H11NO2", "inchikey": "CVXBEEMKQHEXEN-UHFFFAOYSA-N", "smiles": "CN=C(Oc1cccc2c1cccc2)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"145.06491": "Theoretical m/z 145.064787, Mass diff 0 (0.85 ppm), SMILES OC1=CC=CC=2C=CC=CC12, Annotation [C10H8O+H]+, Rule of HR True"}, "num_peaks": "1", "compound_name": "Carbaryl", "retention_time": 5.259445, "precursor_mz": 202.0863, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[145.06491, 1326147.0]]}, {"scannumber": "1516", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C8H16NO5P", "inchikey": "VEENJGZXVHKXNB-UHFFFAOYSA-N", "smiles": "COP(=O)(OC(=CC(=O)N(C)C)C)OC", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"112.07591": "Theoretical m/z 112.075687, Mass diff 0 (1.99 ppm), SMILES O=C(C=CC)N(C)C, Annotation [C6H11NO-H]+, Rule of HR True", "127.01563": "Theoretical m/z 127.01547, Mass diff 0 (1.26 ppm), SMILES O=P(O)(OC)OC, Annotation [C2H7O4P+H]+, Rule of HR True", "193.02605": "Theoretical m/z 193.026035, Mass diff 0 (0.08 ppm), SMILES O=CC=C(OP(=O)(OC)OC)C, Annotation [C6H11O5P-H]+, Rule of HR True", "238.08437": "Theoretical m/z 238.083891, Mass diff 0 (2.01 ppm), SMILES O=C(C=C(OP(=O)(OC)OC)C)N(C)C, Annotation [C8H16NO5P+H]+, Rule of HR True"}, "num_peaks": "5", "compound_name": "Dicrotophos", "retention_time": 2.025499, "precursor_mz": 238.0844, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[112.074, 102027.0], [112.07591, 9070987.0], [127.01563, 3230337.0], [193.02605, 7897744.0], [238.08437, 2973124.0]]}, {"scannumber": "1865", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C5H12NO3PS2", "inchikey": "MCWXGJITAZMZEV-UHFFFAOYSA-N", "smiles": "CN=C(CSP(=S)(OC)OC)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"88.0219": "Theoretical m/z 88.021549, Mass diff 0 (3.99 ppm), SMILES SCC=NC, Annotation [C3H7NS-H]+, Rule of HR True", "124.98233": "Theoretical m/z 124.982067, Mass diff 0 (2.11 ppm), SMILES S=P(OC)OC, Annotation [C2H7O2PS-H]+, Rule of HR True", "142.99275": "Theoretical m/z 142.993177, Mass diff 0 (0 ppm), Formula C2H8O3PS", "156.95422": "Theoretical m/z 156.954136, Mass diff 0 (0.54 ppm), SMILES S=P(S)(OC)OC, Annotation [C2H7O2PS2-H]+, Rule of HR True", "170.97": "Theoretical m/z 170.969791, Mass diff 0 (1.22 ppm), SMILES S=P(OC)(OC)SC, Annotation [C3H9O2PS2-H]+, Rule of HR True", "197.98123": "Theoretical m/z 197.980686, Mass diff 0.001 (2.75 ppm), SMILES S=P(OC)SCC(O)=NC, Annotation [C4H10NO2PS2-H]+, Rule of HR True", "198.96501": "Theoretical m/z 198'..b'la C15H7", "189.06969": "Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9", "201.06973": "Theoretical m/z 201.070425, Mass diff 0 (0 ppm), Formula C16H9", "233.04245": "Theoretical m/z 233.042496, Mass diff -0.001 (0 ppm), Formula C16H9S", "234.04965": "Theoretical m/z 234.049775, Mass diff 0 (0.53 ppm), SMILES S1C=2C=CC=CC2C=3C=CC=4C=CC=CC4C13, Annotation [C16H10S]+, Rule of HR False"}, "num_peaks": "23", "compound_name": "Benzo[b]naphtho[2,1-d]thiophene", "retention_time": null, "retention_index": 2419.3, "precursor_mz": 234.04965, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[91.05425, 49130.0], [93.52686, 61653.0], [94.53469, 76638.0], [104.01679, 126871.0], [116.01675, 112547.0], [117.02459, 99108.0], [162.04623, 54491.0], [163.05408, 136418.0], [164.06198, 56321.0], [187.05406, 273349.0], [188.06189, 200750.0], [189.06969, 453336.0], [190.07306, 77884.0], [200.06189, 135620.0], [201.06973, 74692.0], [202.07758, 425058.0], [203.08086, 72058.0], [226.07762, 63460.0], [232.03409, 769638.0], [233.04245, 382457.0], [234.04965, 4404102.0], [235.05304, 725574.0], [236.04547, 251450.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C17H12", "inchikey": "HAPOJKSPCGLOOD-UHFFFAOYSA-N", "smiles": "C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"163.05414": "Theoretical m/z 163.054775, Mass diff 0 (0 ppm), Formula C13H7", "187.05412": "Theoretical m/z 187.054775, Mass diff 0 (0 ppm), Formula C15H7", "189.06975": "Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9", "211.05426": "Theoretical m/z 211.054775, Mass diff 0 (0 ppm), Formula C17H7", "213.0699": "Theoretical m/z 213.070425, Mass diff 0 (0 ppm), Formula C17H9", "215.0855": "Theoretical m/z 215.086075, Mass diff 0 (0 ppm), Formula C17H11", "216.09326": "Theoretical m/z 216.093354, Mass diff 0 (0.44 ppm), SMILES C=1C=CC=2C=C3C(=CC2C1)C=4C=CC=CC4C3, Annotation [C17H12]+, Rule of HR False"}, "num_peaks": "21", "compound_name": "2,3-Benzofluorene", "retention_time": null, "retention_index": 2257.5, "precursor_mz": 216.09326, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[93.52689, 122035.0], [94.53471, 241743.0], [95.03638, 42130.0], [105.52688, 47526.0], [106.53471, 171653.0], [107.03639, 60004.0], [107.5425, 180288.0], [108.03385, 97471.0], [163.05414, 68194.0], [187.05412, 167183.0], [188.06201, 86262.0], [189.06975, 239421.0], [190.07321, 37778.0], [211.05426, 117044.0], [212.06215, 60813.0], [213.0699, 808499.0], [214.07317, 202222.0], [215.0855, 3634570.0], [216.09326, 2535030.0], [217.09671, 444170.0], [218.09999, 37976.0]]}], "n_row": 5, "n_col": 7, "row": [0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4], "col": [0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6], "data": [[0.045454545454545456], [0.04580152671755725], [0.11976047904191617], [0.045454545454545456], [0.059800664451827246], [0.06310679611650485], [0.1549053356282272], [0.3108108108108108], [0.30612244897959184], [0.27392120075046905], [0.3108108108108108], [0.13813813813813813], [0.2702702702702703], [0.25122349102773245], [0.06230529595015576], [0.06269592476489028], [0.14695340501792115], [0.06230529595015576], [0.0670391061452514], [0.11940298507462686], [0.15673981191222572], [0.05761316872427984], [0.058091286307053944], [0.11666666666666667], [0.05761316872427984], [0.09285714285714286], [0.09718670076726342], [0.1392857142857143], [0.08787878787878788], [0.08206686930091185], [0.20958751393534003], [0.08787878787878788], [0.09182209469153516], [0.17326732673267325], [0.3541453428863869]], "dtype": [["FingerprintSimilarity_dice", "<f8"]]}\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/fingerprints/jaccard_scores.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/fingerprints/jaccard_scores.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "19", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.01508, 137808.0], [75.02295, 278714.0], [76.03075, 608417.0], [87.02295, 304266.0], [88.03076, 497050.0], [89.03857, 441168.0], [98.01511, 150478.0], [150.04633, 868927.0], [151.05415, 546351.0], [152.0619, 2275502.0], [153.06528, 276320.0], [169.06468, 272559.0], [174.04636, 365846.0], [175.05423, 272039.0], [176.062, 3370523.0], [177.06982, 1751846.0], [178.0775, 13724432.0], [179.08078, 2250119.0], [180.08412, 138203.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "Anthracene", "retention_time": null, "retention_index": 1844.4, "precursor_mz": 178.07754, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.0151, 117371.0], [75.02296, 245305.0], [76.03077, 632686.0], [87.02297, 236214.0], [88.03078, 347832.0], [89.0386, 507288.0], [91.05425, 130861.0], [126.04636, 128356.0], [149.04478, 126331.0], [150.04637, 641829.0], [151.05415, 403195.0], [152.06195, 1369833.0], [153.06534, 175290.0], [169.06471, 228827.0], [174.04639, 255716.0], [175.05423, 198784.0], [176.06204, 2563053.0], [177.06984, 1182037.0], [178.07754, 11002398.0], [179.08081, 1778803.0], [180.08418, 132922.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "GVEPBJHOBDJJJI-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C3C2=CC=CC3=CC=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "17", "compound_name": "Fluoranthene", "retention_time": null, "retention_index": 2102.7, "precursor_mz": 202.07756, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[75.02299, 112456.0], [87.02298, 183640.0], [88.03079, 367434.0], [99.02296, 124952.0], [100.03078, 376079.0], [101.03863, 381288.0], [150.04642, 86059.0], [174.04634, 246963.0], [176.06194, 141676.0], [198.0464, 244370.0], [199.05429, 285767.0], [200.06207, 1958890.0], [201.06982, 1103710.0], [202.07756, 8104188.0], [203.08084, 1377015.0], [204.08421, 98067.0], [219.08043, 186623.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "BBEAQIROQSPTKN-UHFFFAOYSA-N", "smiles": "C1=CC2=C3C(C=CC4=CC=CC(C=C2)=C34)=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "16", "compound_name": "Pyrene", "retention_time": null, "retention_index": 2154.5, "precursor_mz": 202.07759, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[87.02299, 147113.0], [88.0308, 305149.0], [99.02298, 137042.0], [100.0308, 508914.0], [101.03864, 472094.0], [101.54032, 82430.0], [150.04637, 80741.0], [174.04631, 212706.0], [198.04643, 262925.0], [199.05429, 295144.0], [200.06209, 1960712.0], [201.06982, 1270466.0], [202.'..b' [201.06982, 1270466.0], [202.07759, 7974712.0], [203.08086, 1335645.0], [204.0843, 121774.0], [219.08044, 182944.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C18H14", "inchikey": "XJKSTNDFUHDPQJ-UHFFFAOYSA-N", "smiles": "C1=CC=C(C=C1)C2=CC=C(C=C2)C3=CC=CC=C3", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "25", "compound_name": "para-Terphenyl", "retention_time": null, "retention_index": 2207.5, "precursor_mz": 230.10886, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[88.03077, 233962.0], [101.03861, 353544.0], [113.03854, 437845.0], [115.05423, 690291.0], [128.062, 293046.0], [151.05412, 266397.0], [152.06195, 961184.0], [153.06976, 409346.0], [176.06192, 232793.0], [189.06972, 408734.0], [200.0619, 342984.0], [201.06986, 238974.0], [202.07758, 1292332.0], [203.08093, 374439.0], [213.06973, 256631.0], [215.08548, 1220866.0], [216.08881, 217320.0], [224.062, 181393.0], [226.07771, 1503774.0], [227.08588, 1198323.0], [228.09344, 2885510.0], [229.10123, 1791323.0], [230.10886, 17890056.0], [231.11214, 3536976.0], [232.11542, 320231.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10S", "inchikey": "YEUHHUCOSQOCIX-UHFFFAOYSA-N", "smiles": "S1C2=C(C=CC=C2)C2=C1C1=CC=CC=C1C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "23", "compound_name": "Benzo[b]naphtho[2,1-d]thiophene", "retention_time": null, "retention_index": 2419.3, "precursor_mz": 234.04965, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[91.05425, 49130.0], [93.52686, 61653.0], [94.53469, 76638.0], [104.01679, 126871.0], [116.01675, 112547.0], [117.02459, 99108.0], [162.04623, 54491.0], [163.05408, 136418.0], [164.06198, 56321.0], [187.05406, 273349.0], [188.06189, 200750.0], [189.06969, 453336.0], [190.07306, 77884.0], [200.06189, 135620.0], [201.06973, 74692.0], [202.07758, 425058.0], [203.08086, 72058.0], [226.07762, 63460.0], [232.03409, 769638.0], [233.04245, 382457.0], [234.04965, 4404102.0], [235.05304, 725574.0], [236.04547, 251450.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C17H12", "inchikey": "HAPOJKSPCGLOOD-UHFFFAOYSA-N", "smiles": "C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "2,3-Benzofluorene", "retention_time": null, "retention_index": 2257.5, "precursor_mz": 216.09326, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[93.52689, 122035.0], [94.53471, 241743.0], [95.03638, 42130.0], [105.52688, 47526.0], [106.53471, 171653.0], [107.03639, 60004.0], [107.5425, 180288.0], [108.03385, 97471.0], [163.05414, 68194.0], [187.05412, 167183.0], [188.06201, 86262.0], [189.06975, 239421.0], [190.07321, 37778.0], [211.05426, 117044.0], [212.06215, 60813.0], [213.0699, 808499.0], [214.07317, 202222.0], [215.0855, 3634570.0], [216.09326, 2535030.0], [217.09671, 444170.0], [218.09999, 37976.0]]}], "n_row": 7, "n_col": 7, "row": [0, 0, 1, 1, 2, 3, 4, 5, 6], "col": [0, 1, 0, 1, 2, 3, 4, 5, 6], "data": [[true, true, 1.0], [true, true, 0.9629629629629629], [true, true, 0.9629629629629629], [true, true, 1.0], [true, true, 1.0], [true, true, 1.0], [true, true, 1.0], [true, true, 1.0], [true, true, 1.0]], "dtype": [["MetadataMatch_retention_index_difference_60.0_f0", "|b1"], ["MetadataMatch_retention_index_difference_20.0_f0", "|b1"], ["FingerprintSimilarity_jaccard", "<f8"]]}\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/formatter/fill2_formatted.tsv
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/formatter/fill2_formatted.tsv Tue Jun 27 14:25:01 2023 +0000
b
@@ -0,0 +1,8 @@
+query reference CosineGreedy_score CosineGreedy_matches MetadataMatch_MetadataMatch
+C001 C001 0.9999999999999994 160 1.0
+C002 C001 0.009949950543146832 45 1.0
+C001 C002 0.009949950543146832 45 1.0
+C002 C002 1.0 154 1.0
+C003 C002 0.051811021915120416 49 1.0
+C002 C003 0.051811021915120416 49 1.0
+C003 C003 1.0000000000000002 135 1.0
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/formatter/fill2_trunc_scores_with_metadata_match.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/formatter/fill2_trunc_scores_with_metadata_match.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "160", "compound_name": "C001", "retention_time": 268.99, "retention_index": 1800.989583, "peaks_json": [[72.0389617714179, 56416115.0], [76.0256553376053, 49220925.0], [76.0295086554853, 17884882.0], [77.0053275563467, 26589154.0], [83.0127800769552, 72764369.0], [83.031134902227, 10179311.0], [86.7773291870617, 23734479.0], [87.0624748029292, 7498889.0], [93.7759098981009, 12284319.0], [97.0468722156908, 49324192.0], [99.0260406168298, 118701269.0], [103.002983736029, 18397693.0], [106.894754414816, 8004841.0], [111.007632749245, 107433124.0], [117.018501739727, 52467543.0], [131.034273710906, 359133132.0], [133.013526291087, 493499083.0], [133.031172492717, 17650343.0], [135.01033343891, 29110842.0], [135.029247366931, 21569969.0], [135.046364355946, 10818621.0], [136.941594609304, 50570227.0], [138.939618370595, 53903907.0], [139.002532294836, 49931624.0], [139.056768289213, 98175121.0], [141.036538750422, 115707572.0], [141.084158860874, 74023269.0], [142.104641843961, 441884594.0], [143.015834635052, 48987316.0], [143.052340331432, 420396997.0], [143.10428859825, 31762860.0], [143.107947705172, 44080773.0], [145.049469553608, 40966670.0], [147.065597668017, 3426705457.0], [148.066687703799, 456715218.0], [149.044686744287, 2485055493.0], [149.051982158561, 15135407.0], [149.062214633403, 244773900.0], [149.068434618167, 23246006.0], [150.04583614918, 369731636.0], [150.064532557665, 20279235.0], [151.023931616767, 305971501.0], [151.041613361558, 216314524.0], [152.023573104507, 39184709.0], [155.052170983022, 14728905.0], [157.031392134453, 61582084.0], [157.049811244805, 28679691.0], [159.046994608899, 9542515.0], [159.112043200462, 43124161.0], [163.096936467212, 259054581.0], [164.096242459652, 39496478.0], [165.093540352647, 75534890.0], [167.05522365918, 82592725.0], [168.054993436637, 9530750.0], [169.031329681702, 63326558.0], [171.010634911705, 74220303.0], [173.044685418755, 35853332.0], [177.039641177724, 20626924.0], [183.047097257536, 4559958550.0], [183.057249262756, 17431309.0], [184.046358120662, 106511561.0], [184.050443416, 414898624.0], [185.026407772471, 30996555.0], [185.043991660752, 154888217.0], [185.050867499577, 29446895.0], [185.062853536402, 75038250.0], [186.047199218887, 20807119.0], [191.037148572664, 28320845.0], [191.05526102196, 16327982.0], [195.094677873356, 7614346.0], [197.059793589486, 8688331.0], [201.039634295494, 20060252.0], [201.057764327742, 27419375.0], [211.041705745044, 1447339674.0], [212.041045979022, 25597653.0], [212.046025666707, 122581545.0], [213.021020474351, 91489413.0], [213.0391072084, 57195084.0], [214.144261002848, 35457490.0], [215.05549778228, 201625005.0], [215.091952078065, 46374386.0], [216.055525333011, 17909976.0], [217.03448664281, 74746711.0], [217.052170715974, 20626232.0], [218.071997852185, 19993432.0], [219.067881752754, 18067688.0], [222.082854522646, 135778814.0], [223.081182745765, 99300044.0], [223.08893130958, 16433468.0], [229.071095584099, 18581195.0], [232.085631037087, 26441905.0], [233.083493178908, 22919204.0], [237.114642446406, 27809453.0], [239.094719461519, 123875816.0], [240.093989220693, 10465340.0], [241.091358474241, 15998965.0], [243.050410724226, 30433441.0], [244.094291460025, 51273034.0], [245.029458131547, 23650783.0], [245.102463054765, 410722160.0], [246.103646000958, 29809430.0], [254.113905808742, 22337484.0], [257.066031671279, 2765507323.0], [258.06825165759, 197732377.0], [259.045756297035, 43018820.0], [259.063114651546, 129205654.0], [259.070275285318, 18682083.0], [259.081366811747, 116924177.0], [259.141876089913, 14942245.0], [260.066192507073, 34929695.0], [271.082012120742, 19885715.0], [271.984081051135, 9431717.0], [272.089691979189, 22169503.0], [273.079719357873, 78308182.0], [273.097313808265, 16543374969.0], [273.118950007375, 92869850.0], [274.099806030141, 2287536'..b'272989142, 3424764.0], [119.060398059581, 5015688.0], [123.055298722957, 6914458.0], [126.036934304886, 7725659.0], [127.068555548084, 6308443.0], [129.036692025662, 122379411.0], [129.065799497037, 22459026.0], [129.072869578599, 357742590.0], [129.084157333304, 8540678.0], [130.068355771428, 19512498.0], [130.072660895986, 17001807.0], [130.076400507348, 21643851.0], [131.076042114677, 42394426.0], [132.075235945687, 15098771.0], [132.083789835617, 26794170.0], [137.070988883611, 9859706.0], [138.05493224095, 3165654.0], [139.051175003371, 7069320.0], [141.047778003792, 23946731.0], [141.065923570004, 9330027.0], [142.055705069575, 6974963.0], [144.08382621206, 24138104.0], [152.052612709208, 12445682.0], [153.047862201653, 13551007.0], [153.06050104986, 5683251.0], [154.031798596314, 9702495.0], [154.068135836281, 22462918.0], [155.063488378907, 17345256.0], [157.067778706704, 305000842.0], [157.079041955576, 23421863.0], [158.063049350607, 79873894.0], [158.071192154163, 24230537.0], [158.087223744981, 44233946.0], [159.066220496597, 14412715.0], [159.094678886574, 63040570.0], [167.063455325892, 21288707.0], [169.079013983553, 42107910.0], [170.063237400093, 16300891.0], [175.083575347646, 36260729.0], [178.068296395536, 5176174.0], [179.081486447783, 7029930.0], [180.047488487863, 6887272.0], [181.079036591706, 29074392.0], [182.087014052977, 13760713.0], [182.099591005081, 6217729.0], [184.078890320729, 22831122.0], [185.110259256924, 10498695.0], [186.094277657113, 33629523.0], [191.072955515118, 17861044.0], [194.099507858777, 7280353.0], [195.09471415495, 25188698.0], [196.078795602271, 6238390.0], [196.102396694031, 10925562.0], [199.08955397795, 9152031.0], [201.105247648349, 119861528.0], [201.112359610286, 31839556.0], [205.107609165375, 288674074.0], [206.107497510189, 35502636.0], [207.09499264929, 14009572.0], [207.103984365352, 24028098.0], [209.11035836202, 11298196.0], [210.094325451895, 13575347.0], [211.089848595549, 23856594.0], [212.097009756898, 13775311.0], [213.105228486782, 73929890.0], [219.09527736534, 8505195.0], [221.074300407885, 14508487.0], [225.105533091326, 19016199.0], [233.102475979575, 15389167.0], [242.10246806473, 19687380.0], [242.126657609235, 11066324.0], [243.134206462776, 50646552.0], [244.119452816047, 30022076.0], [245.114820894281, 11088338.0], [254.102870594529, 5350655.0], [255.134441237269, 46732255.0], [269.113908264442, 46534893.0], [270.134437529958, 7090136.0], [271.128972048701, 37425633.0], [273.144669229945, 9722721.0], [274.128730992046, 139451474.0], [275.131908166958, 15282348.0], [284.113416878425, 8739042.0], [284.137011207473, 19427028.0], [301.139887685895, 13069124.0], [303.156554156078, 27321286.0], [309.144715592211, 11863564.0], [315.155169787866, 65230453.0], [319.157101342607, 733557628.0], [320.158352325734, 176280305.0], [321.153241677135, 74811478.0], [322.157191869663, 33601762.0], [327.155355207603, 17725445.0], [333.166397555812, 53890077.0], [334.168322787397, 15415305.0], [360.184205186806, 23337977.0], [374.163526061853, 21552675.0], [399.195205285978, 19867111.0], [401.174241468972, 35504809.0], [417.205717817748, 23250105.0], [417.241711757457, 19573381.0], [418.207654920137, 17403027.0], [418.243205616146, 12152742.0], [475.229231161579, 2756806.0], [489.245871828029, 38098072.0], [490.247019499098, 8845886.0], [491.244269926889, 10775524.0], [523.250368109965, 33514393.0], [579.297280589764, 6860747.0], [595.292757936577, 18386300.0], [596.292128391308, 11382024.0], [597.290217290809, 5672650.0]]}], "n_row": 3, "n_col": 3, "row": [0, 0, 1, 1, 1, 2, 2], "col": [0, 1, 0, 1, 2, 1, 2], "data": [[0.9999999999999994, 160, 1.0], [0.009949950543146832, 45, 1.0], [0.009949950543146832, 45, 1.0], [1.0, 154, 1.0], [0.051811021915120416, 49, 1.0], [0.051811021915120416, 49, 1.0], [1.0000000000000002, 135, 1.0]], "dtype": [["CosineGreedy_score", "<f8"], ["CosineGreedy_matches", "<i8"], ["MetadataMatch_MetadataMatch", "<f8"]]}\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/formatter/test4_formatted.tsv
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/formatter/test4_formatted.tsv Tue Jun 27 14:25:01 2023 +0000
[
b"@@ -0,0 +1,11916 @@\n+query\treference\tNeutralLossesCosine_score\tNeutralLossesCosine_matches\n+Perylene\tPerylene\t1.0\t16\n+Phenanthrene\tPerylene\t0.7594055481290253\t6\n+Anthracene\tPerylene\t0.7816811045895042\t6\n+Acenaphthene\tPerylene\t0.5690164471890379\t5\n+Fluoranthene\tPerylene\t0.8546237198996057\t7\n+Pyrene\tPerylene\t0.8185192159559384\t5\n+para-Terphenyl\tPerylene\t0.7343454316376467\t7\n+Benzo[b]naphtho[2,1-d]thiophene\tPerylene\t0.6425661177089488\t2\n+2,3-Benzofluorene\tPerylene\t0.2525670085697937\t6\n+Benzofluoranthene\tPerylene\t0.8938819006775962\t10\n+Benzo(k)fluoranthene\tPerylene\t0.985274599682159\t13\n+Indeno[1,2,3-cd]pyrene\tPerylene\t0.7922540002305708\t7\n+Dibenzanthracene\tPerylene\t0.8172966984973474\t9\n+Benzophenone\tPerylene\t0.08849313203633093\t3\n+4-Methylbenzophenone\tPerylene\t0.0040900408841154\t2\n+2,6-Dichloro-4-nitroaniline\tPerylene\t0.06076643210788908\t4\n+1-Methylphenanthrene\tPerylene\t0.42348807105444636\t7\n+Triclosan\tPerylene\t0.029360869411532375\t4\n+Drometrizole\tPerylene\t0.0587027706971795\t2\n+Enzacamene\tPerylene\t0.11863743194394825\t7\n+2,2',3,4,5,5',6-Heptachlorobiphenyl\tPerylene\t0.001966468710916666\t2\n+2,2',3,3',4,5',6,6'-Octachlorobiphenyl\tPerylene\t0.000764358229746351\t1\n+beta-Hexachlorocyclohexane\tPerylene\t0.008413733301153947\t2\n+alpha-1,2,3,4,5,6-Hexachlorocyclohexane\tPerylene\t0.0005491770202375849\t1\n+Lindane\tPerylene\t0.0008209590469777335\t1\n+delta-Hexachlorocyclohexane\tPerylene\t0.0005388743414914208\t1\n+epsilon-Hexachlorocyclohexane\tPerylene\t0.0006026403861762904\t1\n+Pentachlorobenzene\tPerylene\t0.019757127107049986\t2\n+Hexachlorobenzene\tPerylene\t0.0022473490727107207\t1\n+2,4'-Dichlorodiphenyldichloroethane\tPerylene\t0.013157945063149563\t2\n+2,4'-Dichlorodiphenyltrichloroethane\tPerylene\t0.013347565755229026\t3\n+2,2',4,5,5'-Pentachlorobiphenyl\tPerylene\t0.0003958854222256223\t1\n+2,2',3,4,4',5'-Hexachlorobiphenyl\tPerylene\t0.0005077696302166955\t1\n+2,2',4,4',5,5'-Hexachlorobiphenyl\tPerylene\t0.07521910915424485\t4\n+2,2',3,4,4',5,5'-Heptachlorobiphenyl\tPerylene\t0.0014636617538366383\t2\n+2,2',5,5'-Tetrachlorobiphenyl\tPerylene\t0.00042116604751712907\t1\n+2,2',3,4',5-Pentachlorobiphenyl\tPerylene\t0.00072829765065908\t1\n+2,3,3',4,5,6-Hexachlorobiphenyl\tPerylene\t0.0005346121023576851\t1\n+2,3,3',4',5,5',6-Heptachlorobiphenyl\tPerylene\t0.0005961644717473801\t1\n+trans-Prallethrin\tPerylene\t0.0013033208643460548\t1\n+Fenpropathrin\tPerylene\t0.022271646454031933\t2\n+Chlorpyrifos oxon\tPerylene\t0.036296460167888005\t9\n+Transfluthrin\tPerylene\t0.018431113763733808\t3\n+cis-Cyfluthrin_isomer2\tPerylene\t0.015875450516702534\t2\n+trans-Cyfluthrin_Isomer2\tPerylene\t0.0057284317883735565\t1\n+1,2,3,4,7,8-Hexachlorodibenzo-p-dioxin\tPerylene\t0.35713628898895355\t2\n+1,2,3,4,6,7,8-Heptachlorodibenzo-p-dioxin\tPerylene\t0.6004738760543434\t4\n+Estragole\tPerylene\t0.1274354945159494\t3\n+Benzyl salicylate\tPerylene\t0.0025487592367612172\t1\n+Eucalyptol\tPerylene\t0.0014044497521836833\t1\n+Coumarin\tPerylene\t0.06516422811768255\t1\n+Limonene\tPerylene\t0.00249747607765285\t2\n+Isomethyl-alpha-ionone\tPerylene\t0.029962167865351642\t2\n+delta-Iraldeine\tPerylene\t0.010722361197213872\t4\n+Safrole\tPerylene\t0.0653442903989148\t4\n+Cashmeran\tPerylene\t0.029760402289703447\t5\n+Celestolide\tPerylene\t0.00632853603000457\t3\n+Phantolide\tPerylene\t0.005171685189631448\t3\n+Thiobencarb\tPerylene\t0.005102702742696307\t1\n+Isoprocarb\tPerylene\t0.012488960236250022\t1\n+Linuron\tPerylene\t0.010317618084000975\t1\n+Metobromuron\tPerylene\t0.007456310296289823\t2\n+Monolinuron\tPerylene\t0.015775168176517546\t3\n+Pirimicarb\tPerylene\t0.005765295246724256\t1\n+Boscalid\tPerylene\t0.00321731217654157\t2\n+Butafenacil\tPerylene\t0.002533257463670457\t1\n+Myclobutanil\tPerylene\t0.0015717545649436182\t1\n+Terbumeton\tPerylene\t0.012379273705355584\t5\n+Rotenone\tPerylene\t0.0044024783401794935\t2\n+Enilconazole\tPerylene\t0.002087916382540429\t1\n+Acibenzolar-S-methyl\tPerylene\t0.003087426600635205\t1\n+Buprofezin\tPerylene\t0.0016122911027146008\t1\n+Ethofumesate\tPerylene\t0.002652615111824328\t1\n+Fenamidone\tPerylene\t0.003528882271834487\t1\n+Perylene\tPhenanthrene\t0.7594055481290253\t6\n+Phenanthrene\tPhenanthrene\t1.0"..b"iphenyl\tFenamidone\t0.0009962252275582525\t2\n+3,3',4,5,5'-Pentachlorobiphenyl\tFenamidone\t0.0007132215414105701\t1\n+2,3',4,4',5',6-Hexachlorobiphenyl\tFenamidone\t0.003941192991095589\t3\n+2,3,3',4,5,6-Hexachlorobiphenyl\tFenamidone\t0.0032602230184353796\t4\n+2,3,3',4',5',6-Hexachlorobiphenyl\tFenamidone\t0.003902911013387605\t3\n+2,3,3',4',5,6-Hexachlorobiphenyl\tFenamidone\t0.0028816112771112476\t3\n+2,3,3',4',5,5',6-Heptachlorobiphenyl\tFenamidone\t0.004129652769687335\t4\n+cis-Prallethrin\tFenamidone\t0.02063893548098056\t6\n+trans-Prallethrin\tFenamidone\t0.0636896775821581\t18\n+cis-Resmethrin\tFenamidone\t0.004385623187808619\t8\n+trans-Resmethrin\tFenamidone\t0.0037438584101095406\t3\n+cis-Tetramethrin\tFenamidone\t0.01457741637519401\t10\n+trans-Tetramethrin\tFenamidone\t0.01998288532279959\t5\n+Bifenthrin\tFenamidone\t0.016943871184680423\t3\n+Fenpropathrin\tFenamidone\t0.020485320040871696\t12\n+cis-Phenothrin\tFenamidone\t6.285139330345371e-05\t1\n+cis-Cyphenothrin\tFenamidone\t0.01577650392972678\t12\n+Flucythrinate_isomer1\tFenamidone\t0.011702041332335697\t2\n+Flucythrinate_isomer2\tFenamidone\t0.010479081997924272\t3\n+cis-Fenvalerate\tFenamidone\t0.0026839418346610074\t4\n+trans-Fenvalerate\tFenamidone\t0.005168753640460431\t7\n+Deltamethrin\tFenamidone\t0.02538556396055245\t8\n+Chlorpyrifos oxon\tFenamidone\t0.008017165415374613\t6\n+lambda-Cyhalothrin\tFenamidone\t0.004129170239233964\t2\n+Tefluthrin\tFenamidone\t0.048329475132303006\t9\n+Transfluthrin\tFenamidone\t0.00434534268029665\t5\n+cis-Permethrin\tFenamidone\t0.0336080987239482\t12\n+trans-Permethrin\tFenamidone\t0.037158313842249\t12\n+cis-Allethrin\tFenamidone\t0.029034992247889045\t6\n+trans-Allethrin\tFenamidone\t0.08565057856307288\t16\n+cis-Cypermethrin_isomer1\tFenamidone\t0.10145493598365102\t13\n+trans-Cypermethrin_isomer1\tFenamidone\t0.018538092241168595\t9\n+cis-Cypermethrin_isomer2\tFenamidone\t0.09931273097453466\t12\n+trans-Cypermethrin_isomer2\tFenamidone\t0.06070353397555056\t14\n+cis-Cyfluthrin_isomer1\tFenamidone\t0.002741342514267584\t9\n+trans-Cyfluthrin_isomer1\tFenamidone\t0.00460623189175496\t6\n+cis-Cyfluthrin_isomer2\tFenamidone\t0.013560322081058994\t12\n+trans-Cyfluthrin_Isomer2\tFenamidone\t0.012723588396856826\t11\n+1,2,3,4,7,8-Hexachlorodibenzo-p-dioxin\tFenamidone\t0.0014932550806373572\t2\n+1,2,3,4,6,7,8-Heptachlorodibenzo-p-dioxin\tFenamidone\t0.007463259062288398\t4\n+Estragole\tFenamidone\t0.1412047674540015\t8\n+Benzyl benzoate\tFenamidone\t0.003501755080485208\t3\n+Benzyl cinnamate\tFenamidone\t0.01046473315565069\t5\n+Benzyl salicylate\tFenamidone\t0.0003965607968942006\t1\n+Camphor\tFenamidone\t0.20590013512001082\t7\n+Eucalyptol\tFenamidone\t0.35784239189966305\t8\n+Coumarin\tFenamidone\t0.04127530460264906\t3\n+Limonene\tFenamidone\t0.4549680796955883\t5\n+Isomethyl-alpha-ionone\tFenamidone\t0.023153444567903744\t5\n+delta-Iraldeine\tFenamidone\t0.014791952326994103\t7\n+Safrole\tFenamidone\t0.033972430110607105\t7\n+Cashmeran\tFenamidone\t0.3711542904483082\t10\n+Celestolide\tFenamidone\t0.03604508634054142\t6\n+Phantolide\tFenamidone\t0.04706388584812521\t6\n+Propham\tFenamidone\t0.058857146107057945\t5\n+Thiobencarb\tFenamidone\t0.001747548159513367\t5\n+Isoprocarb\tFenamidone\t0.044272293314883686\t3\n+Linuron\tFenamidone\t0.04061042591948574\t11\n+Metobromuron\tFenamidone\t0.052801064317870655\t8\n+Monolinuron\tFenamidone\t0.03570076858640123\t5\n+Pirimicarb\tFenamidone\t0.09776996663893509\t6\n+Benalaxyl\tFenamidone\t0.04001833146441783\t15\n+Benzoximate\tFenamidone\t0.0014714555648693989\t4\n+Boscalid\tFenamidone\t0.0004504195432699507\t4\n+Myclobutanil\tFenamidone\t0.11173292584219889\t10\n+Oxadixyl\tFenamidone\t0.00309658302518114\t7\n+Picoxystrobin\tFenamidone\t0.011345966685709261\t11\n+Piperonyl butoxide\tFenamidone\t0.015934410043558587\t7\n+Terbumeton\tFenamidone\t0.014135762445538736\t5\n+Rotenone\tFenamidone\t0.001702586530993099\t3\n+Enilconazole\tFenamidone\t0.0021231289122006507\t7\n+Acibenzolar-S-methyl\tFenamidone\t0.0022815011051092924\t2\n+Bupirimate\tFenamidone\t0.3391095176584686\t16\n+Buprofezin\tFenamidone\t0.0166891482966783\t15\n+Carboxin\tFenamidone\t0.002867840748348977\t2\n+Ethofumesate\tFenamidone\t0.021945212693018183\t14\n+Fenamidone\tFenamidone\t0.9999999999999996\t47\n"
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/metadata_match/inchi_key_inner.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/metadata_match/inchi_key_inner.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "19", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.01508, 137808.0], [75.02295, 278714.0], [76.03075, 608417.0], [87.02295, 304266.0], [88.03076, 497050.0], [89.03857, 441168.0], [98.01511, 150478.0], [150.04633, 868927.0], [151.05415, 546351.0], [152.0619, 2275502.0], [153.06528, 276320.0], [169.06468, 272559.0], [174.04636, 365846.0], [175.05423, 272039.0], [176.062, 3370523.0], [177.06982, 1751846.0], [178.0775, 13724432.0], [179.08078, 2250119.0], [180.08412, 138203.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "Anthracene", "retention_time": null, "retention_index": 1844.4, "precursor_mz": 178.07754, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.0151, 117371.0], [75.02296, 245305.0], [76.03077, 632686.0], [87.02297, 236214.0], [88.03078, 347832.0], [89.0386, 507288.0], [91.05425, 130861.0], [126.04636, 128356.0], [149.04478, 126331.0], [150.04637, 641829.0], [151.05415, 403195.0], [152.06195, 1369833.0], [153.06534, 175290.0], [169.06471, 228827.0], [174.04639, 255716.0], [175.05423, 198784.0], [176.06204, 2563053.0], [177.06984, 1182037.0], [178.07754, 11002398.0], [179.08081, 1778803.0], [180.08418, 132922.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "GVEPBJHOBDJJJI-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C3C2=CC=CC3=CC=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "17", "compound_name": "Fluoranthene", "retention_time": null, "retention_index": 2102.7, "precursor_mz": 202.07756, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[75.02299, 112456.0], [87.02298, 183640.0], [88.03079, 367434.0], [99.02296, 124952.0], [100.03078, 376079.0], [101.03863, 381288.0], [150.04642, 86059.0], [174.04634, 246963.0], [176.06194, 141676.0], [198.0464, 244370.0], [199.05429, 285767.0], [200.06207, 1958890.0], [201.06982, 1103710.0], [202.07756, 8104188.0], [203.08084, 1377015.0], [204.08421, 98067.0], [219.08043, 186623.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "BBEAQIROQSPTKN-UHFFFAOYSA-N", "smiles": "C1=CC2=C3C(C=CC4=CC=CC(C=C2)=C34)=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "16", "compound_name": "Pyrene", "retention_time": null, "retention_index": 2154.5, "precursor_mz": 202.07759, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[87.02299, 147113.0], [88.0308, 305149.0], [99.02298, 137042.0], [100.0308, 508914.0], [101.03864, 472094.0], [101.54032, 82430.0], [150.04637, 80741.0], [174.04631, 212706.0], [198.04643, 262925.0], [199.05429, 295144.0], [200.06209, 1960712.0], [201.06982, 1270466.0], [202.'..b'2.0], [100.0308, 508914.0], [101.03864, 472094.0], [101.54032, 82430.0], [150.04637, 80741.0], [174.04631, 212706.0], [198.04643, 262925.0], [199.05429, 295144.0], [200.06209, 1960712.0], [201.06982, 1270466.0], [202.07759, 7974712.0], [203.08086, 1335645.0], [204.0843, 121774.0], [219.08044, 182944.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C18H14", "inchikey": "XJKSTNDFUHDPQJ-UHFFFAOYSA-N", "smiles": "C1=CC=C(C=C1)C2=CC=C(C=C2)C3=CC=CC=C3", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "25", "compound_name": "para-Terphenyl", "retention_time": null, "retention_index": 2207.5, "precursor_mz": 230.10886, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[88.03077, 233962.0], [101.03861, 353544.0], [113.03854, 437845.0], [115.05423, 690291.0], [128.062, 293046.0], [151.05412, 266397.0], [152.06195, 961184.0], [153.06976, 409346.0], [176.06192, 232793.0], [189.06972, 408734.0], [200.0619, 342984.0], [201.06986, 238974.0], [202.07758, 1292332.0], [203.08093, 374439.0], [213.06973, 256631.0], [215.08548, 1220866.0], [216.08881, 217320.0], [224.062, 181393.0], [226.07771, 1503774.0], [227.08588, 1198323.0], [228.09344, 2885510.0], [229.10123, 1791323.0], [230.10886, 17890056.0], [231.11214, 3536976.0], [232.11542, 320231.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10S", "inchikey": "YEUHHUCOSQOCIX-UHFFFAOYSA-N", "smiles": "S1C2=C(C=CC=C2)C2=C1C1=CC=CC=C1C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "23", "compound_name": "Benzo[b]naphtho[2,1-d]thiophene", "retention_time": null, "retention_index": 2419.3, "precursor_mz": 234.04965, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[91.05425, 49130.0], [93.52686, 61653.0], [94.53469, 76638.0], [104.01679, 126871.0], [116.01675, 112547.0], [117.02459, 99108.0], [162.04623, 54491.0], [163.05408, 136418.0], [164.06198, 56321.0], [187.05406, 273349.0], [188.06189, 200750.0], [189.06969, 453336.0], [190.07306, 77884.0], [200.06189, 135620.0], [201.06973, 74692.0], [202.07758, 425058.0], [203.08086, 72058.0], [226.07762, 63460.0], [232.03409, 769638.0], [233.04245, 382457.0], [234.04965, 4404102.0], [235.05304, 725574.0], [236.04547, 251450.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C17H12", "inchikey": "HAPOJKSPCGLOOD-UHFFFAOYSA-N", "smiles": "C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "2,3-Benzofluorene", "retention_time": null, "retention_index": 2257.5, "precursor_mz": 216.09326, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[93.52689, 122035.0], [94.53471, 241743.0], [95.03638, 42130.0], [105.52688, 47526.0], [106.53471, 171653.0], [107.03639, 60004.0], [107.5425, 180288.0], [108.03385, 97471.0], [163.05414, 68194.0], [187.05412, 167183.0], [188.06201, 86262.0], [189.06975, 239421.0], [190.07321, 37778.0], [211.05426, 117044.0], [212.06215, 60813.0], [213.0699, 808499.0], [214.07317, 202222.0], [215.0855, 3634570.0], [216.09326, 2535030.0], [217.09671, 444170.0], [218.09999, 37976.0]]}], "n_row": 7, "n_col": 7, "row": [0, 1, 2, 3, 4, 5, 6], "col": [0, 1, 2, 3, 4, 5, 6], "data": [[true, true], [true, true], [true, true], [true, true], [true, true], [true, true], [true, true]], "dtype": [["MetadataMatch_smiles_equal_match", "|b1"], ["MetadataMatch_inchikey_equal_match", "|b1"]]}\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/metadata_match/inner_join_ri_20.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/metadata_match/inner_join_ri_20.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "19", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.01508, 137808.0], [75.02295, 278714.0], [76.03075, 608417.0], [87.02295, 304266.0], [88.03076, 497050.0], [89.03857, 441168.0], [98.01511, 150478.0], [150.04633, 868927.0], [151.05415, 546351.0], [152.0619, 2275502.0], [153.06528, 276320.0], [169.06468, 272559.0], [174.04636, 365846.0], [175.05423, 272039.0], [176.062, 3370523.0], [177.06982, 1751846.0], [178.0775, 13724432.0], [179.08078, 2250119.0], [180.08412, 138203.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "Anthracene", "retention_time": null, "retention_index": 1844.4, "precursor_mz": 178.07754, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.0151, 117371.0], [75.02296, 245305.0], [76.03077, 632686.0], [87.02297, 236214.0], [88.03078, 347832.0], [89.0386, 507288.0], [91.05425, 130861.0], [126.04636, 128356.0], [149.04478, 126331.0], [150.04637, 641829.0], [151.05415, 403195.0], [152.06195, 1369833.0], [153.06534, 175290.0], [169.06471, 228827.0], [174.04639, 255716.0], [175.05423, 198784.0], [176.06204, 2563053.0], [177.06984, 1182037.0], [178.07754, 11002398.0], [179.08081, 1778803.0], [180.08418, 132922.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "GVEPBJHOBDJJJI-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C3C2=CC=CC3=CC=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "17", "compound_name": "Fluoranthene", "retention_time": null, "retention_index": 2102.7, "precursor_mz": 202.07756, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[75.02299, 112456.0], [87.02298, 183640.0], [88.03079, 367434.0], [99.02296, 124952.0], [100.03078, 376079.0], [101.03863, 381288.0], [150.04642, 86059.0], [174.04634, 246963.0], [176.06194, 141676.0], [198.0464, 244370.0], [199.05429, 285767.0], [200.06207, 1958890.0], [201.06982, 1103710.0], [202.07756, 8104188.0], [203.08084, 1377015.0], [204.08421, 98067.0], [219.08043, 186623.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "BBEAQIROQSPTKN-UHFFFAOYSA-N", "smiles": "C1=CC2=C3C(C=CC4=CC=CC(C=C2)=C34)=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "16", "compound_name": "Pyrene", "retention_time": null, "retention_index": 2154.5, "precursor_mz": 202.07759, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[87.02299, 147113.0], [88.0308, 305149.0], [99.02298, 137042.0], [100.0308, 508914.0], [101.03864, 472094.0], [101.54032, 82430.0], [150.04637, 80741.0], [174.04631, 212706.0], [198.04643, 262925.0], [199.05429, 295144.0], [200.06209, 1960712.0], [201.06982, 1270466.0], [202.'..b'], [150.04637, 80741.0], [174.04631, 212706.0], [198.04643, 262925.0], [199.05429, 295144.0], [200.06209, 1960712.0], [201.06982, 1270466.0], [202.07759, 7974712.0], [203.08086, 1335645.0], [204.0843, 121774.0], [219.08044, 182944.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C18H14", "inchikey": "XJKSTNDFUHDPQJ-UHFFFAOYSA-N", "smiles": "C1=CC=C(C=C1)C2=CC=C(C=C2)C3=CC=CC=C3", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "25", "compound_name": "para-Terphenyl", "retention_time": null, "retention_index": 2207.5, "precursor_mz": 230.10886, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[88.03077, 233962.0], [101.03861, 353544.0], [113.03854, 437845.0], [115.05423, 690291.0], [128.062, 293046.0], [151.05412, 266397.0], [152.06195, 961184.0], [153.06976, 409346.0], [176.06192, 232793.0], [189.06972, 408734.0], [200.0619, 342984.0], [201.06986, 238974.0], [202.07758, 1292332.0], [203.08093, 374439.0], [213.06973, 256631.0], [215.08548, 1220866.0], [216.08881, 217320.0], [224.062, 181393.0], [226.07771, 1503774.0], [227.08588, 1198323.0], [228.09344, 2885510.0], [229.10123, 1791323.0], [230.10886, 17890056.0], [231.11214, 3536976.0], [232.11542, 320231.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10S", "inchikey": "YEUHHUCOSQOCIX-UHFFFAOYSA-N", "smiles": "S1C2=C(C=CC=C2)C2=C1C1=CC=CC=C1C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "23", "compound_name": "Benzo[b]naphtho[2,1-d]thiophene", "retention_time": null, "retention_index": 2419.3, "precursor_mz": 234.04965, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[91.05425, 49130.0], [93.52686, 61653.0], [94.53469, 76638.0], [104.01679, 126871.0], [116.01675, 112547.0], [117.02459, 99108.0], [162.04623, 54491.0], [163.05408, 136418.0], [164.06198, 56321.0], [187.05406, 273349.0], [188.06189, 200750.0], [189.06969, 453336.0], [190.07306, 77884.0], [200.06189, 135620.0], [201.06973, 74692.0], [202.07758, 425058.0], [203.08086, 72058.0], [226.07762, 63460.0], [232.03409, 769638.0], [233.04245, 382457.0], [234.04965, 4404102.0], [235.05304, 725574.0], [236.04547, 251450.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C17H12", "inchikey": "HAPOJKSPCGLOOD-UHFFFAOYSA-N", "smiles": "C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "2,3-Benzofluorene", "retention_time": null, "retention_index": 2257.5, "precursor_mz": 216.09326, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[93.52689, 122035.0], [94.53471, 241743.0], [95.03638, 42130.0], [105.52688, 47526.0], [106.53471, 171653.0], [107.03639, 60004.0], [107.5425, 180288.0], [108.03385, 97471.0], [163.05414, 68194.0], [187.05412, 167183.0], [188.06201, 86262.0], [189.06975, 239421.0], [190.07321, 37778.0], [211.05426, 117044.0], [212.06215, 60813.0], [213.0699, 808499.0], [214.07317, 202222.0], [215.0855, 3634570.0], [216.09326, 2535030.0], [217.09671, 444170.0], [218.09999, 37976.0]]}], "n_row": 7, "n_col": 7, "row": [0, 0, 1, 1, 2, 3, 4, 5, 6], "col": [0, 1, 0, 1, 2, 3, 4, 5, 6], "data": [[true, true], [true, true], [true, true], [true, true], [true, true], [true, true], [true, true], [true, true], [true, true]], "dtype": [["MetadataMatch_retention_index_difference_60.0_f0", "|b1"], ["MetadataMatch_retention_index_difference_20.0_f0", "|b1"]]}\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/metadata_match/left_join_ri_20.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/metadata_match/left_join_ri_20.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "19", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.01508, 137808.0], [75.02295, 278714.0], [76.03075, 608417.0], [87.02295, 304266.0], [88.03076, 497050.0], [89.03857, 441168.0], [98.01511, 150478.0], [150.04633, 868927.0], [151.05415, 546351.0], [152.0619, 2275502.0], [153.06528, 276320.0], [169.06468, 272559.0], [174.04636, 365846.0], [175.05423, 272039.0], [176.062, 3370523.0], [177.06982, 1751846.0], [178.0775, 13724432.0], [179.08078, 2250119.0], [180.08412, 138203.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "Anthracene", "retention_time": null, "retention_index": 1844.4, "precursor_mz": 178.07754, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.0151, 117371.0], [75.02296, 245305.0], [76.03077, 632686.0], [87.02297, 236214.0], [88.03078, 347832.0], [89.0386, 507288.0], [91.05425, 130861.0], [126.04636, 128356.0], [149.04478, 126331.0], [150.04637, 641829.0], [151.05415, 403195.0], [152.06195, 1369833.0], [153.06534, 175290.0], [169.06471, 228827.0], [174.04639, 255716.0], [175.05423, 198784.0], [176.06204, 2563053.0], [177.06984, 1182037.0], [178.07754, 11002398.0], [179.08081, 1778803.0], [180.08418, 132922.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "GVEPBJHOBDJJJI-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C3C2=CC=CC3=CC=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "17", "compound_name": "Fluoranthene", "retention_time": null, "retention_index": 2102.7, "precursor_mz": 202.07756, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[75.02299, 112456.0], [87.02298, 183640.0], [88.03079, 367434.0], [99.02296, 124952.0], [100.03078, 376079.0], [101.03863, 381288.0], [150.04642, 86059.0], [174.04634, 246963.0], [176.06194, 141676.0], [198.0464, 244370.0], [199.05429, 285767.0], [200.06207, 1958890.0], [201.06982, 1103710.0], [202.07756, 8104188.0], [203.08084, 1377015.0], [204.08421, 98067.0], [219.08043, 186623.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "BBEAQIROQSPTKN-UHFFFAOYSA-N", "smiles": "C1=CC2=C3C(C=CC4=CC=CC(C=C2)=C34)=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "16", "compound_name": "Pyrene", "retention_time": null, "retention_index": 2154.5, "precursor_mz": 202.07759, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[87.02299, 147113.0], [88.0308, 305149.0], [99.02298, 137042.0], [100.0308, 508914.0], [101.03864, 472094.0], [101.54032, 82430.0], [150.04637, 80741.0], [174.04631, 212706.0], [198.04643, 262925.0], [199.05429, 295144.0], [200.06209, 1960712.0], [201.06982, 1270466.0], [202.'..b'82, 1270466.0], [202.07759, 7974712.0], [203.08086, 1335645.0], [204.0843, 121774.0], [219.08044, 182944.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C18H14", "inchikey": "XJKSTNDFUHDPQJ-UHFFFAOYSA-N", "smiles": "C1=CC=C(C=C1)C2=CC=C(C=C2)C3=CC=CC=C3", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "25", "compound_name": "para-Terphenyl", "retention_time": null, "retention_index": 2207.5, "precursor_mz": 230.10886, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[88.03077, 233962.0], [101.03861, 353544.0], [113.03854, 437845.0], [115.05423, 690291.0], [128.062, 293046.0], [151.05412, 266397.0], [152.06195, 961184.0], [153.06976, 409346.0], [176.06192, 232793.0], [189.06972, 408734.0], [200.0619, 342984.0], [201.06986, 238974.0], [202.07758, 1292332.0], [203.08093, 374439.0], [213.06973, 256631.0], [215.08548, 1220866.0], [216.08881, 217320.0], [224.062, 181393.0], [226.07771, 1503774.0], [227.08588, 1198323.0], [228.09344, 2885510.0], [229.10123, 1791323.0], [230.10886, 17890056.0], [231.11214, 3536976.0], [232.11542, 320231.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10S", "inchikey": "YEUHHUCOSQOCIX-UHFFFAOYSA-N", "smiles": "S1C2=C(C=CC=C2)C2=C1C1=CC=CC=C1C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "23", "compound_name": "Benzo[b]naphtho[2,1-d]thiophene", "retention_time": null, "retention_index": 2419.3, "precursor_mz": 234.04965, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[91.05425, 49130.0], [93.52686, 61653.0], [94.53469, 76638.0], [104.01679, 126871.0], [116.01675, 112547.0], [117.02459, 99108.0], [162.04623, 54491.0], [163.05408, 136418.0], [164.06198, 56321.0], [187.05406, 273349.0], [188.06189, 200750.0], [189.06969, 453336.0], [190.07306, 77884.0], [200.06189, 135620.0], [201.06973, 74692.0], [202.07758, 425058.0], [203.08086, 72058.0], [226.07762, 63460.0], [232.03409, 769638.0], [233.04245, 382457.0], [234.04965, 4404102.0], [235.05304, 725574.0], [236.04547, 251450.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C17H12", "inchikey": "HAPOJKSPCGLOOD-UHFFFAOYSA-N", "smiles": "C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "2,3-Benzofluorene", "retention_time": null, "retention_index": 2257.5, "precursor_mz": 216.09326, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[93.52689, 122035.0], [94.53471, 241743.0], [95.03638, 42130.0], [105.52688, 47526.0], [106.53471, 171653.0], [107.03639, 60004.0], [107.5425, 180288.0], [108.03385, 97471.0], [163.05414, 68194.0], [187.05412, 167183.0], [188.06201, 86262.0], [189.06975, 239421.0], [190.07321, 37778.0], [211.05426, 117044.0], [212.06215, 60813.0], [213.0699, 808499.0], [214.07317, 202222.0], [215.0855, 3634570.0], [216.09326, 2535030.0], [217.09671, 444170.0], [218.09999, 37976.0]]}], "n_row": 7, "n_col": 7, "row": [0, 0, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 6, 6], "col": [0, 1, 0, 1, 2, 3, 2, 3, 4, 3, 4, 6, 5, 4, 6], "data": [[true, true], [true, true], [true, true], [true, true], [true, true], [true, false], [true, false], [true, true], [true, false], [true, false], [true, true], [true, false], [true, true], [true, false], [true, true]], "dtype": [["MetadataMatch_retention_index_difference_60.0_f0", "|b1"], ["MetadataMatch_retention_index_difference_20.0_f0", "|b1"]]}\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/metadata_match/ri_match_60.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/metadata_match/ri_match_60.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"74.01508": "Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2", "75.02295": "Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3", "76.03075": "Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4", "87.02295": "Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3", "88.03076": "Theoretical m/z 88.0313, Mass diff 0 (0 ppm), Formula C7H4", "89.03857": "Theoretical m/z 89.039125, Mass diff 0 (0 ppm), Formula C7H5", "151.05415": "Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7", "175.05423": "Theoretical m/z 175.054775, Mass diff 0 (0 ppm), Formula C14H7", "176.062": "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8", "177.06982": "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9", "178.0775": "Theoretical m/z 178.077698, Mass diff 0 (1.11 ppm), SMILES C=1C=CC2=C(C1)C=CC=3C=CC=CC32, Annotation [C14H10]+, Rule of HR False"}, "num_peaks": "19", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.01508, 137808.0], [75.02295, 278714.0], [76.03075, 608417.0], [87.02295, 304266.0], [88.03076, 497050.0], [89.03857, 441168.0], [98.01511, 150478.0], [150.04633, 868927.0], [151.05415, 546351.0], [152.0619, 2275502.0], [153.06528, 276320.0], [169.06468, 272559.0], [174.04636, 365846.0], [175.05423, 272039.0], [176.062, 3370523.0], [177.06982, 1751846.0], [178.0775, 13724432.0], [179.08078, 2250119.0], [180.08412, 138203.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"74.0151": "Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2", "75.02296": "Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3", "76.03077": "Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4", "87.02297": "Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3", "88.03078": "Theoretical m/z 88.0313, Mass diff 0 (0 ppm), Formula C7H4", "89.0386": "Theoretical m/z 89.039125, Mass diff 0 (0 ppm), Formula C7H5", "91.05425": "Theoretical m/z 91.054775, Mass diff 0 (0 ppm), Formula C7H7", "151.05415": "Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7", "175.05423": "Theoretical m/z 175.054775, Mass diff 0 (0 ppm), Formula C14H7", "176.06204": "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8", "177.06984": "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9", "178.07754": "Theoretical m/z 178.077698, Mass diff 0 (0.89 ppm), SMILES C=1C=CC=2C=C3C=CC=CC3=CC2C1, Annotation [C14H10]+, Rule of HR False"}, "num_peaks": "21", "compound_name": "Anthracene", "retention_time": null, "retention_index": 1844.4, "precursor_mz": 178.07754, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.0151, 117371.0], [75.02296, 245305.0], [76.03077, 632686.0], [87.02297, 236214.0], [88.03078, 347832.0], [89.0386, 507288.0], [91.05425, 130861.0], [126.04636, 128356.0], [149.04478, 126331.0], [150.04637, 641829.0], [151.05415, 403195.0], [152.06195, 1369833.0], [153.06534, 175290.0], [169.06471, 228827.0], [174.04639, 255716.0], [175.05423, 198784.0], [176.06204, 2563053.0], [177.06984, 1182037.0], [178.07754, 11002398.0], [179.080'..b'320.0], [224.062, 181393.0], [226.07771, 1503774.0], [227.08588, 1198323.0], [228.09344, 2885510.0], [229.10123, 1791323.0], [230.10886, 17890056.0], [231.11214, 3536976.0], [232.11542, 320231.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10S", "inchikey": "YEUHHUCOSQOCIX-UHFFFAOYSA-N", "smiles": "S1C2=C(C=CC=C2)C2=C1C1=CC=CC=C1C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"91.05425": "Theoretical m/z 91.054775, Mass diff 0 (0 ppm), Formula C7H7", "163.05408": "Theoretical m/z 163.054775, Mass diff 0 (0 ppm), Formula C13H7", "187.05406": "Theoretical m/z 187.054775, Mass diff 0 (0 ppm), Formula C15H7", "189.06969": "Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9", "201.06973": "Theoretical m/z 201.070425, Mass diff 0 (0 ppm), Formula C16H9", "233.04245": "Theoretical m/z 233.042496, Mass diff -0.001 (0 ppm), Formula C16H9S", "234.04965": "Theoretical m/z 234.049775, Mass diff 0 (0.53 ppm), SMILES S1C=2C=CC=CC2C=3C=CC=4C=CC=CC4C13, Annotation [C16H10S]+, Rule of HR False"}, "num_peaks": "23", "compound_name": "Benzo[b]naphtho[2,1-d]thiophene", "retention_time": null, "retention_index": 2419.3, "precursor_mz": 234.04965, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[91.05425, 49130.0], [93.52686, 61653.0], [94.53469, 76638.0], [104.01679, 126871.0], [116.01675, 112547.0], [117.02459, 99108.0], [162.04623, 54491.0], [163.05408, 136418.0], [164.06198, 56321.0], [187.05406, 273349.0], [188.06189, 200750.0], [189.06969, 453336.0], [190.07306, 77884.0], [200.06189, 135620.0], [201.06973, 74692.0], [202.07758, 425058.0], [203.08086, 72058.0], [226.07762, 63460.0], [232.03409, 769638.0], [233.04245, 382457.0], [234.04965, 4404102.0], [235.05304, 725574.0], [236.04547, 251450.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C17H12", "inchikey": "HAPOJKSPCGLOOD-UHFFFAOYSA-N", "smiles": "C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"163.05414": "Theoretical m/z 163.054775, Mass diff 0 (0 ppm), Formula C13H7", "187.05412": "Theoretical m/z 187.054775, Mass diff 0 (0 ppm), Formula C15H7", "189.06975": "Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9", "211.05426": "Theoretical m/z 211.054775, Mass diff 0 (0 ppm), Formula C17H7", "213.0699": "Theoretical m/z 213.070425, Mass diff 0 (0 ppm), Formula C17H9", "215.0855": "Theoretical m/z 215.086075, Mass diff 0 (0 ppm), Formula C17H11", "216.09326": "Theoretical m/z 216.093354, Mass diff 0 (0.44 ppm), SMILES C=1C=CC=2C=C3C(=CC2C1)C=4C=CC=CC4C3, Annotation [C17H12]+, Rule of HR False"}, "num_peaks": "21", "compound_name": "2,3-Benzofluorene", "retention_time": null, "retention_index": 2257.5, "precursor_mz": 216.09326, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[93.52689, 122035.0], [94.53471, 241743.0], [95.03638, 42130.0], [105.52688, 47526.0], [106.53471, 171653.0], [107.03639, 60004.0], [107.5425, 180288.0], [108.03385, 97471.0], [163.05414, 68194.0], [187.05412, 167183.0], [188.06201, 86262.0], [189.06975, 239421.0], [190.07321, 37778.0], [211.05426, 117044.0], [212.06215, 60813.0], [213.0699, 808499.0], [214.07317, 202222.0], [215.0855, 3634570.0], [216.09326, 2535030.0], [217.09671, 444170.0], [218.09999, 37976.0]]}], "n_row": 7, "n_col": 7, "row": [0, 0, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 6, 6], "col": [0, 1, 0, 1, 2, 3, 2, 3, 4, 3, 4, 6, 5, 4, 6], "data": [[true], [true], [true], [true], [true], [true], [true], [true], [true], [true], [true], [true], [true], [true], [true]], "dtype": [["MetadataMatch_retention_index_difference_60.0_f0", "|b1"]]}\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/metadata_match/smiles.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/metadata_match/smiles.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"74.01508": "Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2", "75.02295": "Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3", "76.03075": "Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4", "87.02295": "Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3", "88.03076": "Theoretical m/z 88.0313, Mass diff 0 (0 ppm), Formula C7H4", "89.03857": "Theoretical m/z 89.039125, Mass diff 0 (0 ppm), Formula C7H5", "151.05415": "Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7", "175.05423": "Theoretical m/z 175.054775, Mass diff 0 (0 ppm), Formula C14H7", "176.062": "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8", "177.06982": "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9", "178.0775": "Theoretical m/z 178.077698, Mass diff 0 (1.11 ppm), SMILES C=1C=CC2=C(C1)C=CC=3C=CC=CC32, Annotation [C14H10]+, Rule of HR False"}, "num_peaks": "19", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.01508, 137808.0], [75.02295, 278714.0], [76.03075, 608417.0], [87.02295, 304266.0], [88.03076, 497050.0], [89.03857, 441168.0], [98.01511, 150478.0], [150.04633, 868927.0], [151.05415, 546351.0], [152.0619, 2275502.0], [153.06528, 276320.0], [169.06468, 272559.0], [174.04636, 365846.0], [175.05423, 272039.0], [176.062, 3370523.0], [177.06982, 1751846.0], [178.0775, 13724432.0], [179.08078, 2250119.0], [180.08412, 138203.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"74.0151": "Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2", "75.02296": "Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3", "76.03077": "Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4", "87.02297": "Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3", "88.03078": "Theoretical m/z 88.0313, Mass diff 0 (0 ppm), Formula C7H4", "89.0386": "Theoretical m/z 89.039125, Mass diff 0 (0 ppm), Formula C7H5", "91.05425": "Theoretical m/z 91.054775, Mass diff 0 (0 ppm), Formula C7H7", "151.05415": "Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7", "175.05423": "Theoretical m/z 175.054775, Mass diff 0 (0 ppm), Formula C14H7", "176.06204": "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8", "177.06984": "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9", "178.07754": "Theoretical m/z 178.077698, Mass diff 0 (0.89 ppm), SMILES C=1C=CC=2C=C3C=CC=CC3=CC2C1, Annotation [C14H10]+, Rule of HR False"}, "num_peaks": "21", "compound_name": "Anthracene", "retention_time": null, "retention_index": 1844.4, "precursor_mz": 178.07754, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.0151, 117371.0], [75.02296, 245305.0], [76.03077, 632686.0], [87.02297, 236214.0], [88.03078, 347832.0], [89.0386, 507288.0], [91.05425, 130861.0], [126.04636, 128356.0], [149.04478, 126331.0], [150.04637, 641829.0], [151.05415, 403195.0], [152.06195, 1369833.0], [153.06534, 175290.0], [169.06471, 228827.0], [174.04639, 255716.0], [175.05423, 198784.0], [176.06204, 2563053.0], [177.06984, 1182037.0], [178.07754, 11002398.0], [179.080'..b'.06986, 238974.0], [202.07758, 1292332.0], [203.08093, 374439.0], [213.06973, 256631.0], [215.08548, 1220866.0], [216.08881, 217320.0], [224.062, 181393.0], [226.07771, 1503774.0], [227.08588, 1198323.0], [228.09344, 2885510.0], [229.10123, 1791323.0], [230.10886, 17890056.0], [231.11214, 3536976.0], [232.11542, 320231.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10S", "inchikey": "YEUHHUCOSQOCIX-UHFFFAOYSA-N", "smiles": "S1C2=C(C=CC=C2)C2=C1C1=CC=CC=C1C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"91.05425": "Theoretical m/z 91.054775, Mass diff 0 (0 ppm), Formula C7H7", "163.05408": "Theoretical m/z 163.054775, Mass diff 0 (0 ppm), Formula C13H7", "187.05406": "Theoretical m/z 187.054775, Mass diff 0 (0 ppm), Formula C15H7", "189.06969": "Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9", "201.06973": "Theoretical m/z 201.070425, Mass diff 0 (0 ppm), Formula C16H9", "233.04245": "Theoretical m/z 233.042496, Mass diff -0.001 (0 ppm), Formula C16H9S", "234.04965": "Theoretical m/z 234.049775, Mass diff 0 (0.53 ppm), SMILES S1C=2C=CC=CC2C=3C=CC=4C=CC=CC4C13, Annotation [C16H10S]+, Rule of HR False"}, "num_peaks": "23", "compound_name": "Benzo[b]naphtho[2,1-d]thiophene", "retention_time": null, "retention_index": 2419.3, "precursor_mz": 234.04965, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[91.05425, 49130.0], [93.52686, 61653.0], [94.53469, 76638.0], [104.01679, 126871.0], [116.01675, 112547.0], [117.02459, 99108.0], [162.04623, 54491.0], [163.05408, 136418.0], [164.06198, 56321.0], [187.05406, 273349.0], [188.06189, 200750.0], [189.06969, 453336.0], [190.07306, 77884.0], [200.06189, 135620.0], [201.06973, 74692.0], [202.07758, 425058.0], [203.08086, 72058.0], [226.07762, 63460.0], [232.03409, 769638.0], [233.04245, 382457.0], [234.04965, 4404102.0], [235.05304, 725574.0], [236.04547, 251450.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C17H12", "inchikey": "HAPOJKSPCGLOOD-UHFFFAOYSA-N", "smiles": "C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"163.05414": "Theoretical m/z 163.054775, Mass diff 0 (0 ppm), Formula C13H7", "187.05412": "Theoretical m/z 187.054775, Mass diff 0 (0 ppm), Formula C15H7", "189.06975": "Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9", "211.05426": "Theoretical m/z 211.054775, Mass diff 0 (0 ppm), Formula C17H7", "213.0699": "Theoretical m/z 213.070425, Mass diff 0 (0 ppm), Formula C17H9", "215.0855": "Theoretical m/z 215.086075, Mass diff 0 (0 ppm), Formula C17H11", "216.09326": "Theoretical m/z 216.093354, Mass diff 0 (0.44 ppm), SMILES C=1C=CC=2C=C3C(=CC2C1)C=4C=CC=CC4C3, Annotation [C17H12]+, Rule of HR False"}, "num_peaks": "21", "compound_name": "2,3-Benzofluorene", "retention_time": null, "retention_index": 2257.5, "precursor_mz": 216.09326, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[93.52689, 122035.0], [94.53471, 241743.0], [95.03638, 42130.0], [105.52688, 47526.0], [106.53471, 171653.0], [107.03639, 60004.0], [107.5425, 180288.0], [108.03385, 97471.0], [163.05414, 68194.0], [187.05412, 167183.0], [188.06201, 86262.0], [189.06975, 239421.0], [190.07321, 37778.0], [211.05426, 117044.0], [212.06215, 60813.0], [213.0699, 808499.0], [214.07317, 202222.0], [215.0855, 3634570.0], [216.09326, 2535030.0], [217.09671, 444170.0], [218.09999, 37976.0]]}], "n_row": 7, "n_col": 7, "row": [0, 1, 2, 3, 4, 5, 6], "col": [0, 1, 2, 3, 4, 5, 6], "data": [[true], [true], [true], [true], [true], [true], [true]], "dtype": [["MetadataMatch_smiles_equal_match", "|b1"]]}\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/scores.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/scores.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,24885 @@\n+{\n+    "__Scores__": true,\n+    "is_symmetric": true,\n+    "references": [\n+        {\n+            "ionmode": "negative",\n+            "spectrumtype": "Centroid",\n+            "num_peaks": "45",\n+            "compound_name": "C019",\n+            "retention_time": 688.11,\n+            "retention_index": 4135.446429,\n+            "peaks_json": [\n+                [\n+                    70.261357375322,\n+                    1769331.0\n+                ],\n+                [\n+                    82.0777101637279,\n+                    1721684.0\n+                ],\n+                [\n+                    92.0256956423549,\n+                    1063403.0\n+                ],\n+                [\n+                    104.057597689888,\n+                    2564581.0\n+                ],\n+                [\n+                    106.07773010104,\n+                    1697865.0\n+                ],\n+                [\n+                    118.073139793174,\n+                    3070732.0\n+                ],\n+                [\n+                    135.080430341161,\n+                    1465718.0\n+                ],\n+                [\n+                    144.946939559008,\n+                    1208427.0\n+                ],\n+                [\n+                    145.046705119092,\n+                    2856482.0\n+                ],\n+                [\n+                    164.985419247789,\n+                    16217649.0\n+                ],\n+                [\n+                    179.033979756352,\n+                    10865004.0\n+                ],\n+                [\n+                    180.980322946522,\n+                    4830502.0\n+                ],\n+                [\n+                    191.070496682473,\n+                    3188459.0\n+                ],\n+                [\n+                    192.078428243192,\n+                    3993484.0\n+                ],\n+                [\n+                    194.04893073403,\n+                    5942766.0\n+                ],\n+                [\n+                    195.046783458568,\n+                    4544081.0\n+                ],\n+                [\n+                    211.026857856803,\n+                    2083491.0\n+                ],\n+                [\n+                    213.039588698474,\n+                    3950087.0\n+                ],\n+                [\n+                    213.998834302427,\n+                    1664182.0\n+                ],\n+                [\n+                    248.988380501455,\n+                    23053112.0\n+                ],\n+                [\n+                    251.037178293,\n+                    10860752.0\n+                ],\n+                [\n+                    265.054817014529,\n+                    3722747.0\n+                ],\n+                [\n+                    265.089588392487,\n+                    3283162.0\n+                ],\n+                [\n+                    283.099929585291,\n+                    13668779.0\n+                ],\n+                [\n+                    313.053040045895,\n+                    8388200.0\n+                ],\n+                [\n+                    329.031653006854,\n+                    6682061.0\n+                ],\n+                [\n+                    341.157248840923,\n+                    18181095.0\n+                ],\n+                [\n+                    385.022947628725,\n+                    6484159.0\n+                ],\n+                [\n+                    399.075287615392,\n+                    4270821.0\n+                ],\n+                [\n+                    401.053681557414,\n+                    30562249.0\n+                ],\n+                [\n+                    401.124275228471,\n+                    4559258.0\n+                ],\n+                [\n+                    403.051400482668,\n+                    5874830.0\n+                ],\n+                [\n+                    415.106669687654,\n+                    54985895.0\n+                ],\n+                [\n+             '..b'  10\n+        ],\n+        [\n+            0.02721712700818484,\n+            2\n+        ],\n+        [\n+            0.01604776148430577,\n+            4\n+        ],\n+        [\n+            0.004643459359286748,\n+            1\n+        ],\n+        [\n+            0.06028384723921053,\n+            5\n+        ],\n+        [\n+            0.010182216968476942,\n+            2\n+        ],\n+        [\n+            0.015514294506382824,\n+            7\n+        ],\n+        [\n+            0.006159930050479137,\n+            1\n+        ],\n+        [\n+            0.16161703455381496,\n+            6\n+        ],\n+        [\n+            0.0040750621823237455,\n+            1\n+        ],\n+        [\n+            0.00035959474689346225,\n+            1\n+        ],\n+        [\n+            0.004410365100501621,\n+            1\n+        ],\n+        [\n+            0.19629045559553993,\n+            7\n+        ],\n+        [\n+            2.183361903331013e-05,\n+            1\n+        ],\n+        [\n+            0.00874020096442854,\n+            6\n+        ],\n+        [\n+            0.05339849611313036,\n+            3\n+        ],\n+        [\n+            0.07241757799207088,\n+            9\n+        ],\n+        [\n+            1.0,\n+            57\n+        ],\n+        [\n+            0.1532083156483457,\n+            9\n+        ],\n+        [\n+            0.07254436753789326,\n+            7\n+        ],\n+        [\n+            0.001955368426994351,\n+            2\n+        ],\n+        [\n+            0.0025872639272902275,\n+            4\n+        ],\n+        [\n+            0.0013204445873728583,\n+            1\n+        ],\n+        [\n+            0.0038473569260636577,\n+            2\n+        ],\n+        [\n+            2.3474291172828106e-05,\n+            1\n+        ],\n+        [\n+            0.0026965131583056297,\n+            1\n+        ],\n+        [\n+            0.006365332254288743,\n+            5\n+        ],\n+        [\n+            0.00029988255581130476,\n+            1\n+        ],\n+        [\n+            0.007912892888665144,\n+            1\n+        ],\n+        [\n+            0.0010730602771333662,\n+            1\n+        ],\n+        [\n+            0.016989615322438187,\n+            9\n+        ],\n+        [\n+            0.003161355905982341,\n+            3\n+        ],\n+        [\n+            0.0016932596421780554,\n+            4\n+        ],\n+        [\n+            0.12277955682638493,\n+            2\n+        ],\n+        [\n+            0.0010876843418038634,\n+            2\n+        ],\n+        [\n+            0.006154982701162679,\n+            6\n+        ],\n+        [\n+            0.008208323843919407,\n+            3\n+        ],\n+        [\n+            0.0022656923270095238,\n+            1\n+        ],\n+        [\n+            0.00024388889524274332,\n+            1\n+        ],\n+        [\n+            0.02730466120239496,\n+            3\n+        ],\n+        [\n+            0.0006430820485323683,\n+            1\n+        ],\n+        [\n+            0.020922814133647005,\n+            2\n+        ],\n+        [\n+            0.02997880004616917,\n+            1\n+        ],\n+        [\n+            0.012077049920079725,\n+            1\n+        ],\n+        [\n+            0.002011546918083829,\n+            1\n+        ],\n+        [\n+            0.01644817444407394,\n+            3\n+        ],\n+        [\n+            0.034476184479167796,\n+            3\n+        ],\n+        [\n+            0.01192804514810923,\n+            2\n+        ],\n+        [\n+            0.0008393606283062712,\n+            1\n+        ],\n+        [\n+            0.008295825799065532,\n+            1\n+        ],\n+        [\n+            0.004505223629535381,\n+            3\n+        ],\n+        [\n+            0.1532083156483457,\n+            9\n+        ],\n+        [\n+            1.0,\n+            43\n+        ]\n+    ],\n+    "dtype": [\n+        [\n+            "CosineGreedy_score",\n+            "<f8"\n+        ],\n+        [\n+            "CosineGreedy_matches",\n+            "<i8"\n+        ]\n+    ]\n+}\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/similarity/RECETOX_Exposome_pesticides_HR_MS_20220323.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/RECETOX_Exposome_pesticides_HR_MS_20220323.msp Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,6547 @@\n+NAME: Acephate\r\n+SCANNUMBER: 1161\r\n+RETENTIONTIME: 1.232997\r\n+PRECURSORMZ: 184.0194\r\n+PRECURSORTYPE: [M+H]+\r\n+IONMODE: Positive\r\n+SPECTRUMTYPE: Centroid\r\n+FORMULA: C4H10NO3PS\r\n+INCHIKEY: YASYVMFAVPKPKE-SECBINFHSA-N\r\n+INCHI: \r\n+SMILES: COP(=O)(N=C(O)C)SC\r\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\r\n+COLLISIONENERGY: \r\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\r\n+INSTRUMENTTYPE: LC-ESI-Orbitrap\r\n+IONIZATION: ESI+\r\n+LICENSE: CC BY-NC\r\n+COMMENT: \r\n+Num Peaks: 16\r\n+90.09368\t1128\r\n+93.11512\t1241\r\n+95.10279\t1118\r\n+101.31465\t1152\r\n+102.90688\t1322\r\n+103.98039\t1201\r\n+112.01607\t12289\r\n+112.99994\t38027\r\n+115.00399\t1634\r\n+124.98121\t922\r\n+128.97701\t9208\r\n+132.57193\t1350\r\n+135.84808\t1428\r\n+142.99275\t16419\r\n+147.94205\t1750\r\n+173.5094\t2353\r\n+\r\n+NAME: Carbaryl\r\n+SCANNUMBER: 2257\r\n+RETENTIONTIME: 5.259445\r\n+PRECURSORMZ: 202.0863\r\n+PRECURSORTYPE: [M+H]+\r\n+IONMODE: Positive\r\n+SPECTRUMTYPE: Centroid\r\n+FORMULA: C12H11NO2\r\n+INCHIKEY: CVXBEEMKQHEXEN-UHFFFAOYSA-N\r\n+INCHI: \r\n+SMILES: CN=C(Oc1cccc2c1cccc2)O\r\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\r\n+COLLISIONENERGY: \r\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\r\n+INSTRUMENTTYPE: LC-ESI-Orbitrap\r\n+IONIZATION: ESI+\r\n+LICENSE: CC BY-NC\r\n+COMMENT: \r\n+Num Peaks: 1\r\n+145.06491\t1326147\t"Theoretical m/z 145.064787, Mass diff 0 (0.85 ppm), SMILES OC1=CC=CC=2C=CC=CC12, Annotation [C10H8O+H]+, Rule of HR True"\r\n+\r\n+NAME: Dicrotophos\r\n+SCANNUMBER: 1516\r\n+RETENTIONTIME: 2.025499\r\n+PRECURSORMZ: 238.0844\r\n+PRECURSORTYPE: [M+H]+\r\n+IONMODE: Positive\r\n+SPECTRUMTYPE: Centroid\r\n+FORMULA: C8H16NO5P\r\n+INCHIKEY: VEENJGZXVHKXNB-UHFFFAOYSA-N\r\n+INCHI: \r\n+SMILES: COP(=O)(OC(=CC(=O)N(C)C)C)OC\r\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\r\n+COLLISIONENERGY: \r\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\r\n+INSTRUMENTTYPE: LC-ESI-Orbitrap\r\n+IONIZATION: ESI+\r\n+LICENSE: CC BY-NC\r\n+COMMENT: \r\n+Num Peaks: 5\r\n+112.074\t102027\r\n+112.07591\t9070987\t"Theoretical m/z 112.075687, Mass diff 0 (1.99 ppm), SMILES O=C(C=CC)N(C)C, Annotation [C6H11NO-H]+, Rule of HR True"\r\n+127.01563\t3230337\t"Theoretical m/z 127.01547, Mass diff 0 (1.26 ppm), SMILES O=P(O)(OC)OC, Annotation [C2H7O4P+H]+, Rule of HR True"\r\n+193.02605\t7897744\t"Theoretical m/z 193.026035, Mass diff 0 (0.08 ppm), SMILES O=CC=C(OP(=O)(OC)OC)C, Annotation [C6H11O5P-H]+, Rule of HR True"\r\n+238.08437\t2973124\t"Theoretical m/z 238.083891, Mass diff 0 (2.01 ppm), SMILES O=C(C=C(OP(=O)(OC)OC)C)N(C)C, Annotation [C8H16NO5P+H]+, Rule of HR True"\r\n+\r\n+NAME: Dimethoate\r\n+SCANNUMBER: 1865\r\n+RETENTIONTIME: 2.866696\r\n+PRECURSORMZ: 230.0072\r\n+PRECURSORTYPE: [M+H]+\r\n+IONMODE: Positive\r\n+SPECTRUMTYPE: Centroid\r\n+FORMULA: C5H12NO3PS2\r\n+INCHIKEY: MCWXGJITAZMZEV-UHFFFAOYSA-N\r\n+INCHI: \r\n+SMILES: CN=C(CSP(=S)(OC)OC)O\r\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\r\n+COLLISIONENERGY: \r\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\r\n+INSTRUMENTTYPE: LC-ESI-Orbitrap\r\n+IONIZATION: ESI+\r\n+LICENSE: CC BY-NC\r\n+COMMENT: \r\n+Num Peaks: 8\r\n+88.0219\t548446\t"Theoretical m/z 88.021549, Mass diff 0 (3.99 ppm), SMILES SCC=NC, Annotation [C3H7NS-H]+, Rule of HR True"\r\n+124.98233\t183861\t"Theoretical m/z 124.982067, Mass diff 0 (2.11 ppm), SMILES S=P(OC)OC, Annotation [C2H7O2PS-H]+, Rule of HR True"\r\n+142.99275\t722053\t"Theoretical m/z 142.993177, Mass diff 0 (0 ppm), Formula C2H8O3PS"\r\n+156.95422\t80792\t"Theoretical m/z 156.954136, Mass diff 0 (0.54 ppm), SMILES S=P(S)(OC)OC, Annotation [C2H7O2PS2-H]+, Rule of HR True"\r\n+170.97\t1426256\t"Theoretical m/z 170.969791, Mass diff 0 (1.22 ppm), SMILES S=P(OC)(OC)SC, Annotation [C3H9O2PS2-H]+, Rule of HR True"\r\n+197.98123\t240915\t"Theoretical m/z 197.980686, Mass diff 0.001 (2.75 ppm), SMILES S=P(OC)SCC(O)=NC, Annotation [C4H10NO2PS2-H]+, Rule of HR True"\r\n+198.96501\t5415933\t"Theoretical m/z 198.965248, Mass diff 0 (0 ppm), Formula C4H8O3PS2"\r\n+230.00722\t497851\t"Theoretical m/z 230.006895, Mass diff 0 (1.41 ppm), SMILES S=P(OC)(OC)SCC(O)=NC'..b'PRECURSORMZ: 223.1443\r\n+PRECURSORTYPE: [M+H]+\r\n+IONMODE: Positive\r\n+SPECTRUMTYPE: Centroid\r\n+FORMULA: C12H18N2O2\r\n+INCHIKEY: YNEVBPNZHBAYOA-UHFFFAOYSA-N\r\n+INCHI: \r\n+SMILES: CN=C(Oc1cc(C)c(c(c1)C)N(C)C)O\r\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\r\n+COLLISIONENERGY: \r\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\r\n+INSTRUMENTTYPE: LC-ESI-Orbitrap\r\n+IONIZATION: ESI+\r\n+LICENSE: CC BY-NC\r\n+COMMENT: \r\n+Num Peaks: 5\r\n+134.07283\t2632951\t"Theoretical m/z 134.072623, Mass diff 0 (1.55 ppm), SMILES O(C=1C=C(C=C(C1)C)C)C, Annotation [C9H12O-2H]+, Rule of HR False"\r\n+136.07611\t26036728\t"Theoretical m/z 136.076239, Mass diff 0 (0 ppm), Formula C8H10NO"\r\n+150.092\t1572118\t"Theoretical m/z 150.091343, Mass diff 0.001 (4.38 ppm), SMILES OC1=CC=C(C(=C1)C)N(C)C, Annotation [C9H13NO-H]+, Rule of HR True"\r\n+151.09932\t54847764\t"Theoretical m/z 151.099168, Mass diff 0 (1.01 ppm), SMILES OC1=CC=C(C(=C1)C)N(C)C, Annotation [C9H13NO]+, Rule of HR False"\r\n+166.12282\t1541928\t"Theoretical m/z 166.122633, Mass diff 0 (1.13 ppm), SMILES OC=1C=C(C(=C(C1)C)N(C)C)C, Annotation [C10H15NO+H]+, Rule of HR True"\r\n+\r\n+NAME: Monceren\r\n+SCANNUMBER: 3999\r\n+RETENTIONTIME: 7.14553\r\n+PRECURSORMZ: 329.1426\r\n+PRECURSORTYPE: [M+H]+\r\n+IONMODE: Positive\r\n+SPECTRUMTYPE: Centroid\r\n+FORMULA: C19H21N2OCl\r\n+INCHIKEY: OGYFATSSENRIKG-UHFFFAOYSA-N\r\n+INCHI: \r\n+SMILES: Clc1ccc(cc1)CN(C(=Nc1ccccc1)O)C1CCCC1\r\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\r\n+COLLISIONENERGY: \r\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\r\n+INSTRUMENTTYPE: LC-ESI-Orbitrap\r\n+IONIZATION: ESI+\r\n+LICENSE: CC BY-NC\r\n+COMMENT: \r\n+Num Peaks: 5\r\n+89.03881\t550831\t"Theoretical m/z 89.038575, Mass diff 0 (2.63 ppm), SMILES C=1C=CC(=CC1)C, Annotation [C7H8-3H]+, Rule of HR True"\r\n+94.06543\t635265\t"Theoretical m/z 94.065123, Mass diff 0 (3.27 ppm), SMILES NC=1C=CC=CC1, Annotation [C6H7N+H]+, Rule of HR True"\r\n+106.06545\t446416\t"Theoretical m/z 106.065123, Mass diff 0 (3.09 ppm), SMILES N(=C)C=1C=CC=CC1, Annotation [C7H7N+H]+, Rule of HR True"\r\n+125.01307\t512150\r\n+125.01532\t37442116\t"Theoretical m/z 125.015255, Mass diff 0 (0.52 ppm), SMILES ClC1=CC=C(C=C1)C, Annotation [C7H7Cl-H]+, Rule of HR True"\r\n+\r\n+NAME: Desmedipham\r\n+SCANNUMBER: 2271\r\n+RETENTIONTIME: 6.430396\r\n+PRECURSORMZ: 301.1192\r\n+PRECURSORTYPE: [M+H]+\r\n+IONMODE: Positive\r\n+SPECTRUMTYPE: Centroid\r\n+FORMULA: C16H16N2O4\r\n+INCHIKEY: WZJZMXBKUWKXTQ-UHFFFAOYSA-N\r\n+INCHI: \r\n+SMILES: CCOC(=Nc1cccc(c1)OC(=Nc1ccccc1)O)O\r\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\r\n+COLLISIONENERGY: \r\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\r\n+INSTRUMENTTYPE: LC-ESI-Orbitrap\r\n+IONIZATION: ESI+\r\n+LICENSE: CC BY-NC\r\n+COMMENT: \r\n+Num Peaks: 3\r\n+136.03947\t1773399\t"Theoretical m/z 136.03931, Mass diff 0 (1.18 ppm), SMILES OC(O)=NC=1C=CC=CC1, Annotation [C7H7NO2-H]+, Rule of HR True"\r\n+154.04993\t1002798\t"Theoretical m/z 154.049864, Mass diff 0 (0.43 ppm), SMILES OC(O)=NC=1C=CC=C(O)C1, Annotation [C7H7NO3+H]+, Rule of HR True"\r\n+182.08162\t6480130\t"Theoretical m/z 182.081175, Mass diff 0 (2.45 ppm), SMILES OC(=NC=1C=CC=C(O)C1)OCC, Annotation [C9H11NO3+H]+, Rule of HR True"\r\n+\r\n+NAME: Phenmedipham\r\n+SCANNUMBER: 2458\r\n+RETENTIONTIME: 6.570995\r\n+PRECURSORMZ: 301.1185\r\n+PRECURSORTYPE: [M+H]+\r\n+IONMODE: Positive\r\n+SPECTRUMTYPE: Centroid\r\n+FORMULA: C16H16N2O4\r\n+INCHIKEY: IDOWTHOLJBTAFI-UHFFFAOYSA-N\r\n+INCHI: \r\n+SMILES: COC(=Nc1cccc(c1)OC(=Nc1cccc(c1)C)O)O\r\n+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\r\n+COLLISIONENERGY: \r\n+INSTRUMENT: LC Orbitrap Fusion Tribrid MS\r\n+INSTRUMENTTYPE: LC-ESI-Orbitrap\r\n+IONIZATION: ESI+\r\n+LICENSE: CC BY-NC\r\n+COMMENT: \r\n+Num Peaks: 2\r\n+136.03947\t2596929\t"Theoretical m/z 136.03931, Mass diff 0 (1.18 ppm), SMILES OC(O)=NC=1C=CC=CC1, Annotation [C7H7NO2-H]+, Rule of HR True"\r\n+168.06587\t7038054\t"Theoretical m/z 168.065519, Mass diff 0 (2.09 ppm), SMILES OC(=NC=1C=CC=C(O)C1)OC, Annotation [C8H9NO3+H]+, Rule of HR True"\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/similarity/fill.mgf
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/fill.mgf Tue Jun 27 14:25:01 2023 +0000
b
@@ -0,0 +1,234 @@
+BEGIN IONS
+NAME=C001
+IONMODE=Negative
+RETENTIONTIME=38.74
+RETENTIONINDEX=
+SPECTRUMTYPE=Centroid
+NUM PEAKS=57
+138.9121 10186226.0 
+148.9337 1008656.0 
+175.0641 26780143.0 
+186.1095 2675456.0 
+196.8658 21390430.0 
+198.8647 21688594.0 
+200.8848 7742528.0 
+206.9034 26130980.0 
+216.9205 32607700.0 
+234.0134 2550129.0 
+254.8252 23747536.0 
+256.8215 31377637.0 
+258.8237 15532799.0 
+266.8652 9805546.0 
+268.8537 3090354.0 
+306.9914 3169316.0 
+312.7841 10051801.0 
+316.7777 10734168.0 
+322.8157 6317648.0 
+324.9549 8619910.0 
+334.849 4178412.0 
+342.8093 3285552.0 
+349.9455 2050695.0 
+350.9875 6150799.0 
+351.941 1965882.0 
+366.8281 3253770.0 
+370.7418 9765463.0 
+372.7383 19374863.0 
+382.8218 12815572.0 
+384.8177 8311500.0 
+392.7685 10913351.0 
+413.2664 3965867.0 
+426.7772 5431633.0 
+428.7834 8554675.0 
+434.7287 9943329.0 
+436.8161 3705247.0 
+440.7322 10603010.0 
+442.7401 8271752.0 
+450.7016 8762673.0 
+460.7076 4528973.0 
+462.7862 2123666.0 
+484.7242 4273989.0 
+486.7743 4886062.0 
+488.6825 12267966.0 
+492.744 7662344.0 
+494.8953 7188793.0 
+498.8794 6811405.0 
+500.8484 6520691.0 
+502.7832 3567833.0 
+510.763 4989757.0 
+518.7415 4243468.0 
+546.6093 7177067.0 
+550.6949 6104789.0 
+566.5977 5171811.0 
+612.6927 2005587.0 
+676.6436 1982714.0 
+800.4451 2792137.0 
+END IONS
+
+BEGIN IONS
+NAME=C002
+IONMODE=Negative
+RETENTIONTIME=520.25
+RETENTIONINDEX=
+SPECTRUMTYPE=Centroid
+NUM PEAKS=35
+131.1733 1971789.0 
+267.2688 6103973.0 
+279.0196 1946255.0 
+289.6491 46498377.0 
+301.1565 15185412.0 
+309.1649 18045974.0 
+310.1623 295359836.0 
+311.1658 13124727.0 
+312.0296 38757284.0 
+330.6757 12666597.0 
+525.375 1073323842.0 
+526.3783 181668883.0 
+527.3812 23642795.0 
+551.3321 111616808.0 
+552.3348 28340614.0 
+553.3314 2609936.0 
+562.3269 7538206.0 
+578.2905 7578406.0 
+619.3008 4742103.0 
+624.296 11790213.0 
+813.5403 25060147.0 
+814.5336 5865975.0 
+955.1171 2322927.0 
+1047.7378 150394804.0 
+1048.7399 90978863.0 
+1049.7432 29946438.0 
+1050.7453 6807767.0 
+1069.7158 5074652.0 
+1074.1979 3402288.0 
+1075.1968 33352763.0 
+1076.2004 10417953.0 
+1101.6535 2023916.0 
+1206.3127 3738816.0 
+1216.8041 4439324.0 
+1217.807 3565334.0 
+END IONS
+
+BEGIN IONS
+NAME=C003
+IONMODE=Negative
+RETENTIONTIME=483.67
+RETENTIONINDEX=
+SPECTRUMTYPE=Centroid
+NUM PEAKS=26
+265.2529 11366224.0 
+266.2564 1420444.0 
+279.6362 29849749.0 
+280.6546 8848921.0 
+288.6414 202172046.0 
+378.2093 15309961.0 
+379.1966 2902366.0 
+522.3565 4089569222.0 
+523.354 1201714423.0 
+549.3267 63300808.0 
+576.2749 7386007.0 
+577.3074 2354251.0 
+617.2778 2323470.0 
+625.4543 4040374.0 
+796.9808 13576738.0 
+797.9841 6368973.0 
+809.9883 12596682.0 
+810.9916 6601055.0 
+1043.7028 144351468.0 
+1044.7068 83271854.0 
+1045.706 27998321.0 
+1046.7131 6505178.0 
+1058.1594 20718345.0 
+1059.1626 6608764.0 
+1071.1639 15461047.0 
+1072.1671 5096642.0 
+END IONS
+
+BEGIN IONS
+NAME=C004
+IONMODE=Negative
+RETENTIONTIME=473.48
+RETENTIONINDEX=
+SPECTRUMTYPE=Centroid
+NUM PEAKS=24
+124.1405 6517662.0 
+170.2437 1237313.0 
+275.6336 28001849.0 
+296.147 190395687.0 
+482.3247 145772322.0 
+483.3283 36245876.0 
+496.34 12577588056.0 
+497.3442 3337125302.0 
+498.3462 532285213.0 
+499.3493 68176083.0 
+770.964 49250157.0 
+771.9675 22666873.0 
+783.9721 9839299.0 
+784.9749 3622908.0 
+949.6233 8009033.0 
+950.6274 3674694.0 
+991.6726 1420557258.0 
+992.6749 763118028.0 
+993.6787 239161906.0 
+994.6801 53549573.0 
+1017.6897 168186952.0 
+1018.6656 120599518.0 
+1019.6555 57647644.0 
+1020.6591 12469103.0 
+END IONS
+
+BEGIN IONS
+NAME=C005
+IONMODE=Negative
+RETENTIONTIME=41.72
+RETENTIONINDEX=
+SPECTRUMTYPE=Centroid
+NUM PEAKS=20
+218.1386 14009249.0 
+337.0623 88672453.0 
+338.0654 8770055.0 
+353.0361 37061354.0 
+359.0443 48435582.0 
+360.0459 5025128.0 
+375.018 29159485.0 
+376.0216 2740193.0 
+381.0261 13522755.0 
+396.9999 10317665.0 
+417.0027 13822994.0 
+418.9966 4386311.0 
+432.9764 9779399.0 
+438.9851 11307111.0 
+440.9796 3364168.0 
+454.9592 9820452.0 
+456.9603 3774845.0 
+470.9263 3632486.0 
+512.8989 4072570.0 
+572.871 3485486.0 
+END IONS
+
+BEGIN IONS
+NAME=C006
+IONMODE=Negative
+RETENTIONTIME=452.08
+RETENTIONINDEX=
+SPECTRUMTYPE=Centroid
+NUM PEAKS=19
+265.6196 4371245.0 
+274.6257 21694276.0 
+290.6256 9704443.0 
+471.1945 2160605.0 
+484.3311 5283943.0 
+494.3249 803829845.0 
+495.3278 207959661.0 
+516.3076 24092471.0 
+542.3239 193323900.0 
+543.3276 55501736.0 
+987.6411 7453650.0 
+988.6455 3739523.0 
+1001.658 11852076.0 
+1037.6578 7076912.0 
+1061.6562 9417442.0 
+1062.6592 5657208.0 
+1087.6715 34676828.0 
+1088.6773 21466528.0 
+1089.682 9948820.0 
+END IONS
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/similarity/fill2.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/fill2.msp Tue Jun 27 14:25:01 2023 +0000
b
b'@@ -0,0 +1,3117 @@\n+\n+NAME: C019\n+IONMODE: Negative\n+SPECTRUMTYPE: Centroid\n+RETENTIONTIME: 688.11\n+RETENTIONINDEX: 4135.446429\n+NUM PEAKS: 45\n+70.261357375322         1769331.0\n+82.0777101637279        1721684.0\n+92.0256956423549        1063403.0\n+104.057597689888        2564581.0\n+106.07773010104         1697865.0\n+118.073139793174        3070732.0\n+135.080430341161        1465718.0\n+144.946939559008        1208427.0\n+145.046705119092        2856482.0\n+164.985419247789        16217649.0\n+179.033979756352        10865004.0\n+180.980322946522        4830502.0\n+191.070496682473        3188459.0\n+192.078428243192        3993484.0\n+194.04893073403         5942766.0\n+195.046783458568        4544081.0\n+211.026857856803        2083491.0\n+213.039588698474        3950087.0\n+213.998834302427        1664182.0\n+248.988380501455        23053112.0\n+251.037178293           10860752.0\n+265.054817014529        3722747.0\n+265.089588392487        3283162.0\n+283.099929585291        13668779.0\n+313.053040045895        8388200.0\n+329.031653006854        6682061.0\n+341.157248840923        18181095.0\n+385.022947628725        6484159.0\n+399.075287615392        4270821.0\n+401.053681557414        30562249.0\n+401.124275228471        4559258.0\n+403.051400482668        5874830.0\n+415.106669687654        54985895.0\n+416.107049345269        18386437.0\n+417.104122333661        8837789.0\n+476.073864807294        4515967.0\n+489.124198650628        43332063.0\n+535.10922525834         9870959.0\n+536.110887614382        4207959.0\n+550.163296442538        12203065.0\n+551.161445828019        6205283.0\n+564.146181690587        6031009.0\n+609.130287444605        3608658.0\n+623.183150220198        13681871.0\n+638.166995588673        2404616.0\n+\n+NAME: C008\n+IONMODE: Negative\n+SPECTRUMTYPE: Centroid\n+RETENTIONTIME: 383.25\n+RETENTIONINDEX: 2436.111111\n+NUM PEAKS: 102\n+78.7781680742475        2556976.0\n+82.0287864194648        8611959.0\n+85.0104542195255        4745054.0\n+92.0495708428228        5241931.0\n+95.0491933558967        2316015.0\n+96.0078464060989        4720367.0\n+99.0260585452107        42333146.0\n+100.025652771381        2210104.0\n+100.029460129111        1981052.0\n+101.005418898448        6144105.0\n+101.02272083003         3343084.0\n+106.894747495922        3789804.0\n+108.892716700199        4700928.0\n+108.910416566696        4697413.0\n+110.908317235236        3641673.0\n+111.026121150586        7898189.0\n+113.034483087363        1496932.0\n+116.02876233702         10183471.0\n+119.015881013881        1977959.0\n+120.04434550515         4465533.0\n+125.034561908395        2616569.0\n+125.041780188163        5642602.0\n+126.036944910833        5772477.0\n+128.076372883456        5931740.0\n+136.941645253989        15500747.0\n+138.000329453771        4425123.0\n+138.939672935419        14601520.0\n+140.065140977456        18496952.0\n+142.044407303719        9098154.0\n+144.053483905356        7606120.0\n+145.067857890803        7879741.0\n+148.039287263976        7328850.0\n+153.036553916572        14858551.0\n+153.047854996355        18125030.0\n+156.059954180827        5934059.0\n+159.065697727649        7272776.0\n+167.06348032557         99885797.0\n+168.047501694808        12449580.0\n+168.068381413815        19985484.0\n+169.042872715042        111801595.0\n+170.045964437299        9501453.0\n+170.069851541155        17765150.0\n+171.039411915043        2980892.0\n+171.04718236227         9542984.0\n+177.039637442155        5983921.0\n+181.042632909891        3502669.0\n+183.058412555312        14609802.0\n+184.090614336983        12693765.0\n+185.073952424469        56878550.0\n+187.05314814224         24897096.0\n+187.070922888834        7169841.0\n+196.065548645302        32801154.0\n+201.076259513554        6881178.0\n+202.082996186392        9963473.0\n+203.091832141757        11700196.0\n+209.037561708176        19568054.0\n+215.091944217113        45540404.0\n+222.057912826487        2321839.0\n+224.061333736415        316557240.0\n+225.065854975194        19218426.0\n+226.057739905584   '..b'4038        3016933.0\n+346.046486912175        1754291.0\n+346.973191534072        1590963.0\n+382.97408022551         1514772.0\n+386.969422084375        2096957.0\n+402.964369782575        1172149.0\n+493.152823320977        2513229.0\n+\n+NAME: C012\n+IONMODE: Negative\n+SPECTRUMTYPE: Centroid\n+RETENTIONTIME: 687.83\n+RETENTIONINDEX: 4134.613095\n+NUM PEAKS: 57\n+78.0419846383593        1742200.0\n+79.0497716096318        1893817.0\n+85.0284186196566        2191757.0\n+121.046741626167        6162741.0\n+142.078087888737        3381352.0\n+192.997735629267        9539743.0\n+195.029110650825        3772846.0\n+205.016711322548        5926636.0\n+207.066696618797        3714385.0\n+209.098935410027        6173585.0\n+213.05754958053         13341991.0\n+219.06802937228         2601724.0\n+253.016653119059        43935840.0\n+269.047850642358        4644691.0\n+271.027137265637        6759639.0\n+281.085992168442        2140320.0\n+284.047997947258        8403825.0\n+311.073606748707        3371803.0\n+313.113777264345        2391990.0\n+325.985953604199        8513850.0\n+327.03525664153         49155384.0\n+328.035343658           13109000.0\n+329.014530869431        3595462.0\n+331.063707530223        2063612.0\n+343.084122931946        3769846.0\n+345.046169172075        8812838.0\n+353.090427317747        2832675.0\n+359.09769204202         9873384.0\n+360.028136457829        10686927.0\n+360.169639740951        3818378.0\n+371.040514349465        1472266.0\n+387.002413998209        12940469.0\n+387.071825807939        15096984.0\n+389.068871345424        1810336.0\n+402.055174276849        12479459.0\n+404.05195192305         1405422.0\n+458.971973456131        1214840.0\n+459.041861218696        1286084.0\n+460.952039584771        4371596.0\n+461.021207128847        2869881.0\n+461.090256355859        17842323.0\n+461.951796665319        1222018.0\n+462.091555156095        6970195.0\n+463.088708091285        2556050.0\n+475.072310244956        13564752.0\n+476.003821454759        1471505.0\n+476.143434019655        13026182.0\n+477.140480798609        4944561.0\n+478.141485242814        1506934.0\n+479.101672410454        3603024.0\n+490.12632015072         18188437.0\n+491.122346777972        10290558.0\n+549.162553092955        24746614.0\n+563.144239233773        12735845.0\n+624.183209223215        7134906.0\n+637.164550513183        3866368.0\n+698.205944560218        1919968.0\n+\n+NAME: C020\n+IONMODE: Negative\n+SPECTRUMTYPE: Centroid\n+RETENTIONTIME: 687.99\n+RETENTIONINDEX: 4135.089286\n+NUM PEAKS: 43\n+109.052235628516        1922885.0\n+111.044058476785        1730416.0\n+133.064909307365        1579533.0\n+137.041722086745        2474039.0\n+194.053642118165        5252308.0\n+212.061782732582        10437319.0\n+267.034768010352        4429084.0\n+267.068824022318        27744081.0\n+268.069192256745        2367920.0\n+310.970568727813        3126083.0\n+311.004219192148        2666091.0\n+325.055731606087        7634729.0\n+327.965549188207        5442532.0\n+328.962716535303        2722019.0\n+339.03821058645         6627839.0\n+341.051986399316        1671451.0\n+342.996634492902        3939816.0\n+345.115297423962        3938049.0\n+358.067243216398        3526875.0\n+361.025211906011        6516476.0\n+388.003000430725        3422825.0\n+388.073272089579        4224454.0\n+399.005054559559        4141766.0\n+401.984326631505        5585170.0\n+402.98179623463         3562508.0\n+416.036473280551        7221552.0\n+417.033665098569        4129234.0\n+417.087073648909        1945166.0\n+418.994970709551        2648178.0\n+430.088321970134        10765018.0\n+431.085366629672        6887942.0\n+473.09370665615         2502410.0\n+475.002854889036        2969642.0\n+475.14184210128         30625723.0\n+477.070907310139        2271450.0\n+489.055479984185        1973511.0\n+503.107930410573        2407435.0\n+549.092119293556        2513579.0\n+552.160354111203        1673065.0\n+565.143723544965        3485979.0\n+610.132183060405        1997085.0\n+625.181479977537        3872339.0\n+697.202597429349        2820429.0\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/similarity/rcx_exposome_pesticides_subset.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/rcx_exposome_pesticides_subset.msp Tue Jun 27 14:25:01 2023 +0000
[
@@ -0,0 +1,151 @@
+NAME: Acephate
+SCANNUMBER: 1161
+RETENTIONTIME: 1.232997
+PRECURSORMZ: 184.0194
+PRECURSORTYPE: [M+H]+
+IONMODE: Positive
+SPECTRUMTYPE: Centroid
+FORMULA: C4H10NO3PS
+INCHIKEY: YASYVMFAVPKPKE-SECBINFHSA-N
+INCHI: 
+SMILES: COP(=O)(N=C(O)C)SC
+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)
+COLLISIONENERGY: 
+INSTRUMENT: LC Orbitrap Fusion Tribrid MS
+INSTRUMENTTYPE: LC-ESI-Orbitrap
+IONIZATION: ESI+
+LICENSE: CC BY-NC
+COMMENT: 
+Num Peaks: 16
+90.09368 1128
+93.11512 1241
+95.10279 1118
+101.31465 1152
+102.90688 1322
+103.98039 1201
+112.01607 12289
+112.99994 38027
+115.00399 1634
+124.98121 922
+128.97701 9208
+132.57193 1350
+135.84808 1428
+142.99275 16419
+147.94205 1750
+173.5094 2353
+
+NAME: Carbaryl
+SCANNUMBER: 2257
+RETENTIONTIME: 5.259445
+PRECURSORMZ: 202.0863
+PRECURSORTYPE: [M+H]+
+IONMODE: Positive
+SPECTRUMTYPE: Centroid
+FORMULA: C12H11NO2
+INCHIKEY: CVXBEEMKQHEXEN-UHFFFAOYSA-N
+INCHI: 
+SMILES: CN=C(Oc1cccc2c1cccc2)O
+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)
+COLLISIONENERGY: 
+INSTRUMENT: LC Orbitrap Fusion Tribrid MS
+INSTRUMENTTYPE: LC-ESI-Orbitrap
+IONIZATION: ESI+
+LICENSE: CC BY-NC
+COMMENT: 
+Num Peaks: 1
+145.06491 1326147 "Theoretical m/z 145.064787, Mass diff 0 (0.85 ppm), SMILES OC1=CC=CC=2C=CC=CC12, Annotation [C10H8O+H]+, Rule of HR True"
+
+NAME: Dicrotophos
+SCANNUMBER: 1516
+RETENTIONTIME: 2.025499
+PRECURSORMZ: 238.0844
+PRECURSORTYPE: [M+H]+
+IONMODE: Positive
+SPECTRUMTYPE: Centroid
+FORMULA: C8H16NO5P
+INCHIKEY: VEENJGZXVHKXNB-UHFFFAOYSA-N
+INCHI: 
+SMILES: COP(=O)(OC(=CC(=O)N(C)C)C)OC
+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)
+COLLISIONENERGY: 
+INSTRUMENT: LC Orbitrap Fusion Tribrid MS
+INSTRUMENTTYPE: LC-ESI-Orbitrap
+IONIZATION: ESI+
+LICENSE: CC BY-NC
+COMMENT: 
+Num Peaks: 5
+112.074 102027
+112.07591 9070987 "Theoretical m/z 112.075687, Mass diff 0 (1.99 ppm), SMILES O=C(C=CC)N(C)C, Annotation [C6H11NO-H]+, Rule of HR True"
+127.01563 3230337 "Theoretical m/z 127.01547, Mass diff 0 (1.26 ppm), SMILES O=P(O)(OC)OC, Annotation [C2H7O4P+H]+, Rule of HR True"
+193.02605 7897744 "Theoretical m/z 193.026035, Mass diff 0 (0.08 ppm), SMILES O=CC=C(OP(=O)(OC)OC)C, Annotation [C6H11O5P-H]+, Rule of HR True"
+238.08437 2973124 "Theoretical m/z 238.083891, Mass diff 0 (2.01 ppm), SMILES O=C(C=C(OP(=O)(OC)OC)C)N(C)C, Annotation [C8H16NO5P+H]+, Rule of HR True"
+
+NAME: Dimethoate
+SCANNUMBER: 1865
+RETENTIONTIME: 2.866696
+PRECURSORMZ: 230.0072
+PRECURSORTYPE: [M+H]+
+IONMODE: Positive
+SPECTRUMTYPE: Centroid
+FORMULA: C5H12NO3PS2
+INCHIKEY: MCWXGJITAZMZEV-UHFFFAOYSA-N
+INCHI: 
+SMILES: CN=C(CSP(=S)(OC)OC)O
+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)
+COLLISIONENERGY: 
+INSTRUMENT: LC Orbitrap Fusion Tribrid MS
+INSTRUMENTTYPE: LC-ESI-Orbitrap
+IONIZATION: ESI+
+LICENSE: CC BY-NC
+COMMENT: 
+Num Peaks: 8
+88.0219 548446 "Theoretical m/z 88.021549, Mass diff 0 (3.99 ppm), SMILES SCC=NC, Annotation [C3H7NS-H]+, Rule of HR True"
+124.98233 183861 "Theoretical m/z 124.982067, Mass diff 0 (2.11 ppm), SMILES S=P(OC)OC, Annotation [C2H7O2PS-H]+, Rule of HR True"
+142.99275 722053 "Theoretical m/z 142.993177, Mass diff 0 (0 ppm), Formula C2H8O3PS"
+156.95422 80792 "Theoretical m/z 156.954136, Mass diff 0 (0.54 ppm), SMILES S=P(S)(OC)OC, Annotation [C2H7O2PS2-H]+, Rule of HR True"
+170.97 1426256 "Theoretical m/z 170.969791, Mass diff 0 (1.22 ppm), SMILES S=P(OC)(OC)SC, Annotation [C3H9O2PS2-H]+, Rule of HR True"
+197.98123 240915 "Theoretical m/z 197.980686, Mass diff 0.001 (2.75 ppm), SMILES S=P(OC)SCC(O)=NC, Annotation [C4H10NO2PS2-H]+, Rule of HR True"
+198.96501 5415933 "Theoretical m/z 198.965248, Mass diff 0 (0 ppm), Formula C4H8O3PS2"
+230.00722 497851 "Theoretical m/z 230.006895, Mass diff 0 (1.41 ppm), SMILES S=P(OC)(OC)SCC(O)=NC, Annotation [C5H12NO3PS2+H]+, Rule of HR True"
+
+NAME: Dimethomorph
+SCANNUMBER: 3852
+RETENTIONTIME: 7.060486
+PRECURSORMZ: 388.1316
+PRECURSORTYPE: [M+H]+
+IONMODE: Positive
+SPECTRUMTYPE: Centroid
+FORMULA: C21H22NO4Cl
+INCHIKEY: QNBTYORWCCMPQP-UHFFFAOYSA-N
+INCHI: 
+SMILES: COc1cc(ccc1OC)C(=CC(=O)N1CCOCC1)c1ccc(cc1)Cl
+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)
+COLLISIONENERGY: 
+INSTRUMENT: LC Orbitrap Fusion Tribrid MS
+INSTRUMENTTYPE: LC-ESI-Orbitrap
+IONIZATION: ESI+
+LICENSE: CC BY-NC
+COMMENT: 
+Num Peaks: 22
+114.05532 468862 "Theoretical m/z 114.054958, Mass diff 0 (3.17 ppm), SMILES O=CN1CCOCC1, Annotation [C5H9NO2-H]+, Rule of HR True"
+125.01571 886745 "Theoretical m/z 125.015255, Mass diff 0 (3.64 ppm), SMILES ClC1=CC=C(C=C1)C, Annotation [C7H7Cl-H]+, Rule of HR True"
+138.99484 4138370 "Theoretical m/z 138.995067, Mass diff 0 (0 ppm), Formula C7H4ClO"
+155.0705 425164 "Theoretical m/z 155.070819, Mass diff 0 (0 ppm), Formula C8H11O3"
+165.05519 15513399 "Theoretical m/z 165.055169, Mass diff -0.001 (0 ppm), Formula C9H9O3"
+165.06543 350695
+195.08057 386226 "Theoretical m/z 195.08099, Mass diff 0 (0 ppm), Formula C14H11O"
+215.0262 490061 "Theoretical m/z 215.026368, Mass diff 0 (0 ppm), Formula C13H8ClO"
+223.07544 702025 "Theoretical m/z 223.075837, Mass diff 0 (1.78 ppm), SMILES O=C(C=CC1=CC=C(Cl)C=C1)N(C)CC, Annotation [C12H14ClNO]+, Rule of HR False"
+227.02576 230514 "Theoretical m/z 227.026368, Mass diff 0 (0 ppm), Formula C14H8ClO"
+229.04225 216308 "Theoretical m/z 229.041467, Mass diff 0.001 (3.42 ppm), SMILES ClC1=CC=C(C=C1)CC2=CC=C(OC)C=C2, Annotation [C14H13ClO-3H]+, Rule of HR True"
+235.07555 241142 "Theoretical m/z 235.075842, Mass diff 0 (1.24 ppm), SMILES O=C(C=CC1=CC=C(Cl)C=C1)N(CC)CC, Annotation [C13H16ClNO-2H]+, Rule of HR False"
+238.09914 1323577 "Theoretical m/z 238.099317, Mass diff 0 (0.75 ppm), SMILES O=C(C=CC1=CC=C(Cl)C=C1)N(CC)CC, Annotation [C13H16ClNO+H]+, Rule of HR True"
+242.04929 2449236
+243.02142 891584 "Theoretical m/z 243.021282, Mass diff -0.001 (0 ppm), Formula C14H8ClO2"
+257.03726 578874 "Theoretical m/z 257.036371, Mass diff 0.001 (3.46 ppm), SMILES ClC1=CC=C(C=C1)C(=C)C2=CC=C(OC)C(O)=C2, Annotation [C15H13ClO2-3H]+, Rule of HR True"
+258.04443 3232295
+266.0943 358273 "Theoretical m/z 266.093756, Mass diff 0.001 (2.04 ppm), SMILES O=CC=C(C=1C=CC=CC1)C2=CC=C(OC)C(OC)=C2, Annotation [C17H16O3-2H]+, Rule of HR False"
+270.04492 608851
+273.06772 3866006 "Theoretical m/z 273.067676, Mass diff 0 (0.16 ppm), SMILES ClC1=CC=C(C=C1)C(=C)C2=CC=C(OC)C(OC)=C2, Annotation [C16H15ClO2-H]+, Rule of HR True"
+286.03912 483547
+301.06311 4060551 "Theoretical m/z 301.06261, Mass diff 0 (1.66 ppm), SMILES O=CC=C(C1=CC=C(Cl)C=C1)C2=CC=C(OC)C(OC)=C2, Annotation [C17H15ClO3-H]+, Rule of HR True"
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/similarity/rcx_gc-ei_ms_subset.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/rcx_gc-ei_ms_subset.msp Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,288 @@\n+NAME: Phenanthrene\n+SCANNUMBER: -1\n+RETENTIONTIME: -1\n+RETENTIONINDEX: 1832.9\n+PRECURSORMZ: 178.0775\n+PRECURSORTYPE: [M]+\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C14H10\n+INCHIKEY: YNPNZTXNASCQKK-UHFFFAOYSA-N\n+INCHI: \n+SMILES: C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+COLLISIONENERGY: 70eV\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+INSTRUMENTTYPE: GC-EI-Orbitrap\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+Num Peaks: 19\n+74.01508\t137808\t"Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2"\n+75.02295\t278714\t"Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3"\n+76.03075\t608417\t"Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4"\n+87.02295\t304266\t"Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3"\n+88.03076\t497050\t"Theoretical m/z 88.0313, Mass diff 0 (0 ppm), Formula C7H4"\n+89.03857\t441168\t"Theoretical m/z 89.039125, Mass diff 0 (0 ppm), Formula C7H5"\n+98.01511\t150478\n+150.04633\t868927\n+151.05415\t546351\t"Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7"\n+152.0619\t2275502\n+153.06528\t276320\n+169.06468\t272559\n+174.04636\t365846\n+175.05423\t272039\t"Theoretical m/z 175.054775, Mass diff 0 (0 ppm), Formula C14H7"\n+176.062\t3370523\t"Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8"\n+177.06982\t1751846\t"Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9"\n+178.0775\t13724432\t"Theoretical m/z 178.077698, Mass diff 0 (1.11 ppm), SMILES C=1C=CC2=C(C1)C=CC=3C=CC=CC32, Annotation [C14H10]+, Rule of HR False"\n+179.08078\t2250119\n+180.08412\t138203\n+\n+NAME: Anthracene\n+SCANNUMBER: -1\n+RETENTIONTIME: -1\n+RETENTIONINDEX: 1844.4\n+PRECURSORMZ: 178.07754\n+PRECURSORTYPE: [M]+\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C14H10\n+INCHIKEY: MWPLVEDNUUSJAV-UHFFFAOYSA-N\n+INCHI: \n+SMILES: C1=CC2=CC3=C(C=CC=C3)C=C2C=C1\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+COLLISIONENERGY: 70eV\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+INSTRUMENTTYPE: GC-EI-Orbitrap\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+Num Peaks: 21\n+74.0151\t117371\t"Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2"\n+75.02296\t245305\t"Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3"\n+76.03077\t632686\t"Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4"\n+87.02297\t236214\t"Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3"\n+88.03078\t347832\t"Theoretical m/z 88.0313, Mass diff 0 (0 ppm), Formula C7H4"\n+89.0386\t507288\t"Theoretical m/z 89.039125, Mass diff 0 (0 ppm), Formula C7H5"\n+91.05425\t130861\t"Theoretical m/z 91.054775, Mass diff 0 (0 ppm), Formula C7H7"\n+126.04636\t128356\n+149.04478\t126331\n+150.04637\t641829\n+151.05415\t403195\t"Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7"\n+152.06195\t1369833\n+153.06534\t175290\n+169.06471\t228827\n+174.04639\t255716\n+175.05423\t198784\t"Theoretical m/z 175.054775, Mass diff 0 (0 ppm), Formula C14H7"\n+176.06204\t2563053\t"Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8"\n+177.06984\t1182037\t"Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9"\n+178.07754\t11002398\t"Theoretical m/z 178.077698, Mass diff 0 (0.89 ppm), SMILES C=1C=CC=2C=C3C=CC=CC3=CC2C1, Annotation [C14H10]+, Rule of HR False"\n+179.08081\t1778803\n+180.08418\t132922\n+\n+NAME: Fluoranthene\n+SCANNUMBER: -1\n+RETENTIONTIME: -1\n+RETENTIONINDEX: 2102.7\n+PRECURSORMZ: 202.07756\n+PRECURSORTYPE: [M]+\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C16H10\n+INCHIKEY: GVEPBJHOBDJJJI-UHFFFAOYSA-N\n+INCHI: \n+SMILES: C1=CC2=C(C=C1)C1=C3C2=CC=CC3=CC=C1\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+COLLISIONENERGY: 70eV\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+INSTRUMENTTYPE: GC-EI-Orbitrap\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+Num Peaks: 17\n+75.02299\t112456\t"Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3"\n+87.02298\t183640\t"Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3"\n+88.03079\t367434\t"Theoretical m/z 88.0313, Mas'..b'046\t"Theoretical m/z 128.0626, Mass diff 0 (0 ppm), Formula C10H8"\n+151.05412\t266397\t"Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7"\n+152.06195\t961184\n+153.06976\t409346\t"Theoretical m/z 153.069873, Mass diff 0 (0.74 ppm), SMILES *C=1C=CC(=CC1)C=2C=CC=CC2, Annotation [C12H10-H]+, Rule of HR True"\n+176.06192\t232793\t"Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8"\n+189.06972\t408734\t"Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9"\n+200.0619\t342984\n+201.06986\t238974\t"Theoretical m/z 201.070425, Mass diff 0 (0 ppm), Formula C16H9"\n+202.07758\t1292332\n+203.08093\t374439\n+213.06973\t256631\t"Theoretical m/z 213.070425, Mass diff 0 (0 ppm), Formula C17H9"\n+215.08548\t1220866\t"Theoretical m/z 215.086075, Mass diff 0 (0 ppm), Formula C17H11"\n+216.08881\t217320\n+224.062\t181393\n+226.07771\t1503774\n+227.08588\t1198323\t"Theoretical m/z 227.086075, Mass diff 0 (0 ppm), Formula C18H11"\n+228.09344\t2885510\n+229.10123\t1791323\n+230.10886\t17890056\t"Theoretical m/z 230.108994, Mass diff 0 (0.58 ppm), SMILES C=1C=CC(=CC1)C=2C=CC(=CC2)C=3C=CC=CC3, Annotation [C18H14]+, Rule of HR False"\n+231.11214\t3536976\n+232.11542\t320231\n+\n+NAME: Benzo[b]naphtho[2,1-d]thiophene\n+SCANNUMBER: -1\n+RETENTIONTIME: -1\n+RETENTIONINDEX: 2419.3\n+PRECURSORMZ: 234.04965\n+PRECURSORTYPE: [M]+\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C16H10S\n+INCHIKEY: YEUHHUCOSQOCIX-UHFFFAOYSA-N\n+INCHI: \n+SMILES: S1C2=C(C=CC=C2)C2=C1C1=CC=CC=C1C=C2\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+COLLISIONENERGY: 70eV\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+INSTRUMENTTYPE: GC-EI-Orbitrap\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+Num Peaks: 23\n+91.05425\t49130\t"Theoretical m/z 91.054775, Mass diff 0 (0 ppm), Formula C7H7"\n+93.52686\t61653\n+94.53469\t76638\n+104.01679\t126871\n+116.01675\t112547\n+117.02459\t99108\n+162.04623\t54491\n+163.05408\t136418\t"Theoretical m/z 163.054775, Mass diff 0 (0 ppm), Formula C13H7"\n+164.06198\t56321\n+187.05406\t273349\t"Theoretical m/z 187.054775, Mass diff 0 (0 ppm), Formula C15H7"\n+188.06189\t200750\n+189.06969\t453336\t"Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9"\n+190.07306\t77884\n+200.06189\t135620\n+201.06973\t74692\t"Theoretical m/z 201.070425, Mass diff 0 (0 ppm), Formula C16H9"\n+202.07758\t425058\n+203.08086\t72058\n+226.07762\t63460\n+232.03409\t769638\n+233.04245\t382457\t"Theoretical m/z 233.042496, Mass diff -0.001 (0 ppm), Formula C16H9S"\n+234.04965\t4404102\t"Theoretical m/z 234.049775, Mass diff 0 (0.53 ppm), SMILES S1C=2C=CC=CC2C=3C=CC=4C=CC=CC4C13, Annotation [C16H10S]+, Rule of HR False"\n+235.05304\t725574\n+236.04547\t251450\n+\n+NAME: 2,3-Benzofluorene\n+SCANNUMBER: -1\n+RETENTIONTIME: -1\n+RETENTIONINDEX: 2257.5\n+PRECURSORMZ: 216.09326\n+PRECURSORTYPE: [M]+\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C17H12\n+INCHIKEY: HAPOJKSPCGLOOD-UHFFFAOYSA-N\n+INCHI: \n+SMILES: C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+COLLISIONENERGY: 70eV\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+INSTRUMENTTYPE: GC-EI-Orbitrap\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+Num Peaks: 21\n+93.52689\t122035\n+94.53471\t241743\n+95.03638\t42130\n+105.52688\t47526\n+106.53471\t171653\n+107.03639\t60004\n+107.5425\t180288\n+108.03385\t97471\n+163.05414\t68194\t"Theoretical m/z 163.054775, Mass diff 0 (0 ppm), Formula C13H7"\n+187.05412\t167183\t"Theoretical m/z 187.054775, Mass diff 0 (0 ppm), Formula C15H7"\n+188.06201\t86262\n+189.06975\t239421\t"Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9"\n+190.07321\t37778\n+211.05426\t117044\t"Theoretical m/z 211.054775, Mass diff 0 (0 ppm), Formula C17H7"\n+212.06215\t60813\n+213.0699\t808499\t"Theoretical m/z 213.070425, Mass diff 0 (0 ppm), Formula C17H9"\n+214.07317\t202222\n+215.0855\t3634570\t"Theoretical m/z 215.086075, Mass diff 0 (0 ppm), Formula C17H11"\n+216.09326\t2535030\t"Theoretical m/z 216.093354, Mass diff 0 (0.44 ppm), SMILES C=1C=CC=2C=C3C(=CC2C1)C=4C=CC=CC4C3, Annotation [C17H12]+, Rule of HR False"\n+217.09671\t444170\n+218.09999\t37976\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/similarity/recetox_gc-ei_ms_20201028.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/recetox_gc-ei_ms_20201028.msp Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,10214 @@\n+NAME: Perylene\r\n+SCANNUMBER: -1\r\n+RETENTIONTIME: -1\r\n+RETENTIONINDEX: 2886.9\r\n+PRECURSORMZ: 252.09323\r\n+PRECURSORTYPE: [M]+\r\n+IONMODE: Positive\r\n+SPECTRUMTYPE: Centroid\r\n+FORMULA: C20H12\r\n+INCHIKEY: CSHWQDPOILHKBI-UHFFFAOYSA-N\r\n+INCHI: \r\n+SMILES: C1=CC2=C3C(=C1)C1=CC=CC4=C1C(=CC=C4)C3=CC=C2\r\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\r\n+COLLISIONENERGY: 70eV\r\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\r\n+INSTRUMENTTYPE: GC-EI-Orbitrap\r\n+IONIZATION: EI+\r\n+LICENSE: CC BY-NC\r\n+COMMENT: \r\n+Num Peaks: 19\r\n+112.03071\t49892\r\n+113.03854\t87510\t"Theoretical m/z 113.039125, Mass diff 0 (0 ppm), Formula C9H5"\r\n+124.03076\t100146\r\n+124.53242\t24923\r\n+125.03855\t179254\t"Theoretical m/z 125.039125, Mass diff 0 (0 ppm), Formula C10H5"\r\n+125.54019\t49039\r\n+126.04636\t131679\r\n+126.54804\t36313\r\n+222.04645\t28905\r\n+224.06192\t55632\r\n+226.04175\t37413\r\n+246.04646\t23286\r\n+248.06204\t140007\r\n+249.07072\t62236\t"Theoretical m/z 249.070425, Mass diff -0.001 (0 ppm), Formula C20H9"\r\n+250.07765\t641789\r\n+251.07967\t137600\r\n+252.09323\t1955166\t"Theoretical m/z 252.093354, Mass diff 0 (0.49 ppm), SMILES C1=CC=2C=CC=C3C4=CC=CC5=CC=CC(C(=C1)C23)=C54, Annotation [C20H12]+, Rule of HR False"\r\n+253.09656\t402252\r\n+254.09985\t39987\r\n+\r\n+NAME: Phenanthrene\r\n+SCANNUMBER: -1\r\n+RETENTIONTIME: -1\r\n+RETENTIONINDEX: 1832.9\r\n+PRECURSORMZ: 178.0775\r\n+PRECURSORTYPE: [M]+\r\n+IONMODE: Positive\r\n+SPECTRUMTYPE: Centroid\r\n+FORMULA: C14H10\r\n+INCHIKEY: YNPNZTXNASCQKK-UHFFFAOYSA-N\r\n+INCHI: \r\n+SMILES: C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2\r\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\r\n+COLLISIONENERGY: 70eV\r\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\r\n+INSTRUMENTTYPE: GC-EI-Orbitrap\r\n+IONIZATION: EI+\r\n+LICENSE: CC BY-NC\r\n+COMMENT: \r\n+Num Peaks: 19\r\n+74.01508\t137808\t"Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2"\r\n+75.02295\t278714\t"Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3"\r\n+76.03075\t608417\t"Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4"\r\n+87.02295\t304266\t"Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3"\r\n+88.03076\t497050\t"Theoretical m/z 88.0313, Mass diff 0 (0 ppm), Formula C7H4"\r\n+89.03857\t441168\t"Theoretical m/z 89.039125, Mass diff 0 (0 ppm), Formula C7H5"\r\n+98.01511\t150478\r\n+150.04633\t868927\r\n+151.05415\t546351\t"Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7"\r\n+152.0619\t2275502\r\n+153.06528\t276320\r\n+169.06468\t272559\r\n+174.04636\t365846\r\n+175.05423\t272039\t"Theoretical m/z 175.054775, Mass diff 0 (0 ppm), Formula C14H7"\r\n+176.062\t3370523\t"Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8"\r\n+177.06982\t1751846\t"Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9"\r\n+178.0775\t13724432\t"Theoretical m/z 178.077698, Mass diff 0 (1.11 ppm), SMILES C=1C=CC2=C(C1)C=CC=3C=CC=CC32, Annotation [C14H10]+, Rule of HR False"\r\n+179.08078\t2250119\r\n+180.08412\t138203\r\n+\r\n+NAME: Anthracene\r\n+SCANNUMBER: -1\r\n+RETENTIONTIME: -1\r\n+RETENTIONINDEX: 1844.4\r\n+PRECURSORMZ: 178.07754\r\n+PRECURSORTYPE: [M]+\r\n+IONMODE: Positive\r\n+SPECTRUMTYPE: Centroid\r\n+FORMULA: C14H10\r\n+INCHIKEY: MWPLVEDNUUSJAV-UHFFFAOYSA-N\r\n+INCHI: \r\n+SMILES: C1=CC2=CC3=C(C=CC=C3)C=C2C=C1\r\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\r\n+COLLISIONENERGY: 70eV\r\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\r\n+INSTRUMENTTYPE: GC-EI-Orbitrap\r\n+IONIZATION: EI+\r\n+LICENSE: CC BY-NC\r\n+COMMENT: \r\n+Num Peaks: 21\r\n+74.0151\t117371\t"Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2"\r\n+75.02296\t245305\t"Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3"\r\n+76.03077\t632686\t"Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4"\r\n+87.02297\t236214\t"Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3"\r\n+88.03078\t347832\t"Theoretical m/z 88.0313, Mass diff 0 (0 ppm), Formula C7H4"\r\n+89.0386\t507288\t"Theoretical m/z 89.039125, Mass diff 0 (0 ppm), Formula C7H5"\r\n+91.05425\t130861\t"Theoretical m/z 91.054775, Mass diff 0 (0 ppm), Formula C7H7"\r\n+126.04636\t128356\r\n+149.04478\t126331\r\n+150.04637\t641829\r\n+1'..b'ES NC1=CC=CC=C1, Annotation [C6H7N-2H]+, Rule of HR False"\r\n+92.04941\t7277821\t"Theoretical m/z 92.049472, Mass diff 0 (0.68 ppm), SMILES NC1=CC=CC=C1, Annotation [C6H7N-H]+, Rule of HR True"\r\n+93.05727\t3978164\t"Theoretical m/z 93.057297, Mass diff 0 (0.3 ppm), SMILES NC1=CC=CC=C1, Annotation [C6H7N]+, Rule of HR False"\r\n+99.11674\t2328901\t"Theoretical m/z 99.117375, Mass diff 0 (0 ppm), Formula C7H15"\r\n+102.04636\t1350028\t"Theoretical m/z 102.046398, Mass diff 0 (0.38 ppm), SMILES C1=CC=C(C=C1)CC, Annotation [C8H10-4H]+, Rule of HR False"\r\n+103.05415\t17174370\t"Theoretical m/z 103.054223, Mass diff 0 (0.71 ppm), SMILES C1=CC=C(C=C1)CC, Annotation [C8H10-3H]+, Rule of HR True"\r\n+104.06195\t9726849\t"Theoretical m/z 104.062048, Mass diff 0 (0.95 ppm), SMILES C1=CC=C(C=C1)CC, Annotation [C8H10-2H]+, Rule of HR False"\r\n+105.06982\t8156076\t"Theoretical m/z 105.069873, Mass diff 0 (0.51 ppm), SMILES C1=CC=C(C=C1)CC, Annotation [C8H10-H]+, Rule of HR True"\r\n+106.06507\t1589715\t"Theoretical m/z 106.065128, Mass diff 0 (0.55 ppm), SMILES NCC1=CC=CC=C1, Annotation [C7H9N-H]+, Rule of HR True"\r\n+113.13237\t1360232\t"Theoretical m/z 113.133026, Mass diff 0 (0 ppm), Formula C8H17"\r\n+118.06498\t7179476\t"Theoretical m/z 118.065126, Mass diff 0 (1.23 ppm), SMILES NC(C1=CC=CC=C1)C, Annotation [C8H11N-3H]+, Rule of HR True"\r\n+119.06025\t1747935\t"Theoretical m/z 119.060373, Mass diff 0 (1.03 ppm), SMILES C1=CC=C(C=C1)NNC, Annotation [C7H10N2-3H]+, Rule of HR True"\r\n+121.01054\t6952288\t"Theoretical m/z 121.011196, Mass diff 0 (0 ppm), Formula C7H5S"\r\n+129.04457\t2381139\t"Theoretical m/z 129.045273, Mass diff 0 (0 ppm), Formula C8H5N2"\r\n+130.06502\t2036222\t"Theoretical m/z 130.065118, Mass diff 0 (0.75 ppm), SMILES N(=C)C(C1=CC=CC=C1)C, Annotation [C9H11N-3H]+, Rule of HR True"\r\n+131.06024\t1694144\t"Theoretical m/z 131.060923, Mass diff 0 (0 ppm), Formula C8H7N2"\r\n+132.05687\t5223785\r\n+133.06467\t1497173\t"Theoretical m/z 133.064792, Mass diff 0 (0.92 ppm), SMILES O=CC(C1=CC=CC=C1)C, Annotation [C9H10O-H]+, Rule of HR True"\r\n+146.05989\t1635793\t"Theoretical m/z 146.060037, Mass diff 0 (1.01 ppm), SMILES O=C(N)C(C1=CC=CC=C1)C, Annotation [C9H11NO-3H]+, Rule of HR True"\r\n+162.03708\t6358848\t"Theoretical m/z 162.037195, Mass diff 0 (0.71 ppm), SMILES N(=CS)C(C1=CC=CC=C1)C, Annotation [C9H11NS-3H]+, Rule of HR True"\r\n+163.03226\t2270290\t"Theoretical m/z 163.032994, Mass diff 0 (0 ppm), Formula C8H7N2S"\r\n+180.0806\t5085106\t"Theoretical m/z 180.08078, Mass diff 0 (-1 ppm), SMILES C1=CC2=CC3=C(C=CC=C3)[NH+]=C2C=C1, Annotation [C13H10N]+, Rule of HR True"\r\n+191.06355\t1931709\t"Theoretical m/z 191.063745, Mass diff 0 (1.02 ppm), SMILES N(=C(N)SC)C(C1=CC=CC=C1)C, Annotation [C10H14N2S-3H]+, Rule of HR True"\r\n+194.09631\t2147028\t"Theoretical m/z 194.096974, Mass diff 0 (0 ppm), Formula C14H12N"\r\n+195.09154\t2761186\r\n+206.07457\t32152276\t"Theoretical m/z 206.07464, Mass diff 0 (0.34 ppm), SMILES N(=C(NN)SC)C(C1=CC=CC=C1)C, Annotation [C10H15N3S-3H]+, Rule of HR True"\r\n+207.07802\t3378894\r\n+209.10724\t7216709\t"Theoretical m/z 209.107873, Mass diff 0 (0 ppm), Formula C14H13N2"\r\n+210.11507\t16279203\r\n+211.11832\t2385281\r\n+223.08647\t7150340\t"Theoretical m/z 223.086587, Mass diff 0 (0.53 ppm), SMILES O=C(NNC1=CC=CC=C1)CC2=CC=CC=C2, Annotation [C14H14N2O-3H]+, Rule of HR True"\r\n+237.10208\t73182472\t"Theoretical m/z 237.102243, Mass diff 0 (0.69 ppm), SMILES O=C(NNC1=CC=CC=C1)C(C2=CC=CC=C2)C, Annotation [C15H16N2O-3H]+, Rule of HR True"\r\n+238.10997\t95774784\r\n+239.11317\t16036299\r\n+240.11644\t1359291\r\n+253.06654\t1780430\t"Theoretical m/z 253.068711, Mass diff 0.002 (0 ppm), Formula C16H13OS"\r\n+268.09\t129797872\t"Theoretical m/z 268.090295, Mass diff 0 (1.1 ppm), SMILES N(=C(NNC1=CC=CC=C1)S)C(C2=CC=CC=C2)C, Annotation [C15H17N3S-3H]+, Rule of HR True"\r\n+269.09351\t20215544\r\n+270.08588\t6998940\r\n+283.11356\t8692036\r\n+284.11704\t1569478\r\n+311.10815\t1417036\t"Theoretical m/z 311.108674, Mass diff 0.001 (1.68 ppm), SMILES O=C3N(NC1=CC=CC=C1)C(=NC3(C2=CC=CC=C2)C)SC, Annotation [C17H17N3OS]+, Rule of HR False"\r\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/similarity/scores_test1_out.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/scores_test1_out.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "57", "compound_name": "C001", "retention_time": 38.74, "peaks_json": [[138.9121, 10186226.0], [148.9337, 1008656.0], [175.0641, 26780143.0], [186.1095, 2675456.0], [196.8658, 21390430.0], [198.8647, 21688594.0], [200.8848, 7742528.0], [206.9034, 26130980.0], [216.9205, 32607700.0], [234.0134, 2550129.0], [254.8252, 23747536.0], [256.8215, 31377637.0], [258.8237, 15532799.0], [266.8652, 9805546.0], [268.8537, 3090354.0], [306.9914, 3169316.0], [312.7841, 10051801.0], [316.7777, 10734168.0], [322.8157, 6317648.0], [324.9549, 8619910.0], [334.849, 4178412.0], [342.8093, 3285552.0], [349.9455, 2050695.0], [350.9875, 6150799.0], [351.941, 1965882.0], [366.8281, 3253770.0], [370.7418, 9765463.0], [372.7383, 19374863.0], [382.8218, 12815572.0], [384.8177, 8311500.0], [392.7685, 10913351.0], [413.2664, 3965867.0], [426.7772, 5431633.0], [428.7834, 8554675.0], [434.7287, 9943329.0], [436.8161, 3705247.0], [440.7322, 10603010.0], [442.7401, 8271752.0], [450.7016, 8762673.0], [460.7076, 4528973.0], [462.7862, 2123666.0], [484.7242, 4273989.0], [486.7743, 4886062.0], [488.6825, 12267966.0], [492.744, 7662344.0], [494.8953, 7188793.0], [498.8794, 6811405.0], [500.8484, 6520691.0], [502.7832, 3567833.0], [510.763, 4989757.0], [518.7415, 4243468.0], [546.6093, 7177067.0], [550.6949, 6104789.0], [566.5977, 5171811.0], [612.6927, 2005587.0], [676.6436, 1982714.0], [800.4451, 2792137.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "35", "compound_name": "C002", "retention_time": 520.25, "peaks_json": [[131.1733, 1971789.0], [267.2688, 6103973.0], [279.0196, 1946255.0], [289.6491, 46498377.0], [301.1565, 15185412.0], [309.1649, 18045974.0], [310.1623, 295359836.0], [311.1658, 13124727.0], [312.0296, 38757284.0], [330.6757, 12666597.0], [525.375, 1073323842.0], [526.3783, 181668883.0], [527.3812, 23642795.0], [551.3321, 111616808.0], [552.3348, 28340614.0], [553.3314, 2609936.0], [562.3269, 7538206.0], [578.2905, 7578406.0], [619.3008, 4742103.0], [624.296, 11790213.0], [813.5403, 25060147.0], [814.5336, 5865975.0], [955.1171, 2322927.0], [1047.7378, 150394804.0], [1048.7399, 90978863.0], [1049.7432, 29946438.0], [1050.7453, 6807767.0], [1069.7158, 5074652.0], [1074.1979, 3402288.0], [1075.1968, 33352763.0], [1076.2004, 10417953.0], [1101.6535, 2023916.0], [1206.3127, 3738816.0], [1216.8041, 4439324.0], [1217.807, 3565334.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "26", "compound_name": "C003", "retention_time": 483.67, "peaks_json": [[265.2529, 11366224.0], [266.2564, 1420444.0], [279.6362, 29849749.0], [280.6546, 8848921.0], [288.6414, 202172046.0], [378.2093, 15309961.0], [379.1966, 2902366.0], [522.3565, 4089569222.0], [523.354, 1201714423.0], [549.3267, 63300808.0], [576.2749, 7386007.0], [577.3074, 2354251.0], [617.2778, 2323470.0], [625.4543, 4040374.0], [796.9808, 13576738.0], [797.9841, 6368973.0], [809.9883, 12596682.0], [810.9916, 6601055.0], [1043.7028, 144351468.0], [1044.7068, 83271854.0], [1045.706, 27998321.0], [1046.7131, 6505178.0], [1058.1594, 20718345.0], [1059.1626, 6608764.0], [1071.1639, 15461047.0], [1072.1671, 5096642.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "24", "compound_name": "C004", "retention_time": 473.48, "peaks_json": [[124.1405, 6517662.0], [170.2437, 1237313.0], [275.6336, 28001849.0], [296.147, 190395687.0], [482.3247, 145772322.0], [483.3283, 36245876.0], [496.34, 12577588056.0], [497.3442, 3337125302.0], [498.3462, 532285213.0], [499.3493, 68176083.0], [770.964, 49250157.0], [771.9675, 22666873.0], [783.9721, 9839299.0], [784.9749, 3622908.0], [949.6233, 8009033.0], [950.6274, 3674694.0], [991.6726, 1420557258.0], [992.6749, 763118028.0], [993.6787, 239161906.0], [994.6801, 53549573.0], [1017.6897, 168186952.0], [1018.6656, 120599518.0], [1019.6555, 57647644.0], [1020.6591, 12469103.0]]}'..b'[637.164550513183, 3866368.0], [698.205944560218, 1919968.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "43", "compound_name": "C020", "retention_time": 687.99, "retention_index": 4135.089286, "peaks_json": [[109.052235628516, 1922885.0], [111.044058476785, 1730416.0], [133.064909307365, 1579533.0], [137.041722086745, 2474039.0], [194.053642118165, 5252308.0], [212.061782732582, 10437319.0], [267.034768010352, 4429084.0], [267.068824022318, 27744081.0], [268.069192256745, 2367920.0], [310.970568727813, 3126083.0], [311.004219192148, 2666091.0], [325.055731606087, 7634729.0], [327.965549188207, 5442532.0], [328.962716535303, 2722019.0], [339.03821058645, 6627839.0], [341.051986399316, 1671451.0], [342.996634492902, 3939816.0], [345.115297423962, 3938049.0], [358.067243216398, 3526875.0], [361.025211906011, 6516476.0], [388.003000430725, 3422825.0], [388.073272089579, 4224454.0], [399.005054559559, 4141766.0], [401.984326631505, 5585170.0], [402.98179623463, 3562508.0], [416.036473280551, 7221552.0], [417.033665098569, 4129234.0], [417.087073648909, 1945166.0], [418.994970709551, 2648178.0], [430.088321970134, 10765018.0], [431.085366629672, 6887942.0], [473.09370665615, 2502410.0], [475.002854889036, 2969642.0], [475.14184210128, 30625723.0], [477.070907310139, 2271450.0], [489.055479984185, 1973511.0], [503.107930410573, 2407435.0], [549.092119293556, 2513579.0], [552.160354111203, 1673065.0], [565.143723544965, 3485979.0], [610.132183060405, 1997085.0], [625.181479977537, 3872339.0], [697.202597429349, 2820429.0]]}], "n_row": 6, "n_col": 51, "row": [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5], "col": [1, 2, 10, 11, 12, 13, 15, 18, 20, 21, 22, 25, 32, 35, 36, 39, 40, 46, 47, 1, 2, 6, 12, 18, 20, 24, 25, 31, 33, 34, 36, 38, 39, 41, 42, 43, 44, 45, 49, 27, 30, 6, 10, 19, 21, 22, 31, 38, 1, 2, 5, 14, 15, 18, 20, 21, 22, 23, 24, 27, 40, 43, 49, 50, 28, 38], "data": [[0.0018399092347892974, 1], [0.0003737432507248734, 2], [0.002261095921649124, 1], [0.0006772781844061508, 1], [0.005210287483991151, 3], [0.0011367653250466707, 1], [0.0005519181707221115, 1], [0.0019222675998802402, 1], [0.006361969507425509, 2], [0.020274153669902494, 3], [0.017517104899474972, 1], [0.011955078756829818, 2], [0.011381869280662654, 2], [0.040543958124585944, 1], [0.0008178767212134002, 1], [0.005670274191001168, 1], [0.017313471143856486, 2], [0.0008514601258333194, 1], [0.026334935904595114, 1], [0.00039771420418687587, 1], [4.920409691033264e-05, 1], [0.0013688419859179705, 1], [0.0012932520287310416, 1], [0.0010350795213821488, 1], [0.005220131896413382, 2], [0.00041700791188063903, 2], [0.00042911042717726856, 3], [0.00810426228305399, 1], [0.0017914424466763802, 1], [0.000558207243274732, 1], [3.0727899170534577e-06, 1], [0.001200605516845171, 1], [0.016205568468406192, 3], [0.0003490131371939824, 1], [0.0012777731679730743, 1], [1.5186307992169529e-05, 1], [0.0009349245322469299, 3], [0.0002621230171312692, 1], [0.0004253169742294291, 1], [6.58229030248094e-05, 1], [2.446654442400292e-05, 1], [2.158432356442278e-05, 1], [1.042176430293052e-06, 1], [1.0756853043872807e-05, 2], [1.0328107820449307e-06, 1], [0.0011763296355585277, 1], [0.0015107038247838176, 2], [0.0005521035532025616, 1], [0.006960910397590913, 1], [0.008227393532896343, 3], [0.003108683139316554, 1], [0.007409589227651824, 1], [0.09234973475736206, 1], [0.022252246905890102, 4], [0.019737608617704024, 1], [0.00031096878396815933, 1], [0.0345091397314379, 1], [0.11775324981062069, 1], [0.28004814632763314, 3], [0.026281168576484135, 1], [0.0018303163274005687, 1], [0.0008172798650456041, 1], [0.06035755813969004, 3], [0.011673031727211581, 2], [1.9721604555814565e-05, 1], [0.00039664571613187715, 1]], "dtype": [["CosineGreedy_score", "<f8"], ["CosineGreedy_matches", "<i8"]]}\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/similarity/scores_test2_out.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/scores_test2_out.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "1161", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C4H10NO3PS", "inchikey": "YASYVMFAVPKPKE-SECBINFHSA-N", "smiles": "COP(=O)(N=C(O)C)SC", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "num_peaks": "16", "compound_name": "Acephate", "retention_time": 1.232997, "precursor_mz": 184.0194, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[90.09368, 1128.0], [93.11512, 1241.0], [95.10279, 1118.0], [101.31465, 1152.0], [102.90688, 1322.0], [103.98039, 1201.0], [112.01607, 12289.0], [112.99994, 38027.0], [115.00399, 1634.0], [124.98121, 922.0], [128.97701, 9208.0], [132.57193, 1350.0], [135.84808, 1428.0], [142.99275, 16419.0], [147.94205, 1750.0], [173.5094, 2353.0]]}, {"scannumber": "2257", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C12H11NO2", "inchikey": "CVXBEEMKQHEXEN-UHFFFAOYSA-N", "smiles": "CN=C(Oc1cccc2c1cccc2)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"145.06491": "Theoretical m/z 145.064787, Mass diff 0 (0.85 ppm), SMILES OC1=CC=CC=2C=CC=CC12, Annotation [C10H8O+H]+, Rule of HR True"}, "num_peaks": "1", "compound_name": "Carbaryl", "retention_time": 5.259445, "precursor_mz": 202.0863, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[145.06491, 1326147.0]]}, {"scannumber": "1516", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C8H16NO5P", "inchikey": "VEENJGZXVHKXNB-UHFFFAOYSA-N", "smiles": "COP(=O)(OC(=CC(=O)N(C)C)C)OC", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"112.07591": "Theoretical m/z 112.075687, Mass diff 0 (1.99 ppm), SMILES O=C(C=CC)N(C)C, Annotation [C6H11NO-H]+, Rule of HR True", "127.01563": "Theoretical m/z 127.01547, Mass diff 0 (1.26 ppm), SMILES O=P(O)(OC)OC, Annotation [C2H7O4P+H]+, Rule of HR True", "193.02605": "Theoretical m/z 193.026035, Mass diff 0 (0.08 ppm), SMILES O=CC=C(OP(=O)(OC)OC)C, Annotation [C6H11O5P-H]+, Rule of HR True", "238.08437": "Theoretical m/z 238.083891, Mass diff 0 (2.01 ppm), SMILES O=C(C=C(OP(=O)(OC)OC)C)N(C)C, Annotation [C8H16NO5P+H]+, Rule of HR True"}, "num_peaks": "5", "compound_name": "Dicrotophos", "retention_time": 2.025499, "precursor_mz": 238.0844, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[112.074, 102027.0], [112.07591, 9070987.0], [127.01563, 3230337.0], [193.02605, 7897744.0], [238.08437, 2973124.0]]}, {"scannumber": "1865", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C5H12NO3PS2", "inchikey": "MCWXGJITAZMZEV-UHFFFAOYSA-N", "smiles": "CN=C(CSP(=S)(OC)OC)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"88.0219": "Theoretical m/z 88.021549, Mass diff 0 (3.99 ppm), SMILES SCC=NC, Annotation [C3H7NS-H]+, Rule of HR True", "124.98233": "Theoretical m/z 124.982067, Mass diff 0 (2.11 ppm), SMILES S=P(OC)OC, Annotation [C2H7O2PS-H]+, Rule of HR True", "142.99275": "Theoretical m/z 142.993177, Mass diff 0 (0 ppm), Formula C2H8O3PS", "156.95422": "Theoretical m/z 156.954136, Mass diff 0 (0.54 ppm), SMILES S=P(S)(OC)OC, Annotation [C2H7O2PS2-H]+, Rule of HR True", "170.97": "Theoretical m/z 170.969791, Mass diff 0 (1.22 ppm), SMILES S=P(OC)(OC)SC, Annotation [C3H9O2PS2-H]+, Rule of HR True", "197.98123": "Theoretical m/z 197.980686, Mass diff 0.001 (2.75 ppm), SMILES S=P(OC)SCC(O)=NC, Annotation [C4H10NO2PS2-H]+, Rule of HR True", "198.96501": "Theoretical m/z 198'..b'04730671174696972, 3], [0.2905090298183795, 5], [0.0007786069695307855, 1], [0.0005160257799646218, 2], [0.00038736811468175473, 3], [0.004167449964456371, 2], [0.002043269072734401, 2], [0.0007317319771959746, 4], [1.9838321402668794e-05, 1], [8.801820482468617e-06, 1], [9.255871433471165e-05, 1], [0.00027188763979513214, 1], [4.4947603414879724e-05, 1], [0.009400379409723776, 2], [0.005755388742032419, 5], [0.0007186188027915625, 4], [0.0002820277712237843, 1], [0.0021840777388529727, 3], [0.0021623907785408305, 3], [0.0007283436921234106, 1], [0.0008441009586501761, 1], [0.0002073559764999649, 1], [0.0007416252801498897, 1], [0.00015068661266851979, 1], [8.813547345301928e-05, 1], [9.26696450737907e-05, 1], [0.001547967118838771, 1], [0.05550228874171714, 5], [0.02125475011618532, 3], [0.011654725377056363, 2], [0.048940875059941075, 1], [0.09674974767603109, 4], [0.00012831189436302386, 1], [0.01967432143668846, 1], [0.01205243016929935, 1], [0.0023135823935159366, 4], [0.005962405101607889, 3], [0.004500417483116905, 5], [0.29457761231941254, 5], [6.06340812854675e-05, 2], [0.0006948984533266634, 1], [0.0007187196610315783, 2], [0.001696224336237004, 4], [0.004199029365250834, 3], [5.80297555852376e-05, 2], [0.002157838608906188, 2], [0.0006784306910464165, 5], [2.6175190827127028e-05, 1], [5.3148579647693586e-05, 3], [0.002344175993704721, 2], [0.0007030269709451109, 2], [6.932179507489616e-05, 2], [0.009409539133589516, 4], [0.007853290243932564, 8], [0.0004251026224145782, 3], [0.004851525009980412, 3], [0.002316715000724008, 4], [0.0024536891814221423, 5], [0.0009568700243380552, 1], [1.2682782292908576e-05, 1], [0.00035372089119100686, 1], [0.00019532961465025935, 1], [0.0007449280704076819, 1], [0.0006070307887188872, 3], [0.008405179318406656, 2], [0.06059234768905473, 5], [0.04007587841437244, 7], [0.011192609898471699, 3], [0.05007411887473937, 1], [0.11083177441713818, 4], [0.00041472952800485167, 2], [0.0002443181917148464, 1], [0.018417594020478472, 1], [0.010756665957563824, 1], [0.015590543256883976, 2], [0.04566648744942041, 1], [5.931306182041711e-06, 1], [0.03353471802351476, 2], [0.0016641176911516493, 1], [0.011667998101389831, 2], [0.00013501455706461823, 2], [0.0005641822404665421, 1], [0.013565745106156183, 3], [0.0022081590773529217, 2], [2.755827193743529e-05, 1], [0.0007386957430155464, 1], [0.004966786726868895, 2], [0.0010661461087560196, 2], [0.001063292846857611, 1], [0.000606881881809848, 1], [0.002186896434193792, 1], [0.12865769017257328, 1], [0.028190890883599714, 4], [0.0005044163468766756, 1], [0.002886337967280529, 1], [0.0559715028711476, 1], [0.0002158797917780897, 1], [0.00620360880796666, 2], [0.0007355365822429641, 3], [0.0007942591768873767, 1], [0.00010209303249019821, 2], [0.00019287244985231734, 1], [0.00016324733223990588, 2], [9.721355793156336e-06, 1], [4.652016835129338e-05, 1], [0.019877538355056665, 1], [0.0021026011257930747, 1], [0.0008375181541441654, 3], [2.8019476783829662e-05, 1], [0.00126319178728046, 2], [0.033408666281750724, 1], [0.00022237422701605942, 1], [0.002265272552324613, 1], [0.000234866112352408, 1], [0.0009646911431102235, 2], [0.0001427118212822249, 1], [0.0015640758643172626, 1], [0.027845060459883365, 1], [0.0005869184307697094, 1], [0.002177606309783109, 1], [0.0011879375171201744, 2], [0.00024257932792313028, 2], [0.029015752159248828, 1], [0.012882620708157606, 1], [0.09087822963404141, 1], [0.016369110194600803, 2], [0.0009837491848604097, 1], [0.0010871277430062854, 1], [0.006379222433724256, 2], [0.07844880045683728, 1], [0.003552995338630374, 1], [0.00675497126450081, 1], [0.020492592767589624, 1], [0.0004882302811255579, 1], [0.03692178564115823, 1], [0.05107327151527259, 1], [0.0013454548424030402, 1], [0.00023077527573114648, 1], [0.0034920044529350115, 1], [0.05588674606358348, 1], [0.10402095547417871, 1], [0.004711174266112351, 1]], "dtype": [["CosineGreedy_score", "<f8"], ["CosineGreedy_matches", "<i8"]]}\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/similarity/scores_test3_out.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/scores_test3_out.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "57", "compound_name": "C001", "retention_time": 38.74, "peaks_json": [[138.9121, 10186226.0], [148.9337, 1008656.0], [175.0641, 26780143.0], [186.1095, 2675456.0], [196.8658, 21390430.0], [198.8647, 21688594.0], [200.8848, 7742528.0], [206.9034, 26130980.0], [216.9205, 32607700.0], [234.0134, 2550129.0], [254.8252, 23747536.0], [256.8215, 31377637.0], [258.8237, 15532799.0], [266.8652, 9805546.0], [268.8537, 3090354.0], [306.9914, 3169316.0], [312.7841, 10051801.0], [316.7777, 10734168.0], [322.8157, 6317648.0], [324.9549, 8619910.0], [334.849, 4178412.0], [342.8093, 3285552.0], [349.9455, 2050695.0], [350.9875, 6150799.0], [351.941, 1965882.0], [366.8281, 3253770.0], [370.7418, 9765463.0], [372.7383, 19374863.0], [382.8218, 12815572.0], [384.8177, 8311500.0], [392.7685, 10913351.0], [413.2664, 3965867.0], [426.7772, 5431633.0], [428.7834, 8554675.0], [434.7287, 9943329.0], [436.8161, 3705247.0], [440.7322, 10603010.0], [442.7401, 8271752.0], [450.7016, 8762673.0], [460.7076, 4528973.0], [462.7862, 2123666.0], [484.7242, 4273989.0], [486.7743, 4886062.0], [488.6825, 12267966.0], [492.744, 7662344.0], [494.8953, 7188793.0], [498.8794, 6811405.0], [500.8484, 6520691.0], [502.7832, 3567833.0], [510.763, 4989757.0], [518.7415, 4243468.0], [546.6093, 7177067.0], [550.6949, 6104789.0], [566.5977, 5171811.0], [612.6927, 2005587.0], [676.6436, 1982714.0], [800.4451, 2792137.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "35", "compound_name": "C002", "retention_time": 520.25, "peaks_json": [[131.1733, 1971789.0], [267.2688, 6103973.0], [279.0196, 1946255.0], [289.6491, 46498377.0], [301.1565, 15185412.0], [309.1649, 18045974.0], [310.1623, 295359836.0], [311.1658, 13124727.0], [312.0296, 38757284.0], [330.6757, 12666597.0], [525.375, 1073323842.0], [526.3783, 181668883.0], [527.3812, 23642795.0], [551.3321, 111616808.0], [552.3348, 28340614.0], [553.3314, 2609936.0], [562.3269, 7538206.0], [578.2905, 7578406.0], [619.3008, 4742103.0], [624.296, 11790213.0], [813.5403, 25060147.0], [814.5336, 5865975.0], [955.1171, 2322927.0], [1047.7378, 150394804.0], [1048.7399, 90978863.0], [1049.7432, 29946438.0], [1050.7453, 6807767.0], [1069.7158, 5074652.0], [1074.1979, 3402288.0], [1075.1968, 33352763.0], [1076.2004, 10417953.0], [1101.6535, 2023916.0], [1206.3127, 3738816.0], [1216.8041, 4439324.0], [1217.807, 3565334.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "26", "compound_name": "C003", "retention_time": 483.67, "peaks_json": [[265.2529, 11366224.0], [266.2564, 1420444.0], [279.6362, 29849749.0], [280.6546, 8848921.0], [288.6414, 202172046.0], [378.2093, 15309961.0], [379.1966, 2902366.0], [522.3565, 4089569222.0], [523.354, 1201714423.0], [549.3267, 63300808.0], [576.2749, 7386007.0], [577.3074, 2354251.0], [617.2778, 2323470.0], [625.4543, 4040374.0], [796.9808, 13576738.0], [797.9841, 6368973.0], [809.9883, 12596682.0], [810.9916, 6601055.0], [1043.7028, 144351468.0], [1044.7068, 83271854.0], [1045.706, 27998321.0], [1046.7131, 6505178.0], [1058.1594, 20718345.0], [1059.1626, 6608764.0], [1071.1639, 15461047.0], [1072.1671, 5096642.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "24", "compound_name": "C004", "retention_time": 473.48, "peaks_json": [[124.1405, 6517662.0], [170.2437, 1237313.0], [275.6336, 28001849.0], [296.147, 190395687.0], [482.3247, 145772322.0], [483.3283, 36245876.0], [496.34, 12577588056.0], [497.3442, 3337125302.0], [498.3462, 532285213.0], [499.3493, 68176083.0], [770.964, 49250157.0], [771.9675, 22666873.0], [783.9721, 9839299.0], [784.9749, 3622908.0], [949.6233, 8009033.0], [950.6274, 3674694.0], [991.6726, 1420557258.0], [992.6749, 763118028.0], [993.6787, 239161906.0], [994.6801, 53549573.0], [1017.6897, 168186952.0], [1018.6656, 120599518.0], [1019.6555, 57647644.0], [1020.6591, 12469103.0]]}'..b'312.986211377174, 2448284.0], [313.019993142226, 1479514.0], [326.982724315442, 4863722.0], [344.975776862771, 10267994.0], [345.976092174038, 3016933.0], [346.046486912175, 1754291.0], [346.973191534072, 1590963.0], [382.97408022551, 1514772.0], [386.969422084375, 2096957.0], [402.964369782575, 1172149.0], [493.152823320977, 2513229.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "57", "compound_name": "C012", "retention_time": 687.83, "retention_index": 4134.613095, "peaks_json": [[78.0419846383593, 1742200.0], [79.0497716096318, 1893817.0], [85.0284186196566, 2191757.0], [121.046741626167, 6162741.0], [142.078087888737, 3381352.0], [192.997735629267, 9539743.0], [195.029110650825, 3772846.0], [205.016711322548, 5926636.0], [207.066696618797, 3714385.0], [209.098935410027, 6173585.0], [213.05754958053, 13341991.0], [219.06802937228, 2601724.0], [253.016653119059, 43935840.0], [269.047850642358, 4644691.0], [271.027137265637, 6759639.0], [281.085992168442, 2140320.0], [284.047997947258, 8403825.0], [311.073606748707, 3371803.0], [313.113777264345, 2391990.0], [325.985953604199, 8513850.0], [327.03525664153, 49155384.0], [328.035343658, 13109000.0], [329.014530869431, 3595462.0], [331.063707530223, 2063612.0], [343.084122931946, 3769846.0], [345.046169172075, 8812838.0], [353.090427317747, 2832675.0], [359.09769204202, 9873384.0], [360.028136457829, 10686927.0], [360.169639740951, 3818378.0], [371.040514349465, 1472266.0], [387.002413998209, 12940469.0], [387.071825807939, 15096984.0], [389.068871345424, 1810336.0], [402.055174276849, 12479459.0], [404.05195192305, 1405422.0], [458.971973456131, 1214840.0], [459.041861218696, 1286084.0], [460.952039584771, 4371596.0], [461.021207128847, 2869881.0], [461.090256355859, 17842323.0], [461.951796665319, 1222018.0], [462.091555156095, 6970195.0], [463.088708091285, 2556050.0], [475.072310244956, 13564752.0], [476.003821454759, 1471505.0], [476.143434019655, 13026182.0], [477.140480798609, 4944561.0], [478.141485242814, 1506934.0], [479.101672410454, 3603024.0], [490.12632015072, 18188437.0], [491.122346777972, 10290558.0], [549.162553092955, 24746614.0], [563.144239233773, 12735845.0], [624.183209223215, 7134906.0], [637.164550513183, 3866368.0], [698.205944560218, 1919968.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "43", "compound_name": "C020", "retention_time": 687.99, "retention_index": 4135.089286, "peaks_json": [[109.052235628516, 1922885.0], [111.044058476785, 1730416.0], [133.064909307365, 1579533.0], [137.041722086745, 2474039.0], [194.053642118165, 5252308.0], [212.061782732582, 10437319.0], [267.034768010352, 4429084.0], [267.068824022318, 27744081.0], [268.069192256745, 2367920.0], [310.970568727813, 3126083.0], [311.004219192148, 2666091.0], [325.055731606087, 7634729.0], [327.965549188207, 5442532.0], [328.962716535303, 2722019.0], [339.03821058645, 6627839.0], [341.051986399316, 1671451.0], [342.996634492902, 3939816.0], [345.115297423962, 3938049.0], [358.067243216398, 3526875.0], [361.025211906011, 6516476.0], [388.003000430725, 3422825.0], [388.073272089579, 4224454.0], [399.005054559559, 4141766.0], [401.984326631505, 5585170.0], [402.98179623463, 3562508.0], [416.036473280551, 7221552.0], [417.033665098569, 4129234.0], [417.087073648909, 1945166.0], [418.994970709551, 2648178.0], [430.088321970134, 10765018.0], [431.085366629672, 6887942.0], [473.09370665615, 2502410.0], [475.002854889036, 2969642.0], [475.14184210128, 30625723.0], [477.070907310139, 2271450.0], [489.055479984185, 1973511.0], [503.107930410573, 2407435.0], [549.092119293556, 2513579.0], [552.160354111203, 1673065.0], [565.143723544965, 3485979.0], [610.132183060405, 1997085.0], [625.181479977537, 3872339.0], [697.202597429349, 2820429.0]]}], "n_row": 6, "n_col": 51, "row": [], "col": [], "data": [], "dtype": [["CosineHungarian_score", "<f8"], ["CosineHungarian_matches", "<i8"], ["MetadataMatch_MetadataMatch", "<f8"]]}\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/similarity/scores_test4_out.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/scores_test4_out.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": true, "references": [{"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C20H12", "inchikey": "CSHWQDPOILHKBI-UHFFFAOYSA-N", "smiles": "C1=CC2=C3C(=C1)C1=CC=CC4=C1C(=CC=C4)C3=CC=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"113.03854": "Theoretical m/z 113.039125, Mass diff 0 (0 ppm), Formula C9H5", "125.03855": "Theoretical m/z 125.039125, Mass diff 0 (0 ppm), Formula C10H5", "249.07072": "Theoretical m/z 249.070425, Mass diff -0.001 (0 ppm), Formula C20H9", "252.09323": "Theoretical m/z 252.093354, Mass diff 0 (0.49 ppm), SMILES C1=CC=2C=CC=C3C4=CC=CC5=CC=CC(C(=C1)C23)=C54, Annotation [C20H12]+, Rule of HR False"}, "num_peaks": "19", "compound_name": "Perylene", "retention_time": null, "retention_index": 2886.9, "precursor_mz": 252.09323, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[112.03071, 49892.0], [113.03854, 87510.0], [124.03076, 100146.0], [124.53242, 24923.0], [125.03855, 179254.0], [125.54019, 49039.0], [126.04636, 131679.0], [126.54804, 36313.0], [222.04645, 28905.0], [224.06192, 55632.0], [226.04175, 37413.0], [246.04646, 23286.0], [248.06204, 140007.0], [249.07072, 62236.0], [250.07765, 641789.0], [251.07967, 137600.0], [252.09323, 1955166.0], [253.09656, 402252.0], [254.09985, 39987.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"74.01508": "Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2", "75.02295": "Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3", "76.03075": "Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4", "87.02295": "Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3", "88.03076": "Theoretical m/z 88.0313, Mass diff 0 (0 ppm), Formula C7H4", "89.03857": "Theoretical m/z 89.039125, Mass diff 0 (0 ppm), Formula C7H5", "151.05415": "Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7", "175.05423": "Theoretical m/z 175.054775, Mass diff 0 (0 ppm), Formula C14H7", "176.062": "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8", "177.06982": "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9", "178.0775": "Theoretical m/z 178.077698, Mass diff 0 (1.11 ppm), SMILES C=1C=CC2=C(C1)C=CC=3C=CC=CC32, Annotation [C14H10]+, Rule of HR False"}, "num_peaks": "19", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.01508, 137808.0], [75.02295, 278714.0], [76.03075, 608417.0], [87.02295, 304266.0], [88.03076, 497050.0], [89.03857, 441168.0], [98.01511, 150478.0], [150.04633, 868927.0], [151.05415, 546351.0], [152.0619, 2275502.0], [153.06528, 276320.0], [169.06468, 272559.0], [174.04636, 365846.0], [175.05423, 272039.0], [176.062, 3370523.0], [177.06982, 1751846.0], [178.0775, 13724432.0], [179.08078, 2250119.0], [180.08412, 138203.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"74.0151": "Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2", "75.02296": "Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3", "76.03077": "Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4", "87.02'..b', 6], [0.000849016367431184, 1], [0.1164944277710488, 27], [0.013509973424897055, 10], [0.03985367849716299, 8], [0.0012060403391046337, 3], [0.11935916738712983, 12], [0.0019639190156446325, 4], [0.0013748628337669718, 5], [0.0317854774013463, 1], [0.1558977110222132, 19], [0.014345386694957156, 8], [0.015208293160793463, 7], [0.004975840661608583, 4], [0.028830083229516423, 5], [0.0012552816488229767, 4], [0.21426428394497732, 19], [0.009096654439736741, 2], [0.1079410688788675, 23], [0.006130350456356002, 8], [0.007640564541242704, 3], [0.9999999999999988, 48], [0.021945212693018183, 14], [0.003528882271834487, 1], [0.015071423169004209, 4], [0.01752672237557547, 4], [0.0012278672124513919, 1], [0.02457732872594147, 3], [0.028089820111006143, 3], [0.020559718677529624, 5], [0.005829674957204082, 3], [0.0015946384059203665, 2], [0.010535580085179396, 2], [0.007238048072503043, 2], [0.004927768302894852, 2], [0.0071872334678916685, 2], [0.07913720198135349, 3], [0.06304990188039904, 5], [0.006318930777064041, 3], [0.07368259593632372, 6], [0.008442291915136306, 5], [0.00699968309054316, 7], [0.07019719341011542, 9], [0.2398882344714446, 20], [0.0229385340033579, 6], [0.01487726657821838, 6], [0.004929592584065554, 5], [0.014094580531893271, 3], [0.005184721153651502, 3], [0.02402038383021682, 7], [0.005598808948450314, 8], [0.006086228481598814, 7], [0.005641055153174164, 7], [0.0059533976604853696, 8], [0.0012026254671697182, 1], [0.00481561807356803, 1], [0.0008733064074341988, 3], [0.02926724665280256, 9], [0.03973174515467047, 4], [0.0017110803566769432, 2], [0.0004537488222312789, 1], [0.0008768839784626263, 2], [0.002078720093069269, 3], [0.15068343708487614, 5], [0.004534614144447201, 6], [0.0005040922793645043, 2], [0.0006132574916066991, 2], [0.0006023439826045464, 2], [0.0009962252275582525, 2], [0.0007132215414105701, 1], [0.003941192991095589, 3], [0.0032602230184353796, 4], [0.003902911013387605, 3], [0.0028816112771112476, 3], [0.004129652769687335, 4], [0.02063893548098056, 6], [0.0636896775821581, 18], [0.004385623187808619, 8], [0.0037438584101095406, 3], [0.01457741637519401, 10], [0.01998288532279959, 5], [0.016943871184680423, 3], [0.020485320040871696, 12], [6.285139330345371e-05, 1], [0.01577650392972678, 12], [0.011702041332335697, 2], [0.010479081997924272, 3], [0.0026839418346610074, 4], [0.005168753640460431, 7], [0.02538556396055245, 8], [0.008017165415374613, 6], [0.004129170239233964, 2], [0.048329475132303006, 9], [0.00434534268029665, 5], [0.0336080987239482, 12], [0.037158313842249, 12], [0.029034992247889045, 6], [0.08565057856307288, 16], [0.10145493598365102, 13], [0.018538092241168595, 9], [0.09931273097453466, 12], [0.06070353397555056, 14], [0.002741342514267584, 9], [0.00460623189175496, 6], [0.013560322081058994, 12], [0.012723588396856826, 11], [0.0014932550806373572, 2], [0.007463259062288398, 4], [0.1412047674540015, 8], [0.003501755080485208, 3], [0.01046473315565069, 5], [0.0003965607968942006, 1], [0.20590013512001082, 7], [0.35784239189966305, 8], [0.04127530460264906, 3], [0.4549680796955883, 5], [0.023153444567903744, 5], [0.014791952326994103, 7], [0.033972430110607105, 7], [0.3711542904483082, 10], [0.03604508634054142, 6], [0.04706388584812521, 6], [0.058857146107057945, 5], [0.001747548159513367, 5], [0.044272293314883686, 3], [0.04061042591948574, 11], [0.052801064317870655, 8], [0.03570076858640123, 5], [0.09776996663893509, 6], [0.04001833146441783, 15], [0.0014714555648693989, 4], [0.0004504195432699507, 4], [0.11173292584219889, 10], [0.00309658302518114, 7], [0.011345966685709261, 11], [0.015934410043558587, 7], [0.014135762445538736, 5], [0.001702586530993099, 3], [0.0021231289122006507, 7], [0.0022815011051092924, 2], [0.3391095176584686, 16], [0.0166891482966783, 15], [0.002867840748348977, 2], [0.021945212693018183, 14], [0.9999999999999996, 47]], "dtype": [["NeutralLossesCosine_score", "<f8"], ["NeutralLossesCosine_matches", "<i8"]]}\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/similarity/scores_test5_out.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/scores_test5_out.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": true, "references": [{"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C20H12", "inchikey": "CSHWQDPOILHKBI-UHFFFAOYSA-N", "smiles": "C1=CC2=C3C(=C1)C1=CC=CC4=C1C(=CC=C4)C3=CC=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"113.03854": "Theoretical m/z 113.039125, Mass diff 0 (0 ppm), Formula C9H5", "125.03855": "Theoretical m/z 125.039125, Mass diff 0 (0 ppm), Formula C10H5", "249.07072": "Theoretical m/z 249.070425, Mass diff -0.001 (0 ppm), Formula C20H9", "252.09323": "Theoretical m/z 252.093354, Mass diff 0 (0.49 ppm), SMILES C1=CC=2C=CC=C3C4=CC=CC5=CC=CC(C(=C1)C23)=C54, Annotation [C20H12]+, Rule of HR False"}, "num_peaks": "19", "compound_name": "Perylene", "retention_time": null, "retention_index": 2886.9, "precursor_mz": 252.09323, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[112.03071, 49892.0], [113.03854, 87510.0], [124.03076, 100146.0], [124.53242, 24923.0], [125.03855, 179254.0], [125.54019, 49039.0], [126.04636, 131679.0], [126.54804, 36313.0], [222.04645, 28905.0], [224.06192, 55632.0], [226.04175, 37413.0], [246.04646, 23286.0], [248.06204, 140007.0], [249.07072, 62236.0], [250.07765, 641789.0], [251.07967, 137600.0], [252.09323, 1955166.0], [253.09656, 402252.0], [254.09985, 39987.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"74.01508": "Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2", "75.02295": "Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3", "76.03075": "Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4", "87.02295": "Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3", "88.03076": "Theoretical m/z 88.0313, Mass diff 0 (0 ppm), Formula C7H4", "89.03857": "Theoretical m/z 89.039125, Mass diff 0 (0 ppm), Formula C7H5", "151.05415": "Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7", "175.05423": "Theoretical m/z 175.054775, Mass diff 0 (0 ppm), Formula C14H7", "176.062": "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8", "177.06982": "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9", "178.0775": "Theoretical m/z 178.077698, Mass diff 0 (1.11 ppm), SMILES C=1C=CC2=C(C1)C=CC=3C=CC=CC32, Annotation [C14H10]+, Rule of HR False"}, "num_peaks": "19", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.01508, 137808.0], [75.02295, 278714.0], [76.03075, 608417.0], [87.02295, 304266.0], [88.03076, 497050.0], [89.03857, 441168.0], [98.01511, 150478.0], [150.04633, 868927.0], [151.05415, 546351.0], [152.0619, 2275502.0], [153.06528, 276320.0], [169.06468, 272559.0], [174.04636, 365846.0], [175.05423, 272039.0], [176.062, 3370523.0], [177.06982, 1751846.0], [178.0775, 13724432.0], [179.08078, 2250119.0], [180.08412, 138203.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"74.0151": "Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2", "75.02296": "Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3", "76.03077": "Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4", "87.02'..b'0], [0.0028730971640638244, 4, 1.0], [0.0031611093785701995, 3, 1.0], [0.07809000356411269, 24, 1.0], [0.011339523303273511, 11, 1.0], [0.1816760057075885, 45, 1.0], [0.015161639879948667, 10, 1.0], [0.02217259430184349, 14, 1.0], [0.03016187459010991, 15, 1.0], [0.05429349969259654, 20, 1.0], [0.21156692241257447, 22, 1.0], [0.06330592536098255, 20, 1.0], [0.37756373251668857, 22, 1.0], [0.1824545636663668, 17, 1.0], [0.9999999999999989, 61, 1.0], [0.03487408174852443, 18, 1.0], [0.0031530335453573023, 5, 1.0], [0.07421964444934627, 14, 1.0], [0.0072896351039373666, 8, 1.0], [0.02223307394055662, 14, 1.0], [0.02257124600169508, 16, 1.0], [0.027963268346603974, 17, 1.0], [0.023381830669040555, 9, 1.0], [0.026962291591070775, 11, 1.0], [0.01658660054533858, 7, 1.0], [0.010178493180153044, 13, 1.0], [0.37373952662816223, 18, 1.0], [0.9999999999999998, 37, 1.0], [0.02777631464351049, 12, 1.0], [0.1447639137740579, 24, 1.0], [0.03147233467542128, 17, 1.0], [0.03668676267612972, 14, 1.0], [0.020961417223860423, 6, 1.0], [0.014547506975992702, 7, 1.0], [0.7165448092914788, 27, 1.0], [0.7077717691138634, 26, 1.0], [0.14841215335964056, 22, 1.0], [0.9999999999999986, 49, 1.0], [0.15478920576000488, 8, 1.0], [0.1525091787681603, 8, 1.0], [1.0, 75, 1.0], [0.013960480414345186, 7, 1.0], [0.012898053940131163, 5, 1.0], [0.02934740784150951, 10, 1.0], [0.048383174738395124, 26, 1.0], [0.015570817504218529, 16, 1.0], [0.029506747379838084, 20, 1.0], [0.01039090462946715, 18, 1.0], [0.012832752777152854, 19, 1.0], [0.0372296294007929, 21, 1.0], [0.19471605273580178, 18, 1.0], [0.022182739554052363, 10, 1.0], [0.09428821665388754, 36, 1.0], [0.03487408174852443, 18, 1.0], [1.0, 57, 1.0], [0.3581452270515483, 19, 1.0], [0.02692737752602113, 29, 1.0], [0.015614695013710414, 5, 1.0], [0.5621299506007804, 15, 1.0], [0.5899393930827314, 16, 1.0], [0.009549214615669823, 6, 1.0], [0.013182084190193821, 10, 1.0], [0.013450993184542724, 14, 1.0], [0.0012715157671517663, 3, 1.0], [0.0025645094667376784, 5, 1.0], [0.08804375656589408, 25, 1.0], [0.01220117358353883, 13, 1.0], [0.013115830082688965, 8, 1.0], [1.0, 35, 1.0], [0.04168219452723639, 18, 1.0], [0.13815332243425266, 5, 1.0], [0.1454824342075702, 12, 1.0], [0.09634874816811735, 6, 1.0], [0.0908731699433544, 18, 1.0], [0.0714806286065652, 14, 1.0], [0.0685535992926502, 14, 1.0], [0.0011191911101418256, 3, 1.0], [0.259743494306901, 29, 1.0], [0.3581452270515483, 19, 1.0], [1.0, 60, 1.0], [0.024836905223525062, 25, 1.0], [0.06659189766227433, 8, 1.0], [0.033368714192638226, 6, 1.0], [0.029776983139679143, 8, 1.0], [0.014386598516398983, 7, 1.0], [0.0174029922991385, 14, 1.0], [0.13635394439889434, 22, 1.0], [0.07045920127432331, 31, 1.0], [0.02692737752602113, 29, 1.0], [0.024836905223525062, 25, 1.0], [1.0, 82, 1.0], [0.038530836114745656, 12, 1.0], [0.37715574987564204, 6, 1.0], [0.21925449641312258, 4, 1.0], [0.2897578505717055, 5, 1.0], [0.18214368073680545, 10, 1.0], [0.17367471503469017, 10, 1.0], [0.01802858781741649, 7, 1.0], [0.057634459588011146, 11, 1.0], [0.06659189766227433, 8, 1.0], [0.038530836114745656, 12, 1.0], [0.9999999999999997, 20, 1.0], [0.13338495790962168, 9, 1.0], [0.13394438395989552, 14, 1.0], [0.08015473107805055, 15, 1.0], [0.1041070691955264, 16, 1.0], [0.0982258184690084, 14, 1.0], [0.04243089164102407, 20, 1.0], [0.14167032653965456, 22, 1.0], [0.06118585359929772, 10, 1.0], [0.27102141235736116, 36, 1.0], [0.01967212182056244, 9, 1.0], [0.04168219452723639, 18, 1.0], [0.9999999999999988, 51, 1.0], [0.02253416942501213, 12, 1.0], [0.018822784115202575, 20, 1.0], [0.007606153593747367, 13, 1.0], [0.0067533077336432434, 11, 1.0], [0.030397959311646662, 10, 1.0], [0.020386018142265136, 6, 1.0], [0.05336186216280011, 22, 1.0], [0.018724366773580196, 14, 1.0], [0.016595252772073396, 11, 1.0], [0.9999999999999994, 48, 1.0]], "dtype": [["ModifiedCosine_score", "<f8"], ["ModifiedCosine_matches", "<i8"], ["MetadataMatch_MetadataMatch", "<f8"]]}\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/similarity/scores_test6_out.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/scores_test6_out.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C20H12", "inchikey": "CSHWQDPOILHKBI-UHFFFAOYSA-N", "smiles": "C1=CC2=C3C(=C1)C1=CC=CC4=C1C(=CC=C4)C3=CC=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "compound_name": "Perylene", "retention_time": null, "retention_index": 2886.9, "precursor_mz": 252.09323, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "charge": 1, "parent_mass": "251.08595400000002", "peak_comments": {"252.09323": "Theoretical m/z 252.093354, Mass diff 0 (0.49 ppm), SMILES C1=CC=2C=CC=C3C4=CC=CC5=CC=CC(C(=C1)C23)=C54, Annotation [C20H12]+, Rule of HR False"}, "num_peaks": "3", "peaks_json": [[250.07765, 0.3282529462971431], [252.09323, 1.0], [253.09656, 0.20573802940517583]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "charge": 1, "parent_mass": "177.070224", "peak_comments": {"176.062": "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8", "177.06982": "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9", "178.0775": "Theoretical m/z 178.077698, Mass diff 0 (1.11 ppm), SMILES C=1C=CC2=C(C1)C=CC=3C=CC=CC32, Annotation [C14H10]+, Rule of HR False"}, "num_peaks": "5", "peaks_json": [[152.0619, 0.1657993569424221], [176.062, 0.24558560966311757], [177.06982, 0.12764433529926775], [178.0775, 1.0], [179.08078, 0.16394988149600653]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "compound_name": "Anthracene", "retention_time": null, "retention_index": 1844.4, "precursor_mz": 178.07754, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "charge": 1, "parent_mass": "177.070264", "peak_comments": {"176.06204": "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8", "177.06984": "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9", "178.07754": "Theoretical m/z 178.077698, Mass diff 0 (0.89 ppm), SMILES C=1C=CC=2C=C3C=CC=CC3=CC2C1, Annotation [C14H10]+, Rule of HR False"}, "num_peaks": "5", "peaks_json": [[152.06195, 0.12450313104470498], [176.06204, 0.23295403420236208], [177.06984, 0.1074344883724439], [178.07754, 1.0], [179.08081, 0.1616741186784917]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C12H10", "inchikey": "CWRYPZZKDGJXCA-UHFFFAOYSA-N", "smiles": "C1CC2=C3C1=CC=CC3=CC=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "compound_name": "Acenaphthene", "retention_time": null, "retention_index": 1528.3, "precursor_mz": 154.07741, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "charge": 1, "parent_mass": "153.070134", "peak_comments": {"151.05418": "Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7", "153.06969": "Theoretical m/z 153.070425, Mass diff 0 (0 ppm), Formula C12H9", "154.07741": "Theoretical m/z 154.077698, Mass diff 0 (1.87 ppm), SMILES C=1C=C2C=CC=C3C2=C(C1)CC3, Annotation [C12H10]+, Rule of HR False"}, "num_peaks":'..b'3571], [0.9999464985595178], [0.9983642259145018], [NaN], [0.9996316844668668], [0.9999542690012959], [NaN], [0.9998245426662409], [0.9997364568307842], [0.9997735798049295], [0.9996654397532749], [0.9997923756137315], [0.999912245790554], [0.9998701992229159], [0.999781682959307], [NaN], [0.99529023985623], [0.9998592622149366], [NaN], [NaN], [0.9999038378779087], [0.9999132718651947], [0.9999142600200961], [NaN], [NaN], [0.9992484984999064], [0.9995110849280047], [0.9997750504505448], [0.9998588584364331], [0.9989628259377954], [0.9898280884915263], [0.9998951101778284], [0.9898280884915263], [0.9999618871028408], [NaN], [NaN], [0.9999362434563842], [0.9998725838556388], [0.984393816377787], [0.99970443337848], [NaN], [0.999380728291137], [0.9998125632453353], [0.9999473853785144], [0.94908958225869], [0.9991907180362392], [NaN], [NaN], [0.9994831784037066], [0.9999677393228757], [0.9998596562322185], [0.9999375194207889], [0.9999584680876085], [0.9983578927758774], [NaN], [0.9996951658582455], [0.9999585131388838], [NaN], [0.9998601209446164], [0.9997745137959851], [0.9998351602923499], [0.9997076628523763], [0.9994869053563313], [0.9994944796049474], [0.9994941407460937], [0.9993385894518629], [NaN], [0.9948662923964178], [0.9994358040220748], [NaN], [NaN], [0.9995138496782932], [0.9995077589917967], [0.9995075311681797], [NaN], [NaN], [0.9988003735013843], [0.9991747907307302], [0.999357120825865], [0.9994937916217865], [0.9984278684869906], [0.9897162056647042], [0.9995553478015445], [0.9897162056647042], [0.9995145376243078], [NaN], [NaN], [0.9995246454304472], [0.9995153899446758], [0.9840526612713875], [0.9992069303963274], [NaN], [0.9990681218533939], [0.9994101746307932], [0.9995850762152261], [0.9485998113289814], [0.9988379636842973], [NaN], [NaN], [0.9990398774583397], [0.9995726060987724], [0.9995192983088126], [0.9995475522523255], [0.9995651680240067], [0.9978372205622434], [NaN], [0.9991857747541117], [0.9995496787385805], [NaN], [0.9995071636897385], [0.9993516545467516], [0.9995358199867375], [0.9993756370899921], [0.9997662482266795], [0.9999013201496058], [0.9998649550162513], [0.9998003193259], [NaN], [0.9952760361955323], [0.99988038823652], [NaN], [NaN], [0.9999377870503044], [0.9999141068562202], [0.9998913299590001], [NaN], [NaN], [0.9992510085344742], [0.9995087614702506], [0.9997323798269362], [0.9998608591987697], [0.9989186796697854], [0.9897845390380728], [0.99989853546258], [0.9897845390380728], [0.9999567066241181], [NaN], [NaN], [0.9999482191802924], [0.999837722550108], [0.9841469579520772], [0.9996730115110646], [NaN], [0.9993695967578718], [0.999796207884433], [0.99994177874344], [0.9488472657496483], [0.9992368053168589], [NaN], [NaN], [0.9994652797475879], [0.9999811693669933], [0.9998769023518711], [0.9999614382073735], [0.9999758890396705], [0.9983488148091332], [NaN], [0.9996554995037683], [0.9999799868507474], [NaN], [0.9998464865455944], [0.9997796870446739], [0.9998124120745346], [0.9996721831639394], [0.9997159737177734], [0.9998425835552229], [0.9997738954768802], [0.9997384287559777], [NaN], [0.99503831060259], [0.9998272983524823], [NaN], [NaN], [0.9998476409571172], [0.99985379981183], [0.9998471290672308], [NaN], [NaN], [0.9991262730803138], [0.9994013124892798], [0.9996784525190312], [0.9997875393701275], [0.998796945320568], [0.9896772306229431], [0.9998348062244541], [0.9896772306229431], [0.9998902057959875], [NaN], [NaN], [0.9998717707397411], [0.9997884260466356], [0.9840830163294169], [0.9996362358769302], [NaN], [0.9993784839076436], [0.9997847076532577], [0.9998824540484057], [0.9485187570164813], [0.9992064260434625], [NaN], [NaN], [0.9993862193285787], [0.9999008441637385], [0.9997750495070409], [0.9998773803465455], [0.9999067283403638], [0.9983396867282632], [NaN], [0.9995548183132255], [0.9999149470856479], [NaN], [0.9998194813791971], [0.9996814971185987], [0.9997352261644801], [0.9996327736886663]], "dtype": [["Spec2Vec", "<f8"]]}\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/similarity/spec2vec/inp_filtered_library.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/spec2vec/inp_filtered_library.msp Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,4205 @@\n+SCANNUMBER: -1\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C20H12\n+INCHIKEY: CSHWQDPOILHKBI-UHFFFAOYSA-N\n+SMILES: C1=CC2=C3C(=C1)C1=CC=CC4=C1C(=CC=C4)C3=CC=C2\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Perylene\n+RETENTION_TIME: None\n+RETENTION_INDEX: 2886.9\n+PRECURSOR_MZ: 252.09323\n+ADDUCT: [M]+\n+COLLISION_ENERGY: 70eV\n+INSTRUMENT_TYPE: GC-EI-Orbitrap\n+CHARGE: 1\n+PARENT_MASS: 251.08595400000002\n+NUM PEAKS: 3\n+250.07765   0.3282529462971431\n+252.09323   1.0         "Theoretical m/z 252.093354, Mass diff 0 (0.49 ppm), SMILES C1=CC=2C=CC=C3C4=CC=CC5=CC=CC(C(=C1)C23)=C54, Annotation [C20H12]+, Rule of HR False"\n+253.09656   0.20573802940517583\n+\n+SCANNUMBER: -1\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C14H10\n+INCHIKEY: YNPNZTXNASCQKK-UHFFFAOYSA-N\n+SMILES: C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Phenanthrene\n+RETENTION_TIME: None\n+RETENTION_INDEX: 1832.9\n+PRECURSOR_MZ: 178.0775\n+ADDUCT: [M]+\n+COLLISION_ENERGY: 70eV\n+INSTRUMENT_TYPE: GC-EI-Orbitrap\n+CHARGE: 1\n+PARENT_MASS: 177.070224\n+NUM PEAKS: 5\n+152.0619    0.1657993569424221\n+176.062     0.24558560966311757     "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8"\n+177.06982   0.12764433529926775     "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9"\n+178.0775    1.0         "Theoretical m/z 178.077698, Mass diff 0 (1.11 ppm), SMILES C=1C=CC2=C(C1)C=CC=3C=CC=CC32, Annotation [C14H10]+, Rule of HR False"\n+179.08078   0.16394988149600653\n+\n+SCANNUMBER: -1\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C14H10\n+INCHIKEY: MWPLVEDNUUSJAV-UHFFFAOYSA-N\n+SMILES: C1=CC2=CC3=C(C=CC=C3)C=C2C=C1\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Anthracene\n+RETENTION_TIME: None\n+RETENTION_INDEX: 1844.4\n+PRECURSOR_MZ: 178.07754\n+ADDUCT: [M]+\n+COLLISION_ENERGY: 70eV\n+INSTRUMENT_TYPE: GC-EI-Orbitrap\n+CHARGE: 1\n+PARENT_MASS: 177.070264\n+NUM PEAKS: 5\n+152.06195   0.12450313104470498\n+176.06204   0.23295403420236208     "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8"\n+177.06984   0.1074344883724439      "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9"\n+178.07754   1.0         "Theoretical m/z 178.077698, Mass diff 0 (0.89 ppm), SMILES C=1C=CC=2C=C3C=CC=CC3=CC2C1, Annotation [C14H10]+, Rule of HR False"\n+179.08081   0.1616741186784917\n+\n+SCANNUMBER: -1\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C12H10\n+INCHIKEY: CWRYPZZKDGJXCA-UHFFFAOYSA-N\n+SMILES: C1CC2=C3C1=CC=CC3=CC=C2\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Acenaphthene\n+RETENTION_TIME: None\n+RETENTION_INDEX: 1528.3\n+PRECURSOR_MZ: 154.07741\n+ADDUCT: [M]+\n+COLLISION_ENERGY: 70eV\n+INSTRUMENT_TYPE: GC-EI-Orbitrap\n+CHARGE: 1\n+PARENT_MASS: 153.070134\n+NUM PEAKS: 4\n+151.05418   0.10238389021994407     "Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7"\n+152.06194   0.4817565861859871\n+153.06969   1.0         "Theoretical m/z 153.070425, Mass diff 0 (0 ppm), Formula C12H9"\n+154.07741   0.6474388804646675      "Theoretical m/z 154.077698, Mass diff 0 (1.87 ppm), SMILES C=1C=C2C=CC=C3C2=C(C1)CC3, Annotation [C12H10]+, Rule of HR False"\n+\n+SCANNUMBER: -1\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C16H10\n+INCHIKEY: GVEPBJHOBDJJJI-UHFFFAOYSA-N\n+SMILES: C1=CC2=C(C=C1)C1=C3C2=CC=CC3=CC=C1\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Fluoranthene\n+RETENTION_TIME: None\n+RETENTION_INDEX: 2102.7\n+PRECURSOR_MZ: 202.07756\n+ADDUCT: [M]+\n+COLLISION_ENERGY: 70eV\n'..b'  "Theoretical m/z 235.066148, Mass diff 0 (0.18 ppm), SMILES O=C(NC1=CC=CC=C1)C2=C(OCCS2)C, Annotation [C12H13NO2S]+, Rule of HR False"\n+\n+SCANNUMBER: -1\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C13H18O5S\n+INCHIKEY: IRCMYGHHKLLGHV-UHFFFAOYSA-N\n+SMILES: CCOC1C(C2=C(O1)C=CC(=C2)OS(=O)(=O)C)(C)C\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Ethofumesate\n+RETENTION_TIME: None\n+RETENTION_INDEX: 1954.4\n+PRECURSOR_MZ: 286.08679\n+ADDUCT: [M]+\n+COLLISION_ENERGY: 70eV\n+INSTRUMENT_TYPE: GC-EI-Orbitrap\n+CHARGE: 1\n+PARENT_MASS: 285.079514\n+NUM PEAKS: 13\n+79.05419    0.1392834489952906      "Theoretical m/z 79.054228, Mass diff 0 (0.48 ppm), SMILES C1=CC=CC=C1, Annotation [C6H6+H]+, Rule of HR True"\n+91.0542     0.1456948233889637      "Theoretical m/z 91.054775, Mass diff 0 (0 ppm), Formula C7H7"\n+105.06984   0.29471655075385655     "Theoretical m/z 105.070425, Mass diff 0 (0 ppm), Formula C8H9"\n+115.05416   0.14265948876449097     "Theoretical m/z 115.054229, Mass diff 0 (0.6 ppm), SMILES C1=CC=C(C=C1)C(C)C, Annotation [C9H12-5H]+, Rule of HR True"\n+133.0647    0.3868381358475808      "Theoretical m/z 133.064798, Mass diff 0 (0.73 ppm), SMILES OC=1C=CC=C(C=1)C(C)C, Annotation [C9H12O-3H]+, Rule of HR True"\n+137.05962   0.565607729176301       "Theoretical m/z 137.060255, Mass diff 0 (0 ppm), Formula C8H9O2"\n+161.0596    1.0         "Theoretical m/z 161.059701, Mass diff 0 (0.63 ppm), SMILES OC=1C=CC=2OCC(C=2(C=1))(C)C, Annotation [C10H12O2-3H]+, Rule of HR True"\n+162.06293   0.1395183569693118\n+163.07518   0.1571750863529426      "Theoretical m/z 163.075351, Mass diff 0 (1.05 ppm), SMILES OC=1C=CC=2OCC(C=2(C=1))(C)C, Annotation [C10H12O2-H]+, Rule of HR True"\n+179.07016   0.3858738890199595      "Theoretical m/z 179.07027, Mass diff 0 (0.62 ppm), SMILES OC=1C=CC=2OC(O)C(C=2(C=1))(C)C, Annotation [C10H12O3-H]+, Rule of HR True"\n+207.1015    0.9146502804597079      "Theoretical m/z 207.101566, Mass diff 0 (0.32 ppm), SMILES OC=1C=CC=2OC(OCC)C(C=2(C=1))(C)C, Annotation [C12H16O3-H]+, Rule of HR True"\n+208.1048    0.1224932435932507\n+286.08679   0.294378369815484       "Theoretical m/z 286.086945, Mass diff 0 (0.54 ppm), SMILES O=S(=O)(OC=1C=CC=2OC(OCC)C(C=2(C=1))(C)C)C, Annotation [C13H18O5S]+, Rule of HR False"\n+\n+SCANNUMBER: -1\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C17H17N3OS\n+INCHIKEY: LMVPQMGRYSRMIW-KRWDZBQOSA-N\n+SMILES: CC1(C(=O)N(C(=N1)SC)NC2=CC=CC=C2)C3=CC=CC=C3\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Fenamidone\n+RETENTION_TIME: None\n+RETENTION_INDEX: 2516.1\n+PRECURSOR_MZ: 311.10815\n+ADDUCT: [M]+\n+COLLISION_ENERGY: 70eV\n+INSTRUMENT_TYPE: GC-EI-Orbitrap\n+CHARGE: 1\n+PARENT_MASS: 310.10087400000003\n+NUM PEAKS: 10\n+77.03851    0.1341728006141734      "Theoretical m/z 77.038578, Mass diff 0 (0.88 ppm), SMILES C1=CC=CC=C1, Annotation [C6H6-H]+, Rule of HR True"\n+91.04161    0.14196713486951465     "Theoretical m/z 91.041647, Mass diff 0 (0.41 ppm), SMILES NC1=CC=CC=C1, Annotation [C6H7N-2H]+, Rule of HR False"\n+103.05415   0.13231626786608644     "Theoretical m/z 103.054223, Mass diff 0 (0.71 ppm), SMILES C1=CC=C(C=C1)CC, Annotation [C8H10-3H]+, Rule of HR True"\n+206.07457   0.2477103476704148      "Theoretical m/z 206.07464, Mass diff 0 (0.34 ppm), SMILES N(=C(NN)SC)C(C1=CC=CC=C1)C, Annotation [C10H15N3S-3H]+, Rule of HR True"\n+210.11507   0.1254196447843151\n+237.10208   0.5638187350251782      "Theoretical m/z 237.102243, Mass diff 0 (0.69 ppm), SMILES O=C(NNC1=CC=CC=C1)C(C2=CC=CC=C2)C, Annotation [C15H16N2O-3H]+, Rule of HR True"\n+238.10997   0.737876380592742\n+239.11317   0.12354824276317873\n+268.09      1.0         "Theoretical m/z 268.090295, Mass diff 0 (1.1 ppm), SMILES N(=C(NNC1=CC=CC=C1)S)C(C2=CC=CC=C2)C, Annotation [C15H17N3S-3H]+, Rule of HR True"\n+269.09351   0.15574634382295574\n+\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/similarity/spec2vec/inp_filtered_spectra.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/spec2vec/inp_filtered_spectra.msp Tue Jun 27 14:25:01 2023 +0000
b
b'@@ -0,0 +1,1008 @@\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C019\n+RETENTION_TIME: 688.11\n+RETENTION_INDEX: 4135.446429\n+CHARGE: -1\n+NUM PEAKS: 21\n+164.985419247789        0.2949419846671587\n+179.033979756352        0.1975962017168221\n+194.04893073403         0.1080780080055076\n+248.988380501455        0.4192550107623055\n+251.037178293           0.1975188727945594\n+283.099929585291        0.24858700581303622\n+313.053040045895        0.15255184988804857\n+329.031653006854        0.12152318335456756\n+341.157248840923        0.33065016037294653\n+385.022947628725        0.11792404215662944\n+401.053681557414        0.5558197970588639\n+403.051400482668        0.10684249115159443\n+415.106669687654        1.0\n+416.107049345269        0.3343846089983622\n+417.104122333661        0.16072829222839785\n+489.124198650628        0.7880577919119076\n+535.10922525834         0.17951802003040962\n+550.163296442538        0.22193082425956692\n+551.161445828019        0.11285226875001307\n+564.146181690587        0.10968283775320925\n+623.183150220198        0.24882510323783946\n+\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C008\n+RETENTION_TIME: 383.25\n+RETENTION_INDEX: 2436.111111\n+CHARGE: -1\n+NUM PEAKS: 10\n+167.06348032557         0.2012680241749571\n+169.042872715042        0.22527813564183466\n+185.073952424469        0.1146092209329471\n+224.061333736415        0.637856954108077\n+241.084284214072        0.5378362429201462\n+243.086918863664        0.8440889152136807\n+245.102418520421        1.0\n+257.113614660022        0.7014464407039914\n+258.111154671539        0.45403443749116\n+315.119168534318        0.2802677742648726\n+\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C001\n+RETENTION_TIME: 268.99\n+RETENTION_INDEX: 1800.989583\n+CHARGE: -1\n+NUM PEAKS: 7\n+147.065597668017        0.20713460605355152\n+149.044686744287        0.15021454193335101\n+183.047097257536        0.2756365347787095\n+257.066031671279        0.16716705800250425\n+273.097313808265        1.0\n+274.099806030141        0.1382750943677773\n+347.116266654718        0.10796331331103011\n+\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C010\n+RETENTION_TIME: 271.76\n+RETENTION_INDEX: 1815.416667\n+CHARGE: -1\n+NUM PEAKS: 12\n+76.0323849976885        0.5337096603553363\n+107.129167494293        0.17750725429827036\n+120.05545372843         0.732323548309492\n+132.054968772294        0.6582449478277536\n+136.084083848357        0.18110012219874336\n+138.177598969977        0.10980088538234019\n+311.387345297053        0.3149229368865709\n+312.394070075839        1.0\n+313.396963036504        0.1996701454734163\n+329.397982197985        0.17215789049120694\n+330.403963356557        0.5441264876224288\n+331.407288294656        0.1075489761979763\n+\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C009\n+RETENTION_TIME: 224.1\n+RETENTION_INDEX: 1606.578947\n+CHARGE: -1\n+NUM PEAKS: 5\n+128.088974937905        0.30238672398872746\n+142.104728421893        0.13125344469355718\n+230.102912184687        0.13629903834332716\n+246.13394892703         1.0\n+247.135560589937        0.1027800448922141\n+\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C011\n+RETENTION_TIME: 322.28\n+RETENTION_INDEX: 2083.777778\n+CHARGE: -1\n+NUM PEAKS: 8\n+191.091545005862        0.3661694612326083\n+204.099524919261        0.1379655416395176\n+217.107439740029        0.8659676702439103\n+221.084188869749        0.13224939836684152\n+265.110639707297        0.12404535021125133\n+305.141591931944        1.0\n+306.142075983677        0.19894438269593562\n+318.149353523284        0.5161780338363837\n+\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C013\n+RETENTION_TIME: 471.03\n+RETENTION_INDEX: 3168.684211\n+CHARGE: -1\n+NUM PEAKS: 6\n+78.0464517452347        0.13019193533313522\n+155.087332200892        0.16981875175936348\n+207.101729466849        1.0\n+313.053036971607        0.12108100658431745\n+353.320009154806        0.2895861096886366\n+624.30876303981         0.14852029190801175\n'..b'349696378594456\n+196.992752093539        0.3065603768824057\n+197.974508055988        0.395078144825856\n+198.95441899853         0.20984023997622794\n+212.970014961884        0.312364140356306\n+213.006147303489        0.3451086913299261\n+214.98560992714         0.5058106319186024\n+220.957069324217        0.1741467403445935\n+222.936453968368        0.1925777417566011\n+229.019119616188        1.0\n+230.00074243328         0.4313373151032761\n+236.98832473252         0.17144823687024496\n+240.946899738586        0.37016492220221137\n+253.982966844011        0.2619026170220304\n+269.977845781938        0.369206087321791\n+270.975426915952        0.26702156040941716\n+270.993770069105        0.5558156567281477\n+297.079403794841        0.3276080388276794\n+298.934550867121        0.27505460413538213\n+328.980928284848        0.30053783536988743\n+330.960641905517        0.36106011190503906\n+372.953096157169        0.24565144306023193\n+\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C018\n+RETENTION_TIME: 687.52\n+RETENTION_INDEX: 4133.690476\n+CHARGE: -1\n+NUM PEAKS: 9\n+209.011554808631        0.6525630494040975\n+209.029113642814        0.10839584784422365\n+210.990970491228        0.15000447517519525\n+226.041539764125        0.3130785916148705\n+227.039590062704        0.17080278851135594\n+265.020169474237        0.2407632085362116\n+281.051364215883        1.0\n+282.049803555434        0.21798058347517868\n+285.009414657485        0.12222513080126347\n+\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C012\n+RETENTION_TIME: 687.83\n+RETENTION_INDEX: 4134.613095\n+CHARGE: -1\n+NUM PEAKS: 27\n+121.046741626167        0.12537265500763864\n+192.997735629267        0.1940732067111916\n+205.016711322548        0.12056941717717026\n+209.098935410027        0.12559326156418593\n+213.05754958053         0.27142481482801556\n+253.016653119059        0.8938154160284864\n+271.027137265637        0.1375157398831428\n+284.047997947258        0.1709644868199992\n+325.985953604199        0.17320279707305308\n+327.03525664153         1.0\n+328.035343658           0.26668492712822667\n+345.046169172075        0.17928530473894783\n+359.09769204202         0.2008606829314974\n+360.028136457829        0.21741111817985187\n+387.002413998209        0.2632563912022333\n+387.071825807939        0.3071277807533759\n+402.055174276849        0.2538777644377674\n+461.090256355859        0.3629780005380489\n+462.091555156095        0.14179921776218857\n+475.072310244956        0.27595658697326014\n+476.143434019655        0.2650001066007337\n+477.140480798609        0.10059042565917092\n+490.12632015072         0.3700192231231476\n+491.122346777972        0.20934752539009766\n+549.162553092955        0.5034364902937184\n+563.144239233773        0.2590935918637112\n+624.183209223215        0.1451500409395642\n+\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C020\n+RETENTION_TIME: 687.99\n+RETENTION_INDEX: 4135.089286\n+CHARGE: -1\n+NUM PEAKS: 24\n+194.053642118165        0.17149988589657134\n+212.061782732582        0.3408023706085241\n+267.034768010352        0.14461973681405008\n+267.068824022318        0.9059077886912253\n+310.970568727813        0.10207376981761378\n+325.055731606087        0.2492913881575955\n+327.965549188207        0.17771113517875153\n+339.03821058645         0.2164141235131004\n+342.996634492902        0.12864401601229136\n+345.115297423962        0.12858631941521836\n+358.067243216398        0.11516054657713713\n+361.025211906011        0.21277786650130676\n+388.003000430725        0.1117630757647746\n+388.073272089579        0.1379380986368877\n+399.005054559559        0.13523814605127854\n+401.984326631505        0.18236859257167579\n+402.98179623463         0.11632404563967355\n+416.036473280551        0.23580021278191537\n+417.033665098569        0.13482894754843827\n+430.088321970134        0.3515024935084798\n+431.085366629672        0.22490708219361874\n+475.14184210128         1.0\n+565.143723544965        0.11382519851041557\n+625.181479977537        0.1264407374154073\n+\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/similarity/spec2vec/model.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/spec2vec/model.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"vector_size": 100, "index_to_key": ["peak@95.05", "peak@91.05", "peak@92.05", "peak@115.05", "peak@125.02", "peak@89.04", "peak@173.51", "peak@93.06", "peak@105.07", "peak@105.05", "peak@155.06", "peak@111.04", "peak@120.04", "peak@110.07", "peak@106.07", "peak@118.07", "peak@127.02", "peak@119.06", "peak@119.09", "peak@110.05", "peak@137.02", "peak@149.02", "peak@142.07", "peak@94.07", "peak@107.05", "peak@103.05", "peak@138.08", "peak@96.06", "peak@85.05", "peak@96.04", "peak@158.98", "peak@117.06", "peak@129.07", "peak@139.01", "peak@143.06", "peak@129.01", "peak@120.08", "peak@146.06", "peak@128.06", "peak@119.05", "peak@123.00", "peak@104.05", "peak@131.06", "peak@123.04", "peak@105.04", "peak@163.03", "peak@109.07", "peak@138.99", "peak@117.07", "peak@144.06", "peak@170.10", "peak@110.06", "peak@95.09", "peak@145.06", "peak@85.08", "peak@147.08", "peak@137.06", "peak@151.03", "peak@133.06", "peak@97.04", "peak@165.05", "peak@114.07", "peak@175.03", "peak@132.08", "peak@139.03", "peak@107.09", "peak@99.00", "peak@141.01", "peak@140.03", "peak@113.02", "peak@158.05", "peak@113.08", "peak@109.08", "peak@122.06", "peak@130.07", "peak@168.09", "peak@156.07", "peak@141.07", "peak@167.07", "peak@153.07", "peak@136.04", "peak@165.07", "peak@98.06", "peak@161.06", "peak@164.03", "peak@93.07", "peak@128.05", "peak@157.08", "peak@116.06", "peak@172.99", "peak@86.04", "peak@116.03", "peak@124.08", "peak@118.05", "peak@134.06", "peak@116.05", "peak@150.02", "peak@174.97", "peak@135.08", "peak@184.12", "peak@128.08", "peak@129.05", "peak@100.05", "peak@99.07", "peak@152.06", "peak@148.04", "peak@134.10", "peak@152.07", "peak@121.04", "peak@176.04", "peak@130.03", "peak@94.04", "peak@147.94", "peak@182.08", "peak@121.07", "peak@134.07", "peak@136.08", "peak@186.08", "peak@168.07", "peak@122.10", "peak@123.06", "peak@124.06", "peak@125.01", "peak@91.03", "peak@102.04", "peak@183.06", "peak@91.04", "peak@125.06", "peak@90.03", "peak@130.04", "peak@126.01", "peak@165.10", "peak@93.03", "peak@108.08", "peak@139.07", "peak@148.08", "peak@125.08", "peak@191.06", "peak@122.07", "peak@113.04", "peak@108.06", "peak@191.07", "peak@183.08", "peak@133.09", "peak@159.09", "peak@158.08", "peak@144.08", "peak@114.09", "peak@143.07", "peak@161.10", "peak@150.09", "peak@108.04", "peak@170.07", "peak@132.07", "peak@153.08", "peak@107.07", "peak@163.08", "peak@145.05", "peak@145.10", "peak@131.09", "peak@133.10", "peak@209.06", "peak@120.06", "peak@178.05", "peak@145.03", "peak@172.97", "peak@186.97", "peak@157.09", "peak@164.07", "peak@168.02", "peak@164.04", "peak@133.05", "peak@132.04", "peak@177.05", "peak@102.05", "peak@166.07", "peak@167.09", "peak@190.04", "peak@155.09", "peak@189.05", "peak@142.08", "peak@185.07", "peak@147.07", "peak@160.08", "peak@141.06", "peak@135.04", "peak@131.07", "peak@95.06", "peak@149.06", "peak@159.04", "peak@162.07", "peak@208.96", "peak@130.08", "peak@155.07", "peak@106.03", "peak@98.10", "peak@123.02", "peak@219.03", "peak@109.03", "peak@172.96", "peak@139.05", "peak@124.98", "peak@113.00", "peak@142.99", "peak@147.04", "peak@169.10", "peak@99.04", "peak@146.07", "peak@125.05", "peak@176.03", "peak@141.02", "peak@180.10", "peak@102.06", "peak@136.01", "peak@226.17", "peak@215.03", "peak@147.06", "peak@184.99", "peak@99.08", "peak@164.11", "peak@198.08", "peak@208.13", "peak@165.06", "peak@151.11", "peak@192.10", "peak@308.00", "peak@223.01", "peak@156.09", "peak@109.10", "peak@155.00", "peak@132.96", "peak@125.00", "peak@208.10", "peak@171.03", "peak@159.07", "peak@158.04", "peak@159.97", "peak@127.10", "peak@163.04", "peak@142.12", "peak@216.03", "peak@171.04", "peak@148.09", "peak@158.07", "peak@180.03", "peak@144.07", "peak@148.11", "peak@121.09", "peak@127.99", "peak@140.05", "peak@217.02", "peak@87.08", "peak@166.12", "peak@206.08", "peak@179.07", "peak@107.06", "peak@242.08", "peak@162.04", "peak@150.01", "peak@160.11", "peak@110.10", "peak@115.08", "peak@86.10", "peak@138.09", "peak@223.08'..b': 1240, "peak@155.02": 1241, "peak@226.13": 1242, "peak@210.10": 1243, "peak@209.11": 1244, "peak@196.09": 1245, "peak@185.11": 1246, "peak@102.03": 1247, "peak@187.09": 1248, "peak@188.08": 1249, "peak@216.06": 1250, "peak@161.03": 1251, "peak@174.02": 1252, "peak@175.05": 1253, "peak@119.04": 1254, "peak@134.04": 1255, "peak@150.04": 1256, "peak@151.10": 1257, "peak@163.01": 1258, "peak@188.09": 1259, "peak@163.05": 1260, "peak@170.04": 1261, "peak@178.03": 1262, "peak@179.00": 1263, "peak@205.04": 1264, "peak@214.04": 1265, "peak@155.04": 1266, "peak@147.03": 1267, "peak@146.02": 1268, "peak@134.05": 1269, "peak@101.02": 1270, "peak@98.04": 1271, "peak@366.15": 1272, "peak@231.10": 1273, "peak@230.09": 1274, "peak@215.11": 1275, "peak@214.10": 1276, "peak@202.10": 1277, "peak@201.10": 1278, "peak@200.08": 1279, "peak@199.09": 1280, "peak@199.07": 1281, "peak@189.10": 1282, "peak@247.07": 1283, "peak@260.07": 1284, "peak@273.06": 1285, "peak@139.12": 1286, "peak@211.00": 1287, "peak@86.07": 1288, "peak@96.08": 1289, "peak@136.09": 1290, "peak@137.09": 1291, "peak@138.10": 1292, "peak@151.12": 1293, "peak@224.18": 1294, "peak@179.13": 1295, "peak@180.15": 1296, "peak@191.12": 1297, "peak@192.15": 1298, "peak@194.13": 1299, "peak@208.14": 1300, "peak@167.97": 1301, "peak@152.98": 1302, "peak@139.97": 1303, "peak@136.00": 1304, "peak@134.99": 1305, "peak@121.01": 1306, "peak@111.03": 1307, "peak@108.00": 1308, "peak@107.00": 1309, "peak@96.00": 1310, "peak@90.97": 1311, "peak@377.14": 1312, "peak@349.11": 1313, "peak@347.09": 1314, "peak@337.11": 1315, "peak@335.13": 1316, "peak@334.08": 1317, "peak@209.18": 1318, "peak@237.21": 1319, "peak@273.08": 1320, "peak@226.12": 1321, "peak@172.98": 1322, "peak@204.02": 1323, "peak@206.02": 1324, "peak@220.02": 1325, "peak@250.02": 1326, "peak@225.11": 1327, "peak@251.11": 1328, "peak@272.11": 1329, "peak@261.09": 1330, "peak@279.10": 1331, "peak@325.05": 1332, "peak@325.14": 1333, "peak@325.24": 1334, "peak@263.97": 1335, "peak@168.05": 1336, "peak@179.09": 1337, "peak@177.08": 1338, "peak@138.06": 1339, "peak@178.09": 1340, "peak@150.13": 1341, "peak@150.05": 1342, "peak@149.05": 1343, "peak@114.05": 1344, "peak@166.03": 1345, "peak@148.02": 1346, "peak@143.02": 1347, "peak@138.04": 1348, "peak@99.03": 1349, "peak@89.01": 1350, "peak@86.99": 1351, "peak@103.00": 1352, "peak@333.11": 1353, "peak@331.10": 1354, "peak@321.11": 1355, "peak@127.03": 1356, "peak@186.07": 1357, "peak@90.01": 1358, "peak@117.02": 1359, "peak@334.17": 1360, "peak@110.04": 1361, "peak@111.00": 1362, "peak@155.03": 1363, "peak@319.10": 1364, "peak@159.02": 1365, "peak@190.10": 1366, "peak@161.05": 1367, "peak@186.05": 1368, "peak@160.99": 1369, "peak@176.99": 1370, "peak@133.07": 1371, "peak@200.12": 1372, "peak@173.11": 1373, "peak@115.04": 1374, "peak@376.04": 1375, "peak@265.95": 1376, "peak@279.13": 1377, "peak@219.11": 1378, "peak@178.04": 1379, "peak@166.04": 1380, "peak@220.13": 1381, "peak@192.14": 1382, "peak@162.13": 1383, "peak@147.10": 1384, "peak@330.09": 1385, "peak@288.09": 1386, "peak@286.07": 1387, "peak@204.00": 1388, "peak@183.97": 1389, "peak@184.98": 1390, "peak@174.07": 1391, "peak@241.09": 1392, "peak@226.06": 1393, "peak@220.07": 1394, "peak@219.07": 1395, "peak@211.08": 1396, "peak@205.05": 1397, "peak@198.07": 1398, "peak@197.06": 1399, "peak@193.09": 1400, "peak@193.05": 1401, "peak@189.09": 1402, "peak@188.05": 1403, "peak@187.04": 1404, "peak@175.04": 1405, "peak@164.05": 1406, "peak@196.98": 1407, "peak@161.02": 1408, "peak@151.08": 1409, "peak@150.07": 1410, "peak@148.05": 1411, "peak@139.08": 1412, "peak@280.01": 1413, "peak@254.04": 1414, "peak@253.03": 1415, "peak@245.04": 1416, "peak@244.03": 1417, "peak@237.06": 1418, "peak@225.03": 1419, "peak@213.98": 1420, "peak@212.97": 1421, "peak@90.09": 1422}, "norms": null, "mapfile_path": null, "__numpys": [], "__scipys": [], "__ignoreds": [], "__recursive_saveloads": [], "__weights_format": "np.ndarray"}\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/similarity/spec2vec/weights_100.binary
b
Binary file test-data/similarity/spec2vec/weights_100.binary has changed
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/spectral_similarity/test1.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/spectral_similarity/test1.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "1161", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C4H10NO3PS", "inchikey": "YASYVMFAVPKPKE-SECBINFHSA-N", "smiles": "COP(=O)(N=C(O)C)SC", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "num_peaks": "16", "compound_name": "Acephate", "retention_time": 1.232997, "precursor_mz": 184.0194, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[90.09368, 1128.0], [93.11512, 1241.0], [95.10279, 1118.0], [101.31465, 1152.0], [102.90688, 1322.0], [103.98039, 1201.0], [112.01607, 12289.0], [112.99994, 38027.0], [115.00399, 1634.0], [124.98121, 922.0], [128.97701, 9208.0], [132.57193, 1350.0], [135.84808, 1428.0], [142.99275, 16419.0], [147.94205, 1750.0], [173.5094, 2353.0]]}, {"scannumber": "2257", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C12H11NO2", "inchikey": "CVXBEEMKQHEXEN-UHFFFAOYSA-N", "smiles": "CN=C(Oc1cccc2c1cccc2)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"145.06491": "Theoretical m/z 145.064787, Mass diff 0 (0.85 ppm), SMILES OC1=CC=CC=2C=CC=CC12, Annotation [C10H8O+H]+, Rule of HR True"}, "num_peaks": "1", "compound_name": "Carbaryl", "retention_time": 5.259445, "precursor_mz": 202.0863, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[145.06491, 1326147.0]]}, {"scannumber": "1516", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C8H16NO5P", "inchikey": "VEENJGZXVHKXNB-UHFFFAOYSA-N", "smiles": "COP(=O)(OC(=CC(=O)N(C)C)C)OC", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"112.07591": "Theoretical m/z 112.075687, Mass diff 0 (1.99 ppm), SMILES O=C(C=CC)N(C)C, Annotation [C6H11NO-H]+, Rule of HR True", "127.01563": "Theoretical m/z 127.01547, Mass diff 0 (1.26 ppm), SMILES O=P(O)(OC)OC, Annotation [C2H7O4P+H]+, Rule of HR True", "193.02605": "Theoretical m/z 193.026035, Mass diff 0 (0.08 ppm), SMILES O=CC=C(OP(=O)(OC)OC)C, Annotation [C6H11O5P-H]+, Rule of HR True", "238.08437": "Theoretical m/z 238.083891, Mass diff 0 (2.01 ppm), SMILES O=C(C=C(OP(=O)(OC)OC)C)N(C)C, Annotation [C8H16NO5P+H]+, Rule of HR True"}, "num_peaks": "5", "compound_name": "Dicrotophos", "retention_time": 2.025499, "precursor_mz": 238.0844, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[112.074, 102027.0], [112.07591, 9070987.0], [127.01563, 3230337.0], [193.02605, 7897744.0], [238.08437, 2973124.0]]}, {"scannumber": "1865", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C5H12NO3PS2", "inchikey": "MCWXGJITAZMZEV-UHFFFAOYSA-N", "smiles": "CN=C(CSP(=S)(OC)OC)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"88.0219": "Theoretical m/z 88.021549, Mass diff 0 (3.99 ppm), SMILES SCC=NC, Annotation [C3H7NS-H]+, Rule of HR True", "124.98233": "Theoretical m/z 124.982067, Mass diff 0 (2.11 ppm), SMILES S=P(OC)OC, Annotation [C2H7O2PS-H]+, Rule of HR True", "142.99275": "Theoretical m/z 142.993177, Mass diff 0 (0 ppm), Formula C2H8O3PS", "156.95422": "Theoretical m/z 156.954136, Mass diff 0 (0.54 ppm), SMILES S=P(S)(OC)OC, Annotation [C2H7O2PS2-H]+, Rule of HR True", "170.97": "Theoretical m/z 170.969791, Mass diff 0 (1.22 ppm), SMILES S=P(OC)(OC)SC, Annotation [C3H9O2PS2-H]+, Rule of HR True", "197.98123": "Theoretical m/z 197.980686, Mass diff 0.001 (2.75 ppm), SMILES S=P(OC)SCC(O)=NC, Annotation [C4H10NO2PS2-H]+, Rule of HR True", "198.96501": "Theoretical m/z 198'..b'68404, 2870255.0], [312.986211377174, 2448284.0], [313.019993142226, 1479514.0], [326.982724315442, 4863722.0], [344.975776862771, 10267994.0], [345.976092174038, 3016933.0], [346.046486912175, 1754291.0], [346.973191534072, 1590963.0], [382.97408022551, 1514772.0], [386.969422084375, 2096957.0], [402.964369782575, 1172149.0], [493.152823320977, 2513229.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "57", "compound_name": "C012", "retention_time": 687.83, "retention_index": 4134.613095, "peaks_json": [[78.0419846383593, 1742200.0], [79.0497716096318, 1893817.0], [85.0284186196566, 2191757.0], [121.046741626167, 6162741.0], [142.078087888737, 3381352.0], [192.997735629267, 9539743.0], [195.029110650825, 3772846.0], [205.016711322548, 5926636.0], [207.066696618797, 3714385.0], [209.098935410027, 6173585.0], [213.05754958053, 13341991.0], [219.06802937228, 2601724.0], [253.016653119059, 43935840.0], [269.047850642358, 4644691.0], [271.027137265637, 6759639.0], [281.085992168442, 2140320.0], [284.047997947258, 8403825.0], [311.073606748707, 3371803.0], [313.113777264345, 2391990.0], [325.985953604199, 8513850.0], [327.03525664153, 49155384.0], [328.035343658, 13109000.0], [329.014530869431, 3595462.0], [331.063707530223, 2063612.0], [343.084122931946, 3769846.0], [345.046169172075, 8812838.0], [353.090427317747, 2832675.0], [359.09769204202, 9873384.0], [360.028136457829, 10686927.0], [360.169639740951, 3818378.0], [371.040514349465, 1472266.0], [387.002413998209, 12940469.0], [387.071825807939, 15096984.0], [389.068871345424, 1810336.0], [402.055174276849, 12479459.0], [404.05195192305, 1405422.0], [458.971973456131, 1214840.0], [459.041861218696, 1286084.0], [460.952039584771, 4371596.0], [461.021207128847, 2869881.0], [461.090256355859, 17842323.0], [461.951796665319, 1222018.0], [462.091555156095, 6970195.0], [463.088708091285, 2556050.0], [475.072310244956, 13564752.0], [476.003821454759, 1471505.0], [476.143434019655, 13026182.0], [477.140480798609, 4944561.0], [478.141485242814, 1506934.0], [479.101672410454, 3603024.0], [490.12632015072, 18188437.0], [491.122346777972, 10290558.0], [549.162553092955, 24746614.0], [563.144239233773, 12735845.0], [624.183209223215, 7134906.0], [637.164550513183, 3866368.0], [698.205944560218, 1919968.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "43", "compound_name": "C020", "retention_time": 687.99, "retention_index": 4135.089286, "peaks_json": [[109.052235628516, 1922885.0], [111.044058476785, 1730416.0], [133.064909307365, 1579533.0], [137.041722086745, 2474039.0], [194.053642118165, 5252308.0], [212.061782732582, 10437319.0], [267.034768010352, 4429084.0], [267.068824022318, 27744081.0], [268.069192256745, 2367920.0], [310.970568727813, 3126083.0], [311.004219192148, 2666091.0], [325.055731606087, 7634729.0], [327.965549188207, 5442532.0], [328.962716535303, 2722019.0], [339.03821058645, 6627839.0], [341.051986399316, 1671451.0], [342.996634492902, 3939816.0], [345.115297423962, 3938049.0], [358.067243216398, 3526875.0], [361.025211906011, 6516476.0], [388.003000430725, 3422825.0], [388.073272089579, 4224454.0], [399.005054559559, 4141766.0], [401.984326631505, 5585170.0], [402.98179623463, 3562508.0], [416.036473280551, 7221552.0], [417.033665098569, 4129234.0], [417.087073648909, 1945166.0], [418.994970709551, 2648178.0], [430.088321970134, 10765018.0], [431.085366629672, 6887942.0], [473.09370665615, 2502410.0], [475.002854889036, 2969642.0], [475.14184210128, 30625723.0], [477.070907310139, 2271450.0], [489.055479984185, 1973511.0], [503.107930410573, 2407435.0], [549.092119293556, 2513579.0], [552.160354111203, 1673065.0], [565.143723544965, 3485979.0], [610.132183060405, 1997085.0], [625.181479977537, 3872339.0], [697.202597429349, 2820429.0]]}], "n_row": 170, "n_col": 51, "row": [], "col": [], "data": [], "dtype": [["CosineGreedy_0.1_0.0_1.0_score", "<f8"], ["CosineGreedy_0.1_0.0_1.0_matches", "<i8"]]}\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/spectral_similarity/test2.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/spectral_similarity/test2.json Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "19", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.01508, 137808.0], [75.02295, 278714.0], [76.03075, 608417.0], [87.02295, 304266.0], [88.03076, 497050.0], [89.03857, 441168.0], [98.01511, 150478.0], [150.04633, 868927.0], [151.05415, 546351.0], [152.0619, 2275502.0], [153.06528, 276320.0], [169.06468, 272559.0], [174.04636, 365846.0], [175.05423, 272039.0], [176.062, 3370523.0], [177.06982, 1751846.0], [178.0775, 13724432.0], [179.08078, 2250119.0], [180.08412, 138203.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "Anthracene", "retention_time": null, "retention_index": 1844.4, "precursor_mz": 178.07754, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.0151, 117371.0], [75.02296, 245305.0], [76.03077, 632686.0], [87.02297, 236214.0], [88.03078, 347832.0], [89.0386, 507288.0], [91.05425, 130861.0], [126.04636, 128356.0], [149.04478, 126331.0], [150.04637, 641829.0], [151.05415, 403195.0], [152.06195, 1369833.0], [153.06534, 175290.0], [169.06471, 228827.0], [174.04639, 255716.0], [175.05423, 198784.0], [176.06204, 2563053.0], [177.06984, 1182037.0], [178.07754, 11002398.0], [179.08081, 1778803.0], [180.08418, 132922.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "GVEPBJHOBDJJJI-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C3C2=CC=CC3=CC=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "17", "compound_name": "Fluoranthene", "retention_time": null, "retention_index": 2102.7, "precursor_mz": 202.07756, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[75.02299, 112456.0], [87.02298, 183640.0], [88.03079, 367434.0], [99.02296, 124952.0], [100.03078, 376079.0], [101.03863, 381288.0], [150.04642, 86059.0], [174.04634, 246963.0], [176.06194, 141676.0], [198.0464, 244370.0], [199.05429, 285767.0], [200.06207, 1958890.0], [201.06982, 1103710.0], [202.07756, 8104188.0], [203.08084, 1377015.0], [204.08421, 98067.0], [219.08043, 186623.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "BBEAQIROQSPTKN-UHFFFAOYSA-N", "smiles": "C1=CC2=C3C(C=CC4=CC=CC(C=C2)=C34)=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "16", "compound_name": "Pyrene", "retention_time": null, "retention_index": 2154.5, "precursor_mz": 202.07759, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[87.02299, 147113.0], [88.0308, 305149.0], [99.02298, 137042.0], [100.0308, 508914.0], [101.03864, 472094.0], [101.54032, 82430.0], [150.04637, 80741.0], [174.04631, 212706.0], [198.04643, 262925.0], [199.05429, 295144.0], [200.06209, 1960712.0], [201.06982, 1270466.0], [202.'..b'NDFUHDPQJ-UHFFFAOYSA-N", "smiles": "C1=CC=C(C=C1)C2=CC=C(C=C2)C3=CC=CC=C3", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "25", "compound_name": "para-Terphenyl", "retention_time": null, "retention_index": 2207.5, "precursor_mz": 230.10886, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[88.03077, 233962.0], [101.03861, 353544.0], [113.03854, 437845.0], [115.05423, 690291.0], [128.062, 293046.0], [151.05412, 266397.0], [152.06195, 961184.0], [153.06976, 409346.0], [176.06192, 232793.0], [189.06972, 408734.0], [200.0619, 342984.0], [201.06986, 238974.0], [202.07758, 1292332.0], [203.08093, 374439.0], [213.06973, 256631.0], [215.08548, 1220866.0], [216.08881, 217320.0], [224.062, 181393.0], [226.07771, 1503774.0], [227.08588, 1198323.0], [228.09344, 2885510.0], [229.10123, 1791323.0], [230.10886, 17890056.0], [231.11214, 3536976.0], [232.11542, 320231.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10S", "inchikey": "YEUHHUCOSQOCIX-UHFFFAOYSA-N", "smiles": "S1C2=C(C=CC=C2)C2=C1C1=CC=CC=C1C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "23", "compound_name": "Benzo[b]naphtho[2,1-d]thiophene", "retention_time": null, "retention_index": 2419.3, "precursor_mz": 234.04965, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[91.05425, 49130.0], [93.52686, 61653.0], [94.53469, 76638.0], [104.01679, 126871.0], [116.01675, 112547.0], [117.02459, 99108.0], [162.04623, 54491.0], [163.05408, 136418.0], [164.06198, 56321.0], [187.05406, 273349.0], [188.06189, 200750.0], [189.06969, 453336.0], [190.07306, 77884.0], [200.06189, 135620.0], [201.06973, 74692.0], [202.07758, 425058.0], [203.08086, 72058.0], [226.07762, 63460.0], [232.03409, 769638.0], [233.04245, 382457.0], [234.04965, 4404102.0], [235.05304, 725574.0], [236.04547, 251450.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C17H12", "inchikey": "HAPOJKSPCGLOOD-UHFFFAOYSA-N", "smiles": "C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "2,3-Benzofluorene", "retention_time": null, "retention_index": 2257.5, "precursor_mz": 216.09326, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[93.52689, 122035.0], [94.53471, 241743.0], [95.03638, 42130.0], [105.52688, 47526.0], [106.53471, 171653.0], [107.03639, 60004.0], [107.5425, 180288.0], [108.03385, 97471.0], [163.05414, 68194.0], [187.05412, 167183.0], [188.06201, 86262.0], [189.06975, 239421.0], [190.07321, 37778.0], [211.05426, 117044.0], [212.06215, 60813.0], [213.0699, 808499.0], [214.07317, 202222.0], [215.0855, 3634570.0], [216.09326, 2535030.0], [217.09671, 444170.0], [218.09999, 37976.0]]}], "n_row": 7, "n_col": 7, "row": [0, 0, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 6, 6], "col": [0, 1, 0, 1, 2, 3, 2, 3, 4, 3, 4, 6, 5, 4, 6], "data": [[true, 1.0, 19], [true, 0.9986026416952778, 18], [true, 0.9986026416952778, 18], [true, 1.0, 21], [true, 0.9999999999999998, 17], [true, 0.999244339007754, 15], [true, 0.999244339007754, 15], [true, 1.0000000000000002, 16], [true, 0.07545864560115775, 6], [true, 0.07545864560115775, 6], [true, 1.0, 25], [true, 0.061706695748466586, 4], [true, 1.0, 23], [true, 0.061706695748466586, 4], [true, 1.0, 21]], "dtype": [["MetadataMatch_retention_index_difference_60.0_f0", "|b1"], ["CosineHungarian_0.1_0.0_1.0_score", "<f8"], ["CosineHungarian_0.1_0.0_1.0_matches", "<i8"]]}\n\\ No newline at end of file\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/split/chunk-size/chunk_0.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/split/chunk-size/chunk_0.msp Tue Jun 27 14:25:01 2023 +0000
[
@@ -0,0 +1,315 @@
+SYNONYM: 1-NITROPYRENE
+INCHIKEY: ALRLPDGCPYIVHP-UHFFFAOYSA-N
+FORMULA: C16H9NO2
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: [O-1][N+1](=O)c(c4)c(c1)c(c3c4)c(c2cc3)c(ccc2)c1
+INCHI: InChI=1S/C16H9NO2/c18-17(19)14-9-7-12-5-4-10-2-1-3-11-6-8-13(14)16(12)15(10)11/h1-9H
+SMILES_2: [H]C=1C([H])=C2C([H])=C([H])C3=C([H])C([H])=C(C=4C([H])=C([H])C(C1[H])=C2C34)N(=O)=O
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210335755
+MOLECULAR_FORMULA: C16H9NO2
+TOTAL_EXACT_MASS: 247.063328528
+COMPOUND_NAME: 1-NITROPYRENE
+SPECTRUM_ID: JP000001
+NOMINAL_MASS: 247.063328528
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 247.06333
+NUM PEAKS: 75
+51.0        2.66
+55.0        8.0
+57.0        7.33
+58.0        1.33
+59.0        1.33
+60.0        14.0
+61.0        1.33
+62.0        3.33
+63.0        3.33
+66.0        1.33
+68.0        8.66
+70.0        2.0
+72.0        5.33
+73.0        7.33
+74.0        3.33
+75.0        2.66
+76.0        2.0
+78.0        1.33
+80.0        4.0
+81.0        2.0
+82.0        1.33
+83.0        3.33
+86.0        12.66
+87.0        8.66
+92.0        2.0
+93.0        10.0
+94.0        6.0
+98.0        14.66
+99.0        83.33
+100.0       60.66
+104.0       4.0
+107.0       1.33
+108.0       1.33
+110.0       3.33
+112.0       1.33
+113.0       1.33
+115.0       1.33
+116.0       1.33
+120.0       1.33
+122.0       4.0
+123.0       2.66
+124.0       2.66
+125.0       2.0
+126.0       1.33
+134.0       1.33
+135.0       2.0
+137.0       1.33
+147.0       1.33
+149.0       2.0
+150.0       4.66
+151.0       3.33
+159.0       2.0
+162.0       2.0
+163.0       2.66
+173.0       2.0
+174.0       8.66
+175.0       4.66
+177.0       2.0
+187.0       5.33
+188.0       4.66
+189.0       56.66
+190.0       12.0
+191.0       16.66
+198.0       10.66
+199.0       9.33
+200.0       72.66
+201.0       99.99
+202.0       16.0
+203.0       1.33
+207.0       1.33
+214.0       1.33
+217.0       25.33
+218.0       5.33
+247.0       52.66
+248.0       10.16
+
+SYNONYM: 2,4-DINITROPHENOL
+INCHIKEY: UFBJCMHMOXMLKC-UHFFFAOYSA-N
+FORMULA: C6H4N2O5
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: [O-1][N+1](=O)c(c1)cc([N+1]([O-1])=O)c(O)c1
+INCHI: InChI=1S/C6H4N2O5/c9-6-2-1-4(7(10)11)3-5(6)8(12)13/h1-3,9H
+SMILES_2: [H]OC1=C([H])C([H])=C(C([H])=C1N(=O)=O)N(=O)=O
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210335764
+MOLECULAR_FORMULA: C6H4N2O5
+TOTAL_EXACT_MASS: 184.01202122799998
+COMPOUND_NAME: 2,4-DINITROPHENOL
+SPECTRUM_ID: JP000002
+NOMINAL_MASS: 184.01202122799998
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 184.01202
+NUM PEAKS: 64
+51.0        27.22
+52.0        19.9
+53.0        61.8
+54.0        6.76
+55.0        13.95
+56.0        3.86
+57.0        11.52
+60.0        6.43
+61.0        13.38
+62.0        36.19
+63.0        61.37
+64.0        26.2
+65.0        6.74
+66.0        5.1
+67.0        7.43
+68.0        10.32
+69.0        29.16
+70.0        5.53
+71.0        6.11
+73.0        4.14
+74.0        3.92
+75.0        3.49
+76.0        4.33
+77.0        6.21
+78.0        5.1
+79.0        35.07
+80.0        9.85
+81.0        16.0
+82.0        5.37
+83.0        6.13
+84.0        2.96
+85.0        3.0
+90.0        12.01
+91.0        53.25
+92.0        28.32
+93.0        18.25
+94.0        3.51
+95.0        6.41
+96.0        5.43
+97.0        5.12
+98.0        2.43
+105.0       3.76
+106.0       6.35
+107.0       38.97
+108.0       7.11
+109.0       3.98
+111.0       2.63
+120.0       2.12
+121.0       4.45
+122.0       4.0
+123.0       3.14
+126.0       2.12
+136.0       2.77
+137.0       3.14
+138.0       3.55
+149.0       4.12
+153.0       4.02
+154.0       39.3
+155.0       3.16
+168.0       3.29
+183.0       3.26
+184.0       99.99
+185.0       8.17
+186.0       1.34
+
+SYNONYM: 3,4-DICHLOROPHENOL
+INCHIKEY: WDNBURPWRNALGP-UHFFFAOYSA-N
+FORMULA: C6H4Cl2O
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: Oc(c1)cc(Cl)c(Cl)c1
+INCHI: InChI=1S/C6H4Cl2O/c7-5-2-1-4(9)3-6(5)8/h1-3,9H
+SMILES_2: [H]OC1=C([H])C([H])=C(Cl)C(Cl)=C1[H]
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210335820
+MOLECULAR_FORMULA: C6H4Cl2O
+TOTAL_EXACT_MASS: 161.963920108
+COMPOUND_NAME: 3,4-DICHLOROPHENOL
+SPECTRUM_ID: JP000003
+NOMINAL_MASS: 161.963920108
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 161.96392
+NUM PEAKS: 36
+51.0        2.25
+53.0        6.4
+60.0        4.13
+61.0        9.78
+62.0        20.36
+63.0        32.41
+64.0        5.58
+71.0        2.16
+72.0        8.31
+73.0        13.57
+74.0        6.23
+75.0        5.23
+81.0        8.28
+82.0        5.27
+83.0        2.81
+91.0        2.06
+97.0        6.25
+98.0        25.55
+99.0        33.74
+100.0       9.84
+101.0       12.32
+107.0       2.31
+109.0       2.08
+126.0       7.67
+127.0       3.67
+128.0       2.81
+133.0       5.09
+134.0       7.44
+135.0       3.61
+136.0       4.75
+161.0       3.6
+162.0       99.99
+163.0       8.7
+164.0       62.28
+165.0       4.54
+166.0       9.78
+
+SYNONYM: 2,5-DICHLOROPHENOL
+INCHIKEY: RANCECPPZPIPNO-UHFFFAOYSA-N
+FORMULA: C6H4Cl2O
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: Oc(c1)c(Cl)ccc(Cl)1
+INCHI: InChI=1S/C6H4Cl2O/c7-4-1-2-5(8)6(9)3-4/h1-3,9H
+SMILES_2: [H]OC1=C([H])C(Cl)=C([H])C([H])=C1Cl
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210335825
+MOLECULAR_FORMULA: C6H4Cl2O
+TOTAL_EXACT_MASS: 161.963920108
+COMPOUND_NAME: 2,5-DICHLOROPHENOL
+SPECTRUM_ID: JP000004
+NOMINAL_MASS: 161.963920108
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 161.96392
+NUM PEAKS: 44
+51.0        5.05
+52.0        2.29
+53.0        22.87
+59.0        3.69
+60.0        16.58
+61.0        33.26
+62.0        62.1
+63.0        99.99
+64.0        11.61
+65.0        2.73
+66.0        4.11
+71.0        2.98
+72.0        12.03
+73.0        32.28
+74.0        12.69
+75.0        11.42
+81.0        6.65
+82.0        4.64
+83.0        3.82
+84.0        3.02
+85.0        2.81
+87.0        2.86
+89.0        2.17
+90.0        2.05
+91.0        6.28
+96.0        3.57
+97.0        15.64
+98.0        39.0
+99.0        33.72
+100.0       13.84
+101.0       10.87
+126.0       9.01
+127.0       3.11
+128.0       3.25
+133.0       6.28
+134.0       4.28
+135.0       4.21
+136.0       2.59
+161.0       11.74
+162.0       89.04
+163.0       12.37
+164.0       52.89
+165.0       4.62
+166.0       8.78
+
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/split/chunk-size/chunk_1.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/split/chunk-size/chunk_1.msp Tue Jun 27 14:25:01 2023 +0000
[
@@ -0,0 +1,240 @@
+SYNONYM: 2,6-DICHLOROPHENOL
+INCHIKEY: HOLHYSJJBXSLMV-UHFFFAOYSA-N
+FORMULA: C6H4Cl2O
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: Clc(c1)c(O)c(Cl)cc1
+INCHI: InChI=1S/C6H4Cl2O/c7-4-2-1-3-5(8)6(4)9/h1-3,9H
+SMILES_2: [H]OC=1C(Cl)=C([H])C([H])=C([H])C1Cl
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210335848
+MOLECULAR_FORMULA: C6H4Cl2O
+TOTAL_EXACT_MASS: 161.963920108
+COMPOUND_NAME: 2,6-DICHLOROPHENOL
+SPECTRUM_ID: JP000005
+NOMINAL_MASS: 161.963920108
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 161.96392
+NUM PEAKS: 33
+53.0        7.25
+60.0        3.0
+61.0        8.88
+62.0        17.84
+63.0        70.92
+64.0        8.02
+65.0        2.01
+72.0        5.48
+73.0        12.35
+74.0        4.63
+75.0        4.81
+81.0        6.73
+82.0        4.37
+83.0        2.09
+91.0        3.83
+97.0        7.27
+98.0        34.04
+99.0        15.04
+100.0       13.17
+101.0       4.37
+107.0       2.61
+125.0       2.01
+126.0       33.42
+127.0       3.34
+128.0       11.41
+133.0       3.34
+135.0       2.17
+161.0       2.35
+162.0       99.99
+163.0       8.23
+164.0       63.43
+165.0       4.35
+166.0       9.91
+
+SYNONYM: 2,3-DICHLOROPHENOL
+INCHIKEY: UMPSXRYVXUPCOS-UHFFFAOYSA-N
+FORMULA: C6H4Cl2O
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: Oc(c1)c(Cl)c(Cl)cc1
+INCHI: InChI=1S/C6H4Cl2O/c7-4-2-1-3-5(9)6(4)8/h1-3,9H
+SMILES_2: [H]OC=1C([H])=C([H])C([H])=C(Cl)C1Cl
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210335870
+MOLECULAR_FORMULA: C6H4Cl2O
+TOTAL_EXACT_MASS: 161.963920108
+COMPOUND_NAME: 2,3-DICHLOROPHENOL
+SPECTRUM_ID: JP000006
+NOMINAL_MASS: 161.963920108
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 161.96392
+NUM PEAKS: 42
+51.0        4.43
+53.0        10.39
+60.0        9.21
+61.0        24.93
+62.0        43.19
+63.0        99.99
+64.0        12.57
+65.0        4.81
+66.0        3.39
+71.0        3.67
+72.0        15.34
+73.0        25.07
+74.0        11.84
+75.0        8.79
+81.0        4.78
+82.0        3.25
+83.0        2.63
+84.0        3.87
+85.0        2.49
+87.0        5.09
+89.0        2.21
+91.0        6.02
+96.0        3.11
+97.0        12.05
+98.0        35.88
+99.0        22.09
+100.0       13.5
+101.0       6.26
+107.0       3.33
+109.0       2.73
+125.0       3.11
+126.0       59.16
+127.0       5.61
+128.0       19.32
+133.0       5.33
+135.0       2.84
+161.0       2.52
+162.0       68.96
+163.0       6.51
+164.0       51.64
+165.0       2.9
+166.0       7.58
+
+SYNONYM: 2,4-DICHLOROPHENOL
+INCHIKEY: HFZWRUODUSTPEG-UHFFFAOYSA-N
+FORMULA: C6H4Cl2O
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: Oc(c1)c(Cl)cc(Cl)c1
+INCHI: InChI=1S/C6H4Cl2O/c7-4-1-2-6(9)5(8)3-4/h1-3,9H
+SMILES_2: [H]OC1=C([H])C([H])=C(Cl)C([H])=C1Cl
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210335864
+MOLECULAR_FORMULA: C6H4Cl2O
+TOTAL_EXACT_MASS: 161.963920108
+COMPOUND_NAME: 2,4-DICHLOROPHENOL
+SPECTRUM_ID: JP000007
+NOMINAL_MASS: 161.963920108
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 161.96392
+NUM PEAKS: 37
+51.0        3.07
+53.0        12.34
+60.0        6.21
+61.0        19.31
+62.0        35.08
+63.0        99.99
+64.0        10.24
+66.0        2.25
+71.0        3.05
+72.0        10.59
+73.0        19.52
+74.0        8.59
+75.0        6.44
+81.0        6.82
+82.0        4.45
+83.0        2.77
+84.0        2.03
+91.0        2.34
+96.0        3.78
+97.0        31.79
+98.0        38.03
+99.0        21.59
+100.0       13.06
+101.0       4.67
+125.0       4.82
+126.0       20.32
+127.0       3.76
+128.0       7.38
+133.0       4.02
+134.0       2.72
+135.0       2.64
+161.0       19.22
+162.0       94.19
+163.0       15.34
+164.0       55.32
+165.0       5.54
+166.0       9.19
+
+SYNONYM: 3,5-DICHLOROPHENOL
+INCHIKEY: VPOMSPZBQMDLTM-UHFFFAOYSA-N
+FORMULA: C6H4Cl2O
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: Oc(c1)cc(Cl)cc(Cl)1
+INCHI: InChI=1S/C6H4Cl2O/c7-4-1-5(8)3-6(9)2-4/h1-3,9H
+SMILES_2: [H]OC=1C([H])=C(Cl)C([H])=C(Cl)C1[H]
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210336053
+MOLECULAR_FORMULA: C6H4Cl2O
+TOTAL_EXACT_MASS: 161.963920108
+COMPOUND_NAME: 3,5-DICHLOROPHENOL
+SPECTRUM_ID: JP000008
+NOMINAL_MASS: 161.963920108
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 161.96392
+NUM PEAKS: 32
+51.0        1.24
+53.0        4.19
+60.0        3.61
+61.0        8.59
+62.0        16.38
+63.0        31.53
+64.0        4.94
+72.0        4.88
+73.0        10.01
+74.0        4.53
+75.0        3.92
+81.0        6.85
+82.0        4.37
+83.0        2.46
+97.0        7.3
+98.0        27.86
+99.0        28.43
+100.0       10.31
+101.0       9.88
+126.0       8.1
+127.0       4.51
+128.0       3.3
+133.0       4.08
+134.0       6.58
+135.0       2.96
+136.0       4.15
+161.0       3.31
+162.0       99.99
+163.0       8.57
+164.0       60.06
+165.0       4.43
+166.0       9.68
+
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/split/chunk-size/chunk_2.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/split/chunk-size/chunk_2.msp Tue Jun 27 14:25:01 2023 +0000
[
@@ -0,0 +1,179 @@
+SYNONYM: 2,4,5-TRICHLOROPHENOL
+INCHIKEY: LHJGJYXLEPZJPM-UHFFFAOYSA-N
+FORMULA: C6H3Cl3O
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: Oc(c1)c(Cl)cc(Cl)c(Cl)1
+INCHI: InChI=1S/C6H3Cl3O/c7-3-1-5(9)6(10)2-4(3)8/h1-2,10H
+SMILES_2: [H]OC1=C([H])C(Cl)=C(Cl)C([H])=C1Cl
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210336033
+MOLECULAR_FORMULA: C6H3Cl3O
+TOTAL_EXACT_MASS: 195.924947756
+COMPOUND_NAME: 2,4,5-TRICHLOROPHENOL
+SPECTRUM_ID: JP000009
+NOMINAL_MASS: 195.924947756
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 195.92495
+NUM PEAKS: 65
+51.0        2.58
+53.0        14.73
+59.0        2.03
+60.0        12.75
+61.0        30.62
+62.0        36.79
+63.0        19.11
+64.0        2.15
+65.0        5.23
+66.0        13.42
+67.0        7.46
+69.0        2.46
+71.0        6.55
+72.0        13.85
+73.0        16.02
+74.0        7.55
+75.0        4.47
+79.0        2.34
+80.0        8.06
+81.0        5.21
+82.0        3.22
+83.0        7.1
+84.0        6.05
+85.0        6.38
+86.0        2.53
+87.0        3.44
+89.0        1.93
+95.0        3.8
+96.0        33.63
+97.0        67.27
+98.0        25.02
+99.0        31.7
+100.0       5.86
+106.0       2.03
+107.0       8.66
+108.0       3.94
+109.0       6.55
+131.0       12.51
+132.0       48.06
+133.0       32.0
+134.0       33.42
+135.0       18.37
+136.0       6.55
+137.0       2.96
+149.0       6.48
+151.0       3.39
+160.0       10.69
+161.0       4.76
+162.0       10.76
+163.0       3.58
+164.0       3.61
+167.0       4.06
+169.0       3.89
+177.0       4.76
+179.0       2.94
+192.0       6.69
+194.0       4.64
+195.0       6.79
+196.0       99.99
+197.0       11.45
+198.0       92.58
+199.0       7.82
+200.0       29.54
+201.0       2.08
+202.0       3.15
+
+SYNONYM: 2,4,6-TRICHLOROPHENOL
+INCHIKEY: LINPIYWFGCPVIE-UHFFFAOYSA-N
+FORMULA: C6H3Cl3O
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: Clc(c1)cc(Cl)c(O)c(Cl)1
+INCHI: InChI=1S/C6H3Cl3O/c7-3-1-4(8)6(10)5(9)2-3/h1-2,10H
+SMILES_2: [H]OC=1C(Cl)=C([H])C(Cl)=C([H])C1Cl
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210336053
+MOLECULAR_FORMULA: C6H3Cl3O
+TOTAL_EXACT_MASS: 195.924947756
+COMPOUND_NAME: 2,4,6-TRICHLOROPHENOL
+SPECTRUM_ID: JP000010
+NOMINAL_MASS: 195.924947756
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 195.92495
+NUM PEAKS: 66
+53.0        14.63
+55.0        2.49
+57.0        2.2
+60.0        12.21
+61.0        32.06
+62.0        42.22
+63.0        36.9
+64.0        4.32
+65.0        8.43
+66.0        23.0
+67.0        12.65
+68.0        2.71
+71.0        6.78
+72.0        13.68
+73.0        17.64
+74.0        8.84
+75.0        5.57
+80.0        9.94
+81.0        8.84
+82.0        4.21
+83.0        8.62
+84.0        6.16
+85.0        5.83
+87.0        3.92
+89.0        2.2
+90.0        2.89
+91.0        2.09
+95.0        4.84
+96.0        34.11
+97.0        70.76
+98.0        39.72
+99.0        38.18
+100.0       10.63
+101.0       2.64
+106.0       2.45
+107.0       9.09
+108.0       3.77
+109.0       7.22
+111.0       2.23
+125.0       3.44
+126.0       8.91
+127.0       2.05
+128.0       3.52
+131.0       18.48
+132.0       57.96
+133.0       22.12
+134.0       40.71
+135.0       10.45
+136.0       7.81
+160.0       31.84
+161.0       5.2
+162.0       50.47
+163.0       5.2
+164.0       22.81
+166.0       5.57
+167.0       4.1
+168.0       2.56
+169.0       3.63
+195.0       3.59
+196.0       99.99
+197.0       9.68
+198.0       91.34
+199.0       7.07
+200.0       28.42
+201.0       2.09
+202.0       3.04
+
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/split/num-chunks/chunk_0.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/split/num-chunks/chunk_0.msp Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,366 @@\n+SYNONYM: 1-NITROPYRENE\n+INCHIKEY: ALRLPDGCPYIVHP-UHFFFAOYSA-N\n+FORMULA: C16H9NO2\n+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH\n+LICENSE: CC BY-NC-SA\n+INSTRUMENT: VARIAN MAT-44\n+SMILES: [O-1][N+1](=O)c(c4)c(c1)c(c3c4)c(c2cc3)c(ccc2)c1\n+INCHI: InChI=1S/C16H9NO2/c18-17(19)14-9-7-12-5-4-10-2-1-3-11-6-8-13(14)16(12)15(10)11/h1-9H\n+SMILES_2: [H]C=1C([H])=C2C([H])=C([H])C3=C([H])C([H])=C(C=4C([H])=C([H])C(C1[H])=C2C34)N(=O)=O\n+INSTRUMENT_TYPE: EI-B\n+MS_LEVEL: MS1\n+IONIZATION_ENERGY: 70 eV\n+ION_TYPE: [M]+*\n+IONIZATION_MODE: positive\n+LAST_AUTO-CURATION: 1495210335755\n+MOLECULAR_FORMULA: C16H9NO2\n+TOTAL_EXACT_MASS: 247.063328528\n+COMPOUND_NAME: 1-NITROPYRENE\n+SPECTRUM_ID: JP000001\n+NOMINAL_MASS: 247.063328528\n+PRECURSOR_MZ: 0.0\n+PARENT_MASS: 247.06333\n+NUM PEAKS: 75\n+51.0        2.66\n+55.0        8.0\n+57.0        7.33\n+58.0        1.33\n+59.0        1.33\n+60.0        14.0\n+61.0        1.33\n+62.0        3.33\n+63.0        3.33\n+66.0        1.33\n+68.0        8.66\n+70.0        2.0\n+72.0        5.33\n+73.0        7.33\n+74.0        3.33\n+75.0        2.66\n+76.0        2.0\n+78.0        1.33\n+80.0        4.0\n+81.0        2.0\n+82.0        1.33\n+83.0        3.33\n+86.0        12.66\n+87.0        8.66\n+92.0        2.0\n+93.0        10.0\n+94.0        6.0\n+98.0        14.66\n+99.0        83.33\n+100.0       60.66\n+104.0       4.0\n+107.0       1.33\n+108.0       1.33\n+110.0       3.33\n+112.0       1.33\n+113.0       1.33\n+115.0       1.33\n+116.0       1.33\n+120.0       1.33\n+122.0       4.0\n+123.0       2.66\n+124.0       2.66\n+125.0       2.0\n+126.0       1.33\n+134.0       1.33\n+135.0       2.0\n+137.0       1.33\n+147.0       1.33\n+149.0       2.0\n+150.0       4.66\n+151.0       3.33\n+159.0       2.0\n+162.0       2.0\n+163.0       2.66\n+173.0       2.0\n+174.0       8.66\n+175.0       4.66\n+177.0       2.0\n+187.0       5.33\n+188.0       4.66\n+189.0       56.66\n+190.0       12.0\n+191.0       16.66\n+198.0       10.66\n+199.0       9.33\n+200.0       72.66\n+201.0       99.99\n+202.0       16.0\n+203.0       1.33\n+207.0       1.33\n+214.0       1.33\n+217.0       25.33\n+218.0       5.33\n+247.0       52.66\n+248.0       10.16\n+\n+SYNONYM: 3,4-DICHLOROPHENOL\n+INCHIKEY: WDNBURPWRNALGP-UHFFFAOYSA-N\n+FORMULA: C6H4Cl2O\n+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH\n+LICENSE: CC BY-NC-SA\n+INSTRUMENT: VARIAN MAT-44\n+SMILES: Oc(c1)cc(Cl)c(Cl)c1\n+INCHI: InChI=1S/C6H4Cl2O/c7-5-2-1-4(9)3-6(5)8/h1-3,9H\n+SMILES_2: [H]OC1=C([H])C([H])=C(Cl)C(Cl)=C1[H]\n+INSTRUMENT_TYPE: EI-B\n+MS_LEVEL: MS1\n+IONIZATION_ENERGY: 70 eV\n+ION_TYPE: [M]+*\n+IONIZATION_MODE: positive\n+LAST_AUTO-CURATION: 1495210335820\n+MOLECULAR_FORMULA: C6H4Cl2O\n+TOTAL_EXACT_MASS: 161.963920108\n+COMPOUND_NAME: 3,4-DICHLOROPHENOL\n+SPECTRUM_ID: JP000003\n+NOMINAL_MASS: 161.963920108\n+PRECURSOR_MZ: 0.0\n+PARENT_MASS: 161.96392\n+NUM PEAKS: 36\n+51.0        2.25\n+53.0        6.4\n+60.0        4.13\n+61.0        9.78\n+62.0        20.36\n+63.0        32.41\n+64.0        5.58\n+71.0        2.16\n+72.0        8.31\n+73.0        13.57\n+74.0        6.23\n+75.0        5.23\n+81.0        8.28\n+82.0        5.27\n+83.0        2.81\n+91.0        2.06\n+97.0        6.25\n+98.0        25.55\n+99.0        33.74\n+100.0       9.84\n+101.0       12.32\n+107.0       2.31\n+109.0       2.08\n+126.0       7.67\n+127.0       3.67\n+128.0       2.81\n+133.0       5.09\n+134.0       7.44\n+135.0       3.61\n+136.0       4.75\n+161.0       3.6\n+162.0       99.99\n+163.0       8.7\n+164.0       62.28\n+165.0       4.54\n+166.0       9.78\n+\n+SYNONYM: 2,6-DICHLOROPHENOL\n+INCHIKEY: HOLHYSJJBXSLMV-UHFFFAOYSA-N\n+FORMULA: C6H4Cl2O\n+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH\n+LICENSE: CC BY-NC-SA\n+INSTRUMENT: VARIAN MAT-44\n+SMILES: Clc(c1)c(O)c(Cl)cc1\n+INCHI: InChI=1S/C6H4Cl2O/c7-4-2-1-3-5(8)6(4)9/h1-3,9H\n+SMILES_2: [H]OC=1C(Cl)=C([H])C([H])=C([H])C1Cl\n+INSTRUMENT_TYPE: EI-B\n+MS_LEVEL: MS1\n+IONIZATION_ENERGY: 70 eV\n+ION_TYPE: [M]+*\n+IONIZATION_MODE: positive\n+LAST_AUTO-CURATION: 1495210335848\n+MOLECULAR_FORMULA: C6H4Cl2O\n+TOTA'..b'MPOUND_NAME: 2,6-DICHLOROPHENOL\n+SPECTRUM_ID: JP000005\n+NOMINAL_MASS: 161.963920108\n+PRECURSOR_MZ: 0.0\n+PARENT_MASS: 161.96392\n+NUM PEAKS: 33\n+53.0        7.25\n+60.0        3.0\n+61.0        8.88\n+62.0        17.84\n+63.0        70.92\n+64.0        8.02\n+65.0        2.01\n+72.0        5.48\n+73.0        12.35\n+74.0        4.63\n+75.0        4.81\n+81.0        6.73\n+82.0        4.37\n+83.0        2.09\n+91.0        3.83\n+97.0        7.27\n+98.0        34.04\n+99.0        15.04\n+100.0       13.17\n+101.0       4.37\n+107.0       2.61\n+125.0       2.01\n+126.0       33.42\n+127.0       3.34\n+128.0       11.41\n+133.0       3.34\n+135.0       2.17\n+161.0       2.35\n+162.0       99.99\n+163.0       8.23\n+164.0       63.43\n+165.0       4.35\n+166.0       9.91\n+\n+SYNONYM: 2,4-DICHLOROPHENOL\n+INCHIKEY: HFZWRUODUSTPEG-UHFFFAOYSA-N\n+FORMULA: C6H4Cl2O\n+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH\n+LICENSE: CC BY-NC-SA\n+INSTRUMENT: VARIAN MAT-44\n+SMILES: Oc(c1)c(Cl)cc(Cl)c1\n+INCHI: InChI=1S/C6H4Cl2O/c7-4-1-2-6(9)5(8)3-4/h1-3,9H\n+SMILES_2: [H]OC1=C([H])C([H])=C(Cl)C([H])=C1Cl\n+INSTRUMENT_TYPE: EI-B\n+MS_LEVEL: MS1\n+IONIZATION_ENERGY: 70 eV\n+ION_TYPE: [M]+*\n+IONIZATION_MODE: positive\n+LAST_AUTO-CURATION: 1495210335864\n+MOLECULAR_FORMULA: C6H4Cl2O\n+TOTAL_EXACT_MASS: 161.963920108\n+COMPOUND_NAME: 2,4-DICHLOROPHENOL\n+SPECTRUM_ID: JP000007\n+NOMINAL_MASS: 161.963920108\n+PRECURSOR_MZ: 0.0\n+PARENT_MASS: 161.96392\n+NUM PEAKS: 37\n+51.0        3.07\n+53.0        12.34\n+60.0        6.21\n+61.0        19.31\n+62.0        35.08\n+63.0        99.99\n+64.0        10.24\n+66.0        2.25\n+71.0        3.05\n+72.0        10.59\n+73.0        19.52\n+74.0        8.59\n+75.0        6.44\n+81.0        6.82\n+82.0        4.45\n+83.0        2.77\n+84.0        2.03\n+91.0        2.34\n+96.0        3.78\n+97.0        31.79\n+98.0        38.03\n+99.0        21.59\n+100.0       13.06\n+101.0       4.67\n+125.0       4.82\n+126.0       20.32\n+127.0       3.76\n+128.0       7.38\n+133.0       4.02\n+134.0       2.72\n+135.0       2.64\n+161.0       19.22\n+162.0       94.19\n+163.0       15.34\n+164.0       55.32\n+165.0       5.54\n+166.0       9.19\n+\n+SYNONYM: 2,4,5-TRICHLOROPHENOL\n+INCHIKEY: LHJGJYXLEPZJPM-UHFFFAOYSA-N\n+FORMULA: C6H3Cl3O\n+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH\n+LICENSE: CC BY-NC-SA\n+INSTRUMENT: VARIAN MAT-44\n+SMILES: Oc(c1)c(Cl)cc(Cl)c(Cl)1\n+INCHI: InChI=1S/C6H3Cl3O/c7-3-1-5(9)6(10)2-4(3)8/h1-2,10H\n+SMILES_2: [H]OC1=C([H])C(Cl)=C(Cl)C([H])=C1Cl\n+INSTRUMENT_TYPE: EI-B\n+MS_LEVEL: MS1\n+IONIZATION_ENERGY: 70 eV\n+ION_TYPE: [M]+*\n+IONIZATION_MODE: positive\n+LAST_AUTO-CURATION: 1495210336033\n+MOLECULAR_FORMULA: C6H3Cl3O\n+TOTAL_EXACT_MASS: 195.924947756\n+COMPOUND_NAME: 2,4,5-TRICHLOROPHENOL\n+SPECTRUM_ID: JP000009\n+NOMINAL_MASS: 195.924947756\n+PRECURSOR_MZ: 0.0\n+PARENT_MASS: 195.92495\n+NUM PEAKS: 65\n+51.0        2.58\n+53.0        14.73\n+59.0        2.03\n+60.0        12.75\n+61.0        30.62\n+62.0        36.79\n+63.0        19.11\n+64.0        2.15\n+65.0        5.23\n+66.0        13.42\n+67.0        7.46\n+69.0        2.46\n+71.0        6.55\n+72.0        13.85\n+73.0        16.02\n+74.0        7.55\n+75.0        4.47\n+79.0        2.34\n+80.0        8.06\n+81.0        5.21\n+82.0        3.22\n+83.0        7.1\n+84.0        6.05\n+85.0        6.38\n+86.0        2.53\n+87.0        3.44\n+89.0        1.93\n+95.0        3.8\n+96.0        33.63\n+97.0        67.27\n+98.0        25.02\n+99.0        31.7\n+100.0       5.86\n+106.0       2.03\n+107.0       8.66\n+108.0       3.94\n+109.0       6.55\n+131.0       12.51\n+132.0       48.06\n+133.0       32.0\n+134.0       33.42\n+135.0       18.37\n+136.0       6.55\n+137.0       2.96\n+149.0       6.48\n+151.0       3.39\n+160.0       10.69\n+161.0       4.76\n+162.0       10.76\n+163.0       3.58\n+164.0       3.61\n+167.0       4.06\n+169.0       3.89\n+177.0       4.76\n+179.0       2.94\n+192.0       6.69\n+194.0       4.64\n+195.0       6.79\n+196.0       99.99\n+197.0       11.45\n+198.0       92.58\n+199.0       7.82\n+200.0       29.54\n+201.0       2.08\n+202.0       3.15\n+\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/split/num-chunks/chunk_1.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/split/num-chunks/chunk_1.msp Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,368 @@\n+SYNONYM: 2,4-DINITROPHENOL\n+INCHIKEY: UFBJCMHMOXMLKC-UHFFFAOYSA-N\n+FORMULA: C6H4N2O5\n+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH\n+LICENSE: CC BY-NC-SA\n+INSTRUMENT: VARIAN MAT-44\n+SMILES: [O-1][N+1](=O)c(c1)cc([N+1]([O-1])=O)c(O)c1\n+INCHI: InChI=1S/C6H4N2O5/c9-6-2-1-4(7(10)11)3-5(6)8(12)13/h1-3,9H\n+SMILES_2: [H]OC1=C([H])C([H])=C(C([H])=C1N(=O)=O)N(=O)=O\n+INSTRUMENT_TYPE: EI-B\n+MS_LEVEL: MS1\n+IONIZATION_ENERGY: 70 eV\n+ION_TYPE: [M]+*\n+IONIZATION_MODE: positive\n+LAST_AUTO-CURATION: 1495210335764\n+MOLECULAR_FORMULA: C6H4N2O5\n+TOTAL_EXACT_MASS: 184.01202122799998\n+COMPOUND_NAME: 2,4-DINITROPHENOL\n+SPECTRUM_ID: JP000002\n+NOMINAL_MASS: 184.01202122799998\n+PRECURSOR_MZ: 0.0\n+PARENT_MASS: 184.01202\n+NUM PEAKS: 64\n+51.0        27.22\n+52.0        19.9\n+53.0        61.8\n+54.0        6.76\n+55.0        13.95\n+56.0        3.86\n+57.0        11.52\n+60.0        6.43\n+61.0        13.38\n+62.0        36.19\n+63.0        61.37\n+64.0        26.2\n+65.0        6.74\n+66.0        5.1\n+67.0        7.43\n+68.0        10.32\n+69.0        29.16\n+70.0        5.53\n+71.0        6.11\n+73.0        4.14\n+74.0        3.92\n+75.0        3.49\n+76.0        4.33\n+77.0        6.21\n+78.0        5.1\n+79.0        35.07\n+80.0        9.85\n+81.0        16.0\n+82.0        5.37\n+83.0        6.13\n+84.0        2.96\n+85.0        3.0\n+90.0        12.01\n+91.0        53.25\n+92.0        28.32\n+93.0        18.25\n+94.0        3.51\n+95.0        6.41\n+96.0        5.43\n+97.0        5.12\n+98.0        2.43\n+105.0       3.76\n+106.0       6.35\n+107.0       38.97\n+108.0       7.11\n+109.0       3.98\n+111.0       2.63\n+120.0       2.12\n+121.0       4.45\n+122.0       4.0\n+123.0       3.14\n+126.0       2.12\n+136.0       2.77\n+137.0       3.14\n+138.0       3.55\n+149.0       4.12\n+153.0       4.02\n+154.0       39.3\n+155.0       3.16\n+168.0       3.29\n+183.0       3.26\n+184.0       99.99\n+185.0       8.17\n+186.0       1.34\n+\n+SYNONYM: 2,5-DICHLOROPHENOL\n+INCHIKEY: RANCECPPZPIPNO-UHFFFAOYSA-N\n+FORMULA: C6H4Cl2O\n+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH\n+LICENSE: CC BY-NC-SA\n+INSTRUMENT: VARIAN MAT-44\n+SMILES: Oc(c1)c(Cl)ccc(Cl)1\n+INCHI: InChI=1S/C6H4Cl2O/c7-4-1-2-5(8)6(9)3-4/h1-3,9H\n+SMILES_2: [H]OC1=C([H])C(Cl)=C([H])C([H])=C1Cl\n+INSTRUMENT_TYPE: EI-B\n+MS_LEVEL: MS1\n+IONIZATION_ENERGY: 70 eV\n+ION_TYPE: [M]+*\n+IONIZATION_MODE: positive\n+LAST_AUTO-CURATION: 1495210335825\n+MOLECULAR_FORMULA: C6H4Cl2O\n+TOTAL_EXACT_MASS: 161.963920108\n+COMPOUND_NAME: 2,5-DICHLOROPHENOL\n+SPECTRUM_ID: JP000004\n+NOMINAL_MASS: 161.963920108\n+PRECURSOR_MZ: 0.0\n+PARENT_MASS: 161.96392\n+NUM PEAKS: 44\n+51.0        5.05\n+52.0        2.29\n+53.0        22.87\n+59.0        3.69\n+60.0        16.58\n+61.0        33.26\n+62.0        62.1\n+63.0        99.99\n+64.0        11.61\n+65.0        2.73\n+66.0        4.11\n+71.0        2.98\n+72.0        12.03\n+73.0        32.28\n+74.0        12.69\n+75.0        11.42\n+81.0        6.65\n+82.0        4.64\n+83.0        3.82\n+84.0        3.02\n+85.0        2.81\n+87.0        2.86\n+89.0        2.17\n+90.0        2.05\n+91.0        6.28\n+96.0        3.57\n+97.0        15.64\n+98.0        39.0\n+99.0        33.72\n+100.0       13.84\n+101.0       10.87\n+126.0       9.01\n+127.0       3.11\n+128.0       3.25\n+133.0       6.28\n+134.0       4.28\n+135.0       4.21\n+136.0       2.59\n+161.0       11.74\n+162.0       89.04\n+163.0       12.37\n+164.0       52.89\n+165.0       4.62\n+166.0       8.78\n+\n+SYNONYM: 2,3-DICHLOROPHENOL\n+INCHIKEY: UMPSXRYVXUPCOS-UHFFFAOYSA-N\n+FORMULA: C6H4Cl2O\n+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH\n+LICENSE: CC BY-NC-SA\n+INSTRUMENT: VARIAN MAT-44\n+SMILES: Oc(c1)c(Cl)c(Cl)cc1\n+INCHI: InChI=1S/C6H4Cl2O/c7-4-2-1-3-5(9)6(4)8/h1-3,9H\n+SMILES_2: [H]OC=1C([H])=C([H])C([H])=C(Cl)C1Cl\n+INSTRUMENT_TYPE: EI-B\n+MS_LEVEL: MS1\n+IONIZATION_ENERGY: 70 eV\n+ION_TYPE: [M]+*\n+IONIZATION_MODE: positive\n+LAST_AUTO-CURATION: 1495210335870\n+MOLECULAR_FORMULA: C6H4Cl2O\n+TOTAL_EXACT_MASS: 161.963920108\n+COMPOUND_NAME: 2,3-DICHLOROPHENOL\n+SPECTRUM_ID: J'..b'\n+PRECURSOR_MZ: 0.0\n+PARENT_MASS: 161.96392\n+NUM PEAKS: 42\n+51.0        4.43\n+53.0        10.39\n+60.0        9.21\n+61.0        24.93\n+62.0        43.19\n+63.0        99.99\n+64.0        12.57\n+65.0        4.81\n+66.0        3.39\n+71.0        3.67\n+72.0        15.34\n+73.0        25.07\n+74.0        11.84\n+75.0        8.79\n+81.0        4.78\n+82.0        3.25\n+83.0        2.63\n+84.0        3.87\n+85.0        2.49\n+87.0        5.09\n+89.0        2.21\n+91.0        6.02\n+96.0        3.11\n+97.0        12.05\n+98.0        35.88\n+99.0        22.09\n+100.0       13.5\n+101.0       6.26\n+107.0       3.33\n+109.0       2.73\n+125.0       3.11\n+126.0       59.16\n+127.0       5.61\n+128.0       19.32\n+133.0       5.33\n+135.0       2.84\n+161.0       2.52\n+162.0       68.96\n+163.0       6.51\n+164.0       51.64\n+165.0       2.9\n+166.0       7.58\n+\n+SYNONYM: 3,5-DICHLOROPHENOL\n+INCHIKEY: VPOMSPZBQMDLTM-UHFFFAOYSA-N\n+FORMULA: C6H4Cl2O\n+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH\n+LICENSE: CC BY-NC-SA\n+INSTRUMENT: VARIAN MAT-44\n+SMILES: Oc(c1)cc(Cl)cc(Cl)1\n+INCHI: InChI=1S/C6H4Cl2O/c7-4-1-5(8)3-6(9)2-4/h1-3,9H\n+SMILES_2: [H]OC=1C([H])=C(Cl)C([H])=C(Cl)C1[H]\n+INSTRUMENT_TYPE: EI-B\n+MS_LEVEL: MS1\n+IONIZATION_ENERGY: 70 eV\n+ION_TYPE: [M]+*\n+IONIZATION_MODE: positive\n+LAST_AUTO-CURATION: 1495210336053\n+MOLECULAR_FORMULA: C6H4Cl2O\n+TOTAL_EXACT_MASS: 161.963920108\n+COMPOUND_NAME: 3,5-DICHLOROPHENOL\n+SPECTRUM_ID: JP000008\n+NOMINAL_MASS: 161.963920108\n+PRECURSOR_MZ: 0.0\n+PARENT_MASS: 161.96392\n+NUM PEAKS: 32\n+51.0        1.24\n+53.0        4.19\n+60.0        3.61\n+61.0        8.59\n+62.0        16.38\n+63.0        31.53\n+64.0        4.94\n+72.0        4.88\n+73.0        10.01\n+74.0        4.53\n+75.0        3.92\n+81.0        6.85\n+82.0        4.37\n+83.0        2.46\n+97.0        7.3\n+98.0        27.86\n+99.0        28.43\n+100.0       10.31\n+101.0       9.88\n+126.0       8.1\n+127.0       4.51\n+128.0       3.3\n+133.0       4.08\n+134.0       6.58\n+135.0       2.96\n+136.0       4.15\n+161.0       3.31\n+162.0       99.99\n+163.0       8.57\n+164.0       60.06\n+165.0       4.43\n+166.0       9.68\n+\n+SYNONYM: 2,4,6-TRICHLOROPHENOL\n+INCHIKEY: LINPIYWFGCPVIE-UHFFFAOYSA-N\n+FORMULA: C6H3Cl3O\n+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH\n+LICENSE: CC BY-NC-SA\n+INSTRUMENT: VARIAN MAT-44\n+SMILES: Clc(c1)cc(Cl)c(O)c(Cl)1\n+INCHI: InChI=1S/C6H3Cl3O/c7-3-1-4(8)6(10)5(9)2-3/h1-2,10H\n+SMILES_2: [H]OC=1C(Cl)=C([H])C(Cl)=C([H])C1Cl\n+INSTRUMENT_TYPE: EI-B\n+MS_LEVEL: MS1\n+IONIZATION_ENERGY: 70 eV\n+ION_TYPE: [M]+*\n+IONIZATION_MODE: positive\n+LAST_AUTO-CURATION: 1495210336053\n+MOLECULAR_FORMULA: C6H3Cl3O\n+TOTAL_EXACT_MASS: 195.924947756\n+COMPOUND_NAME: 2,4,6-TRICHLOROPHENOL\n+SPECTRUM_ID: JP000010\n+NOMINAL_MASS: 195.924947756\n+PRECURSOR_MZ: 0.0\n+PARENT_MASS: 195.92495\n+NUM PEAKS: 66\n+53.0        14.63\n+55.0        2.49\n+57.0        2.2\n+60.0        12.21\n+61.0        32.06\n+62.0        42.22\n+63.0        36.9\n+64.0        4.32\n+65.0        8.43\n+66.0        23.0\n+67.0        12.65\n+68.0        2.71\n+71.0        6.78\n+72.0        13.68\n+73.0        17.64\n+74.0        8.84\n+75.0        5.57\n+80.0        9.94\n+81.0        8.84\n+82.0        4.21\n+83.0        8.62\n+84.0        6.16\n+85.0        5.83\n+87.0        3.92\n+89.0        2.2\n+90.0        2.89\n+91.0        2.09\n+95.0        4.84\n+96.0        34.11\n+97.0        70.76\n+98.0        39.72\n+99.0        38.18\n+100.0       10.63\n+101.0       2.64\n+106.0       2.45\n+107.0       9.09\n+108.0       3.77\n+109.0       7.22\n+111.0       2.23\n+125.0       3.44\n+126.0       8.91\n+127.0       2.05\n+128.0       3.52\n+131.0       18.48\n+132.0       57.96\n+133.0       22.12\n+134.0       40.71\n+135.0       10.45\n+136.0       7.81\n+160.0       31.84\n+161.0       5.2\n+162.0       50.47\n+163.0       5.2\n+164.0       22.81\n+166.0       5.57\n+167.0       4.1\n+168.0       2.56\n+169.0       3.63\n+195.0       3.59\n+196.0       99.99\n+197.0       9.68\n+198.0       91.34\n+199.0       7.07\n+200.0       28.42\n+201.0       2.09\n+202.0       3.04\n+\n'
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/split/one-per-file/1NITROPYRENE.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/split/one-per-file/1NITROPYRENE.msp Tue Jun 27 14:25:01 2023 +0000
[
@@ -0,0 +1,99 @@
+SYNONYM: 1-NITROPYRENE
+INCHIKEY: ALRLPDGCPYIVHP-UHFFFAOYSA-N
+FORMULA: C16H9NO2
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: [O-1][N+1](=O)c(c4)c(c1)c(c3c4)c(c2cc3)c(ccc2)c1
+INCHI: InChI=1S/C16H9NO2/c18-17(19)14-9-7-12-5-4-10-2-1-3-11-6-8-13(14)16(12)15(10)11/h1-9H
+SMILES_2: [H]C=1C([H])=C2C([H])=C([H])C3=C([H])C([H])=C(C=4C([H])=C([H])C(C1[H])=C2C34)N(=O)=O
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210335755
+MOLECULAR_FORMULA: C16H9NO2
+TOTAL_EXACT_MASS: 247.063328528
+COMPOUND_NAME: 1-NITROPYRENE
+SPECTRUM_ID: JP000001
+NOMINAL_MASS: 247.063328528
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 247.06333
+NUM PEAKS: 75
+51.0        2.66
+55.0        8.0
+57.0        7.33
+58.0        1.33
+59.0        1.33
+60.0        14.0
+61.0        1.33
+62.0        3.33
+63.0        3.33
+66.0        1.33
+68.0        8.66
+70.0        2.0
+72.0        5.33
+73.0        7.33
+74.0        3.33
+75.0        2.66
+76.0        2.0
+78.0        1.33
+80.0        4.0
+81.0        2.0
+82.0        1.33
+83.0        3.33
+86.0        12.66
+87.0        8.66
+92.0        2.0
+93.0        10.0
+94.0        6.0
+98.0        14.66
+99.0        83.33
+100.0       60.66
+104.0       4.0
+107.0       1.33
+108.0       1.33
+110.0       3.33
+112.0       1.33
+113.0       1.33
+115.0       1.33
+116.0       1.33
+120.0       1.33
+122.0       4.0
+123.0       2.66
+124.0       2.66
+125.0       2.0
+126.0       1.33
+134.0       1.33
+135.0       2.0
+137.0       1.33
+147.0       1.33
+149.0       2.0
+150.0       4.66
+151.0       3.33
+159.0       2.0
+162.0       2.0
+163.0       2.66
+173.0       2.0
+174.0       8.66
+175.0       4.66
+177.0       2.0
+187.0       5.33
+188.0       4.66
+189.0       56.66
+190.0       12.0
+191.0       16.66
+198.0       10.66
+199.0       9.33
+200.0       72.66
+201.0       99.99
+202.0       16.0
+203.0       1.33
+207.0       1.33
+214.0       1.33
+217.0       25.33
+218.0       5.33
+247.0       52.66
+248.0       10.16
+
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/split/one-per-file/23DICHLOROPHENOL.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/split/one-per-file/23DICHLOROPHENOL.msp Tue Jun 27 14:25:01 2023 +0000
[
@@ -0,0 +1,66 @@
+SYNONYM: 2,3-DICHLOROPHENOL
+INCHIKEY: UMPSXRYVXUPCOS-UHFFFAOYSA-N
+FORMULA: C6H4Cl2O
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: Oc(c1)c(Cl)c(Cl)cc1
+INCHI: InChI=1S/C6H4Cl2O/c7-4-2-1-3-5(9)6(4)8/h1-3,9H
+SMILES_2: [H]OC=1C([H])=C([H])C([H])=C(Cl)C1Cl
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210335870
+MOLECULAR_FORMULA: C6H4Cl2O
+TOTAL_EXACT_MASS: 161.963920108
+COMPOUND_NAME: 2,3-DICHLOROPHENOL
+SPECTRUM_ID: JP000006
+NOMINAL_MASS: 161.963920108
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 161.96392
+NUM PEAKS: 42
+51.0        4.43
+53.0        10.39
+60.0        9.21
+61.0        24.93
+62.0        43.19
+63.0        99.99
+64.0        12.57
+65.0        4.81
+66.0        3.39
+71.0        3.67
+72.0        15.34
+73.0        25.07
+74.0        11.84
+75.0        8.79
+81.0        4.78
+82.0        3.25
+83.0        2.63
+84.0        3.87
+85.0        2.49
+87.0        5.09
+89.0        2.21
+91.0        6.02
+96.0        3.11
+97.0        12.05
+98.0        35.88
+99.0        22.09
+100.0       13.5
+101.0       6.26
+107.0       3.33
+109.0       2.73
+125.0       3.11
+126.0       59.16
+127.0       5.61
+128.0       19.32
+133.0       5.33
+135.0       2.84
+161.0       2.52
+162.0       68.96
+163.0       6.51
+164.0       51.64
+165.0       2.9
+166.0       7.58
+
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/split/one-per-file/245TRICHLOROPHENOL.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/split/one-per-file/245TRICHLOROPHENOL.msp Tue Jun 27 14:25:01 2023 +0000
[
@@ -0,0 +1,89 @@
+SYNONYM: 2,4,5-TRICHLOROPHENOL
+INCHIKEY: LHJGJYXLEPZJPM-UHFFFAOYSA-N
+FORMULA: C6H3Cl3O
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: Oc(c1)c(Cl)cc(Cl)c(Cl)1
+INCHI: InChI=1S/C6H3Cl3O/c7-3-1-5(9)6(10)2-4(3)8/h1-2,10H
+SMILES_2: [H]OC1=C([H])C(Cl)=C(Cl)C([H])=C1Cl
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210336033
+MOLECULAR_FORMULA: C6H3Cl3O
+TOTAL_EXACT_MASS: 195.924947756
+COMPOUND_NAME: 2,4,5-TRICHLOROPHENOL
+SPECTRUM_ID: JP000009
+NOMINAL_MASS: 195.924947756
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 195.92495
+NUM PEAKS: 65
+51.0        2.58
+53.0        14.73
+59.0        2.03
+60.0        12.75
+61.0        30.62
+62.0        36.79
+63.0        19.11
+64.0        2.15
+65.0        5.23
+66.0        13.42
+67.0        7.46
+69.0        2.46
+71.0        6.55
+72.0        13.85
+73.0        16.02
+74.0        7.55
+75.0        4.47
+79.0        2.34
+80.0        8.06
+81.0        5.21
+82.0        3.22
+83.0        7.1
+84.0        6.05
+85.0        6.38
+86.0        2.53
+87.0        3.44
+89.0        1.93
+95.0        3.8
+96.0        33.63
+97.0        67.27
+98.0        25.02
+99.0        31.7
+100.0       5.86
+106.0       2.03
+107.0       8.66
+108.0       3.94
+109.0       6.55
+131.0       12.51
+132.0       48.06
+133.0       32.0
+134.0       33.42
+135.0       18.37
+136.0       6.55
+137.0       2.96
+149.0       6.48
+151.0       3.39
+160.0       10.69
+161.0       4.76
+162.0       10.76
+163.0       3.58
+164.0       3.61
+167.0       4.06
+169.0       3.89
+177.0       4.76
+179.0       2.94
+192.0       6.69
+194.0       4.64
+195.0       6.79
+196.0       99.99
+197.0       11.45
+198.0       92.58
+199.0       7.82
+200.0       29.54
+201.0       2.08
+202.0       3.15
+
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/split/one-per-file/246TRICHLOROPHENOL.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/split/one-per-file/246TRICHLOROPHENOL.msp Tue Jun 27 14:25:01 2023 +0000
[
@@ -0,0 +1,90 @@
+SYNONYM: 2,4,6-TRICHLOROPHENOL
+INCHIKEY: LINPIYWFGCPVIE-UHFFFAOYSA-N
+FORMULA: C6H3Cl3O
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: Clc(c1)cc(Cl)c(O)c(Cl)1
+INCHI: InChI=1S/C6H3Cl3O/c7-3-1-4(8)6(10)5(9)2-3/h1-2,10H
+SMILES_2: [H]OC=1C(Cl)=C([H])C(Cl)=C([H])C1Cl
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210336053
+MOLECULAR_FORMULA: C6H3Cl3O
+TOTAL_EXACT_MASS: 195.924947756
+COMPOUND_NAME: 2,4,6-TRICHLOROPHENOL
+SPECTRUM_ID: JP000010
+NOMINAL_MASS: 195.924947756
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 195.92495
+NUM PEAKS: 66
+53.0        14.63
+55.0        2.49
+57.0        2.2
+60.0        12.21
+61.0        32.06
+62.0        42.22
+63.0        36.9
+64.0        4.32
+65.0        8.43
+66.0        23.0
+67.0        12.65
+68.0        2.71
+71.0        6.78
+72.0        13.68
+73.0        17.64
+74.0        8.84
+75.0        5.57
+80.0        9.94
+81.0        8.84
+82.0        4.21
+83.0        8.62
+84.0        6.16
+85.0        5.83
+87.0        3.92
+89.0        2.2
+90.0        2.89
+91.0        2.09
+95.0        4.84
+96.0        34.11
+97.0        70.76
+98.0        39.72
+99.0        38.18
+100.0       10.63
+101.0       2.64
+106.0       2.45
+107.0       9.09
+108.0       3.77
+109.0       7.22
+111.0       2.23
+125.0       3.44
+126.0       8.91
+127.0       2.05
+128.0       3.52
+131.0       18.48
+132.0       57.96
+133.0       22.12
+134.0       40.71
+135.0       10.45
+136.0       7.81
+160.0       31.84
+161.0       5.2
+162.0       50.47
+163.0       5.2
+164.0       22.81
+166.0       5.57
+167.0       4.1
+168.0       2.56
+169.0       3.63
+195.0       3.59
+196.0       99.99
+197.0       9.68
+198.0       91.34
+199.0       7.07
+200.0       28.42
+201.0       2.09
+202.0       3.04
+
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/split/one-per-file/24DICHLOROPHENOL.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/split/one-per-file/24DICHLOROPHENOL.msp Tue Jun 27 14:25:01 2023 +0000
[
@@ -0,0 +1,61 @@
+SYNONYM: 2,4-DICHLOROPHENOL
+INCHIKEY: HFZWRUODUSTPEG-UHFFFAOYSA-N
+FORMULA: C6H4Cl2O
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: Oc(c1)c(Cl)cc(Cl)c1
+INCHI: InChI=1S/C6H4Cl2O/c7-4-1-2-6(9)5(8)3-4/h1-3,9H
+SMILES_2: [H]OC1=C([H])C([H])=C(Cl)C([H])=C1Cl
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210335864
+MOLECULAR_FORMULA: C6H4Cl2O
+TOTAL_EXACT_MASS: 161.963920108
+COMPOUND_NAME: 2,4-DICHLOROPHENOL
+SPECTRUM_ID: JP000007
+NOMINAL_MASS: 161.963920108
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 161.96392
+NUM PEAKS: 37
+51.0        3.07
+53.0        12.34
+60.0        6.21
+61.0        19.31
+62.0        35.08
+63.0        99.99
+64.0        10.24
+66.0        2.25
+71.0        3.05
+72.0        10.59
+73.0        19.52
+74.0        8.59
+75.0        6.44
+81.0        6.82
+82.0        4.45
+83.0        2.77
+84.0        2.03
+91.0        2.34
+96.0        3.78
+97.0        31.79
+98.0        38.03
+99.0        21.59
+100.0       13.06
+101.0       4.67
+125.0       4.82
+126.0       20.32
+127.0       3.76
+128.0       7.38
+133.0       4.02
+134.0       2.72
+135.0       2.64
+161.0       19.22
+162.0       94.19
+163.0       15.34
+164.0       55.32
+165.0       5.54
+166.0       9.19
+
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/split/one-per-file/24DINITROPHENOL.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/split/one-per-file/24DINITROPHENOL.msp Tue Jun 27 14:25:01 2023 +0000
[
@@ -0,0 +1,88 @@
+SYNONYM: 2,4-DINITROPHENOL
+INCHIKEY: UFBJCMHMOXMLKC-UHFFFAOYSA-N
+FORMULA: C6H4N2O5
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: [O-1][N+1](=O)c(c1)cc([N+1]([O-1])=O)c(O)c1
+INCHI: InChI=1S/C6H4N2O5/c9-6-2-1-4(7(10)11)3-5(6)8(12)13/h1-3,9H
+SMILES_2: [H]OC1=C([H])C([H])=C(C([H])=C1N(=O)=O)N(=O)=O
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210335764
+MOLECULAR_FORMULA: C6H4N2O5
+TOTAL_EXACT_MASS: 184.01202122799998
+COMPOUND_NAME: 2,4-DINITROPHENOL
+SPECTRUM_ID: JP000002
+NOMINAL_MASS: 184.01202122799998
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 184.01202
+NUM PEAKS: 64
+51.0        27.22
+52.0        19.9
+53.0        61.8
+54.0        6.76
+55.0        13.95
+56.0        3.86
+57.0        11.52
+60.0        6.43
+61.0        13.38
+62.0        36.19
+63.0        61.37
+64.0        26.2
+65.0        6.74
+66.0        5.1
+67.0        7.43
+68.0        10.32
+69.0        29.16
+70.0        5.53
+71.0        6.11
+73.0        4.14
+74.0        3.92
+75.0        3.49
+76.0        4.33
+77.0        6.21
+78.0        5.1
+79.0        35.07
+80.0        9.85
+81.0        16.0
+82.0        5.37
+83.0        6.13
+84.0        2.96
+85.0        3.0
+90.0        12.01
+91.0        53.25
+92.0        28.32
+93.0        18.25
+94.0        3.51
+95.0        6.41
+96.0        5.43
+97.0        5.12
+98.0        2.43
+105.0       3.76
+106.0       6.35
+107.0       38.97
+108.0       7.11
+109.0       3.98
+111.0       2.63
+120.0       2.12
+121.0       4.45
+122.0       4.0
+123.0       3.14
+126.0       2.12
+136.0       2.77
+137.0       3.14
+138.0       3.55
+149.0       4.12
+153.0       4.02
+154.0       39.3
+155.0       3.16
+168.0       3.29
+183.0       3.26
+184.0       99.99
+185.0       8.17
+186.0       1.34
+
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/split/one-per-file/25DICHLOROPHENOL.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/split/one-per-file/25DICHLOROPHENOL.msp Tue Jun 27 14:25:01 2023 +0000
[
@@ -0,0 +1,68 @@
+SYNONYM: 2,5-DICHLOROPHENOL
+INCHIKEY: RANCECPPZPIPNO-UHFFFAOYSA-N
+FORMULA: C6H4Cl2O
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: Oc(c1)c(Cl)ccc(Cl)1
+INCHI: InChI=1S/C6H4Cl2O/c7-4-1-2-5(8)6(9)3-4/h1-3,9H
+SMILES_2: [H]OC1=C([H])C(Cl)=C([H])C([H])=C1Cl
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210335825
+MOLECULAR_FORMULA: C6H4Cl2O
+TOTAL_EXACT_MASS: 161.963920108
+COMPOUND_NAME: 2,5-DICHLOROPHENOL
+SPECTRUM_ID: JP000004
+NOMINAL_MASS: 161.963920108
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 161.96392
+NUM PEAKS: 44
+51.0        5.05
+52.0        2.29
+53.0        22.87
+59.0        3.69
+60.0        16.58
+61.0        33.26
+62.0        62.1
+63.0        99.99
+64.0        11.61
+65.0        2.73
+66.0        4.11
+71.0        2.98
+72.0        12.03
+73.0        32.28
+74.0        12.69
+75.0        11.42
+81.0        6.65
+82.0        4.64
+83.0        3.82
+84.0        3.02
+85.0        2.81
+87.0        2.86
+89.0        2.17
+90.0        2.05
+91.0        6.28
+96.0        3.57
+97.0        15.64
+98.0        39.0
+99.0        33.72
+100.0       13.84
+101.0       10.87
+126.0       9.01
+127.0       3.11
+128.0       3.25
+133.0       6.28
+134.0       4.28
+135.0       4.21
+136.0       2.59
+161.0       11.74
+162.0       89.04
+163.0       12.37
+164.0       52.89
+165.0       4.62
+166.0       8.78
+
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/split/one-per-file/26DICHLOROPHENOL.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/split/one-per-file/26DICHLOROPHENOL.msp Tue Jun 27 14:25:01 2023 +0000
[
@@ -0,0 +1,57 @@
+SYNONYM: 2,6-DICHLOROPHENOL
+INCHIKEY: HOLHYSJJBXSLMV-UHFFFAOYSA-N
+FORMULA: C6H4Cl2O
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: Clc(c1)c(O)c(Cl)cc1
+INCHI: InChI=1S/C6H4Cl2O/c7-4-2-1-3-5(8)6(4)9/h1-3,9H
+SMILES_2: [H]OC=1C(Cl)=C([H])C([H])=C([H])C1Cl
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210335848
+MOLECULAR_FORMULA: C6H4Cl2O
+TOTAL_EXACT_MASS: 161.963920108
+COMPOUND_NAME: 2,6-DICHLOROPHENOL
+SPECTRUM_ID: JP000005
+NOMINAL_MASS: 161.963920108
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 161.96392
+NUM PEAKS: 33
+53.0        7.25
+60.0        3.0
+61.0        8.88
+62.0        17.84
+63.0        70.92
+64.0        8.02
+65.0        2.01
+72.0        5.48
+73.0        12.35
+74.0        4.63
+75.0        4.81
+81.0        6.73
+82.0        4.37
+83.0        2.09
+91.0        3.83
+97.0        7.27
+98.0        34.04
+99.0        15.04
+100.0       13.17
+101.0       4.37
+107.0       2.61
+125.0       2.01
+126.0       33.42
+127.0       3.34
+128.0       11.41
+133.0       3.34
+135.0       2.17
+161.0       2.35
+162.0       99.99
+163.0       8.23
+164.0       63.43
+165.0       4.35
+166.0       9.91
+
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/split/one-per-file/34DICHLOROPHENOL.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/split/one-per-file/34DICHLOROPHENOL.msp Tue Jun 27 14:25:01 2023 +0000
[
@@ -0,0 +1,60 @@
+SYNONYM: 3,4-DICHLOROPHENOL
+INCHIKEY: WDNBURPWRNALGP-UHFFFAOYSA-N
+FORMULA: C6H4Cl2O
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: Oc(c1)cc(Cl)c(Cl)c1
+INCHI: InChI=1S/C6H4Cl2O/c7-5-2-1-4(9)3-6(5)8/h1-3,9H
+SMILES_2: [H]OC1=C([H])C([H])=C(Cl)C(Cl)=C1[H]
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210335820
+MOLECULAR_FORMULA: C6H4Cl2O
+TOTAL_EXACT_MASS: 161.963920108
+COMPOUND_NAME: 3,4-DICHLOROPHENOL
+SPECTRUM_ID: JP000003
+NOMINAL_MASS: 161.963920108
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 161.96392
+NUM PEAKS: 36
+51.0        2.25
+53.0        6.4
+60.0        4.13
+61.0        9.78
+62.0        20.36
+63.0        32.41
+64.0        5.58
+71.0        2.16
+72.0        8.31
+73.0        13.57
+74.0        6.23
+75.0        5.23
+81.0        8.28
+82.0        5.27
+83.0        2.81
+91.0        2.06
+97.0        6.25
+98.0        25.55
+99.0        33.74
+100.0       9.84
+101.0       12.32
+107.0       2.31
+109.0       2.08
+126.0       7.67
+127.0       3.67
+128.0       2.81
+133.0       5.09
+134.0       7.44
+135.0       3.61
+136.0       4.75
+161.0       3.6
+162.0       99.99
+163.0       8.7
+164.0       62.28
+165.0       4.54
+166.0       9.78
+
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/split/one-per-file/35DICHLOROPHENOL.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/split/one-per-file/35DICHLOROPHENOL.msp Tue Jun 27 14:25:01 2023 +0000
[
@@ -0,0 +1,56 @@
+SYNONYM: 3,5-DICHLOROPHENOL
+INCHIKEY: VPOMSPZBQMDLTM-UHFFFAOYSA-N
+FORMULA: C6H4Cl2O
+AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
+LICENSE: CC BY-NC-SA
+INSTRUMENT: VARIAN MAT-44
+SMILES: Oc(c1)cc(Cl)cc(Cl)1
+INCHI: InChI=1S/C6H4Cl2O/c7-4-1-5(8)3-6(9)2-4/h1-3,9H
+SMILES_2: [H]OC=1C([H])=C(Cl)C([H])=C(Cl)C1[H]
+INSTRUMENT_TYPE: EI-B
+MS_LEVEL: MS1
+IONIZATION_ENERGY: 70 eV
+ION_TYPE: [M]+*
+IONIZATION_MODE: positive
+LAST_AUTO-CURATION: 1495210336053
+MOLECULAR_FORMULA: C6H4Cl2O
+TOTAL_EXACT_MASS: 161.963920108
+COMPOUND_NAME: 3,5-DICHLOROPHENOL
+SPECTRUM_ID: JP000008
+NOMINAL_MASS: 161.963920108
+PRECURSOR_MZ: 0.0
+PARENT_MASS: 161.96392
+NUM PEAKS: 32
+51.0        1.24
+53.0        4.19
+60.0        3.61
+61.0        8.59
+62.0        16.38
+63.0        31.53
+64.0        4.94
+72.0        4.88
+73.0        10.01
+74.0        4.53
+75.0        3.92
+81.0        6.85
+82.0        4.37
+83.0        2.46
+97.0        7.3
+98.0        27.86
+99.0        28.43
+100.0       10.31
+101.0       9.88
+126.0       8.1
+127.0       4.51
+128.0       3.3
+133.0       4.08
+134.0       6.58
+135.0       2.96
+136.0       4.15
+161.0       3.31
+162.0       99.99
+163.0       8.57
+164.0       60.06
+165.0       4.43
+166.0       9.68
+
b
diff -r 357df6c47d92 -r a177ac3c752c test-data/split/sample_input.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/split/sample_input.msp Tue Jun 27 14:25:01 2023 +0000
[
b'@@ -0,0 +1,603 @@\n+Name: 1-NITROPYRENE\n+Synonym: 1-NITROPYRENE\n+DB#: JP000001\n+InChIKey: ALRLPDGCPYIVHP-UHFFFAOYSA-N\n+MW: 247.063328528\n+Formula: C16H9NO2\n+PrecursorMZ: 0\n+Comments: "accession=JP000001" "author=KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH" "license=CC BY-NC-SA" "exact mass=247.06333" "instrument=VARIAN MAT-44" "instrument type=EI-B" "ms level=MS1" "ionization energy=70 eV" "ion type=[M]+*" "ionization mode=positive" "Last Auto-Curation=1495210335755" "SMILES=[O-1][N+1](=O)c(c4)c(c1)c(c3c4)c(c2cc3)c(ccc2)c1" "InChI=InChI=1S/C16H9NO2/c18-17(19)14-9-7-12-5-4-10-2-1-3-11-6-8-13(14)16(12)15(10)11/h1-9H" "molecular formula=C16H9NO2" "total exact mass=247.063328528" "SMILES=[H]C=1C([H])=C2C([H])=C([H])C3=C([H])C([H])=C(C=4C([H])=C([H])C(C1[H])=C2C34)N(=O)=O" "InChIKey=ALRLPDGCPYIVHP-UHFFFAOYSA-N"\n+Num Peaks: 75\n+51 2.66\n+55 8\n+57 7.33\n+58 1.33\n+59 1.33\n+60 14\n+61 1.33\n+62 3.33\n+63 3.33\n+66 1.33\n+68 8.66\n+70 2\n+72 5.33\n+73 7.33\n+74 3.33\n+75 2.66\n+76 2\n+78 1.33\n+80 4\n+81 2\n+82 1.33\n+83 3.33\n+86 12.66\n+87 8.66\n+92 2\n+93 10\n+94 6\n+98 14.66\n+99 83.33\n+100 60.66\n+104 4\n+107 1.33\n+108 1.33\n+110 3.33\n+112 1.33\n+113 1.33\n+115 1.33\n+116 1.33\n+120 1.33\n+122 4\n+123 2.66\n+124 2.66\n+125 2\n+126 1.33\n+134 1.33\n+135 2\n+137 1.33\n+147 1.33\n+149 2\n+150 4.66\n+151 3.33\n+159 2\n+162 2\n+163 2.66\n+173 2\n+174 8.66\n+175 4.66\n+177 2\n+187 5.33\n+188 4.66\n+189 56.66\n+190 12\n+191 16.66\n+198 10.66\n+199 9.33\n+200 72.66\n+201 99.99\n+202 16\n+203 1.33\n+207 1.33\n+214 1.33\n+217 25.33\n+218 5.33\n+247 52.66\n+248 10.16\n+\n+\n+Name: 2,4-DINITROPHENOL\n+Synonym: 2,4-DINITROPHENOL\n+DB#: JP000002\n+InChIKey: UFBJCMHMOXMLKC-UHFFFAOYSA-N\n+MW: 184.01202122799998\n+Formula: C6H4N2O5\n+PrecursorMZ: 0\n+Comments: "accession=JP000002" "author=KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH" "license=CC BY-NC-SA" "exact mass=184.01202" "instrument=VARIAN MAT-44" "instrument type=EI-B" "ms level=MS1" "ionization energy=70 eV" "ion type=[M]+*" "ionization mode=positive" "Last Auto-Curation=1495210335764" "SMILES=[O-1][N+1](=O)c(c1)cc([N+1]([O-1])=O)c(O)c1" "InChI=InChI=1S/C6H4N2O5/c9-6-2-1-4(7(10)11)3-5(6)8(12)13/h1-3,9H" "molecular formula=C6H4N2O5" "total exact mass=184.01202122799998" "SMILES=[H]OC1=C([H])C([H])=C(C([H])=C1N(=O)=O)N(=O)=O" "InChIKey=UFBJCMHMOXMLKC-UHFFFAOYSA-N"\n+Num Peaks: 64\n+51 27.22\n+52 19.9\n+53 61.8\n+54 6.76\n+55 13.95\n+56 3.86\n+57 11.52\n+60 6.43\n+61 13.38\n+62 36.19\n+63 61.37\n+64 26.2\n+65 6.74\n+66 5.1\n+67 7.43\n+68 10.32\n+69 29.16\n+70 5.53\n+71 6.11\n+73 4.14\n+74 3.92\n+75 3.49\n+76 4.33\n+77 6.21\n+78 5.1\n+79 35.07\n+80 9.85\n+81 16\n+82 5.37\n+83 6.13\n+84 2.96\n+85 3\n+90 12.01\n+91 53.25\n+92 28.32\n+93 18.25\n+94 3.51\n+95 6.41\n+96 5.43\n+97 5.12\n+98 2.43\n+105 3.76\n+106 6.35\n+107 38.97\n+108 7.11\n+109 3.98\n+111 2.63\n+120 2.12\n+121 4.45\n+122 4\n+123 3.14\n+126 2.12\n+136 2.77\n+137 3.14\n+138 3.55\n+149 4.12\n+153 4.02\n+154 39.3\n+155 3.16\n+168 3.29\n+183 3.26\n+184 99.99\n+185 8.17\n+186 1.34\n+\n+\n+Name: 3,4-DICHLOROPHENOL\n+Synonym: 3,4-DICHLOROPHENOL\n+DB#: JP000003\n+InChIKey: WDNBURPWRNALGP-UHFFFAOYSA-N\n+MW: 161.963920108\n+Formula: C6H4Cl2O\n+PrecursorMZ: 0\n+Comments: "accession=JP000003" "author=KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH" "license=CC BY-NC-SA" "exact mass=161.96392" "instrument=VARIAN MAT-44" "instrument type=EI-B" "ms level=MS1" "ionization energy=70 eV" "ion type=[M]+*" "ionization mode=positive" "Last Auto-Curation=1495210335820" "SMILES=Oc(c1)cc(Cl)c(Cl)c1" "InChI=InChI=1S/C6H4Cl2O/c7-5-2-1-4(9)3-6(5)8/h1-3,9H" "molecular formula=C6H4Cl2O" "total exact mass=161.963920108" "SMILES=[H]OC1=C([H])C([H])=C(Cl)C(Cl)=C1[H]" "InChIKey=WDNBURPWRNALGP-UHFFFAOYSA-N"\n+Num Peaks: 36\n+51 2.25\n+53 6.4\n+60 4.13\n+61 9.78\n+62 20.36\n+63 32.41\n+64 5.58\n+71 2.16\n+72 8.31\n+73 13.57\n+74 6.23\n+75 5.23\n+81 8.28\n+82 5.27\n+83 2.81\n+91 2.06\n+97 6.25\n+98 25.55\n+99 33.74\n+100 9.84\n+101 12.32\n+107 2.31\n+109 2.08\n+126 7.67\n+127 3.67\n+128 2.81\n+133 5.09\n+134 7.44\n+135 3.61\n+136 4.75\n+161 3.6\n+162 99.99\n+163 8.7\n+164 62.28\n+165 4.54\n+166 9.78\n+\n+\n+Name: 2,5-DICHLOROPHEN'..b'84 2.03\n+91 2.34\n+96 3.78\n+97 31.79\n+98 38.03\n+99 21.59\n+100 13.06\n+101 4.67\n+125 4.82\n+126 20.32\n+127 3.76\n+128 7.38\n+133 4.02\n+134 2.72\n+135 2.64\n+161 19.22\n+162 94.19\n+163 15.34\n+164 55.32\n+165 5.54\n+166 9.19\n+\n+\n+Name: 3,5-DICHLOROPHENOL\n+Synonym: 3,5-DICHLOROPHENOL\n+DB#: JP000008\n+InChIKey: VPOMSPZBQMDLTM-UHFFFAOYSA-N\n+MW: 161.963920108\n+Formula: C6H4Cl2O\n+PrecursorMZ: 0\n+Comments: "accession=JP000008" "author=KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH" "license=CC BY-NC-SA" "exact mass=161.96392" "instrument=VARIAN MAT-44" "instrument type=EI-B" "ms level=MS1" "ionization energy=70 eV" "ion type=[M]+*" "ionization mode=positive" "Last Auto-Curation=1495210336053" "SMILES=Oc(c1)cc(Cl)cc(Cl)1" "InChI=InChI=1S/C6H4Cl2O/c7-4-1-5(8)3-6(9)2-4/h1-3,9H" "molecular formula=C6H4Cl2O" "total exact mass=161.963920108" "SMILES=[H]OC=1C([H])=C(Cl)C([H])=C(Cl)C1[H]" "InChIKey=VPOMSPZBQMDLTM-UHFFFAOYSA-N"\n+Num Peaks: 32\n+51 1.24\n+53 4.19\n+60 3.61\n+61 8.59\n+62 16.38\n+63 31.53\n+64 4.94\n+72 4.88\n+73 10.01\n+74 4.53\n+75 3.92\n+81 6.85\n+82 4.37\n+83 2.46\n+97 7.3\n+98 27.86\n+99 28.43\n+100 10.31\n+101 9.88\n+126 8.1\n+127 4.51\n+128 3.3\n+133 4.08\n+134 6.58\n+135 2.96\n+136 4.15\n+161 3.31\n+162 99.99\n+163 8.57\n+164 60.06\n+165 4.43\n+166 9.68\n+\n+\n+Name: 2,4,5-TRICHLOROPHENOL\n+Synonym: 2,4,5-TRICHLOROPHENOL\n+DB#: JP000009\n+InChIKey: LHJGJYXLEPZJPM-UHFFFAOYSA-N\n+MW: 195.924947756\n+Formula: C6H3Cl3O\n+PrecursorMZ: 0\n+Comments: "accession=JP000009" "author=KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH" "license=CC BY-NC-SA" "exact mass=195.92495" "instrument=VARIAN MAT-44" "instrument type=EI-B" "ms level=MS1" "ionization energy=70 eV" "ion type=[M]+*" "ionization mode=positive" "Last Auto-Curation=1495210336033" "SMILES=Oc(c1)c(Cl)cc(Cl)c(Cl)1" "InChI=InChI=1S/C6H3Cl3O/c7-3-1-5(9)6(10)2-4(3)8/h1-2,10H" "molecular formula=C6H3Cl3O" "total exact mass=195.924947756" "SMILES=[H]OC1=C([H])C(Cl)=C(Cl)C([H])=C1Cl" "InChIKey=LHJGJYXLEPZJPM-UHFFFAOYSA-N"\n+Num Peaks: 65\n+51 2.58\n+53 14.73\n+59 2.03\n+60 12.75\n+61 30.62\n+62 36.79\n+63 19.11\n+64 2.15\n+65 5.23\n+66 13.42\n+67 7.46\n+69 2.46\n+71 6.55\n+72 13.85\n+73 16.02\n+74 7.55\n+75 4.47\n+79 2.34\n+80 8.06\n+81 5.21\n+82 3.22\n+83 7.1\n+84 6.05\n+85 6.38\n+86 2.53\n+87 3.44\n+89 1.93\n+95 3.8\n+96 33.63\n+97 67.27\n+98 25.02\n+99 31.7\n+100 5.86\n+106 2.03\n+107 8.66\n+108 3.94\n+109 6.55\n+131 12.51\n+132 48.06\n+133 32\n+134 33.42\n+135 18.37\n+136 6.55\n+137 2.96\n+149 6.48\n+151 3.39\n+160 10.69\n+161 4.76\n+162 10.76\n+163 3.58\n+164 3.61\n+167 4.06\n+169 3.89\n+177 4.76\n+179 2.94\n+192 6.69\n+194 4.64\n+195 6.79\n+196 99.99\n+197 11.45\n+198 92.58\n+199 7.82\n+200 29.54\n+201 2.08\n+202 3.15\n+\n+\n+Name: 2,4,6-TRICHLOROPHENOL\n+Synonym: 2,4,6-TRICHLOROPHENOL\n+DB#: JP000010\n+InChIKey: LINPIYWFGCPVIE-UHFFFAOYSA-N\n+MW: 195.924947756\n+Formula: C6H3Cl3O\n+PrecursorMZ: 0\n+Comments: "accession=JP000010" "author=KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH" "license=CC BY-NC-SA" "exact mass=195.92495" "instrument=VARIAN MAT-44" "instrument type=EI-B" "ms level=MS1" "ionization energy=70 eV" "ion type=[M]+*" "ionization mode=positive" "Last Auto-Curation=1495210336053" "SMILES=Clc(c1)cc(Cl)c(O)c(Cl)1" "InChI=InChI=1S/C6H3Cl3O/c7-3-1-4(8)6(10)5(9)2-3/h1-2,10H" "molecular formula=C6H3Cl3O" "total exact mass=195.924947756" "SMILES=[H]OC=1C(Cl)=C([H])C(Cl)=C([H])C1Cl" "InChIKey=LINPIYWFGCPVIE-UHFFFAOYSA-N"\n+Num Peaks: 66\n+53 14.63\n+55 2.49\n+57 2.2\n+60 12.21\n+61 32.06\n+62 42.22\n+63 36.9\n+64 4.32\n+65 8.43\n+66 23\n+67 12.65\n+68 2.71\n+71 6.78\n+72 13.68\n+73 17.64\n+74 8.84\n+75 5.57\n+80 9.94\n+81 8.84\n+82 4.21\n+83 8.62\n+84 6.16\n+85 5.83\n+87 3.92\n+89 2.2\n+90 2.89\n+91 2.09\n+95 4.84\n+96 34.11\n+97 70.76\n+98 39.72\n+99 38.18\n+100 10.63\n+101 2.64\n+106 2.45\n+107 9.09\n+108 3.77\n+109 7.22\n+111 2.23\n+125 3.44\n+126 8.91\n+127 2.05\n+128 3.52\n+131 18.48\n+132 57.96\n+133 22.12\n+134 40.71\n+135 10.45\n+136 7.81\n+160 31.84\n+161 5.2\n+162 50.47\n+163 5.2\n+164 22.81\n+166 5.57\n+167 4.1\n+168 2.56\n+169 3.63\n+195 3.59\n+196 99.99\n+197 9.68\n+198 91.34\n+199 7.07\n+200 28.42\n+201 2.09\n+202 3.04\n+\n'