Repository 'matchms_networking'
hg clone https://toolshed.g2.bx.psu.edu/repos/recetox/matchms_networking

Changeset 5:8147d93d372d (2023-06-27)
Previous changeset 4:8ae521f89988 (2023-05-25) Next changeset 6:9982b85ff4e7 (2023-10-12)
Commit message:
planemo upload for repository https://github.com/RECETOX/galaxytools/tree/master/tools/matchms commit f79a5b51599254817727bc9028b9797ea994cb4e
modified:
macros.xml
matchms_networking.xml
matchms_networking_wrapper.py
test-data/convert/harmonized_msp_out.msp
test-data/convert/harmonized_msp_peakcomments_out.msp
test-data/scores.json
test-data/similarity/scores_test1_out.json
test-data/similarity/scores_test2_out.json
test-data/similarity/scores_test3_out.json
test-data/similarity/scores_test4_out.json
test-data/similarity/scores_test5_out.json
test-data/split/chunk-size/chunk_0.msp
test-data/split/chunk-size/chunk_1.msp
test-data/split/chunk-size/chunk_2.msp
test-data/split/num-chunks/chunk_0.msp
test-data/split/num-chunks/chunk_1.msp
test-data/split/one-per-file/1NITROPYRENE.msp
test-data/split/one-per-file/23DICHLOROPHENOL.msp
test-data/split/one-per-file/245TRICHLOROPHENOL.msp
test-data/split/one-per-file/246TRICHLOROPHENOL.msp
test-data/split/one-per-file/24DICHLOROPHENOL.msp
test-data/split/one-per-file/24DINITROPHENOL.msp
test-data/split/one-per-file/25DICHLOROPHENOL.msp
test-data/split/one-per-file/26DICHLOROPHENOL.msp
test-data/split/one-per-file/34DICHLOROPHENOL.msp
test-data/split/one-per-file/35DICHLOROPHENOL.msp
added:
formatter.py
help.xml
matchms_filtering_wrapper.py
matchms_similarity_wrapper.py
matchms_split.py
test-data/fingerprints/cosine.json
test-data/fingerprints/dice.json
test-data/fingerprints/jaccard_scores.json
test-data/formatter/fill2_formatted.tsv
test-data/formatter/fill2_trunc_scores_with_metadata_match.json
test-data/formatter/test4_formatted.tsv
test-data/metadata_match/inchi_key_inner.json
test-data/metadata_match/inner_join_ri_20.json
test-data/metadata_match/left_join_ri_20.json
test-data/metadata_match/ri_match_60.json
test-data/metadata_match/smiles.json
test-data/similarity/rcx_exposome_pesticides_subset.msp
test-data/similarity/rcx_gc-ei_ms_subset.msp
test-data/similarity/scores_test6_out.json
test-data/similarity/spec2vec/inp_filtered_library.msp
test-data/similarity/spec2vec/inp_filtered_spectra.msp
test-data/similarity/spec2vec/model.json
test-data/similarity/spec2vec/weights_100.binary
test-data/spectral_similarity/test1.json
test-data/spectral_similarity/test2.json
removed:
test-data/formatter/test2_threshold_formatting.tsv
test-data/formatter/test2_topk_formatting.tsv
b
diff -r 8ae521f89988 -r 8147d93d372d formatter.py
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/formatter.py Tue Jun 27 14:29:16 2023 +0000
[
@@ -0,0 +1,49 @@
+import click
+from matchms.importing import scores_from_json
+from pandas import DataFrame
+
+
+def scores_to_dataframe(scores):
+    """Unpack scores from matchms.scores into two dataframes of scores and matches.
+
+    Args:
+        scores (matchms.scores): matchms.scores object.
+
+    Returns:
+        DataFrame: Scores
+        DataFrame: Matches
+    """
+    dataframe = DataFrame(columns=['query', 'reference', *scores.scores.score_names])
+
+    for i, (row, col) in enumerate(zip(scores.scores.row, scores.scores.col)):
+        dataframe.loc[i] = [scores.queries[col].metadata['compound_name'], scores.references[row].metadata['compound_name'], *scores.scores.data[i]]
+
+    return dataframe
+
+
+def load_data(scores_filename: str) -> DataFrame:
+    """Load data from filenames and join on compound id.
+
+    Args:
+        scores_filename (str): Path to json file with serialized scores.
+
+    Returns:
+        DataFrame: Joined dataframe on compounds containing scores and matches in long format.
+    """
+    scores = scores_from_json(scores_filename)
+    scores = scores_to_dataframe(scores)
+
+    return scores
+
+
+@click.group(invoke_without_command=True)
+@click.option('--sf', 'scores_filename', type=click.Path(exists=True), required=True)
+@click.option('--o', 'output_filename', type=click.Path(writable=True), required=True)
+def cli(scores_filename, output_filename):
+    result = load_data(scores_filename)
+    result.to_csv(output_filename, sep="\t", index=False)
+    pass
+
+
+if __name__ == '__main__':
+    cli()
b
diff -r 8ae521f89988 -r 8147d93d372d help.xml
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/help.xml Tue Jun 27 14:29:16 2023 +0000
[
@@ -0,0 +1,58 @@
+<macros>
+    <token name="@HELP_matchms@">
+        Documentation
+            The Python library matchms provides functions to convert, filter and compare mass spectrometry data.
+            For an overview of the different galaxy modules, see the figure below.
+            For detailed documentation on the tool, see https://github.com/matchms/matchms/blob/master/README.rst
+            and https://matchms.readthedocs.io/en/latest/ for the Python API.
+
+            To get more familiar with the library, there is a `tutorial`_ available which explains how to build a mass spectrometry data processing
+            pipeline with matchms.
+                
+            .. _tutorial: https://medium.com/escience-center/build-your-own-mass-spectrometry-analysis-pipeline-in-python-using-matchms-part-i-d96c718c68ee
+
+        Overview
+            .. image:: https://github.com/RECETOX/galaxytools/raw/29e54e69dab6ab1263f56d35ea19f5d7f284d728/tools/matchms/images/matchms_galaxytools.png
+               :width: 3120
+               :height: 1686
+               :scale: 30
+               :alt: Overview of different matchms galaxytools and how they are connected.
+    </token>
+    <token name="@HELP_matchms_networking@">
+        <![CDATA[
+        Documentation
+        For documentation on the tool see https://github.com/matchms/matchms/blob/master/README.rst
+        and https://matchms.readthedocs.io/en/latest/.
+        
+        **Upstream Tools**
+
+        matchms similarity
+        
+        **Downstream Tools**
+        
+        The output is a network-graph file that can be visualized using graph visualization software (e.g., Cytoscape).
+        ]]>
+    </token>
+    
+    <token name="@HELP_formatter@">
+        <![CDATA[
+            Usage
+                This tool creates user friendly tables from the similarity scores produced by **matchms similarity**.
+                The tool can be operated on two modes based on (i) thresholds or (ii) top k matches.
+
+            Input Table Format
+                The tool expects a JSON file containing serialized matchms Scores object.
+
+            Output Table Format
+                +----------+-----------+---------+--------+
+                | query    | reference | matches | scores |
+                +==========+===========+=========+========+
+                | C001     | Glycine   |      6  | 0.5    |
+                +----------+-----------+---------+--------+
+                | C002     | Glycine   |     3   | 0.34   |
+                +----------+-----------+---------+--------+
+                |   ...    | ...       | ...     | ...    |
+                +----------+-----------+---------+--------+
+        ]]>
+    </token>
+</macros>
\ No newline at end of file
b
diff -r 8ae521f89988 -r 8147d93d372d macros.xml
--- a/macros.xml Thu May 25 09:06:20 2023 +0000
+++ b/macros.xml Tue Jun 27 14:29:16 2023 +0000
[
@@ -1,5 +1,5 @@
 <macros>
-    <token name="@TOOL_VERSION@">0.17.0</token>
+    <token name="@TOOL_VERSION@">0.20.0</token>
 
     <xml name="creator">
         <creator>
@@ -31,69 +31,75 @@
         </creator>
     </xml>
     
-    <token name="@HELP_matchms@">
-        <![CDATA[
-            Documentation
-                For documentation on the tool see https://github.com/matchms/matchms/blob/master/README.rst
-                and https://matchms.readthedocs.io/en/latest/.
+    <xml name="bio.tools">
+        <xrefs>
+            <xref type="bio.tools">matchms</xref>
+        </xrefs>
+    </xml>
 
-            Upstream Tools
-                +-----------+---------------+--------+-----------+
-                | Name      | Output File   | Format | Parameter |
-                +===========+===============+========+===========+
-                | RAMClustR | Mass spectra  | msp    | references|
-                +-----------+---------------+--------+-----------+
-                | RAMClustR | Mass spectra  | msp    | queries   |
-                +-----------+---------------+--------+-----------+
+    <xml name="similarity_metrics">
+        <option value="CosineGreedy" selected="true">CosineGreedy</option>
+        <option value="CosineHungarian">CosineHungarian</option>
+        <option value="ModifiedCosine">ModifiedCosine</option>
+        <option value="NeutralLossesCosine">NeutralLossesCosine</option>
+    </xml>
 
-            Downstream Tools
-                The output is a JSON file containing serialized matchMS Scores object. The file can be processed by **matchMS output formatter**. 
-        ]]>
-    </token>
-    
-    <token name="@HELP_matchms_networking@">
-        <![CDATA[
-        Documentation
-        For documentation on the tool see https://github.com/matchms/matchms/blob/master/README.rst
-        and https://matchms.readthedocs.io/en/latest/.
-        
-        **Upstream Tools**
+    <xml name="similarity_algorithm_params">
+        <section name="algorithm" title="Algorithm Parameters" expanded="true">
+            <param label="tolerance [Da]" name="tolerance" type="float" value="0.1"
+                   help="Peaks will be considered a match when less than tolerance apart. Absolute m/z value, not in ppm."/>
+            <param label="mz_power" name="mz_power" type="float" value="0.0"
+                   help="The power to raise mz to in the cosine function."/>
+            <param label="intensity_power" name="intensity_power" type="float" value="1.0"
+                   help="The power to raise intensity to in the cosine function."/>
+        </section>
+    </xml>
 
-        matchMS similarity
-        
-        **Downstream Tools**
-        
-        The output is a network-graph file that can be visualized using graph visualization software (e.g., Cytoscape).
-        ]]>
-    </token>
-    
-    <token name="@HELP_formatter@">
-        <![CDATA[
-            Usage
-                This tool creates user friendly tables from the similarity scores produced by **matchMS similarity**.
-                The tool can be operated on two modes based on (i) thresholds or (ii) top k matches.
-
-            Input Table Format
-                The tool expects a JSON file containing serialized matchMS Scores object.
+    <xml name="input_param">
+        <conditional name="scores">
+            <param name="use_scores" label="Use Scores Object" type="boolean" truevalue="TRUE" falsevalue="FALSE"
+                   checked="false"/>
+            <when value="TRUE">
+                <param label="Scores object" name="scores_in" type="data" format="json"
+                    help="Scores objects calculated previously using one of the matchms similarity tools." />
+                <param label="join type" name="join_type" type="select" display="radio"
+                    help="The join type to use for appending scores - see [1] for details.">
+                    <option value="left" selected="true">left</option>
+                    <option value="inner">inner</option>
+                    <option value="right">right</option>
+                    <option value="outer">outer</option>
+                </param>
+            </when>
+            <when value="FALSE">
+                <param label="Queries spectra" name="queries" type="data" format="msp"
+                    help="Query mass spectra to match against references."/>
+                <param label="Reference spectra" name="references" type="data" format="msp"
+                    help="Reference mass spectra to match against as library."/>
+            </when>
+        </conditional>
+    </xml>
 
-            Output Table Format
-                +----------+-----------+---------+--------+
-                | query    | reference | matches | scores |
-                +==========+===========+=========+========+
-                | C001     | Glycine   |      6  | 0.5    |
-                +----------+-----------+---------+--------+
-                | C002     | Glycine   |     3   | 0.34   |
-                +----------+-----------+---------+--------+
-                |   ...    | ...       | ...     | ...    |
-                +----------+-----------+---------+--------+
-        ]]>
-    </token>
-    
-        <xml name="citations">
-            <citations>
-                <citation type="doi">10.5281/zenodo.7178586</citation>
-                <citation type="doi">10.21105/joss.02411</citation>
-            </citations>
-        </xml>
+    <xml name="citations">
+        <citations>
+            <citation type="doi">10.5281/zenodo.7178586</citation>
+            <citation type="doi">10.21105/joss.02411</citation>
+        </citations>
+    </xml>
 
+<token name="@init_scores@">
+from matchms.importing import load_from_msp, scores_from_json
+from matchms import Scores
+#if $scores.use_scores
+scores = scores_from_json("$scores_in")
+join_type = "$scores.join_type"
+#else
+scores = Scores(references=list(load_from_msp("$references")), queries=list(load_from_msp("$queries")), is_symmetric=False)
+join_type = "left"
+#end if
+</token>
+
+<token name="@init_logger@">
+from matchms import set_matchms_logger_level
+set_matchms_logger_level("WARNING")
+</token>   
 </macros>
b
diff -r 8ae521f89988 -r 8147d93d372d matchms_filtering_wrapper.py
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/matchms_filtering_wrapper.py Tue Jun 27 14:29:16 2023 +0000
[
@@ -0,0 +1,77 @@
+import argparse
+import sys
+
+from matchms.exporting import save_as_mgf, save_as_msp
+from matchms.filtering import add_compound_name, add_fingerprint, add_losses, add_parent_mass, add_precursor_mz,\
+    add_retention_index, add_retention_time, clean_compound_name
+from matchms.filtering import default_filters, normalize_intensities, select_by_mz, select_by_relative_intensity
+from matchms.importing import load_from_mgf, load_from_msp
+
+
+def main(argv):
+    parser = argparse.ArgumentParser(description="Compute MSP similarity scores")
+    parser.add_argument("--spectra", type=str, required=True, help="Mass spectra file to be filtered.")
+    parser.add_argument("--spectra_format", type=str, required=True, help="Format of spectra file.")
+    parser.add_argument("--output", type=str, required=True, help="Filtered mass spectra file.")
+    parser.add_argument("-normalise_intensities", action='store_true',
+                        help="Normalize intensities of peaks (and losses) to unit height.")
+    parser.add_argument("-default_filters", action='store_true',
+                        help="Collection of filters that are considered default and that do no require any (factory) arguments.")
+    parser.add_argument("-clean_metadata", action='store_true',
+                        help="Apply all adding and cleaning filters if possible, so that the spectra have canonical metadata.")
+    parser.add_argument("-relative_intensity", action='store_true',
+                        help="Keep only peaks within set relative intensity range (keep if to_intensity >= intensity >= from_intensity).")
+    parser.add_argument("--from_intensity", type=float, help="Lower bound for intensity filter")
+    parser.add_argument("--to_intensity", type=float, help="Upper bound for intensity filter")
+    parser.add_argument("-mz_range", action='store_true',
+                        help="Keep only peaks between set m/z range (keep if to_mz >= m/z >= from_mz).")
+    parser.add_argument("--from_mz", type=float, help="Lower bound for m/z  filter")
+    parser.add_argument("--to_mz", type=float, help="Upper bound for m/z  filter")
+    args = parser.parse_args()
+
+    if not (args.normalise_intensities
+            or args.default_filters
+            or args.clean_metadata
+            or args.relative_intensity
+            or args.mz_range):
+        raise ValueError('No filter selected.')
+
+    if args.spectra_format == 'msp':
+        spectra = list(load_from_msp(args.spectra))
+    elif args.queries_format == 'mgf':
+        spectra = list(load_from_mgf(args.spectra))
+    else:
+        raise ValueError(f'File format {args.spectra_format} not supported for mass spectra file.')
+
+    filtered_spectra = []
+    for spectrum in spectra:
+        if args.normalise_intensities:
+            spectrum = normalize_intensities(spectrum)
+
+        if args.default_filters:
+            spectrum = default_filters(spectrum)
+
+        if args.clean_metadata:
+            filters = [add_compound_name, add_precursor_mz, add_fingerprint, add_losses, add_parent_mass,
+                       add_retention_index, add_retention_time, clean_compound_name]
+            for metadata_filter in filters:
+                spectrum = metadata_filter(spectrum)
+
+        if args.relative_intensity:
+            spectrum = select_by_relative_intensity(spectrum, args.from_intensity, args.to_intensity)
+
+        if args.mz_range:
+            spectrum = select_by_mz(spectrum, args.from_mz, args.to_mz)
+
+        filtered_spectra.append(spectrum)
+
+    if args.spectra_format == 'msp':
+        save_as_msp(filtered_spectra, args.output)
+    else:
+        save_as_mgf(filtered_spectra, args.output)
+
+    return 0
+
+
+if __name__ == "__main__":
+    main(argv=sys.argv[1:])
b
diff -r 8ae521f89988 -r 8147d93d372d matchms_networking.xml
--- a/matchms_networking.xml Thu May 25 09:06:20 2023 +0000
+++ b/matchms_networking.xml Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -1,10 +1,16 @@\n-<tool id="matchms_networking" name="matchMS networking" version="@TOOL_VERSION@+galaxy0" python_template_version="3.5">\n-    <description>create similarity network graph from matchMS similarity scores</description>\n+<tool id="matchms_networking" name="matchms networking" version="@TOOL_VERSION@+galaxy0" profile="21.09">\n+    <description>create similarity network graph from matchms similarity scores</description>\n \n     <macros>\n         <import>macros.xml</import>\n+        <import>help.xml</import>\n     </macros>\n     <expand macro="creator"/>\n+    <edam_operations>\n+        <edam_operation>operation_3927</edam_operation>\n+        <edam_operation>operation_3925</edam_operation>\n+    </edam_operations>\n+    <expand macro="bio.tools"/>\n \n     <requirements>\n         <requirement type="package" version="@TOOL_VERSION@">matchms</requirement>\n@@ -22,23 +28,29 @@\n     <configfiles>\n         <configfile name="matchms_networking_cli">\n             python3 ${__tool_directory__}/matchms_networking_wrapper.py \\\n-            --graph_format "$graph_format" \\\n-            --identifier "$identifier_key" \\\n-            --top_n "$top_n" \\\n-            --max_links "$max_links" \\\n-            --score_cutoff "$score_cutoff" \\\n-            --link_method "$link_method" \\\n+            --score_name \'${score_layer_name}_score\' \\\n+            --graph_format \'$graph_format\' \\\n+            --identifier \'$identifier_key\' \\\n+            --top_n \'$top_n\' \\\n+            --max_links \'$max_links\' \\\n+            --score_cutoff \'$score_cutoff\' \\\n+            --link_method \'$link_method\' \\\n             #if $keep_unconnected_nodes\n             --keep_unconnected_nodes \\\n             #end if\n-            "$scores" \\\n-            "$similarity_network_file"\n+            \'$scores\' \\\n+            \'$similarity_network_file\'\n         </configfile>\n     </configfiles>\n \n     <inputs>\n         <param label="Similarity scores" name="scores" type="data" format="json"\n-            help="matchMS similarity-scores file."/>\n+            help="matchms similarity-scores file."/>\n+        <param label="Score Layer" name="score_layer_name" type="select" help="Metric of the score layer to create a network from.">\n+            <expand macro="similarity_metrics"/>\n+        </param>\n+        <param label="Identifier key" name="identifier_key" type="text" value="compound_name"\n+            help="Unique metadata identifier of each spectrum from which scores are computed."/>\n         <param label="Network-graph format" name="graph_format" type="select"\n             help="Output format of the similarity network.">\n             <option value="graphml">graphml</option>\n@@ -47,8 +59,6 @@\n             <option value="gml">gml</option>\n             <option value="json">json</option>\n         </param>\n-        <param label="Identifier key" name="identifier_key" type="text"\n-            help="Unique metadata identifier of each spectrum from which scores are computed."/>\n         <param label="Number of top edges to keep" name="top_n" type="integer" value="20"\n             help="The number of highest-score edges to keep between a pair of nodes. Depending on \'Link method\' parameter the top N edges will be selected either from disjoined\n             sets of individual specta or joined subset of scores between the given pair of spectra. This value has to be higher than the \'Maximum number of links\'."/>\n@@ -87,9 +97,9 @@\n             <output name="similarity_network_file" ftype="graphml">\n                 <assert_contents>\n                     <is_valid_xml />\n-                    <has_line_matching expression=\'.*node id="C[0-9]*"\\/.\' n="138"/>\n-                    <has_line_matching expression=\'.*edge source="C[0-9]*" target="C[0-9]*".\' n="16"/>\n-                    <has_line_matching expression=\'\\s*.data key="d0".0\\.[0-9]*.*\' n="16"/>\n+                    <has_line_matching expression=\'.*node id="C[0-9]*"\\/.\' n="51"/>\n+                    <has_line_matching expression=\'.*edge sour'..b'-122,8 +132,8 @@\n             <param name="identifier_key" value="compound_name"/>\n             <output name="similarity_network_file" ftype="gml">\n                 <assert_contents>\n-                    <has_line_matching expression=\'\\s*node \\[\\n\\s*id [0-9]*\\n\\s*label "C[0-9]*"\\n\\s*\\]\' n="138"/>\n-                    <has_line_matching expression=\'\\s*edge \\[\\n\\s*source [0-9]*\\n\\s*target [0-9]*\\n\\s*weight 0\\.[0-9]*\\n\\s*\\]\' n="16"/>\n+                    <has_line_matching expression=\'\\s*node \\[\\n\\s*id [0-9]*\\n\\s*label "C[0-9]*"\\n\\s*\\]\' n="51"/>\n+                    <has_line_matching expression=\'\\s*edge \\[\\n\\s*source [0-9]*\\n\\s*target [0-9]*\\n\\s*weight 0\\.[0-9]*\\n\\s*\\]\' n="4"/>\n                 </assert_contents>\n             </output>\n         </test>\n@@ -133,8 +143,8 @@\n             <param name="identifier_key" value="compound_name"/>\n             <output name="similarity_network_file" ftype="json">\n                 <assert_contents>\n-                    <has_text_matching expression=\'{"id": "C[0-9]*"}\' n="138"/>\n-                    <has_text_matching expression=\'{"weight": 0\\.[0-9]*, "source": "C[0-9]*", "target": "C[0-9]*"}\' n="16"/>\n+                    <has_text_matching expression=\'{"id": "C[0-9]*"}\' n="51"/>\n+                    <has_text_matching expression=\'{"weight": 0\\.[0-9]*, "source": "C[0-9]*", "target": "C[0-9]*"}\' n="4"/>\n                 </assert_contents>\n             </output>\n         </test>\n@@ -146,9 +156,9 @@\n             <output name="similarity_network_file" ftype="graphml">\n                 <assert_contents>\n                     <is_valid_xml />\n-                    <has_line_matching expression=\'.*node id="C[0-9]*"\\/.\' n="25"/>\n-                    <has_line_matching expression=\'.*edge source="C[0-9]*" target="C[0-9]*".\' n="16"/>\n-                    <has_line_matching expression=\'\\s*.data key="d0".0\\.[0-9]*.*\' n="16"/>\n+                    <has_line_matching expression=\'.*node id="C[0-9]*"\\/.\' n="8"/>\n+                    <has_line_matching expression=\'.*edge source="C[0-9]*" target="C[0-9]*".\' n="4"/>\n+                    <has_line_matching expression=\'\\s*.data key="d0".0\\.[0-9]*.*\' n="4"/>\n                 </assert_contents>\n             </output>\n         </test>\n@@ -161,9 +171,9 @@\n             <output name="similarity_network_file" ftype="graphml">\n                 <assert_contents>\n                     <is_valid_xml />\n-                    <has_line_matching expression=\'.*node id="C[0-9]*"\\/.\' n="59"/>\n-                    <has_line_matching expression=\'.*edge source="C[0-9]*" target="C[0-9]*".\' n="52"/>\n-                    <has_line_matching expression=\'\\s*.data key="d0".0\\.[0-9]*.*\' n="52"/>\n+                    <has_line_matching expression=\'.*node id="C[0-9]*"\\/.\' n="20"/>\n+                    <has_line_matching expression=\'.*edge source="C[0-9]*" target="C[0-9]*".\' n="13"/>\n+                    <has_line_matching expression=\'\\s*.data key="d0".0\\.[0-9]*.*\' n="13"/>\n                 </assert_contents>\n             </output>\n         </test>\n@@ -176,16 +186,17 @@\n             <param name="keep_unconnected_nodes" value="false"/>\n             <output name="similarity_network_file" ftype="cyjs">\n                 <assert_contents>\n-                    <has_text_matching expression=\'{"data": {"id": "C[0-9]*", "value": "C[0-9]*", "name": "C[0-9]*"}}\' n="18"/>\n-                    <has_text_matching expression=\'{"data": {"weight": 0\\.[0-9]*, "source": "C[0-9]*", "target": "C[0-9]*"}}\' n="9"/>\n+                    <has_text_matching expression=\'{"data": {"id": "C[0-9]*", "value": "C[0-9]*", "name": "C[0-9]*"}}\' n="6"/>\n+                    <has_text_matching expression=\'{"data": {"weight": 0\\.[0-9]*, "source": "C[0-9]*", "target": "C[0-9]*"}}\' n="3"/>\n                 </assert_contents>\n             </output>\n         </test>\n     </tests>\n \n-    <help><![CDATA[\n+    <help>\n         @HELP_matchms_networking@\n-    ]]></help>\n+        @HELP_matchms@\n+    </help>\n \n     <expand macro="citations"/>\n \n'
b
diff -r 8ae521f89988 -r 8147d93d372d matchms_networking_wrapper.py
--- a/matchms_networking_wrapper.py Thu May 25 09:06:20 2023 +0000
+++ b/matchms_networking_wrapper.py Tue Jun 27 14:29:16 2023 +0000
b
@@ -8,13 +8,14 @@
 def main(argv):
     parser = argparse.ArgumentParser(description="Create network-graph from similarity scores.")
     parser.add_argument("--graph_format", type=str, help="Format of the output similarity network.")
+    parser.add_argument("--score_name", type=str, help="Name of the score layer to use for creating the network graph.")
     parser.add_argument("--identifier", type=str, help="Unique metadata identifier of each spectrum from which scores are computed.")
     parser.add_argument("--top_n", type=int, help="Number of highest-score edges to keep.")
     parser.add_argument("--max_links", type=int, help="Maximum number of links to add per node.")
     parser.add_argument("--score_cutoff", type=float, help="Minimum similarity score value to link two spectra.")
     parser.add_argument("--link_method", type=str, help="Method for selecting top N edges for each node.")
     parser.add_argument("--keep_unconnected_nodes", help="Keep unconnected nodes in the network.", action="store_true")
-    parser.add_argument("scores", type=str, help="Path to matchMS similarity-scores .json file.")
+    parser.add_argument("scores", type=str, help="Path to matchms similarity-scores .json file.")
     parser.add_argument("output_filename", type=str, help="Path where to store the output similarity network.")
     args = parser.parse_args()
 
@@ -27,7 +28,7 @@
                                 link_method=args.link_method,
                                 keep_unconnected_nodes=args.keep_unconnected_nodes)
 
-    network.create_network(scores)
+    network.create_network(scores, args.score_name)
     network.export_to_file(filename=args.output_filename, graph_format=args.graph_format)
 
     return 0
b
diff -r 8ae521f89988 -r 8147d93d372d matchms_similarity_wrapper.py
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/matchms_similarity_wrapper.py Tue Jun 27 14:29:16 2023 +0000
[
@@ -0,0 +1,136 @@
+import argparse
+import json
+import sys
+
+from matchms import calculate_scores
+from matchms.importing import load_from_mgf, load_from_msp
+from matchms.similarity import (CosineGreedy, CosineHungarian, MetadataMatch,
+                                ModifiedCosine, NeutralLossesCosine)
+from spec2vec import Spec2Vec
+from spec2vec.serialization.model_importing import load_weights, Word2VecLight
+
+
+def convert_precursor_mz(spectrum):
+    """
+    Check the presence of precursor m/z since it is needed for ModifiedCosine similarity metric. Convert to float if
+    needed, raise error if missing.
+    """
+
+    if "precursor_mz" in spectrum.metadata:
+        metadata = spectrum.metadata
+        metadata["precursor_mz"] = float(metadata["precursor_mz"])
+        spectrum.metadata = metadata
+        return spectrum
+    else:
+        raise ValueError("Precursor_mz missing. Apply 'add_precursor_mz' filter first.")
+
+
+def load_model(model_file, weights_file) -> Word2VecLight:
+    """
+    Read a lightweight version of a :class:`~gensim.models.Word2Vec` model from disk.
+
+    Parameters
+    ----------
+    model_file:
+        A path of json file to load the model.
+    weights_file:
+        A path of `.npy` file to load the model's weights.
+
+    Returns
+    -------
+    :class:`~spec2vec.serialization.model_importing.Word2VecLight` â€“ a lightweight version of a
+    :class:`~gensim.models.Word2Vec`
+    """
+    with open(model_file, "r", encoding="utf-8") as f:
+        model: dict = json.load(f)
+        del (model["mapfile_path"])
+
+    weights = load_weights(weights_file, model["__weights_format"])
+    return Word2VecLight(model, weights)
+
+
+def main(argv):
+    parser = argparse.ArgumentParser(description="Compute MSP similarity scores")
+    parser.add_argument("-r", dest="ri_tolerance", type=float, help="Use RI filtering with given tolerance.")
+    parser.add_argument("-s", dest="symmetric", action='store_true', help="Computation is symmetric.")
+    parser.add_argument("--array_type", type=str, help="Type of array to use for storing scores (numpy or sparse).")
+    parser.add_argument("--ref", dest="references_filename", type=str, help="Path to reference spectra library.")
+    parser.add_argument("--ref_format", dest="references_format", type=str, help="Reference spectra library file format.")
+    parser.add_argument("--spec2vec_model", dest="spec2vec_model", type=str, help="Path to spec2vec model.")
+    parser.add_argument("--spec2vec_weights", dest="spec2vec_weights", type=str, help="Path to spec2vec weights.")
+    parser.add_argument("--allow_missing_percentage", dest="allowed_missing_percentage", type=lambda x: float(x) * 100.0, help="Maximum percentage of missing peaks in model corpus.")
+    parser.add_argument("queries_filename", type=str, help="Path to query spectra.")
+    parser.add_argument("queries_format", type=str, help="Query spectra file format.")
+    parser.add_argument("similarity_metric", type=str, help='Metric to use for matching.')
+    parser.add_argument("tolerance", type=float, help="Tolerance to use for peak matching.")
+    parser.add_argument("mz_power", type=float, help="The power to raise mz to in the cosine function.")
+    parser.add_argument("intensity_power", type=float, help="The power to raise intensity to in the cosine function.")
+    parser.add_argument("output_filename_scores", type=str, help="Path where to store the output .json scores.")
+    args = parser.parse_args()
+
+    if args.queries_format == 'msp':
+        queries_spectra = list(load_from_msp(args.queries_filename))
+    elif args.queries_format == 'mgf':
+        queries_spectra = list(load_from_mgf(args.queries_filename))
+    else:
+        raise ValueError(f'File format {args.queries_format} not supported for query spectra.')
+
+    if args.symmetric:
+        reference_spectra = queries_spectra.copy()
+    else:
+        if args.references_format == 'msp':
+            reference_spectra = list(load_from_msp(args.references_filename))
+        elif args.references_format == 'mgf':
+            reference_spectra = list(load_from_mgf(args.references_filename))
+        else:
+            raise ValueError(f'File format {args.references_format} not supported for reference spectra library.')
+
+    if args.similarity_metric == 'CosineGreedy':
+        similarity_metric = CosineGreedy(args.tolerance, args.mz_power, args.intensity_power)
+    elif args.similarity_metric == 'CosineHungarian':
+        similarity_metric = CosineHungarian(args.tolerance, args.mz_power, args.intensity_power)
+    elif args.similarity_metric == 'ModifiedCosine':
+        similarity_metric = ModifiedCosine(args.tolerance, args.mz_power, args.intensity_power)
+        reference_spectra = list(map(convert_precursor_mz, reference_spectra))
+        queries_spectra = list(map(convert_precursor_mz, queries_spectra))
+    elif args.similarity_metric == 'NeutralLossesCosine':
+        similarity_metric = NeutralLossesCosine(args.tolerance, args.mz_power, args.intensity_power)
+        reference_spectra = list(map(convert_precursor_mz, reference_spectra))
+        queries_spectra = list(map(convert_precursor_mz, queries_spectra))
+    elif args.similarity_metric == 'Spec2Vec':
+        model = load_model(args.spec2vec_model, args.spec2vec_weights)
+        similarity_metric = Spec2Vec(model, intensity_weighting_power=args.intensity_power, allowed_missing_percentage=args.allowed_missing_percentage)
+    else:
+        return -1
+
+    print("Calculating scores...")
+    scores = calculate_scores(
+        references=reference_spectra,
+        queries=queries_spectra,
+        array_type=args.array_type,
+        similarity_function=similarity_metric,
+        is_symmetric=args.symmetric
+    )
+
+    if args.ri_tolerance is not None:
+        print("RI filtering with tolerance ", args.ri_tolerance)
+        ri_matches = calculate_scores(references=reference_spectra,
+                                      queries=queries_spectra,
+                                      similarity_function=MetadataMatch("retention_index", "difference", args.ri_tolerance),
+                                      array_type="numpy",
+                                      is_symmetric=args.symmetric).scores
+        scores.scores.add_coo_matrix(ri_matches, "MetadataMatch", join_type="inner")
+
+    write_outputs(args, scores)
+    return 0
+
+
+def write_outputs(args, scores):
+    """Write Scores to json file."""
+    print("Storing outputs...")
+    scores.to_json(args.output_filename_scores)
+
+
+if __name__ == "__main__":
+    main(argv=sys.argv[1:])
+    pass
b
diff -r 8ae521f89988 -r 8147d93d372d matchms_split.py
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/matchms_split.py Tue Jun 27 14:29:16 2023 +0000
[
@@ -0,0 +1,90 @@
+import argparse
+import itertools
+import os
+from typing import List
+
+from matchms.exporting import save_as_msp
+from matchms.importing import load_from_msp
+
+
+def get_spectra_names(spectra: list) -> List[str]:
+    """Read the keyword 'compound_name' from a spectra.
+
+    Args:
+        spectra (list): List of individual spectra.
+
+    Returns:
+        List[str]: List with 'compoud_name' of individual spectra.
+    """
+    return [x.get("compound_name") for x in spectra]
+
+
+def make_outdir(outdir: str):
+    """Create destination directory.
+
+    Args:
+        outdir (str): Path to destination directory where split spectra files are generated.
+    """
+    return os.mkdir(outdir)
+
+
+def write_spectra(spectra, outdir):
+    """Generates MSP files of individual spectra.
+
+    Args:
+        spectra (List[Spectrum]): Spectra to write to file
+        outdir   (str): Path to destination directory.
+    """
+    names = get_spectra_names(spectra)
+    for i in range(len(spectra)):
+        outpath = assemble_outpath(names[i], outdir)
+        save_as_msp(spectra[i], outpath)
+
+
+def assemble_outpath(name, outdir):
+    """Filter special chracteres from name.
+
+    Args:
+        name   (str): Name to be filetered.
+        outdir (str): Path to destination directory.
+    """
+    filename = ''.join(filter(str.isalnum, name))
+    outfile = str(filename) + ".msp"
+    outpath = os.path.join(outdir, outfile)
+    return outpath
+
+
+def split_round_robin(iterable, num_chunks):
+    chunks = [list() for _ in range(num_chunks)]
+    index = itertools.cycle(range(num_chunks))
+    for value in iterable:
+        chunks[next(index)].append(value)
+    chunks = filter(lambda x: len(x) > 0, chunks)
+    return chunks
+
+
+listarg = argparse.ArgumentParser()
+listarg.add_argument('--filename', type=str)
+listarg.add_argument('--method', type=str)
+listarg.add_argument('--outdir', type=str)
+listarg.add_argument('--parameter', type=int)
+args = listarg.parse_args()
+outdir = args.outdir
+filename = args.filename
+method = args.method
+parameter = args.parameter
+
+
+if __name__ == "__main__":
+    spectra = load_from_msp(filename, metadata_harmonization=True)
+    make_outdir(outdir)
+
+    if method == "one-per-file":
+        write_spectra(list(spectra), outdir)
+    else:
+        if method == "chunk-size":
+            chunks = iter(lambda: list(itertools.islice(spectra, parameter)), [])
+        elif method == "num-chunks":
+            chunks = split_round_robin(spectra, parameter)
+        for i, x in enumerate(chunks):
+            save_as_msp(x, os.path.join(outdir, f"chunk_{i}.msp"))
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/convert/harmonized_msp_out.msp
--- a/test-data/convert/harmonized_msp_out.msp Thu May 25 09:06:20 2023 +0000
+++ b/test-data/convert/harmonized_msp_out.msp Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -3,18 +3,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C4H10NO3PS\n INCHIKEY: YASYVMFAVPKPKE-SECBINFHSA-N\n-INCHI: \n SMILES: COP(=O)(N=C(O)C)SC\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Acephate\n RETENTION_TIME: 1.232997\n PRECURSOR_MZ: 184.0194\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 16\n 90.09368    1128.0\n@@ -39,18 +36,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C12H11NO2\n INCHIKEY: CVXBEEMKQHEXEN-UHFFFAOYSA-N\n-INCHI: \n SMILES: CN=C(Oc1cccc2c1cccc2)O\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Carbaryl\n RETENTION_TIME: 5.259445\n PRECURSOR_MZ: 202.0863\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 1\n 145.06491   1326147.0\n@@ -60,18 +54,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C8H16NO5P\n INCHIKEY: VEENJGZXVHKXNB-UHFFFAOYSA-N\n-INCHI: \n SMILES: COP(=O)(OC(=CC(=O)N(C)C)C)OC\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Dicrotophos\n RETENTION_TIME: 2.025499\n PRECURSOR_MZ: 238.0844\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 5\n 112.074     102027.0\n@@ -85,18 +76,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C5H12NO3PS2\n INCHIKEY: MCWXGJITAZMZEV-UHFFFAOYSA-N\n-INCHI: \n SMILES: CN=C(CSP(=S)(OC)OC)O\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Dimethoate\n RETENTION_TIME: 2.866696\n PRECURSOR_MZ: 230.0072\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 8\n 88.0219     548446.0\n@@ -113,18 +101,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C21H22NO4Cl\n INCHIKEY: QNBTYORWCCMPQP-UHFFFAOYSA-N\n-INCHI: \n SMILES: COc1cc(ccc1OC)C(=CC(=O)N1CCOCC1)c1ccc(cc1)Cl\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Dimethomorph\n RETENTION_TIME: 7.060486\n PRECURSOR_MZ: 388.1316\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 22\n 114.05532   468862.0\n@@ -155,18 +140,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C2H8NO2PS\n INCHIKEY: NNKVPIKMPCQWCG-ZCFIWIBFSA-N\n-INCHI: \n SMILES: COP(=O)(SC)N\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Methamidophos\n RETENTION_TIME: 1.153307\n PRECURSOR_MZ: 142.0089\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 4\n 98.00042    37721.0\n@@ -179,18 +161,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C7H13O6P\n INCHIKEY: GEPDYQSQVLXLEU-UHFFFAOYSA-N\n-INCHI: \n SMILES: COC(=O)C=C(OP(=O)(OC)OC)C\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Mevinphos\n RETENTION_TIME: 2.876307\n PRECURSOR_MZ: 225.0525\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 4\n 99.04416    295529.0\n@@ -203,18 +182,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C5H12NO4PS\n INCHIKEY: PZXOQEXFMJCDPG-UHFFFAOYSA-N\n-INCHI: \n SMILES: CN=C(CSP(=O)(OC)OC)O\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Omethoate\n RETENTION_TIME: 1.33423\n PRECURSOR_MZ: 214.0303\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 5\n 104.01654   86844.0\n@@ -228,1'..b'CHIKEY: WZZLDXDUQPOXNW-UHFFFAOYSA-N\n-INCHI: \n SMILES: CCCOC(=NCCCN(C)C)O\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Propamocarb_1\n RETENTION_TIME: 0.7535679\n PRECURSOR_MZ: 189.1603\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 2\n 86.0966     201548.0\n@@ -6366,18 +5877,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C9H20N2O2\n INCHIKEY: WZZLDXDUQPOXNW-UHFFFAOYSA-N\n-INCHI: \n SMILES: CCCOC(=NCCCN(C)C)O\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Propamocarb_2\n RETENTION_TIME: 1.081971\n PRECURSOR_MZ: 189.1603\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 2\n 86.0966     107829.0\n@@ -6388,18 +5896,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C11H15N3O2\n INCHIKEY: MYPKGPZHHQEODQ-UHFFFAOYSA-N\n-INCHI: \n SMILES: CN=C(Oc1cccc(c1)N=CN(C)C)O\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Formetanate_1\n RETENTION_TIME: 0.7730471\n PRECURSOR_MZ: 222.1239\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 13\n 93.03365    1796.0\n@@ -6421,18 +5926,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C11H15N3O2\n INCHIKEY: MYPKGPZHHQEODQ-UHFFFAOYSA-N\n-INCHI: \n SMILES: CN=C(Oc1cccc(c1)N=CN(C)C)O\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Formetanate_2\n RETENTION_TIME: 1.13043\n PRECURSOR_MZ: 222.1239\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 15\n 91.05441    6330.0\n@@ -6456,18 +5958,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C12H18N2O2\n INCHIKEY: YNEVBPNZHBAYOA-UHFFFAOYSA-N\n-INCHI: \n SMILES: CN=C(Oc1cc(C)c(c(c1)C)N(C)C)O\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Mexacarbate\n RETENTION_TIME: 1.682191\n PRECURSOR_MZ: 223.1443\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 5\n 134.07283   2632951.0\n@@ -6481,18 +5980,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C19H21N2OCl\n INCHIKEY: OGYFATSSENRIKG-UHFFFAOYSA-N\n-INCHI: \n SMILES: Clc1ccc(cc1)CN(C(=Nc1ccccc1)O)C1CCCC1\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Monceren\n RETENTION_TIME: 7.14553\n PRECURSOR_MZ: 329.1426\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 5\n 89.03881    550831.0\n@@ -6506,18 +6002,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C16H16N2O4\n INCHIKEY: WZJZMXBKUWKXTQ-UHFFFAOYSA-N\n-INCHI: \n SMILES: CCOC(=Nc1cccc(c1)OC(=Nc1ccccc1)O)O\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Desmedipham\n RETENTION_TIME: 6.430396\n PRECURSOR_MZ: 301.1192\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 3\n 136.03947   1773399.0\n@@ -6529,18 +6022,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C16H16N2O4\n INCHIKEY: IDOWTHOLJBTAFI-UHFFFAOYSA-N\n-INCHI: \n SMILES: COC(=Nc1cccc(c1)OC(=Nc1cccc(c1)C)O)O\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Phenmedipham\n RETENTION_TIME: 6.570995\n PRECURSOR_MZ: 301.1185\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 2\n 136.03947   2596929.0\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/convert/harmonized_msp_peakcomments_out.msp
--- a/test-data/convert/harmonized_msp_peakcomments_out.msp Thu May 25 09:06:20 2023 +0000
+++ b/test-data/convert/harmonized_msp_peakcomments_out.msp Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -3,18 +3,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C4H10NO3PS\n INCHIKEY: YASYVMFAVPKPKE-SECBINFHSA-N\n-INCHI: \n SMILES: COP(=O)(N=C(O)C)SC\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Acephate\n RETENTION_TIME: 1.232997\n PRECURSOR_MZ: 184.0194\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 16\n 90.09368    1128.0\n@@ -39,18 +36,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C12H11NO2\n INCHIKEY: CVXBEEMKQHEXEN-UHFFFAOYSA-N\n-INCHI: \n SMILES: CN=C(Oc1cccc2c1cccc2)O\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Carbaryl\n RETENTION_TIME: 5.259445\n PRECURSOR_MZ: 202.0863\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 1\n 145.06491   1326147.0   "Theoretical m/z 145.064787, Mass diff 0 (0.85 ppm), SMILES OC1=CC=CC=2C=CC=CC12, Annotation [C10H8O+H]+, Rule of HR True"\n@@ -60,18 +54,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C8H16NO5P\n INCHIKEY: VEENJGZXVHKXNB-UHFFFAOYSA-N\n-INCHI: \n SMILES: COP(=O)(OC(=CC(=O)N(C)C)C)OC\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Dicrotophos\n RETENTION_TIME: 2.025499\n PRECURSOR_MZ: 238.0844\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 5\n 112.074     102027.0\n@@ -85,18 +76,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C5H12NO3PS2\n INCHIKEY: MCWXGJITAZMZEV-UHFFFAOYSA-N\n-INCHI: \n SMILES: CN=C(CSP(=S)(OC)OC)O\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Dimethoate\n RETENTION_TIME: 2.866696\n PRECURSOR_MZ: 230.0072\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 8\n 88.0219     548446.0    "Theoretical m/z 88.021549, Mass diff 0 (3.99 ppm), SMILES SCC=NC, Annotation [C3H7NS-H]+, Rule of HR True"\n@@ -113,18 +101,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C21H22NO4Cl\n INCHIKEY: QNBTYORWCCMPQP-UHFFFAOYSA-N\n-INCHI: \n SMILES: COc1cc(ccc1OC)C(=CC(=O)N1CCOCC1)c1ccc(cc1)Cl\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Dimethomorph\n RETENTION_TIME: 7.060486\n PRECURSOR_MZ: 388.1316\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 22\n 114.05532   468862.0    "Theoretical m/z 114.054958, Mass diff 0 (3.17 ppm), SMILES O=CN1CCOCC1, Annotation [C5H9NO2-H]+, Rule of HR True"\n@@ -155,18 +140,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C2H8NO2PS\n INCHIKEY: NNKVPIKMPCQWCG-ZCFIWIBFSA-N\n-INCHI: \n SMILES: COP(=O)(SC)N\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Methamidophos\n RETENTION_TIME: 1.153307\n PRECURSOR_MZ: 142.0089\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 4\n 98.00042    37721.0\n@@ -179,18 +161,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C7H13O6P\n INCHIKEY: GEPDYQSQVLXLEU-UHFFFAOYSA-N\n-INCHI: \n SMILES: COC(=O)C=C(OP(=O)(OC)OC)C\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Mevinphos\n RETENTION_TIME: 2.876307\n PRECURSOR_MZ: 225.0525\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 4\n 99.04416    295529.0    "Theoretical m/z 99.044056, Mass diff 0 (1.05 ppm), SMILES O=C(OC)C=CC, Annotation [C5H8O2-H]+, Rule of HR True"\n@@ -203,18 +182,15 @@\n SPECTRUMTY'..b'1971\n PRECURSOR_MZ: 189.1603\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 2\n 86.0966     107829.0    "Theoretical m/z 86.096424, Mass diff 0 (2.05 ppm), SMILES N(C)(C)CCC, Annotation [C5H13N-H]+, Rule of HR True"\n@@ -6388,18 +5896,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C11H15N3O2\n INCHIKEY: MYPKGPZHHQEODQ-UHFFFAOYSA-N\n-INCHI: \n SMILES: CN=C(Oc1cccc(c1)N=CN(C)C)O\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Formetanate_1\n RETENTION_TIME: 0.7730471\n PRECURSOR_MZ: 222.1239\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 13\n 93.03365    1796.0      "Theoretical m/z 93.033489, Mass diff 0 (1.73 ppm), SMILES OC=1C=CC=CC1, Annotation [C6H6O-H]+, Rule of HR True"\n@@ -6421,18 +5926,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C11H15N3O2\n INCHIKEY: MYPKGPZHHQEODQ-UHFFFAOYSA-N\n-INCHI: \n SMILES: CN=C(Oc1cccc(c1)N=CN(C)C)O\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Formetanate_2\n RETENTION_TIME: 1.13043\n PRECURSOR_MZ: 222.1239\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 15\n 91.05441    6330.0      "Theoretical m/z 91.054775, Mass diff 0 (0 ppm), Formula C7H7"\n@@ -6456,18 +5958,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C12H18N2O2\n INCHIKEY: YNEVBPNZHBAYOA-UHFFFAOYSA-N\n-INCHI: \n SMILES: CN=C(Oc1cc(C)c(c(c1)C)N(C)C)O\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Mexacarbate\n RETENTION_TIME: 1.682191\n PRECURSOR_MZ: 223.1443\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 5\n 134.07283   2632951.0   "Theoretical m/z 134.072623, Mass diff 0 (1.55 ppm), SMILES O(C=1C=C(C=C(C1)C)C)C, Annotation [C9H12O-2H]+, Rule of HR False"\n@@ -6481,18 +5980,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C19H21N2OCl\n INCHIKEY: OGYFATSSENRIKG-UHFFFAOYSA-N\n-INCHI: \n SMILES: Clc1ccc(cc1)CN(C(=Nc1ccccc1)O)C1CCCC1\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Monceren\n RETENTION_TIME: 7.14553\n PRECURSOR_MZ: 329.1426\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 5\n 89.03881    550831.0    "Theoretical m/z 89.038575, Mass diff 0 (2.63 ppm), SMILES C=1C=CC(=CC1)C, Annotation [C7H8-3H]+, Rule of HR True"\n@@ -6506,18 +6002,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C16H16N2O4\n INCHIKEY: WZJZMXBKUWKXTQ-UHFFFAOYSA-N\n-INCHI: \n SMILES: CCOC(=Nc1cccc(c1)OC(=Nc1ccccc1)O)O\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Desmedipham\n RETENTION_TIME: 6.430396\n PRECURSOR_MZ: 301.1192\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 3\n 136.03947   1773399.0   "Theoretical m/z 136.03931, Mass diff 0 (1.18 ppm), SMILES OC(O)=NC=1C=CC=CC1, Annotation [C7H7NO2-H]+, Rule of HR True"\n@@ -6529,18 +6022,15 @@\n SPECTRUMTYPE: Centroid\n FORMULA: C16H16N2O4\n INCHIKEY: IDOWTHOLJBTAFI-UHFFFAOYSA-N\n-INCHI: \n SMILES: COC(=Nc1cccc(c1)OC(=Nc1cccc(c1)C)O)O\n AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)\n INSTRUMENT: LC Orbitrap Fusion Tribrid MS\n IONIZATION: ESI+\n LICENSE: CC BY-NC\n-COMMENT: \n COMPOUND_NAME: Phenmedipham\n RETENTION_TIME: 6.570995\n PRECURSOR_MZ: 301.1185\n ADDUCT: [M+H]+\n-COLLISION_ENERGY: \n INSTRUMENT_TYPE: LC-ESI-Orbitrap\n NUM PEAKS: 2\n 136.03947   2596929.0   "Theoretical m/z 136.03931, Mass diff 0 (1.18 ppm), SMILES OC(O)=NC=1C=CC=CC1, Annotation [C7H7NO2-H]+, Rule of HR True"\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/fingerprints/cosine.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/fingerprints/cosine.json Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "1161", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C4H10NO3PS", "inchikey": "YASYVMFAVPKPKE-SECBINFHSA-N", "smiles": "COP(=O)(N=C(O)C)SC", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "num_peaks": "16", "compound_name": "Acephate", "retention_time": 1.232997, "precursor_mz": 184.0194, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[90.09368, 1128.0], [93.11512, 1241.0], [95.10279, 1118.0], [101.31465, 1152.0], [102.90688, 1322.0], [103.98039, 1201.0], [112.01607, 12289.0], [112.99994, 38027.0], [115.00399, 1634.0], [124.98121, 922.0], [128.97701, 9208.0], [132.57193, 1350.0], [135.84808, 1428.0], [142.99275, 16419.0], [147.94205, 1750.0], [173.5094, 2353.0]]}, {"scannumber": "2257", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C12H11NO2", "inchikey": "CVXBEEMKQHEXEN-UHFFFAOYSA-N", "smiles": "CN=C(Oc1cccc2c1cccc2)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"145.06491": "Theoretical m/z 145.064787, Mass diff 0 (0.85 ppm), SMILES OC1=CC=CC=2C=CC=CC12, Annotation [C10H8O+H]+, Rule of HR True"}, "num_peaks": "1", "compound_name": "Carbaryl", "retention_time": 5.259445, "precursor_mz": 202.0863, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[145.06491, 1326147.0]]}, {"scannumber": "1516", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C8H16NO5P", "inchikey": "VEENJGZXVHKXNB-UHFFFAOYSA-N", "smiles": "COP(=O)(OC(=CC(=O)N(C)C)C)OC", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"112.07591": "Theoretical m/z 112.075687, Mass diff 0 (1.99 ppm), SMILES O=C(C=CC)N(C)C, Annotation [C6H11NO-H]+, Rule of HR True", "127.01563": "Theoretical m/z 127.01547, Mass diff 0 (1.26 ppm), SMILES O=P(O)(OC)OC, Annotation [C2H7O4P+H]+, Rule of HR True", "193.02605": "Theoretical m/z 193.026035, Mass diff 0 (0.08 ppm), SMILES O=CC=C(OP(=O)(OC)OC)C, Annotation [C6H11O5P-H]+, Rule of HR True", "238.08437": "Theoretical m/z 238.083891, Mass diff 0 (2.01 ppm), SMILES O=C(C=C(OP(=O)(OC)OC)C)N(C)C, Annotation [C8H16NO5P+H]+, Rule of HR True"}, "num_peaks": "5", "compound_name": "Dicrotophos", "retention_time": 2.025499, "precursor_mz": 238.0844, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[112.074, 102027.0], [112.07591, 9070987.0], [127.01563, 3230337.0], [193.02605, 7897744.0], [238.08437, 2973124.0]]}, {"scannumber": "1865", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C5H12NO3PS2", "inchikey": "MCWXGJITAZMZEV-UHFFFAOYSA-N", "smiles": "CN=C(CSP(=S)(OC)OC)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"88.0219": "Theoretical m/z 88.021549, Mass diff 0 (3.99 ppm), SMILES SCC=NC, Annotation [C3H7NS-H]+, Rule of HR True", "124.98233": "Theoretical m/z 124.982067, Mass diff 0 (2.11 ppm), SMILES S=P(OC)OC, Annotation [C2H7O2PS-H]+, Rule of HR True", "142.99275": "Theoretical m/z 142.993177, Mass diff 0 (0 ppm), Formula C2H8O3PS", "156.95422": "Theoretical m/z 156.954136, Mass diff 0 (0.54 ppm), SMILES S=P(S)(OC)OC, Annotation [C2H7O2PS2-H]+, Rule of HR True", "170.97": "Theoretical m/z 170.969791, Mass diff 0 (1.22 ppm), SMILES S=P(OC)(OC)SC, Annotation [C3H9O2PS2-H]+, Rule of HR True", "197.98123": "Theoretical m/z 197.980686, Mass diff 0.001 (2.75 ppm), SMILES S=P(OC)SCC(O)=NC, Annotation [C4H10NO2PS2-H]+, Rule of HR True", "198.96501": "Theoretical m/z 198'..b'), Formula C15H7", "189.06969": "Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9", "201.06973": "Theoretical m/z 201.070425, Mass diff 0 (0 ppm), Formula C16H9", "233.04245": "Theoretical m/z 233.042496, Mass diff -0.001 (0 ppm), Formula C16H9S", "234.04965": "Theoretical m/z 234.049775, Mass diff 0 (0.53 ppm), SMILES S1C=2C=CC=CC2C=3C=CC=4C=CC=CC4C13, Annotation [C16H10S]+, Rule of HR False"}, "num_peaks": "23", "compound_name": "Benzo[b]naphtho[2,1-d]thiophene", "retention_time": null, "retention_index": 2419.3, "precursor_mz": 234.04965, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[91.05425, 49130.0], [93.52686, 61653.0], [94.53469, 76638.0], [104.01679, 126871.0], [116.01675, 112547.0], [117.02459, 99108.0], [162.04623, 54491.0], [163.05408, 136418.0], [164.06198, 56321.0], [187.05406, 273349.0], [188.06189, 200750.0], [189.06969, 453336.0], [190.07306, 77884.0], [200.06189, 135620.0], [201.06973, 74692.0], [202.07758, 425058.0], [203.08086, 72058.0], [226.07762, 63460.0], [232.03409, 769638.0], [233.04245, 382457.0], [234.04965, 4404102.0], [235.05304, 725574.0], [236.04547, 251450.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C17H12", "inchikey": "HAPOJKSPCGLOOD-UHFFFAOYSA-N", "smiles": "C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"163.05414": "Theoretical m/z 163.054775, Mass diff 0 (0 ppm), Formula C13H7", "187.05412": "Theoretical m/z 187.054775, Mass diff 0 (0 ppm), Formula C15H7", "189.06975": "Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9", "211.05426": "Theoretical m/z 211.054775, Mass diff 0 (0 ppm), Formula C17H7", "213.0699": "Theoretical m/z 213.070425, Mass diff 0 (0 ppm), Formula C17H9", "215.0855": "Theoretical m/z 215.086075, Mass diff 0 (0 ppm), Formula C17H11", "216.09326": "Theoretical m/z 216.093354, Mass diff 0 (0.44 ppm), SMILES C=1C=CC=2C=C3C(=CC2C1)C=4C=CC=CC4C3, Annotation [C17H12]+, Rule of HR False"}, "num_peaks": "21", "compound_name": "2,3-Benzofluorene", "retention_time": null, "retention_index": 2257.5, "precursor_mz": 216.09326, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[93.52689, 122035.0], [94.53471, 241743.0], [95.03638, 42130.0], [105.52688, 47526.0], [106.53471, 171653.0], [107.03639, 60004.0], [107.5425, 180288.0], [108.03385, 97471.0], [163.05414, 68194.0], [187.05412, 167183.0], [188.06201, 86262.0], [189.06975, 239421.0], [190.07321, 37778.0], [211.05426, 117044.0], [212.06215, 60813.0], [213.0699, 808499.0], [214.07317, 202222.0], [215.0855, 3634570.0], [216.09326, 2535030.0], [217.09671, 444170.0], [218.09999, 37976.0]]}], "n_row": 5, "n_col": 7, "row": [0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4], "col": [0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6], "data": [[0.0563436169819011], [0.05741692517632146], [0.1213570784945665], [0.0563436169819011], [0.06510467359823571], [0.06311869632330808], [0.161218884399274], [0.4023956421624664], [0.4011466400553764], [0.27508612307793867], [0.4023956421624664], [0.1549884934836848], [0.27137377914817884], [0.2569780843750233], [0.08328129877731794], [0.08486775178136235], [0.14708952027694389], [0.08328129877731794], [0.07698478818604926], [0.12056651728064088], [0.1588647043434069], [0.06928995160692483], [0.07060987881136029], [0.11939348655940786], [0.06928995160692483], [0.09912695235553014], [0.09724046213130343], [0.14728100877622677], [0.16031154731160938], [0.1520987974102627], [0.22384378823632398], [0.16031154731160938], [0.13626771391646142], [0.2000718754617515], [0.36485712884822324]], "dtype": [["FingerprintSimilarity_cosine", "<f8"]]}\n\\ No newline at end of file\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/fingerprints/dice.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/fingerprints/dice.json Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "1161", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C4H10NO3PS", "inchikey": "YASYVMFAVPKPKE-SECBINFHSA-N", "smiles": "COP(=O)(N=C(O)C)SC", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "num_peaks": "16", "compound_name": "Acephate", "retention_time": 1.232997, "precursor_mz": 184.0194, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[90.09368, 1128.0], [93.11512, 1241.0], [95.10279, 1118.0], [101.31465, 1152.0], [102.90688, 1322.0], [103.98039, 1201.0], [112.01607, 12289.0], [112.99994, 38027.0], [115.00399, 1634.0], [124.98121, 922.0], [128.97701, 9208.0], [132.57193, 1350.0], [135.84808, 1428.0], [142.99275, 16419.0], [147.94205, 1750.0], [173.5094, 2353.0]]}, {"scannumber": "2257", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C12H11NO2", "inchikey": "CVXBEEMKQHEXEN-UHFFFAOYSA-N", "smiles": "CN=C(Oc1cccc2c1cccc2)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"145.06491": "Theoretical m/z 145.064787, Mass diff 0 (0.85 ppm), SMILES OC1=CC=CC=2C=CC=CC12, Annotation [C10H8O+H]+, Rule of HR True"}, "num_peaks": "1", "compound_name": "Carbaryl", "retention_time": 5.259445, "precursor_mz": 202.0863, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[145.06491, 1326147.0]]}, {"scannumber": "1516", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C8H16NO5P", "inchikey": "VEENJGZXVHKXNB-UHFFFAOYSA-N", "smiles": "COP(=O)(OC(=CC(=O)N(C)C)C)OC", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"112.07591": "Theoretical m/z 112.075687, Mass diff 0 (1.99 ppm), SMILES O=C(C=CC)N(C)C, Annotation [C6H11NO-H]+, Rule of HR True", "127.01563": "Theoretical m/z 127.01547, Mass diff 0 (1.26 ppm), SMILES O=P(O)(OC)OC, Annotation [C2H7O4P+H]+, Rule of HR True", "193.02605": "Theoretical m/z 193.026035, Mass diff 0 (0.08 ppm), SMILES O=CC=C(OP(=O)(OC)OC)C, Annotation [C6H11O5P-H]+, Rule of HR True", "238.08437": "Theoretical m/z 238.083891, Mass diff 0 (2.01 ppm), SMILES O=C(C=C(OP(=O)(OC)OC)C)N(C)C, Annotation [C8H16NO5P+H]+, Rule of HR True"}, "num_peaks": "5", "compound_name": "Dicrotophos", "retention_time": 2.025499, "precursor_mz": 238.0844, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[112.074, 102027.0], [112.07591, 9070987.0], [127.01563, 3230337.0], [193.02605, 7897744.0], [238.08437, 2973124.0]]}, {"scannumber": "1865", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C5H12NO3PS2", "inchikey": "MCWXGJITAZMZEV-UHFFFAOYSA-N", "smiles": "CN=C(CSP(=S)(OC)OC)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"88.0219": "Theoretical m/z 88.021549, Mass diff 0 (3.99 ppm), SMILES SCC=NC, Annotation [C3H7NS-H]+, Rule of HR True", "124.98233": "Theoretical m/z 124.982067, Mass diff 0 (2.11 ppm), SMILES S=P(OC)OC, Annotation [C2H7O2PS-H]+, Rule of HR True", "142.99275": "Theoretical m/z 142.993177, Mass diff 0 (0 ppm), Formula C2H8O3PS", "156.95422": "Theoretical m/z 156.954136, Mass diff 0 (0.54 ppm), SMILES S=P(S)(OC)OC, Annotation [C2H7O2PS2-H]+, Rule of HR True", "170.97": "Theoretical m/z 170.969791, Mass diff 0 (1.22 ppm), SMILES S=P(OC)(OC)SC, Annotation [C3H9O2PS2-H]+, Rule of HR True", "197.98123": "Theoretical m/z 197.980686, Mass diff 0.001 (2.75 ppm), SMILES S=P(OC)SCC(O)=NC, Annotation [C4H10NO2PS2-H]+, Rule of HR True", "198.96501": "Theoretical m/z 198'..b'la C15H7", "189.06969": "Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9", "201.06973": "Theoretical m/z 201.070425, Mass diff 0 (0 ppm), Formula C16H9", "233.04245": "Theoretical m/z 233.042496, Mass diff -0.001 (0 ppm), Formula C16H9S", "234.04965": "Theoretical m/z 234.049775, Mass diff 0 (0.53 ppm), SMILES S1C=2C=CC=CC2C=3C=CC=4C=CC=CC4C13, Annotation [C16H10S]+, Rule of HR False"}, "num_peaks": "23", "compound_name": "Benzo[b]naphtho[2,1-d]thiophene", "retention_time": null, "retention_index": 2419.3, "precursor_mz": 234.04965, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[91.05425, 49130.0], [93.52686, 61653.0], [94.53469, 76638.0], [104.01679, 126871.0], [116.01675, 112547.0], [117.02459, 99108.0], [162.04623, 54491.0], [163.05408, 136418.0], [164.06198, 56321.0], [187.05406, 273349.0], [188.06189, 200750.0], [189.06969, 453336.0], [190.07306, 77884.0], [200.06189, 135620.0], [201.06973, 74692.0], [202.07758, 425058.0], [203.08086, 72058.0], [226.07762, 63460.0], [232.03409, 769638.0], [233.04245, 382457.0], [234.04965, 4404102.0], [235.05304, 725574.0], [236.04547, 251450.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C17H12", "inchikey": "HAPOJKSPCGLOOD-UHFFFAOYSA-N", "smiles": "C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"163.05414": "Theoretical m/z 163.054775, Mass diff 0 (0 ppm), Formula C13H7", "187.05412": "Theoretical m/z 187.054775, Mass diff 0 (0 ppm), Formula C15H7", "189.06975": "Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9", "211.05426": "Theoretical m/z 211.054775, Mass diff 0 (0 ppm), Formula C17H7", "213.0699": "Theoretical m/z 213.070425, Mass diff 0 (0 ppm), Formula C17H9", "215.0855": "Theoretical m/z 215.086075, Mass diff 0 (0 ppm), Formula C17H11", "216.09326": "Theoretical m/z 216.093354, Mass diff 0 (0.44 ppm), SMILES C=1C=CC=2C=C3C(=CC2C1)C=4C=CC=CC4C3, Annotation [C17H12]+, Rule of HR False"}, "num_peaks": "21", "compound_name": "2,3-Benzofluorene", "retention_time": null, "retention_index": 2257.5, "precursor_mz": 216.09326, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[93.52689, 122035.0], [94.53471, 241743.0], [95.03638, 42130.0], [105.52688, 47526.0], [106.53471, 171653.0], [107.03639, 60004.0], [107.5425, 180288.0], [108.03385, 97471.0], [163.05414, 68194.0], [187.05412, 167183.0], [188.06201, 86262.0], [189.06975, 239421.0], [190.07321, 37778.0], [211.05426, 117044.0], [212.06215, 60813.0], [213.0699, 808499.0], [214.07317, 202222.0], [215.0855, 3634570.0], [216.09326, 2535030.0], [217.09671, 444170.0], [218.09999, 37976.0]]}], "n_row": 5, "n_col": 7, "row": [0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4], "col": [0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6], "data": [[0.045454545454545456], [0.04580152671755725], [0.11976047904191617], [0.045454545454545456], [0.059800664451827246], [0.06310679611650485], [0.1549053356282272], [0.3108108108108108], [0.30612244897959184], [0.27392120075046905], [0.3108108108108108], [0.13813813813813813], [0.2702702702702703], [0.25122349102773245], [0.06230529595015576], [0.06269592476489028], [0.14695340501792115], [0.06230529595015576], [0.0670391061452514], [0.11940298507462686], [0.15673981191222572], [0.05761316872427984], [0.058091286307053944], [0.11666666666666667], [0.05761316872427984], [0.09285714285714286], [0.09718670076726342], [0.1392857142857143], [0.08787878787878788], [0.08206686930091185], [0.20958751393534003], [0.08787878787878788], [0.09182209469153516], [0.17326732673267325], [0.3541453428863869]], "dtype": [["FingerprintSimilarity_dice", "<f8"]]}\n\\ No newline at end of file\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/fingerprints/jaccard_scores.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/fingerprints/jaccard_scores.json Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "19", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.01508, 137808.0], [75.02295, 278714.0], [76.03075, 608417.0], [87.02295, 304266.0], [88.03076, 497050.0], [89.03857, 441168.0], [98.01511, 150478.0], [150.04633, 868927.0], [151.05415, 546351.0], [152.0619, 2275502.0], [153.06528, 276320.0], [169.06468, 272559.0], [174.04636, 365846.0], [175.05423, 272039.0], [176.062, 3370523.0], [177.06982, 1751846.0], [178.0775, 13724432.0], [179.08078, 2250119.0], [180.08412, 138203.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "Anthracene", "retention_time": null, "retention_index": 1844.4, "precursor_mz": 178.07754, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.0151, 117371.0], [75.02296, 245305.0], [76.03077, 632686.0], [87.02297, 236214.0], [88.03078, 347832.0], [89.0386, 507288.0], [91.05425, 130861.0], [126.04636, 128356.0], [149.04478, 126331.0], [150.04637, 641829.0], [151.05415, 403195.0], [152.06195, 1369833.0], [153.06534, 175290.0], [169.06471, 228827.0], [174.04639, 255716.0], [175.05423, 198784.0], [176.06204, 2563053.0], [177.06984, 1182037.0], [178.07754, 11002398.0], [179.08081, 1778803.0], [180.08418, 132922.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "GVEPBJHOBDJJJI-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C3C2=CC=CC3=CC=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "17", "compound_name": "Fluoranthene", "retention_time": null, "retention_index": 2102.7, "precursor_mz": 202.07756, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[75.02299, 112456.0], [87.02298, 183640.0], [88.03079, 367434.0], [99.02296, 124952.0], [100.03078, 376079.0], [101.03863, 381288.0], [150.04642, 86059.0], [174.04634, 246963.0], [176.06194, 141676.0], [198.0464, 244370.0], [199.05429, 285767.0], [200.06207, 1958890.0], [201.06982, 1103710.0], [202.07756, 8104188.0], [203.08084, 1377015.0], [204.08421, 98067.0], [219.08043, 186623.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "BBEAQIROQSPTKN-UHFFFAOYSA-N", "smiles": "C1=CC2=C3C(C=CC4=CC=CC(C=C2)=C34)=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "16", "compound_name": "Pyrene", "retention_time": null, "retention_index": 2154.5, "precursor_mz": 202.07759, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[87.02299, 147113.0], [88.0308, 305149.0], [99.02298, 137042.0], [100.0308, 508914.0], [101.03864, 472094.0], [101.54032, 82430.0], [150.04637, 80741.0], [174.04631, 212706.0], [198.04643, 262925.0], [199.05429, 295144.0], [200.06209, 1960712.0], [201.06982, 1270466.0], [202.'..b' [201.06982, 1270466.0], [202.07759, 7974712.0], [203.08086, 1335645.0], [204.0843, 121774.0], [219.08044, 182944.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C18H14", "inchikey": "XJKSTNDFUHDPQJ-UHFFFAOYSA-N", "smiles": "C1=CC=C(C=C1)C2=CC=C(C=C2)C3=CC=CC=C3", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "25", "compound_name": "para-Terphenyl", "retention_time": null, "retention_index": 2207.5, "precursor_mz": 230.10886, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[88.03077, 233962.0], [101.03861, 353544.0], [113.03854, 437845.0], [115.05423, 690291.0], [128.062, 293046.0], [151.05412, 266397.0], [152.06195, 961184.0], [153.06976, 409346.0], [176.06192, 232793.0], [189.06972, 408734.0], [200.0619, 342984.0], [201.06986, 238974.0], [202.07758, 1292332.0], [203.08093, 374439.0], [213.06973, 256631.0], [215.08548, 1220866.0], [216.08881, 217320.0], [224.062, 181393.0], [226.07771, 1503774.0], [227.08588, 1198323.0], [228.09344, 2885510.0], [229.10123, 1791323.0], [230.10886, 17890056.0], [231.11214, 3536976.0], [232.11542, 320231.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10S", "inchikey": "YEUHHUCOSQOCIX-UHFFFAOYSA-N", "smiles": "S1C2=C(C=CC=C2)C2=C1C1=CC=CC=C1C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "23", "compound_name": "Benzo[b]naphtho[2,1-d]thiophene", "retention_time": null, "retention_index": 2419.3, "precursor_mz": 234.04965, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[91.05425, 49130.0], [93.52686, 61653.0], [94.53469, 76638.0], [104.01679, 126871.0], [116.01675, 112547.0], [117.02459, 99108.0], [162.04623, 54491.0], [163.05408, 136418.0], [164.06198, 56321.0], [187.05406, 273349.0], [188.06189, 200750.0], [189.06969, 453336.0], [190.07306, 77884.0], [200.06189, 135620.0], [201.06973, 74692.0], [202.07758, 425058.0], [203.08086, 72058.0], [226.07762, 63460.0], [232.03409, 769638.0], [233.04245, 382457.0], [234.04965, 4404102.0], [235.05304, 725574.0], [236.04547, 251450.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C17H12", "inchikey": "HAPOJKSPCGLOOD-UHFFFAOYSA-N", "smiles": "C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "2,3-Benzofluorene", "retention_time": null, "retention_index": 2257.5, "precursor_mz": 216.09326, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[93.52689, 122035.0], [94.53471, 241743.0], [95.03638, 42130.0], [105.52688, 47526.0], [106.53471, 171653.0], [107.03639, 60004.0], [107.5425, 180288.0], [108.03385, 97471.0], [163.05414, 68194.0], [187.05412, 167183.0], [188.06201, 86262.0], [189.06975, 239421.0], [190.07321, 37778.0], [211.05426, 117044.0], [212.06215, 60813.0], [213.0699, 808499.0], [214.07317, 202222.0], [215.0855, 3634570.0], [216.09326, 2535030.0], [217.09671, 444170.0], [218.09999, 37976.0]]}], "n_row": 7, "n_col": 7, "row": [0, 0, 1, 1, 2, 3, 4, 5, 6], "col": [0, 1, 0, 1, 2, 3, 4, 5, 6], "data": [[true, true, 1.0], [true, true, 0.9629629629629629], [true, true, 0.9629629629629629], [true, true, 1.0], [true, true, 1.0], [true, true, 1.0], [true, true, 1.0], [true, true, 1.0], [true, true, 1.0]], "dtype": [["MetadataMatch_retention_index_difference_60.0_f0", "|b1"], ["MetadataMatch_retention_index_difference_20.0_f0", "|b1"], ["FingerprintSimilarity_jaccard", "<f8"]]}\n\\ No newline at end of file\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/formatter/fill2_formatted.tsv
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/formatter/fill2_formatted.tsv Tue Jun 27 14:29:16 2023 +0000
b
@@ -0,0 +1,8 @@
+query reference CosineGreedy_score CosineGreedy_matches MetadataMatch_MetadataMatch
+C001 C001 0.9999999999999994 160 1.0
+C002 C001 0.009949950543146832 45 1.0
+C001 C002 0.009949950543146832 45 1.0
+C002 C002 1.0 154 1.0
+C003 C002 0.051811021915120416 49 1.0
+C002 C003 0.051811021915120416 49 1.0
+C003 C003 1.0000000000000002 135 1.0
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/formatter/fill2_trunc_scores_with_metadata_match.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/formatter/fill2_trunc_scores_with_metadata_match.json Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "160", "compound_name": "C001", "retention_time": 268.99, "retention_index": 1800.989583, "peaks_json": [[72.0389617714179, 56416115.0], [76.0256553376053, 49220925.0], [76.0295086554853, 17884882.0], [77.0053275563467, 26589154.0], [83.0127800769552, 72764369.0], [83.031134902227, 10179311.0], [86.7773291870617, 23734479.0], [87.0624748029292, 7498889.0], [93.7759098981009, 12284319.0], [97.0468722156908, 49324192.0], [99.0260406168298, 118701269.0], [103.002983736029, 18397693.0], [106.894754414816, 8004841.0], [111.007632749245, 107433124.0], [117.018501739727, 52467543.0], [131.034273710906, 359133132.0], [133.013526291087, 493499083.0], [133.031172492717, 17650343.0], [135.01033343891, 29110842.0], [135.029247366931, 21569969.0], [135.046364355946, 10818621.0], [136.941594609304, 50570227.0], [138.939618370595, 53903907.0], [139.002532294836, 49931624.0], [139.056768289213, 98175121.0], [141.036538750422, 115707572.0], [141.084158860874, 74023269.0], [142.104641843961, 441884594.0], [143.015834635052, 48987316.0], [143.052340331432, 420396997.0], [143.10428859825, 31762860.0], [143.107947705172, 44080773.0], [145.049469553608, 40966670.0], [147.065597668017, 3426705457.0], [148.066687703799, 456715218.0], [149.044686744287, 2485055493.0], [149.051982158561, 15135407.0], [149.062214633403, 244773900.0], [149.068434618167, 23246006.0], [150.04583614918, 369731636.0], [150.064532557665, 20279235.0], [151.023931616767, 305971501.0], [151.041613361558, 216314524.0], [152.023573104507, 39184709.0], [155.052170983022, 14728905.0], [157.031392134453, 61582084.0], [157.049811244805, 28679691.0], [159.046994608899, 9542515.0], [159.112043200462, 43124161.0], [163.096936467212, 259054581.0], [164.096242459652, 39496478.0], [165.093540352647, 75534890.0], [167.05522365918, 82592725.0], [168.054993436637, 9530750.0], [169.031329681702, 63326558.0], [171.010634911705, 74220303.0], [173.044685418755, 35853332.0], [177.039641177724, 20626924.0], [183.047097257536, 4559958550.0], [183.057249262756, 17431309.0], [184.046358120662, 106511561.0], [184.050443416, 414898624.0], [185.026407772471, 30996555.0], [185.043991660752, 154888217.0], [185.050867499577, 29446895.0], [185.062853536402, 75038250.0], [186.047199218887, 20807119.0], [191.037148572664, 28320845.0], [191.05526102196, 16327982.0], [195.094677873356, 7614346.0], [197.059793589486, 8688331.0], [201.039634295494, 20060252.0], [201.057764327742, 27419375.0], [211.041705745044, 1447339674.0], [212.041045979022, 25597653.0], [212.046025666707, 122581545.0], [213.021020474351, 91489413.0], [213.0391072084, 57195084.0], [214.144261002848, 35457490.0], [215.05549778228, 201625005.0], [215.091952078065, 46374386.0], [216.055525333011, 17909976.0], [217.03448664281, 74746711.0], [217.052170715974, 20626232.0], [218.071997852185, 19993432.0], [219.067881752754, 18067688.0], [222.082854522646, 135778814.0], [223.081182745765, 99300044.0], [223.08893130958, 16433468.0], [229.071095584099, 18581195.0], [232.085631037087, 26441905.0], [233.083493178908, 22919204.0], [237.114642446406, 27809453.0], [239.094719461519, 123875816.0], [240.093989220693, 10465340.0], [241.091358474241, 15998965.0], [243.050410724226, 30433441.0], [244.094291460025, 51273034.0], [245.029458131547, 23650783.0], [245.102463054765, 410722160.0], [246.103646000958, 29809430.0], [254.113905808742, 22337484.0], [257.066031671279, 2765507323.0], [258.06825165759, 197732377.0], [259.045756297035, 43018820.0], [259.063114651546, 129205654.0], [259.070275285318, 18682083.0], [259.081366811747, 116924177.0], [259.141876089913, 14942245.0], [260.066192507073, 34929695.0], [271.082012120742, 19885715.0], [271.984081051135, 9431717.0], [272.089691979189, 22169503.0], [273.079719357873, 78308182.0], [273.097313808265, 16543374969.0], [273.118950007375, 92869850.0], [274.099806030141, 2287536'..b'272989142, 3424764.0], [119.060398059581, 5015688.0], [123.055298722957, 6914458.0], [126.036934304886, 7725659.0], [127.068555548084, 6308443.0], [129.036692025662, 122379411.0], [129.065799497037, 22459026.0], [129.072869578599, 357742590.0], [129.084157333304, 8540678.0], [130.068355771428, 19512498.0], [130.072660895986, 17001807.0], [130.076400507348, 21643851.0], [131.076042114677, 42394426.0], [132.075235945687, 15098771.0], [132.083789835617, 26794170.0], [137.070988883611, 9859706.0], [138.05493224095, 3165654.0], [139.051175003371, 7069320.0], [141.047778003792, 23946731.0], [141.065923570004, 9330027.0], [142.055705069575, 6974963.0], [144.08382621206, 24138104.0], [152.052612709208, 12445682.0], [153.047862201653, 13551007.0], [153.06050104986, 5683251.0], [154.031798596314, 9702495.0], [154.068135836281, 22462918.0], [155.063488378907, 17345256.0], [157.067778706704, 305000842.0], [157.079041955576, 23421863.0], [158.063049350607, 79873894.0], [158.071192154163, 24230537.0], [158.087223744981, 44233946.0], [159.066220496597, 14412715.0], [159.094678886574, 63040570.0], [167.063455325892, 21288707.0], [169.079013983553, 42107910.0], [170.063237400093, 16300891.0], [175.083575347646, 36260729.0], [178.068296395536, 5176174.0], [179.081486447783, 7029930.0], [180.047488487863, 6887272.0], [181.079036591706, 29074392.0], [182.087014052977, 13760713.0], [182.099591005081, 6217729.0], [184.078890320729, 22831122.0], [185.110259256924, 10498695.0], [186.094277657113, 33629523.0], [191.072955515118, 17861044.0], [194.099507858777, 7280353.0], [195.09471415495, 25188698.0], [196.078795602271, 6238390.0], [196.102396694031, 10925562.0], [199.08955397795, 9152031.0], [201.105247648349, 119861528.0], [201.112359610286, 31839556.0], [205.107609165375, 288674074.0], [206.107497510189, 35502636.0], [207.09499264929, 14009572.0], [207.103984365352, 24028098.0], [209.11035836202, 11298196.0], [210.094325451895, 13575347.0], [211.089848595549, 23856594.0], [212.097009756898, 13775311.0], [213.105228486782, 73929890.0], [219.09527736534, 8505195.0], [221.074300407885, 14508487.0], [225.105533091326, 19016199.0], [233.102475979575, 15389167.0], [242.10246806473, 19687380.0], [242.126657609235, 11066324.0], [243.134206462776, 50646552.0], [244.119452816047, 30022076.0], [245.114820894281, 11088338.0], [254.102870594529, 5350655.0], [255.134441237269, 46732255.0], [269.113908264442, 46534893.0], [270.134437529958, 7090136.0], [271.128972048701, 37425633.0], [273.144669229945, 9722721.0], [274.128730992046, 139451474.0], [275.131908166958, 15282348.0], [284.113416878425, 8739042.0], [284.137011207473, 19427028.0], [301.139887685895, 13069124.0], [303.156554156078, 27321286.0], [309.144715592211, 11863564.0], [315.155169787866, 65230453.0], [319.157101342607, 733557628.0], [320.158352325734, 176280305.0], [321.153241677135, 74811478.0], [322.157191869663, 33601762.0], [327.155355207603, 17725445.0], [333.166397555812, 53890077.0], [334.168322787397, 15415305.0], [360.184205186806, 23337977.0], [374.163526061853, 21552675.0], [399.195205285978, 19867111.0], [401.174241468972, 35504809.0], [417.205717817748, 23250105.0], [417.241711757457, 19573381.0], [418.207654920137, 17403027.0], [418.243205616146, 12152742.0], [475.229231161579, 2756806.0], [489.245871828029, 38098072.0], [490.247019499098, 8845886.0], [491.244269926889, 10775524.0], [523.250368109965, 33514393.0], [579.297280589764, 6860747.0], [595.292757936577, 18386300.0], [596.292128391308, 11382024.0], [597.290217290809, 5672650.0]]}], "n_row": 3, "n_col": 3, "row": [0, 0, 1, 1, 1, 2, 2], "col": [0, 1, 0, 1, 2, 1, 2], "data": [[0.9999999999999994, 160, 1.0], [0.009949950543146832, 45, 1.0], [0.009949950543146832, 45, 1.0], [1.0, 154, 1.0], [0.051811021915120416, 49, 1.0], [0.051811021915120416, 49, 1.0], [1.0000000000000002, 135, 1.0]], "dtype": [["CosineGreedy_score", "<f8"], ["CosineGreedy_matches", "<i8"], ["MetadataMatch_MetadataMatch", "<f8"]]}\n\\ No newline at end of file\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/formatter/test2_threshold_formatting.tsv
--- a/test-data/formatter/test2_threshold_formatting.tsv Thu May 25 09:06:20 2023 +0000
+++ /dev/null Thu Jan 01 00:00:00 1970 +0000
b
@@ -1,21 +0,0 @@
-query reference matches score
-C038 Temephos 3 0.4479813614745304
-C041 Tebuthiuron 3 0.8149016029858368
-C029 Tebuthiuron 4 0.7578160314442438
-C022 Tebuthiuron 5 0.5445755137228012
-C039 Chloroxuron 5 0.7904224091921885
-C005 Forchlorfenuron 3 0.4718886768467089
-C034 Fenuron 4 0.4133963957082293
-C029 Ametryn 5 0.42431125511334006
-C041 Dimoxystrobin 5 0.8072997046898676
-C029 Dimoxystrobin 4 0.7523284529176055
-C015 Dimoxystrobin 4 0.42066129038267897
-C022 Dimoxystrobin 3 0.41284063372275814
-C005 Dinotefuran 4 0.48748010990419266
-C034 Tebufenpyrad 6 0.49374627461317955
-C120 Tebufenpyrad 4 0.40579598696856434
-C010 Mefenacet 4 0.43004982863660707
-C029 Simetryn 4 0.43277920021386995
-C001 Sulfentrazone 18 0.5628769859493975
-C025 Fuberidazole 6 0.52564792144262
-C002 Fuberidazole 10 0.42228986210263
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/formatter/test2_topk_formatting.tsv
--- a/test-data/formatter/test2_topk_formatting.tsv Thu May 25 09:06:20 2023 +0000
+++ /dev/null Thu Jan 01 00:00:00 1970 +0000
b
@@ -1,154 +0,0 @@
-query reference matches score
-C001 Sulfentrazone 18 0.5628769859493975
-C001 Dimethomorph 13 0.21123947571230445
-C001 Fenpropimorph 3 0.1724402539509388
-C002 Fuberidazole 10 0.42228986210263
-C002 Triflumuron 6 0.18301808160264693
-C002 Metribuzin 34 0.15483736628225514
-C003 Dinotefuran 7 0.36371270405069533
-C003 Forchlorfenuron 6 0.2900844630219365
-C003 Fuberidazole 9 0.2402739206276594
-C004 Boscalid 14 0.21701029457716275
-C004 Chloroxuron 11 0.15146088555482382
-C004 Fenarimol 15 0.1512102787330488
-C005 Dinotefuran 4 0.48748010990419266
-C005 Forchlorfenuron 3 0.4718886768467089
-C005 Triadimefon 11 0.25350626006111326
-C006 Propamocarb_1 1 0.04514131624669475
-C006 Propamocarb_2 1 0.04513568618897746
-C006 Thidiazuron 2 0.04361907635713056
-C007 Thiamethoxam 3 0.10069871056874392
-C007 Carfentrazone ethyl 21 0.058073633733907754
-C007 Azoxystrobin 15 0.04162201690293011
-C008 Nuarimol 19 0.24001108056690446
-C008 Carfentrazone ethyl 16 0.20226312595456533
-C008 Mepanipyrim 24 0.14228820913983994
-C009 Prometon_1 6 0.12091917830942694
-C009 Terbumeton_1 6 0.12091917830942694
-C009 Secbumeton_1 6 0.12091917830942694
-C010 Mefenacet 4 0.43004982863660707
-C010 Formetanate_2 5 0.29457761231941254
-C010 Formetanate_1 5 0.2905090298183795
-C011 Rotenone 16 0.120259993042822
-C011 Fluoxastrobin 15 0.061285197294993043
-C011 Diniconazole 11 0.05699612472380787
-C012 Mandipropamid 1 0.13126222394516718
-C012 Rotenone 8 0.0903130722741197
-C012 Boscalid 2 0.0729005850693225
-C013 Nuarimol 7 0.3025283295712756
-C013 Mepanipyrim 15 0.15526164028147613
-C013 Spirodiclofen 1 0.106955576332115
-C014 Fenarimol 8 0.32179033663818823
-C014 Diniconazole 15 0.15092951638007948
-C014 Triticonazole 11 0.14093053319713594
-C015 Tebuthiuron 2 0.42543841896130863
-C015 Dimoxystrobin 4 0.42066129038267897
-C015 Fenoxycarb 1 0.39730936680367507
-C016 Metaflumizone 7 0.1623382878576429
-C016 Tebufenpyrad 5 0.11500039861447153
-C016 Oxadixyl 3 0.08380136073062606
-C017 Diuron 1 0.40599269142482014
-C017 Neburon 1 0.37730332574966885
-C017 Metalaxyl 2 0.35998019446636254
-C018 Imidacloprid 5 0.38696080636127844
-C018 Diethofencarb 1 0.23518926887912128
-C018 Cyprodinil 5 0.22889204773489977
-C019 Dimethomorph 2 0.1531086374240407
-C019 Methabenzthiazuron 2 0.12163052809382871
-C019 Difenoconazole 3 0.11921837741737686
-C020 Metaflumizone 1 0.23108904445185505
-C020 Pyraclostrobin 2 0.1156909160450248
-C020 Flufenacet 1 0.09961048597871851
-C021 Fluoxastrobin 14 0.19390172961614233
-C021 Fenarimol 11 0.10371603681379983
-C021 Diniconazole 6 0.08088792564439248
-C022 Tebuthiuron 5 0.5445755137228012
-C022 Spiroxamine_2 1 0.5411902751987046
-C022 Spiroxamine_1 1 0.5316646078580738
-C023 Imidacloprid 3 0.14836980800858451
-C023 Mandipropamid 1 0.11566173860759153
-C023 3-Hydroxycarbofuran 1 0.11552221933479846
-C024 Flonicamid 4 0.21759028714740403
-C024 Imidacloprid 5 0.17807908901049269
-C024 Thiabendazole 1 0.11784109029164849
-C025 Fuberidazole 6 0.52564792144262
-C025 Thiamethoxam 2 0.43521398714077664
-C025 Dinotefuran 5 0.2544714861099532
-C026 Acibenzolar-S-methyl 1 0.27294451049290036
-C026 Ethofumesate 2 0.243921969041657
-C026 Tricyclazole 1 0.21870788794062254
-C027 Aminocarb_2 1 0.14452637381616495
-C027 Aminocarb_1 1 0.14452459002891235
-C027 Pyriproxyfen 1 0.143443143210623
-C028 Nuarimol 7 0.09525157976370839
-C028 Hydramethylnon 7 0.07386760517124663
-C028 Mevinphos 2 0.05351024774800468
-C029 Tebuthiuron 4 0.7578160314442438
-C029 Dimoxystrobin 4 0.7523284529176055
-C029 Fenoxycarb 2 0.7362883237809213
-C030 Fluoxastrobin 5 0.024671788239558207
-C030 Azoxystrobin 3 0.00805772872563839
-C030 Imazalil 1 0.006118222556281094
-C031 Thiabendazole 3 0.32542772940407816
-C031 Indoxacarb 3 0.11181300878614284
-C031 Fenpyroximate 11 0.09496750784008315
-C032 Chloroxuron 3 0.23099832140782792
-C032 Metaflumizone 4 0.15811807538527828
-C032 Clothianidin 3 0.15597953103591186
-C033 Triflumizole 1 0.12293170145864117
-C033 Fenoxycarb 1 0.03427456690960066
-C033 Hydramethylnon 4 0.02714227769520051
-C034 Tebufenpyrad 6 0.49374627461317955
-C034 Fenuron 4 0.4133963957082293
-C034 Carbaryl 1 0.3632254452201241
-C035 Fenarimol 7 0.09384407157367812
-C035 Diniconazole 3 0.0769387737847929
-C035 Furalaxyl 1 0.06844880759579586
-C036 Temephos 1 0.18474730701395245
-C036 Boscalid 2 0.1555080166548933
-C036 Difenoconazole 1 0.12573965018277433
-C037 Spiroxamine_1 1 0.17748544814941167
-C037 Spiroxamine_2 1 0.17459305075844642
-C037 Prometon_2 2 0.13300447820659206
-C038 Temephos 3 0.4479813614745304
-C038 Cyprodinil 11 0.38945132482337325
-C038 Tebufenpyrad 1 0.3230268544205335
-C039 Chloroxuron 5 0.7904224091921885
-C039 Metaflumizone 4 0.20495514559344025
-C039 Indoxacarb 4 0.06499320980489846
-C040 Nuarimol 7 0.3282707805775684
-C040 Hydramethylnon 8 0.2348918036086256
-C040 Dimoxystrobin 3 0.16614009139106203
-C041 Tebuthiuron 3 0.8149016029858368
-C041 Dimoxystrobin 5 0.8072997046898676
-C041 Fenoxycarb 1 0.7659786346098226
-C042 Fuberidazole 2 0.5857766323253869
-C042 Tebuthiuron 2 0.21955707467985677
-C042 Fenoxycarb 1 0.20659543701873473
-C043 Boscalid 2 0.06825376275669572
-C043 Pyrimethanil 3 0.057216918628908514
-C043 Dicrotophos 1 0.03384456583647226
-C045 Boscalid 3 0.1957440269836893
-C045 Carfentrazone ethyl 12 0.18490605424898302
-C045 Fipronil 8 0.15156444609388484
-C046 Nuarimol 4 0.3305281148374125
-C046 Methiocarb 1 0.15050994460485362
-C046 Clothianidin 2 0.1485039064562506
-C047 Methamidophos 2 0.13774763771211443
-C047 Ethirimol 3 0.1034867151296582
-C047 Dicrotophos 1 0.09639598176270271
-C048 Methoprotryne 1 0.15549799127470398
-C048 Prometon_2 1 0.10192628653945639
-C048 Terbumeton_2 1 0.10192628653945639
-C050 Propamocarb_1 1 0.995253153453804
-C050 Propamocarb_2 1 0.9951290247583393
-C050 Thidiazuron 2 0.9615972463125247
-C069 Metalaxyl 10 0.35854283629234446
-C069 Diuron 1 0.29921097365528254
-C069 Neburon 2 0.2796612168022523
-C106 Ethiofencarb 1 0.09746429231898772
-C106 Chlortoluron 1 0.05338627217152306
-C106 Ethirimol 2 0.04411148813226952
-C120 Tebufenpyrad 4 0.40579598696856434
-C120 Fenamidone 2 0.206943065684131
-C120 Isoproturon 6 0.15000239728413484
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/formatter/test4_formatted.tsv
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/formatter/test4_formatted.tsv Tue Jun 27 14:29:16 2023 +0000
[
b"@@ -0,0 +1,11916 @@\n+query\treference\tNeutralLossesCosine_score\tNeutralLossesCosine_matches\n+Perylene\tPerylene\t1.0\t16\n+Phenanthrene\tPerylene\t0.7594055481290253\t6\n+Anthracene\tPerylene\t0.7816811045895042\t6\n+Acenaphthene\tPerylene\t0.5690164471890379\t5\n+Fluoranthene\tPerylene\t0.8546237198996057\t7\n+Pyrene\tPerylene\t0.8185192159559384\t5\n+para-Terphenyl\tPerylene\t0.7343454316376467\t7\n+Benzo[b]naphtho[2,1-d]thiophene\tPerylene\t0.6425661177089488\t2\n+2,3-Benzofluorene\tPerylene\t0.2525670085697937\t6\n+Benzofluoranthene\tPerylene\t0.8938819006775962\t10\n+Benzo(k)fluoranthene\tPerylene\t0.985274599682159\t13\n+Indeno[1,2,3-cd]pyrene\tPerylene\t0.7922540002305708\t7\n+Dibenzanthracene\tPerylene\t0.8172966984973474\t9\n+Benzophenone\tPerylene\t0.08849313203633093\t3\n+4-Methylbenzophenone\tPerylene\t0.0040900408841154\t2\n+2,6-Dichloro-4-nitroaniline\tPerylene\t0.06076643210788908\t4\n+1-Methylphenanthrene\tPerylene\t0.42348807105444636\t7\n+Triclosan\tPerylene\t0.029360869411532375\t4\n+Drometrizole\tPerylene\t0.0587027706971795\t2\n+Enzacamene\tPerylene\t0.11863743194394825\t7\n+2,2',3,4,5,5',6-Heptachlorobiphenyl\tPerylene\t0.001966468710916666\t2\n+2,2',3,3',4,5',6,6'-Octachlorobiphenyl\tPerylene\t0.000764358229746351\t1\n+beta-Hexachlorocyclohexane\tPerylene\t0.008413733301153947\t2\n+alpha-1,2,3,4,5,6-Hexachlorocyclohexane\tPerylene\t0.0005491770202375849\t1\n+Lindane\tPerylene\t0.0008209590469777335\t1\n+delta-Hexachlorocyclohexane\tPerylene\t0.0005388743414914208\t1\n+epsilon-Hexachlorocyclohexane\tPerylene\t0.0006026403861762904\t1\n+Pentachlorobenzene\tPerylene\t0.019757127107049986\t2\n+Hexachlorobenzene\tPerylene\t0.0022473490727107207\t1\n+2,4'-Dichlorodiphenyldichloroethane\tPerylene\t0.013157945063149563\t2\n+2,4'-Dichlorodiphenyltrichloroethane\tPerylene\t0.013347565755229026\t3\n+2,2',4,5,5'-Pentachlorobiphenyl\tPerylene\t0.0003958854222256223\t1\n+2,2',3,4,4',5'-Hexachlorobiphenyl\tPerylene\t0.0005077696302166955\t1\n+2,2',4,4',5,5'-Hexachlorobiphenyl\tPerylene\t0.07521910915424485\t4\n+2,2',3,4,4',5,5'-Heptachlorobiphenyl\tPerylene\t0.0014636617538366383\t2\n+2,2',5,5'-Tetrachlorobiphenyl\tPerylene\t0.00042116604751712907\t1\n+2,2',3,4',5-Pentachlorobiphenyl\tPerylene\t0.00072829765065908\t1\n+2,3,3',4,5,6-Hexachlorobiphenyl\tPerylene\t0.0005346121023576851\t1\n+2,3,3',4',5,5',6-Heptachlorobiphenyl\tPerylene\t0.0005961644717473801\t1\n+trans-Prallethrin\tPerylene\t0.0013033208643460548\t1\n+Fenpropathrin\tPerylene\t0.022271646454031933\t2\n+Chlorpyrifos oxon\tPerylene\t0.036296460167888005\t9\n+Transfluthrin\tPerylene\t0.018431113763733808\t3\n+cis-Cyfluthrin_isomer2\tPerylene\t0.015875450516702534\t2\n+trans-Cyfluthrin_Isomer2\tPerylene\t0.0057284317883735565\t1\n+1,2,3,4,7,8-Hexachlorodibenzo-p-dioxin\tPerylene\t0.35713628898895355\t2\n+1,2,3,4,6,7,8-Heptachlorodibenzo-p-dioxin\tPerylene\t0.6004738760543434\t4\n+Estragole\tPerylene\t0.1274354945159494\t3\n+Benzyl salicylate\tPerylene\t0.0025487592367612172\t1\n+Eucalyptol\tPerylene\t0.0014044497521836833\t1\n+Coumarin\tPerylene\t0.06516422811768255\t1\n+Limonene\tPerylene\t0.00249747607765285\t2\n+Isomethyl-alpha-ionone\tPerylene\t0.029962167865351642\t2\n+delta-Iraldeine\tPerylene\t0.010722361197213872\t4\n+Safrole\tPerylene\t0.0653442903989148\t4\n+Cashmeran\tPerylene\t0.029760402289703447\t5\n+Celestolide\tPerylene\t0.00632853603000457\t3\n+Phantolide\tPerylene\t0.005171685189631448\t3\n+Thiobencarb\tPerylene\t0.005102702742696307\t1\n+Isoprocarb\tPerylene\t0.012488960236250022\t1\n+Linuron\tPerylene\t0.010317618084000975\t1\n+Metobromuron\tPerylene\t0.007456310296289823\t2\n+Monolinuron\tPerylene\t0.015775168176517546\t3\n+Pirimicarb\tPerylene\t0.005765295246724256\t1\n+Boscalid\tPerylene\t0.00321731217654157\t2\n+Butafenacil\tPerylene\t0.002533257463670457\t1\n+Myclobutanil\tPerylene\t0.0015717545649436182\t1\n+Terbumeton\tPerylene\t0.012379273705355584\t5\n+Rotenone\tPerylene\t0.0044024783401794935\t2\n+Enilconazole\tPerylene\t0.002087916382540429\t1\n+Acibenzolar-S-methyl\tPerylene\t0.003087426600635205\t1\n+Buprofezin\tPerylene\t0.0016122911027146008\t1\n+Ethofumesate\tPerylene\t0.002652615111824328\t1\n+Fenamidone\tPerylene\t0.003528882271834487\t1\n+Perylene\tPhenanthrene\t0.7594055481290253\t6\n+Phenanthrene\tPhenanthrene\t1.0"..b"iphenyl\tFenamidone\t0.0009962252275582525\t2\n+3,3',4,5,5'-Pentachlorobiphenyl\tFenamidone\t0.0007132215414105701\t1\n+2,3',4,4',5',6-Hexachlorobiphenyl\tFenamidone\t0.003941192991095589\t3\n+2,3,3',4,5,6-Hexachlorobiphenyl\tFenamidone\t0.0032602230184353796\t4\n+2,3,3',4',5',6-Hexachlorobiphenyl\tFenamidone\t0.003902911013387605\t3\n+2,3,3',4',5,6-Hexachlorobiphenyl\tFenamidone\t0.0028816112771112476\t3\n+2,3,3',4',5,5',6-Heptachlorobiphenyl\tFenamidone\t0.004129652769687335\t4\n+cis-Prallethrin\tFenamidone\t0.02063893548098056\t6\n+trans-Prallethrin\tFenamidone\t0.0636896775821581\t18\n+cis-Resmethrin\tFenamidone\t0.004385623187808619\t8\n+trans-Resmethrin\tFenamidone\t0.0037438584101095406\t3\n+cis-Tetramethrin\tFenamidone\t0.01457741637519401\t10\n+trans-Tetramethrin\tFenamidone\t0.01998288532279959\t5\n+Bifenthrin\tFenamidone\t0.016943871184680423\t3\n+Fenpropathrin\tFenamidone\t0.020485320040871696\t12\n+cis-Phenothrin\tFenamidone\t6.285139330345371e-05\t1\n+cis-Cyphenothrin\tFenamidone\t0.01577650392972678\t12\n+Flucythrinate_isomer1\tFenamidone\t0.011702041332335697\t2\n+Flucythrinate_isomer2\tFenamidone\t0.010479081997924272\t3\n+cis-Fenvalerate\tFenamidone\t0.0026839418346610074\t4\n+trans-Fenvalerate\tFenamidone\t0.005168753640460431\t7\n+Deltamethrin\tFenamidone\t0.02538556396055245\t8\n+Chlorpyrifos oxon\tFenamidone\t0.008017165415374613\t6\n+lambda-Cyhalothrin\tFenamidone\t0.004129170239233964\t2\n+Tefluthrin\tFenamidone\t0.048329475132303006\t9\n+Transfluthrin\tFenamidone\t0.00434534268029665\t5\n+cis-Permethrin\tFenamidone\t0.0336080987239482\t12\n+trans-Permethrin\tFenamidone\t0.037158313842249\t12\n+cis-Allethrin\tFenamidone\t0.029034992247889045\t6\n+trans-Allethrin\tFenamidone\t0.08565057856307288\t16\n+cis-Cypermethrin_isomer1\tFenamidone\t0.10145493598365102\t13\n+trans-Cypermethrin_isomer1\tFenamidone\t0.018538092241168595\t9\n+cis-Cypermethrin_isomer2\tFenamidone\t0.09931273097453466\t12\n+trans-Cypermethrin_isomer2\tFenamidone\t0.06070353397555056\t14\n+cis-Cyfluthrin_isomer1\tFenamidone\t0.002741342514267584\t9\n+trans-Cyfluthrin_isomer1\tFenamidone\t0.00460623189175496\t6\n+cis-Cyfluthrin_isomer2\tFenamidone\t0.013560322081058994\t12\n+trans-Cyfluthrin_Isomer2\tFenamidone\t0.012723588396856826\t11\n+1,2,3,4,7,8-Hexachlorodibenzo-p-dioxin\tFenamidone\t0.0014932550806373572\t2\n+1,2,3,4,6,7,8-Heptachlorodibenzo-p-dioxin\tFenamidone\t0.007463259062288398\t4\n+Estragole\tFenamidone\t0.1412047674540015\t8\n+Benzyl benzoate\tFenamidone\t0.003501755080485208\t3\n+Benzyl cinnamate\tFenamidone\t0.01046473315565069\t5\n+Benzyl salicylate\tFenamidone\t0.0003965607968942006\t1\n+Camphor\tFenamidone\t0.20590013512001082\t7\n+Eucalyptol\tFenamidone\t0.35784239189966305\t8\n+Coumarin\tFenamidone\t0.04127530460264906\t3\n+Limonene\tFenamidone\t0.4549680796955883\t5\n+Isomethyl-alpha-ionone\tFenamidone\t0.023153444567903744\t5\n+delta-Iraldeine\tFenamidone\t0.014791952326994103\t7\n+Safrole\tFenamidone\t0.033972430110607105\t7\n+Cashmeran\tFenamidone\t0.3711542904483082\t10\n+Celestolide\tFenamidone\t0.03604508634054142\t6\n+Phantolide\tFenamidone\t0.04706388584812521\t6\n+Propham\tFenamidone\t0.058857146107057945\t5\n+Thiobencarb\tFenamidone\t0.001747548159513367\t5\n+Isoprocarb\tFenamidone\t0.044272293314883686\t3\n+Linuron\tFenamidone\t0.04061042591948574\t11\n+Metobromuron\tFenamidone\t0.052801064317870655\t8\n+Monolinuron\tFenamidone\t0.03570076858640123\t5\n+Pirimicarb\tFenamidone\t0.09776996663893509\t6\n+Benalaxyl\tFenamidone\t0.04001833146441783\t15\n+Benzoximate\tFenamidone\t0.0014714555648693989\t4\n+Boscalid\tFenamidone\t0.0004504195432699507\t4\n+Myclobutanil\tFenamidone\t0.11173292584219889\t10\n+Oxadixyl\tFenamidone\t0.00309658302518114\t7\n+Picoxystrobin\tFenamidone\t0.011345966685709261\t11\n+Piperonyl butoxide\tFenamidone\t0.015934410043558587\t7\n+Terbumeton\tFenamidone\t0.014135762445538736\t5\n+Rotenone\tFenamidone\t0.001702586530993099\t3\n+Enilconazole\tFenamidone\t0.0021231289122006507\t7\n+Acibenzolar-S-methyl\tFenamidone\t0.0022815011051092924\t2\n+Bupirimate\tFenamidone\t0.3391095176584686\t16\n+Buprofezin\tFenamidone\t0.0166891482966783\t15\n+Carboxin\tFenamidone\t0.002867840748348977\t2\n+Ethofumesate\tFenamidone\t0.021945212693018183\t14\n+Fenamidone\tFenamidone\t0.9999999999999996\t47\n"
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/metadata_match/inchi_key_inner.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/metadata_match/inchi_key_inner.json Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "19", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.01508, 137808.0], [75.02295, 278714.0], [76.03075, 608417.0], [87.02295, 304266.0], [88.03076, 497050.0], [89.03857, 441168.0], [98.01511, 150478.0], [150.04633, 868927.0], [151.05415, 546351.0], [152.0619, 2275502.0], [153.06528, 276320.0], [169.06468, 272559.0], [174.04636, 365846.0], [175.05423, 272039.0], [176.062, 3370523.0], [177.06982, 1751846.0], [178.0775, 13724432.0], [179.08078, 2250119.0], [180.08412, 138203.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "Anthracene", "retention_time": null, "retention_index": 1844.4, "precursor_mz": 178.07754, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.0151, 117371.0], [75.02296, 245305.0], [76.03077, 632686.0], [87.02297, 236214.0], [88.03078, 347832.0], [89.0386, 507288.0], [91.05425, 130861.0], [126.04636, 128356.0], [149.04478, 126331.0], [150.04637, 641829.0], [151.05415, 403195.0], [152.06195, 1369833.0], [153.06534, 175290.0], [169.06471, 228827.0], [174.04639, 255716.0], [175.05423, 198784.0], [176.06204, 2563053.0], [177.06984, 1182037.0], [178.07754, 11002398.0], [179.08081, 1778803.0], [180.08418, 132922.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "GVEPBJHOBDJJJI-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C3C2=CC=CC3=CC=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "17", "compound_name": "Fluoranthene", "retention_time": null, "retention_index": 2102.7, "precursor_mz": 202.07756, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[75.02299, 112456.0], [87.02298, 183640.0], [88.03079, 367434.0], [99.02296, 124952.0], [100.03078, 376079.0], [101.03863, 381288.0], [150.04642, 86059.0], [174.04634, 246963.0], [176.06194, 141676.0], [198.0464, 244370.0], [199.05429, 285767.0], [200.06207, 1958890.0], [201.06982, 1103710.0], [202.07756, 8104188.0], [203.08084, 1377015.0], [204.08421, 98067.0], [219.08043, 186623.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "BBEAQIROQSPTKN-UHFFFAOYSA-N", "smiles": "C1=CC2=C3C(C=CC4=CC=CC(C=C2)=C34)=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "16", "compound_name": "Pyrene", "retention_time": null, "retention_index": 2154.5, "precursor_mz": 202.07759, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[87.02299, 147113.0], [88.0308, 305149.0], [99.02298, 137042.0], [100.0308, 508914.0], [101.03864, 472094.0], [101.54032, 82430.0], [150.04637, 80741.0], [174.04631, 212706.0], [198.04643, 262925.0], [199.05429, 295144.0], [200.06209, 1960712.0], [201.06982, 1270466.0], [202.'..b'2.0], [100.0308, 508914.0], [101.03864, 472094.0], [101.54032, 82430.0], [150.04637, 80741.0], [174.04631, 212706.0], [198.04643, 262925.0], [199.05429, 295144.0], [200.06209, 1960712.0], [201.06982, 1270466.0], [202.07759, 7974712.0], [203.08086, 1335645.0], [204.0843, 121774.0], [219.08044, 182944.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C18H14", "inchikey": "XJKSTNDFUHDPQJ-UHFFFAOYSA-N", "smiles": "C1=CC=C(C=C1)C2=CC=C(C=C2)C3=CC=CC=C3", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "25", "compound_name": "para-Terphenyl", "retention_time": null, "retention_index": 2207.5, "precursor_mz": 230.10886, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[88.03077, 233962.0], [101.03861, 353544.0], [113.03854, 437845.0], [115.05423, 690291.0], [128.062, 293046.0], [151.05412, 266397.0], [152.06195, 961184.0], [153.06976, 409346.0], [176.06192, 232793.0], [189.06972, 408734.0], [200.0619, 342984.0], [201.06986, 238974.0], [202.07758, 1292332.0], [203.08093, 374439.0], [213.06973, 256631.0], [215.08548, 1220866.0], [216.08881, 217320.0], [224.062, 181393.0], [226.07771, 1503774.0], [227.08588, 1198323.0], [228.09344, 2885510.0], [229.10123, 1791323.0], [230.10886, 17890056.0], [231.11214, 3536976.0], [232.11542, 320231.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10S", "inchikey": "YEUHHUCOSQOCIX-UHFFFAOYSA-N", "smiles": "S1C2=C(C=CC=C2)C2=C1C1=CC=CC=C1C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "23", "compound_name": "Benzo[b]naphtho[2,1-d]thiophene", "retention_time": null, "retention_index": 2419.3, "precursor_mz": 234.04965, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[91.05425, 49130.0], [93.52686, 61653.0], [94.53469, 76638.0], [104.01679, 126871.0], [116.01675, 112547.0], [117.02459, 99108.0], [162.04623, 54491.0], [163.05408, 136418.0], [164.06198, 56321.0], [187.05406, 273349.0], [188.06189, 200750.0], [189.06969, 453336.0], [190.07306, 77884.0], [200.06189, 135620.0], [201.06973, 74692.0], [202.07758, 425058.0], [203.08086, 72058.0], [226.07762, 63460.0], [232.03409, 769638.0], [233.04245, 382457.0], [234.04965, 4404102.0], [235.05304, 725574.0], [236.04547, 251450.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C17H12", "inchikey": "HAPOJKSPCGLOOD-UHFFFAOYSA-N", "smiles": "C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "2,3-Benzofluorene", "retention_time": null, "retention_index": 2257.5, "precursor_mz": 216.09326, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[93.52689, 122035.0], [94.53471, 241743.0], [95.03638, 42130.0], [105.52688, 47526.0], [106.53471, 171653.0], [107.03639, 60004.0], [107.5425, 180288.0], [108.03385, 97471.0], [163.05414, 68194.0], [187.05412, 167183.0], [188.06201, 86262.0], [189.06975, 239421.0], [190.07321, 37778.0], [211.05426, 117044.0], [212.06215, 60813.0], [213.0699, 808499.0], [214.07317, 202222.0], [215.0855, 3634570.0], [216.09326, 2535030.0], [217.09671, 444170.0], [218.09999, 37976.0]]}], "n_row": 7, "n_col": 7, "row": [0, 1, 2, 3, 4, 5, 6], "col": [0, 1, 2, 3, 4, 5, 6], "data": [[true, true], [true, true], [true, true], [true, true], [true, true], [true, true], [true, true]], "dtype": [["MetadataMatch_smiles_equal_match", "|b1"], ["MetadataMatch_inchikey_equal_match", "|b1"]]}\n\\ No newline at end of file\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/metadata_match/inner_join_ri_20.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/metadata_match/inner_join_ri_20.json Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "19", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.01508, 137808.0], [75.02295, 278714.0], [76.03075, 608417.0], [87.02295, 304266.0], [88.03076, 497050.0], [89.03857, 441168.0], [98.01511, 150478.0], [150.04633, 868927.0], [151.05415, 546351.0], [152.0619, 2275502.0], [153.06528, 276320.0], [169.06468, 272559.0], [174.04636, 365846.0], [175.05423, 272039.0], [176.062, 3370523.0], [177.06982, 1751846.0], [178.0775, 13724432.0], [179.08078, 2250119.0], [180.08412, 138203.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "Anthracene", "retention_time": null, "retention_index": 1844.4, "precursor_mz": 178.07754, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.0151, 117371.0], [75.02296, 245305.0], [76.03077, 632686.0], [87.02297, 236214.0], [88.03078, 347832.0], [89.0386, 507288.0], [91.05425, 130861.0], [126.04636, 128356.0], [149.04478, 126331.0], [150.04637, 641829.0], [151.05415, 403195.0], [152.06195, 1369833.0], [153.06534, 175290.0], [169.06471, 228827.0], [174.04639, 255716.0], [175.05423, 198784.0], [176.06204, 2563053.0], [177.06984, 1182037.0], [178.07754, 11002398.0], [179.08081, 1778803.0], [180.08418, 132922.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "GVEPBJHOBDJJJI-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C3C2=CC=CC3=CC=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "17", "compound_name": "Fluoranthene", "retention_time": null, "retention_index": 2102.7, "precursor_mz": 202.07756, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[75.02299, 112456.0], [87.02298, 183640.0], [88.03079, 367434.0], [99.02296, 124952.0], [100.03078, 376079.0], [101.03863, 381288.0], [150.04642, 86059.0], [174.04634, 246963.0], [176.06194, 141676.0], [198.0464, 244370.0], [199.05429, 285767.0], [200.06207, 1958890.0], [201.06982, 1103710.0], [202.07756, 8104188.0], [203.08084, 1377015.0], [204.08421, 98067.0], [219.08043, 186623.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "BBEAQIROQSPTKN-UHFFFAOYSA-N", "smiles": "C1=CC2=C3C(C=CC4=CC=CC(C=C2)=C34)=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "16", "compound_name": "Pyrene", "retention_time": null, "retention_index": 2154.5, "precursor_mz": 202.07759, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[87.02299, 147113.0], [88.0308, 305149.0], [99.02298, 137042.0], [100.0308, 508914.0], [101.03864, 472094.0], [101.54032, 82430.0], [150.04637, 80741.0], [174.04631, 212706.0], [198.04643, 262925.0], [199.05429, 295144.0], [200.06209, 1960712.0], [201.06982, 1270466.0], [202.'..b'], [150.04637, 80741.0], [174.04631, 212706.0], [198.04643, 262925.0], [199.05429, 295144.0], [200.06209, 1960712.0], [201.06982, 1270466.0], [202.07759, 7974712.0], [203.08086, 1335645.0], [204.0843, 121774.0], [219.08044, 182944.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C18H14", "inchikey": "XJKSTNDFUHDPQJ-UHFFFAOYSA-N", "smiles": "C1=CC=C(C=C1)C2=CC=C(C=C2)C3=CC=CC=C3", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "25", "compound_name": "para-Terphenyl", "retention_time": null, "retention_index": 2207.5, "precursor_mz": 230.10886, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[88.03077, 233962.0], [101.03861, 353544.0], [113.03854, 437845.0], [115.05423, 690291.0], [128.062, 293046.0], [151.05412, 266397.0], [152.06195, 961184.0], [153.06976, 409346.0], [176.06192, 232793.0], [189.06972, 408734.0], [200.0619, 342984.0], [201.06986, 238974.0], [202.07758, 1292332.0], [203.08093, 374439.0], [213.06973, 256631.0], [215.08548, 1220866.0], [216.08881, 217320.0], [224.062, 181393.0], [226.07771, 1503774.0], [227.08588, 1198323.0], [228.09344, 2885510.0], [229.10123, 1791323.0], [230.10886, 17890056.0], [231.11214, 3536976.0], [232.11542, 320231.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10S", "inchikey": "YEUHHUCOSQOCIX-UHFFFAOYSA-N", "smiles": "S1C2=C(C=CC=C2)C2=C1C1=CC=CC=C1C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "23", "compound_name": "Benzo[b]naphtho[2,1-d]thiophene", "retention_time": null, "retention_index": 2419.3, "precursor_mz": 234.04965, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[91.05425, 49130.0], [93.52686, 61653.0], [94.53469, 76638.0], [104.01679, 126871.0], [116.01675, 112547.0], [117.02459, 99108.0], [162.04623, 54491.0], [163.05408, 136418.0], [164.06198, 56321.0], [187.05406, 273349.0], [188.06189, 200750.0], [189.06969, 453336.0], [190.07306, 77884.0], [200.06189, 135620.0], [201.06973, 74692.0], [202.07758, 425058.0], [203.08086, 72058.0], [226.07762, 63460.0], [232.03409, 769638.0], [233.04245, 382457.0], [234.04965, 4404102.0], [235.05304, 725574.0], [236.04547, 251450.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C17H12", "inchikey": "HAPOJKSPCGLOOD-UHFFFAOYSA-N", "smiles": "C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "2,3-Benzofluorene", "retention_time": null, "retention_index": 2257.5, "precursor_mz": 216.09326, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[93.52689, 122035.0], [94.53471, 241743.0], [95.03638, 42130.0], [105.52688, 47526.0], [106.53471, 171653.0], [107.03639, 60004.0], [107.5425, 180288.0], [108.03385, 97471.0], [163.05414, 68194.0], [187.05412, 167183.0], [188.06201, 86262.0], [189.06975, 239421.0], [190.07321, 37778.0], [211.05426, 117044.0], [212.06215, 60813.0], [213.0699, 808499.0], [214.07317, 202222.0], [215.0855, 3634570.0], [216.09326, 2535030.0], [217.09671, 444170.0], [218.09999, 37976.0]]}], "n_row": 7, "n_col": 7, "row": [0, 0, 1, 1, 2, 3, 4, 5, 6], "col": [0, 1, 0, 1, 2, 3, 4, 5, 6], "data": [[true, true], [true, true], [true, true], [true, true], [true, true], [true, true], [true, true], [true, true], [true, true]], "dtype": [["MetadataMatch_retention_index_difference_60.0_f0", "|b1"], ["MetadataMatch_retention_index_difference_20.0_f0", "|b1"]]}\n\\ No newline at end of file\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/metadata_match/left_join_ri_20.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/metadata_match/left_join_ri_20.json Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "19", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.01508, 137808.0], [75.02295, 278714.0], [76.03075, 608417.0], [87.02295, 304266.0], [88.03076, 497050.0], [89.03857, 441168.0], [98.01511, 150478.0], [150.04633, 868927.0], [151.05415, 546351.0], [152.0619, 2275502.0], [153.06528, 276320.0], [169.06468, 272559.0], [174.04636, 365846.0], [175.05423, 272039.0], [176.062, 3370523.0], [177.06982, 1751846.0], [178.0775, 13724432.0], [179.08078, 2250119.0], [180.08412, 138203.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "Anthracene", "retention_time": null, "retention_index": 1844.4, "precursor_mz": 178.07754, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.0151, 117371.0], [75.02296, 245305.0], [76.03077, 632686.0], [87.02297, 236214.0], [88.03078, 347832.0], [89.0386, 507288.0], [91.05425, 130861.0], [126.04636, 128356.0], [149.04478, 126331.0], [150.04637, 641829.0], [151.05415, 403195.0], [152.06195, 1369833.0], [153.06534, 175290.0], [169.06471, 228827.0], [174.04639, 255716.0], [175.05423, 198784.0], [176.06204, 2563053.0], [177.06984, 1182037.0], [178.07754, 11002398.0], [179.08081, 1778803.0], [180.08418, 132922.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "GVEPBJHOBDJJJI-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C3C2=CC=CC3=CC=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "17", "compound_name": "Fluoranthene", "retention_time": null, "retention_index": 2102.7, "precursor_mz": 202.07756, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[75.02299, 112456.0], [87.02298, 183640.0], [88.03079, 367434.0], [99.02296, 124952.0], [100.03078, 376079.0], [101.03863, 381288.0], [150.04642, 86059.0], [174.04634, 246963.0], [176.06194, 141676.0], [198.0464, 244370.0], [199.05429, 285767.0], [200.06207, 1958890.0], [201.06982, 1103710.0], [202.07756, 8104188.0], [203.08084, 1377015.0], [204.08421, 98067.0], [219.08043, 186623.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "BBEAQIROQSPTKN-UHFFFAOYSA-N", "smiles": "C1=CC2=C3C(C=CC4=CC=CC(C=C2)=C34)=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "16", "compound_name": "Pyrene", "retention_time": null, "retention_index": 2154.5, "precursor_mz": 202.07759, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[87.02299, 147113.0], [88.0308, 305149.0], [99.02298, 137042.0], [100.0308, 508914.0], [101.03864, 472094.0], [101.54032, 82430.0], [150.04637, 80741.0], [174.04631, 212706.0], [198.04643, 262925.0], [199.05429, 295144.0], [200.06209, 1960712.0], [201.06982, 1270466.0], [202.'..b'82, 1270466.0], [202.07759, 7974712.0], [203.08086, 1335645.0], [204.0843, 121774.0], [219.08044, 182944.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C18H14", "inchikey": "XJKSTNDFUHDPQJ-UHFFFAOYSA-N", "smiles": "C1=CC=C(C=C1)C2=CC=C(C=C2)C3=CC=CC=C3", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "25", "compound_name": "para-Terphenyl", "retention_time": null, "retention_index": 2207.5, "precursor_mz": 230.10886, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[88.03077, 233962.0], [101.03861, 353544.0], [113.03854, 437845.0], [115.05423, 690291.0], [128.062, 293046.0], [151.05412, 266397.0], [152.06195, 961184.0], [153.06976, 409346.0], [176.06192, 232793.0], [189.06972, 408734.0], [200.0619, 342984.0], [201.06986, 238974.0], [202.07758, 1292332.0], [203.08093, 374439.0], [213.06973, 256631.0], [215.08548, 1220866.0], [216.08881, 217320.0], [224.062, 181393.0], [226.07771, 1503774.0], [227.08588, 1198323.0], [228.09344, 2885510.0], [229.10123, 1791323.0], [230.10886, 17890056.0], [231.11214, 3536976.0], [232.11542, 320231.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10S", "inchikey": "YEUHHUCOSQOCIX-UHFFFAOYSA-N", "smiles": "S1C2=C(C=CC=C2)C2=C1C1=CC=CC=C1C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "23", "compound_name": "Benzo[b]naphtho[2,1-d]thiophene", "retention_time": null, "retention_index": 2419.3, "precursor_mz": 234.04965, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[91.05425, 49130.0], [93.52686, 61653.0], [94.53469, 76638.0], [104.01679, 126871.0], [116.01675, 112547.0], [117.02459, 99108.0], [162.04623, 54491.0], [163.05408, 136418.0], [164.06198, 56321.0], [187.05406, 273349.0], [188.06189, 200750.0], [189.06969, 453336.0], [190.07306, 77884.0], [200.06189, 135620.0], [201.06973, 74692.0], [202.07758, 425058.0], [203.08086, 72058.0], [226.07762, 63460.0], [232.03409, 769638.0], [233.04245, 382457.0], [234.04965, 4404102.0], [235.05304, 725574.0], [236.04547, 251450.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C17H12", "inchikey": "HAPOJKSPCGLOOD-UHFFFAOYSA-N", "smiles": "C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "2,3-Benzofluorene", "retention_time": null, "retention_index": 2257.5, "precursor_mz": 216.09326, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[93.52689, 122035.0], [94.53471, 241743.0], [95.03638, 42130.0], [105.52688, 47526.0], [106.53471, 171653.0], [107.03639, 60004.0], [107.5425, 180288.0], [108.03385, 97471.0], [163.05414, 68194.0], [187.05412, 167183.0], [188.06201, 86262.0], [189.06975, 239421.0], [190.07321, 37778.0], [211.05426, 117044.0], [212.06215, 60813.0], [213.0699, 808499.0], [214.07317, 202222.0], [215.0855, 3634570.0], [216.09326, 2535030.0], [217.09671, 444170.0], [218.09999, 37976.0]]}], "n_row": 7, "n_col": 7, "row": [0, 0, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 6, 6], "col": [0, 1, 0, 1, 2, 3, 2, 3, 4, 3, 4, 6, 5, 4, 6], "data": [[true, true], [true, true], [true, true], [true, true], [true, true], [true, false], [true, false], [true, true], [true, false], [true, false], [true, true], [true, false], [true, true], [true, false], [true, true]], "dtype": [["MetadataMatch_retention_index_difference_60.0_f0", "|b1"], ["MetadataMatch_retention_index_difference_20.0_f0", "|b1"]]}\n\\ No newline at end of file\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/metadata_match/ri_match_60.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/metadata_match/ri_match_60.json Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"74.01508": "Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2", "75.02295": "Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3", "76.03075": "Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4", "87.02295": "Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3", "88.03076": "Theoretical m/z 88.0313, Mass diff 0 (0 ppm), Formula C7H4", "89.03857": "Theoretical m/z 89.039125, Mass diff 0 (0 ppm), Formula C7H5", "151.05415": "Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7", "175.05423": "Theoretical m/z 175.054775, Mass diff 0 (0 ppm), Formula C14H7", "176.062": "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8", "177.06982": "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9", "178.0775": "Theoretical m/z 178.077698, Mass diff 0 (1.11 ppm), SMILES C=1C=CC2=C(C1)C=CC=3C=CC=CC32, Annotation [C14H10]+, Rule of HR False"}, "num_peaks": "19", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.01508, 137808.0], [75.02295, 278714.0], [76.03075, 608417.0], [87.02295, 304266.0], [88.03076, 497050.0], [89.03857, 441168.0], [98.01511, 150478.0], [150.04633, 868927.0], [151.05415, 546351.0], [152.0619, 2275502.0], [153.06528, 276320.0], [169.06468, 272559.0], [174.04636, 365846.0], [175.05423, 272039.0], [176.062, 3370523.0], [177.06982, 1751846.0], [178.0775, 13724432.0], [179.08078, 2250119.0], [180.08412, 138203.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"74.0151": "Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2", "75.02296": "Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3", "76.03077": "Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4", "87.02297": "Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3", "88.03078": "Theoretical m/z 88.0313, Mass diff 0 (0 ppm), Formula C7H4", "89.0386": "Theoretical m/z 89.039125, Mass diff 0 (0 ppm), Formula C7H5", "91.05425": "Theoretical m/z 91.054775, Mass diff 0 (0 ppm), Formula C7H7", "151.05415": "Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7", "175.05423": "Theoretical m/z 175.054775, Mass diff 0 (0 ppm), Formula C14H7", "176.06204": "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8", "177.06984": "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9", "178.07754": "Theoretical m/z 178.077698, Mass diff 0 (0.89 ppm), SMILES C=1C=CC=2C=C3C=CC=CC3=CC2C1, Annotation [C14H10]+, Rule of HR False"}, "num_peaks": "21", "compound_name": "Anthracene", "retention_time": null, "retention_index": 1844.4, "precursor_mz": 178.07754, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.0151, 117371.0], [75.02296, 245305.0], [76.03077, 632686.0], [87.02297, 236214.0], [88.03078, 347832.0], [89.0386, 507288.0], [91.05425, 130861.0], [126.04636, 128356.0], [149.04478, 126331.0], [150.04637, 641829.0], [151.05415, 403195.0], [152.06195, 1369833.0], [153.06534, 175290.0], [169.06471, 228827.0], [174.04639, 255716.0], [175.05423, 198784.0], [176.06204, 2563053.0], [177.06984, 1182037.0], [178.07754, 11002398.0], [179.080'..b'320.0], [224.062, 181393.0], [226.07771, 1503774.0], [227.08588, 1198323.0], [228.09344, 2885510.0], [229.10123, 1791323.0], [230.10886, 17890056.0], [231.11214, 3536976.0], [232.11542, 320231.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10S", "inchikey": "YEUHHUCOSQOCIX-UHFFFAOYSA-N", "smiles": "S1C2=C(C=CC=C2)C2=C1C1=CC=CC=C1C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"91.05425": "Theoretical m/z 91.054775, Mass diff 0 (0 ppm), Formula C7H7", "163.05408": "Theoretical m/z 163.054775, Mass diff 0 (0 ppm), Formula C13H7", "187.05406": "Theoretical m/z 187.054775, Mass diff 0 (0 ppm), Formula C15H7", "189.06969": "Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9", "201.06973": "Theoretical m/z 201.070425, Mass diff 0 (0 ppm), Formula C16H9", "233.04245": "Theoretical m/z 233.042496, Mass diff -0.001 (0 ppm), Formula C16H9S", "234.04965": "Theoretical m/z 234.049775, Mass diff 0 (0.53 ppm), SMILES S1C=2C=CC=CC2C=3C=CC=4C=CC=CC4C13, Annotation [C16H10S]+, Rule of HR False"}, "num_peaks": "23", "compound_name": "Benzo[b]naphtho[2,1-d]thiophene", "retention_time": null, "retention_index": 2419.3, "precursor_mz": 234.04965, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[91.05425, 49130.0], [93.52686, 61653.0], [94.53469, 76638.0], [104.01679, 126871.0], [116.01675, 112547.0], [117.02459, 99108.0], [162.04623, 54491.0], [163.05408, 136418.0], [164.06198, 56321.0], [187.05406, 273349.0], [188.06189, 200750.0], [189.06969, 453336.0], [190.07306, 77884.0], [200.06189, 135620.0], [201.06973, 74692.0], [202.07758, 425058.0], [203.08086, 72058.0], [226.07762, 63460.0], [232.03409, 769638.0], [233.04245, 382457.0], [234.04965, 4404102.0], [235.05304, 725574.0], [236.04547, 251450.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C17H12", "inchikey": "HAPOJKSPCGLOOD-UHFFFAOYSA-N", "smiles": "C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"163.05414": "Theoretical m/z 163.054775, Mass diff 0 (0 ppm), Formula C13H7", "187.05412": "Theoretical m/z 187.054775, Mass diff 0 (0 ppm), Formula C15H7", "189.06975": "Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9", "211.05426": "Theoretical m/z 211.054775, Mass diff 0 (0 ppm), Formula C17H7", "213.0699": "Theoretical m/z 213.070425, Mass diff 0 (0 ppm), Formula C17H9", "215.0855": "Theoretical m/z 215.086075, Mass diff 0 (0 ppm), Formula C17H11", "216.09326": "Theoretical m/z 216.093354, Mass diff 0 (0.44 ppm), SMILES C=1C=CC=2C=C3C(=CC2C1)C=4C=CC=CC4C3, Annotation [C17H12]+, Rule of HR False"}, "num_peaks": "21", "compound_name": "2,3-Benzofluorene", "retention_time": null, "retention_index": 2257.5, "precursor_mz": 216.09326, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[93.52689, 122035.0], [94.53471, 241743.0], [95.03638, 42130.0], [105.52688, 47526.0], [106.53471, 171653.0], [107.03639, 60004.0], [107.5425, 180288.0], [108.03385, 97471.0], [163.05414, 68194.0], [187.05412, 167183.0], [188.06201, 86262.0], [189.06975, 239421.0], [190.07321, 37778.0], [211.05426, 117044.0], [212.06215, 60813.0], [213.0699, 808499.0], [214.07317, 202222.0], [215.0855, 3634570.0], [216.09326, 2535030.0], [217.09671, 444170.0], [218.09999, 37976.0]]}], "n_row": 7, "n_col": 7, "row": [0, 0, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 6, 6], "col": [0, 1, 0, 1, 2, 3, 2, 3, 4, 3, 4, 6, 5, 4, 6], "data": [[true], [true], [true], [true], [true], [true], [true], [true], [true], [true], [true], [true], [true], [true], [true]], "dtype": [["MetadataMatch_retention_index_difference_60.0_f0", "|b1"]]}\n\\ No newline at end of file\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/metadata_match/smiles.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/metadata_match/smiles.json Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"74.01508": "Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2", "75.02295": "Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3", "76.03075": "Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4", "87.02295": "Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3", "88.03076": "Theoretical m/z 88.0313, Mass diff 0 (0 ppm), Formula C7H4", "89.03857": "Theoretical m/z 89.039125, Mass diff 0 (0 ppm), Formula C7H5", "151.05415": "Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7", "175.05423": "Theoretical m/z 175.054775, Mass diff 0 (0 ppm), Formula C14H7", "176.062": "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8", "177.06982": "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9", "178.0775": "Theoretical m/z 178.077698, Mass diff 0 (1.11 ppm), SMILES C=1C=CC2=C(C1)C=CC=3C=CC=CC32, Annotation [C14H10]+, Rule of HR False"}, "num_peaks": "19", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.01508, 137808.0], [75.02295, 278714.0], [76.03075, 608417.0], [87.02295, 304266.0], [88.03076, 497050.0], [89.03857, 441168.0], [98.01511, 150478.0], [150.04633, 868927.0], [151.05415, 546351.0], [152.0619, 2275502.0], [153.06528, 276320.0], [169.06468, 272559.0], [174.04636, 365846.0], [175.05423, 272039.0], [176.062, 3370523.0], [177.06982, 1751846.0], [178.0775, 13724432.0], [179.08078, 2250119.0], [180.08412, 138203.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"74.0151": "Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2", "75.02296": "Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3", "76.03077": "Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4", "87.02297": "Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3", "88.03078": "Theoretical m/z 88.0313, Mass diff 0 (0 ppm), Formula C7H4", "89.0386": "Theoretical m/z 89.039125, Mass diff 0 (0 ppm), Formula C7H5", "91.05425": "Theoretical m/z 91.054775, Mass diff 0 (0 ppm), Formula C7H7", "151.05415": "Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7", "175.05423": "Theoretical m/z 175.054775, Mass diff 0 (0 ppm), Formula C14H7", "176.06204": "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8", "177.06984": "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9", "178.07754": "Theoretical m/z 178.077698, Mass diff 0 (0.89 ppm), SMILES C=1C=CC=2C=C3C=CC=CC3=CC2C1, Annotation [C14H10]+, Rule of HR False"}, "num_peaks": "21", "compound_name": "Anthracene", "retention_time": null, "retention_index": 1844.4, "precursor_mz": 178.07754, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.0151, 117371.0], [75.02296, 245305.0], [76.03077, 632686.0], [87.02297, 236214.0], [88.03078, 347832.0], [89.0386, 507288.0], [91.05425, 130861.0], [126.04636, 128356.0], [149.04478, 126331.0], [150.04637, 641829.0], [151.05415, 403195.0], [152.06195, 1369833.0], [153.06534, 175290.0], [169.06471, 228827.0], [174.04639, 255716.0], [175.05423, 198784.0], [176.06204, 2563053.0], [177.06984, 1182037.0], [178.07754, 11002398.0], [179.080'..b'.06986, 238974.0], [202.07758, 1292332.0], [203.08093, 374439.0], [213.06973, 256631.0], [215.08548, 1220866.0], [216.08881, 217320.0], [224.062, 181393.0], [226.07771, 1503774.0], [227.08588, 1198323.0], [228.09344, 2885510.0], [229.10123, 1791323.0], [230.10886, 17890056.0], [231.11214, 3536976.0], [232.11542, 320231.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10S", "inchikey": "YEUHHUCOSQOCIX-UHFFFAOYSA-N", "smiles": "S1C2=C(C=CC=C2)C2=C1C1=CC=CC=C1C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"91.05425": "Theoretical m/z 91.054775, Mass diff 0 (0 ppm), Formula C7H7", "163.05408": "Theoretical m/z 163.054775, Mass diff 0 (0 ppm), Formula C13H7", "187.05406": "Theoretical m/z 187.054775, Mass diff 0 (0 ppm), Formula C15H7", "189.06969": "Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9", "201.06973": "Theoretical m/z 201.070425, Mass diff 0 (0 ppm), Formula C16H9", "233.04245": "Theoretical m/z 233.042496, Mass diff -0.001 (0 ppm), Formula C16H9S", "234.04965": "Theoretical m/z 234.049775, Mass diff 0 (0.53 ppm), SMILES S1C=2C=CC=CC2C=3C=CC=4C=CC=CC4C13, Annotation [C16H10S]+, Rule of HR False"}, "num_peaks": "23", "compound_name": "Benzo[b]naphtho[2,1-d]thiophene", "retention_time": null, "retention_index": 2419.3, "precursor_mz": 234.04965, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[91.05425, 49130.0], [93.52686, 61653.0], [94.53469, 76638.0], [104.01679, 126871.0], [116.01675, 112547.0], [117.02459, 99108.0], [162.04623, 54491.0], [163.05408, 136418.0], [164.06198, 56321.0], [187.05406, 273349.0], [188.06189, 200750.0], [189.06969, 453336.0], [190.07306, 77884.0], [200.06189, 135620.0], [201.06973, 74692.0], [202.07758, 425058.0], [203.08086, 72058.0], [226.07762, 63460.0], [232.03409, 769638.0], [233.04245, 382457.0], [234.04965, 4404102.0], [235.05304, 725574.0], [236.04547, 251450.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C17H12", "inchikey": "HAPOJKSPCGLOOD-UHFFFAOYSA-N", "smiles": "C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": {"163.05414": "Theoretical m/z 163.054775, Mass diff 0 (0 ppm), Formula C13H7", "187.05412": "Theoretical m/z 187.054775, Mass diff 0 (0 ppm), Formula C15H7", "189.06975": "Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9", "211.05426": "Theoretical m/z 211.054775, Mass diff 0 (0 ppm), Formula C17H7", "213.0699": "Theoretical m/z 213.070425, Mass diff 0 (0 ppm), Formula C17H9", "215.0855": "Theoretical m/z 215.086075, Mass diff 0 (0 ppm), Formula C17H11", "216.09326": "Theoretical m/z 216.093354, Mass diff 0 (0.44 ppm), SMILES C=1C=CC=2C=C3C(=CC2C1)C=4C=CC=CC4C3, Annotation [C17H12]+, Rule of HR False"}, "num_peaks": "21", "compound_name": "2,3-Benzofluorene", "retention_time": null, "retention_index": 2257.5, "precursor_mz": 216.09326, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[93.52689, 122035.0], [94.53471, 241743.0], [95.03638, 42130.0], [105.52688, 47526.0], [106.53471, 171653.0], [107.03639, 60004.0], [107.5425, 180288.0], [108.03385, 97471.0], [163.05414, 68194.0], [187.05412, 167183.0], [188.06201, 86262.0], [189.06975, 239421.0], [190.07321, 37778.0], [211.05426, 117044.0], [212.06215, 60813.0], [213.0699, 808499.0], [214.07317, 202222.0], [215.0855, 3634570.0], [216.09326, 2535030.0], [217.09671, 444170.0], [218.09999, 37976.0]]}], "n_row": 7, "n_col": 7, "row": [0, 1, 2, 3, 4, 5, 6], "col": [0, 1, 2, 3, 4, 5, 6], "data": [[true], [true], [true], [true], [true], [true], [true]], "dtype": [["MetadataMatch_smiles_equal_match", "|b1"]]}\n\\ No newline at end of file\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/scores.json
--- a/test-data/scores.json Thu May 25 09:06:20 2023 +0000
+++ b/test-data/scores.json Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -1,1 +1,24885 @@\n-{"__Scores__": true, "similarity_function": {"__Similarity__": "CosineGreedy", "tolerance": 0.1, "mz_power": 0.0, "intensity_power": 1.0}, "is_symmetric": true, "references": [{"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "32", "compound_name": "C041", "retention_time": 122.44, "retention_index": 1079.198718, "peaks_json": [[73.0841293753643, 962537.0], [92.9922681974622, 25809589.0], [93.5236243719193, 7832508.0], [93.9918503397022, 4037554.0], [94.9892593290089, 9273560.0], [102.528897846033, 5258508.0], [103.032878700634, 5618676.0], [106.048287181011, 17919228.0], [116.082937025519, 19358163.0], [116.088997408008, 2749072817.0], [116.093789141941, 21174548.0], [117.085953932526, 5958559.0], [117.088526521735, 137197201.0], [117.09226575013, 144026411.0], [117.095343138483, 3078493.0], [118.085738968471, 93658275.0], [118.091857064635, 7792967.0], [118.095506285782, 3082221.0], [120.088840757968, 158124.0], [129.052817882804, 2757896.0], [144.047597981883, 6935455.0], [154.03180616847, 40749504.0], [155.035134922158, 4354801.0], [156.011148185837, 2560241.0], [172.042203916163, 16922092.0], [178.047197818956, 372134.0], [190.107642341182, 143044792.0], [191.109992585577, 20336483.0], [192.104283767627, 9359612.0], [204.050979060253, 4818700.0], [205.059630310281, 24572956.0], [244.042971889438, 1521120.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "19", "compound_name": "C078", "retention_time": 123.01, "retention_index": 1084.222756, "peaks_json": [[75.010394066048, 41579966.0], [76.0137882041242, 2876047.0], [76.0181929768627, 28340717.0], [77.0259504577085, 2087987.0], [78.0338979909698, 183026502.0], [78.5690293876576, 1621521.0], [78.8681599478139, 1487893.0], [79.0376938452989, 30093264.0], [79.0416552579741, 2825081311.0], [79.0447459388332, 28320503.0], [79.0501993561375, 4270687.0], [79.2157179170819, 1455165.0], [79.5185598181509, 1593839.0], [80.0386557190469, 10075569.0], [80.0450063493877, 149614748.0], [81.0483295726077, 3268158.0], [89.9974943554148, 1961794.0], [95.0365701495921, 4214292.0], [96.0443688524812, 20830699.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "12", "compound_name": "C115", "retention_time": 123.7, "retention_index": 1090.304487, "peaks_json": [[77.9912808985361, 1430046.0], [78.0150262817737, 37531039.0], [84.0934034839136, 3045143.0], [85.1012069274801, 7651144.0], [86.1044999837715, 502049.0], [127.023946499139, 21672536.0], [155.015395274682, 50181759.0], [173.025818014551, 19321056.0], [225.059247121035, 54449419.0], [240.031884101672, 47027617.0], [278.105692656594, 44448528.0], [332.077037506685, 36734393.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "20", "compound_name": "C072", "retention_time": 126.02, "retention_index": 1105.809524, "peaks_json": [[75.026123979198, 434239353.0], [76.0294479264598, 10769681.0], [79.0184721827801, 4406598.0], [79.0228409649542, 3040911.0], [86.0420715774215, 69402087.0], [93.9412902191997, 4117357.0], [95.0446916434486, 4401744.0], [95.9392474302401, 3764925.0], [120.033807681496, 1445863.0], [122.943972830176, 4871174.0], [131.088643222278, 12343251.0], [134.108939486662, 1310131.0], [137.026000929413, 1710939.0], [168.950062688366, 1235026.0], [176.091958662459, 68901069.0], [177.09146256329, 9695519.0], [184.040024671153, 13159137.0], [206.084125728074, 4028572.0], [249.138642058545, 13543889.0], [251.137167813194, 1490829.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "26", "compound_name": "C050", "retention_time": 128.53, "retention_index": 1117.761905, "peaks_json": [[72.0264235348245, 4721310.0], [75.0234110401587, 7374271.0], [75.0288404069534, 9420937.0], [86.9717728755449, 9553539.0], [88.9509947069327, 6380434.0], [97.088645546243, 920854.0], [100.00330732202, 18214503.0], [102.073359041231, 484549126.0], [103.002973695426, 21838182.0], [105.0182950443, 11385761.0], [108.947110640446, 3717342.0]'..b'  10\n+        ],\n+        [\n+            0.02721712700818484,\n+            2\n+        ],\n+        [\n+            0.01604776148430577,\n+            4\n+        ],\n+        [\n+            0.004643459359286748,\n+            1\n+        ],\n+        [\n+            0.06028384723921053,\n+            5\n+        ],\n+        [\n+            0.010182216968476942,\n+            2\n+        ],\n+        [\n+            0.015514294506382824,\n+            7\n+        ],\n+        [\n+            0.006159930050479137,\n+            1\n+        ],\n+        [\n+            0.16161703455381496,\n+            6\n+        ],\n+        [\n+            0.0040750621823237455,\n+            1\n+        ],\n+        [\n+            0.00035959474689346225,\n+            1\n+        ],\n+        [\n+            0.004410365100501621,\n+            1\n+        ],\n+        [\n+            0.19629045559553993,\n+            7\n+        ],\n+        [\n+            2.183361903331013e-05,\n+            1\n+        ],\n+        [\n+            0.00874020096442854,\n+            6\n+        ],\n+        [\n+            0.05339849611313036,\n+            3\n+        ],\n+        [\n+            0.07241757799207088,\n+            9\n+        ],\n+        [\n+            1.0,\n+            57\n+        ],\n+        [\n+            0.1532083156483457,\n+            9\n+        ],\n+        [\n+            0.07254436753789326,\n+            7\n+        ],\n+        [\n+            0.001955368426994351,\n+            2\n+        ],\n+        [\n+            0.0025872639272902275,\n+            4\n+        ],\n+        [\n+            0.0013204445873728583,\n+            1\n+        ],\n+        [\n+            0.0038473569260636577,\n+            2\n+        ],\n+        [\n+            2.3474291172828106e-05,\n+            1\n+        ],\n+        [\n+            0.0026965131583056297,\n+            1\n+        ],\n+        [\n+            0.006365332254288743,\n+            5\n+        ],\n+        [\n+            0.00029988255581130476,\n+            1\n+        ],\n+        [\n+            0.007912892888665144,\n+            1\n+        ],\n+        [\n+            0.0010730602771333662,\n+            1\n+        ],\n+        [\n+            0.016989615322438187,\n+            9\n+        ],\n+        [\n+            0.003161355905982341,\n+            3\n+        ],\n+        [\n+            0.0016932596421780554,\n+            4\n+        ],\n+        [\n+            0.12277955682638493,\n+            2\n+        ],\n+        [\n+            0.0010876843418038634,\n+            2\n+        ],\n+        [\n+            0.006154982701162679,\n+            6\n+        ],\n+        [\n+            0.008208323843919407,\n+            3\n+        ],\n+        [\n+            0.0022656923270095238,\n+            1\n+        ],\n+        [\n+            0.00024388889524274332,\n+            1\n+        ],\n+        [\n+            0.02730466120239496,\n+            3\n+        ],\n+        [\n+            0.0006430820485323683,\n+            1\n+        ],\n+        [\n+            0.020922814133647005,\n+            2\n+        ],\n+        [\n+            0.02997880004616917,\n+            1\n+        ],\n+        [\n+            0.012077049920079725,\n+            1\n+        ],\n+        [\n+            0.002011546918083829,\n+            1\n+        ],\n+        [\n+            0.01644817444407394,\n+            3\n+        ],\n+        [\n+            0.034476184479167796,\n+            3\n+        ],\n+        [\n+            0.01192804514810923,\n+            2\n+        ],\n+        [\n+            0.0008393606283062712,\n+            1\n+        ],\n+        [\n+            0.008295825799065532,\n+            1\n+        ],\n+        [\n+            0.004505223629535381,\n+            3\n+        ],\n+        [\n+            0.1532083156483457,\n+            9\n+        ],\n+        [\n+            1.0,\n+            43\n+        ]\n+    ],\n+    "dtype": [\n+        [\n+            "CosineGreedy_score",\n+            "<f8"\n+        ],\n+        [\n+            "CosineGreedy_matches",\n+            "<i8"\n+        ]\n+    ]\n+}\n\\ No newline at end of file\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/similarity/rcx_exposome_pesticides_subset.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/rcx_exposome_pesticides_subset.msp Tue Jun 27 14:29:16 2023 +0000
[
@@ -0,0 +1,151 @@
+NAME: Acephate
+SCANNUMBER: 1161
+RETENTIONTIME: 1.232997
+PRECURSORMZ: 184.0194
+PRECURSORTYPE: [M+H]+
+IONMODE: Positive
+SPECTRUMTYPE: Centroid
+FORMULA: C4H10NO3PS
+INCHIKEY: YASYVMFAVPKPKE-SECBINFHSA-N
+INCHI: 
+SMILES: COP(=O)(N=C(O)C)SC
+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)
+COLLISIONENERGY: 
+INSTRUMENT: LC Orbitrap Fusion Tribrid MS
+INSTRUMENTTYPE: LC-ESI-Orbitrap
+IONIZATION: ESI+
+LICENSE: CC BY-NC
+COMMENT: 
+Num Peaks: 16
+90.09368 1128
+93.11512 1241
+95.10279 1118
+101.31465 1152
+102.90688 1322
+103.98039 1201
+112.01607 12289
+112.99994 38027
+115.00399 1634
+124.98121 922
+128.97701 9208
+132.57193 1350
+135.84808 1428
+142.99275 16419
+147.94205 1750
+173.5094 2353
+
+NAME: Carbaryl
+SCANNUMBER: 2257
+RETENTIONTIME: 5.259445
+PRECURSORMZ: 202.0863
+PRECURSORTYPE: [M+H]+
+IONMODE: Positive
+SPECTRUMTYPE: Centroid
+FORMULA: C12H11NO2
+INCHIKEY: CVXBEEMKQHEXEN-UHFFFAOYSA-N
+INCHI: 
+SMILES: CN=C(Oc1cccc2c1cccc2)O
+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)
+COLLISIONENERGY: 
+INSTRUMENT: LC Orbitrap Fusion Tribrid MS
+INSTRUMENTTYPE: LC-ESI-Orbitrap
+IONIZATION: ESI+
+LICENSE: CC BY-NC
+COMMENT: 
+Num Peaks: 1
+145.06491 1326147 "Theoretical m/z 145.064787, Mass diff 0 (0.85 ppm), SMILES OC1=CC=CC=2C=CC=CC12, Annotation [C10H8O+H]+, Rule of HR True"
+
+NAME: Dicrotophos
+SCANNUMBER: 1516
+RETENTIONTIME: 2.025499
+PRECURSORMZ: 238.0844
+PRECURSORTYPE: [M+H]+
+IONMODE: Positive
+SPECTRUMTYPE: Centroid
+FORMULA: C8H16NO5P
+INCHIKEY: VEENJGZXVHKXNB-UHFFFAOYSA-N
+INCHI: 
+SMILES: COP(=O)(OC(=CC(=O)N(C)C)C)OC
+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)
+COLLISIONENERGY: 
+INSTRUMENT: LC Orbitrap Fusion Tribrid MS
+INSTRUMENTTYPE: LC-ESI-Orbitrap
+IONIZATION: ESI+
+LICENSE: CC BY-NC
+COMMENT: 
+Num Peaks: 5
+112.074 102027
+112.07591 9070987 "Theoretical m/z 112.075687, Mass diff 0 (1.99 ppm), SMILES O=C(C=CC)N(C)C, Annotation [C6H11NO-H]+, Rule of HR True"
+127.01563 3230337 "Theoretical m/z 127.01547, Mass diff 0 (1.26 ppm), SMILES O=P(O)(OC)OC, Annotation [C2H7O4P+H]+, Rule of HR True"
+193.02605 7897744 "Theoretical m/z 193.026035, Mass diff 0 (0.08 ppm), SMILES O=CC=C(OP(=O)(OC)OC)C, Annotation [C6H11O5P-H]+, Rule of HR True"
+238.08437 2973124 "Theoretical m/z 238.083891, Mass diff 0 (2.01 ppm), SMILES O=C(C=C(OP(=O)(OC)OC)C)N(C)C, Annotation [C8H16NO5P+H]+, Rule of HR True"
+
+NAME: Dimethoate
+SCANNUMBER: 1865
+RETENTIONTIME: 2.866696
+PRECURSORMZ: 230.0072
+PRECURSORTYPE: [M+H]+
+IONMODE: Positive
+SPECTRUMTYPE: Centroid
+FORMULA: C5H12NO3PS2
+INCHIKEY: MCWXGJITAZMZEV-UHFFFAOYSA-N
+INCHI: 
+SMILES: CN=C(CSP(=S)(OC)OC)O
+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)
+COLLISIONENERGY: 
+INSTRUMENT: LC Orbitrap Fusion Tribrid MS
+INSTRUMENTTYPE: LC-ESI-Orbitrap
+IONIZATION: ESI+
+LICENSE: CC BY-NC
+COMMENT: 
+Num Peaks: 8
+88.0219 548446 "Theoretical m/z 88.021549, Mass diff 0 (3.99 ppm), SMILES SCC=NC, Annotation [C3H7NS-H]+, Rule of HR True"
+124.98233 183861 "Theoretical m/z 124.982067, Mass diff 0 (2.11 ppm), SMILES S=P(OC)OC, Annotation [C2H7O2PS-H]+, Rule of HR True"
+142.99275 722053 "Theoretical m/z 142.993177, Mass diff 0 (0 ppm), Formula C2H8O3PS"
+156.95422 80792 "Theoretical m/z 156.954136, Mass diff 0 (0.54 ppm), SMILES S=P(S)(OC)OC, Annotation [C2H7O2PS2-H]+, Rule of HR True"
+170.97 1426256 "Theoretical m/z 170.969791, Mass diff 0 (1.22 ppm), SMILES S=P(OC)(OC)SC, Annotation [C3H9O2PS2-H]+, Rule of HR True"
+197.98123 240915 "Theoretical m/z 197.980686, Mass diff 0.001 (2.75 ppm), SMILES S=P(OC)SCC(O)=NC, Annotation [C4H10NO2PS2-H]+, Rule of HR True"
+198.96501 5415933 "Theoretical m/z 198.965248, Mass diff 0 (0 ppm), Formula C4H8O3PS2"
+230.00722 497851 "Theoretical m/z 230.006895, Mass diff 0 (1.41 ppm), SMILES S=P(OC)(OC)SCC(O)=NC, Annotation [C5H12NO3PS2+H]+, Rule of HR True"
+
+NAME: Dimethomorph
+SCANNUMBER: 3852
+RETENTIONTIME: 7.060486
+PRECURSORMZ: 388.1316
+PRECURSORTYPE: [M+H]+
+IONMODE: Positive
+SPECTRUMTYPE: Centroid
+FORMULA: C21H22NO4Cl
+INCHIKEY: QNBTYORWCCMPQP-UHFFFAOYSA-N
+INCHI: 
+SMILES: COc1cc(ccc1OC)C(=CC(=O)N1CCOCC1)c1ccc(cc1)Cl
+AUTHORS: Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)
+COLLISIONENERGY: 
+INSTRUMENT: LC Orbitrap Fusion Tribrid MS
+INSTRUMENTTYPE: LC-ESI-Orbitrap
+IONIZATION: ESI+
+LICENSE: CC BY-NC
+COMMENT: 
+Num Peaks: 22
+114.05532 468862 "Theoretical m/z 114.054958, Mass diff 0 (3.17 ppm), SMILES O=CN1CCOCC1, Annotation [C5H9NO2-H]+, Rule of HR True"
+125.01571 886745 "Theoretical m/z 125.015255, Mass diff 0 (3.64 ppm), SMILES ClC1=CC=C(C=C1)C, Annotation [C7H7Cl-H]+, Rule of HR True"
+138.99484 4138370 "Theoretical m/z 138.995067, Mass diff 0 (0 ppm), Formula C7H4ClO"
+155.0705 425164 "Theoretical m/z 155.070819, Mass diff 0 (0 ppm), Formula C8H11O3"
+165.05519 15513399 "Theoretical m/z 165.055169, Mass diff -0.001 (0 ppm), Formula C9H9O3"
+165.06543 350695
+195.08057 386226 "Theoretical m/z 195.08099, Mass diff 0 (0 ppm), Formula C14H11O"
+215.0262 490061 "Theoretical m/z 215.026368, Mass diff 0 (0 ppm), Formula C13H8ClO"
+223.07544 702025 "Theoretical m/z 223.075837, Mass diff 0 (1.78 ppm), SMILES O=C(C=CC1=CC=C(Cl)C=C1)N(C)CC, Annotation [C12H14ClNO]+, Rule of HR False"
+227.02576 230514 "Theoretical m/z 227.026368, Mass diff 0 (0 ppm), Formula C14H8ClO"
+229.04225 216308 "Theoretical m/z 229.041467, Mass diff 0.001 (3.42 ppm), SMILES ClC1=CC=C(C=C1)CC2=CC=C(OC)C=C2, Annotation [C14H13ClO-3H]+, Rule of HR True"
+235.07555 241142 "Theoretical m/z 235.075842, Mass diff 0 (1.24 ppm), SMILES O=C(C=CC1=CC=C(Cl)C=C1)N(CC)CC, Annotation [C13H16ClNO-2H]+, Rule of HR False"
+238.09914 1323577 "Theoretical m/z 238.099317, Mass diff 0 (0.75 ppm), SMILES O=C(C=CC1=CC=C(Cl)C=C1)N(CC)CC, Annotation [C13H16ClNO+H]+, Rule of HR True"
+242.04929 2449236
+243.02142 891584 "Theoretical m/z 243.021282, Mass diff -0.001 (0 ppm), Formula C14H8ClO2"
+257.03726 578874 "Theoretical m/z 257.036371, Mass diff 0.001 (3.46 ppm), SMILES ClC1=CC=C(C=C1)C(=C)C2=CC=C(OC)C(O)=C2, Annotation [C15H13ClO2-3H]+, Rule of HR True"
+258.04443 3232295
+266.0943 358273 "Theoretical m/z 266.093756, Mass diff 0.001 (2.04 ppm), SMILES O=CC=C(C=1C=CC=CC1)C2=CC=C(OC)C(OC)=C2, Annotation [C17H16O3-2H]+, Rule of HR False"
+270.04492 608851
+273.06772 3866006 "Theoretical m/z 273.067676, Mass diff 0 (0.16 ppm), SMILES ClC1=CC=C(C=C1)C(=C)C2=CC=C(OC)C(OC)=C2, Annotation [C16H15ClO2-H]+, Rule of HR True"
+286.03912 483547
+301.06311 4060551 "Theoretical m/z 301.06261, Mass diff 0 (1.66 ppm), SMILES O=CC=C(C1=CC=C(Cl)C=C1)C2=CC=C(OC)C(OC)=C2, Annotation [C17H15ClO3-H]+, Rule of HR True"
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/similarity/rcx_gc-ei_ms_subset.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/rcx_gc-ei_ms_subset.msp Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -0,0 +1,288 @@\n+NAME: Phenanthrene\n+SCANNUMBER: -1\n+RETENTIONTIME: -1\n+RETENTIONINDEX: 1832.9\n+PRECURSORMZ: 178.0775\n+PRECURSORTYPE: [M]+\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C14H10\n+INCHIKEY: YNPNZTXNASCQKK-UHFFFAOYSA-N\n+INCHI: \n+SMILES: C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+COLLISIONENERGY: 70eV\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+INSTRUMENTTYPE: GC-EI-Orbitrap\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+Num Peaks: 19\n+74.01508\t137808\t"Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2"\n+75.02295\t278714\t"Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3"\n+76.03075\t608417\t"Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4"\n+87.02295\t304266\t"Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3"\n+88.03076\t497050\t"Theoretical m/z 88.0313, Mass diff 0 (0 ppm), Formula C7H4"\n+89.03857\t441168\t"Theoretical m/z 89.039125, Mass diff 0 (0 ppm), Formula C7H5"\n+98.01511\t150478\n+150.04633\t868927\n+151.05415\t546351\t"Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7"\n+152.0619\t2275502\n+153.06528\t276320\n+169.06468\t272559\n+174.04636\t365846\n+175.05423\t272039\t"Theoretical m/z 175.054775, Mass diff 0 (0 ppm), Formula C14H7"\n+176.062\t3370523\t"Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8"\n+177.06982\t1751846\t"Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9"\n+178.0775\t13724432\t"Theoretical m/z 178.077698, Mass diff 0 (1.11 ppm), SMILES C=1C=CC2=C(C1)C=CC=3C=CC=CC32, Annotation [C14H10]+, Rule of HR False"\n+179.08078\t2250119\n+180.08412\t138203\n+\n+NAME: Anthracene\n+SCANNUMBER: -1\n+RETENTIONTIME: -1\n+RETENTIONINDEX: 1844.4\n+PRECURSORMZ: 178.07754\n+PRECURSORTYPE: [M]+\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C14H10\n+INCHIKEY: MWPLVEDNUUSJAV-UHFFFAOYSA-N\n+INCHI: \n+SMILES: C1=CC2=CC3=C(C=CC=C3)C=C2C=C1\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+COLLISIONENERGY: 70eV\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+INSTRUMENTTYPE: GC-EI-Orbitrap\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+Num Peaks: 21\n+74.0151\t117371\t"Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2"\n+75.02296\t245305\t"Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3"\n+76.03077\t632686\t"Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4"\n+87.02297\t236214\t"Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3"\n+88.03078\t347832\t"Theoretical m/z 88.0313, Mass diff 0 (0 ppm), Formula C7H4"\n+89.0386\t507288\t"Theoretical m/z 89.039125, Mass diff 0 (0 ppm), Formula C7H5"\n+91.05425\t130861\t"Theoretical m/z 91.054775, Mass diff 0 (0 ppm), Formula C7H7"\n+126.04636\t128356\n+149.04478\t126331\n+150.04637\t641829\n+151.05415\t403195\t"Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7"\n+152.06195\t1369833\n+153.06534\t175290\n+169.06471\t228827\n+174.04639\t255716\n+175.05423\t198784\t"Theoretical m/z 175.054775, Mass diff 0 (0 ppm), Formula C14H7"\n+176.06204\t2563053\t"Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8"\n+177.06984\t1182037\t"Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9"\n+178.07754\t11002398\t"Theoretical m/z 178.077698, Mass diff 0 (0.89 ppm), SMILES C=1C=CC=2C=C3C=CC=CC3=CC2C1, Annotation [C14H10]+, Rule of HR False"\n+179.08081\t1778803\n+180.08418\t132922\n+\n+NAME: Fluoranthene\n+SCANNUMBER: -1\n+RETENTIONTIME: -1\n+RETENTIONINDEX: 2102.7\n+PRECURSORMZ: 202.07756\n+PRECURSORTYPE: [M]+\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C16H10\n+INCHIKEY: GVEPBJHOBDJJJI-UHFFFAOYSA-N\n+INCHI: \n+SMILES: C1=CC2=C(C=C1)C1=C3C2=CC=CC3=CC=C1\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+COLLISIONENERGY: 70eV\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+INSTRUMENTTYPE: GC-EI-Orbitrap\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+Num Peaks: 17\n+75.02299\t112456\t"Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3"\n+87.02298\t183640\t"Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3"\n+88.03079\t367434\t"Theoretical m/z 88.0313, Mas'..b'046\t"Theoretical m/z 128.0626, Mass diff 0 (0 ppm), Formula C10H8"\n+151.05412\t266397\t"Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7"\n+152.06195\t961184\n+153.06976\t409346\t"Theoretical m/z 153.069873, Mass diff 0 (0.74 ppm), SMILES *C=1C=CC(=CC1)C=2C=CC=CC2, Annotation [C12H10-H]+, Rule of HR True"\n+176.06192\t232793\t"Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8"\n+189.06972\t408734\t"Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9"\n+200.0619\t342984\n+201.06986\t238974\t"Theoretical m/z 201.070425, Mass diff 0 (0 ppm), Formula C16H9"\n+202.07758\t1292332\n+203.08093\t374439\n+213.06973\t256631\t"Theoretical m/z 213.070425, Mass diff 0 (0 ppm), Formula C17H9"\n+215.08548\t1220866\t"Theoretical m/z 215.086075, Mass diff 0 (0 ppm), Formula C17H11"\n+216.08881\t217320\n+224.062\t181393\n+226.07771\t1503774\n+227.08588\t1198323\t"Theoretical m/z 227.086075, Mass diff 0 (0 ppm), Formula C18H11"\n+228.09344\t2885510\n+229.10123\t1791323\n+230.10886\t17890056\t"Theoretical m/z 230.108994, Mass diff 0 (0.58 ppm), SMILES C=1C=CC(=CC1)C=2C=CC(=CC2)C=3C=CC=CC3, Annotation [C18H14]+, Rule of HR False"\n+231.11214\t3536976\n+232.11542\t320231\n+\n+NAME: Benzo[b]naphtho[2,1-d]thiophene\n+SCANNUMBER: -1\n+RETENTIONTIME: -1\n+RETENTIONINDEX: 2419.3\n+PRECURSORMZ: 234.04965\n+PRECURSORTYPE: [M]+\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C16H10S\n+INCHIKEY: YEUHHUCOSQOCIX-UHFFFAOYSA-N\n+INCHI: \n+SMILES: S1C2=C(C=CC=C2)C2=C1C1=CC=CC=C1C=C2\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+COLLISIONENERGY: 70eV\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+INSTRUMENTTYPE: GC-EI-Orbitrap\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+Num Peaks: 23\n+91.05425\t49130\t"Theoretical m/z 91.054775, Mass diff 0 (0 ppm), Formula C7H7"\n+93.52686\t61653\n+94.53469\t76638\n+104.01679\t126871\n+116.01675\t112547\n+117.02459\t99108\n+162.04623\t54491\n+163.05408\t136418\t"Theoretical m/z 163.054775, Mass diff 0 (0 ppm), Formula C13H7"\n+164.06198\t56321\n+187.05406\t273349\t"Theoretical m/z 187.054775, Mass diff 0 (0 ppm), Formula C15H7"\n+188.06189\t200750\n+189.06969\t453336\t"Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9"\n+190.07306\t77884\n+200.06189\t135620\n+201.06973\t74692\t"Theoretical m/z 201.070425, Mass diff 0 (0 ppm), Formula C16H9"\n+202.07758\t425058\n+203.08086\t72058\n+226.07762\t63460\n+232.03409\t769638\n+233.04245\t382457\t"Theoretical m/z 233.042496, Mass diff -0.001 (0 ppm), Formula C16H9S"\n+234.04965\t4404102\t"Theoretical m/z 234.049775, Mass diff 0 (0.53 ppm), SMILES S1C=2C=CC=CC2C=3C=CC=4C=CC=CC4C13, Annotation [C16H10S]+, Rule of HR False"\n+235.05304\t725574\n+236.04547\t251450\n+\n+NAME: 2,3-Benzofluorene\n+SCANNUMBER: -1\n+RETENTIONTIME: -1\n+RETENTIONINDEX: 2257.5\n+PRECURSORMZ: 216.09326\n+PRECURSORTYPE: [M]+\n+IONMODE: Positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C17H12\n+INCHIKEY: HAPOJKSPCGLOOD-UHFFFAOYSA-N\n+INCHI: \n+SMILES: C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+COLLISIONENERGY: 70eV\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+INSTRUMENTTYPE: GC-EI-Orbitrap\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMMENT: \n+Num Peaks: 21\n+93.52689\t122035\n+94.53471\t241743\n+95.03638\t42130\n+105.52688\t47526\n+106.53471\t171653\n+107.03639\t60004\n+107.5425\t180288\n+108.03385\t97471\n+163.05414\t68194\t"Theoretical m/z 163.054775, Mass diff 0 (0 ppm), Formula C13H7"\n+187.05412\t167183\t"Theoretical m/z 187.054775, Mass diff 0 (0 ppm), Formula C15H7"\n+188.06201\t86262\n+189.06975\t239421\t"Theoretical m/z 189.070425, Mass diff 0 (0 ppm), Formula C15H9"\n+190.07321\t37778\n+211.05426\t117044\t"Theoretical m/z 211.054775, Mass diff 0 (0 ppm), Formula C17H7"\n+212.06215\t60813\n+213.0699\t808499\t"Theoretical m/z 213.070425, Mass diff 0 (0 ppm), Formula C17H9"\n+214.07317\t202222\n+215.0855\t3634570\t"Theoretical m/z 215.086075, Mass diff 0 (0 ppm), Formula C17H11"\n+216.09326\t2535030\t"Theoretical m/z 216.093354, Mass diff 0 (0.44 ppm), SMILES C=1C=CC=2C=C3C(=CC2C1)C=4C=CC=CC4C3, Annotation [C17H12]+, Rule of HR False"\n+217.09671\t444170\n+218.09999\t37976\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/similarity/scores_test1_out.json
--- a/test-data/similarity/scores_test1_out.json Thu May 25 09:06:20 2023 +0000
+++ b/test-data/similarity/scores_test1_out.json Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -1,1 +1,1 @@\n-{"__Scores__": true, "similarity_function": {"__Similarity__": "CosineGreedy", "tolerance": 0.1, "mz_power": 0.0, "intensity_power": 1.0}, "is_symmetric": false, "references": [{"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "57", "compound_name": "C001", "retention_time": 38.74, "retention_index": null, "peaks_json": [[138.9121, 10186226.0], [148.9337, 1008656.0], [175.0641, 26780143.0], [186.1095, 2675456.0], [196.8658, 21390430.0], [198.8647, 21688594.0], [200.8848, 7742528.0], [206.9034, 26130980.0], [216.9205, 32607700.0], [234.0134, 2550129.0], [254.8252, 23747536.0], [256.8215, 31377637.0], [258.8237, 15532799.0], [266.8652, 9805546.0], [268.8537, 3090354.0], [306.9914, 3169316.0], [312.7841, 10051801.0], [316.7777, 10734168.0], [322.8157, 6317648.0], [324.9549, 8619910.0], [334.849, 4178412.0], [342.8093, 3285552.0], [349.9455, 2050695.0], [350.9875, 6150799.0], [351.941, 1965882.0], [366.8281, 3253770.0], [370.7418, 9765463.0], [372.7383, 19374863.0], [382.8218, 12815572.0], [384.8177, 8311500.0], [392.7685, 10913351.0], [413.2664, 3965867.0], [426.7772, 5431633.0], [428.7834, 8554675.0], [434.7287, 9943329.0], [436.8161, 3705247.0], [440.7322, 10603010.0], [442.7401, 8271752.0], [450.7016, 8762673.0], [460.7076, 4528973.0], [462.7862, 2123666.0], [484.7242, 4273989.0], [486.7743, 4886062.0], [488.6825, 12267966.0], [492.744, 7662344.0], [494.8953, 7188793.0], [498.8794, 6811405.0], [500.8484, 6520691.0], [502.7832, 3567833.0], [510.763, 4989757.0], [518.7415, 4243468.0], [546.6093, 7177067.0], [550.6949, 6104789.0], [566.5977, 5171811.0], [612.6927, 2005587.0], [676.6436, 1982714.0], [800.4451, 2792137.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "35", "compound_name": "C002", "retention_time": 520.25, "retention_index": null, "peaks_json": [[131.1733, 1971789.0], [267.2688, 6103973.0], [279.0196, 1946255.0], [289.6491, 46498377.0], [301.1565, 15185412.0], [309.1649, 18045974.0], [310.1623, 295359836.0], [311.1658, 13124727.0], [312.0296, 38757284.0], [330.6757, 12666597.0], [525.375, 1073323842.0], [526.3783, 181668883.0], [527.3812, 23642795.0], [551.3321, 111616808.0], [552.3348, 28340614.0], [553.3314, 2609936.0], [562.3269, 7538206.0], [578.2905, 7578406.0], [619.3008, 4742103.0], [624.296, 11790213.0], [813.5403, 25060147.0], [814.5336, 5865975.0], [955.1171, 2322927.0], [1047.7378, 150394804.0], [1048.7399, 90978863.0], [1049.7432, 29946438.0], [1050.7453, 6807767.0], [1069.7158, 5074652.0], [1074.1979, 3402288.0], [1075.1968, 33352763.0], [1076.2004, 10417953.0], [1101.6535, 2023916.0], [1206.3127, 3738816.0], [1216.8041, 4439324.0], [1217.807, 3565334.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "26", "compound_name": "C003", "retention_time": 483.67, "retention_index": null, "peaks_json": [[265.2529, 11366224.0], [266.2564, 1420444.0], [279.6362, 29849749.0], [280.6546, 8848921.0], [288.6414, 202172046.0], [378.2093, 15309961.0], [379.1966, 2902366.0], [522.3565, 4089569222.0], [523.354, 1201714423.0], [549.3267, 63300808.0], [576.2749, 7386007.0], [577.3074, 2354251.0], [617.2778, 2323470.0], [625.4543, 4040374.0], [796.9808, 13576738.0], [797.9841, 6368973.0], [809.9883, 12596682.0], [810.9916, 6601055.0], [1043.7028, 144351468.0], [1044.7068, 83271854.0], [1045.706, 27998321.0], [1046.7131, 6505178.0], [1058.1594, 20718345.0], [1059.1626, 6608764.0], [1071.1639, 15461047.0], [1072.1671, 5096642.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "24", "compound_name": "C004", "retention_time": 473.48, "retention_index": null, "peaks_json": [[124.1405, 6517662.0], [170.2437, 1237313.0], [275.6336, 28001849.0], [296.147, 190395687.0], [482.3247, 145772322.0], [483.3283, 36245876.0], [496.34, 12577588056.0], [497.3442, 3337125302.0], [498.3462, 532285213.0], [499.3493, 68176083.0], [770.964, 49250157.0], [771.9675, 22666873.0], [783.9721, 9839299.0], [784.9749, 3622908.0], [949.6233, 8009033.0], [950.62'..b'[637.164550513183, 3866368.0], [698.205944560218, 1919968.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "43", "compound_name": "C020", "retention_time": 687.99, "retention_index": 4135.089286, "peaks_json": [[109.052235628516, 1922885.0], [111.044058476785, 1730416.0], [133.064909307365, 1579533.0], [137.041722086745, 2474039.0], [194.053642118165, 5252308.0], [212.061782732582, 10437319.0], [267.034768010352, 4429084.0], [267.068824022318, 27744081.0], [268.069192256745, 2367920.0], [310.970568727813, 3126083.0], [311.004219192148, 2666091.0], [325.055731606087, 7634729.0], [327.965549188207, 5442532.0], [328.962716535303, 2722019.0], [339.03821058645, 6627839.0], [341.051986399316, 1671451.0], [342.996634492902, 3939816.0], [345.115297423962, 3938049.0], [358.067243216398, 3526875.0], [361.025211906011, 6516476.0], [388.003000430725, 3422825.0], [388.073272089579, 4224454.0], [399.005054559559, 4141766.0], [401.984326631505, 5585170.0], [402.98179623463, 3562508.0], [416.036473280551, 7221552.0], [417.033665098569, 4129234.0], [417.087073648909, 1945166.0], [418.994970709551, 2648178.0], [430.088321970134, 10765018.0], [431.085366629672, 6887942.0], [473.09370665615, 2502410.0], [475.002854889036, 2969642.0], [475.14184210128, 30625723.0], [477.070907310139, 2271450.0], [489.055479984185, 1973511.0], [503.107930410573, 2407435.0], [549.092119293556, 2513579.0], [552.160354111203, 1673065.0], [565.143723544965, 3485979.0], [610.132183060405, 1997085.0], [625.181479977537, 3872339.0], [697.202597429349, 2820429.0]]}], "n_row": 6, "n_col": 51, "row": [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5], "col": [1, 2, 10, 11, 12, 13, 15, 18, 20, 21, 22, 25, 32, 35, 36, 39, 40, 46, 47, 1, 2, 6, 12, 18, 20, 24, 25, 31, 33, 34, 36, 38, 39, 41, 42, 43, 44, 45, 49, 27, 30, 6, 10, 19, 21, 22, 31, 38, 1, 2, 5, 14, 15, 18, 20, 21, 22, 23, 24, 27, 40, 43, 49, 50, 28, 38], "data": [[0.0018399092347892974, 1], [0.0003737432507248734, 2], [0.002261095921649124, 1], [0.0006772781844061508, 1], [0.005210287483991151, 3], [0.0011367653250466707, 1], [0.0005519181707221115, 1], [0.0019222675998802402, 1], [0.006361969507425509, 2], [0.020274153669902494, 3], [0.017517104899474972, 1], [0.011955078756829818, 2], [0.011381869280662654, 2], [0.040543958124585944, 1], [0.0008178767212134002, 1], [0.005670274191001168, 1], [0.017313471143856486, 2], [0.0008514601258333194, 1], [0.026334935904595114, 1], [0.00039771420418687587, 1], [4.920409691033264e-05, 1], [0.0013688419859179705, 1], [0.0012932520287310416, 1], [0.0010350795213821488, 1], [0.005220131896413382, 2], [0.00041700791188063903, 2], [0.00042911042717726856, 3], [0.00810426228305399, 1], [0.0017914424466763802, 1], [0.000558207243274732, 1], [3.0727899170534577e-06, 1], [0.001200605516845171, 1], [0.016205568468406192, 3], [0.0003490131371939824, 1], [0.0012777731679730743, 1], [1.5186307992169529e-05, 1], [0.0009349245322469299, 3], [0.0002621230171312692, 1], [0.0004253169742294291, 1], [6.58229030248094e-05, 1], [2.446654442400292e-05, 1], [2.158432356442278e-05, 1], [1.042176430293052e-06, 1], [1.0756853043872807e-05, 2], [1.0328107820449307e-06, 1], [0.0011763296355585277, 1], [0.0015107038247838176, 2], [0.0005521035532025616, 1], [0.006960910397590913, 1], [0.008227393532896343, 3], [0.003108683139316554, 1], [0.007409589227651824, 1], [0.09234973475736206, 1], [0.022252246905890102, 4], [0.019737608617704024, 1], [0.00031096878396815933, 1], [0.0345091397314379, 1], [0.11775324981062069, 1], [0.28004814632763314, 3], [0.026281168576484135, 1], [0.0018303163274005687, 1], [0.0008172798650456041, 1], [0.06035755813969004, 3], [0.011673031727211581, 2], [1.9721604555814565e-05, 1], [0.00039664571613187715, 1]], "dtype": [["CosineGreedy_score", "<f8"], ["CosineGreedy_matches", "<i8"]]}\n\\ No newline at end of file\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/similarity/scores_test2_out.json
--- a/test-data/similarity/scores_test2_out.json Thu May 25 09:06:20 2023 +0000
+++ b/test-data/similarity/scores_test2_out.json Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -1,1 +1,1 @@\n-{"__Scores__": true, "similarity_function": {"__Similarity__": "CosineGreedy", "tolerance": 0.1, "mz_power": 0.0, "intensity_power": 1.0}, "is_symmetric": false, "references": [{"scannumber": "1161", "precursortype": "[M+H]+", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C4H10NO3PS", "inchikey": "YASYVMFAVPKPKE-SECBINFHSA-N", "inchi": "", "smiles": "COP(=O)(N=C(O)C)SC", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "instrumenttype": "LC-ESI-Orbitrap", "ionization": "ESI+", "license": "CC BY-NC", "comment": "", "num_peaks": "16", "compound_name": "Acephate", "retention_time": 1.232997, "precursor_mz": 184.0194, "collision_energy": "", "peaks_json": [[90.09368, 1128.0], [93.11512, 1241.0], [95.10279, 1118.0], [101.31465, 1152.0], [102.90688, 1322.0], [103.98039, 1201.0], [112.01607, 12289.0], [112.99994, 38027.0], [115.00399, 1634.0], [124.98121, 922.0], [128.97701, 9208.0], [132.57193, 1350.0], [135.84808, 1428.0], [142.99275, 16419.0], [147.94205, 1750.0], [173.5094, 2353.0]]}, {"scannumber": "2257", "precursortype": "[M+H]+", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C12H11NO2", "inchikey": "CVXBEEMKQHEXEN-UHFFFAOYSA-N", "inchi": "", "smiles": "CN=C(Oc1cccc2c1cccc2)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "instrumenttype": "LC-ESI-Orbitrap", "ionization": "ESI+", "license": "CC BY-NC", "comment": "", "peak_comments": {"145.06491": "Theoretical m/z 145.064787, Mass diff 0 (0.85 ppm), SMILES OC1=CC=CC=2C=CC=CC12, Annotation [C10H8O+H]+, Rule of HR True"}, "num_peaks": "1", "compound_name": "Carbaryl", "retention_time": 5.259445, "precursor_mz": 202.0863, "collision_energy": "", "peaks_json": [[145.06491, 1326147.0]]}, {"scannumber": "1516", "precursortype": "[M+H]+", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C8H16NO5P", "inchikey": "VEENJGZXVHKXNB-UHFFFAOYSA-N", "inchi": "", "smiles": "COP(=O)(OC(=CC(=O)N(C)C)C)OC", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "instrumenttype": "LC-ESI-Orbitrap", "ionization": "ESI+", "license": "CC BY-NC", "comment": "", "peak_comments": {"112.07591": "Theoretical m/z 112.075687, Mass diff 0 (1.99 ppm), SMILES O=C(C=CC)N(C)C, Annotation [C6H11NO-H]+, Rule of HR True", "127.01563": "Theoretical m/z 127.01547, Mass diff 0 (1.26 ppm), SMILES O=P(O)(OC)OC, Annotation [C2H7O4P+H]+, Rule of HR True", "193.02605": "Theoretical m/z 193.026035, Mass diff 0 (0.08 ppm), SMILES O=CC=C(OP(=O)(OC)OC)C, Annotation [C6H11O5P-H]+, Rule of HR True", "238.08437": "Theoretical m/z 238.083891, Mass diff 0 (2.01 ppm), SMILES O=C(C=C(OP(=O)(OC)OC)C)N(C)C, Annotation [C8H16NO5P+H]+, Rule of HR True"}, "num_peaks": "5", "compound_name": "Dicrotophos", "retention_time": 2.025499, "precursor_mz": 238.0844, "collision_energy": "", "peaks_json": [[112.074, 102027.0], [112.07591, 9070987.0], [127.01563, 3230337.0], [193.02605, 7897744.0], [238.08437, 2973124.0]]}, {"scannumber": "1865", "precursortype": "[M+H]+", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C5H12NO3PS2", "inchikey": "MCWXGJITAZMZEV-UHFFFAOYSA-N", "inchi": "", "smiles": "CN=C(CSP(=S)(OC)OC)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "instrumenttype": "LC-ESI-Orbitrap", "ionization": "ESI+", "license": "CC BY-NC", "comment": "", "peak_comments": {"88.0219": "Theoretical m/z 88.021549, Mass diff 0 (3.99 ppm), SMILES SCC=NC, Annotation [C3H7NS-H]+, Rule of HR True", "124.98233": "Theoretical m/z 124.982067, Mass diff 0 (2.11 ppm), SMILES S=P(OC)OC, Annotation [C2H7O2PS-H]+, Rule of HR True", "142.99275": "Theoretical m/z 142.993177, Mass diff 0 (0 ppm), Formula C2H8O3PS", "156.95422": "Theoretical m/z 156.954136, Mass diff 0'..b'04730671174696972, 3], [0.2905090298183795, 5], [0.0007786069695307855, 1], [0.0005160257799646218, 2], [0.00038736811468175473, 3], [0.004167449964456371, 2], [0.002043269072734401, 2], [0.0007317319771959746, 4], [1.9838321402668794e-05, 1], [8.801820482468617e-06, 1], [9.255871433471165e-05, 1], [0.00027188763979513214, 1], [4.4947603414879724e-05, 1], [0.009400379409723776, 2], [0.005755388742032419, 5], [0.0007186188027915625, 4], [0.0002820277712237843, 1], [0.0021840777388529727, 3], [0.0021623907785408305, 3], [0.0007283436921234106, 1], [0.0008441009586501761, 1], [0.0002073559764999649, 1], [0.0007416252801498897, 1], [0.00015068661266851979, 1], [8.813547345301928e-05, 1], [9.26696450737907e-05, 1], [0.001547967118838771, 1], [0.05550228874171714, 5], [0.02125475011618532, 3], [0.011654725377056363, 2], [0.048940875059941075, 1], [0.09674974767603109, 4], [0.00012831189436302386, 1], [0.01967432143668846, 1], [0.01205243016929935, 1], [0.0023135823935159366, 4], [0.005962405101607889, 3], [0.004500417483116905, 5], [0.29457761231941254, 5], [6.06340812854675e-05, 2], [0.0006948984533266634, 1], [0.0007187196610315783, 2], [0.001696224336237004, 4], [0.004199029365250834, 3], [5.80297555852376e-05, 2], [0.002157838608906188, 2], [0.0006784306910464165, 5], [2.6175190827127028e-05, 1], [5.3148579647693586e-05, 3], [0.002344175993704721, 2], [0.0007030269709451109, 2], [6.932179507489616e-05, 2], [0.009409539133589516, 4], [0.007853290243932564, 8], [0.0004251026224145782, 3], [0.004851525009980412, 3], [0.002316715000724008, 4], [0.0024536891814221423, 5], [0.0009568700243380552, 1], [1.2682782292908576e-05, 1], [0.00035372089119100686, 1], [0.00019532961465025935, 1], [0.0007449280704076819, 1], [0.0006070307887188872, 3], [0.008405179318406656, 2], [0.06059234768905473, 5], [0.04007587841437244, 7], [0.011192609898471699, 3], [0.05007411887473937, 1], [0.11083177441713818, 4], [0.00041472952800485167, 2], [0.0002443181917148464, 1], [0.018417594020478472, 1], [0.010756665957563824, 1], [0.015590543256883976, 2], [0.04566648744942041, 1], [5.931306182041711e-06, 1], [0.03353471802351476, 2], [0.0016641176911516493, 1], [0.011667998101389831, 2], [0.00013501455706461823, 2], [0.0005641822404665421, 1], [0.013565745106156183, 3], [0.0022081590773529217, 2], [2.755827193743529e-05, 1], [0.0007386957430155464, 1], [0.004966786726868895, 2], [0.0010661461087560196, 2], [0.001063292846857611, 1], [0.000606881881809848, 1], [0.002186896434193792, 1], [0.12865769017257328, 1], [0.028190890883599714, 4], [0.0005044163468766756, 1], [0.002886337967280529, 1], [0.0559715028711476, 1], [0.0002158797917780897, 1], [0.00620360880796666, 2], [0.0007355365822429641, 3], [0.0007942591768873767, 1], [0.00010209303249019821, 2], [0.00019287244985231734, 1], [0.00016324733223990588, 2], [9.721355793156336e-06, 1], [4.652016835129338e-05, 1], [0.019877538355056665, 1], [0.0021026011257930747, 1], [0.0008375181541441654, 3], [2.8019476783829662e-05, 1], [0.00126319178728046, 2], [0.033408666281750724, 1], [0.00022237422701605942, 1], [0.002265272552324613, 1], [0.000234866112352408, 1], [0.0009646911431102235, 2], [0.0001427118212822249, 1], [0.0015640758643172626, 1], [0.027845060459883365, 1], [0.0005869184307697094, 1], [0.002177606309783109, 1], [0.0011879375171201744, 2], [0.00024257932792313028, 2], [0.029015752159248828, 1], [0.012882620708157606, 1], [0.09087822963404141, 1], [0.016369110194600803, 2], [0.0009837491848604097, 1], [0.0010871277430062854, 1], [0.006379222433724256, 2], [0.07844880045683728, 1], [0.003552995338630374, 1], [0.00675497126450081, 1], [0.020492592767589624, 1], [0.0004882302811255579, 1], [0.03692178564115823, 1], [0.05107327151527259, 1], [0.0013454548424030402, 1], [0.00023077527573114648, 1], [0.0034920044529350115, 1], [0.05588674606358348, 1], [0.10402095547417871, 1], [0.004711174266112351, 1]], "dtype": [["CosineGreedy_score", "<f8"], ["CosineGreedy_matches", "<i8"]]}\n\\ No newline at end of file\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/similarity/scores_test3_out.json
--- a/test-data/similarity/scores_test3_out.json Thu May 25 09:06:20 2023 +0000
+++ b/test-data/similarity/scores_test3_out.json Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -1,1 +1,1 @@\n-{"__Scores__": true, "similarity_function": {"__Similarity__": "CosineHungarian", "tolerance": 0.1, "mz_power": 0.0, "intensity_power": 1.0}, "is_symmetric": false, "references": [{"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "57", "compound_name": "C001", "retention_time": 38.74, "retention_index": null, "peaks_json": [[138.9121, 10186226.0], [148.9337, 1008656.0], [175.0641, 26780143.0], [186.1095, 2675456.0], [196.8658, 21390430.0], [198.8647, 21688594.0], [200.8848, 7742528.0], [206.9034, 26130980.0], [216.9205, 32607700.0], [234.0134, 2550129.0], [254.8252, 23747536.0], [256.8215, 31377637.0], [258.8237, 15532799.0], [266.8652, 9805546.0], [268.8537, 3090354.0], [306.9914, 3169316.0], [312.7841, 10051801.0], [316.7777, 10734168.0], [322.8157, 6317648.0], [324.9549, 8619910.0], [334.849, 4178412.0], [342.8093, 3285552.0], [349.9455, 2050695.0], [350.9875, 6150799.0], [351.941, 1965882.0], [366.8281, 3253770.0], [370.7418, 9765463.0], [372.7383, 19374863.0], [382.8218, 12815572.0], [384.8177, 8311500.0], [392.7685, 10913351.0], [413.2664, 3965867.0], [426.7772, 5431633.0], [428.7834, 8554675.0], [434.7287, 9943329.0], [436.8161, 3705247.0], [440.7322, 10603010.0], [442.7401, 8271752.0], [450.7016, 8762673.0], [460.7076, 4528973.0], [462.7862, 2123666.0], [484.7242, 4273989.0], [486.7743, 4886062.0], [488.6825, 12267966.0], [492.744, 7662344.0], [494.8953, 7188793.0], [498.8794, 6811405.0], [500.8484, 6520691.0], [502.7832, 3567833.0], [510.763, 4989757.0], [518.7415, 4243468.0], [546.6093, 7177067.0], [550.6949, 6104789.0], [566.5977, 5171811.0], [612.6927, 2005587.0], [676.6436, 1982714.0], [800.4451, 2792137.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "35", "compound_name": "C002", "retention_time": 520.25, "retention_index": null, "peaks_json": [[131.1733, 1971789.0], [267.2688, 6103973.0], [279.0196, 1946255.0], [289.6491, 46498377.0], [301.1565, 15185412.0], [309.1649, 18045974.0], [310.1623, 295359836.0], [311.1658, 13124727.0], [312.0296, 38757284.0], [330.6757, 12666597.0], [525.375, 1073323842.0], [526.3783, 181668883.0], [527.3812, 23642795.0], [551.3321, 111616808.0], [552.3348, 28340614.0], [553.3314, 2609936.0], [562.3269, 7538206.0], [578.2905, 7578406.0], [619.3008, 4742103.0], [624.296, 11790213.0], [813.5403, 25060147.0], [814.5336, 5865975.0], [955.1171, 2322927.0], [1047.7378, 150394804.0], [1048.7399, 90978863.0], [1049.7432, 29946438.0], [1050.7453, 6807767.0], [1069.7158, 5074652.0], [1074.1979, 3402288.0], [1075.1968, 33352763.0], [1076.2004, 10417953.0], [1101.6535, 2023916.0], [1206.3127, 3738816.0], [1216.8041, 4439324.0], [1217.807, 3565334.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "26", "compound_name": "C003", "retention_time": 483.67, "retention_index": null, "peaks_json": [[265.2529, 11366224.0], [266.2564, 1420444.0], [279.6362, 29849749.0], [280.6546, 8848921.0], [288.6414, 202172046.0], [378.2093, 15309961.0], [379.1966, 2902366.0], [522.3565, 4089569222.0], [523.354, 1201714423.0], [549.3267, 63300808.0], [576.2749, 7386007.0], [577.3074, 2354251.0], [617.2778, 2323470.0], [625.4543, 4040374.0], [796.9808, 13576738.0], [797.9841, 6368973.0], [809.9883, 12596682.0], [810.9916, 6601055.0], [1043.7028, 144351468.0], [1044.7068, 83271854.0], [1045.706, 27998321.0], [1046.7131, 6505178.0], [1058.1594, 20718345.0], [1059.1626, 6608764.0], [1071.1639, 15461047.0], [1072.1671, 5096642.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "24", "compound_name": "C004", "retention_time": 473.48, "retention_index": null, "peaks_json": [[124.1405, 6517662.0], [170.2437, 1237313.0], [275.6336, 28001849.0], [296.147, 190395687.0], [482.3247, 145772322.0], [483.3283, 36245876.0], [496.34, 12577588056.0], [497.3442, 3337125302.0], [498.3462, 532285213.0], [499.3493, 68176083.0], [770.964, 49250157.0], [771.9675, 22666873.0], [783.9721, 9839299.0], [784.9749, 3622908.0], [949.6233, 8009033.0], [950'..b'312.986211377174, 2448284.0], [313.019993142226, 1479514.0], [326.982724315442, 4863722.0], [344.975776862771, 10267994.0], [345.976092174038, 3016933.0], [346.046486912175, 1754291.0], [346.973191534072, 1590963.0], [382.97408022551, 1514772.0], [386.969422084375, 2096957.0], [402.964369782575, 1172149.0], [493.152823320977, 2513229.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "57", "compound_name": "C012", "retention_time": 687.83, "retention_index": 4134.613095, "peaks_json": [[78.0419846383593, 1742200.0], [79.0497716096318, 1893817.0], [85.0284186196566, 2191757.0], [121.046741626167, 6162741.0], [142.078087888737, 3381352.0], [192.997735629267, 9539743.0], [195.029110650825, 3772846.0], [205.016711322548, 5926636.0], [207.066696618797, 3714385.0], [209.098935410027, 6173585.0], [213.05754958053, 13341991.0], [219.06802937228, 2601724.0], [253.016653119059, 43935840.0], [269.047850642358, 4644691.0], [271.027137265637, 6759639.0], [281.085992168442, 2140320.0], [284.047997947258, 8403825.0], [311.073606748707, 3371803.0], [313.113777264345, 2391990.0], [325.985953604199, 8513850.0], [327.03525664153, 49155384.0], [328.035343658, 13109000.0], [329.014530869431, 3595462.0], [331.063707530223, 2063612.0], [343.084122931946, 3769846.0], [345.046169172075, 8812838.0], [353.090427317747, 2832675.0], [359.09769204202, 9873384.0], [360.028136457829, 10686927.0], [360.169639740951, 3818378.0], [371.040514349465, 1472266.0], [387.002413998209, 12940469.0], [387.071825807939, 15096984.0], [389.068871345424, 1810336.0], [402.055174276849, 12479459.0], [404.05195192305, 1405422.0], [458.971973456131, 1214840.0], [459.041861218696, 1286084.0], [460.952039584771, 4371596.0], [461.021207128847, 2869881.0], [461.090256355859, 17842323.0], [461.951796665319, 1222018.0], [462.091555156095, 6970195.0], [463.088708091285, 2556050.0], [475.072310244956, 13564752.0], [476.003821454759, 1471505.0], [476.143434019655, 13026182.0], [477.140480798609, 4944561.0], [478.141485242814, 1506934.0], [479.101672410454, 3603024.0], [490.12632015072, 18188437.0], [491.122346777972, 10290558.0], [549.162553092955, 24746614.0], [563.144239233773, 12735845.0], [624.183209223215, 7134906.0], [637.164550513183, 3866368.0], [698.205944560218, 1919968.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "43", "compound_name": "C020", "retention_time": 687.99, "retention_index": 4135.089286, "peaks_json": [[109.052235628516, 1922885.0], [111.044058476785, 1730416.0], [133.064909307365, 1579533.0], [137.041722086745, 2474039.0], [194.053642118165, 5252308.0], [212.061782732582, 10437319.0], [267.034768010352, 4429084.0], [267.068824022318, 27744081.0], [268.069192256745, 2367920.0], [310.970568727813, 3126083.0], [311.004219192148, 2666091.0], [325.055731606087, 7634729.0], [327.965549188207, 5442532.0], [328.962716535303, 2722019.0], [339.03821058645, 6627839.0], [341.051986399316, 1671451.0], [342.996634492902, 3939816.0], [345.115297423962, 3938049.0], [358.067243216398, 3526875.0], [361.025211906011, 6516476.0], [388.003000430725, 3422825.0], [388.073272089579, 4224454.0], [399.005054559559, 4141766.0], [401.984326631505, 5585170.0], [402.98179623463, 3562508.0], [416.036473280551, 7221552.0], [417.033665098569, 4129234.0], [417.087073648909, 1945166.0], [418.994970709551, 2648178.0], [430.088321970134, 10765018.0], [431.085366629672, 6887942.0], [473.09370665615, 2502410.0], [475.002854889036, 2969642.0], [475.14184210128, 30625723.0], [477.070907310139, 2271450.0], [489.055479984185, 1973511.0], [503.107930410573, 2407435.0], [549.092119293556, 2513579.0], [552.160354111203, 1673065.0], [565.143723544965, 3485979.0], [610.132183060405, 1997085.0], [625.181479977537, 3872339.0], [697.202597429349, 2820429.0]]}], "n_row": 6, "n_col": 51, "row": [], "col": [], "data": [], "dtype": [["CosineHungarian_score", "<f8"], ["CosineHungarian_matches", "<i8"], ["MetadataMatch_MetadataMatch", "<f8"]]}\n\\ No newline at end of file\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/similarity/scores_test4_out.json
--- a/test-data/similarity/scores_test4_out.json Thu May 25 09:06:20 2023 +0000
+++ b/test-data/similarity/scores_test4_out.json Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -1,1 +1,1 @@\n-{"__Scores__": true, "similarity_function": {"__Similarity__": "NeutralLossesCosine", "tolerance": 0.1, "mz_power": 0.0, "intensity_power": 1.0, "ignore_peaks_above_precursor": true}, "is_symmetric": true, "references": [{"scannumber": "-1", "precursortype": "[M]+", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C20H12", "inchikey": "CSHWQDPOILHKBI-UHFFFAOYSA-N", "inchi": "", "smiles": "C1=CC2=C3C(=C1)C1=CC=CC4=C1C(=CC=C4)C3=CC=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "instrumenttype": "GC-EI-Orbitrap", "ionization": "EI+", "license": "CC BY-NC", "comment": "", "peak_comments": {"113.03854": "Theoretical m/z 113.039125, Mass diff 0 (0 ppm), Formula C9H5", "125.03855": "Theoretical m/z 125.039125, Mass diff 0 (0 ppm), Formula C10H5", "249.07072": "Theoretical m/z 249.070425, Mass diff -0.001 (0 ppm), Formula C20H9", "252.09323": "Theoretical m/z 252.093354, Mass diff 0 (0.49 ppm), SMILES C1=CC=2C=CC=C3C4=CC=CC5=CC=CC(C(=C1)C23)=C54, Annotation [C20H12]+, Rule of HR False"}, "num_peaks": "19", "compound_name": "Perylene", "retention_time": null, "retention_index": 2886.9, "precursor_mz": 252.09323, "collision_energy": "70eV", "peaks_json": [[112.03071, 49892.0], [113.03854, 87510.0], [124.03076, 100146.0], [124.53242, 24923.0], [125.03855, 179254.0], [125.54019, 49039.0], [126.04636, 131679.0], [126.54804, 36313.0], [222.04645, 28905.0], [224.06192, 55632.0], [226.04175, 37413.0], [246.04646, 23286.0], [248.06204, 140007.0], [249.07072, 62236.0], [250.07765, 641789.0], [251.07967, 137600.0], [252.09323, 1955166.0], [253.09656, 402252.0], [254.09985, 39987.0]]}, {"scannumber": "-1", "precursortype": "[M]+", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "inchi": "", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "instrumenttype": "GC-EI-Orbitrap", "ionization": "EI+", "license": "CC BY-NC", "comment": "", "peak_comments": {"74.01508": "Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2", "75.02295": "Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3", "76.03075": "Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4", "87.02295": "Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3", "88.03076": "Theoretical m/z 88.0313, Mass diff 0 (0 ppm), Formula C7H4", "89.03857": "Theoretical m/z 89.039125, Mass diff 0 (0 ppm), Formula C7H5", "151.05415": "Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7", "175.05423": "Theoretical m/z 175.054775, Mass diff 0 (0 ppm), Formula C14H7", "176.062": "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8", "177.06982": "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9", "178.0775": "Theoretical m/z 178.077698, Mass diff 0 (1.11 ppm), SMILES C=1C=CC2=C(C1)C=CC=3C=CC=CC32, Annotation [C14H10]+, Rule of HR False"}, "num_peaks": "19", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "collision_energy": "70eV", "peaks_json": [[74.01508, 137808.0], [75.02295, 278714.0], [76.03075, 608417.0], [87.02295, 304266.0], [88.03076, 497050.0], [89.03857, 441168.0], [98.01511, 150478.0], [150.04633, 868927.0], [151.05415, 546351.0], [152.0619, 2275502.0], [153.06528, 276320.0], [169.06468, 272559.0], [174.04636, 365846.0], [175.05423, 272039.0], [176.062, 3370523.0], [177.06982, 1751846.0], [178.0775, 13724432.0], [179.08078, 2250119.0], [180.08412, 138203.0]]}, {"scannumber": "-1", "precursortype": "[M]+", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "inchi": "", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "instrumenttype": "GC-E'..b', 6], [0.000849016367431184, 1], [0.1164944277710488, 27], [0.013509973424897055, 10], [0.03985367849716299, 8], [0.0012060403391046337, 3], [0.11935916738712983, 12], [0.0019639190156446325, 4], [0.0013748628337669718, 5], [0.0317854774013463, 1], [0.1558977110222132, 19], [0.014345386694957156, 8], [0.015208293160793463, 7], [0.004975840661608583, 4], [0.028830083229516423, 5], [0.0012552816488229767, 4], [0.21426428394497732, 19], [0.009096654439736741, 2], [0.1079410688788675, 23], [0.006130350456356002, 8], [0.007640564541242704, 3], [0.9999999999999988, 48], [0.021945212693018183, 14], [0.003528882271834487, 1], [0.015071423169004209, 4], [0.01752672237557547, 4], [0.0012278672124513919, 1], [0.02457732872594147, 3], [0.028089820111006143, 3], [0.020559718677529624, 5], [0.005829674957204082, 3], [0.0015946384059203665, 2], [0.010535580085179396, 2], [0.007238048072503043, 2], [0.004927768302894852, 2], [0.0071872334678916685, 2], [0.07913720198135349, 3], [0.06304990188039904, 5], [0.006318930777064041, 3], [0.07368259593632372, 6], [0.008442291915136306, 5], [0.00699968309054316, 7], [0.07019719341011542, 9], [0.2398882344714446, 20], [0.0229385340033579, 6], [0.01487726657821838, 6], [0.004929592584065554, 5], [0.014094580531893271, 3], [0.005184721153651502, 3], [0.02402038383021682, 7], [0.005598808948450314, 8], [0.006086228481598814, 7], [0.005641055153174164, 7], [0.0059533976604853696, 8], [0.0012026254671697182, 1], [0.00481561807356803, 1], [0.0008733064074341988, 3], [0.02926724665280256, 9], [0.03973174515467047, 4], [0.0017110803566769432, 2], [0.0004537488222312789, 1], [0.0008768839784626263, 2], [0.002078720093069269, 3], [0.15068343708487614, 5], [0.004534614144447201, 6], [0.0005040922793645043, 2], [0.0006132574916066991, 2], [0.0006023439826045464, 2], [0.0009962252275582525, 2], [0.0007132215414105701, 1], [0.003941192991095589, 3], [0.0032602230184353796, 4], [0.003902911013387605, 3], [0.0028816112771112476, 3], [0.004129652769687335, 4], [0.02063893548098056, 6], [0.0636896775821581, 18], [0.004385623187808619, 8], [0.0037438584101095406, 3], [0.01457741637519401, 10], [0.01998288532279959, 5], [0.016943871184680423, 3], [0.020485320040871696, 12], [6.285139330345371e-05, 1], [0.01577650392972678, 12], [0.011702041332335697, 2], [0.010479081997924272, 3], [0.0026839418346610074, 4], [0.005168753640460431, 7], [0.02538556396055245, 8], [0.008017165415374613, 6], [0.004129170239233964, 2], [0.048329475132303006, 9], [0.00434534268029665, 5], [0.0336080987239482, 12], [0.037158313842249, 12], [0.029034992247889045, 6], [0.08565057856307288, 16], [0.10145493598365102, 13], [0.018538092241168595, 9], [0.09931273097453466, 12], [0.06070353397555056, 14], [0.002741342514267584, 9], [0.00460623189175496, 6], [0.013560322081058994, 12], [0.012723588396856826, 11], [0.0014932550806373572, 2], [0.007463259062288398, 4], [0.1412047674540015, 8], [0.003501755080485208, 3], [0.01046473315565069, 5], [0.0003965607968942006, 1], [0.20590013512001082, 7], [0.35784239189966305, 8], [0.04127530460264906, 3], [0.4549680796955883, 5], [0.023153444567903744, 5], [0.014791952326994103, 7], [0.033972430110607105, 7], [0.3711542904483082, 10], [0.03604508634054142, 6], [0.04706388584812521, 6], [0.058857146107057945, 5], [0.001747548159513367, 5], [0.044272293314883686, 3], [0.04061042591948574, 11], [0.052801064317870655, 8], [0.03570076858640123, 5], [0.09776996663893509, 6], [0.04001833146441783, 15], [0.0014714555648693989, 4], [0.0004504195432699507, 4], [0.11173292584219889, 10], [0.00309658302518114, 7], [0.011345966685709261, 11], [0.015934410043558587, 7], [0.014135762445538736, 5], [0.001702586530993099, 3], [0.0021231289122006507, 7], [0.0022815011051092924, 2], [0.3391095176584686, 16], [0.0166891482966783, 15], [0.002867840748348977, 2], [0.021945212693018183, 14], [0.9999999999999996, 47]], "dtype": [["NeutralLossesCosine_score", "<f8"], ["NeutralLossesCosine_matches", "<i8"]]}\n\\ No newline at end of file\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/similarity/scores_test5_out.json
--- a/test-data/similarity/scores_test5_out.json Thu May 25 09:06:20 2023 +0000
+++ b/test-data/similarity/scores_test5_out.json Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -1,1 +1,1 @@\n-{"__Scores__": true, "similarity_function": {"__Similarity__": "ModifiedCosine", "tolerance": 0.1, "mz_power": 0.0, "intensity_power": 1.0}, "is_symmetric": true, "references": [{"scannumber": "-1", "precursortype": "[M]+", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C20H12", "inchikey": "CSHWQDPOILHKBI-UHFFFAOYSA-N", "inchi": "", "smiles": "C1=CC2=C3C(=C1)C1=CC=CC4=C1C(=CC=C4)C3=CC=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "instrumenttype": "GC-EI-Orbitrap", "ionization": "EI+", "license": "CC BY-NC", "comment": "", "peak_comments": {"113.03854": "Theoretical m/z 113.039125, Mass diff 0 (0 ppm), Formula C9H5", "125.03855": "Theoretical m/z 125.039125, Mass diff 0 (0 ppm), Formula C10H5", "249.07072": "Theoretical m/z 249.070425, Mass diff -0.001 (0 ppm), Formula C20H9", "252.09323": "Theoretical m/z 252.093354, Mass diff 0 (0.49 ppm), SMILES C1=CC=2C=CC=C3C4=CC=CC5=CC=CC(C(=C1)C23)=C54, Annotation [C20H12]+, Rule of HR False"}, "num_peaks": "19", "compound_name": "Perylene", "retention_time": null, "retention_index": 2886.9, "precursor_mz": 252.09323, "collision_energy": "70eV", "peaks_json": [[112.03071, 49892.0], [113.03854, 87510.0], [124.03076, 100146.0], [124.53242, 24923.0], [125.03855, 179254.0], [125.54019, 49039.0], [126.04636, 131679.0], [126.54804, 36313.0], [222.04645, 28905.0], [224.06192, 55632.0], [226.04175, 37413.0], [246.04646, 23286.0], [248.06204, 140007.0], [249.07072, 62236.0], [250.07765, 641789.0], [251.07967, 137600.0], [252.09323, 1955166.0], [253.09656, 402252.0], [254.09985, 39987.0]]}, {"scannumber": "-1", "precursortype": "[M]+", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "inchi": "", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "instrumenttype": "GC-EI-Orbitrap", "ionization": "EI+", "license": "CC BY-NC", "comment": "", "peak_comments": {"74.01508": "Theoretical m/z 74.01565, Mass diff 0 (0 ppm), Formula C6H2", "75.02295": "Theoretical m/z 75.023475, Mass diff 0 (0 ppm), Formula C6H3", "76.03075": "Theoretical m/z 76.0313, Mass diff 0 (0 ppm), Formula C6H4", "87.02295": "Theoretical m/z 87.023475, Mass diff 0 (0 ppm), Formula C7H3", "88.03076": "Theoretical m/z 88.0313, Mass diff 0 (0 ppm), Formula C7H4", "89.03857": "Theoretical m/z 89.039125, Mass diff 0 (0 ppm), Formula C7H5", "151.05415": "Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7", "175.05423": "Theoretical m/z 175.054775, Mass diff 0 (0 ppm), Formula C14H7", "176.062": "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8", "177.06982": "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9", "178.0775": "Theoretical m/z 178.077698, Mass diff 0 (1.11 ppm), SMILES C=1C=CC2=C(C1)C=CC=3C=CC=CC32, Annotation [C14H10]+, Rule of HR False"}, "num_peaks": "19", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "collision_energy": "70eV", "peaks_json": [[74.01508, 137808.0], [75.02295, 278714.0], [76.03075, 608417.0], [87.02295, 304266.0], [88.03076, 497050.0], [89.03857, 441168.0], [98.01511, 150478.0], [150.04633, 868927.0], [151.05415, 546351.0], [152.0619, 2275502.0], [153.06528, 276320.0], [169.06468, 272559.0], [174.04636, 365846.0], [175.05423, 272039.0], [176.062, 3370523.0], [177.06982, 1751846.0], [178.0775, 13724432.0], [179.08078, 2250119.0], [180.08412, 138203.0]]}, {"scannumber": "-1", "precursortype": "[M]+", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "inchi": "", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "instrumenttype": "GC-EI-Orbitrap", "ionization": "EI+", "license"'..b'0], [0.0028730971640638244, 4, 1.0], [0.0031611093785701995, 3, 1.0], [0.07809000356411269, 24, 1.0], [0.011339523303273511, 11, 1.0], [0.1816760057075885, 45, 1.0], [0.015161639879948667, 10, 1.0], [0.02217259430184349, 14, 1.0], [0.03016187459010991, 15, 1.0], [0.05429349969259654, 20, 1.0], [0.21156692241257447, 22, 1.0], [0.06330592536098255, 20, 1.0], [0.37756373251668857, 22, 1.0], [0.1824545636663668, 17, 1.0], [0.9999999999999989, 61, 1.0], [0.03487408174852443, 18, 1.0], [0.0031530335453573023, 5, 1.0], [0.07421964444934627, 14, 1.0], [0.0072896351039373666, 8, 1.0], [0.02223307394055662, 14, 1.0], [0.02257124600169508, 16, 1.0], [0.027963268346603974, 17, 1.0], [0.023381830669040555, 9, 1.0], [0.026962291591070775, 11, 1.0], [0.01658660054533858, 7, 1.0], [0.010178493180153044, 13, 1.0], [0.37373952662816223, 18, 1.0], [0.9999999999999998, 37, 1.0], [0.02777631464351049, 12, 1.0], [0.1447639137740579, 24, 1.0], [0.03147233467542128, 17, 1.0], [0.03668676267612972, 14, 1.0], [0.020961417223860423, 6, 1.0], [0.014547506975992702, 7, 1.0], [0.7165448092914788, 27, 1.0], [0.7077717691138634, 26, 1.0], [0.14841215335964056, 22, 1.0], [0.9999999999999986, 49, 1.0], [0.15478920576000488, 8, 1.0], [0.1525091787681603, 8, 1.0], [1.0, 75, 1.0], [0.013960480414345186, 7, 1.0], [0.012898053940131163, 5, 1.0], [0.02934740784150951, 10, 1.0], [0.048383174738395124, 26, 1.0], [0.015570817504218529, 16, 1.0], [0.029506747379838084, 20, 1.0], [0.01039090462946715, 18, 1.0], [0.012832752777152854, 19, 1.0], [0.0372296294007929, 21, 1.0], [0.19471605273580178, 18, 1.0], [0.022182739554052363, 10, 1.0], [0.09428821665388754, 36, 1.0], [0.03487408174852443, 18, 1.0], [1.0, 57, 1.0], [0.3581452270515483, 19, 1.0], [0.02692737752602113, 29, 1.0], [0.015614695013710414, 5, 1.0], [0.5621299506007804, 15, 1.0], [0.5899393930827314, 16, 1.0], [0.009549214615669823, 6, 1.0], [0.013182084190193821, 10, 1.0], [0.013450993184542724, 14, 1.0], [0.0012715157671517663, 3, 1.0], [0.0025645094667376784, 5, 1.0], [0.08804375656589408, 25, 1.0], [0.01220117358353883, 13, 1.0], [0.013115830082688965, 8, 1.0], [1.0, 35, 1.0], [0.04168219452723639, 18, 1.0], [0.13815332243425266, 5, 1.0], [0.1454824342075702, 12, 1.0], [0.09634874816811735, 6, 1.0], [0.0908731699433544, 18, 1.0], [0.0714806286065652, 14, 1.0], [0.0685535992926502, 14, 1.0], [0.0011191911101418256, 3, 1.0], [0.259743494306901, 29, 1.0], [0.3581452270515483, 19, 1.0], [1.0, 60, 1.0], [0.024836905223525062, 25, 1.0], [0.06659189766227433, 8, 1.0], [0.033368714192638226, 6, 1.0], [0.029776983139679143, 8, 1.0], [0.014386598516398983, 7, 1.0], [0.0174029922991385, 14, 1.0], [0.13635394439889434, 22, 1.0], [0.07045920127432331, 31, 1.0], [0.02692737752602113, 29, 1.0], [0.024836905223525062, 25, 1.0], [1.0, 82, 1.0], [0.038530836114745656, 12, 1.0], [0.37715574987564204, 6, 1.0], [0.21925449641312258, 4, 1.0], [0.2897578505717055, 5, 1.0], [0.18214368073680545, 10, 1.0], [0.17367471503469017, 10, 1.0], [0.01802858781741649, 7, 1.0], [0.057634459588011146, 11, 1.0], [0.06659189766227433, 8, 1.0], [0.038530836114745656, 12, 1.0], [0.9999999999999997, 20, 1.0], [0.13338495790962168, 9, 1.0], [0.13394438395989552, 14, 1.0], [0.08015473107805055, 15, 1.0], [0.1041070691955264, 16, 1.0], [0.0982258184690084, 14, 1.0], [0.04243089164102407, 20, 1.0], [0.14167032653965456, 22, 1.0], [0.06118585359929772, 10, 1.0], [0.27102141235736116, 36, 1.0], [0.01967212182056244, 9, 1.0], [0.04168219452723639, 18, 1.0], [0.9999999999999988, 51, 1.0], [0.02253416942501213, 12, 1.0], [0.018822784115202575, 20, 1.0], [0.007606153593747367, 13, 1.0], [0.0067533077336432434, 11, 1.0], [0.030397959311646662, 10, 1.0], [0.020386018142265136, 6, 1.0], [0.05336186216280011, 22, 1.0], [0.018724366773580196, 14, 1.0], [0.016595252772073396, 11, 1.0], [0.9999999999999994, 48, 1.0]], "dtype": [["ModifiedCosine_score", "<f8"], ["ModifiedCosine_matches", "<i8"], ["MetadataMatch_MetadataMatch", "<f8"]]}\n\\ No newline at end of file\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/similarity/scores_test6_out.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/scores_test6_out.json Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C20H12", "inchikey": "CSHWQDPOILHKBI-UHFFFAOYSA-N", "smiles": "C1=CC2=C3C(=C1)C1=CC=CC4=C1C(=CC=C4)C3=CC=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "compound_name": "Perylene", "retention_time": null, "retention_index": 2886.9, "precursor_mz": 252.09323, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "charge": 1, "parent_mass": "251.08595400000002", "peak_comments": {"252.09323": "Theoretical m/z 252.093354, Mass diff 0 (0.49 ppm), SMILES C1=CC=2C=CC=C3C4=CC=CC5=CC=CC(C(=C1)C23)=C54, Annotation [C20H12]+, Rule of HR False"}, "num_peaks": "3", "peaks_json": [[250.07765, 0.3282529462971431], [252.09323, 1.0], [253.09656, 0.20573802940517583]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "charge": 1, "parent_mass": "177.070224", "peak_comments": {"176.062": "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8", "177.06982": "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9", "178.0775": "Theoretical m/z 178.077698, Mass diff 0 (1.11 ppm), SMILES C=1C=CC2=C(C1)C=CC=3C=CC=CC32, Annotation [C14H10]+, Rule of HR False"}, "num_peaks": "5", "peaks_json": [[152.0619, 0.1657993569424221], [176.062, 0.24558560966311757], [177.06982, 0.12764433529926775], [178.0775, 1.0], [179.08078, 0.16394988149600653]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "compound_name": "Anthracene", "retention_time": null, "retention_index": 1844.4, "precursor_mz": 178.07754, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "charge": 1, "parent_mass": "177.070264", "peak_comments": {"176.06204": "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8", "177.06984": "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9", "178.07754": "Theoretical m/z 178.077698, Mass diff 0 (0.89 ppm), SMILES C=1C=CC=2C=C3C=CC=CC3=CC2C1, Annotation [C14H10]+, Rule of HR False"}, "num_peaks": "5", "peaks_json": [[152.06195, 0.12450313104470498], [176.06204, 0.23295403420236208], [177.06984, 0.1074344883724439], [178.07754, 1.0], [179.08081, 0.1616741186784917]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C12H10", "inchikey": "CWRYPZZKDGJXCA-UHFFFAOYSA-N", "smiles": "C1CC2=C3C1=CC=CC3=CC=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "compound_name": "Acenaphthene", "retention_time": null, "retention_index": 1528.3, "precursor_mz": 154.07741, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "charge": 1, "parent_mass": "153.070134", "peak_comments": {"151.05418": "Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7", "153.06969": "Theoretical m/z 153.070425, Mass diff 0 (0 ppm), Formula C12H9", "154.07741": "Theoretical m/z 154.077698, Mass diff 0 (1.87 ppm), SMILES C=1C=C2C=CC=C3C2=C(C1)CC3, Annotation [C12H10]+, Rule of HR False"}, "num_peaks":'..b'3571], [0.9999464985595178], [0.9983642259145018], [NaN], [0.9996316844668668], [0.9999542690012959], [NaN], [0.9998245426662409], [0.9997364568307842], [0.9997735798049295], [0.9996654397532749], [0.9997923756137315], [0.999912245790554], [0.9998701992229159], [0.999781682959307], [NaN], [0.99529023985623], [0.9998592622149366], [NaN], [NaN], [0.9999038378779087], [0.9999132718651947], [0.9999142600200961], [NaN], [NaN], [0.9992484984999064], [0.9995110849280047], [0.9997750504505448], [0.9998588584364331], [0.9989628259377954], [0.9898280884915263], [0.9998951101778284], [0.9898280884915263], [0.9999618871028408], [NaN], [NaN], [0.9999362434563842], [0.9998725838556388], [0.984393816377787], [0.99970443337848], [NaN], [0.999380728291137], [0.9998125632453353], [0.9999473853785144], [0.94908958225869], [0.9991907180362392], [NaN], [NaN], [0.9994831784037066], [0.9999677393228757], [0.9998596562322185], [0.9999375194207889], [0.9999584680876085], [0.9983578927758774], [NaN], [0.9996951658582455], [0.9999585131388838], [NaN], [0.9998601209446164], [0.9997745137959851], [0.9998351602923499], [0.9997076628523763], [0.9994869053563313], [0.9994944796049474], [0.9994941407460937], [0.9993385894518629], [NaN], [0.9948662923964178], [0.9994358040220748], [NaN], [NaN], [0.9995138496782932], [0.9995077589917967], [0.9995075311681797], [NaN], [NaN], [0.9988003735013843], [0.9991747907307302], [0.999357120825865], [0.9994937916217865], [0.9984278684869906], [0.9897162056647042], [0.9995553478015445], [0.9897162056647042], [0.9995145376243078], [NaN], [NaN], [0.9995246454304472], [0.9995153899446758], [0.9840526612713875], [0.9992069303963274], [NaN], [0.9990681218533939], [0.9994101746307932], [0.9995850762152261], [0.9485998113289814], [0.9988379636842973], [NaN], [NaN], [0.9990398774583397], [0.9995726060987724], [0.9995192983088126], [0.9995475522523255], [0.9995651680240067], [0.9978372205622434], [NaN], [0.9991857747541117], [0.9995496787385805], [NaN], [0.9995071636897385], [0.9993516545467516], [0.9995358199867375], [0.9993756370899921], [0.9997662482266795], [0.9999013201496058], [0.9998649550162513], [0.9998003193259], [NaN], [0.9952760361955323], [0.99988038823652], [NaN], [NaN], [0.9999377870503044], [0.9999141068562202], [0.9998913299590001], [NaN], [NaN], [0.9992510085344742], [0.9995087614702506], [0.9997323798269362], [0.9998608591987697], [0.9989186796697854], [0.9897845390380728], [0.99989853546258], [0.9897845390380728], [0.9999567066241181], [NaN], [NaN], [0.9999482191802924], [0.999837722550108], [0.9841469579520772], [0.9996730115110646], [NaN], [0.9993695967578718], [0.999796207884433], [0.99994177874344], [0.9488472657496483], [0.9992368053168589], [NaN], [NaN], [0.9994652797475879], [0.9999811693669933], [0.9998769023518711], [0.9999614382073735], [0.9999758890396705], [0.9983488148091332], [NaN], [0.9996554995037683], [0.9999799868507474], [NaN], [0.9998464865455944], [0.9997796870446739], [0.9998124120745346], [0.9996721831639394], [0.9997159737177734], [0.9998425835552229], [0.9997738954768802], [0.9997384287559777], [NaN], [0.99503831060259], [0.9998272983524823], [NaN], [NaN], [0.9998476409571172], [0.99985379981183], [0.9998471290672308], [NaN], [NaN], [0.9991262730803138], [0.9994013124892798], [0.9996784525190312], [0.9997875393701275], [0.998796945320568], [0.9896772306229431], [0.9998348062244541], [0.9896772306229431], [0.9998902057959875], [NaN], [NaN], [0.9998717707397411], [0.9997884260466356], [0.9840830163294169], [0.9996362358769302], [NaN], [0.9993784839076436], [0.9997847076532577], [0.9998824540484057], [0.9485187570164813], [0.9992064260434625], [NaN], [NaN], [0.9993862193285787], [0.9999008441637385], [0.9997750495070409], [0.9998773803465455], [0.9999067283403638], [0.9983396867282632], [NaN], [0.9995548183132255], [0.9999149470856479], [NaN], [0.9998194813791971], [0.9996814971185987], [0.9997352261644801], [0.9996327736886663]], "dtype": [["Spec2Vec", "<f8"]]}\n\\ No newline at end of file\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/similarity/spec2vec/inp_filtered_library.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/spec2vec/inp_filtered_library.msp Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -0,0 +1,4205 @@\n+SCANNUMBER: -1\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C20H12\n+INCHIKEY: CSHWQDPOILHKBI-UHFFFAOYSA-N\n+SMILES: C1=CC2=C3C(=C1)C1=CC=CC4=C1C(=CC=C4)C3=CC=C2\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Perylene\n+RETENTION_TIME: None\n+RETENTION_INDEX: 2886.9\n+PRECURSOR_MZ: 252.09323\n+ADDUCT: [M]+\n+COLLISION_ENERGY: 70eV\n+INSTRUMENT_TYPE: GC-EI-Orbitrap\n+CHARGE: 1\n+PARENT_MASS: 251.08595400000002\n+NUM PEAKS: 3\n+250.07765   0.3282529462971431\n+252.09323   1.0         "Theoretical m/z 252.093354, Mass diff 0 (0.49 ppm), SMILES C1=CC=2C=CC=C3C4=CC=CC5=CC=CC(C(=C1)C23)=C54, Annotation [C20H12]+, Rule of HR False"\n+253.09656   0.20573802940517583\n+\n+SCANNUMBER: -1\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C14H10\n+INCHIKEY: YNPNZTXNASCQKK-UHFFFAOYSA-N\n+SMILES: C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Phenanthrene\n+RETENTION_TIME: None\n+RETENTION_INDEX: 1832.9\n+PRECURSOR_MZ: 178.0775\n+ADDUCT: [M]+\n+COLLISION_ENERGY: 70eV\n+INSTRUMENT_TYPE: GC-EI-Orbitrap\n+CHARGE: 1\n+PARENT_MASS: 177.070224\n+NUM PEAKS: 5\n+152.0619    0.1657993569424221\n+176.062     0.24558560966311757     "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8"\n+177.06982   0.12764433529926775     "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9"\n+178.0775    1.0         "Theoretical m/z 178.077698, Mass diff 0 (1.11 ppm), SMILES C=1C=CC2=C(C1)C=CC=3C=CC=CC32, Annotation [C14H10]+, Rule of HR False"\n+179.08078   0.16394988149600653\n+\n+SCANNUMBER: -1\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C14H10\n+INCHIKEY: MWPLVEDNUUSJAV-UHFFFAOYSA-N\n+SMILES: C1=CC2=CC3=C(C=CC=C3)C=C2C=C1\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Anthracene\n+RETENTION_TIME: None\n+RETENTION_INDEX: 1844.4\n+PRECURSOR_MZ: 178.07754\n+ADDUCT: [M]+\n+COLLISION_ENERGY: 70eV\n+INSTRUMENT_TYPE: GC-EI-Orbitrap\n+CHARGE: 1\n+PARENT_MASS: 177.070264\n+NUM PEAKS: 5\n+152.06195   0.12450313104470498\n+176.06204   0.23295403420236208     "Theoretical m/z 176.0626, Mass diff 0 (0 ppm), Formula C14H8"\n+177.06984   0.1074344883724439      "Theoretical m/z 177.070425, Mass diff 0 (0 ppm), Formula C14H9"\n+178.07754   1.0         "Theoretical m/z 178.077698, Mass diff 0 (0.89 ppm), SMILES C=1C=CC=2C=C3C=CC=CC3=CC2C1, Annotation [C14H10]+, Rule of HR False"\n+179.08081   0.1616741186784917\n+\n+SCANNUMBER: -1\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C12H10\n+INCHIKEY: CWRYPZZKDGJXCA-UHFFFAOYSA-N\n+SMILES: C1CC2=C3C1=CC=CC3=CC=C2\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Acenaphthene\n+RETENTION_TIME: None\n+RETENTION_INDEX: 1528.3\n+PRECURSOR_MZ: 154.07741\n+ADDUCT: [M]+\n+COLLISION_ENERGY: 70eV\n+INSTRUMENT_TYPE: GC-EI-Orbitrap\n+CHARGE: 1\n+PARENT_MASS: 153.070134\n+NUM PEAKS: 4\n+151.05418   0.10238389021994407     "Theoretical m/z 151.054775, Mass diff 0 (0 ppm), Formula C12H7"\n+152.06194   0.4817565861859871\n+153.06969   1.0         "Theoretical m/z 153.070425, Mass diff 0 (0 ppm), Formula C12H9"\n+154.07741   0.6474388804646675      "Theoretical m/z 154.077698, Mass diff 0 (1.87 ppm), SMILES C=1C=C2C=CC=C3C2=C(C1)CC3, Annotation [C12H10]+, Rule of HR False"\n+\n+SCANNUMBER: -1\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C16H10\n+INCHIKEY: GVEPBJHOBDJJJI-UHFFFAOYSA-N\n+SMILES: C1=CC2=C(C=C1)C1=C3C2=CC=CC3=CC=C1\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Fluoranthene\n+RETENTION_TIME: None\n+RETENTION_INDEX: 2102.7\n+PRECURSOR_MZ: 202.07756\n+ADDUCT: [M]+\n+COLLISION_ENERGY: 70eV\n'..b'  "Theoretical m/z 235.066148, Mass diff 0 (0.18 ppm), SMILES O=C(NC1=CC=CC=C1)C2=C(OCCS2)C, Annotation [C12H13NO2S]+, Rule of HR False"\n+\n+SCANNUMBER: -1\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C13H18O5S\n+INCHIKEY: IRCMYGHHKLLGHV-UHFFFAOYSA-N\n+SMILES: CCOC1C(C2=C(O1)C=CC(=C2)OS(=O)(=O)C)(C)C\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Ethofumesate\n+RETENTION_TIME: None\n+RETENTION_INDEX: 1954.4\n+PRECURSOR_MZ: 286.08679\n+ADDUCT: [M]+\n+COLLISION_ENERGY: 70eV\n+INSTRUMENT_TYPE: GC-EI-Orbitrap\n+CHARGE: 1\n+PARENT_MASS: 285.079514\n+NUM PEAKS: 13\n+79.05419    0.1392834489952906      "Theoretical m/z 79.054228, Mass diff 0 (0.48 ppm), SMILES C1=CC=CC=C1, Annotation [C6H6+H]+, Rule of HR True"\n+91.0542     0.1456948233889637      "Theoretical m/z 91.054775, Mass diff 0 (0 ppm), Formula C7H7"\n+105.06984   0.29471655075385655     "Theoretical m/z 105.070425, Mass diff 0 (0 ppm), Formula C8H9"\n+115.05416   0.14265948876449097     "Theoretical m/z 115.054229, Mass diff 0 (0.6 ppm), SMILES C1=CC=C(C=C1)C(C)C, Annotation [C9H12-5H]+, Rule of HR True"\n+133.0647    0.3868381358475808      "Theoretical m/z 133.064798, Mass diff 0 (0.73 ppm), SMILES OC=1C=CC=C(C=1)C(C)C, Annotation [C9H12O-3H]+, Rule of HR True"\n+137.05962   0.565607729176301       "Theoretical m/z 137.060255, Mass diff 0 (0 ppm), Formula C8H9O2"\n+161.0596    1.0         "Theoretical m/z 161.059701, Mass diff 0 (0.63 ppm), SMILES OC=1C=CC=2OCC(C=2(C=1))(C)C, Annotation [C10H12O2-3H]+, Rule of HR True"\n+162.06293   0.1395183569693118\n+163.07518   0.1571750863529426      "Theoretical m/z 163.075351, Mass diff 0 (1.05 ppm), SMILES OC=1C=CC=2OCC(C=2(C=1))(C)C, Annotation [C10H12O2-H]+, Rule of HR True"\n+179.07016   0.3858738890199595      "Theoretical m/z 179.07027, Mass diff 0 (0.62 ppm), SMILES OC=1C=CC=2OC(O)C(C=2(C=1))(C)C, Annotation [C10H12O3-H]+, Rule of HR True"\n+207.1015    0.9146502804597079      "Theoretical m/z 207.101566, Mass diff 0 (0.32 ppm), SMILES OC=1C=CC=2OC(OCC)C(C=2(C=1))(C)C, Annotation [C12H16O3-H]+, Rule of HR True"\n+208.1048    0.1224932435932507\n+286.08679   0.294378369815484       "Theoretical m/z 286.086945, Mass diff 0 (0.54 ppm), SMILES O=S(=O)(OC=1C=CC=2OC(OCC)C(C=2(C=1))(C)C)C, Annotation [C13H18O5S]+, Rule of HR False"\n+\n+SCANNUMBER: -1\n+IONMODE: positive\n+SPECTRUMTYPE: Centroid\n+FORMULA: C17H17N3OS\n+INCHIKEY: LMVPQMGRYSRMIW-KRWDZBQOSA-N\n+SMILES: CC1(C(=O)N(C(=N1)SC)NC2=CC=CC=C2)C3=CC=CC=C3\n+AUTHORS: Price et al., RECETOX, Masaryk University (CZ)\n+INSTRUMENT: Q Exactive GC Orbitrap GC-MS/MS\n+IONIZATION: EI+\n+LICENSE: CC BY-NC\n+COMPOUND_NAME: Fenamidone\n+RETENTION_TIME: None\n+RETENTION_INDEX: 2516.1\n+PRECURSOR_MZ: 311.10815\n+ADDUCT: [M]+\n+COLLISION_ENERGY: 70eV\n+INSTRUMENT_TYPE: GC-EI-Orbitrap\n+CHARGE: 1\n+PARENT_MASS: 310.10087400000003\n+NUM PEAKS: 10\n+77.03851    0.1341728006141734      "Theoretical m/z 77.038578, Mass diff 0 (0.88 ppm), SMILES C1=CC=CC=C1, Annotation [C6H6-H]+, Rule of HR True"\n+91.04161    0.14196713486951465     "Theoretical m/z 91.041647, Mass diff 0 (0.41 ppm), SMILES NC1=CC=CC=C1, Annotation [C6H7N-2H]+, Rule of HR False"\n+103.05415   0.13231626786608644     "Theoretical m/z 103.054223, Mass diff 0 (0.71 ppm), SMILES C1=CC=C(C=C1)CC, Annotation [C8H10-3H]+, Rule of HR True"\n+206.07457   0.2477103476704148      "Theoretical m/z 206.07464, Mass diff 0 (0.34 ppm), SMILES N(=C(NN)SC)C(C1=CC=CC=C1)C, Annotation [C10H15N3S-3H]+, Rule of HR True"\n+210.11507   0.1254196447843151\n+237.10208   0.5638187350251782      "Theoretical m/z 237.102243, Mass diff 0 (0.69 ppm), SMILES O=C(NNC1=CC=CC=C1)C(C2=CC=CC=C2)C, Annotation [C15H16N2O-3H]+, Rule of HR True"\n+238.10997   0.737876380592742\n+239.11317   0.12354824276317873\n+268.09      1.0         "Theoretical m/z 268.090295, Mass diff 0 (1.1 ppm), SMILES N(=C(NNC1=CC=CC=C1)S)C(C2=CC=CC=C2)C, Annotation [C15H17N3S-3H]+, Rule of HR True"\n+269.09351   0.15574634382295574\n+\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/similarity/spec2vec/inp_filtered_spectra.msp
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/spec2vec/inp_filtered_spectra.msp Tue Jun 27 14:29:16 2023 +0000
b
b'@@ -0,0 +1,1008 @@\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C019\n+RETENTION_TIME: 688.11\n+RETENTION_INDEX: 4135.446429\n+CHARGE: -1\n+NUM PEAKS: 21\n+164.985419247789        0.2949419846671587\n+179.033979756352        0.1975962017168221\n+194.04893073403         0.1080780080055076\n+248.988380501455        0.4192550107623055\n+251.037178293           0.1975188727945594\n+283.099929585291        0.24858700581303622\n+313.053040045895        0.15255184988804857\n+329.031653006854        0.12152318335456756\n+341.157248840923        0.33065016037294653\n+385.022947628725        0.11792404215662944\n+401.053681557414        0.5558197970588639\n+403.051400482668        0.10684249115159443\n+415.106669687654        1.0\n+416.107049345269        0.3343846089983622\n+417.104122333661        0.16072829222839785\n+489.124198650628        0.7880577919119076\n+535.10922525834         0.17951802003040962\n+550.163296442538        0.22193082425956692\n+551.161445828019        0.11285226875001307\n+564.146181690587        0.10968283775320925\n+623.183150220198        0.24882510323783946\n+\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C008\n+RETENTION_TIME: 383.25\n+RETENTION_INDEX: 2436.111111\n+CHARGE: -1\n+NUM PEAKS: 10\n+167.06348032557         0.2012680241749571\n+169.042872715042        0.22527813564183466\n+185.073952424469        0.1146092209329471\n+224.061333736415        0.637856954108077\n+241.084284214072        0.5378362429201462\n+243.086918863664        0.8440889152136807\n+245.102418520421        1.0\n+257.113614660022        0.7014464407039914\n+258.111154671539        0.45403443749116\n+315.119168534318        0.2802677742648726\n+\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C001\n+RETENTION_TIME: 268.99\n+RETENTION_INDEX: 1800.989583\n+CHARGE: -1\n+NUM PEAKS: 7\n+147.065597668017        0.20713460605355152\n+149.044686744287        0.15021454193335101\n+183.047097257536        0.2756365347787095\n+257.066031671279        0.16716705800250425\n+273.097313808265        1.0\n+274.099806030141        0.1382750943677773\n+347.116266654718        0.10796331331103011\n+\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C010\n+RETENTION_TIME: 271.76\n+RETENTION_INDEX: 1815.416667\n+CHARGE: -1\n+NUM PEAKS: 12\n+76.0323849976885        0.5337096603553363\n+107.129167494293        0.17750725429827036\n+120.05545372843         0.732323548309492\n+132.054968772294        0.6582449478277536\n+136.084083848357        0.18110012219874336\n+138.177598969977        0.10980088538234019\n+311.387345297053        0.3149229368865709\n+312.394070075839        1.0\n+313.396963036504        0.1996701454734163\n+329.397982197985        0.17215789049120694\n+330.403963356557        0.5441264876224288\n+331.407288294656        0.1075489761979763\n+\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C009\n+RETENTION_TIME: 224.1\n+RETENTION_INDEX: 1606.578947\n+CHARGE: -1\n+NUM PEAKS: 5\n+128.088974937905        0.30238672398872746\n+142.104728421893        0.13125344469355718\n+230.102912184687        0.13629903834332716\n+246.13394892703         1.0\n+247.135560589937        0.1027800448922141\n+\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C011\n+RETENTION_TIME: 322.28\n+RETENTION_INDEX: 2083.777778\n+CHARGE: -1\n+NUM PEAKS: 8\n+191.091545005862        0.3661694612326083\n+204.099524919261        0.1379655416395176\n+217.107439740029        0.8659676702439103\n+221.084188869749        0.13224939836684152\n+265.110639707297        0.12404535021125133\n+305.141591931944        1.0\n+306.142075983677        0.19894438269593562\n+318.149353523284        0.5161780338363837\n+\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C013\n+RETENTION_TIME: 471.03\n+RETENTION_INDEX: 3168.684211\n+CHARGE: -1\n+NUM PEAKS: 6\n+78.0464517452347        0.13019193533313522\n+155.087332200892        0.16981875175936348\n+207.101729466849        1.0\n+313.053036971607        0.12108100658431745\n+353.320009154806        0.2895861096886366\n+624.30876303981         0.14852029190801175\n'..b'349696378594456\n+196.992752093539        0.3065603768824057\n+197.974508055988        0.395078144825856\n+198.95441899853         0.20984023997622794\n+212.970014961884        0.312364140356306\n+213.006147303489        0.3451086913299261\n+214.98560992714         0.5058106319186024\n+220.957069324217        0.1741467403445935\n+222.936453968368        0.1925777417566011\n+229.019119616188        1.0\n+230.00074243328         0.4313373151032761\n+236.98832473252         0.17144823687024496\n+240.946899738586        0.37016492220221137\n+253.982966844011        0.2619026170220304\n+269.977845781938        0.369206087321791\n+270.975426915952        0.26702156040941716\n+270.993770069105        0.5558156567281477\n+297.079403794841        0.3276080388276794\n+298.934550867121        0.27505460413538213\n+328.980928284848        0.30053783536988743\n+330.960641905517        0.36106011190503906\n+372.953096157169        0.24565144306023193\n+\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C018\n+RETENTION_TIME: 687.52\n+RETENTION_INDEX: 4133.690476\n+CHARGE: -1\n+NUM PEAKS: 9\n+209.011554808631        0.6525630494040975\n+209.029113642814        0.10839584784422365\n+210.990970491228        0.15000447517519525\n+226.041539764125        0.3130785916148705\n+227.039590062704        0.17080278851135594\n+265.020169474237        0.2407632085362116\n+281.051364215883        1.0\n+282.049803555434        0.21798058347517868\n+285.009414657485        0.12222513080126347\n+\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C012\n+RETENTION_TIME: 687.83\n+RETENTION_INDEX: 4134.613095\n+CHARGE: -1\n+NUM PEAKS: 27\n+121.046741626167        0.12537265500763864\n+192.997735629267        0.1940732067111916\n+205.016711322548        0.12056941717717026\n+209.098935410027        0.12559326156418593\n+213.05754958053         0.27142481482801556\n+253.016653119059        0.8938154160284864\n+271.027137265637        0.1375157398831428\n+284.047997947258        0.1709644868199992\n+325.985953604199        0.17320279707305308\n+327.03525664153         1.0\n+328.035343658           0.26668492712822667\n+345.046169172075        0.17928530473894783\n+359.09769204202         0.2008606829314974\n+360.028136457829        0.21741111817985187\n+387.002413998209        0.2632563912022333\n+387.071825807939        0.3071277807533759\n+402.055174276849        0.2538777644377674\n+461.090256355859        0.3629780005380489\n+462.091555156095        0.14179921776218857\n+475.072310244956        0.27595658697326014\n+476.143434019655        0.2650001066007337\n+477.140480798609        0.10059042565917092\n+490.12632015072         0.3700192231231476\n+491.122346777972        0.20934752539009766\n+549.162553092955        0.5034364902937184\n+563.144239233773        0.2590935918637112\n+624.183209223215        0.1451500409395642\n+\n+IONMODE: negative\n+SPECTRUMTYPE: Centroid\n+COMPOUND_NAME: C020\n+RETENTION_TIME: 687.99\n+RETENTION_INDEX: 4135.089286\n+CHARGE: -1\n+NUM PEAKS: 24\n+194.053642118165        0.17149988589657134\n+212.061782732582        0.3408023706085241\n+267.034768010352        0.14461973681405008\n+267.068824022318        0.9059077886912253\n+310.970568727813        0.10207376981761378\n+325.055731606087        0.2492913881575955\n+327.965549188207        0.17771113517875153\n+339.03821058645         0.2164141235131004\n+342.996634492902        0.12864401601229136\n+345.115297423962        0.12858631941521836\n+358.067243216398        0.11516054657713713\n+361.025211906011        0.21277786650130676\n+388.003000430725        0.1117630757647746\n+388.073272089579        0.1379380986368877\n+399.005054559559        0.13523814605127854\n+401.984326631505        0.18236859257167579\n+402.98179623463         0.11632404563967355\n+416.036473280551        0.23580021278191537\n+417.033665098569        0.13482894754843827\n+430.088321970134        0.3515024935084798\n+431.085366629672        0.22490708219361874\n+475.14184210128         1.0\n+565.143723544965        0.11382519851041557\n+625.181479977537        0.1264407374154073\n+\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/similarity/spec2vec/model.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/similarity/spec2vec/model.json Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"vector_size": 100, "index_to_key": ["peak@95.05", "peak@91.05", "peak@92.05", "peak@115.05", "peak@125.02", "peak@89.04", "peak@173.51", "peak@93.06", "peak@105.07", "peak@105.05", "peak@155.06", "peak@111.04", "peak@120.04", "peak@110.07", "peak@106.07", "peak@118.07", "peak@127.02", "peak@119.06", "peak@119.09", "peak@110.05", "peak@137.02", "peak@149.02", "peak@142.07", "peak@94.07", "peak@107.05", "peak@103.05", "peak@138.08", "peak@96.06", "peak@85.05", "peak@96.04", "peak@158.98", "peak@117.06", "peak@129.07", "peak@139.01", "peak@143.06", "peak@129.01", "peak@120.08", "peak@146.06", "peak@128.06", "peak@119.05", "peak@123.00", "peak@104.05", "peak@131.06", "peak@123.04", "peak@105.04", "peak@163.03", "peak@109.07", "peak@138.99", "peak@117.07", "peak@144.06", "peak@170.10", "peak@110.06", "peak@95.09", "peak@145.06", "peak@85.08", "peak@147.08", "peak@137.06", "peak@151.03", "peak@133.06", "peak@97.04", "peak@165.05", "peak@114.07", "peak@175.03", "peak@132.08", "peak@139.03", "peak@107.09", "peak@99.00", "peak@141.01", "peak@140.03", "peak@113.02", "peak@158.05", "peak@113.08", "peak@109.08", "peak@122.06", "peak@130.07", "peak@168.09", "peak@156.07", "peak@141.07", "peak@167.07", "peak@153.07", "peak@136.04", "peak@165.07", "peak@98.06", "peak@161.06", "peak@164.03", "peak@93.07", "peak@128.05", "peak@157.08", "peak@116.06", "peak@172.99", "peak@86.04", "peak@116.03", "peak@124.08", "peak@118.05", "peak@134.06", "peak@116.05", "peak@150.02", "peak@174.97", "peak@135.08", "peak@184.12", "peak@128.08", "peak@129.05", "peak@100.05", "peak@99.07", "peak@152.06", "peak@148.04", "peak@134.10", "peak@152.07", "peak@121.04", "peak@176.04", "peak@130.03", "peak@94.04", "peak@147.94", "peak@182.08", "peak@121.07", "peak@134.07", "peak@136.08", "peak@186.08", "peak@168.07", "peak@122.10", "peak@123.06", "peak@124.06", "peak@125.01", "peak@91.03", "peak@102.04", "peak@183.06", "peak@91.04", "peak@125.06", "peak@90.03", "peak@130.04", "peak@126.01", "peak@165.10", "peak@93.03", "peak@108.08", "peak@139.07", "peak@148.08", "peak@125.08", "peak@191.06", "peak@122.07", "peak@113.04", "peak@108.06", "peak@191.07", "peak@183.08", "peak@133.09", "peak@159.09", "peak@158.08", "peak@144.08", "peak@114.09", "peak@143.07", "peak@161.10", "peak@150.09", "peak@108.04", "peak@170.07", "peak@132.07", "peak@153.08", "peak@107.07", "peak@163.08", "peak@145.05", "peak@145.10", "peak@131.09", "peak@133.10", "peak@209.06", "peak@120.06", "peak@178.05", "peak@145.03", "peak@172.97", "peak@186.97", "peak@157.09", "peak@164.07", "peak@168.02", "peak@164.04", "peak@133.05", "peak@132.04", "peak@177.05", "peak@102.05", "peak@166.07", "peak@167.09", "peak@190.04", "peak@155.09", "peak@189.05", "peak@142.08", "peak@185.07", "peak@147.07", "peak@160.08", "peak@141.06", "peak@135.04", "peak@131.07", "peak@95.06", "peak@149.06", "peak@159.04", "peak@162.07", "peak@208.96", "peak@130.08", "peak@155.07", "peak@106.03", "peak@98.10", "peak@123.02", "peak@219.03", "peak@109.03", "peak@172.96", "peak@139.05", "peak@124.98", "peak@113.00", "peak@142.99", "peak@147.04", "peak@169.10", "peak@99.04", "peak@146.07", "peak@125.05", "peak@176.03", "peak@141.02", "peak@180.10", "peak@102.06", "peak@136.01", "peak@226.17", "peak@215.03", "peak@147.06", "peak@184.99", "peak@99.08", "peak@164.11", "peak@198.08", "peak@208.13", "peak@165.06", "peak@151.11", "peak@192.10", "peak@308.00", "peak@223.01", "peak@156.09", "peak@109.10", "peak@155.00", "peak@132.96", "peak@125.00", "peak@208.10", "peak@171.03", "peak@159.07", "peak@158.04", "peak@159.97", "peak@127.10", "peak@163.04", "peak@142.12", "peak@216.03", "peak@171.04", "peak@148.09", "peak@158.07", "peak@180.03", "peak@144.07", "peak@148.11", "peak@121.09", "peak@127.99", "peak@140.05", "peak@217.02", "peak@87.08", "peak@166.12", "peak@206.08", "peak@179.07", "peak@107.06", "peak@242.08", "peak@162.04", "peak@150.01", "peak@160.11", "peak@110.10", "peak@115.08", "peak@86.10", "peak@138.09", "peak@223.08'..b': 1240, "peak@155.02": 1241, "peak@226.13": 1242, "peak@210.10": 1243, "peak@209.11": 1244, "peak@196.09": 1245, "peak@185.11": 1246, "peak@102.03": 1247, "peak@187.09": 1248, "peak@188.08": 1249, "peak@216.06": 1250, "peak@161.03": 1251, "peak@174.02": 1252, "peak@175.05": 1253, "peak@119.04": 1254, "peak@134.04": 1255, "peak@150.04": 1256, "peak@151.10": 1257, "peak@163.01": 1258, "peak@188.09": 1259, "peak@163.05": 1260, "peak@170.04": 1261, "peak@178.03": 1262, "peak@179.00": 1263, "peak@205.04": 1264, "peak@214.04": 1265, "peak@155.04": 1266, "peak@147.03": 1267, "peak@146.02": 1268, "peak@134.05": 1269, "peak@101.02": 1270, "peak@98.04": 1271, "peak@366.15": 1272, "peak@231.10": 1273, "peak@230.09": 1274, "peak@215.11": 1275, "peak@214.10": 1276, "peak@202.10": 1277, "peak@201.10": 1278, "peak@200.08": 1279, "peak@199.09": 1280, "peak@199.07": 1281, "peak@189.10": 1282, "peak@247.07": 1283, "peak@260.07": 1284, "peak@273.06": 1285, "peak@139.12": 1286, "peak@211.00": 1287, "peak@86.07": 1288, "peak@96.08": 1289, "peak@136.09": 1290, "peak@137.09": 1291, "peak@138.10": 1292, "peak@151.12": 1293, "peak@224.18": 1294, "peak@179.13": 1295, "peak@180.15": 1296, "peak@191.12": 1297, "peak@192.15": 1298, "peak@194.13": 1299, "peak@208.14": 1300, "peak@167.97": 1301, "peak@152.98": 1302, "peak@139.97": 1303, "peak@136.00": 1304, "peak@134.99": 1305, "peak@121.01": 1306, "peak@111.03": 1307, "peak@108.00": 1308, "peak@107.00": 1309, "peak@96.00": 1310, "peak@90.97": 1311, "peak@377.14": 1312, "peak@349.11": 1313, "peak@347.09": 1314, "peak@337.11": 1315, "peak@335.13": 1316, "peak@334.08": 1317, "peak@209.18": 1318, "peak@237.21": 1319, "peak@273.08": 1320, "peak@226.12": 1321, "peak@172.98": 1322, "peak@204.02": 1323, "peak@206.02": 1324, "peak@220.02": 1325, "peak@250.02": 1326, "peak@225.11": 1327, "peak@251.11": 1328, "peak@272.11": 1329, "peak@261.09": 1330, "peak@279.10": 1331, "peak@325.05": 1332, "peak@325.14": 1333, "peak@325.24": 1334, "peak@263.97": 1335, "peak@168.05": 1336, "peak@179.09": 1337, "peak@177.08": 1338, "peak@138.06": 1339, "peak@178.09": 1340, "peak@150.13": 1341, "peak@150.05": 1342, "peak@149.05": 1343, "peak@114.05": 1344, "peak@166.03": 1345, "peak@148.02": 1346, "peak@143.02": 1347, "peak@138.04": 1348, "peak@99.03": 1349, "peak@89.01": 1350, "peak@86.99": 1351, "peak@103.00": 1352, "peak@333.11": 1353, "peak@331.10": 1354, "peak@321.11": 1355, "peak@127.03": 1356, "peak@186.07": 1357, "peak@90.01": 1358, "peak@117.02": 1359, "peak@334.17": 1360, "peak@110.04": 1361, "peak@111.00": 1362, "peak@155.03": 1363, "peak@319.10": 1364, "peak@159.02": 1365, "peak@190.10": 1366, "peak@161.05": 1367, "peak@186.05": 1368, "peak@160.99": 1369, "peak@176.99": 1370, "peak@133.07": 1371, "peak@200.12": 1372, "peak@173.11": 1373, "peak@115.04": 1374, "peak@376.04": 1375, "peak@265.95": 1376, "peak@279.13": 1377, "peak@219.11": 1378, "peak@178.04": 1379, "peak@166.04": 1380, "peak@220.13": 1381, "peak@192.14": 1382, "peak@162.13": 1383, "peak@147.10": 1384, "peak@330.09": 1385, "peak@288.09": 1386, "peak@286.07": 1387, "peak@204.00": 1388, "peak@183.97": 1389, "peak@184.98": 1390, "peak@174.07": 1391, "peak@241.09": 1392, "peak@226.06": 1393, "peak@220.07": 1394, "peak@219.07": 1395, "peak@211.08": 1396, "peak@205.05": 1397, "peak@198.07": 1398, "peak@197.06": 1399, "peak@193.09": 1400, "peak@193.05": 1401, "peak@189.09": 1402, "peak@188.05": 1403, "peak@187.04": 1404, "peak@175.04": 1405, "peak@164.05": 1406, "peak@196.98": 1407, "peak@161.02": 1408, "peak@151.08": 1409, "peak@150.07": 1410, "peak@148.05": 1411, "peak@139.08": 1412, "peak@280.01": 1413, "peak@254.04": 1414, "peak@253.03": 1415, "peak@245.04": 1416, "peak@244.03": 1417, "peak@237.06": 1418, "peak@225.03": 1419, "peak@213.98": 1420, "peak@212.97": 1421, "peak@90.09": 1422}, "norms": null, "mapfile_path": null, "__numpys": [], "__scipys": [], "__ignoreds": [], "__recursive_saveloads": [], "__weights_format": "np.ndarray"}\n\\ No newline at end of file\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/similarity/spec2vec/weights_100.binary
b
Binary file test-data/similarity/spec2vec/weights_100.binary has changed
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/spectral_similarity/test1.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/spectral_similarity/test1.json Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "1161", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C4H10NO3PS", "inchikey": "YASYVMFAVPKPKE-SECBINFHSA-N", "smiles": "COP(=O)(N=C(O)C)SC", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "num_peaks": "16", "compound_name": "Acephate", "retention_time": 1.232997, "precursor_mz": 184.0194, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[90.09368, 1128.0], [93.11512, 1241.0], [95.10279, 1118.0], [101.31465, 1152.0], [102.90688, 1322.0], [103.98039, 1201.0], [112.01607, 12289.0], [112.99994, 38027.0], [115.00399, 1634.0], [124.98121, 922.0], [128.97701, 9208.0], [132.57193, 1350.0], [135.84808, 1428.0], [142.99275, 16419.0], [147.94205, 1750.0], [173.5094, 2353.0]]}, {"scannumber": "2257", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C12H11NO2", "inchikey": "CVXBEEMKQHEXEN-UHFFFAOYSA-N", "smiles": "CN=C(Oc1cccc2c1cccc2)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"145.06491": "Theoretical m/z 145.064787, Mass diff 0 (0.85 ppm), SMILES OC1=CC=CC=2C=CC=CC12, Annotation [C10H8O+H]+, Rule of HR True"}, "num_peaks": "1", "compound_name": "Carbaryl", "retention_time": 5.259445, "precursor_mz": 202.0863, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[145.06491, 1326147.0]]}, {"scannumber": "1516", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C8H16NO5P", "inchikey": "VEENJGZXVHKXNB-UHFFFAOYSA-N", "smiles": "COP(=O)(OC(=CC(=O)N(C)C)C)OC", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"112.07591": "Theoretical m/z 112.075687, Mass diff 0 (1.99 ppm), SMILES O=C(C=CC)N(C)C, Annotation [C6H11NO-H]+, Rule of HR True", "127.01563": "Theoretical m/z 127.01547, Mass diff 0 (1.26 ppm), SMILES O=P(O)(OC)OC, Annotation [C2H7O4P+H]+, Rule of HR True", "193.02605": "Theoretical m/z 193.026035, Mass diff 0 (0.08 ppm), SMILES O=CC=C(OP(=O)(OC)OC)C, Annotation [C6H11O5P-H]+, Rule of HR True", "238.08437": "Theoretical m/z 238.083891, Mass diff 0 (2.01 ppm), SMILES O=C(C=C(OP(=O)(OC)OC)C)N(C)C, Annotation [C8H16NO5P+H]+, Rule of HR True"}, "num_peaks": "5", "compound_name": "Dicrotophos", "retention_time": 2.025499, "precursor_mz": 238.0844, "adduct": "[M+H]+", "instrument_type": "LC-ESI-Orbitrap", "peaks_json": [[112.074, 102027.0], [112.07591, 9070987.0], [127.01563, 3230337.0], [193.02605, 7897744.0], [238.08437, 2973124.0]]}, {"scannumber": "1865", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C5H12NO3PS2", "inchikey": "MCWXGJITAZMZEV-UHFFFAOYSA-N", "smiles": "CN=C(CSP(=S)(OC)OC)O", "authors": "Biomarker Analytical Laboratories, RECETOX, Masaryk University (CZ)", "instrument": "LC Orbitrap Fusion Tribrid MS", "ionization": "ESI+", "license": "CC BY-NC", "peak_comments": {"88.0219": "Theoretical m/z 88.021549, Mass diff 0 (3.99 ppm), SMILES SCC=NC, Annotation [C3H7NS-H]+, Rule of HR True", "124.98233": "Theoretical m/z 124.982067, Mass diff 0 (2.11 ppm), SMILES S=P(OC)OC, Annotation [C2H7O2PS-H]+, Rule of HR True", "142.99275": "Theoretical m/z 142.993177, Mass diff 0 (0 ppm), Formula C2H8O3PS", "156.95422": "Theoretical m/z 156.954136, Mass diff 0 (0.54 ppm), SMILES S=P(S)(OC)OC, Annotation [C2H7O2PS2-H]+, Rule of HR True", "170.97": "Theoretical m/z 170.969791, Mass diff 0 (1.22 ppm), SMILES S=P(OC)(OC)SC, Annotation [C3H9O2PS2-H]+, Rule of HR True", "197.98123": "Theoretical m/z 197.980686, Mass diff 0.001 (2.75 ppm), SMILES S=P(OC)SCC(O)=NC, Annotation [C4H10NO2PS2-H]+, Rule of HR True", "198.96501": "Theoretical m/z 198'..b'68404, 2870255.0], [312.986211377174, 2448284.0], [313.019993142226, 1479514.0], [326.982724315442, 4863722.0], [344.975776862771, 10267994.0], [345.976092174038, 3016933.0], [346.046486912175, 1754291.0], [346.973191534072, 1590963.0], [382.97408022551, 1514772.0], [386.969422084375, 2096957.0], [402.964369782575, 1172149.0], [493.152823320977, 2513229.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "57", "compound_name": "C012", "retention_time": 687.83, "retention_index": 4134.613095, "peaks_json": [[78.0419846383593, 1742200.0], [79.0497716096318, 1893817.0], [85.0284186196566, 2191757.0], [121.046741626167, 6162741.0], [142.078087888737, 3381352.0], [192.997735629267, 9539743.0], [195.029110650825, 3772846.0], [205.016711322548, 5926636.0], [207.066696618797, 3714385.0], [209.098935410027, 6173585.0], [213.05754958053, 13341991.0], [219.06802937228, 2601724.0], [253.016653119059, 43935840.0], [269.047850642358, 4644691.0], [271.027137265637, 6759639.0], [281.085992168442, 2140320.0], [284.047997947258, 8403825.0], [311.073606748707, 3371803.0], [313.113777264345, 2391990.0], [325.985953604199, 8513850.0], [327.03525664153, 49155384.0], [328.035343658, 13109000.0], [329.014530869431, 3595462.0], [331.063707530223, 2063612.0], [343.084122931946, 3769846.0], [345.046169172075, 8812838.0], [353.090427317747, 2832675.0], [359.09769204202, 9873384.0], [360.028136457829, 10686927.0], [360.169639740951, 3818378.0], [371.040514349465, 1472266.0], [387.002413998209, 12940469.0], [387.071825807939, 15096984.0], [389.068871345424, 1810336.0], [402.055174276849, 12479459.0], [404.05195192305, 1405422.0], [458.971973456131, 1214840.0], [459.041861218696, 1286084.0], [460.952039584771, 4371596.0], [461.021207128847, 2869881.0], [461.090256355859, 17842323.0], [461.951796665319, 1222018.0], [462.091555156095, 6970195.0], [463.088708091285, 2556050.0], [475.072310244956, 13564752.0], [476.003821454759, 1471505.0], [476.143434019655, 13026182.0], [477.140480798609, 4944561.0], [478.141485242814, 1506934.0], [479.101672410454, 3603024.0], [490.12632015072, 18188437.0], [491.122346777972, 10290558.0], [549.162553092955, 24746614.0], [563.144239233773, 12735845.0], [624.183209223215, 7134906.0], [637.164550513183, 3866368.0], [698.205944560218, 1919968.0]]}, {"ionmode": "negative", "spectrumtype": "Centroid", "num_peaks": "43", "compound_name": "C020", "retention_time": 687.99, "retention_index": 4135.089286, "peaks_json": [[109.052235628516, 1922885.0], [111.044058476785, 1730416.0], [133.064909307365, 1579533.0], [137.041722086745, 2474039.0], [194.053642118165, 5252308.0], [212.061782732582, 10437319.0], [267.034768010352, 4429084.0], [267.068824022318, 27744081.0], [268.069192256745, 2367920.0], [310.970568727813, 3126083.0], [311.004219192148, 2666091.0], [325.055731606087, 7634729.0], [327.965549188207, 5442532.0], [328.962716535303, 2722019.0], [339.03821058645, 6627839.0], [341.051986399316, 1671451.0], [342.996634492902, 3939816.0], [345.115297423962, 3938049.0], [358.067243216398, 3526875.0], [361.025211906011, 6516476.0], [388.003000430725, 3422825.0], [388.073272089579, 4224454.0], [399.005054559559, 4141766.0], [401.984326631505, 5585170.0], [402.98179623463, 3562508.0], [416.036473280551, 7221552.0], [417.033665098569, 4129234.0], [417.087073648909, 1945166.0], [418.994970709551, 2648178.0], [430.088321970134, 10765018.0], [431.085366629672, 6887942.0], [473.09370665615, 2502410.0], [475.002854889036, 2969642.0], [475.14184210128, 30625723.0], [477.070907310139, 2271450.0], [489.055479984185, 1973511.0], [503.107930410573, 2407435.0], [549.092119293556, 2513579.0], [552.160354111203, 1673065.0], [565.143723544965, 3485979.0], [610.132183060405, 1997085.0], [625.181479977537, 3872339.0], [697.202597429349, 2820429.0]]}], "n_row": 170, "n_col": 51, "row": [], "col": [], "data": [], "dtype": [["CosineGreedy_0.1_0.0_1.0_score", "<f8"], ["CosineGreedy_0.1_0.0_1.0_matches", "<i8"]]}\n\\ No newline at end of file\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/spectral_similarity/test2.json
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/spectral_similarity/test2.json Tue Jun 27 14:29:16 2023 +0000
[
b'@@ -0,0 +1,1 @@\n+{"__Scores__": true, "is_symmetric": false, "references": [{"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "YNPNZTXNASCQKK-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C(C=CC=C1)C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "19", "compound_name": "Phenanthrene", "retention_time": null, "retention_index": 1832.9, "precursor_mz": 178.0775, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.01508, 137808.0], [75.02295, 278714.0], [76.03075, 608417.0], [87.02295, 304266.0], [88.03076, 497050.0], [89.03857, 441168.0], [98.01511, 150478.0], [150.04633, 868927.0], [151.05415, 546351.0], [152.0619, 2275502.0], [153.06528, 276320.0], [169.06468, 272559.0], [174.04636, 365846.0], [175.05423, 272039.0], [176.062, 3370523.0], [177.06982, 1751846.0], [178.0775, 13724432.0], [179.08078, 2250119.0], [180.08412, 138203.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C14H10", "inchikey": "MWPLVEDNUUSJAV-UHFFFAOYSA-N", "smiles": "C1=CC2=CC3=C(C=CC=C3)C=C2C=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "Anthracene", "retention_time": null, "retention_index": 1844.4, "precursor_mz": 178.07754, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[74.0151, 117371.0], [75.02296, 245305.0], [76.03077, 632686.0], [87.02297, 236214.0], [88.03078, 347832.0], [89.0386, 507288.0], [91.05425, 130861.0], [126.04636, 128356.0], [149.04478, 126331.0], [150.04637, 641829.0], [151.05415, 403195.0], [152.06195, 1369833.0], [153.06534, 175290.0], [169.06471, 228827.0], [174.04639, 255716.0], [175.05423, 198784.0], [176.06204, 2563053.0], [177.06984, 1182037.0], [178.07754, 11002398.0], [179.08081, 1778803.0], [180.08418, 132922.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "GVEPBJHOBDJJJI-UHFFFAOYSA-N", "smiles": "C1=CC2=C(C=C1)C1=C3C2=CC=CC3=CC=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "17", "compound_name": "Fluoranthene", "retention_time": null, "retention_index": 2102.7, "precursor_mz": 202.07756, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[75.02299, 112456.0], [87.02298, 183640.0], [88.03079, 367434.0], [99.02296, 124952.0], [100.03078, 376079.0], [101.03863, 381288.0], [150.04642, 86059.0], [174.04634, 246963.0], [176.06194, 141676.0], [198.0464, 244370.0], [199.05429, 285767.0], [200.06207, 1958890.0], [201.06982, 1103710.0], [202.07756, 8104188.0], [203.08084, 1377015.0], [204.08421, 98067.0], [219.08043, 186623.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10", "inchikey": "BBEAQIROQSPTKN-UHFFFAOYSA-N", "smiles": "C1=CC2=C3C(C=CC4=CC=CC(C=C2)=C34)=C1", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "16", "compound_name": "Pyrene", "retention_time": null, "retention_index": 2154.5, "precursor_mz": 202.07759, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[87.02299, 147113.0], [88.0308, 305149.0], [99.02298, 137042.0], [100.0308, 508914.0], [101.03864, 472094.0], [101.54032, 82430.0], [150.04637, 80741.0], [174.04631, 212706.0], [198.04643, 262925.0], [199.05429, 295144.0], [200.06209, 1960712.0], [201.06982, 1270466.0], [202.'..b'NDFUHDPQJ-UHFFFAOYSA-N", "smiles": "C1=CC=C(C=C1)C2=CC=C(C=C2)C3=CC=CC=C3", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "25", "compound_name": "para-Terphenyl", "retention_time": null, "retention_index": 2207.5, "precursor_mz": 230.10886, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[88.03077, 233962.0], [101.03861, 353544.0], [113.03854, 437845.0], [115.05423, 690291.0], [128.062, 293046.0], [151.05412, 266397.0], [152.06195, 961184.0], [153.06976, 409346.0], [176.06192, 232793.0], [189.06972, 408734.0], [200.0619, 342984.0], [201.06986, 238974.0], [202.07758, 1292332.0], [203.08093, 374439.0], [213.06973, 256631.0], [215.08548, 1220866.0], [216.08881, 217320.0], [224.062, 181393.0], [226.07771, 1503774.0], [227.08588, 1198323.0], [228.09344, 2885510.0], [229.10123, 1791323.0], [230.10886, 17890056.0], [231.11214, 3536976.0], [232.11542, 320231.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C16H10S", "inchikey": "YEUHHUCOSQOCIX-UHFFFAOYSA-N", "smiles": "S1C2=C(C=CC=C2)C2=C1C1=CC=CC=C1C=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "23", "compound_name": "Benzo[b]naphtho[2,1-d]thiophene", "retention_time": null, "retention_index": 2419.3, "precursor_mz": 234.04965, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[91.05425, 49130.0], [93.52686, 61653.0], [94.53469, 76638.0], [104.01679, 126871.0], [116.01675, 112547.0], [117.02459, 99108.0], [162.04623, 54491.0], [163.05408, 136418.0], [164.06198, 56321.0], [187.05406, 273349.0], [188.06189, 200750.0], [189.06969, 453336.0], [190.07306, 77884.0], [200.06189, 135620.0], [201.06973, 74692.0], [202.07758, 425058.0], [203.08086, 72058.0], [226.07762, 63460.0], [232.03409, 769638.0], [233.04245, 382457.0], [234.04965, 4404102.0], [235.05304, 725574.0], [236.04547, 251450.0]]}, {"scannumber": "-1", "ionmode": "positive", "spectrumtype": "Centroid", "formula": "C17H12", "inchikey": "HAPOJKSPCGLOOD-UHFFFAOYSA-N", "smiles": "C1C2=CC=CC=C2C2=C1C=C1C=CC=CC1=C2", "authors": "Price et al., RECETOX, Masaryk University (CZ)", "instrument": "Q Exactive GC Orbitrap GC-MS/MS", "ionization": "EI+", "license": "CC BY-NC", "peak_comments": null, "num_peaks": "21", "compound_name": "2,3-Benzofluorene", "retention_time": null, "retention_index": 2257.5, "precursor_mz": 216.09326, "adduct": "[M]+", "collision_energy": "70eV", "instrument_type": "GC-EI-Orbitrap", "peaks_json": [[93.52689, 122035.0], [94.53471, 241743.0], [95.03638, 42130.0], [105.52688, 47526.0], [106.53471, 171653.0], [107.03639, 60004.0], [107.5425, 180288.0], [108.03385, 97471.0], [163.05414, 68194.0], [187.05412, 167183.0], [188.06201, 86262.0], [189.06975, 239421.0], [190.07321, 37778.0], [211.05426, 117044.0], [212.06215, 60813.0], [213.0699, 808499.0], [214.07317, 202222.0], [215.0855, 3634570.0], [216.09326, 2535030.0], [217.09671, 444170.0], [218.09999, 37976.0]]}], "n_row": 7, "n_col": 7, "row": [0, 0, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 6, 6], "col": [0, 1, 0, 1, 2, 3, 2, 3, 4, 3, 4, 6, 5, 4, 6], "data": [[true, 1.0, 19], [true, 0.9986026416952778, 18], [true, 0.9986026416952778, 18], [true, 1.0, 21], [true, 0.9999999999999998, 17], [true, 0.999244339007754, 15], [true, 0.999244339007754, 15], [true, 1.0000000000000002, 16], [true, 0.07545864560115775, 6], [true, 0.07545864560115775, 6], [true, 1.0, 25], [true, 0.061706695748466586, 4], [true, 1.0, 23], [true, 0.061706695748466586, 4], [true, 1.0, 21]], "dtype": [["MetadataMatch_retention_index_difference_60.0_f0", "|b1"], ["CosineHungarian_0.1_0.0_1.0_score", "<f8"], ["CosineHungarian_0.1_0.0_1.0_matches", "<i8"]]}\n\\ No newline at end of file\n'
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/split/chunk-size/chunk_0.msp
--- a/test-data/split/chunk-size/chunk_0.msp Thu May 25 09:06:20 2023 +0000
+++ b/test-data/split/chunk-size/chunk_0.msp Tue Jun 27 14:29:16 2023 +0000
b
@@ -1,9 +1,6 @@
 SYNONYM: 1-NITROPYRENE
-DB#: JP000001
 INCHIKEY: ALRLPDGCPYIVHP-UHFFFAOYSA-N
-MW: 247.063328528
 FORMULA: C16H9NO2
-ACCESSION: JP000001
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -19,6 +16,8 @@
 MOLECULAR_FORMULA: C16H9NO2
 TOTAL_EXACT_MASS: 247.063328528
 COMPOUND_NAME: 1-NITROPYRENE
+SPECTRUM_ID: JP000001
+NOMINAL_MASS: 247.063328528
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 247.06333
 NUM PEAKS: 75
@@ -99,11 +98,8 @@
 248.0       10.16
 
 SYNONYM: 2,4-DINITROPHENOL
-DB#: JP000002
 INCHIKEY: UFBJCMHMOXMLKC-UHFFFAOYSA-N
-MW: 184.01202122799998
 FORMULA: C6H4N2O5
-ACCESSION: JP000002
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -119,6 +115,8 @@
 MOLECULAR_FORMULA: C6H4N2O5
 TOTAL_EXACT_MASS: 184.01202122799998
 COMPOUND_NAME: 2,4-DINITROPHENOL
+SPECTRUM_ID: JP000002
+NOMINAL_MASS: 184.01202122799998
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 184.01202
 NUM PEAKS: 64
@@ -188,11 +186,8 @@
 186.0       1.34
 
 SYNONYM: 3,4-DICHLOROPHENOL
-DB#: JP000003
 INCHIKEY: WDNBURPWRNALGP-UHFFFAOYSA-N
-MW: 161.963920108
 FORMULA: C6H4Cl2O
-ACCESSION: JP000003
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -208,6 +203,8 @@
 MOLECULAR_FORMULA: C6H4Cl2O
 TOTAL_EXACT_MASS: 161.963920108
 COMPOUND_NAME: 3,4-DICHLOROPHENOL
+SPECTRUM_ID: JP000003
+NOMINAL_MASS: 161.963920108
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 161.96392
 NUM PEAKS: 36
@@ -249,11 +246,8 @@
 166.0       9.78
 
 SYNONYM: 2,5-DICHLOROPHENOL
-DB#: JP000004
 INCHIKEY: RANCECPPZPIPNO-UHFFFAOYSA-N
-MW: 161.963920108
 FORMULA: C6H4Cl2O
-ACCESSION: JP000004
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -269,6 +263,8 @@
 MOLECULAR_FORMULA: C6H4Cl2O
 TOTAL_EXACT_MASS: 161.963920108
 COMPOUND_NAME: 2,5-DICHLOROPHENOL
+SPECTRUM_ID: JP000004
+NOMINAL_MASS: 161.963920108
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 161.96392
 NUM PEAKS: 44
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/split/chunk-size/chunk_1.msp
--- a/test-data/split/chunk-size/chunk_1.msp Thu May 25 09:06:20 2023 +0000
+++ b/test-data/split/chunk-size/chunk_1.msp Tue Jun 27 14:29:16 2023 +0000
b
@@ -1,9 +1,6 @@
 SYNONYM: 2,6-DICHLOROPHENOL
-DB#: JP000005
 INCHIKEY: HOLHYSJJBXSLMV-UHFFFAOYSA-N
-MW: 161.963920108
 FORMULA: C6H4Cl2O
-ACCESSION: JP000005
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -19,6 +16,8 @@
 MOLECULAR_FORMULA: C6H4Cl2O
 TOTAL_EXACT_MASS: 161.963920108
 COMPOUND_NAME: 2,6-DICHLOROPHENOL
+SPECTRUM_ID: JP000005
+NOMINAL_MASS: 161.963920108
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 161.96392
 NUM PEAKS: 33
@@ -57,11 +56,8 @@
 166.0       9.91
 
 SYNONYM: 2,3-DICHLOROPHENOL
-DB#: JP000006
 INCHIKEY: UMPSXRYVXUPCOS-UHFFFAOYSA-N
-MW: 161.963920108
 FORMULA: C6H4Cl2O
-ACCESSION: JP000006
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -77,6 +73,8 @@
 MOLECULAR_FORMULA: C6H4Cl2O
 TOTAL_EXACT_MASS: 161.963920108
 COMPOUND_NAME: 2,3-DICHLOROPHENOL
+SPECTRUM_ID: JP000006
+NOMINAL_MASS: 161.963920108
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 161.96392
 NUM PEAKS: 42
@@ -124,11 +122,8 @@
 166.0       7.58
 
 SYNONYM: 2,4-DICHLOROPHENOL
-DB#: JP000007
 INCHIKEY: HFZWRUODUSTPEG-UHFFFAOYSA-N
-MW: 161.963920108
 FORMULA: C6H4Cl2O
-ACCESSION: JP000007
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -144,6 +139,8 @@
 MOLECULAR_FORMULA: C6H4Cl2O
 TOTAL_EXACT_MASS: 161.963920108
 COMPOUND_NAME: 2,4-DICHLOROPHENOL
+SPECTRUM_ID: JP000007
+NOMINAL_MASS: 161.963920108
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 161.96392
 NUM PEAKS: 37
@@ -186,11 +183,8 @@
 166.0       9.19
 
 SYNONYM: 3,5-DICHLOROPHENOL
-DB#: JP000008
 INCHIKEY: VPOMSPZBQMDLTM-UHFFFAOYSA-N
-MW: 161.963920108
 FORMULA: C6H4Cl2O
-ACCESSION: JP000008
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -206,6 +200,8 @@
 MOLECULAR_FORMULA: C6H4Cl2O
 TOTAL_EXACT_MASS: 161.963920108
 COMPOUND_NAME: 3,5-DICHLOROPHENOL
+SPECTRUM_ID: JP000008
+NOMINAL_MASS: 161.963920108
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 161.96392
 NUM PEAKS: 32
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/split/chunk-size/chunk_2.msp
--- a/test-data/split/chunk-size/chunk_2.msp Thu May 25 09:06:20 2023 +0000
+++ b/test-data/split/chunk-size/chunk_2.msp Tue Jun 27 14:29:16 2023 +0000
b
@@ -1,9 +1,6 @@
 SYNONYM: 2,4,5-TRICHLOROPHENOL
-DB#: JP000009
 INCHIKEY: LHJGJYXLEPZJPM-UHFFFAOYSA-N
-MW: 195.924947756
 FORMULA: C6H3Cl3O
-ACCESSION: JP000009
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -19,6 +16,8 @@
 MOLECULAR_FORMULA: C6H3Cl3O
 TOTAL_EXACT_MASS: 195.924947756
 COMPOUND_NAME: 2,4,5-TRICHLOROPHENOL
+SPECTRUM_ID: JP000009
+NOMINAL_MASS: 195.924947756
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 195.92495
 NUM PEAKS: 65
@@ -89,11 +88,8 @@
 202.0       3.15
 
 SYNONYM: 2,4,6-TRICHLOROPHENOL
-DB#: JP000010
 INCHIKEY: LINPIYWFGCPVIE-UHFFFAOYSA-N
-MW: 195.924947756
 FORMULA: C6H3Cl3O
-ACCESSION: JP000010
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -109,6 +105,8 @@
 MOLECULAR_FORMULA: C6H3Cl3O
 TOTAL_EXACT_MASS: 195.924947756
 COMPOUND_NAME: 2,4,6-TRICHLOROPHENOL
+SPECTRUM_ID: JP000010
+NOMINAL_MASS: 195.924947756
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 195.92495
 NUM PEAKS: 66
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/split/num-chunks/chunk_0.msp
--- a/test-data/split/num-chunks/chunk_0.msp Thu May 25 09:06:20 2023 +0000
+++ b/test-data/split/num-chunks/chunk_0.msp Tue Jun 27 14:29:16 2023 +0000
b
@@ -1,9 +1,6 @@
 SYNONYM: 1-NITROPYRENE
-DB#: JP000001
 INCHIKEY: ALRLPDGCPYIVHP-UHFFFAOYSA-N
-MW: 247.063328528
 FORMULA: C16H9NO2
-ACCESSION: JP000001
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -19,6 +16,8 @@
 MOLECULAR_FORMULA: C16H9NO2
 TOTAL_EXACT_MASS: 247.063328528
 COMPOUND_NAME: 1-NITROPYRENE
+SPECTRUM_ID: JP000001
+NOMINAL_MASS: 247.063328528
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 247.06333
 NUM PEAKS: 75
@@ -99,11 +98,8 @@
 248.0       10.16
 
 SYNONYM: 3,4-DICHLOROPHENOL
-DB#: JP000003
 INCHIKEY: WDNBURPWRNALGP-UHFFFAOYSA-N
-MW: 161.963920108
 FORMULA: C6H4Cl2O
-ACCESSION: JP000003
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -119,6 +115,8 @@
 MOLECULAR_FORMULA: C6H4Cl2O
 TOTAL_EXACT_MASS: 161.963920108
 COMPOUND_NAME: 3,4-DICHLOROPHENOL
+SPECTRUM_ID: JP000003
+NOMINAL_MASS: 161.963920108
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 161.96392
 NUM PEAKS: 36
@@ -160,11 +158,8 @@
 166.0       9.78
 
 SYNONYM: 2,6-DICHLOROPHENOL
-DB#: JP000005
 INCHIKEY: HOLHYSJJBXSLMV-UHFFFAOYSA-N
-MW: 161.963920108
 FORMULA: C6H4Cl2O
-ACCESSION: JP000005
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -180,6 +175,8 @@
 MOLECULAR_FORMULA: C6H4Cl2O
 TOTAL_EXACT_MASS: 161.963920108
 COMPOUND_NAME: 2,6-DICHLOROPHENOL
+SPECTRUM_ID: JP000005
+NOMINAL_MASS: 161.963920108
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 161.96392
 NUM PEAKS: 33
@@ -218,11 +215,8 @@
 166.0       9.91
 
 SYNONYM: 2,4-DICHLOROPHENOL
-DB#: JP000007
 INCHIKEY: HFZWRUODUSTPEG-UHFFFAOYSA-N
-MW: 161.963920108
 FORMULA: C6H4Cl2O
-ACCESSION: JP000007
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -238,6 +232,8 @@
 MOLECULAR_FORMULA: C6H4Cl2O
 TOTAL_EXACT_MASS: 161.963920108
 COMPOUND_NAME: 2,4-DICHLOROPHENOL
+SPECTRUM_ID: JP000007
+NOMINAL_MASS: 161.963920108
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 161.96392
 NUM PEAKS: 37
@@ -280,11 +276,8 @@
 166.0       9.19
 
 SYNONYM: 2,4,5-TRICHLOROPHENOL
-DB#: JP000009
 INCHIKEY: LHJGJYXLEPZJPM-UHFFFAOYSA-N
-MW: 195.924947756
 FORMULA: C6H3Cl3O
-ACCESSION: JP000009
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -300,6 +293,8 @@
 MOLECULAR_FORMULA: C6H3Cl3O
 TOTAL_EXACT_MASS: 195.924947756
 COMPOUND_NAME: 2,4,5-TRICHLOROPHENOL
+SPECTRUM_ID: JP000009
+NOMINAL_MASS: 195.924947756
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 195.92495
 NUM PEAKS: 65
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/split/num-chunks/chunk_1.msp
--- a/test-data/split/num-chunks/chunk_1.msp Thu May 25 09:06:20 2023 +0000
+++ b/test-data/split/num-chunks/chunk_1.msp Tue Jun 27 14:29:16 2023 +0000
b
@@ -1,9 +1,6 @@
 SYNONYM: 2,4-DINITROPHENOL
-DB#: JP000002
 INCHIKEY: UFBJCMHMOXMLKC-UHFFFAOYSA-N
-MW: 184.01202122799998
 FORMULA: C6H4N2O5
-ACCESSION: JP000002
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -19,6 +16,8 @@
 MOLECULAR_FORMULA: C6H4N2O5
 TOTAL_EXACT_MASS: 184.01202122799998
 COMPOUND_NAME: 2,4-DINITROPHENOL
+SPECTRUM_ID: JP000002
+NOMINAL_MASS: 184.01202122799998
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 184.01202
 NUM PEAKS: 64
@@ -88,11 +87,8 @@
 186.0       1.34
 
 SYNONYM: 2,5-DICHLOROPHENOL
-DB#: JP000004
 INCHIKEY: RANCECPPZPIPNO-UHFFFAOYSA-N
-MW: 161.963920108
 FORMULA: C6H4Cl2O
-ACCESSION: JP000004
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -108,6 +104,8 @@
 MOLECULAR_FORMULA: C6H4Cl2O
 TOTAL_EXACT_MASS: 161.963920108
 COMPOUND_NAME: 2,5-DICHLOROPHENOL
+SPECTRUM_ID: JP000004
+NOMINAL_MASS: 161.963920108
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 161.96392
 NUM PEAKS: 44
@@ -157,11 +155,8 @@
 166.0       8.78
 
 SYNONYM: 2,3-DICHLOROPHENOL
-DB#: JP000006
 INCHIKEY: UMPSXRYVXUPCOS-UHFFFAOYSA-N
-MW: 161.963920108
 FORMULA: C6H4Cl2O
-ACCESSION: JP000006
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -177,6 +172,8 @@
 MOLECULAR_FORMULA: C6H4Cl2O
 TOTAL_EXACT_MASS: 161.963920108
 COMPOUND_NAME: 2,3-DICHLOROPHENOL
+SPECTRUM_ID: JP000006
+NOMINAL_MASS: 161.963920108
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 161.96392
 NUM PEAKS: 42
@@ -224,11 +221,8 @@
 166.0       7.58
 
 SYNONYM: 3,5-DICHLOROPHENOL
-DB#: JP000008
 INCHIKEY: VPOMSPZBQMDLTM-UHFFFAOYSA-N
-MW: 161.963920108
 FORMULA: C6H4Cl2O
-ACCESSION: JP000008
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -244,6 +238,8 @@
 MOLECULAR_FORMULA: C6H4Cl2O
 TOTAL_EXACT_MASS: 161.963920108
 COMPOUND_NAME: 3,5-DICHLOROPHENOL
+SPECTRUM_ID: JP000008
+NOMINAL_MASS: 161.963920108
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 161.96392
 NUM PEAKS: 32
@@ -281,11 +277,8 @@
 166.0       9.68
 
 SYNONYM: 2,4,6-TRICHLOROPHENOL
-DB#: JP000010
 INCHIKEY: LINPIYWFGCPVIE-UHFFFAOYSA-N
-MW: 195.924947756
 FORMULA: C6H3Cl3O
-ACCESSION: JP000010
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -301,6 +294,8 @@
 MOLECULAR_FORMULA: C6H3Cl3O
 TOTAL_EXACT_MASS: 195.924947756
 COMPOUND_NAME: 2,4,6-TRICHLOROPHENOL
+SPECTRUM_ID: JP000010
+NOMINAL_MASS: 195.924947756
 PRECURSOR_MZ: 0.0
 PARENT_MASS: 195.92495
 NUM PEAKS: 66
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/split/one-per-file/1NITROPYRENE.msp
--- a/test-data/split/one-per-file/1NITROPYRENE.msp Thu May 25 09:06:20 2023 +0000
+++ b/test-data/split/one-per-file/1NITROPYRENE.msp Tue Jun 27 14:29:16 2023 +0000
b
@@ -1,9 +1,6 @@
 SYNONYM: 1-NITROPYRENE
-DB#: JP000001
 INCHIKEY: ALRLPDGCPYIVHP-UHFFFAOYSA-N
-MW: 247.063328528
 FORMULA: C16H9NO2
-ACCESSION: JP000001
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -19,7 +16,9 @@
 MOLECULAR_FORMULA: C16H9NO2
 TOTAL_EXACT_MASS: 247.063328528
 COMPOUND_NAME: 1-NITROPYRENE
-PRECURSOR_MZ: 0
+SPECTRUM_ID: JP000001
+NOMINAL_MASS: 247.063328528
+PRECURSOR_MZ: 0.0
 PARENT_MASS: 247.06333
 NUM PEAKS: 75
 51.0        2.66
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/split/one-per-file/23DICHLOROPHENOL.msp
--- a/test-data/split/one-per-file/23DICHLOROPHENOL.msp Thu May 25 09:06:20 2023 +0000
+++ b/test-data/split/one-per-file/23DICHLOROPHENOL.msp Tue Jun 27 14:29:16 2023 +0000
b
@@ -1,9 +1,6 @@
 SYNONYM: 2,3-DICHLOROPHENOL
-DB#: JP000006
 INCHIKEY: UMPSXRYVXUPCOS-UHFFFAOYSA-N
-MW: 161.963920108
 FORMULA: C6H4Cl2O
-ACCESSION: JP000006
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -19,7 +16,9 @@
 MOLECULAR_FORMULA: C6H4Cl2O
 TOTAL_EXACT_MASS: 161.963920108
 COMPOUND_NAME: 2,3-DICHLOROPHENOL
-PRECURSOR_MZ: 0
+SPECTRUM_ID: JP000006
+NOMINAL_MASS: 161.963920108
+PRECURSOR_MZ: 0.0
 PARENT_MASS: 161.96392
 NUM PEAKS: 42
 51.0        4.43
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/split/one-per-file/245TRICHLOROPHENOL.msp
--- a/test-data/split/one-per-file/245TRICHLOROPHENOL.msp Thu May 25 09:06:20 2023 +0000
+++ b/test-data/split/one-per-file/245TRICHLOROPHENOL.msp Tue Jun 27 14:29:16 2023 +0000
b
@@ -1,9 +1,6 @@
 SYNONYM: 2,4,5-TRICHLOROPHENOL
-DB#: JP000009
 INCHIKEY: LHJGJYXLEPZJPM-UHFFFAOYSA-N
-MW: 195.924947756
 FORMULA: C6H3Cl3O
-ACCESSION: JP000009
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -19,7 +16,9 @@
 MOLECULAR_FORMULA: C6H3Cl3O
 TOTAL_EXACT_MASS: 195.924947756
 COMPOUND_NAME: 2,4,5-TRICHLOROPHENOL
-PRECURSOR_MZ: 0
+SPECTRUM_ID: JP000009
+NOMINAL_MASS: 195.924947756
+PRECURSOR_MZ: 0.0
 PARENT_MASS: 195.92495
 NUM PEAKS: 65
 51.0        2.58
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/split/one-per-file/246TRICHLOROPHENOL.msp
--- a/test-data/split/one-per-file/246TRICHLOROPHENOL.msp Thu May 25 09:06:20 2023 +0000
+++ b/test-data/split/one-per-file/246TRICHLOROPHENOL.msp Tue Jun 27 14:29:16 2023 +0000
b
@@ -1,9 +1,6 @@
 SYNONYM: 2,4,6-TRICHLOROPHENOL
-DB#: JP000010
 INCHIKEY: LINPIYWFGCPVIE-UHFFFAOYSA-N
-MW: 195.924947756
 FORMULA: C6H3Cl3O
-ACCESSION: JP000010
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -19,7 +16,9 @@
 MOLECULAR_FORMULA: C6H3Cl3O
 TOTAL_EXACT_MASS: 195.924947756
 COMPOUND_NAME: 2,4,6-TRICHLOROPHENOL
-PRECURSOR_MZ: 0
+SPECTRUM_ID: JP000010
+NOMINAL_MASS: 195.924947756
+PRECURSOR_MZ: 0.0
 PARENT_MASS: 195.92495
 NUM PEAKS: 66
 53.0        14.63
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/split/one-per-file/24DICHLOROPHENOL.msp
--- a/test-data/split/one-per-file/24DICHLOROPHENOL.msp Thu May 25 09:06:20 2023 +0000
+++ b/test-data/split/one-per-file/24DICHLOROPHENOL.msp Tue Jun 27 14:29:16 2023 +0000
b
@@ -1,9 +1,6 @@
 SYNONYM: 2,4-DICHLOROPHENOL
-DB#: JP000007
 INCHIKEY: HFZWRUODUSTPEG-UHFFFAOYSA-N
-MW: 161.963920108
 FORMULA: C6H4Cl2O
-ACCESSION: JP000007
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -19,7 +16,9 @@
 MOLECULAR_FORMULA: C6H4Cl2O
 TOTAL_EXACT_MASS: 161.963920108
 COMPOUND_NAME: 2,4-DICHLOROPHENOL
-PRECURSOR_MZ: 0
+SPECTRUM_ID: JP000007
+NOMINAL_MASS: 161.963920108
+PRECURSOR_MZ: 0.0
 PARENT_MASS: 161.96392
 NUM PEAKS: 37
 51.0        3.07
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/split/one-per-file/24DINITROPHENOL.msp
--- a/test-data/split/one-per-file/24DINITROPHENOL.msp Thu May 25 09:06:20 2023 +0000
+++ b/test-data/split/one-per-file/24DINITROPHENOL.msp Tue Jun 27 14:29:16 2023 +0000
b
@@ -1,9 +1,6 @@
 SYNONYM: 2,4-DINITROPHENOL
-DB#: JP000002
 INCHIKEY: UFBJCMHMOXMLKC-UHFFFAOYSA-N
-MW: 184.01202122799998
 FORMULA: C6H4N2O5
-ACCESSION: JP000002
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -19,7 +16,9 @@
 MOLECULAR_FORMULA: C6H4N2O5
 TOTAL_EXACT_MASS: 184.01202122799998
 COMPOUND_NAME: 2,4-DINITROPHENOL
-PRECURSOR_MZ: 0
+SPECTRUM_ID: JP000002
+NOMINAL_MASS: 184.01202122799998
+PRECURSOR_MZ: 0.0
 PARENT_MASS: 184.01202
 NUM PEAKS: 64
 51.0        27.22
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/split/one-per-file/25DICHLOROPHENOL.msp
--- a/test-data/split/one-per-file/25DICHLOROPHENOL.msp Thu May 25 09:06:20 2023 +0000
+++ b/test-data/split/one-per-file/25DICHLOROPHENOL.msp Tue Jun 27 14:29:16 2023 +0000
b
@@ -1,9 +1,6 @@
 SYNONYM: 2,5-DICHLOROPHENOL
-DB#: JP000004
 INCHIKEY: RANCECPPZPIPNO-UHFFFAOYSA-N
-MW: 161.963920108
 FORMULA: C6H4Cl2O
-ACCESSION: JP000004
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -19,7 +16,9 @@
 MOLECULAR_FORMULA: C6H4Cl2O
 TOTAL_EXACT_MASS: 161.963920108
 COMPOUND_NAME: 2,5-DICHLOROPHENOL
-PRECURSOR_MZ: 0
+SPECTRUM_ID: JP000004
+NOMINAL_MASS: 161.963920108
+PRECURSOR_MZ: 0.0
 PARENT_MASS: 161.96392
 NUM PEAKS: 44
 51.0        5.05
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/split/one-per-file/26DICHLOROPHENOL.msp
--- a/test-data/split/one-per-file/26DICHLOROPHENOL.msp Thu May 25 09:06:20 2023 +0000
+++ b/test-data/split/one-per-file/26DICHLOROPHENOL.msp Tue Jun 27 14:29:16 2023 +0000
b
@@ -1,9 +1,6 @@
 SYNONYM: 2,6-DICHLOROPHENOL
-DB#: JP000005
 INCHIKEY: HOLHYSJJBXSLMV-UHFFFAOYSA-N
-MW: 161.963920108
 FORMULA: C6H4Cl2O
-ACCESSION: JP000005
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -19,7 +16,9 @@
 MOLECULAR_FORMULA: C6H4Cl2O
 TOTAL_EXACT_MASS: 161.963920108
 COMPOUND_NAME: 2,6-DICHLOROPHENOL
-PRECURSOR_MZ: 0
+SPECTRUM_ID: JP000005
+NOMINAL_MASS: 161.963920108
+PRECURSOR_MZ: 0.0
 PARENT_MASS: 161.96392
 NUM PEAKS: 33
 53.0        7.25
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/split/one-per-file/34DICHLOROPHENOL.msp
--- a/test-data/split/one-per-file/34DICHLOROPHENOL.msp Thu May 25 09:06:20 2023 +0000
+++ b/test-data/split/one-per-file/34DICHLOROPHENOL.msp Tue Jun 27 14:29:16 2023 +0000
b
@@ -1,9 +1,6 @@
 SYNONYM: 3,4-DICHLOROPHENOL
-DB#: JP000003
 INCHIKEY: WDNBURPWRNALGP-UHFFFAOYSA-N
-MW: 161.963920108
 FORMULA: C6H4Cl2O
-ACCESSION: JP000003
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -19,7 +16,9 @@
 MOLECULAR_FORMULA: C6H4Cl2O
 TOTAL_EXACT_MASS: 161.963920108
 COMPOUND_NAME: 3,4-DICHLOROPHENOL
-PRECURSOR_MZ: 0
+SPECTRUM_ID: JP000003
+NOMINAL_MASS: 161.963920108
+PRECURSOR_MZ: 0.0
 PARENT_MASS: 161.96392
 NUM PEAKS: 36
 51.0        2.25
b
diff -r 8ae521f89988 -r 8147d93d372d test-data/split/one-per-file/35DICHLOROPHENOL.msp
--- a/test-data/split/one-per-file/35DICHLOROPHENOL.msp Thu May 25 09:06:20 2023 +0000
+++ b/test-data/split/one-per-file/35DICHLOROPHENOL.msp Tue Jun 27 14:29:16 2023 +0000
b
@@ -1,9 +1,6 @@
 SYNONYM: 3,5-DICHLOROPHENOL
-DB#: JP000008
 INCHIKEY: VPOMSPZBQMDLTM-UHFFFAOYSA-N
-MW: 161.963920108
 FORMULA: C6H4Cl2O
-ACCESSION: JP000008
 AUTHOR: KOGA M, UNIV. OF OCCUPATIONAL AND ENVIRONMENTAL HEALTH
 LICENSE: CC BY-NC-SA
 INSTRUMENT: VARIAN MAT-44
@@ -19,7 +16,9 @@
 MOLECULAR_FORMULA: C6H4Cl2O
 TOTAL_EXACT_MASS: 161.963920108
 COMPOUND_NAME: 3,5-DICHLOROPHENOL
-PRECURSOR_MZ: 0
+SPECTRUM_ID: JP000008
+NOMINAL_MASS: 161.963920108
+PRECURSOR_MZ: 0.0
 PARENT_MASS: 161.96392
 NUM PEAKS: 32
 51.0        1.24