{"doi":"10.1186/s12859-025-06319-6","title":"LOSTdb: a manually curated multi-omics database for lung cancer research","abstract":"Lung cancer is one of the most prevalent malignant tumors with high morbidity and mortality rates worldwide. Extensive multi-omics analyses have revealed significant intratumoral heterogeneity even within the same histopathological subtype. However, a database that systematically integrates multi-omics data for lung cancer research has long been lacking. Here, we developed LOSTdb, a molecular subtype annotation system for lung cancer that integrates multi-omics data and metadata. LOSTdb comprises 295 multi-omics datasets, including bulk RNA-seq, genomic, proteomic, methylation, and scRNA-seq data, with over 10,000 manually curated metadata entries. This resource encompasses high-quality clinical specimens, mouse models, and cell lines, totaling 34,393 samples and more than 1.2 million single cells. Each omics sample was annotated with both literature-based classical subtypes and NMF-derived meta-program (MP) subtypes. The platform supports cross-searching of omics and metadata at the gene and dataset levels, offers multiple visualization and analysis methods, and includes five tool modules, enabling functions such as integrated analysis, significance analysis between metadata as well as between genes and metadata, and target prediction for lung cancer molecular subtypes, serving as an essential tool for lung cancer precision medicine. LOSTdb is a user-friendly interactive database freely accessible at http://lostdbcancer.com:8080 .","journal":"BMC Bioinformatics","year":2025,"id":5759,"datarank":0.0,"base_score":0.0,"endowment":0.0,"self_citation_contribution":0.0,"citation_network_contribution":0.0,"self_endowment_contribution":0.0,"citer_contribution":0.0,"corpus_percentile":0.0,"corpus_rank":765,"citation_count":0,"citer_count":0,"citers_with_citation_signal":0,"citers_with_endowment":0,"datacite_reuse_total":0,"is_dataset":true,"is_dataset_confidence":0.9436,"is_oa":true,"file_count":0,"downloads":0,"has_version_chain":false,"published_date":"2025-12-03","fair_score":49.7917,"fair_percentile":77.9023746701847,"algorithm_id":"datarank_citation_only_1hop_v6","ranking_scope":"data_only","authors":[{"id":55800,"name":"Yunhao Yang","orcid":"0000-0002-7199-2508","position":1,"is_corresponding":false},{"id":55801,"name":"Zhipeng Gong","orcid":null,"position":2,"is_corresponding":false},{"id":55802,"name":"Lunxu Liu","orcid":"0000-0003-3964-5378","position":3,"is_corresponding":false},{"id":55803,"name":"Yaohui Chen","orcid":"0000-0002-3308-9174","position":4,"is_corresponding":false},{"id":55799,"name":"Hao Luo","orcid":"0000-0001-8165-5794","position":0,"is_corresponding":true}],"reference_count":58,"raw_metadata":{"citation_network_status":"fetched"},"created_at":"2026-03-01T18:20:47.508186Z","pmid":"41339793","pmcid":"PMC12676782","fwci":null,"citation_percentile":null,"influential_citations":0,"oa_status":null,"license":null,"views":0,"total_file_size_bytes":0,"version_count":0,"fair_f":65.0,"fair_a":67.5,"fair_i":25.0,"fair_r":41.6667,"fair_zscore":0.4143,"fair_rationale":{"fair_score":49.79,"has_llm":true,"dimensions":{"F":{"name":"Findable","score":65.0,"criteria":[{"key":"f_has_doi","label":"Has a persistent DOI","kind":"deterministic","weight":1.0,"fraction":1.0,"signal":"DOI present","rationale":null},{"key":"f_repository_presence","label":"Indexed in repositories / literature DBs","kind":"deterministic","weight":1.0,"fraction":1.0,"signal":"datacite=0, pmcid=True, pmid=True","rationale":null},{"key":"f_persistent_ids","label":"Resolvable scholarly identifiers (OpenAlex)","kind":"deterministic","weight":0.5,"fraction":0.0,"signal":"no OpenAlex id","rationale":null},{"key":"f_metadata_richness","label":"Rich, machine-readable metadata","kind":"llm","weight":1.0,"fraction":0.5,"signal":null,"rationale":"The paper describes manual curation of over 10,000 metadata entries and provides additional files, but does not mention use of machine-readable metadata standards (e.g., JSON-LD, schema.org) or formal ontologies."}]},"A":{"name":"Accessible","score":67.5,"criteria":[{"key":"a_open_access","label":"Open Access / files deposited","kind":"deterministic","weight":1.5,"fraction":1.0,"signal":"Open Access","rationale":null},{"key":"a_retrievable","label":"Free full text retrievable","kind":"deterministic","weight":1.0,"fraction":0.0,"signal":"0 OA location(s)","rationale":null},{"key":"a_access_protocol","label":"Clear data/code access protocol","kind":"llm","weight":1.0,"fraction":0.75,"signal":null,"rationale":"The database is freely accessible at a specified URL without registration, and supplementary data are deposited in Zenodo, but there is no explicit description of an API or a formal authentication/authorization protocol."}]},"I":{"name":"Interoperable","score":25.0,"criteria":[{"key":"i_linked_data","label":"Linked datasets / DataCite relations","kind":"deterministic","weight":1.0,"fraction":0.0,"signal":"linked_datasets=0, datacite=0","rationale":null},{"key":"i_standard_ids","label":"References data via standard accessions","kind":"deterministic","weight":1.0,"fraction":0.0,"signal":"accessions=0, trials=0","rationale":null},{"key":"i_standards","label":"Standard formats, vocabularies & identifiers","kind":"llm","weight":1.0,"fraction":0.5,"signal":null,"rationale":"Standard formats (e.g., MAF, VCF) are used for some omics data types, but the paper does not specify use of community-standard file formats or controlled vocabularies for metadata across all data types."}]},"R":{"name":"Reusable","score":41.67,"criteria":[{"key":"r_license","label":"Clear, open reuse license","kind":"deterministic","weight":1.5,"fraction":0.0,"signal":"no license","rationale":null},{"key":"r_downloads","label":"Demonstrated reuse (downloads)","kind":"deterministic","weight":0.5,"fraction":0.0,"signal":"downloads=0","rationale":null},{"key":"r_version","label":"Versioned / maintained","kind":"deterministic","weight":0.5,"fraction":0.0,"signal":"no version chain","rationale":null},{"key":"r_dataset","label":"Classified as a data resource","kind":"deterministic","weight":0.5,"fraction":1.0,"signal":"is_dataset","rationale":null},{"key":"r_reusability","label":"Data-availability statement, license & reproducibility","kind":"llm","weight":2.0,"fraction":0.667,"signal":null,"rationale":"A data-availability statement is present with a link to Zenodo and GitHub for code, and the article is under a Creative Commons license (CC BY-NC-ND 4.0), but the license restricts derivative works, and reproducibility details (e.g., exact software versions for all steps) are not fully specified."}]}},"suggestions":["Add machine-readable metadata (e.g., JSON-LD or RDF) with version and persistent identifiers for the database.","Provide a REST API for programmatic access to the database content.","Use community-standard file formats universally and include controlled vocabularies (e.g., OBO Foundry ontologies) for metadata annotations.","Replace the CC BY-NC-ND license with a less restrictive license (e.g., CC BY 4.0) to permit derivative works and enhance reusability.","Publish a containerized version of the analysis pipeline (e.g., Docker/Singularity) with exact software versions to ensure reproducibility."],"model":"deepseek/deepseek-v4-flash","agent_version":"fair_agent_v2","fulltext_source":"epmc_xml"},"fair_model":"deepseek/deepseek-v4-flash","fair_agent_version":"fair_agent_v2","fair_fulltext_source":"epmc_xml","fair_has_llm":true,"fair_computed_at":"2026-06-18T06:48:31.927412Z","clinical_trials":[],"software_tools":[],"db_accessions":[],"linked_datasets":[],"topics":[]}