当前位置：首页 > news >正文

给会所做网站无锡企业建站系统

news 2025/11/22 15:40:47

给会所做网站,无锡企业建站系统,打扑克的直播软件下载,购物网站名字大全1. 数据获取方法掌握公开数据集的使用、数据质量评估指标、了解常见的网络爬虫技术 #x1f9e9; 一、公开数据集的使用 ✅ 常见平台#xff08;一定要熟#xff09; 平台简介示例数据集Hugging Face Datasets专注 NLP、CV 领域的大模型训练数据集库IMDB、SQuAD、Common …1. 数据获取方法掌握公开数据集的使用、数据质量评估指标、了解常见的网络爬虫技术一、公开数据集的使用 ✅ 常见平台一定要熟平台简介示例数据集Hugging Face Datasets专注 NLP、CV 领域的大模型训练数据集库IMDB、SQuAD、Common Crawl、wikitextKaggle各类竞赛高质量数据集泰坦尼克号、生物医学、情感分析等UCI 数据库经典机器学习数据集Iris、成人收入预测Google Dataset Search谷歌开放数据搜索引擎全球各类开放数据OpenAI, Meta, Google AI提供 LLM 训练的部分公开数据说明WebText、C4、The Pile 等间接获取 ✅ 如何使用 Hugging Face 数据集 from datasets import load_datasetdataset load_dataset(imdb) # 电影评论情感分析数据 print(dataset[train][0])✅ 数据集自动缓存下载内置分词、预处理功能适合训练 Transformer 类模型 ✅ 面试押题 Q你如何选择用于训练大模型的数据集 A我会优先考虑数据规模、质量、语料多样性和开放协议比如使用 Hugging Face 上的 C4、The Pile 数据集同时避免版权风险。二、数据质量评估指标为了训练高质量模型数据本身也要“干净、全面、有代表性” 维度评估指标说明完整性缺失值率、字段覆盖率是否有字段缺失或样本丢失一致性重复样本率、一致编码同一类型样本是否标准化准确性噪音率、标签准确度标签是否正确是否有错别字等多样性词汇丰富度、类别平衡是否只集中在少量领域或话题偏差性来源是否单一、过拟合语料检查是否存在训练偏差 ✅ 可视化检查方法分析 label 分布条形图检查文本长度分布去重、清洗、分词分析使用 TF-IDF/Embedding 评估内容多样性 ✅ 面试押题 Q你怎么评估一个 NLP 数据集的质量 A 分析标签分布是否平衡检查是否有重复或乱码数据看语料是否覆盖目标领域或任务 ️ 三、网络爬虫技术实战原理如果找不到合适的数据集可以自己爬 ✅ 爬虫常用库使用 Python 的 requests 库等发送 HTTP 请求获取网页内容然后通过解析库如 BeautifulSoup 或 lxml 来解析 HTML 页面提取所需的数据。这种方法简单灵活适用于大多数网页的爬取。工具用途requests发送 HTTP 请求获取网页源码BeautifulSoup解析 HTML 页面提取文本Selenium控制浏览器适合动态加载网页Scrapy 死磕rai皮强大的爬虫框架适合大型项目playwright新一代浏览器自动化效率高 ✅ 简单示例爬百度百科某个词条 import requests from bs4 import BeautifulSoupurl https://baike.baidu.com/item/人工智能 headers {User-Agent: Mozilla/5.0} html requests.get(url, headersheaders).text soup BeautifulSoup(html, html.parser)content soup.find_all(div, {class: lemma-summary}) print(content[0].text.strip())✅ 面试押题 Q你如何获取训练语料是否使用过爬虫答如果没有现成数据我会用 requests BeautifulSoup 爬取新闻、百科等对于需要登录或动态加载的页面会使用 Selenium 或 Playwright ✅ 总结三大能力表格能力工具是否面试重点公共数据获取HuggingFace、Kaggle、UCI✅✅✅数据质量评估可视化分析、分布检查、清洗✅✅网络爬虫requests、Selenium、Scrapy✅✅ 2. 数据清洗技术熟悉常见的文本去重算法原理、如 MinHash了解常见训练数据配比策略如代码、数学、通用知识问答等各种占比多少比较合理第一部分文本去重算法原理为什么需要文本去重减少重复内容带来的模型偏置降低训练成本提高数据多样性提升模型在真实应用场景下的泛化能力常见去重算法对比 1 Exact Match精确匹配原理精确匹配是一种最简单的文本匹配方法它直接比较两个文本是否完全相同。在这种方法中只有当两个文本的每个字符都完全一致时才认为它们是匹配的。优点代码实现简单不需要复杂的算法和模型只需要进行字符串的直接比较代码实现简单易懂。结果明确匹配结果清晰不存在模糊性能够准确判断两个文本是否完全相同。缺点缺乏灵活性对文本的变化非常敏感即使两个文本在语义上非常相似但只要存在一个字符的差异就会被判定为不匹配。适用范围有限在实际应用中由于文本的表达方式多样很难出现完全相同的文本因此精确匹配的应用场景受到很大限制。适用场景适用于对文本准确性要求极高且文本表达方式相对固定的场景如数据库中的主键匹配、文件的哈希值比对等。 2. Jaccard 相似度原理Jaccard 相似度用于衡量两个集合之间的相似程度其计算公式为 (J(A,B)\frac{|A\cap B|}{|A\cup B|})其中 (A) 和 (B) 是两个集合(|A\cap B|) 表示两个集合的交集元素个数(|A\cup B|) 表示两个集合的并集元素个数。对于文本数据通常将文本转换为词集合或 n - 元组集合来计算 Jaccard 相似度。优点简单直观基于集合的交集和并集计算相似度概念简单容易理解和实现。对文本长度不敏感Jaccard 相似度只关注集合中元素的共同性不依赖于文本的长度因此在处理不同长度的文本时具有较好的稳定性。缺点忽略词序将文本转换为集合后会忽略词的顺序信息导致一些语义相近但词序不同的文本可能被判定为相似度较低。对停用词敏感如果文本中包含大量的停用词如“的”“是”“在”等这些停用词会影响集合的交集和并集计算从而降低相似度计算的准确性。适用场景适用于对词序不太敏感更关注文本中词汇共同性的场景如文档分类、网页去重等。 3. MinHash 原理MinHash 算法基于 Jaccard 相似度用于快速估算两个集合之间的 Jaccard 相似度。具体步骤如下将文本分割成若干个小块形成一个集合。使用多个不同的哈希函数对集合中的每个元素进行哈希计算对于每个哈希函数记录集合中元素的最小值哈希值这些最小值构成了该集合的 MinHash 签名。通过比较两个集合的 MinHash 签名中相同元素的比例来近似估算它们的 Jaccard 相似度。优点计算效率高MinHash 算法可以在不计算集合交集和并集的情况下快速估算 Jaccard 相似度尤其适用于大规模数据的处理。节省存储空间只需要存储 MinHash 签名而不需要存储完整的文本集合大大节省了存储空间。缺点近似计算存在误差MinHash 是一种近似算法估算的 Jaccard 相似度可能与真实值存在一定的误差。哈希函数选择和数量影响准确性哈希函数的选择和数量会影响 MinHash 签名的质量和相似度计算的准确性。适用场景适用于大规模文本数据的去重、聚类等任务在处理海量数据时能够显著提高效率。 4. SimHash 原理SimHash 是一种用于快速计算文本相似度的局部敏感哈希Locality-Sensitive Hashing, LSH算法。其核心思想是将高维特征向量映射为低维的固定长度指纹fingerprint并通过比较指纹的海明距离Hamming Distance来衡量文本之间的相似性。主要用于处理大规模文本的近似去重。具体步骤如下特征提取将文本分词并为每个词计算一个特征向量通常使用词的哈希值。加权根据词的重要性如 TF - IDF 值为每个特征向量赋予权重。合并特征向量将所有加权后的特征向量相加得到一个综合的特征向量。二值化将综合特征向量的每个维度根据正负值转换为 0 或 1得到 SimHash 值。相似度计算通过比较两个文本的 SimHash 值的汉明距离即两个二进制串中不同位的数量来判断它们的相似度汉明距离越小文本越相似。优点高效性SimHash 算法的计算复杂度较低能够快速计算文本的哈希值适用于大规模文本数据的处理。对局部修改有一定的鲁棒性文本的局部修改对 SimHash 值的影响较小能够在一定程度上识别出语义相近的文本。缺点对语义理解不足SimHash 主要基于文本的词法特征对语义信息的捕捉能力有限可能会将一些语义不同但词法相似的文本判定为相似。汉明距离阈值难以确定选择合适的汉明距离阈值来判断文本是否相似是一个挑战不同的数据集和应用场景可能需要不同的阈值。适用场景适用于大规模文本的近似去重如网页去重、新闻文章去重等。 5. BERT Embedding 相似度阈值原理文本编码使用预训练的 BERT 模型将文本转换为固定长度的向量表示即 BERT Embedding。BERT 模型能够学习到文本的语义信息将文本映射到一个低维的向量空间中。相似度计算计算两个文本 BERT Embedding 之间的相似度常用的相似度度量方法有余弦相似度、欧氏距离等。阈值判断设定一个相似度阈值当两个文本的相似度超过该阈值时认为它们是相似的。优点语义理解能力强BERT 模型能够捕捉文本的语义信息对语义相近但表达方式不同的文本有较好的识别能力。通用性好适用于各种类型的文本匹配任务不需要针对特定的领域进行复杂的特征工程。缺点计算成本高BERT 模型是一个大型的深度学习模型计算 BERT Embedding 需要较高的计算资源和时间成本。阈值选择困难相似度阈值的选择需要根据具体的数据集和应用场景进行调整不同的阈值可能会导致不同的匹配结果。适用场景适用于对语义理解要求较高的文本匹配任务如语义搜索、问答系统等。算法原理简述特点场景适用Exact Match哈希后全匹配快但只对完全重复有效小规模清洗Jaccard 相似度比较词集合的交集/并集简单直观但计算慢精确清洗MinHash快速估算 Jaccard 相似度高效、可扩展、用于大规模数据大模型文本去重首选SimHash把文本映射为指纹向量快速近似查重局部敏感哈希适合短文本如微博BERT Embedding 相似度阈值用 BERT 提取语义再计算余弦相似度语义去重但耗时大高质量语料过滤 ✅ 面试押题 Q大模型训练前你如何对大规模语料做去重答小数据量用 exact match 或 Jaccard大规模语料我会用 MinHash 或 SimHash 实现高效去重对于语义层的重复我会用 BERT 向量检索方式做精细化清洗。第二部分大模型训练数据的配比策略大模型的训练效果很大程度取决于不同类型数据的配比策略。以下是常见的训练数据构成比例以语言模型训练为主数据类型内容示例推荐占比说明网页语料Common Crawl, Wikipedia, Reddit30%~40%多样性强、通用性广书籍/论文类Books3, arXiv, PubMed10%~15%提升专业表达能力问答类数据SQuAD, NaturalQuestions5%~10%优化 QA 能力对话类语料OpenSubtitles, ShareGPT10%~20%提升对话能力代码语料GitHub, CodeSearchNet5%~10%提升代码生成/理解数学/逻辑类MATH, GSM8K, ProofPilot5%~8%提升推理能力多语言语料CC100, mC45%~15%提升多语种能力如训练 GPT4 不同模型如 GPT vs. 专用模型会微调配比。举个例子LLaMA 训练数据比例Meta LLaMA 用了 Common Crawl、C4、Books、ArXiv 等数据强调多语种高质量书面语书籍语料占比更高用于提升文本生成质量。 ✅ 面试押题 Q你如何设计大模型训练数据的配比策略答我会参考现有模型如 LLaMA、Bloom的经验构建多元数据池保证语料覆盖常识、问答、代码、对话、数学等多场景同时考虑 token 分布平衡避免某类数据主导模型行为总结一句话文本去重要选对算法MinHash 精准又高效数据配比要“广精多样”让模型具备语言理解、推理、生成等多项能力。

查看全文

http://www.zqtcl.cn/news/388846/