<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>分词 - 标签 - Luhong's Blog</title><link>https://blog.luhg.cn/tags/%E5%88%86%E8%AF%8D/</link><description>分词 - 标签 - Luhong's Blog</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><lastBuildDate>Tue, 09 Jun 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://blog.luhg.cn/tags/%E5%88%86%E8%AF%8D/" rel="self" type="application/rss+xml"/><item><title>04BPE、WordPiece、SentencePiece 详解</title><link>https://blog.luhg.cn/04bpewordpiecesentencepiece-%E8%AF%A6%E8%A7%A3/</link><pubDate>Tue, 09 Jun 2026 00:00:00 +0000</pubDate><author>Luhong</author><guid>https://blog.luhg.cn/04bpewordpiecesentencepiece-%E8%AF%A6%E8%A7%A3/</guid><description><![CDATA[<h1 id="为什么需要分词bpewordpiecesentencepiece-详解">为什么需要分词？BPE、WordPiece、SentencePiece 详解</h1>
<blockquote>
<p>模型不认识字母，只认识数字。但在把文字变成数字之前，还有一个容易被忽略却极其关键的步骤——<strong>分词</strong>。</p>
</blockquote>
<hr>
<h2 id="引言一个被咬了一口的苹果">引言：一个被咬了一口的苹果</h2>
<p>想象一下：</p>
<p>我递给你一个完整的苹果，你可以直接吃。
但如果我递给你的是<strong>已经切成块的苹果</strong>，你只需要拿起一块放嘴里就行了——更省事。</p>]]></description></item></channel></rss>