在当前目录中存在文件名为"case1.in"(其中case后为数字1,不是字母l,写错提交后会判错)的文本文件,其内容为一篇英文文章(以EOF作为结束标志)。现要求读取该文本文件内容,统计文章中每个单词出现的次数,并输出出现次数最多的前5个单词及其出现次数(按出现次数由多到少的顺序输出,次数相同时按字典顺序输出,不足5个单词时,按序输出全部单词)。程序中注意如下细节:
(1) 空格、标点符号与回车符起到分隔单词的作用。
(2) 文章一行的末尾可能有连字符,出现连字符时,该行最末的字符串与下行最先出现的字符串构一个单词;
(3) 名词缩写算一个单词;
(4) 数字不算单词;
(5) 单词不区分大小写;
(6) 输出时单词全使用小写;
#include “stdio.h”
#include “math.h”
#include “string.h”
#include “stdlib.h”
_______________________
main()
{
_______________________
}
整体思路:
①声明一个二维数组作为单词表,将文件中的字符一个一个读出来,按照条件组成单词,每个单词储存在二维数组的一行中,每读取一个单词就按字典顺序进行排序,读完之后的单词表就是按字典顺序排好的,但还有重复
②定义一个结构体变量,用结构体变量储存单词并记录其出现的次数
③在不打乱单词表顺序的前提下按照次数进行排序,排出满足条件的前五个进行输出
代码实现:
#include "stdio.h"
#include "math.h"
#include "string.h"
#include "stdlib.h"
struct infomation //用结构体变量记录单词及其出现的次数
{
char eng[21];
int quantity;
};
void sort(char a[][21], char current[21], int row) //用插入排序把已有的单词排序
{ //注:因为 current实际上是存有单词的最后一行,所以下面的 a[row+1] 就是 current
int i = 0, j, k, m=0;
if(strcmp(current , a[i]) <= 0) //如果 current里的单词排在第一位
{ //把在数组中所有单词都往后移一行
for(j = row ; j >= 0; j--)
{
strcpy(a[j+1] , a[j]) ;
}
strcpy(a[0] , a[row+1]) ; //再把 current里的单词放到 a[0] 里
while((*a[row+1]+m) != 0 && m < 20) //把 current的内容清空,以免影响之后的单词读取
{ //其实这里可以用 memset() 函数,但一开始没想到
*(a[row+1]+m) = 0; //为了珍惜自己的劳动成果,选择保留
m++ ;
}
}
else if(strcmp(current , a[0]) > 0) //如果 current里的单词应该放在第一位之后
{
k = 0 ;
while(strcmp(current , a[k]) > 0) //找到要插入 current的位置
{
k++ ;
}
for(j = row ; j >= k ; j--)
{
strcpy(a[j+1] , a[j]) ; //把 a[k]及之后的单词都往后移一行
}
strcpy(a[k] , a[row+1]); //再把 current里的单词放到 a[k]里
while((*a[row+1]+m) != 0 && m < 20) //清空 current
{
*(a[row+1]+m) = 0;
m++ ;
}
}
}
int count(char a[][21], int n) //计算有多少个不同的单词,为创建结构体数组做准备
{
int i = 0, amount = 0;
while(a[i] != 0 && i < n)
{
if(strcmp(a+i , a+(i+1)) != 0) //因为在这一步之前已经把单词排好序
{ //所以有几个 strcmp(a+i,a+(i+1))!=0 就有几个单词
amount++ ;
}
i++ ;
}
return amount ;
}
main()
{
FILE *fp ;
fp = fopen("case1.in" , "r") ;
char word[10000][21] ;
char ch , pre , temp ; //ch用来读取字符,pre记录 ch之前的字符,temp记录'-'
int n = 0, i = 0, amount ;
while((ch = fgetc(fp)) != EOF)
{
if(ch == '-') //读取到'-'
{
temp = '-' ; //把'-'记下来
continue ; //读取下一个
}
if(temp =='-' && ch != '\n')
{ //如果前一个是'-'且 ch不是'\n',说明前面已经读取到一个单词
temp = 0 ;
if(*word[n] != 0) //如果当前 word[n]里有单词
{
sort(word, word[n], n) ; //把当前这个单词排序
n++ ; //下一行
i = 0 ; //下一行从头开始存字符
pre = ch ;
}
}
if(temp == '-' && ch == '\n')
{ //如果'-'之后是'\n',说明下一行的字符要接在 pre后面
temp = 0 ; //把 temp赋为空,以免影响后续判断
continue ;
}
if(((32 <= ch && ch < '-') || ('-' < ch && ch <= 64) || ch =='\n') && ('A' <= pre && pre <= 'Z' || 'a' <= pre && pre <= 'z') )
{ //如果读取到的字符是空格、标点符号或者'\n',说明前一个单词读取完毕
if(*word[n] != 0)
{
sort(word, word[n], n) ; //将已有单词排序
n++ ; //读取下一个单词
i = 0 ;
pre = ch ;
}
}
if('A' <= ch && ch <= 'Z' || 'a' <= ch && ch <= 'z')
{ //如果读到字母就储存下来
if('A' <= ch && ch <= 'Z')
ch += 32 ;
word[n][i++] = ch ;
pre = ch ; // 读取下一个字符前把当前字符记下来
}
}
i = 0 ;
fclose(fp) ;
amount = count(word , n) ; //统计有多少个不同的单词
if(amount < 5) //如果不足5个单词,直接按序输出
{
for(i = 0 ; i < amount ; i++)
{
if(strcmp(word[i] , word[i+1]) != 0)
printf("%s\n", word[i]) ;
}
}
if(amount >= 5)
{
struct infomation max[amount] ;
strcpy(max[0].eng , word[0]) ; //先把 word[0]放到 max[0].eng中
i = 0 ;
int j = 0 , k ;
max[j].quantity = 0 ;
while(i <= n) //遍历单词表进行单词计数
{
if(strcmp(max[j].eng , word[i]) == 0)
{
max[j].quantity++ ; //如果 max[j].eng 与 word[i]一样,计数加一
}
else //如果不一样,把下一个单词存到下一个结构体中
{
j++ ;
max[j].quantity=1 ; //当读到一个不一样的单词时计数从1开始
strcpy(max[j].eng , word[i]) ;
}
i++ ;
}
struct information tmp ;
for(i = 0 ; i < 5 ; i++) //选择和插入结合排序结构体数组,排出现次数最多的前五个就可以了,节约时间
{
k = i ;
for( j = i+1 ; j < amount ; j++)
{
if(max[j].quantity > max[k].quantity)
k = j ;
}
if(k != i)
{
tmp = max[k] ;
for(j = k ; j > i ; j--) //这里不能直接交换 max[k]和max[j],那样会把顺序打乱
{
max[j] = max[j-1] ; //而是把i到k的结构体往后移一位
}
max[i] = tmp ; //最后把 max[k]放到 max[i]的位置
}
}
for(i = 0 ; i < 5 ; i++)
{
printf("%s %d\n",max[i].eng , max[i].quantity) ; //输出排完序的前五个结构体里的单词及其次数
}
}
}